WO2014000536A1 - 一种钓鱼网站识别系统及方法 - Google Patents

一种钓鱼网站识别系统及方法 Download PDF

Info

Publication number
WO2014000536A1
WO2014000536A1 PCT/CN2013/075949 CN2013075949W WO2014000536A1 WO 2014000536 A1 WO2014000536 A1 WO 2014000536A1 CN 2013075949 W CN2013075949 W CN 2013075949W WO 2014000536 A1 WO2014000536 A1 WO 2014000536A1
Authority
WO
WIPO (PCT)
Prior art keywords
domain name
website
string
target domain
identified
Prior art date
Application number
PCT/CN2013/075949
Other languages
English (en)
French (fr)
Inventor
陈营营
Original Assignee
北京奇虎科技有限公司
奇智软件(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京奇虎科技有限公司, 奇智软件(北京)有限公司 filed Critical 北京奇虎科技有限公司
Priority to US14/411,466 priority Critical patent/US9531751B2/en
Publication of WO2014000536A1 publication Critical patent/WO2014000536A1/zh
Priority to US15/359,131 priority patent/US9954895B2/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/30Managing network names, e.g. use of aliases or nicknames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Definitions

  • the present invention relates to the field of network security technologies, and in particular, to a phishing website identification system and method. Background technique
  • the main phishing website identification technology is to collect a common phishing website, create a knowledge base, and then calculate the similarity between the newly discovered web page and the phishing website in the knowledge base to determine whether it is a phishing website.
  • the above method of identifying a phishing website through the phishing website knowledge base usually only identifies a phishing website of a known category, and is not identifiable for a new type of phishing website. For example, when there is only a phishing website related to a Chinese bank in the phishing website knowledge base, The phishing website of ICBC is not recognized. Summary of the invention
  • the present invention has been made in order to provide a phishing website identification system and method that overcomes the above problems or at least partially solves or alleviates the above problems.
  • a phishing website identification system including: a domain name obtaining unit, a domain name statistic unit, and a website identifying unit;
  • the domain name obtaining unit is configured to collect all the links that appear in the website to be identified, and obtain the domain name corresponding to the link;
  • the domain name statistics unit is configured to count the number of times the domain name appears in the website to be identified, and find The domain name that is the most frequently occurring is recorded as the target domain name.
  • the website identification unit is adapted to determine whether the website to be identified is a phishing website according to the target domain name and the domain name of the website to be identified.
  • a phishing website identification method including the steps of: collecting all the links appearing in the website to be identified, obtaining the domain name corresponding to the link; and counting the domain name in the website to be identified The number of occurrences, the most frequently occurring domain name is found as the target domain name; and the website to be identified is determined to be a phishing website according to the target domain name and the domain name of the website to be identified.
  • a computer program is provided, comprising computer readable code, when the computer readable code is run on a server, causing the server to perform any of claims 10-18 The phishing website identification method.
  • a computer readable medium wherein the computer program according to claim 19 is stored.
  • the phishing website identification system and method of the present invention can identify a phishing website based on the link relationship in the website, and can effectively identify a new type of phishing website; at the same time, it is beneficial to enrich the number and type of phishing websites in the phishing website library, and is convenient Further phishing website identification and searching has broad application prospects in the field of network security.
  • FIG. 1 is a block diagram showing the structure of a phishing website identification system according to a first embodiment of the present invention
  • FIG. 2 is a block diagram showing the structure of the website identification unit
  • FIG. 3 is a schematic structural diagram of a module of the identification subunit
  • FIG. 5 is a block diagram of a phishing website identification system according to a second embodiment of the present invention
  • FIG. 6 is a flowchart of a phishing website identification method according to a third embodiment of the present invention.
  • FIG. 7 is a flowchart of a phishing website identification method according to a fourth embodiment of the present invention.
  • Figure 8 is a schematic block diagram showing a server for performing the method according to the present invention.
  • FIG. 9 schematically shows a storage unit for holding or carrying program code implementing the method according to the invention. Specific embodiment The invention is further described below in conjunction with the drawings and specific embodiments.
  • 1 is a block diagram of a phishing website identification system according to the first embodiment of the present invention. As shown in FIG. 1, the system includes: a domain name obtaining unit 100, a domain name statistic unit 200, and a website identifying unit 300.
  • the domain name obtaining unit 100 is adapted to collect all the links that appear in the website to be identified, and obtain the domain name corresponding to the link.
  • the domain name corresponding to the link here is the absolute address of the link, and if the link appearing in the website to be identified adopts a relative address, it needs to be converted into an absolute address.
  • the domain name statistic unit 200 is adapted to count the number of occurrences of the domain name in the website to be identified, and find the domain name with the most occurrences, and record it as the target domain name.
  • the domain name statistic unit 200 generates a key-value table by using the domain name as the key and the number of occurrences as the value, and then sorting the domain names according to the value of the value in the table to obtain the domain name with the most occurrences.
  • the website identifying unit 300 is adapted to determine, according to the target domain name and the self-domain name of the website to be identified, whether the website to be identified is a phishing website.
  • the website identification unit 300 further includes: a comparison subunit 310 and an identification subunit 320.
  • the comparing subunit 310 is adapted to compare the target domain name with the self domain name and compare the phishing website.
  • the identifying sub-unit 320 is configured to calculate, when the target domain name is different from the self-domain name, a ratio between the number of occurrences of the target domain name and the number of occurrences of the self-domain name, and calculate the target domain name and The similarity between the self-domain names, and further determining whether the website to be identified is a phishing website according to the ratio and the similarity.
  • FIG. 3 is a schematic diagram of a module structure of the identification subunit. As shown in FIG. 3, the identification subunit 320 further includes: a ratio calculation module 321, a similarity calculation module 322, and a determination module 323.
  • the ratio calculation module 321 is adapted to calculate a ratio between the number of occurrences of the target domain name and the number of occurrences of the own domain name.
  • the similarity calculation module 322 is adapted to calculate a similarity between the target domain name and the self domain name.
  • the similarity calculation module 322 further includes: a string comparison submodule 322a, an initial value calculation submodule 322b, and a final value calculation submodule 322c. .
  • the string comparison sub-module 322a is adapted to construct a string of the target domain name and the self a comparison array of strings of the domain name, setting a string of the target domain name in a first row of the comparison array and maintaining a fixed position, and setting a string of the domain name to a second row of the comparison array And move from left to right to compare the overlapping characters in the two lines of strings.
  • the initial value calculation sub-module 322b is configured to calculate a first similarity calculation value Qi between the target domain name and the self-domain name when the first character of the target domain name is aligned with the tail character of the self-domain name.
  • Calculating a second similarity calculation value Q 2 between the target domain name and the self domain name when the second character of the target domain name is aligned with the tail character of the own domain name; and so on, when the target When the trailing character of the domain name is aligned with the first character of the self-domain name, calculating a m-th similarity calculation value Q m between the target domain name and the self-domain name; wherein m ni+n 2 -l , m represents The string length of the target domain name, n 2 represents the string length of the own domain name.
  • the first similarity calculation value ⁇ is calculated by using the following formula:
  • the number of characters in the string of the self-domain name and the string of the target domain name; the string representing the domain name and the string of the target domain name The number of characters of the long string; the overlap ratio of the string of the self-domain name and the string of the target domain name in the first comparison; the string and the domain name of the self-domain name in the second comparison
  • the character string of the target domain name the number of overlapping and identical characters
  • M indicating the matching ratio of the character string of the self domain name to the character string of the target domain name in the first comparison.
  • the first similarity calculation value ⁇ may also be calculated as follows :
  • the number of characters overlapping and identical in the character string of the target domain name is calculated, and the number of overlapping and identical characters is used as the first similarity calculation value Qi.
  • the first similarity calculation value ⁇ For the calculation method of the first similarity calculation value ⁇ ; some well-known existing methods may also be used, and since they are not the focus of the present invention, they are not described herein again.
  • the final value calculation sub-module 322c is adapted to calculate the similarity between the target domain name and the self-domain name according to the following formula.
  • the determining module 323 is adapted to determine whether the ratio and the similarity satisfy a condition: the ratio is greater than a predetermined ratio, and the similarity is greater than a predetermined threshold; if satisfied, determining that the website to be identified is a phishing website; Otherwise, it is determined that the website to be identified is not a phishing website.
  • the predetermined ratio and the predetermined threshold may be set and adjusted according to actual usage. In this embodiment, the predetermined ratio is preferably 1.0, and the predetermined threshold is preferably 80%.
  • FIG. 5 is a schematic structural diagram of a module of the phishing website identification system according to the second embodiment of the present invention. As shown in FIG. 5, the system in the embodiment is basically the same as the system in the first embodiment, and the difference is only in the implementation. The system described further includes: a website acquisition unit 000 and a supplemental identification unit 400.
  • the website obtaining unit 000 is adapted to find a new website as a website to be identified. Under normal circumstances, phishing websites are mostly new websites. Therefore, by setting the website acquisition unit 000 and only using the new website as the website to be identified, the recognition range of the phishing website can be narrowed, and the accuracy and speed of identification can be improved. For the search of a new website, you can use the following methods: Monitor the search engine result page by specific keywords; or, through the client, discover websites with very few Internet users.
  • the supplementary identification unit 000 is adapted to display the judgment result as a website to be identified of the phishing website as a suspicious website, and supplementally identify the suspicious website, and if the recognition result indicates that the suspicious website is still a phishing website , the suspicious website is sent to the phishing website library.
  • the supplemental identification can be done manually. By setting the supplementary identification unit 000, the accuracy of the phishing website identification can be further improved.
  • FIG. 6 is a flowchart of a method for identifying a phishing website according to Embodiment 3 of the present invention. As shown in FIG. 6, the method includes the following steps:
  • A Collect all the links that appear in the website to be identified, and get the domain name corresponding to the link.
  • the domain name corresponding to the link is the absolute address of the link.
  • the step C further includes the steps of: CI: determining whether the target domain name is the same as the self-domain name, and if yes, determining that the website to be identified is not a phishing website, ending the process; otherwise, performing step C2;
  • C2 calculating a ratio between the number of occurrences of the target domain name and the number of occurrences of the self-domain name, and a similarity between the target domain name and the self-domain name, and determining the location according to the ratio and the similarity degree Describe whether the website is a phishing website.
  • the step C2 further includes the steps of:
  • C21 Calculate the ratio between the number of occurrences of the target domain name and the number of occurrences of the own domain name.
  • C22 Calculate the similarity between the target domain name and the self domain name.
  • the step C22 further includes the steps of:
  • C221 Build an array of the comparison between the string of the target domain name and the string of the domain name, set a string of the target domain name in the first row of the comparison array and keep the location fixed, and the self domain name is The string is set in the second row of the contrast array and moves from left to right, comparing the overlapping characters in the two lines of strings.
  • C222 When the first character of the target domain name is aligned with the tail character of the own domain name, calculate a first similarity calculation value Qi between the target domain name and the self domain name; and when the target domain name is the second When the character is aligned with the tail character of the self-domain name, calculating a second similarity calculation value Q 2 between the target domain name and the self-domain name; and so on, when the tail character of the target domain name and the self-domain name are When the first character is aligned, calculating a m- th similarity calculation value Q m between the target domain name and the self-domain name; wherein, n ⁇ + -l , represents a string length of the target domain name, and n 2 represents The length of the string of its own domain name.
  • the third degree similarity calculation value may also be calculated as follows.
  • the number of characters overlapping and identical in the character string of the target domain name and the character string of the own domain name is calculated, and the number of overlapping and identical characters is used as the similarity calculation value Qi.
  • C223 Calculate the similarity between the target domain name and the self-domain name according to the following formula.
  • C23 determining whether the following condition is satisfied: the ratio is greater than a predetermined ratio, and the similarity is greater than a predetermined threshold; if yes, determining that the website to be identified is a phishing website; otherwise, determining that the website to be identified is not a phishing website.
  • FIG. 7 is a flowchart of a method for identifying a phishing website according to Embodiment 4 of the present invention. As shown in FIG. 7, the method described in this embodiment is basically the same as the method described in Embodiment 3, and the difference is only:
  • Step A is also included before the step A, and the new website is found as the website to be identified.
  • the method further includes the step D: displaying the judgment result as the website to be identified of the phishing website as a suspicious website, and performing supplementary recognition on the suspicious website, and displaying, in the recognition result, the suspicious website is still a phishing website.
  • the suspicious website is sent to the phishing website library.
  • the supplemental identification can be performed by manual review.
  • the phishing website identification system and method according to the embodiment of the present invention can identify the phishing website based on the link relationship in the website, and can effectively identify the new type of phishing website; at the same time, it is beneficial to enrich the number and type of phishing websites in the phishing website library. It is convenient for further phishing website identification and searching, and has broad application prospects in the field of network security.
  • the various component embodiments of the present invention may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or all of the functionality of some or all of the components of the phishing website identification system in accordance with embodiments of the present invention.
  • the invention can also be implemented as a device or device program (e.g., a computer program and a computer program product) for performing some or all of the methods described herein.
  • a program implementing the present invention may be stored on a computer readable medium, or It can have the form of one or more signals. Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form.
  • Fig. 8 shows a server, such as an application server, that can implement the phishing website identification method according to the present invention.
  • the server conventionally includes a processor 810 and a computer program product or computer readable medium in the form of a memory 820.
  • Memory 820 can be an electronic memory such as flash memory, EEPROM (Electrically Erasable Programmable Read Only Memory), EPROM, hard disk, or ROM.
  • Memory 820 has a memory space 830 for program code 831 for performing any of the above methods.
  • storage space 830 for program code may include various program code 831 for implementing various steps in the above methods, respectively. These program code can be read from or written to one or more computer program products.
  • Such computer program products include program code carriers such as hard disks, compact disks (CDs), memory cards or floppy disks.
  • Such a computer program product is typically a portable or fixed storage unit as described with reference to Figure 9.
  • the storage unit may have a storage section, a storage space, and the like arranged similarly to the storage 820 in the server of Fig. 8.
  • the program code can be compressed, for example, in an appropriate form.
  • the storage unit includes computer readable code 83, i.e., code that can be read by, for example, a processor such as 810, which when executed by the server causes the server to perform various steps in the methods described above.
  • an embodiment or “one or more embodiments” as used herein means that the particular features, structures, or characteristics described in connection with the embodiments are included in at least one embodiment of the invention.
  • the phrase “in one embodiment” herein does not necessarily refer to the same embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种钓鱼网站识别系统及方法,涉及网络安全领域。所述系统包括:域名获取单元、域名统计单元和网站识别单元;所述域名获取单元,适于收集待识别网站中出现的所有链接,得到所述链接对应的域名;所述域名统计单元,适于统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域名,记作目标域名;所述网站识别单元,适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。所述系统及方法,基于网站中的链接关系进行钓鱼网站的识别,可以有效识别新类型的钓鱼网站;同时,有利于丰富钓鱼网站库中钓鱼网站的数量和类型,便于进一步的钓鱼网站识别和查找,在网络安全领域具有广泛的应用前景。

Description

一种钓鱼网站识别系统及方法
技术领域
本发明涉及网络安全技术领域, 特别涉及一种钓鱼网站识别系统及 方法。 背景技术
随着互联网的发展, 网民数量逐年增加。 在上网时, 除了传统的木马、 病毒的威胁, 近两年钓鱼网站的数量大幅增加。
当前主要的钓鱼网站识别技术是通过收集常见的钓鱼网站, 制作成知识 库, 再计算新发现的网页与知识库中的钓鱼网站的相似度, 从而判断是否是 钓鱼网站。
上述通过钓鱼网站知识库识别钓鱼网站的方法,通常只能识别已知类别 的钓鱼网站, 对于新类型的钓鱼网站则无法识别, 比如钓鱼网站知识库内只 有中国银行相关的钓鱼网站时, 对于仿冒工商银行的钓鱼网站就无法识别。 发明内容
鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者至少 部分地解决或者减緩上述问题的钓鱼网站识别系统及方法。
根据本发明的一个方面, 提供了一种钓鱼网站识别系统, 其包括: 域 名获取单元、 域名统计单元和网站识别单元;
所述域名获取单元, 适于收集待识别网站中出现的所有链接, 得到所述 链接对应的域名; 所述域名统计单元, 适于统计所述域名在所述待识别网站 中出现的次数, 找到出现次数最多的域名, 记作目标域名; 所述网站识别单 元,适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网 站是否是钓鱼网站。
根据本发明的另一个方面, 提供了一种钓鱼网站识别方法, 其包括步 骤: 收集待识别网站中出现的所有链接, 得到所述链接对应的域名; 统计所 述域名在所述待识别网站中出现的次数, 找到出现次数最多的域名, 记作目 标域名; 根据所述目标域名与所述待识别网站的自身域名判断所述待识别网 站是否是钓鱼网站。 根据本发明的又一个方面, 提供了一种计算机程序, 其包括计算机可读 代码, 当所述计算机可读代码在服务器上运行时, 导致所述服务器执行根据 权利要求 10-18中的任一个所述的钓鱼网站识别方法。
根据本发明的再一个方面, 提供了一种计算机可读介质, 其中存储了如 权利要求 19所述的计算机程序。
本发明的有益效果为:
本发明的所述钓鱼网站识别系统及方法,基于网站中的链接关系进行钓 鱼网站的识别, 可以有效识别新类型的钓鱼网站; 同时, 有利于丰富钓鱼网 站库中钓鱼网站的数量和类型, 便于进一步的钓鱼网站识别和查找, 在网络 安全领域具有广泛的应用前景。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上述和其它 目的、 特征和优点能够更明显易懂, 以下特举本发明的具体实施方式。 附图说明
通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对 于本领域普通技术人员将变得清楚明了。 附图仅用于示出优选实施方式 的目的, 而并不认为是对本发明的限制。 而且在整个附图中, 用相同的 参考符号表示相同的部件。 在附图中:
图 1是依据本发明实施例一的钓鱼网站识别系统的模块结构示意图; 图 2是所述网站识别单元的模块结构示意图;
图 3是所述识别子单元的模块结构示意图;
图 4是所述相似度计算模块的模块结构示意图;
图 5是依据本发明实施例二的钓鱼网站识别系统的模块结构示意图; 图 6是依据本发明实施例三的钓鱼网站识别方法的流程图;
图 7是依据本发明实施例四的钓鱼网站识别方法的流程图
图 8示意性地示出了用于执行根据本发明的方法的服务器的框图; 以及
图 9示意性地示出了用于保持或者携带实现根据本发明的方法的程 序代码的存储单元。 具体实施例 下面结合附图和具体的实施方式对本发明作进一步的描述。 图 1是本发明实施例一所述钓鱼网站识别系统的模块结构示意图,如图 1 所示, 所述系统包括: 域名获取单元 100、 域名统计单元 200和网站识别单元 300。
所述域名获取单元 100, 适于收集待识别网站中出现的所有链接, 得到 所述链接对应的域名。 这里所述链接对应的域名为所述链接的绝对地址,如 果所述待识别网站中出现的链接采用相对地址, 需要将其转换为绝对地址。
所述域名统计单元 200, 适于统计所述域名在所述待识别网站中出现的 次数, 找到出现次数最多的域名, 记作目标域名。 所述域名统计单元 200会 以域名为 key, 以出现次数为 value, 生成一个 key- value表格, 然后根据表格 中 value的数值, 对域名进行排序, 得到出现次数最多的域名。
所述网站识别单元 300, 适于根据所述目标域名与所述待识别网站的自 身域名判断所述待识别网站是否是钓鱼网站。
图 2是所述网站识别单元的模块结构示意图, 如图 2所示, 所述网站识 别单元 300进一步包括: 比较子单元 310和识别子单元 320。
所述比较子单元 310, 适于比较所述目标域名与所述自身域名, 并在比 钓鱼网站。
所述识别子单元 320, 适于在所述目标域名与所述自身域名不同时, 计 算所述目标域名的出现次数与所述自身域名的出现次数之间的比例, 以及计 算所述目标域名与所述自身域名之间的相似度, 进而根据所述比例和所述相 似度判断所述待识别网站是否是钓鱼网站。
图 3是所述识别子单元的模块结构示意图, 如图 3所示, 所述识别子单元 320进一步包括: 比例计算模块 321、 相似度计算模块 322和判断模块 323。
所述比例计算模块 321 , 适于计算所述目标域名的出现次数与所述自身 域名的出现次数之间的比例。
所述相似度计算模块 322, 适于计算所述目标域名与所述自身域名之间 的相似度。
图 4是所述相似度计算模块的模块结构示意图, 如图 4所示, 所述相似 度计算模块 322进一步包括:字符串对比子模块 322a、初值计算子模块 322b 和终值计算子模块 322c。
所述字符串对比子模块 322a,适于构建所述目标域名的字符串与所述自 身域名的字符串的对比阵列,将所述目标域名的字符串设置在所述对比阵列 的第一行并保持位置固定,将所述自身域名的字符串设置在所述对比阵列的 第二行并自左向右移动, 对两行字符串中重叠的字符进行对比。
所述初值计算子模块 322b,适于当所述目标域名的首字符与所述自身域 名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计 算值 Qi ; 当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算 所述目标域名与所述自身域名之间的第二相似度计算值 Q2;依次类推, 当所 述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与 所述自身域名之间的第 m相似度计算值 Qm; 其中, m=ni+n2-l , m表示所述 目标域名的字符串长度, n2表示所述自身域名的字符串长度。
其中,所述初值计算子模块 322b中,利用如下公式计算第 相似度计算 值 β :
Figure imgf000006_0001
其中, 为自然数, 并且, l≤≤m; 并且,
其中, 表示在第 次对比时, 所述自身域名的字符串与所述目标域名 的字符串中, 重叠的字符个数; 表示所述自身域名的字符串与所述目标 域名的字符串中较长字符串的字符个数; 表示在第 次对比时, 所述自身 域名的字符串与所述目标域名的字符串的重叠率; 表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符串中, 重叠并且相同的字符个 数; M,表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符 串的匹配率。
举例来讲, 假设自身域名为 boc.cn自左向右移动, 目标域名为 cocc.cn 保持位置固定。 在第 1次对比时, 只有字符 n与字符 c重叠, 相应地 r7=l , ^=0; 在第 2次对比时, 字符 n与字符 0重叠, 字符 c与字符 c重叠, 相应 地 r2=2, =1。
另外, 所述初值计算子模块中, 还可以利用如下方式计算第 相似度计 算值 β :
在第 次对比时, 计算所述目标域名的字符串与所述自身域名的字符串 中重叠并且相同的字符个数, 将所述重叠并且相同的字符个数作为第 相似 度计算值 Qi。 对于第 相似度计算值 β;的计算方式, 还可以采用一些公知现有方法, 由于其非本发明重点, 在此不再贅述。
所述终值计算子模块 322c,适于根据下述公式计算得到所述目标域名与 所述自身域名之间的相似度 Q
em«
Figure imgf000007_0001
, Q2 , Q3 , . . . . . . Qm}。
所述判断模块 323 , 适于判断所述比例和所述相似度是否满足条件: 所 述比例大于预定比例, 并且所述相似度大于预定阈值; 如果满足, 判定所述 待识别网站是钓鱼网站; 否则, 判定所述待识别网站不是钓鱼网站。 所述预 定比例和所述预定阈值可以根据实际使用情况进行设置和调整, 本实施例, 所述预定比例优选为 1.0, 所述预定阈值优选为 80%。
图 5是本发明实施例二所述钓鱼网站识别系统的模块结构示意图,如图 5所示, 本实施例所述系统与实施例一所述系统基本相同, 其不同之处仅在 于, 本实施例所述系统还包括: 网站获取单元 000和补充识别单元 400。
所述网站获取单元 000, 适于查找新建网站以作为待识别网站。 一般情 况下, 钓鱼网站多是新建网站, 因此, 通过设置所述网站获取单元 000, 只 将新建网站作为待识别网站, 可以缩小钓鱼网站的识别范围, 提高识别的准 确度和速度。 对于新建网站的查找可以采用如下方法: 通过特定关键词监控 搜索引擎结果页; 或者, 通过客户端发现网民访问量极少的网站。
所述补充识别单元 000, 适于将判断结果显示为钓鱼网站的待识别网站 记作可疑网站, 并对所述可疑网站进行补充识别, 在识别结果显示所述可疑 网站仍为钓鱼网站的情况下, 将所述可疑网站送入钓鱼网站库。 所述补充识 别可以采用人工审查的方式。 通过设置所述补充识别单元 000, 可以进一步 提高钓鱼网站识别的准确度。
图 6是本发明实施例三所述钓鱼网站识别方法的流程图, 如图 6所示, 所 述方法包括步骤:
A: 收集待识别网站中出现的所有链接, 得到所述链接对应的域名。 所 述链接对应的域名为所述链接的绝对地址。
B: 统计所述域名在所述待识别网站中出现的次数, 找到出现次数最多 的域名, 记作目标域名。
C: 根据所述目标域名与所述待识别网站的自身域名判断所述待识别网 站是否是钓鱼网站。
所述步骤 C进一步包括步骤: CI : 判断所述目标域名与所述自身域名是否相同, 如果是, 判定所述待 识别网站不是钓鱼网站, 结束流程; 否则, 执行步骤 C2;
C2:计算所述目标域名的出现次数与所述自身域名的出现次数之间的比 例, 以及所述目标域名与所述自身域名之间的相似度, 根据所述比例和所述 相似度判断所述待识别网站是否是钓鱼网站。
所述步骤 C2进一步包括步骤:
C21 : 计算所述目标域名的出现次数与所述自身域名的出现次数之间的 比例。
C22: 计算所述目标域名与所述自身域名之间的相似度。
所述步骤 C22进一步包括步骤:
C221 : 构建所述目标域名的字符串与所述自身域名的字符串的对比阵 列, 将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固 定, 将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移 动, 对两行字符串中重叠的字符进行对比。
C222: 当所述目标域名的首字符与所述自身域名的尾字符对齐时, 计算 所述目标域名与所述自身域名之间的第一相似度计算值 Qi;当所述目标域名 的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身 域名之间的第二相似度计算值 Q2;依次类推, 当所述目标域名的尾字符与所 述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第 m 相似度计算值 Qm; 其中, n^ + -l , 表示所述目标域名的字符串长度, n2表示所述自身域名的字符串长度。
所述步骤 C222中, 第 相似度计算值 Qi的计算公式如下:
Figure imgf000008_0001
其中, 为自然数, 并且, l≤≤m; 并且,
M sjn 其中, 表示在第 次对比时, 所述自身域名的字符串与所述目标域名 的字符串中, 重叠的字符个数; 表示所述自身域名的字符串与所述目标 域名的字符串中较长字符串的字符个数; 表示在第 次对比时, 所述自身 域名的字符串与所述目标域名的字符串的重叠率; 表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符串中, 重叠并且相同的字符个 数; M,表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符 串的匹配率。
另外, 所述步骤 C222中, 也可以利用如下方式计算第 相似度计算值
Q :
在第 次对比时, 计算所述目标域名的字符串与所述自身域名的字符串 中重叠并且相同的字符个数, 将所述重叠并且相同的字符个数作为第 相似 度计算值 Qi。
C223:根据下述公式计算得到所述目标域名与所述自身域名之间的相似 度 β
Figure imgf000009_0001
Q2 , Q3 , . . . . . . Qm}。
C23: 判断是否满足以下条件: 所述比例大于预定比例, 并且所述相似 度大于预定阈值; 如果是, 判定所述待识别网站是钓鱼网站; 否则, 判定所 述待识别网站不是钓鱼网站。
图 7是本发明实施例四所述钓鱼网站识别方法的流程图, 如图 7所示, 本 实施例所述方法与实施例三所述方法基本相同, 其不同之处仅在于:
在所述步骤 A之前还包括步骤 A,: 查找新建网站以作为待识别网站。 对 于新建网站的查找可以采用如下方法: 通过特定关键词监控搜索引擎结果 页; 或者, 通过客户端发现网民访问量极少的网站。
在所述步骤 C之后还包括步骤 D: 将判断结果显示为钓鱼网站的待识别 网站记作可疑网站, 并对所述可疑网站进行补充识别, 在识别结果显示所述 可疑网站仍为钓鱼网站的情况下, 将所述可疑网站送入钓鱼网站库。 所述补 充识别可以采用人工审查的方式。
本发明实施例所述钓鱼网站识别系统及方法,基于网站中的链接关系进 行钓鱼网站的识别, 可以有效识别新类型的钓鱼网站; 同时, 有利于丰富钓 鱼网站库中钓鱼网站的数量和类型, 便于进一步的钓鱼网站识别和查找,在 网络安全领域具有广泛的应用前景。
本发明的各个部件实施例可以以硬件实现, 或者以在一个或者多个 处理器上运行的软件模块实现, 或者以它们的组合实现。 本领域的技术 人员应当理解, 可以在实践中使用微处理器或者数字信号处理器 (DSP ) 来实现根据本发明实施例的钓鱼网站识别系统中的一些或者全部部件的 一些或者全部功能。 本发明还可以实现为用于执行这里所描述的方法的 一部分或者全部的设备或者装置程序 (例如, 计算机程序和计算机程序 产品) 。 这样的实现本发明的程序可以存储在计算机可读介质上, 或者 可以具有一个或者多个信号的形式。 这样的信号可以从因特网网站上下 载得到, 或者在载体信号上提供, 或者以任何其他形式提供。
例如, 图 8示出了可以实现根据本发明的钓鱼网站识别方法的服务 器, 例如应用服务器。 该服务器传统上包括处理器 810和以存储器 820 形式的计算机程序产品或者计算机可读介质。 存储器 820可以是诸如闪 存、 EEPROM (电可擦除可编程只读存储器) 、 EPROM、 硬盘或者 ROM 之类的电子存储器。 存储器 820具有用于执行上述方法中的任何方法步 骤的程序代码 831的存储空间 830。 例如, 用于程序代码的存储空间 830 可以包括分别用于实现上面的方法中的各种步骤的各个程序代码 831。这 些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一 个或者多个计算机程序产品中。 这些计算机程序产品包括诸如硬盘, 紧 致盘 (CD ) 、 存储卡或者软盘之类的程序代码载体。 这样的计算机程序 产品通常为如参考图 9所述的便携式或者固定存储单元。 该存储单元可 以具有与图 8的服务器中的存储器 820类似布置的存储段、 存储空间等。 程序代码可以例如以适当形式进行压缩。 通常, 存储单元包括计算机可 读代码 83 Γ , 即可以由例如诸如 810之类的处理器读取的代码, 这些代 码当由服务器运行时, 导致该服务器执行上面所描述的方法中的各个步 骤。
本文中所称的 "一个实施例"、 "实施例"或者"一个或者多个实施例 "意 味着, 结合实施例描述的特定特征、 结构或者特性包括在本发明的至少 一个实施例中。 此外, 请注意, 这里"在一个实施例中"的词语例子不一定 全指同一个实施例。
在此处所提供的说明书中, 说明了大量具体细节。 然而, 能够理解, 中, 并未详细示出公知的方法、 结构和技术, 以便不模糊对本说明书的 理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限 制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计 出替换实施例。 在权利要求中, 不应将位于括号之间的任何参考符号构 造成对权利要求的限制。单词"包含"不排除存在未列在权利要求中的元件 或步骤。 位于元件之前的单词 "一"或"一个"不排除存在多个这样的元件。 本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计 算机来实现。 在列举了若干装置的单元权利要求中, 这些装置中的若干 个可以是通过同一个硬件项来具体体现。 单词第一、 第二、 以及第三等 的使用不表示任何顺序。 可将这些单词解释为名称。
此外, 还应当注意, 本说明书中使用的语言主要是为了可读性和教 导的目的而选择的, 而不是为了解释或者限定本发明的主题而选择的。 因此, 在不偏离所附权利要求书的范围和精神的情况下, 对于本技术领 域的普通技术人员来说许多修改和变更都是显而易见的。 对于本发明的 范围, 对本发明所做的公开是说明性的, 而非限制性的, 本发明的范围 由所附权利要求书限定。

Claims

权 利 要 求
1、 一种钓鱼网站识别系统, 其包括: 域名获取单元、 域名统计单元和 网站识别单元;
所述域名获取单元, 适于收集待识别网站中出现的所有链接, 得到所述 链接对应的域名;
所述域名统计单元, 适于统计所述域名在所述待识别网站中出现的次 数, 找到出现次数最多的域名, 记作目标域名;
所述网站识别单元,适于根据所述目标域名与所述待识别网站的自身域 名判断所述待识别网站是否是钓鱼网站。
2、 如权利要求 1所述的系统, 其中, 所述网站识别单元包括: 比较子 单元和识别子单元;
所述比较子单元, 适于比较所述目标域名与所述自身域名, 并在比较结 果显示所述目标域名与所述自身域名相同时, 判定所述待识别网站不是钓鱼 网站;
所述识别子单元, 适于在所述目标域名与所述自身域名不同时, 计算所 述目标域名的出现次数与所述自身域名的出现次数之间的比例, 以及计算所 述目标域名与所述自身域名之间的相似度, 进而根据所述比例和所述相似度 判断所述待识别网站是否是钓鱼网站。
3、 如权利要求 2所述的系统, 其中, 所述识别子单元包括: 比例计算 模块、 相似度计算模块和判断模块;
所述比例计算模块,适于计算所述目标域名的出现次数与所述自身域名 的出现次数之间的比例;
所述相似度计算模块,适于计算所述目标域名与所述自身域名之间的相 似度;
所述判断模块, 适于判断所述比例和所述相似度是否满足条件: 所述比 例大于预定比例, 并且所述相似度大于预定阈值; 如果满足, 判定所述待识 别网站是钓鱼网站; 否则, 判定所述待识别网站不是钓鱼网站。
4、 如权利要求 3所述的系统, 其中, 所述相似度计算模块包括: 字符 串对比子模块、 初值计算子模块和终值计算子模块;
所述字符串对比子模块,适于构建所述目标域名的字符串与所述自身域 名的字符串的对比阵列,将所述目标域名的字符串设置在所述对比阵列的第 一行并保持位置固定,将所述自身域名的字符串设置在所述对比阵列的第二 行并自左向右移动, 对两行字符串中重叠的字符进行对比; 尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值
Qi ; 当所述目标域名的第二字符与所述自身域名的尾字符对齐时, 计算所述 目标域名与所述自身域名之间的第二相似度计算值 Q2;依次类推, 当所述目 标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述 自身域名之间的第 m相似度计算值 Qm; 其中, n^ + -l , 表示所述目标 域名的字符串长度, n2表示所述自身域名的字符串长度;
所述终值计算子模块,适于根据下述公式计算得到所述目标域名与所述 自身域名之间的相似度 Q
Figure imgf000013_0001
, Q2 , Q3 , . . . . . . Qm}。
5、 如权利要求 4所述的系统, 其中, 所述初值计算子模块中, 利用如 下公式计算第 i相似度计算值 Qi :
Figure imgf000013_0002
其中, 为自然数, 并且, l≤≤m; 并且,
M sjn
=
其中, 表示在第 次对比时, 所述自身域名的字符串与所述目标域名 的字符串中, 重叠的字符个数; 《皿表示所述自身域名的字符串与所述目标 域名的字符串中较长字符串的字符个数; 表示在第 次对比时, 所述自身 域名的字符串与所述目标域名的字符串的重叠率; 表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符串中, 重叠并且相同的字符个 数; M,表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符 串的匹配率。
6、 如权利要求 4所述的系统, 其中, 所述初值计算子模块中, 利用如 下方式计算第 相似度计算值 β :
在第 次对比时, 计算所述目标域名的字符串与所述自身域名的字符串 中重叠并且相同的字符个数, 将所述重叠并且相同的字符个数作为第 相似 度计算值 Qi。
7、 如权利要求 1所述的系统, 其中, 所述系统还包括: 补充识别单元; 所述补充识别单元,适于将判断结果显示为钓鱼网站的待识别网站记作 可疑网站, 并对所述可疑网站进行补充识别, 在识别结果显示所述可疑网站 仍为钓鱼网站的情况下, 将所述可疑网站送入钓鱼网站库。
8、 如权利要求 1所述的系统, 其中, 所述链接对应的域名为所述链接 的绝对地址。
9、 如权利要求 1所述的系统, 其中, 所述系统还包括: 网站获取单元; 所述网站获取单元, 适于查找新建网站以作为待识别网站。
10、 一种钓鱼网站识别方法, 其包括步骤:
收集待识别网站中出现的所有链接, 得到所述链接对应的域名; 统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域 名, 记作目标域名;
根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站 是否是钓鱼网站。
11、 如权利要求 10所述的方法, 其中, 所述根据所述目标域名与所述 待识别网站的自身域名判断所述待识别网站是否是钓鱼网站, 进一步包括步 骤:
判断所述目标域名与所述自身域名是否相同, 如果是, 判定所述待识别 网站不是钓鱼网站, 结束流程; 否则, 执行下一步;
计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例, 以及所述目标域名与所述自身域名之间的相似度,根据所述比例和所述相似 度判断所述待识别网站是否是钓鱼网站。
12、 如权利要求 11所述的方法, 其中, 所述计算所述目标域名的出现 次数与所述自身域名的出现次数之间的比例, 以及所述目标域名与所述自身 域名之间的相似度,根据所述比例和所述相似度判断所述待识别网站是否是 钓鱼网站, 进一步包括步骤:
计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例; 计算所述目标域名与所述自身域名之间的相似度;
判断是否满足以下条件: 所述比例大于预定比例, 并且所述相似度大于 预定阈值; 如果是, 判定所述待识别网站是钓鱼网站; 否则, 判定所述待识 别网站不是钓鱼网站。
13、 如权利要求 12所述的方法, 其中, 所述计算所述目标域名与所述 自身域名之间的相似度, 进一步包括步骤:
构建所述目标域名的字符串与所述自身域名的字符串的对比阵列,将所 述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定,将所述 自身域名的字符串设置在所述对比阵列的第二行并自左向右移动,对两行字 符串中重叠的字符进行对比;
当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目 标域名与所述自身域名之间的第一相似度计算值 ;当所述目标域名的第二 字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之 间的第二相似度计算值 Q2;依次类推, 当所述目标域名的尾字符与所述自身 域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第 m相似度 计算值 Qm; 其中,
Figure imgf000015_0001
, 表示所述目标域名的字符串长度, n2表示 所述自身域名的字符串长度;
根据下述公式计算得到所述目标域名与所述自身域名之间的相似度
Figure imgf000015_0002
, Q2 , Q3 , . . . . . . Qm}。
14、 如权利要求 13所述的方法, 其中, 所述当所述目标域名的首字符 与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的 第一相似度计算值 Qi ;当所述目标域名的第二字符与所述自身域名的尾字符 对齐时, 计算所述目标域名与所述自身域名之间的第二相似度计算值 Q2;依 述目标域名与所述自身域名之间的第 m相似度计算值 Qm中, 第 相似度计 算值 β 的计算公式如下:
Figure imgf000015_0003
其中, 为自然数, 并且, l< <m; 并且,
M sjn 其中, 表示在第 次对比时, 所述自身域名的字符串与所述目标域名 的字符串中, 重叠的字符个数; 表示所述自身域名的字符串与所述目标 域名的字符串中较长字符串的字符个数; 表示在第 次对比时, 所述自身 域名的字符串与所述目标域名的字符串的重叠率; 表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符串中, 重叠并且相同的字符个 数; M,表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符 串的匹配率。
15、 如权利要求 13所述的方法, 其中, 所述当所述目标域名的首字符 与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的 第一相似度计算值 Qi;当所述目标域名的第二字符与所述自身域名的尾字符 对齐时, 计算所述目标域名与所述自身域名之间的第二相似度计算值 Q2;依 述目标域名与所述自身域名之间的第 m相似度计算值 Qm中, 利用如下方式 计算第 相似度计算值 β :
在第 次对比时, 计算所述目标域名的字符串与所述自身域名的字符串 中重叠并且相同的字符个数, 将所述重叠并且相同的字符个数作为第 相似 度计算值 Qi。
16、 如权利要求 10所述的方法, 其中, 在所述根据所述目标域名与所 述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站之后还包括 步骤: 将判断结果显示为钓鱼网站的待识别网站记作可疑网站, 并对所述可 疑网站进行补充识别, 在识别结果显示所述可疑网站仍为钓鱼网站的情况 下, 将所述可疑网站送入钓鱼网站库。
17、 如权利要求 10所述的方法, 其中, 所述链接对应的域名为所述链 接的绝对地址。
18、 如权利要求 10所述的方法, 其中, 在所述收集待识别网站中出现 的所有链接, 得到所述链接对应的域名之前还包括步骤: 查找新建网站以作 为待识别网站。
19、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读代 码在服务器上运行时,导致所述服务器执行根据权利要求 10-18中任一个 所述的钓鱼网站识别方法。
20、 一种计算机可读介质, 其中存储了如权利要求 19所述的计算机 程序。
PCT/CN2013/075949 2012-06-28 2013-05-21 一种钓鱼网站识别系统及方法 WO2014000536A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/411,466 US9531751B2 (en) 2012-06-28 2013-05-21 System and method for identifying phishing website
US15/359,131 US9954895B2 (en) 2012-06-28 2016-11-22 System and method for identifying phishing website

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210224485.3A CN102801709B (zh) 2012-06-28 2012-06-28 一种钓鱼网站识别系统及方法
CN201210224485.3 2012-06-28

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/411,466 A-371-Of-International US9531751B2 (en) 2012-06-28 2013-05-21 System and method for identifying phishing website
US15/359,131 Continuation US9954895B2 (en) 2012-06-28 2016-11-22 System and method for identifying phishing website

Publications (1)

Publication Number Publication Date
WO2014000536A1 true WO2014000536A1 (zh) 2014-01-03

Family

ID=47200672

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/075949 WO2014000536A1 (zh) 2012-06-28 2013-05-21 一种钓鱼网站识别系统及方法

Country Status (3)

Country Link
US (2) US9531751B2 (zh)
CN (1) CN102801709B (zh)
WO (1) WO2014000536A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982508A (zh) * 2023-03-21 2023-04-18 中国人民解放军国防科技大学 基于异构信息网络的网站检测方法、电子设备及介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801709B (zh) 2012-06-28 2015-03-04 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN104580254B (zh) * 2012-06-28 2017-10-31 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN103428307B (zh) * 2013-08-09 2016-07-20 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN103530367B (zh) * 2013-10-12 2017-07-18 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN104317574B (zh) * 2014-09-30 2018-03-30 北京金山安全软件有限公司 识别应用程序类型的方法和装置
US10229219B2 (en) * 2015-05-01 2019-03-12 Facebook, Inc. Systems and methods for demotion of content items in a feed
EP3125147B1 (en) * 2015-07-27 2020-06-03 Swisscom AG System and method for identifying a phishing website
CN108874802A (zh) * 2017-05-09 2018-11-23 阿里巴巴集团控股有限公司 网页检测方法和装置
CN107220239A (zh) * 2017-05-31 2017-09-29 温州市鹿城区中津先进科技研究院 一种基于大数据处理的电子商务中有效评论的特征提取方法
CN108173814B (zh) * 2017-12-08 2021-02-05 深信服科技股份有限公司 钓鱼网站检测方法、终端设备及存储介质
CN107896225A (zh) * 2017-12-08 2018-04-10 深信服科技股份有限公司 钓鱼网站判定方法、服务器及存储介质
CN108337259A (zh) * 2018-02-01 2018-07-27 南京邮电大学 一种基于HTTP请求Host信息的可疑网页识别方法
US10826935B2 (en) * 2018-04-24 2020-11-03 International Business Machines Corporation Phishing detection through secure testing implementation
US10673894B2 (en) * 2018-09-26 2020-06-02 KnowBe4, Inc. System and methods for spoofed domain identification and user training
EP3888335A4 (en) * 2018-11-26 2022-08-10 Cyberfish Ltd. PHISHING PROTECTION METHODS AND SYSTEMS
CN111428061A (zh) * 2019-01-09 2020-07-17 北京搜狗科技发展有限公司 一种图片描述信息的获取方法、装置及电子设备
US20210367918A1 (en) * 2020-05-22 2021-11-25 Nvidia Corporation User perceptible indicia for web address identifiers
CN114095252B (zh) * 2021-11-22 2023-09-05 安天科技集团股份有限公司 Fqdn域名检测方法、装置、计算设备及存储介质
CN114710468B (zh) * 2022-03-31 2024-05-14 绿盟科技集团股份有限公司 一种域名生成和识别方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN101667979A (zh) * 2009-10-12 2010-03-10 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法
US7958555B1 (en) * 2007-09-28 2011-06-07 Trend Micro Incorporated Protecting computer users from online frauds
CN102801709A (zh) * 2012-06-28 2012-11-28 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630987B1 (en) * 2004-11-24 2009-12-08 Bank Of America Corporation System and method for detecting phishers by analyzing website referrals
US8578481B2 (en) * 2006-10-16 2013-11-05 Red Hat, Inc. Method and system for determining a probability of entry of a counterfeit domain in a browser
US7853589B2 (en) * 2007-04-30 2010-12-14 Microsoft Corporation Web spam page classification using query-dependent data
CN101369278B (zh) * 2008-09-27 2011-11-02 成都市华为赛门铁克科技有限公司 一种近似匹配方法和装置
CN102339320B (zh) * 2011-11-04 2013-08-28 华为数字技术(成都)有限公司 恶意网页的识别方法以及识别装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
US7958555B1 (en) * 2007-09-28 2011-06-07 Trend Micro Incorporated Protecting computer users from online frauds
CN101667979A (zh) * 2009-10-12 2010-03-10 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法
CN102801709A (zh) * 2012-06-28 2012-11-28 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982508A (zh) * 2023-03-21 2023-04-18 中国人民解放军国防科技大学 基于异构信息网络的网站检测方法、电子设备及介质

Also Published As

Publication number Publication date
US9954895B2 (en) 2018-04-24
CN102801709B (zh) 2015-03-04
US9531751B2 (en) 2016-12-27
CN102801709A (zh) 2012-11-28
US20150326606A1 (en) 2015-11-12
US20170078327A1 (en) 2017-03-16

Similar Documents

Publication Publication Date Title
WO2014000536A1 (zh) 一种钓鱼网站识别系统及方法
WO2016180268A1 (zh) 一种文本聚合方法及装置
US8868569B2 (en) Methods for detecting and removing duplicates in video search results
CN107204960B (zh) 网页识别方法及装置、服务器
WO2016201819A1 (zh) 检测恶意文件的方法和装置
WO2015184992A1 (zh) 一种识别重复图片的方法、图片搜索去重方法及其装置
WO2016155386A1 (zh) 用于确定网页页面中包括兴趣点poi数据的方法及装置
WO2016101716A1 (zh) 基于用户搜索意图的搜索方法及装置
WO2014000537A1 (zh) 一种钓鱼网站查找系统及方法
JP5558997B2 (ja) 相互検索およびアラートのための方法、情報処理システム、およびコンピュータ・プログラム(構造化データ・ソースと非構造化データ・ソースとの間の相互検索およびアラート)
WO2017092556A1 (zh) 一种自动判定裁判文书判决结果的方法及装置
WO2013189254A1 (zh) 热点聚合方法及装置
WO2014000519A1 (zh) 关键词过滤系统及方法
WO2015196964A1 (zh) 搜索匹配图片的方法、图片搜索方法及装置
TW200821913A (en) String matching system by using bloom filter to achieve sub-linear computation time and method thereof
JP7182764B2 (ja) 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム
CN107688563B (zh) 一种同义词的识别方法及识别装置
WO2017107679A1 (zh) 一种历史信息展示方法及装置
CN103853771B (zh) 一种搜索结果的推送方法及系统
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
WO2015176624A1 (zh) 突发时效性查询词识别方法和系统
WO2017054731A1 (zh) 处理被劫持浏览器的方法及设备
US10776420B2 (en) Fingerprint clustering for content-based audio recognition
WO2016101737A1 (zh) 搜索查询方法和装置
CN107577667B (zh) 一种实体词处理方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13810797

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14411466

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13810797

Country of ref document: EP

Kind code of ref document: A1