WO2015149552A1 - 一种中文域名仿冒攻击的检测方法 - Google Patents

一种中文域名仿冒攻击的检测方法 Download PDF

Info

Publication number
WO2015149552A1
WO2015149552A1 PCT/CN2014/095162 CN2014095162W WO2015149552A1 WO 2015149552 A1 WO2015149552 A1 WO 2015149552A1 CN 2014095162 W CN2014095162 W CN 2014095162W WO 2015149552 A1 WO2015149552 A1 WO 2015149552A1
Authority
WO
WIPO (PCT)
Prior art keywords
chinese
domain name
similarity
characters
chinese domain
Prior art date
Application number
PCT/CN2014/095162
Other languages
English (en)
French (fr)
Inventor
洪博
耿光刚
王利明
胡安磊
Original Assignee
中国科学院计算机网络信息中心
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院计算机网络信息中心 filed Critical 中国科学院计算机网络信息中心
Publication of WO2015149552A1 publication Critical patent/WO2015149552A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/30Types of network names
    • H04L2101/32Types of network names containing non-Latin characters, e.g. Chinese domain names
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Definitions

  • the present invention is directed to the above-described first method of using a near-word to perform a counterfeit attack.
  • Table 2 shows the most similar series of Chinese domain names for the few brands that have been attacked by China. This proves that the method is effective.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文域名仿冒攻击的检测方法。针对利用形近字进行仿冒攻击的方式,首先将待检测中文域名词组中的单个中文字符表示为点阵的矩阵,并将该矩阵转化为相应的多维向量,通过多维向量之间的相似性检测单个中文字符之间的相似性;然后基于单个中文字符之间的相似性计算整个中文域名词组之间的相似性,根据整个中文域名词组之间的相似性的值检测是否存在中文域名仿冒攻击,该检测方法能够有效的检测有仿冒倾向的中文域名。

Description

一种中文域名仿冒攻击的检测方法 技术领域
本发明属于网络安全技术领域,涉及一种信息处理技术,具体涉及一种中文域名仿冒攻击的检测方法。
背景技术
域名系统(DomainName System,缩写DNS)是因特网的一项核心服务,它作为将域名和IP地址相互映射的一个分布式数据库,是用户访问网络资源的入口。由于其直观性和便利性,方便了人们对于网络资源的访问,但是也由此诱发了大量利用域名进行犯罪的网络攻击行为。利用相似的域名对目标域名进行仿冒攻击,即所谓的同形异义字攻击(Homograph Attack),被大量的用于网络钓鱼、垃圾邮件以及网站身份窃取等网络恶意应用之中。最初的域名系统只能使用63个ASCII字符("a-z","A-Z","0-9","-")注册,因此相似字符数量还相对较少。随着国际化域名(International Domain Names,IDN)的兴起,域名注册字符集进一步扩大,多语种字符集合进入域名注册字符集,不可避免地涌现出较多的相似字符。比如英语的“microsoft.com”和西里尔语的“microsoft.com”,在视觉上毫无区别,却是不同的两个域名。
尽管针对英文域名仿冒攻击已经有一些相关的检测技术,但由于英文字符体系较为简单,因此相关技术并不能适用于字符库庞大的国际化域名。中文域名是国际化域名的重要组成部分,汉字较大的字库空间以及象形、形声的造字规则产生出了大量的中文形似字,因此中文域名的仿冒情况更加复杂,类似于网络钓鱼的网络犯罪行为,常常利用域名的相似性构造仿冒域名,从而对网络用户进行欺诈活动,造成了互联网环境的恶化。而目前对于中文域名的仿冒攻击检测的技术还几乎处于空白,亟需解决。
发明内容
为了解决上述问题,本发明针对利用形近字进行仿冒攻击的方式,提出了一种从单个中文字符的相似测算到中文域名词组的整体仿冒的有效检测方法。
本发明基于字符在计算机中的点阵表示特征,发明了一种有效检测中文域名仿冒攻击的方法,该方法包括以下步骤:
1)将待检测中文域名词组中的单个中文字符表示为点阵的矩阵,并将该矩阵转化为相应 的多维向量,通过多维向量之间的相似性检测单个中文字符之间的相似性;
2)基于单个中文字符之间的相似性计算整个中文域名词组之间的相似性,根据整个中文域名词组之间的相似性的值检测是否存在中文域名仿冒攻击。
进一步地,步骤1)具体包括如下步骤:
i)将单个中文字符统一表示为F×F字符点阵的矩阵;
ii)将F×F字符点阵通过(0,1)矩阵的形式表示,然后转化为相应的多维向量;
iii)通过计算多维向量之间的相似性来检测两个中文字符之间的相似性。
进一步地,步骤i)中,F取值越大,相似性的计算结果越精确,但是计算效率也更低,因此该值的取值取决于具体处理环境的计算能力和精度要求。
进一步地,步骤ii)中,转化过程采用“Z”形赋值方式,即矩阵每一行赋值完毕后,从最后一个赋值的位置下方的数值开始反方向横向赋值。该方法主要是为了考虑相邻的点对于字形的印象更直接。
进一步地,步骤iii)中,计算多维向量之间的相似性的具体方法是计算两个向量夹角的余弦值,通过其[0.1]的结果来判定两个中文字符的相似性,即:
Figure PCTCN2014095162-appb-000001
其中,L1、L2分别表示两个中文字符相应的多维向量。
上述余弦值越大,两个中文字符之间的相似性越大。
进一步地,步骤2)中,假设A和B是长度为N的中文域名词组,其对应的字符之间的相似性为S1,S2,S3…Sn,则引入贝叶斯分类方法中的复合概率公式后,A和B相似程度可以通过以下公式计算:
Figure PCTCN2014095162-appb-000002
其中,T为大于1的一个极小数,避免当某个Sn=1(n=1,2,3…),即两个对应的字符完全一样时,
Figure PCTCN2014095162-appb-000003
值变为0的情况。采用上述公式后,我们就可以用[0,1]的值来准确衡量两个中文域名词组之间的相似性。
进一步地,步骤2)中,为整个中文域名词组之间的相似性设定阈值,根据该阈值判定 是否存在中文域名仿冒攻击。
当本发明的检测方法用于中文域名的仿冒域名检测时,将用户想要注册的中文域名词组和以往用户注册的、保护起来的中文域名列表(或者说是中文域名白名单)中的被保护中文域名词组依次进行比较,计算整个中文域名词组之间的相似性,并与设定的阈值进行比较,如果想要注册的中文域名词组和白名单中的中文域名词组之间的相似性超过该阈值,则认为是仿冒中文域名,那么就可以不予以注册,或者注册后对该中文域名的使用进行重点监控。
本发明的检测方法也可以用于域名注册推荐服务,当用户注册中文域名的时候,如果用户希望注册的中文域名已经被注册了,那么通过针对中文域名中全中文字符集的计算,根据设定的阀值找出和用户原本想注册的中文域名的相似域名,并且该中文域名也没有被注册过,则推荐给用户作为其可以注册的备选中文域名。
本发明针对利用形近字进行中文域名仿冒攻击的问题,提出了从单个中文字符到整体中文域名词组相似性计算的整体解决方案,且方案通过实验验证,表明是有效的。
附图说明
图1表示12×12字符点阵。
图2表示一个4×4字符点阵转化为16维向量的过程。
具体实施方式
本发明首先对中文域名可能面临的仿冒攻击方式进行了系统的研究和分类,经过分析,中文域名可能出现的仿冒攻击形式主要分为以下四种:
i)字形相似。最普遍的仿冒方式,直接利用汉字字形上的相似性达到欺骗访问者的目的。比如“掏宝网.中国”仿冒“淘宝网.中国”。
ii)添加噪声字符。针对目标公司的域名,添加其他的噪声字符,欺骗访问者。比如“淘-宝.中国”仿冒“淘宝.中国”。
iii)交换语序。不增加相关的词汇,简单地交换汉字间的顺序,迷惑访问者。比如“多味美.中国”仿冒“味多美.中国”。
iv)汉字拆字。通过汉字结构分裂后的前后重组可以构成其他的汉字,从而欺骗访问者。比如“陶吉吉歌友会.中国”仿冒“陶喆歌友会.中国”。
本发明针对的是上述第一种利用形近字进行仿冒攻击的方式。
由于字符在电子设备中的存储和显示均是以“点阵”(也称为“位图”)的形式进行,点阵直接反应着文本的视觉特征,因此本发明提出的方法是首先将中文域名词组中的单个中文字符表示为点阵的矩阵,并进一步转化为多维度的向量,然后通过向量之间的相似性衡量单个中文字符之间的相似性。具体步骤如下:
1)将单个中文字符统一表示为F×F字符点阵的矩阵。其中F取值越大,相似性的计算结果越精确,但是计算效率也更低,因此该值的取值取决于具体处理环境的计算能力和精度要求。12×12的点阵字符示例如图1。
2)将单个中文字符的点阵通过(0,1)矩阵的形式表示,然后转化为相应的多维向量。转化过程采用“Z”形赋值方式,即矩阵每一行赋值完毕后,从最后一个赋值的位置下方的数值开始反方向横向赋值。该方法主要是为了考虑相邻的点对于字形的印象更直接。将一个4×4字符点阵转化为16维向量的过程如图2所示。
3)将单个中文字符表示为多维向量矩阵后,通过计算多维向量之间的相似性来判定两个中文字符的相似性。具体方法是计算两个向量夹角的余弦值,通过其[0.1]的结果来判定两个汉字的相似性,即
Figure PCTCN2014095162-appb-000004
表1是利用上述方法找出的汉字常用字库中最相近的10对汉字,从结果可以直观的看出本方法的有效性。
表1:最相近的汉字字符表
Figure PCTCN2014095162-appb-000005
接下来,在单个中文字符之间的相似性基础之上,解决中文域名词组的整体相似性计算问题。假设A和B是长度为N的域名,其对应的字符之间的相似性为S1,S2,S3…Sn,则 引入贝叶斯分类方法中的复合概率公式后,A和B相似程度可以通过以下公式计算:
Figure PCTCN2014095162-appb-000006
其中,T为大于1的一个极小数,避免当某个Sn=1(n=1,2,3…),即两个对应的字符完全一样时,值变为0的情况。采用上述公式后,我们就可以用[0,1]的值来准确衡量两个中文域名之间的相似性。简单说明如下:假设Sim(师,帅)=0.9,Sim(傅,博)=0.8,取T=1.1,则Similariy(康师傅,康帅博)=1×0.9×0.8/[(1×0.9×0.8)+(0.1×0.2×0.3)]=0.992。
表2是针对中国被仿冒攻击最多的几个品牌找出的最相似的一系列中文域名。从而证明了本方法的有效。
表2:相似域名距离
Figure PCTCN2014095162-appb-000007
综上所述,本发明针对中文域名的仿冒攻击,提出了从单个中文字符到整体中文域名词组相似性计算,利用整体中文词组的相似性检测中文域名仿冒攻击的整体解决方案,且方案通过实验验证,表明是有效的。

Claims (7)

  1. 一种中文域名仿冒攻击的检测方法,包括以下步骤:
    1)将待检测中文域名词组中的单个中文字符表示为点阵的矩阵,并将该矩阵转化为相应的多维向量,通过多维向量之间的相似性检测单个中文字符之间的相似性;
    2)基于单个中文字符之间的相似性计算整个中文域名词组之间的相似性,根据整个中文域名词组之间的相似性的值检测是否存在中文域名仿冒攻击。
  2. 如权利要求1所述的检测方法,其特征在于,步骤1)具体包括以下步骤:
    i)将单个中文字符统一表示为F×F字符点阵的矩阵;
    ii)将F×F字符点阵通过(0,1)矩阵的形式表示,然后转化为相应的多维向量;
    iii)通过计算多维向量之间的相似性来检测单个中文字符之间的相似性。
  3. 如权利要求2所述的检测方法,其特征在于,步骤ii)中,所述转化过程采用“Z”形赋值方式,即矩阵每一行赋值完毕后,从最后一个赋值的位置下方的数值开始反方向横向赋值。
  4. 如权利要求2所述的检测方法,其特征在于,步骤iii)中,计算多维向量之间的相似性的具体方法是计算两个向量夹角的余弦值,通过其[0.1]的结果来判定两个中文字符之间的相似性,即
    Figure PCTCN2014095162-appb-100001
    其中,L1、L2分别表示两个中文字符相应的多维向量。
  5. 如权利要求4所述的检测方法,其特征在于,所述余弦值越大,两个中文字符之间的相似性越大。
  6. 如权利要求1所述的检测方法,其特征在于,步骤2)中,整个中文域名词组之间的相似性通过以下公式计算:
    Figure PCTCN2014095162-appb-100002
    其中,A和B是长度为N的中文域名词组,其对应的字符之间的相似性为S1,S2,S3…Sn,T为大于1的一个极小数。
  7. 如权利要求1-6任一所述的检测方法,其特征在于,步骤2)中为整个中文域名词组之间的相似性设定阈值,根据该阈值检测是否存在中文域名仿冒攻击。
PCT/CN2014/095162 2014-04-03 2014-12-26 一种中文域名仿冒攻击的检测方法 WO2015149552A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410134029.9A CN103957191A (zh) 2014-04-03 2014-04-03 一种中文域名仿冒攻击的检测方法
CN201410134029.9 2014-04-03

Publications (1)

Publication Number Publication Date
WO2015149552A1 true WO2015149552A1 (zh) 2015-10-08

Family

ID=51334417

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/095162 WO2015149552A1 (zh) 2014-04-03 2014-12-26 一种中文域名仿冒攻击的检测方法

Country Status (2)

Country Link
CN (1) CN103957191A (zh)
WO (1) WO2015149552A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111654472A (zh) * 2020-05-14 2020-09-11 亚信科技(成都)有限公司 一种域名检测方法及装置
US11212313B2 (en) 2017-08-24 2021-12-28 Segasec Labs Ltd. Detection of domain name impersonation

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103957191A (zh) * 2014-04-03 2014-07-30 中国科学院计算机网络信息中心 一种中文域名仿冒攻击的检测方法
CN104301322A (zh) * 2014-10-23 2015-01-21 北京知道创宇信息技术有限公司 基于中文域名的网络安全检测方法与设备
CN107770132B (zh) * 2016-08-18 2021-11-05 中兴通讯股份有限公司 一种对算法生成域名进行检测的方法及装置
CN106375288B (zh) * 2016-08-29 2019-06-25 中国科学院信息工程研究所 一种中文域名相似度计算方法及仿冒域名检测方法
CN106170002B (zh) * 2016-09-08 2019-07-02 中国科学院信息工程研究所 一种中文仿冒域名检测方法及系统
CN112910832B (zh) * 2019-12-03 2022-08-30 国家计算机网络与信息安全管理中心 国际化域名欺骗攻击识别分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664878A (zh) * 2012-04-10 2012-09-12 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN103428307A (zh) * 2013-08-09 2013-12-04 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN103957191A (zh) * 2014-04-03 2014-07-30 中国科学院计算机网络信息中心 一种中文域名仿冒攻击的检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7555523B1 (en) * 2004-05-06 2009-06-30 Symantec Corporation Spam discrimination by generalized Ngram analysis of small header fields

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664878A (zh) * 2012-04-10 2012-09-12 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN103428307A (zh) * 2013-08-09 2013-12-04 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN103957191A (zh) * 2014-04-03 2014-07-30 中国科学院计算机网络信息中心 一种中文域名仿冒攻击的检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11212313B2 (en) 2017-08-24 2021-12-28 Segasec Labs Ltd. Detection of domain name impersonation
CN111654472A (zh) * 2020-05-14 2020-09-11 亚信科技(成都)有限公司 一种域名检测方法及装置

Also Published As

Publication number Publication date
CN103957191A (zh) 2014-07-30

Similar Documents

Publication Publication Date Title
WO2015149552A1 (zh) 一种中文域名仿冒攻击的检测方法
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
Ramesh et al. An efficacious method for detecting phishing webpages through target domain identification
US20190019058A1 (en) System and method for detecting homoglyph attacks with a siamese convolutional neural network
Dadkhah et al. How can we identify hijacked journals?
Rao et al. Two level filtering mechanism to detect phishing sites using lightweight visual similarity approach
CN104077396A (zh) 一种钓鱼网站检测方法及装置
US9210189B2 (en) Method, system and client terminal for detection of phishing websites
WO2021258838A1 (zh) 钓鱼网站的检测方法、装置、设备、计算机可读存储介质
CN105827594A (zh) 一种基于域名可读性及域名解析行为的可疑性检测方法
CN103209177B (zh) 网络钓鱼攻击的检测方法和装置
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
WO2019038755A1 (en) DOMAIN USURPATION IDENTIFICATION SYSTEM
CN110781876B (zh) 一种基于视觉特征的仿冒域名轻量级检测方法及系统
CN116366338B (zh) 一种风险网站识别方法、装置、计算机设备及存储介质
CN115314236A (zh) 在域名系统(dns)记录集中检测网络钓鱼域的系统和方法
CN110138758A (zh) 基于域名词汇的误植域名检测方法
CN110855716B (zh) 一种面向仿冒域名的自适应安全威胁分析方法及系统
He et al. Malicious domain detection via domain relationship and graph models
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及系统
Peng et al. Malicious URL recognition and detection using attention-based CNN-LSTM
Wen et al. Detecting malicious websites in depth through analyzing topics and web-pages
JP7245765B2 (ja) 情報セキュリティ支援システム、情報セキュリティ支援方法
Lee et al. Users' behavioral prediction for phishing detection
CN110851828A (zh) 基于多维度特征的恶意url监测方法、装置和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14888334

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14888334

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 14888334

Country of ref document: EP

Kind code of ref document: A1