WO2015149552A1 - 一种中文域名仿冒攻击的检测方法 - Google Patents
一种中文域名仿冒攻击的检测方法 Download PDFInfo
- Publication number
- WO2015149552A1 WO2015149552A1 PCT/CN2014/095162 CN2014095162W WO2015149552A1 WO 2015149552 A1 WO2015149552 A1 WO 2015149552A1 CN 2014095162 W CN2014095162 W CN 2014095162W WO 2015149552 A1 WO2015149552 A1 WO 2015149552A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- chinese
- domain name
- similarity
- characters
- chinese domain
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/30—Types of network names
- H04L2101/32—Types of network names containing non-Latin characters, e.g. Chinese domain names
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
Definitions
- the present invention is directed to the above-described first method of using a near-word to perform a counterfeit attack.
- Table 2 shows the most similar series of Chinese domain names for the few brands that have been attacked by China. This proves that the method is effective.
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种中文域名仿冒攻击的检测方法。针对利用形近字进行仿冒攻击的方式,首先将待检测中文域名词组中的单个中文字符表示为点阵的矩阵,并将该矩阵转化为相应的多维向量,通过多维向量之间的相似性检测单个中文字符之间的相似性;然后基于单个中文字符之间的相似性计算整个中文域名词组之间的相似性,根据整个中文域名词组之间的相似性的值检测是否存在中文域名仿冒攻击,该检测方法能够有效的检测有仿冒倾向的中文域名。
Description
本发明属于网络安全技术领域,涉及一种信息处理技术,具体涉及一种中文域名仿冒攻击的检测方法。
域名系统(DomainName System,缩写DNS)是因特网的一项核心服务,它作为将域名和IP地址相互映射的一个分布式数据库,是用户访问网络资源的入口。由于其直观性和便利性,方便了人们对于网络资源的访问,但是也由此诱发了大量利用域名进行犯罪的网络攻击行为。利用相似的域名对目标域名进行仿冒攻击,即所谓的同形异义字攻击(Homograph Attack),被大量的用于网络钓鱼、垃圾邮件以及网站身份窃取等网络恶意应用之中。最初的域名系统只能使用63个ASCII字符("a-z","A-Z","0-9","-")注册,因此相似字符数量还相对较少。随着国际化域名(International Domain Names,IDN)的兴起,域名注册字符集进一步扩大,多语种字符集合进入域名注册字符集,不可避免地涌现出较多的相似字符。比如英语的“microsoft.com”和西里尔语的“microsoft.com”,在视觉上毫无区别,却是不同的两个域名。
尽管针对英文域名仿冒攻击已经有一些相关的检测技术,但由于英文字符体系较为简单,因此相关技术并不能适用于字符库庞大的国际化域名。中文域名是国际化域名的重要组成部分,汉字较大的字库空间以及象形、形声的造字规则产生出了大量的中文形似字,因此中文域名的仿冒情况更加复杂,类似于网络钓鱼的网络犯罪行为,常常利用域名的相似性构造仿冒域名,从而对网络用户进行欺诈活动,造成了互联网环境的恶化。而目前对于中文域名的仿冒攻击检测的技术还几乎处于空白,亟需解决。
发明内容
为了解决上述问题,本发明针对利用形近字进行仿冒攻击的方式,提出了一种从单个中文字符的相似测算到中文域名词组的整体仿冒的有效检测方法。
本发明基于字符在计算机中的点阵表示特征,发明了一种有效检测中文域名仿冒攻击的方法,该方法包括以下步骤:
1)将待检测中文域名词组中的单个中文字符表示为点阵的矩阵,并将该矩阵转化为相应
的多维向量,通过多维向量之间的相似性检测单个中文字符之间的相似性;
2)基于单个中文字符之间的相似性计算整个中文域名词组之间的相似性,根据整个中文域名词组之间的相似性的值检测是否存在中文域名仿冒攻击。
进一步地,步骤1)具体包括如下步骤:
i)将单个中文字符统一表示为F×F字符点阵的矩阵;
ii)将F×F字符点阵通过(0,1)矩阵的形式表示,然后转化为相应的多维向量;
iii)通过计算多维向量之间的相似性来检测两个中文字符之间的相似性。
进一步地,步骤i)中,F取值越大,相似性的计算结果越精确,但是计算效率也更低,因此该值的取值取决于具体处理环境的计算能力和精度要求。
进一步地,步骤ii)中,转化过程采用“Z”形赋值方式,即矩阵每一行赋值完毕后,从最后一个赋值的位置下方的数值开始反方向横向赋值。该方法主要是为了考虑相邻的点对于字形的印象更直接。
上述余弦值越大,两个中文字符之间的相似性越大。
进一步地,步骤2)中,假设A和B是长度为N的中文域名词组,其对应的字符之间的相似性为S1,S2,S3…Sn,则引入贝叶斯分类方法中的复合概率公式后,A和B相似程度可以通过以下公式计算:
进一步地,步骤2)中,为整个中文域名词组之间的相似性设定阈值,根据该阈值判定
是否存在中文域名仿冒攻击。
当本发明的检测方法用于中文域名的仿冒域名检测时,将用户想要注册的中文域名词组和以往用户注册的、保护起来的中文域名列表(或者说是中文域名白名单)中的被保护中文域名词组依次进行比较,计算整个中文域名词组之间的相似性,并与设定的阈值进行比较,如果想要注册的中文域名词组和白名单中的中文域名词组之间的相似性超过该阈值,则认为是仿冒中文域名,那么就可以不予以注册,或者注册后对该中文域名的使用进行重点监控。
本发明的检测方法也可以用于域名注册推荐服务,当用户注册中文域名的时候,如果用户希望注册的中文域名已经被注册了,那么通过针对中文域名中全中文字符集的计算,根据设定的阀值找出和用户原本想注册的中文域名的相似域名,并且该中文域名也没有被注册过,则推荐给用户作为其可以注册的备选中文域名。
本发明针对利用形近字进行中文域名仿冒攻击的问题,提出了从单个中文字符到整体中文域名词组相似性计算的整体解决方案,且方案通过实验验证,表明是有效的。
图1表示12×12字符点阵。
图2表示一个4×4字符点阵转化为16维向量的过程。
本发明首先对中文域名可能面临的仿冒攻击方式进行了系统的研究和分类,经过分析,中文域名可能出现的仿冒攻击形式主要分为以下四种:
i)字形相似。最普遍的仿冒方式,直接利用汉字字形上的相似性达到欺骗访问者的目的。比如“掏宝网.中国”仿冒“淘宝网.中国”。
ii)添加噪声字符。针对目标公司的域名,添加其他的噪声字符,欺骗访问者。比如“淘-宝.中国”仿冒“淘宝.中国”。
iii)交换语序。不增加相关的词汇,简单地交换汉字间的顺序,迷惑访问者。比如“多味美.中国”仿冒“味多美.中国”。
iv)汉字拆字。通过汉字结构分裂后的前后重组可以构成其他的汉字,从而欺骗访问者。比如“陶吉吉歌友会.中国”仿冒“陶喆歌友会.中国”。
本发明针对的是上述第一种利用形近字进行仿冒攻击的方式。
由于字符在电子设备中的存储和显示均是以“点阵”(也称为“位图”)的形式进行,点阵直接反应着文本的视觉特征,因此本发明提出的方法是首先将中文域名词组中的单个中文字符表示为点阵的矩阵,并进一步转化为多维度的向量,然后通过向量之间的相似性衡量单个中文字符之间的相似性。具体步骤如下:
1)将单个中文字符统一表示为F×F字符点阵的矩阵。其中F取值越大,相似性的计算结果越精确,但是计算效率也更低,因此该值的取值取决于具体处理环境的计算能力和精度要求。12×12的点阵字符示例如图1。
2)将单个中文字符的点阵通过(0,1)矩阵的形式表示,然后转化为相应的多维向量。转化过程采用“Z”形赋值方式,即矩阵每一行赋值完毕后,从最后一个赋值的位置下方的数值开始反方向横向赋值。该方法主要是为了考虑相邻的点对于字形的印象更直接。将一个4×4字符点阵转化为16维向量的过程如图2所示。
表1是利用上述方法找出的汉字常用字库中最相近的10对汉字,从结果可以直观的看出本方法的有效性。
表1:最相近的汉字字符表
接下来,在单个中文字符之间的相似性基础之上,解决中文域名词组的整体相似性计算问题。假设A和B是长度为N的域名,其对应的字符之间的相似性为S1,S2,S3…Sn,则
引入贝叶斯分类方法中的复合概率公式后,A和B相似程度可以通过以下公式计算:
其中,T为大于1的一个极小数,避免当某个Sn=1(n=1,2,3…),即两个对应的字符完全一样时,值变为0的情况。采用上述公式后,我们就可以用[0,1]的值来准确衡量两个中文域名之间的相似性。简单说明如下:假设Sim(师,帅)=0.9,Sim(傅,博)=0.8,取T=1.1,则Similariy(康师傅,康帅博)=1×0.9×0.8/[(1×0.9×0.8)+(0.1×0.2×0.3)]=0.992。
表2是针对中国被仿冒攻击最多的几个品牌找出的最相似的一系列中文域名。从而证明了本方法的有效。
表2:相似域名距离
综上所述,本发明针对中文域名的仿冒攻击,提出了从单个中文字符到整体中文域名词组相似性计算,利用整体中文词组的相似性检测中文域名仿冒攻击的整体解决方案,且方案通过实验验证,表明是有效的。
Claims (7)
- 一种中文域名仿冒攻击的检测方法,包括以下步骤:1)将待检测中文域名词组中的单个中文字符表示为点阵的矩阵,并将该矩阵转化为相应的多维向量,通过多维向量之间的相似性检测单个中文字符之间的相似性;2)基于单个中文字符之间的相似性计算整个中文域名词组之间的相似性,根据整个中文域名词组之间的相似性的值检测是否存在中文域名仿冒攻击。
- 如权利要求1所述的检测方法,其特征在于,步骤1)具体包括以下步骤:i)将单个中文字符统一表示为F×F字符点阵的矩阵;ii)将F×F字符点阵通过(0,1)矩阵的形式表示,然后转化为相应的多维向量;iii)通过计算多维向量之间的相似性来检测单个中文字符之间的相似性。
- 如权利要求2所述的检测方法,其特征在于,步骤ii)中,所述转化过程采用“Z”形赋值方式,即矩阵每一行赋值完毕后,从最后一个赋值的位置下方的数值开始反方向横向赋值。
- 如权利要求4所述的检测方法,其特征在于,所述余弦值越大,两个中文字符之间的相似性越大。
- 如权利要求1-6任一所述的检测方法,其特征在于,步骤2)中为整个中文域名词组之间的相似性设定阈值,根据该阈值检测是否存在中文域名仿冒攻击。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410134029.9A CN103957191A (zh) | 2014-04-03 | 2014-04-03 | 一种中文域名仿冒攻击的检测方法 |
CN201410134029.9 | 2014-04-03 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015149552A1 true WO2015149552A1 (zh) | 2015-10-08 |
Family
ID=51334417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2014/095162 WO2015149552A1 (zh) | 2014-04-03 | 2014-12-26 | 一种中文域名仿冒攻击的检测方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN103957191A (zh) |
WO (1) | WO2015149552A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111654472A (zh) * | 2020-05-14 | 2020-09-11 | 亚信科技(成都)有限公司 | 一种域名检测方法及装置 |
US11212313B2 (en) | 2017-08-24 | 2021-12-28 | Segasec Labs Ltd. | Detection of domain name impersonation |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103957191A (zh) * | 2014-04-03 | 2014-07-30 | 中国科学院计算机网络信息中心 | 一种中文域名仿冒攻击的检测方法 |
CN104301322A (zh) * | 2014-10-23 | 2015-01-21 | 北京知道创宇信息技术有限公司 | 基于中文域名的网络安全检测方法与设备 |
CN107770132B (zh) * | 2016-08-18 | 2021-11-05 | 中兴通讯股份有限公司 | 一种对算法生成域名进行检测的方法及装置 |
CN106375288B (zh) * | 2016-08-29 | 2019-06-25 | 中国科学院信息工程研究所 | 一种中文域名相似度计算方法及仿冒域名检测方法 |
CN106170002B (zh) * | 2016-09-08 | 2019-07-02 | 中国科学院信息工程研究所 | 一种中文仿冒域名检测方法及系统 |
CN112910832B (zh) * | 2019-12-03 | 2022-08-30 | 国家计算机网络与信息安全管理中心 | 国际化域名欺骗攻击识别分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664878A (zh) * | 2012-04-10 | 2012-09-12 | 中国科学院计算机网络信息中心 | 仿冒域名检测方法及设备 |
CN103428307A (zh) * | 2013-08-09 | 2013-12-04 | 中国科学院计算机网络信息中心 | 仿冒域名检测方法及设备 |
CN103957191A (zh) * | 2014-04-03 | 2014-07-30 | 中国科学院计算机网络信息中心 | 一种中文域名仿冒攻击的检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7555523B1 (en) * | 2004-05-06 | 2009-06-30 | Symantec Corporation | Spam discrimination by generalized Ngram analysis of small header fields |
-
2014
- 2014-04-03 CN CN201410134029.9A patent/CN103957191A/zh active Pending
- 2014-12-26 WO PCT/CN2014/095162 patent/WO2015149552A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664878A (zh) * | 2012-04-10 | 2012-09-12 | 中国科学院计算机网络信息中心 | 仿冒域名检测方法及设备 |
CN103428307A (zh) * | 2013-08-09 | 2013-12-04 | 中国科学院计算机网络信息中心 | 仿冒域名检测方法及设备 |
CN103957191A (zh) * | 2014-04-03 | 2014-07-30 | 中国科学院计算机网络信息中心 | 一种中文域名仿冒攻击的检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11212313B2 (en) | 2017-08-24 | 2021-12-28 | Segasec Labs Ltd. | Detection of domain name impersonation |
CN111654472A (zh) * | 2020-05-14 | 2020-09-11 | 亚信科技(成都)有限公司 | 一种域名检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103957191A (zh) | 2014-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015149552A1 (zh) | 一种中文域名仿冒攻击的检测方法 | |
CN108965245B (zh) | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 | |
Ramesh et al. | An efficacious method for detecting phishing webpages through target domain identification | |
US20190019058A1 (en) | System and method for detecting homoglyph attacks with a siamese convolutional neural network | |
Dadkhah et al. | How can we identify hijacked journals? | |
Rao et al. | Two level filtering mechanism to detect phishing sites using lightweight visual similarity approach | |
CN104077396A (zh) | 一种钓鱼网站检测方法及装置 | |
US9210189B2 (en) | Method, system and client terminal for detection of phishing websites | |
WO2021258838A1 (zh) | 钓鱼网站的检测方法、装置、设备、计算机可读存储介质 | |
CN105827594A (zh) | 一种基于域名可读性及域名解析行为的可疑性检测方法 | |
CN103209177B (zh) | 网络钓鱼攻击的检测方法和装置 | |
Liu et al. | An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment | |
WO2019038755A1 (en) | DOMAIN USURPATION IDENTIFICATION SYSTEM | |
CN110781876B (zh) | 一种基于视觉特征的仿冒域名轻量级检测方法及系统 | |
CN116366338B (zh) | 一种风险网站识别方法、装置、计算机设备及存储介质 | |
CN115314236A (zh) | 在域名系统(dns)记录集中检测网络钓鱼域的系统和方法 | |
CN110138758A (zh) | 基于域名词汇的误植域名检测方法 | |
CN110855716B (zh) | 一种面向仿冒域名的自适应安全威胁分析方法及系统 | |
He et al. | Malicious domain detection via domain relationship and graph models | |
CN112948725A (zh) | 基于机器学习的钓鱼网站url检测方法及系统 | |
Peng et al. | Malicious URL recognition and detection using attention-based CNN-LSTM | |
Wen et al. | Detecting malicious websites in depth through analyzing topics and web-pages | |
JP7245765B2 (ja) | 情報セキュリティ支援システム、情報セキュリティ支援方法 | |
Lee et al. | Users' behavioral prediction for phishing detection | |
CN110851828A (zh) | 基于多维度特征的恶意url监测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14888334 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14888334 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14888334 Country of ref document: EP Kind code of ref document: A1 |