WO2015149552A1

WO2015149552A1 - 一种中文域名仿冒攻击的检测方法

Info

Publication number: WO2015149552A1
Application number: PCT/CN2014/095162
Authority: WO
Inventors: 洪博; 耿光刚; 王利明; 胡安磊
Original assignee: 中国科学院计算机网络信息中心
Priority date: 2014-04-03
Filing date: 2014-12-26
Publication date: 2015-10-08
Also published as: CN103957191A

Abstract

本发明公开了一种中文域名仿冒攻击的检测方法。针对利用形近字进行仿冒攻击的方式，首先将待检测中文域名词组中的单个中文字符表示为点阵的矩阵，并将该矩阵转化为相应的多维向量，通过多维向量之间的相似性检测单个中文字符之间的相似性；然后基于单个中文字符之间的相似性计算整个中文域名词组之间的相似性，根据整个中文域名词组之间的相似性的值检测是否存在中文域名仿冒攻击，该检测方法能够有效的检测有仿冒倾向的中文域名。

Description

一种中文域名仿冒攻击的检测方法

技术领域

本发明属于网络安全技术领域，涉及一种信息处理技术，具体涉及一种中文域名仿冒攻击的检测方法。

背景技术

域名系统(DomainName System，缩写DNS)是因特网的一项核心服务，它作为将域名和IP地址相互映射的一个分布式数据库，是用户访问网络资源的入口。由于其直观性和便利性，方便了人们对于网络资源的访问，但是也由此诱发了大量利用域名进行犯罪的网络攻击行为。利用相似的域名对目标域名进行仿冒攻击，即所谓的同形异义字攻击(Homograph Attack)，被大量的用于网络钓鱼、垃圾邮件以及网站身份窃取等网络恶意应用之中。最初的域名系统只能使用63个ASCII字符("a-z"，"A-Z"，"0-9"，"-")注册，因此相似字符数量还相对较少。随着国际化域名(International Domain Names，IDN)的兴起，域名注册字符集进一步扩大，多语种字符集合进入域名注册字符集，不可避免地涌现出较多的相似字符。比如英语的“microsoft.com”和西里尔语的“microsoft.com”，在视觉上毫无区别，却是不同的两个域名。

尽管针对英文域名仿冒攻击已经有一些相关的检测技术，但由于英文字符体系较为简单，因此相关技术并不能适用于字符库庞大的国际化域名。中文域名是国际化域名的重要组成部分，汉字较大的字库空间以及象形、形声的造字规则产生出了大量的中文形似字，因此中文域名的仿冒情况更加复杂，类似于网络钓鱼的网络犯罪行为，常常利用域名的相似性构造仿冒域名，从而对网络用户进行欺诈活动，造成了互联网环境的恶化。而目前对于中文域名的仿冒攻击检测的技术还几乎处于空白，亟需解决。

发明内容

为了解决上述问题，本发明针对利用形近字进行仿冒攻击的方式，提出了一种从单个中文字符的相似测算到中文域名词组的整体仿冒的有效检测方法。

本发明基于字符在计算机中的点阵表示特征，发明了一种有效检测中文域名仿冒攻击的方法，该方法包括以下步骤：

1)将待检测中文域名词组中的单个中文字符表示为点阵的矩阵，并将该矩阵转化为相应的多维向量，通过多维向量之间的相似性检测单个中文字符之间的相似性；

2)基于单个中文字符之间的相似性计算整个中文域名词组之间的相似性，根据整个中文域名词组之间的相似性的值检测是否存在中文域名仿冒攻击。

进一步地，步骤1)具体包括如下步骤：

i)将单个中文字符统一表示为F×F字符点阵的矩阵；

ii)将F×F字符点阵通过(0，1)矩阵的形式表示，然后转化为相应的多维向量；

iii)通过计算多维向量之间的相似性来检测两个中文字符之间的相似性。

进一步地，步骤i)中，F取值越大，相似性的计算结果越精确，但是计算效率也更低，因此该值的取值取决于具体处理环境的计算能力和精度要求。

进一步地，步骤ii)中，转化过程采用“Z”形赋值方式，即矩阵每一行赋值完毕后，从最后一个赋值的位置下方的数值开始反方向横向赋值。该方法主要是为了考虑相邻的点对于字形的印象更直接。

进一步地，步骤iii)中，计算多维向量之间的相似性的具体方法是计算两个向量夹角的余弦值，通过其[0.1]的结果来判定两个中文字符的相似性，即：

其中，L₁、L₂分别表示两个中文字符相应的多维向量。

上述余弦值越大，两个中文字符之间的相似性越大。

进一步地，步骤2)中，假设A和B是长度为N的中文域名词组，其对应的字符之间的相似性为S₁，S₂，S₃…Sn，则引入贝叶斯分类方法中的复合概率公式后，A和B相似程度可以通过以下公式计算：

其中，T为大于1的一个极小数，避免当某个S_n＝1(n＝1，2，3…)，即两个对应的字符完全一样时，

值变为0的情况。采用上述公式后，我们就可以用[0,1]的值来准确衡量两个中文域名词组之间的相似性。

进一步地，步骤2)中，为整个中文域名词组之间的相似性设定阈值，根据该阈值判定是否存在中文域名仿冒攻击。

当本发明的检测方法用于中文域名的仿冒域名检测时，将用户想要注册的中文域名词组和以往用户注册的、保护起来的中文域名列表(或者说是中文域名白名单)中的被保护中文域名词组依次进行比较，计算整个中文域名词组之间的相似性，并与设定的阈值进行比较，如果想要注册的中文域名词组和白名单中的中文域名词组之间的相似性超过该阈值，则认为是仿冒中文域名，那么就可以不予以注册，或者注册后对该中文域名的使用进行重点监控。

本发明的检测方法也可以用于域名注册推荐服务，当用户注册中文域名的时候，如果用户希望注册的中文域名已经被注册了，那么通过针对中文域名中全中文字符集的计算，根据设定的阀值找出和用户原本想注册的中文域名的相似域名，并且该中文域名也没有被注册过，则推荐给用户作为其可以注册的备选中文域名。

本发明针对利用形近字进行中文域名仿冒攻击的问题，提出了从单个中文字符到整体中文域名词组相似性计算的整体解决方案，且方案通过实验验证，表明是有效的。

附图说明

图1表示12×12字符点阵。

图2表示一个4×4字符点阵转化为16维向量的过程。

具体实施方式

本发明首先对中文域名可能面临的仿冒攻击方式进行了系统的研究和分类，经过分析，中文域名可能出现的仿冒攻击形式主要分为以下四种：

i)字形相似。最普遍的仿冒方式，直接利用汉字字形上的相似性达到欺骗访问者的目的。比如“掏宝网.中国”仿冒“淘宝网.中国”。

ii)添加噪声字符。针对目标公司的域名，添加其他的噪声字符，欺骗访问者。比如“淘-宝.中国”仿冒“淘宝.中国”。

iii)交换语序。不增加相关的词汇，简单地交换汉字间的顺序，迷惑访问者。比如“多味美.中国”仿冒“味多美.中国”。

iv)汉字拆字。通过汉字结构分裂后的前后重组可以构成其他的汉字，从而欺骗访问者。比如“陶吉吉歌友会.中国”仿冒“陶喆歌友会.中国”。

本发明针对的是上述第一种利用形近字进行仿冒攻击的方式。

由于字符在电子设备中的存储和显示均是以“点阵”(也称为“位图”)的形式进行，点阵直接反应着文本的视觉特征，因此本发明提出的方法是首先将中文域名词组中的单个中文字符表示为点阵的矩阵，并进一步转化为多维度的向量，然后通过向量之间的相似性衡量单个中文字符之间的相似性。具体步骤如下：

1)将单个中文字符统一表示为F×F字符点阵的矩阵。其中F取值越大，相似性的计算结果越精确，但是计算效率也更低，因此该值的取值取决于具体处理环境的计算能力和精度要求。12×12的点阵字符示例如图1。

2)将单个中文字符的点阵通过(0,1)矩阵的形式表示，然后转化为相应的多维向量。转化过程采用“Z”形赋值方式，即矩阵每一行赋值完毕后，从最后一个赋值的位置下方的数值开始反方向横向赋值。该方法主要是为了考虑相邻的点对于字形的印象更直接。将一个4×4字符点阵转化为16维向量的过程如图2所示。

3)将单个中文字符表示为多维向量矩阵后，通过计算多维向量之间的相似性来判定两个中文字符的相似性。具体方法是计算两个向量夹角的余弦值，通过其[0.1]的结果来判定两个汉字的相似性，即

表1是利用上述方法找出的汉字常用字库中最相近的10对汉字，从结果可以直观的看出本方法的有效性。

表1：最相近的汉字字符表

接下来，在单个中文字符之间的相似性基础之上，解决中文域名词组的整体相似性计算问题。假设A和B是长度为N的域名，其对应的字符之间的相似性为S₁，S₂，S₃…Sn，则引入贝叶斯分类方法中的复合概率公式后，A和B相似程度可以通过以下公式计算：

其中，T为大于1的一个极小数，避免当某个S_n＝1(n＝1,2,3…)，即两个对应的字符完全一样时，值变为0的情况。采用上述公式后，我们就可以用[0,1]的值来准确衡量两个中文域名之间的相似性。简单说明如下：假设Sim(师，帅)＝0.9，Sim(傅，博)＝0.8，取T＝1.1，则Similariy(康师傅,康帅博)＝1×0.9×0.8/[(1×0.9×0.8)+(0.1×0.2×0.3)]＝0.992。

表2是针对中国被仿冒攻击最多的几个品牌找出的最相似的一系列中文域名。从而证明了本方法的有效。

表2：相似域名距离

综上所述，本发明针对中文域名的仿冒攻击，提出了从单个中文字符到整体中文域名词组相似性计算，利用整体中文词组的相似性检测中文域名仿冒攻击的整体解决方案，且方案通过实验验证，表明是有效的。

Claims

一种中文域名仿冒攻击的检测方法，包括以下步骤：

1)将待检测中文域名词组中的单个中文字符表示为点阵的矩阵，并将该矩阵转化为相应的多维向量，通过多维向量之间的相似性检测单个中文字符之间的相似性；

2)基于单个中文字符之间的相似性计算整个中文域名词组之间的相似性，根据整个中文域名词组之间的相似性的值检测是否存在中文域名仿冒攻击。
如权利要求1所述的检测方法，其特征在于，步骤1)具体包括以下步骤：

i)将单个中文字符统一表示为F×F字符点阵的矩阵；

ii)将F×F字符点阵通过(0，1)矩阵的形式表示，然后转化为相应的多维向量；

iii)通过计算多维向量之间的相似性来检测单个中文字符之间的相似性。
如权利要求2所述的检测方法，其特征在于，步骤ii)中，所述转化过程采用“Z”形赋值方式，即矩阵每一行赋值完毕后，从最后一个赋值的位置下方的数值开始反方向横向赋值。
如权利要求2所述的检测方法，其特征在于，步骤iii)中，计算多维向量之间的相似性的具体方法是计算两个向量夹角的余弦值，通过其[0.1]的结果来判定两个中文字符之间的相似性，即
其中，L₁、L₂分别表示两个中文字符相应的多维向量。
如权利要求4所述的检测方法，其特征在于，所述余弦值越大，两个中文字符之间的相似性越大。
如权利要求1所述的检测方法，其特征在于，步骤2)中，整个中文域名词组之间的相似性通过以下公式计算：

其中，A和B是长度为N的中文域名词组，其对应的字符之间的相似性为S₁，S₂，S₃…Sn，T为大于1的一个极小数。
如权利要求1-6任一所述的检测方法，其特征在于，步骤2)中为整个中文域名词组之间的相似性设定阈值，根据该阈值检测是否存在中文域名仿冒攻击。