WO2015032120A1

WO2015032120A1 - 一种基于短文本的垃圾邮件过滤方法及装置

Info

Publication number: WO2015032120A1
Application number: PCT/CN2013/086166
Authority: WO
Inventors: 林延中; 潘庆峰
Original assignee: 盈世信息科技(北京)有限公司
Priority date: 2013-09-03
Filing date: 2013-10-29
Publication date: 2015-03-12
Also published as: CN103441924B; CN103441924A

Abstract

公开了一种基于短文本的垃圾邮件过滤方法，包括：对电子邮件中的文本进行分词处理并获得分词结果；使用TF-IDF技术对所述分词结果进行排序处理获得分词列表；根据所述分词结果计算电子邮件的邮件指纹；根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果；根据所述聚类结果过滤垃圾电子邮件。本发明还公开了一种基于短文本的垃圾邮件过滤装置。采用本发明，可对电子邮件中的文本进行分词处理和TF-IDF技术排序处理，实现噪音过滤；根据电子邮件的文本长度，采用一个或多个BKDR哈希函数来计算电子邮件的邮件指纹，可有效地强化分词结果的作用；利用归一化处理，使得电子邮件能通过比对指纹的相似性进行聚类处理，实现垃圾电子邮件的过滤。

Description

一种基于短文本的垃圾邮件过滤方法及装置技术领域

[0001] 本发明涉及互联网技术领域，尤其涉及一种基于短文本的垃圾邮件过滤方法及基于短文本的垃圾邮件过滤装置。

背景技术说

[0002] 随着互联网的广泛应用，电子邮件以其快速、简单、廉价的优点受到人们的青睐，成为一种高效的大众传播媒介。与此同时，大量无用邮件涌入人们的邮箱，给他们的学习和生活带来灾难。垃圾邮件是用户最讨厌的，他们浪费了用户的时间、金钱及网络带宽，同时，弄乱用户的邮箱，有些邮件甚至是有害的，如包含色书情内容或病毒等。据有关研究报告，全世界电子邮件中每天有超过 10%都是垃圾邮件。因此，研发一种有效拦截过滤垃圾有效的方法是很有必要的。

[0003] 目前，已有不少方法可以对垃圾邮件进行过滤。如中国专利申请 CN201010179995.4, 发明名称为 "一种基于 N-Gmm分词模型的反向神经网络基于短文本的垃圾邮件过滤装置"，此专利使用 N-Gmm分词模型对邮件样本进行分词，并使用 TF-IDF算法对分词进行权重排序，然后使用 zipf法则提取最重要的特征分词列表（没有被挑中的特征分词则被丢弃）。然后通过文本中是否包含这些 "重要特征分词"构造出文档的特征向量，并以此特征向量进行神经网络的学习和分类。然而，对于正文内容很短的短文本信息，使用 zipf法则来提取最重要的特征分词，并丢弃不重要的特征分词之后，剩下的信息就更少了，如果直接使用这么少的信息进行文本分类，最终的结果甚至可能是错误的，严重情况下甚至会将正常邮件归类成垃圾邮件，导致用户没有读到或者没有及时读到这封邮件。另外，当前大量的垃圾邮件常常使用 html 方式进行包装，并通过添加大量不可见或者不同大小的字体，来干扰文本分类的效果，因此，此专利不适用于正文内容很短的垃圾邮件的过滤。

发明内容

[0004] 本发明所要解决的技术问题在于，提供一种基于短文本的垃圾邮件过滤方法及装置，可结合分词处理、 TF-IDF技术及 BKDR哈希函数，对电子邮件进行噪音去除，关键信息放大，以及相似文本信息聚类，最终实现对邮件进行分类。

[0005] 为了解决上述技术问题，本发明提供了一种基于短文本的垃圾邮件过滤方法，包括： a、对电子邮件中的文本进行分词处理并获得分词结果； b、使用 TF-IDF技术对所述分词结果进行排序处理获得分词列表； c、根据所述分词结果计算电子邮件的邮件指纹； d、根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果； e、根据所述聚类结果过滤垃圾电子邮件。

[0006] 作为上述方案的改进，步骤 a包括： al、对文本进行预处理并抽取出中文文本和 /或英文文本； a2、分别对所述中文文本和英文文本进行分词处理，并获得分词结果。

[0007] 作为上述方案的改进，步骤 c包括： cl、构建特征数组； c2、提取任一预设参数； c3、根据当前提取的预设参数，使用 BKDR哈希函数计算所述分词列表中各分词结果的哈希值； c4、分别对所述哈希值进行取模处理获得模值； c5、根据所述模值更新所述特征数组； c6、判断当前已经处理的哈希值个数是否少于预设值，判断为是时，提取一个与已使用的预设参数相异的其它预设参数，并返回执行步骤 c3，判断为否时，根据哈希值个数及特征数组长度计算阀值，并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。

[0008] 作为上述方案的改进，步骤 d包括： dl、根据邮件指纹与垃圾邮件的特征指纹进行比对处理并获得邮件指纹与特征指纹之间的相似度； d 2、根据所述相似度对电子邮件进行聚类处理并获得聚类结果。

[0009] 相应地，本发明还提供了一种基于短文本的垃圾邮件过滤装置，包括：分词模块，用于对电子邮件中的文本进行分词处理并获得分词结果；排序模块，用于使用 TF-IDF技术对所述分词结果进行排序处理获得分词列表；邮件指纹模块，用于根据所述分词结果计算电子邮件的邮件指纹；类聚模块，用于根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果；过滤模块，用于根据所述聚类结果过滤垃圾电子邮件。

[0010] 作为上述方案的改进，所述分词模块包括：预处理单元，用于对文本进行预处理并抽取出中文文本和 /或英文文本；分词单元，用于分别对所述中文文本和英文文本进行分词处理，并获得分词结果。

[0011] 作为上述方案的改进，所述邮件指纹模块包括：特征数组单元，用于构建特征数组；参数单元，用于提取任一预设参数；哈希函数单元，用于根据当前提取的预设参数，使用 BKDR 哈希函数计算所述分词列表中各分词结果的哈希值；取模单元，用于分别对所述哈希值进行取模处理获得模值；更新单元，用于根据所述模值更新所述特征数组；判断处理单元，用于判断当前已经处理的哈希值个数是否少于预设值，判断为是时，提取一个与已使用的预设参数相异的其它预设参数，判断为否时，根据哈希值个数及特征数组长度计算阀值，并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。

[0012] 作为上述方案的改进，所述类聚模块包括：相似度单元，用于根据邮件指纹与垃圾邮件的特征指纹进行比对处理并获得邮件指纹与特征指纹之间的相似度；类聚单元，用于根据所述相似度对电子邮件进行聚类处理并获得聚类结果。 [0013] 实施本发明，具有如下有益效果：

对电子邮件中的文本进行分词处理和 TF-IDF技术排序处理后，获得分词列表，即可将电子邮件所包含的噪音进行过滤，保留电子邮件中进行过 html干扰处理的文本；然后，根据电子邮件的文本长度，采用一个或多个 BKDR哈希函数来计算电子邮件的邮件指纹，使得两个电子邮件计算出相同的邮件指纹的可能性大大降低，可有效地强化分词结果的作用，使得相似的电子邮件更加容易被比对出来；随后，进行归一化处理获得电子邮件的邮件指纹，使得内容稍有不同的电子邮件能通过比对指纹的相似性进行聚类处理；最后，根据所述聚类结果过滤垃圾电子邮件，解决了对短文本垃圾邮件进行计算机自动化过滤的问题。

附图说明

[0014] 图 1是本发明一种基于短文本的垃圾邮件过滤方法的第一实施例流程图；

图 2是本发明一种基于短文本的垃圾邮件过滤方法的第二实施例流程图；

图 3是本发明一种基于短文本的垃圾邮件过滤装置的结构示意图；

图 4是本发明一种基于短文本的垃圾邮件过滤装置中分词模块的结构示意图；

图 5是本发明一种基于短文本的垃圾邮件过滤装置中邮件指纹模块的结构示意图；图 6是本发明一种基于短文本的垃圾邮件过滤装置中类聚模块的结构示意图。

具体实施方式

[0015] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

[0016] 图 1是本发明一种基于短文本的垃圾邮件过滤方法的第一实施例流程图，包括： S100、对电子邮件中的文本进行分词处理并获得分词结果。

[0017] 对电子邮件中的文本进行分词处理时，需要将 HTML标签、中文字符和英文字符分离出来，然后，对中文字符和英文字符分别进行分词，获得分词结果。

[0018] S10 使用 TF-IDF技术对所述分词结果进行排序处理获得分词列表。

[0019] 从电子邮件中提取出分词结果（中文分词、英文分词）后，使用 TF-IDF算法按照区分能力从高到低对分词结果进行排序处理，排序后，获得分词列表。

[0020] 需要说明的是，中文分词和英文分词需要分别排序，因为中文分词数量众多，一起排序之后中文分词会比较占优势，对过滤英文垃圾邮件不利。

[0021] 优选地，排序后，只保留排名靠前的 50%的分词结果。

[0022] S102、根据所述分词结果计算电子邮件的邮件指纹。

[0023] 需要说明的是，所述邮件指纹为数组形式，一个电子邮件对应一个邮件指纹。

[0024] 优选地，邮件指纹为长度为 512的整数数组。其中 512的数组长度为权衡计算量和可能的相似邮件识别能力之后的经验值。

[0025] S103、根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果。

[0026] S104、根据所述聚类结果过滤垃圾电子邮件。

[0027] 邮件指纹与垃圾邮件特征指纹库中的垃圾邮件指纹相似的电子邮件即可判断为垃圾邮件。

[0028] 需要说明的是，用户举报垃圾邮件之后，相关信息将会提交管理员审核。管理员审核后，用户举报的垃圾邮件以及和此垃圾邮件相似的其他垃圾邮件，都会记录到垃圾邮件特征库。对于此后收到的未知是否垃圾邮件的新到达邮件，也可以通过计算特征邮件指纹，并比对是否在已知的垃圾邮件特征指纹库中，进行过滤判断，实现短文本的垃圾邮件的准确过滤。

[0029] 图 2是本发明一种基于短文本的垃圾邮件过滤方法的第二实施例流程图，包括： S200、对文本进行预处理并抽取出中文文本和 /或英文文本。

[0030] 工作时，首先获取电子邮件，并对电子邮件中的文本进行预处理。对于超文本标记语言（Hypertext Markup Language, HTML) 文档，将其中的 HTML标签 (HTML tag) 提取出来单独处理；针对剩余的信息，将中文字符和英文字符分离出来，转换成只有英文字符的文本和只有中文字符的文本。

[0031] S20 分别对所述中文文本和英文文本进行分词处理，并获得分词结果。

[0032] 对于英文文本，使用传统的分词方式获得分词结果（以标点符号和空格分隔各个分词）。

[0033] 对于中文文本，则使用机械的排列组合方式从句子中分离出词语，获得分词结果。分离方法如下：对于一个中文字符数为 L的中文文本，扫描所述中文文本中的每一个中文文字

C，以 S个中文字符为步长将每一个中文文字 C后面的文字逐个提取出来，组成文字组合；其中， S 为 1、 2、 3、 4……。例如，对于句子 "我是中国人"设定扫描步长为 3，分词最大长度为 3，则可能的分词为：我，我是，我是中，是，是中，是中国，中，中国，中国人，国，国人，人。

[0034] 优选地，所述 S为 4。

[0035] 使用此分词的好处是无需中文词典，由于中文的特性，使用此办法分词肯定可以覆盖到绝大部分的中文词语。另外可以处理形如 "我 a是 a中 a国 a人" 的带有干扰信息的文本。而且使用此分词方法，还可以获得很多次重要分词，在后续处理会将这些分词按照区分能力进行排序，区分能力低的词语会排到较后的位置。一些次重要的词语对文本分类有较大作用的。例如对于 "芙王"这个分词，经过程序处理之后发现它是垃圾邮件的一个有较大区分作用的分词，仔细查看发现这个词来源于销售假烟 "芙蓉王" 的垃圾邮件样本，而 "芙蓉"可能会在其他正常邮件中经常出现，所以 "芙蓉"对于垃圾邮件的区分作用不如 "芙王"。 [0036] S202、使用 TF-IDF技术对所述分词结果进行排序处理获得分词列表。

[0037] 从电子邮件中提取出分词结果（中文分词、英文分词）后，使用 TF-IDF算法按照区分能力从高到低对分词结果进行排序处理，排序后，获得分词列表。

[0038] 需要说明的是，中文分词和英文分词需要分别排序，因为中文分词数量众多，一起排序之后中文分词会比较占优势，对过滤英文垃圾邮件不利。

[0039] 优选地，排序后，只保留排名靠前的 50%的分词结果。

[0040] S203、构建特征数组。

[0041] 优选地，构造长度为 512的整数数组，并将数组成员初始化为 0。

[0042] 需要说明的是， 512 的数组长度为权衡计算量和可能的相似邮件识别能力之后的经验值。

[0043] S204、提取任一预设参数。

[0044] 需要说明的是，预设参数为质数，提取不同的预设参数可构造不同的 BKDR哈希函数。

[0045] 优选地，预设参数包括 131， 137, 139。

[0046] S205, 根据当前提取的预设参数，使用 BKDR哈希函数计算所述分词列表中各分词结果的哈希值。

[0047] 依次读取步骤 S202 中获得的分词列表的分词结果，每读取一个分词，则计算这个分词的哈希值。

[0048] 需要说明的是，一个分词相当于一个字符串。计算哈希值时，需要对字符串中的每个字符，把之前计算出的哈希值与预设参数相乘，并和当前字符相加，获得当前的哈希值，直到字符串的字符串终结，则能够获取当前字符串对应的哈希值。

[0049] 这个哈希函数逻辑简单，计算量少，另外关键是可以通过设定预设参数，使同一个字符串便能哈希出不同的结果。如果在某些偶然情况下两个不同的字符串，能够哈希出相同的哈希值的概率为万分之一，则通过使用两个不同预设参数的哈希函数同时计算哈希值，使得两个不同字符串哈希出相同哈希值的概率大大减少到一亿分之一。

[0050] S206、分别对所述哈希值进行取模处理获得模值。

[0051] 使除数为特征数组的长度，即除数为 512。对步骤 S205中计算出的每个哈希值对 512 取模。

[0052] 例如，选定预设参数为 131， "中国 "这个分词计算出来的哈希值是 47826238462，则取模后的模值为 510 (47826238462 % 512 = 510)。

[0053] S207, 根据所述模值更新所述特征数组。

[0054] 需要说明的是，更新所述特征数组时，需对模值所对应的特征数组的数组成员进行加 1处理。

[0055] 例如，特征数组为 vector, 且数组成员均为 0，若"中国"这个分词计算出来的哈希值是 47826238462，则取模后的值为 510，此时，则对 vector[510]所对应的整数值加 1，即对特征数组 vector中第 510位的数组成员进行加 1处理，更新特征数组 vector。

[0056] S208、判断当前已经处理的哈希值个数是否少于预设值。判断为是时，提取一个与已使用的预设参数相异的其它预设参数，并返回执行步骤 S205; 判断为否时，根据哈希值个数及特征数组长度计算阀值，并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。

[0057] 当处理完分词列表中的所有分词后（即所有分词均完成哈希值计算、取模、更新特征数组等处理），判断当前已经处理的哈希值个数是否少于预设值。

[0058] 如果已经处理的哈希值个数少于预设值的，提取一个与已使用的预设参数相异的其它预设参数（即选定另外一个预设参数），并返回执行步骤 S205, 重新对所有分词进行哈希值计算、取模、更新特征数组等处理。

[0059] 如果已经处理的哈希值个数大于或等于预设值，根据哈希值个数及特征数组长度计算阀值，并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。

[0060] 阀值 =已经处理的哈希值个数 /特征数组长度。

[0061] 根据阀值对所述特征数组进行归一化处理时，需扫描特征数组，如果特征数组的数组成员的值大于阀值，则将数组成员的值置 1，否则置 0。处理后的特征数组，即为电子邮件对应的邮件指纹。通过比对不同电子邮件生成的邮件指纹，即可将相似的电子邮件聚类起来。

[0062] 需要说明的是，根据阀值对所述特征数组进行归一化处理，即让特征数组的数组成员的值要么是 0，要么是 1，这样处理后信息变的模糊化，两个相似的特征数组，处理后仍然会很相似，很有可能只有几个数组成员的值不一样。通过比对两个特征数组有多少个相同位置的数组成员相等，即可判定两个分词的相似程度。

[0063] 优选地，所述预设值为 1024。 1024是经验值，如果预设值太小，则生成指纹信息量过少，容易将两个短文本聚类在一起，如果预设值太大，则生成的指纹信息量过大，容易将两个相似的短文本判定为不一样。

[0064] S209、根据邮件指纹与垃圾邮件的特征指纹进行比对处理并获得邮件指纹与特征指纹之间的相似度。

[0065] 通过比对两个特征数组（邮件指纹）有多少个相同位置的数组成员相等，即可判定两个分词的相似度。

[0066] 例如，两个二进制字符串 " 11000011 "及 " 11100011 "则他们只有一个 bit不一样，他们的相似度是 (8-l)/8。

[0067] 又如，两个二进制字符串 " 11000011 "及 " 11101011 "则他们只有两个 bit不一样，他们的相似度是 (8-2)/8。

[0068] S210、根据所述相似度对电子邮件进行聚类处理并获得聚类结果。

[0069] S21 根据所述聚类结果过滤垃圾电子邮件。

[0070] 邮件指纹与垃圾邮件特征指纹库中的垃圾邮件指纹相似的电子邮件即可判断为垃圾邮件。

[0071] 需要说明的是，用户举报垃圾邮件之后，相关信息将会提交管理员审核。管理员审核后，用户举报的垃圾邮件以及和此垃圾邮件相似的其他垃圾邮件，都会记录到垃圾邮件特征库。对于此后收到的未知是否垃圾邮件的新到达邮件，也可以通过计算特征邮件指纹，并比对是否在已知的垃圾邮件特征指纹库中，进行过滤判断。

[0072] 图 3是本发明一种基于短文本的垃圾邮件过滤装置的结构示意图，如图 3所示，基于短文本的垃圾邮件过滤装置 1包括：

分词模块 2，用于对电子邮件中的文本进行分词处理并获得分词结果。分词模块 2对电子邮件中的文本进行分词处理时，需要将 HTML标签、中文字符和英文字符分离出来，然后，对中文字符和英文字符分别进行分词，获得分词结果。

[0073] 排序模块 3，与所述分词模块 2相连，用于使用 TF-IDF技术对所述分词结果进行排序处理获得分词列表。排序模块 3使用 TF-IDF算法按照区分能力从高到低对分词模块 2所获得的分词结果进行排序处理，排序后，获得分词列表。其中，中文分词和英文分词需要分别排序，因为中文分词数量众多，一起排序之后中文分词会比较占优势，对过滤英文垃圾邮件不利。优选地，排序后，只保留排名靠前的 50%的分词结果。

[0074] 邮件指纹模块 4，与所述排序模块 3相连，用于根据所述分词结果计算电子邮件的邮件指纹。

[0075] 类聚模块 5，与所述邮件指纹模 4块相连，用于根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果。

[0076] 过滤模块 6，与所述类聚模块 5相连，用于根据所述聚类结果过滤垃圾电子邮件。过滤模块 6将邮件指纹与垃圾邮件特征指纹库中的垃圾邮件指纹相似的电子邮件判断为垃圾邮件，实现短文本的垃圾邮件的准确过滤。

[0077] 如图 4所示，分词模块 2包括：

预处理单元 21，用于对文本进行预处理并抽取出中文文本和 /或英文文本。

[0078] 工作时，预处理单元 21获取电子邮件，并对电子邮件中的文本进行预处理。对于超文本标记语言（Hypertext Markup Language, HTML)文档，将其中的 HTML标签（HTML tag) 提取出来单独处理；针对剩余的信息，将中文字符和英文字符分离出来，转换成只有英文字符的文本和只有中文字符的文本。

[0079] 分词单元 22，与所述预处理单元 21相连，用于分别对所述中文文本和英文文本进行分词处理，并获得分词结果。

[0080] 分词单元 22对英文文本，使用传统的分词方式获得分词结果（以标点符号和空格分隔各个分词）。

[0081] 分词单元 22对中文文本，使用机械的排列组合方式从句子中分离出词语，获得分词结果。分离方法如下：对于一个中文字符数为 L的中文文本，扫描所述中文文本中的每一个中文文字 C, 以 S个中文字符为步长将每一个中文文字 C后面的文字逐个提取出来，组成文字组合；其中， S为 1、 2、 3、 4……。例如，对于句子 "我是中国人"设定扫描步长为 3，分词最大长度为 3，则可能的分词为：我，我是，我是中，是，是中，是中国，中，中国，中国人，国，国人，人。

[0082] 如图 5所示，邮件指纹模块 4包括：

特征数组单元 41，用于构建特征数组。优选地，构造长度为 512的整数数组，并将数组成员初始化为 0。

[0083] 参数单元 42，与所述特征数组单元 41相连，用于提取任一预设参数。优选地，预设参数包括 131， 137, 139。

[0084] 哈希函数单元 43，与所述参数单元 42相连，用于根据当前提取的预设参数，使用 BKDR 哈希函数计算所述分词列表中各分词结果的哈希值。

[0085] 需要说明的是，哈希函数单元 43对于排序模块 3获得的分词列表，每读取一个分词，则计算这个分词的哈希值。其中，一个分词相当于一个字符串。计算哈希值时，需要对字符串中的每个字符，把之前计算出的哈希值与预设参数相乘，并和当前字符相加，获得当前的哈希值，直到字符串的字符串终结，则能够获取当前字符串对应的哈希值。

[0086] 取模单元 44，与所述哈希函数单元 43相连，用于分别对所述哈希值进行取模处理获得模值。取模单元 44使除数为特征数组的长度，对哈希函数单元 43中计算出的每个哈希值取模。

[0087] 例如，特征数组的长度为 512， "中国 "这个分词计算出来的哈希值是 47826238462，则取模后的模值为 510 (47826238462 % 512 = 510)。

[0088] 更新单元 45，与所述取模单元 44相连，用于根据所述模值更新所述特征数组。更新所述特征数组时，需对模值所对应的特征数组的数组成员进行加 1处理。 [0089] 例如，特征数组为 vector, 模值为 510，此时，则对 vector[510]所对应的整数值加 1，即对特征数组 vector中第 510位的数组成员进行加 1处理，更新特征数组 vector。

[0090] 判断处理单元 46，与所述更新单元 45及哈希函数单元 43分别相连，用于判断当前已经处理的哈希值个数是否少于预设值，判断为是时，提取一个与已使用的预设参数相异的其它预设参数，判断为否时，根据哈希值个数及特征数组长度计算阀值，并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。

[0091] 当处理完分词列表中的所有分词后（即所有分词均完成哈希值计算、取模、更新特征数组等处理），判断处理单元 46判断当前已经处理的哈希值个数是否少于预设值。如果已经处理的哈希值个数少于预设值的，提取一个与已使用的预设参数相异的其它预设参数（即选定另外一个预设参数），并返回哈希函数单元 43，哈希函数单元 43、取模单元 44及更新单元 45重新对所有分词进行哈希值计算、取模、更新特征数组等处理。如果已经处理的哈希值个数大于或等于预设值，根据哈希值个数及特征数组长度计算阀值，并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。

[0092] 阀值 =已经处理的哈希值个数 /特征数组长度。

[0093] 根据阀值对所述特征数组进行归一化处理时，需扫描特征数组，如果特征数组的数组成员的值大于阀值，则将数组成员的值置 1，否则置 0。处理后的特征数组，即为电子邮件对应的邮件指纹。通过比对不同电子邮件生成的邮件指纹，即可将相似的电子邮件聚类起来。

[0094] 如图 6所示，类聚模块 5包括：

相似度单元 51，用于根据邮件指纹与垃圾邮件的特征指纹进行比对处理并获得邮件指纹与特征指纹之间的相似度。

[0095] 相似度单元 51通过比对两个特征数组（邮件指纹)有多少个相同位置的数组成员相等，即可判定两个分词的相似度。

[0096] 例如，两个二进制字符串 " 11000011 "及 " 11100011 "则他们只有一个 bit不一样，他们的相似度是 (8-1)/8。

[0097] 类聚单元 52，与所述相似度单元 51相连，用于根据所述相似度对电子邮件进行聚类处理并获得聚类结果。

[0098] 工作时，预处理单元 21对文本进行预处理并抽取出中文文本和 /或英文文本，而分词单元 22分别对所述中文文本和英文文本进行分词处理，并获得分词结果。排序模块 3，使用 TF-IDF技术对所述分词单元 22的分词结果进行排序处理获得分词列表。特征数组单元 41构建特征数组，而参数单元 42提取任一预设参数，哈希函数单元 43则根据当前提取的预设参数，使用 BKDR哈希函数计算所述分词列表中各分词结果的哈希值，取模单元 44分别对所述哈希值进行取模处理获得模值，更新单元 45根据所述模值更新所述特征数组，判断处理单元 46判断当前已经处理的哈希值个数是否少于预设值，判断为是时，提取一个与已使用的预设参数相异的其它预设参数，并返回哈希函数单元 43，哈希函数单元 43、取模单元 44及更新单元 45重新对所有分词进行哈希值计算、取模、更新特征数组等处理，判断为否时，根据哈希值个数及特征数组长度计算阀值，并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。然后，相似度单元 51根据邮件指纹与垃圾邮件的特征指纹进行比对处理并获得邮件指纹与特征指纹之间的相似度，类聚单元 52根据所述相似度对电子邮件进行聚类处理并获得聚类结果。最后，过滤模块 6根据所述聚类结果过滤垃圾电子邮件。

[0099] 由上可知，对电子邮件中的文本进行分词处理和 TF-IDF技术排序处理后，获得分词列表，即可将电子邮件所包含的噪音进行过滤，保留电子邮件中进行过 html干扰处理的文本；然后，根据电子邮件的文本长度，采用一个或多个 BKDR哈希函数来计算电子邮件的邮件指纹，并通过取模、更新特征数组等处理后，使得两个电子邮件计算出相同的邮件指纹的可能性大大降低，可有效地强化分词结果的作用，使得相似的电子邮件更加容易被比对出来；随后，进行归一化处理获得电子邮件的邮件指纹，使得内容稍有不同的电子邮件能通过比对指纹的相似性进行聚类处理；最后，根据所述聚类结果过滤垃圾电子邮件，解决了对短文本垃圾邮件进行计算机自动化过滤的问题。

[0100] 以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

权利要求

1. 一种基于短文本的垃圾邮件过滤方法，其特征在于，所述基于短文本的垃圾邮件过滤方法包括: a、对电子邮件中的文本进行分词处理并获得分词结果；

b、使用 TF-IDF技术对所述分词结果进行排序处理获得分词列表；

c、根据所述分词结果计算电子邮件的邮件指纹；

d、根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果；

e、根据所述聚类结果过滤垃圾电子邮件。

2. 如权利要求 1所述的基于短文本的垃圾邮件过滤方法，其特征在于，步骤 a包括：

al、对文本进行预处理并抽取出中文文本和 /或英文文本；

a2、分别对所述中文文本和英文文本进行分词处理，并获得分词结果。

3. 如权利要求 1所述的基于短文本的垃圾邮件过滤方法，其特征在于，步骤 c包括：

cl、构建特征数组；

c2、提取任一预设参数；

c3、根据当前提取的预设参数，使用 BKDR哈希函数计算所述分词列表中各分词结果的哈希值； c4、分别对所述哈希值进行取模处理获得模值；

c5、根据所述模值更新所述特征数组；

c6、判断当前已经处理的哈希值个数是否少于预设值，

判断为是时，提取一个与已使用的预设参数相异的其它预设参数，并返回执行步骤 c3，

判断为否时，根据哈希值个数及特征数组长度计算阀值，并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。

4. 如权利要求 1所述的基于短文本的垃圾邮件过滤方法，其特征在于，步骤 d包括：

dl、根据邮件指纹与垃圾邮件的特征指纹进行比对处理并获得邮件指纹与特征指纹之间的相似度； d 2、根据所述相似度对电子邮件进行聚类处理并获得聚类结果。

5. 一种基于短文本的垃圾邮件过滤装置，其特征在于，所述基于短文本的垃圾邮件过滤装置包括: 分词模块，用于对电子邮件中的文本进行分词处理并获得分词结果；

排序模块，用于使用 TF-IDF技术对所述分词结果进行排序处理获得分词列表；

邮件指纹模块，用于根据所述分词结果计算电子邮件的邮件指纹；

类聚模块，用于根据所述邮件指纹对电子邮件进行聚类处理并获得聚类结果；

过滤模块，用于根据所述聚类结果过滤垃圾电子邮件。

6. 如权利要求 5所述的基于短文本的垃圾邮件过滤装置，其特征在于，所述分词模块包括：预处理单元，用于对文本进行预处理并抽取出中文文本和 /或英文文本；

分词单元，用于分别对所述中文文本和英文文本进行分词处理，并获得分词结果。

7. 如权利要求 5所述的基于短文本的垃圾邮件过滤装置，其特征在于，所述邮件指纹模块包括：特征数组单元，用于构建特征数组；

参数单元，用于提取任一预设参数；

哈希函数单元，用于根据当前提取的预设参数，使用 BKDR哈希函数计算所述分词列表中各分词结果的哈希值；

取模单元，用于分别对所述哈希值进行取模处理获得模值；

更新单元，用于根据所述模值更新所述特征数组；

判断处理单元，用于判断当前已经处理的哈希值个数是否少于预设值，判断为是时，提取一个与已使用的预设参数相异的其它预设参数，判断为否时，根据哈希值个数及特征数组长度计算阀值，并根据阀值对所述特征数组进行归一化处理获得电子邮件的邮件指纹。

8. 如权利要求 5所述的基于短文本的垃圾邮件过滤装置，其特征在于，所述类聚模块包括：相似度单元，用于根据邮件指纹与垃圾邮件的特征指纹进行比对处理并获得邮件指纹与特征指纹之间的相似度；

类聚单元，用于根据所述相似度对电子邮件进行聚类处理并获得聚类结果。