WO2013097327A1

WO2013097327A1 - 一种垃圾邮件过滤方法

Info

Publication number: WO2013097327A1
Application number: PCT/CN2012/071327
Authority: WO
Inventors: 林延中; 潘庆峰
Original assignee: 盈世信息科技(北京)有限公司
Priority date: 2011-12-29
Filing date: 2012-02-20
Publication date: 2013-07-04
Also published as: CN103186845B; CN103186845A

Abstract

公开了一种垃圾邮件过滤方法，包括：从待过滤邮件中提取中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语；通过统计学习样本，获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；统计每个重要性位置区间编号上分布的词语的个数，并转换成一维数组，获得所述中文文本的特征向量；将所述特征向量输入支持向量机模型，获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。本发明实施例能够准确地对邮件进行分类，提高垃圾邮件的识别准确率。

Description

说明书一种垃圾邮件过滤方法技术领域

本发明涉及通信技术领域，尤其涉及一种垃圾邮件过滤方法。

背景技术

随着网络的快速发展，使用电子邮件（E-mail) 进行通信已十分普遍，图片、文档、影音等各种计算机文件均可通过 E-mail的方式传送给接收者，给人们的生活带来了极大的方便。但同时垃圾邮件也随之蔓延，严重威胁到用户邮箱的稳定性及安全性。

中国专利 CN201010179995公开一种基于 N-GRAM分词模型的反向神经网络垃圾邮件过滤装置，使用 N-GRAM分词模型对邮件样本进行分词，并使用 TF-IDF ( Term Frequency - Inverse Document Frequency) 算法对分词进行权重排序，然后使用 zipf法则提取最重要的特征分词列表（未被挑中的特征分词则被丢弃）。根据文本中是否包含这些 "重要特征分词"构造出文档的特征向量，并以此特征向量进行神经网络的学习和分类，最后输出正常邮件和垃圾邮件两个类别的分类结果。

上述现有技术使用 zipf法则来提取最重要的特征分词，会导致某些次重要的特征分词被丢弃，但是这些次重要的特征分词数量较多，总体仍会对分类系统有相当大的贡献。因此，丢弃这些次重要分词，会影响分类器的准确性。而且，在实际应用中，存在部分灰色地带的邮件，比如某些信用卡的积分广告邮件，对于某些用户来说是希望接收的，但是上述现有技术只有垃圾邮件和正常邮件两个分类结果，由于这些灰色地带的邮件是大量群发的，因此分类器会将其归类到垃圾邮件内；此外，上述现有技术使用神经网络对特征向量进行分类，只能获得一个邮件属于垃圾邮件还是正常邮件的分类结果，不能获得分类结果的置信度；而且没有考虑当前大量的垃圾邮件使用 html 方式包装，并通过添加大量不可见或者不同大小的字体，来干扰文本分类的效果，影响分类器的准确性。发明内容

本发明实施例提出一种垃圾邮件过滤方法，邮件分类准确，能够提高垃圾邮件的识别准确率。

本发明实施例提供的垃圾邮件过滤方法，包括： 511、从待过滤邮件中提取中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语；

512、通过统计已知分类的邮件样本，获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；

513、统计每个重要性位置区间编号上分布的词语的个数，并转换成一维数组，获得所述中文文本的特征向量；

514、将所述特征向量输入支持向量机模型，获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。

在步骤 S11 中，采用排列组合方式从所述中文文本中分离出词语的方法，具体包括：扫描所述中文文本中的每一个中文文字，以 S个中文字符为步长将每一个中文文字后面的文字逐个提取出来，组成文字组合，获得词语；其中， S为自然数。

步骤 S12具体包括：

收集已知分类的邮件样本，所述邮件样本包括正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本；

从所述邮件样本中提取分词样本，对每一个分词样本的区分邮件类型的能力进行排序，形成正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表；每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置区间编号，所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性；

将所述正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件列表中的分词样本及其重要性位置编号记录到数据库中；

从所述待过滤邮件的中文文本中分离出词语后，根据数据库中记录的每个分词样本在不同邮件类型中的重要性位置区间编号，来确定所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号。

进一步的，在步骤 S14之后，还包括：

515、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值，若是，则判定所述待过滤邮件为垃圾邮件，否则不是垃圾邮件。

本发明实施例提供的垃圾邮件过滤方法，从待过滤邮件中提取出中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语，不依赖于中文字典，而是通过排列组合穷举所有可能的分词形式，然后通过统计来确认哪些分词比较重要，不会丢弃次重要的特征分词，将分类结果分成垃圾邮件、正常邮件、广告邮件和订阅邮件四个类型，邮件分类准确。而且使用支持向量机作为特征向量的分类器，能够提高垃圾邮件的识别准确率。附图说明

图 1是本发明实施例一提供的垃圾邮件过滤方法的流程示意图;

图 2是本发明实施例二提供的垃圾邮件过滤方法的流程示意图;

图 3是本发明实施例三提供的垃圾邮件过滤方法的流程示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的垃圾邮件过滤方法，预先收集正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本，分析邮件样本中每个分词属于不同邮件类型的概率，形成样本数据库；再使用支持向量机学习这些样本，获得支持向量机模型。具体如下：

一、收集邮件样本：

收集正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本，加入到样本数据库中。

具体实施时，可以在邮件系统中部署举报系统，收集用户举报的垃圾邮件、广告邮件和订阅邮件，加入到样本数据库中。

二、提取邮件样本中的词语：

首先对邮件样本中的文本进行预处理，从邮件样本中提取出 html 文档、中文文本和英文文本。对于 html文档，将其中的 html标签（html tag) 提取出来单独处理。之后从剩余的信息中提取中文字符和英文字符，形成只有英文字符的文档和只有中文字符的文档。

( 1 )、对于英文文本，以标点符号和空格分隔各个分词。

(2)、对于中文文本，则使用机械的排列组合方式从句子中分离出词语。分离的方法如下：对于一个中文字符数为 L中文文本，扫描所述中文文本中的每一个中文文字 C，以 S个中文字符为步长将每一个中文文字 C后面的文字逐个提取出来，组成文字组合；其中， S为 1、 2、 3、 …。例如，对于句子 "我是中国人"，设定扫描步长为 3，分词最大长度为 3，则可能的分词为：我、我是、我是中、是、是中、是中国、中、中国、中国人、国、国人、人。使用此分词的好处是无需中文词典，由于中文的特性，使用此办法分词肯定可以覆盖到绝大部分的中文词语。另外可以处理形如 "我 a是 a中 a国 a人" 的带有干扰信息的文本。而且使用此分词方法，还可以获得很多次重要的分词，在后续处理会将这些分词按照区分能力进行排序，区分能力低的词语会排到较后的位置。一些次重要的词语对文本分类有较大作用，例如对于 "芙王"这个分词，经过程序处理之后发现它是垃圾邮件的一个有较大区分作用的分词，仔细查看发现这个词来源于销售假烟 "芙蓉王" 的垃圾邮件样本，而芙蓉可能会在其他正常邮件中经常出现，所以 "芙蓉"对于垃圾邮件的区分作用不如 "芙王"。

( 3 )、对于 html文档，从 html文档中提取 html标签（html tag)。根据 html格式要求，每个 html tag包含一个标签名称（tag名称）以及若个数量不确定的标签属性（tag属性）。提取 html tag信息的时候，假如 html tag只有 tag名称没有 tag属性的，则提取的 html标签分词为 tag名称。如果 html tag包含 tag名称和 n个 tag属性的，则将 tag名称和每个 tag属性一一组合后，形成 n个 html标签分词。

三、对分词进行排序处理：

从邮件中提取出词语（包括中文分词、英文分词和 html标签分词）后，使用 TF-IDF算法对上述第二步的分词进行排序处理。排序后，获得正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表，每个分词列表中包含最能代表这个邮件类型的分词样本，并按照区分能力从高到低的顺序对分词进行排序，并按照分词在每个列表中的排序位置赋予一个重要性位置区间编号。该重要性位置区间编号表示分词样本在某类邮件样本中的重要性。例如 "芙王"这个分词在垃圾邮件分词列表的位置是位于 10%位置的，则赋予 "芙王" 的重要性位置区间编号为 10; 而 "芙蓉"这个分词在垃圾邮件分词列表的位置是位于 90%的，则赋予 "芙蓉" 的重要性位置区间编号为 90。某一分词在垃圾邮件分词列表的排序位置越靠前，表示该分词在垃圾邮件分类中的重要性越大。

将正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件列表中的分词样本及其重要性位置编号记录到数据库中，供后续进行邮件过滤时使用。

四、支持向量机模型：

对于每一个邮件样本，获得邮件中的每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号后，对每个重要性位置区间编号上分布的词语的个数进行统计，如下：

构建一个四维数组，本实施例仅以 4* 10的四维数组为例进行说明。

四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编号上所分布的词语个数，分别为 Array[3][10]、 Array[3][20] Array[3][30] Array[13][40] Array[3][50] Array[3][60] Array[3][70] Array[3][80] Array[3][90] Array[3][100]。其中， Array[3][10] 表示分布在正常邮件分词列表的重要性位置区间编号 10 上的分词个数， Array[3][20]表示分布在正常邮件分词列表的重要性位置区间编号 20上的分词个数，以此类推。

四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区间编号上所分布的词语个数，分别为 Array[2][10]、 Array[2][20] Array[2][30] Array[13][40] Array[2][50] Array [2] [60] Array[2][70] Array[2][80] Array[2][90] Array[2][100]。其中， Array[2][10] 表示分布在垃圾邮件分词列表的重要性位置区间编号 10 上的分词个数， Array[2][20]表示分布在垃圾邮件分词列表的重要性位置区间编号 20上的分词个数，以此类推。

四维数组的第三行记录所述广告邮件分词列表的每个重要性位置区间编号上所分布的词语个数，分别为 Array[l][10]、 Array[l][20] Array[l][30] Array[13][40] Array[l][50] Array[l][60] Array[l][70] Array[l][80] Array[l][90] Array[l][100]。其中， Array[l][10] 表示分布在广告邮件分词列表的重要性位置区间编号 10 上的分词个数， Array[l][20]表示分布在广告邮件分词列表的重要性位置区间编号 20上的分词个数，以此类推。

四维数组的第四行记录所述订阅邮件分词列表的每个重要性位置区间编号上所分布的词语个数，分别为 Array[0][10]、 Array[0][20] Array[0][30] Array[13][40] Array[0][50] Array [0] [60] Array[0][70] Array[0][80] Array[0][90] Array[0][100]。其中， Array[0][10] 表示分布在正常邮件分词列表的重要性位置区间编号 10 上的分词个数， Array[0][20]表示分布在正常邮件分词列表的重要性位置区间编号 20上的分词个数，以此类推。

四维数组中的每一个数的初始值为 0，在对每个分词列表中的每个重要性位置区间编号上分布的词语的个数进行统计时，邮件样本中的词语在某一重要性位置区间编号上出现，该重要性位置区间编号的词语个数就加 1。例如，某一邮件样本中的分词 "发票"，在正常邮件分词列表的出现重要性位置区间编号是 30(代表在列表的 29%-30%位置之间），则 Array[0][30]将会加 1。 "发票"在垃圾邮件分词列表的出现重要性位置区间编号是 0 (代表在列表的 0%-1%位置之间），贝 U Array[l][0]将会加 1。该邮件样本中 "你好"在正常邮件分词列表的出现重要性位置区间编号是 30，则 Array[0][30]再加 1，其余情况类推，从而统计出四维数组中的每一个数的值。

将上述四维数组按照先行后列的方式转换成一维数组，此一维数组即为文本的特征向量。具体的，转换方法为：（1 )、把四维数组的第一行拷贝到一维数组；（2)、把四维数组的第二行的内容添加到上述步骤（1 ) 的一维数组的后面；（3 )、把四维数组的第三行的内容添加到上述步骤（2) 的一维数组的后面；（4)、把四维数组的第四行的内容添加到上述步骤 (3 ) 的一维数组的后面，到此，一维数组包含四维数组的所有内容，且只有一维。

将上述特征向量输入支持向量机，输出支持向量机模型。其中，支持向量机为现有技术，在此不进行详细说明。

获得样本数据库和支持向量机模型后，对于一个未知邮件类型的待过滤的邮件，邮件过滤方法如下：

参见图 1，是本发明实施例一提供的垃圾邮件过滤方法的流程示意图。

在本实施例一中，待过滤邮件中包含中文文本；垃圾邮件过滤方法包括以下步骤：

S1K 从待过滤邮件中提取中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语；

其中，在步骤 S11 中，采用排列组合方式从所述中文文本中分离出词语的方法，具体包括：扫描所述中文文本中的每一个中文文字，以 S个中文字符为步长将每一个中文文字后面的文字逐个提取出来，组成文字组合，获得词语；其中， S为自然数。

上述步骤 S12具体包括：

从所述邮件样本中提取分词样本，对每一个分词样本的区分邮件类型的能力进行判定，形成正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表；每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置区间编号，所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性；

上述步骤 S13具体包括：

构建一个四维数组，四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编号上所分布的词语个数；四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区间编号上所分布的词语个数；四维数组的第三行记录所述广告邮件分词列表的每个重要性位置区间编号上所分布的词语个数；四维数组的第四行记录所述订阅常邮件分词列表的每个重要性位置区间编号上所分布的词语个数；所述词语是从所述待过滤邮件的中文文本中分离出的词语；

按照先行后列的方式将所述四维数组转换成一维数组，获得所述中文文本的特征向量。

在一个可选的实施方式中，在步骤 S14之后，还包括：

S15、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值，若是，则判定所述待过滤邮件为垃圾邮件，否则不是垃圾邮件。

参见图 2，是本发明实施例二提供的垃圾邮件过滤方法的流程示意图。

在本实施例二中，待过滤邮件中包含中文文本和英文文本；其中，对中文文本的处理流程与上述步骤 S11~S14相同，在此不予赘述。

如图 2所示，对英文文本的处理流程包括以下步骤：

521、从待过滤邮件中提取英文字符，组合成英文文本，且以标点符号和空格分隔每个分词，从所述英文文本中分离出词语；

522、通过统计已知分类的邮件样本，获得所述英文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；

523、统计每个重要性位置区间编号上分布的词语的个数，并转换成一维数组，获得所述英文文本的特征向量；

524、将所述英文文本的特征向量输入支持向量机模型，获得所述英文文本分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。

在步骤 S24之后，根据 S14和 S24 的结果，判断待过滤邮件是否为垃圾邮件，具体如下：

525、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值；若是，则判定所述待过滤邮件为垃圾邮件；若否，则执行 S26; S26、判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值；若是，则判定所述待过滤邮件为垃圾邮件；否则判定所述待过滤邮件不是垃圾邮件。

参见图 3，是本发明实施例三提供的垃圾邮件过滤方法的流程示意图。

在本实施例三中，待过滤邮件中包含中文文本、英文文本和 html 文档；其中，对中文文本的处理流程与上述步骤 S11 S14相同，对英文文本的处理流程与上述步骤 S21 S24相同，在此不予赘述。

如图 3所示，对 html文档的处理流程包括以下步骤：

S31、从待过滤邮件中提取 html文档，从所述 html文档中提取 html标签分词；

532、通过统计已知分类的邮件样本，获得所述 html文档的每一个 html标签分词在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；

533、统计每个重要性位置区间编号上分布的 html标签分词的个数，并转换成一维数组，获得所述 html文档的特征向量；

534、将所述 html文档的特征向量输入支持向量机模型，获得所述 html文档分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。

其中，步骤 S31 具体包括：从待过滤邮件中提取 html 文档，从所述 html 文档中提取 html标签；若所述 html标签包含标签名称，则将所述标签名称提取出来，形成 html标签分词；若所述 html 标签包含标签名称和至少一个标签属性，则将所述标签名称提取出来，和每个标签属性一一组合后，形成 html标签分词。

在步骤 S34之后，根据 S14、 S24和 S34的结果，判断待过滤邮件是否为垃圾邮件，具体如下：

535、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值；若是，则判定所述待过滤邮件为垃圾邮件；若否，则执行 S36;

536、判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值；若是，则判定所述待过滤邮件为垃圾邮件；若否，则执行 S37;

537、判断所述 html文档为垃圾邮件的概率是否大于设定的第三阀值；若是，则判定所述待过滤邮件为垃圾邮件；否则判定所述待过滤邮件不是垃圾邮件。

本实施例从待过滤邮件中提取 html文档，将所述 html文档中的 html标签提出来单独处理。由于当前大量的垃圾邮件使用 html 方式包装，并通过添加大量不可见或者不同大小的字体，来干扰文本分类的效果，本发明实施例将邮件中的 html 文档提取出来单独处理，能够提高分类器的准确性

本发明实施例提供的垃圾邮件过滤方法，从待过滤邮件中提取出中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语，不依赖于中文字典，而是通过排列组合穷举所有可能的分词形式，然后通过统计来确认哪些分词比较重要，不会丢弃次重要的特征分词，将分类结果分成垃圾邮件、正常邮件、广告邮件和订阅邮件四个类型，邮件分类准确。而且使用支持向量机作为特征向量的分类器，能够提高垃圾邮件的识别准确率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

权利要求

1. 一种垃圾邮件过滤方法，其特征在于，包括：

S1 K 从待过滤邮件中提取中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语；

2. 如权利要求 1 所述的垃圾邮件过滤方法，其特征在于，在步骤 S11 中，采用排列组合方式从所述中文文本中分离出词语的方法，具体包括：

扫描所述中文文本中的每一个中文文字，以 S个中文字符为步长将每一个中文文字后面的文字逐个提取出来，组成文字组合，获得词语；其中， S为自然数。

3. 如权利要求 2所述的垃圾邮件过滤方法，其特征在于，步骤 S12具体包括：

4. 如权利要求 3所述的垃圾邮件过滤方法，其特征在于，步骤 S13具体包括：

5. 如权利要求 4所述的垃圾邮件过滤方法，其特征在于，在步骤 S14之后，还包括：

6. 如权利要求 1~4 任一项所述的垃圾邮件过滤方法，其特征在于，所述垃圾邮件过滤方法还包括：

7. 如权利要求 6所述的垃圾邮件过滤方法，其特征在于，在步骤 S24之后，还包括：

525、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值；若是，则判定所述待过滤邮件为垃圾邮件；若否，则执行 S26;

526、判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值；若是，则判定所述待过滤邮件为垃圾邮件；否则判定所述待过滤邮件不是垃圾邮件。

8. 如权利要求 6所述的垃圾邮件过滤方法，其特征在于，所述垃圾邮件过滤方法还包括： S31、从待过滤邮件中提取 html文档，从所述 html文档中提取 html标签分词；

532、通过统计已知分类的邮件样本，获得所述 html 文档的每一个 html标签分词在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；

534、将所述 html 文档的特征向量输入支持向量机模型，获得所述 html 文档分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。

9. 如权利要求 8所述的垃圾邮件过滤方法，其特征在于，步骤 S31具体包括：

从待过滤邮件中提取 html文档，从所述 html文档中提取 html标签；

若所述 html标签包含标签名称，则将所述标签名称提取出来，形成 html标签分词；若所述 html标签包含标签名称和至少一个标签属性，则将所述标签名称提取出来，和每个标签属性一一组合后，形成 html标签分词。

10. 如权利要求 9所述的垃圾邮件过滤方法，其特征在于，在步骤 S34之后，还包括：

535、判断所述中文文本为垃圾邮件的概率是否大于设定的第- 阀值；若是，则判定所述待过滤邮件为垃圾邮件；若否，则执行 S36;

536、判断所述英文文本为垃圾邮件的概率是否大于设定的第. 阀值；若是，则判定所述待过滤邮件为垃圾邮件；若否，则执行 S37;

537、判断所述 html文档为垃圾邮件的概率是否大于设定的第：阀值；若是，则判定所述待过滤邮件为垃圾邮件；否则判定所述待过滤邮件不是垃圾邮件