WO2010037292A1

WO2010037292A1 - 一种确定可疑垃圾邮件范围的方法和系统

Info

Publication number: WO2010037292A1
Application number: PCT/CN2009/073563
Authority: WO
Inventors: 王晖; 陈志强
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2008-09-27
Filing date: 2009-08-27
Publication date: 2010-04-08
Also published as: CN101360074B; CN101360074A

Description

一种确定可疑垃圾邮件范围的方法和系统技术领域

本发明涉及电子邮件技术领域，尤其涉及一种确定可疑垃圾邮件范围的方法和系统。发明背景

电子邮件已经成为人们沟通交流的重要通讯工具，随之而来，如何个亟待解决的问题。

目前，为了最大限度地防止垃圾邮件对电子邮件用户的干扰，出现了一种采用全文搜索的方式过滤垃圾邮件的方法，下面参照图 1对该方法进行介绍。

图 1是现有技术中采用全文搜索方式过滤垃圾邮件的方法流程图，如图 1所示，该方法包括：

步骤 101 , 搜索当前电子邮件的主题和全部正文，以固定的信息长度从邮件全文中截取样本，作为该邮件的关键特征信息，代表原始邮件。

步骤 102, 根据所述关键特征信息判断存储的邮件中是否有与该当前电子邮件的内容相似的电子邮件，如果是，执行步骤 103 , 否则，返回步骤 101。

步骤 103 , 判断与该当前电子邮件的内容相似的电子邮件数目是否已达到预定义的垃圾阈值，若是，执行步骤 104, 否则返回步骤 101。

步骤 104, 将该当前电子邮件以及与该当前电子邮件内容相似的电子邮件标注为垃圾邮件，结束本流程。

可见，图 1所示的方法以每一封电子邮件的主题和全部正文为搜索对象，判断存储的电子邮件中是否有与该当前电子邮件的内容相似的电子邮件，然后根据内容相似的电子邮件数目来过滤垃圾邮件。这种方法需要对每一封邮件都进行全文搜索处理，数据处理量庞大，判断邮件是否为垃圾邮件的效率较低。发明内容

有鉴于此，本发明的目的在于提供一种确定可疑垃圾邮件范围的方法和系统，以预先确定可疑垃圾邮件的范围，从而提高判断邮件是否为垃圾邮件的效率。

为达到上述目的，本发明的技术方案具体是这样实现的：一种确定可疑垃圾邮件范围的方法，该方法包括：

从每个已接收的电子邮件中截取第一预定数目个字符；

统计截取到的每个字符串在截取到的所有字符串中的重复次数，将按照重复次数由多到少排在前第二预定数目位的字符串确定为可疑垃圾邮件特征；

将具有所述特征的邮件确定为可疑垃圾邮件。

一种确定可疑垃圾邮件范围的系统，该系统包括字符串截取装置、统计装置和可疑垃圾邮件确定装置；

所述字符串截取装置 , 用于从每个已接收的电子邮件中截取第一预定数目个字符，将截取到的字符串发给统计装置；

所述统计装置，用于接收字符串，统计接收的每个字符串在接收的所有字符串中的重复次数，将按照重复次数由多到少排在前第二预定数目位的字符串发给所述可疑垃圾邮件确定装置；

所述可疑垃圾邮件确定装置，用于将接收的字符串确定为可疑垃圾邮件特征，将具有所述特征的邮件确定为可疑垃圾邮件。可见，由于本发明中，通过从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征，统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数，将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征，将具有所述特征的邮件确定为可疑垃圾邮件，可以在判断邮件是否是垃圾邮件之前，预先确定出可疑垃圾邮件的范围，后续只需判断可疑垃圾邮件是否为垃圾邮件即可，而不必对每一封邮件均进行判断，提高了判断邮件是否为垃圾邮件的效率。附图简要说明

图 1是现有技术中采用全文搜索方式过滤垃圾邮件的方法流程图；图 2是本发明实施例中确定可疑垃圾邮件范围的方法流程图；图 3是确定可疑垃圾邮件范围的系统的第一实施例结构图；图 4是确定可疑垃圾邮件范围的系统的第二实施例结构图；图 5是确定可疑垃圾邮件范围的系统的第三实施例结构图。实施本发明的方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

图 2是本发明实施例中确定可疑垃圾邮件范围的方法流程图，如图 2所示，该方法包括：

步骤 201 , 从每个已接收的电子邮件中截取待确定可疑垃圾邮件特征。

本步骤中，在电子邮件的主题与全部正文的字符数总和大于第一预定数目时，从电子邮件的主题和全部正文的固定位置处截取所述第一预定数目的字符作为待确定可疑垃圾邮件特征，在邮件的主题与全部正文的字符数总和少于所述第一预定数目时，截取所述邮件的主题和全部正文作为待确定可疑垃圾邮件特征。所述的全部正文不包含主题。这里的待确定可疑垃圾邮件特征实际上就是从邮件中截取的字符串。

所述全部正文的固定位置是指正文的某一部分，例如可以是正文的起始处，也可以是正文的其他部分，例如，可以是正文的中部或者尾部。

例如，如果所述固定位置是指所述全部正文的起始处，所述第一预定数目为 60个，第一封电子邮件的主题有 10个字符，全部正文有 100 个字符，第二封电子邮件的主题有 12个字符，全部正文有 18个字符，那么，从第一封邮件中截取的待确定可疑垃圾邮件特征就是第一封电子邮件的主题的 10个字符和从第一封电子邮件的正文起始处开始的 50个字符顺次组成的字符串，从第二封电子邮件中截取的待确定可疑垃圾邮件特征就是所述第二封电子邮件的全部字符顺次组成的字符串。

由于本步骤中，对于字符数大于第一预定数目的电子邮件，只对所述电子邮件的主题和部分正文进行处理，而非对所述电子邮件的全部正文进行处理，因此，需要处理的信息量较小，可以提高对每封电子邮件进行处理的速度。

另外，通常垃圾邮件中的大量垃圾信息都出现在邮件的主题和正文的起始处，例如出现在电子邮件的首段，因此，当所述固定位置是正文的起始处时，还可以在减小需要处理的信息量的同时，避免对垃圾信息的漏检。当然，如果邮件中的大量垃圾信息出现的位置靠后，例如出现在邮件的中部或者尾部，那么也可以在该中部或者尾部截取待确定可疑垃圾邮件特征，从而避免对垃圾信息的漏检。其中，邮件的垃圾信息通常出现在邮件的哪些位置上可以由设计用于判断邮件是否是可疑垃圾邮件的程序的本领域技术人员依据统计信息而定，然后在按照图 2所示方法设计确定可疑垃圾邮件范围的程序或者装置时，将所述固定位置具体设置为邮件的起始处、中部或者尾部，则后续所述程序或装置在确定可疑垃圾邮件范围时，只需对电子邮件的主题和该固定位置处的正文进行处理即可，而无需搜索电子邮件的全文，对该全文进行处理。通过统计已经判断出的垃圾邮件中的垃圾信息出现在邮件各个位置的概率，可以得到所述统计信息。

步骤 202, 统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数。

本步骤中，统计所述重复次数的方法可以为：

方法一，统计每个待确定可疑垃圾邮件特征在与该待确定可疑垃圾邮件特征长度相同的所有待确定可疑垃圾邮件特征中的重复次数，将该重复次数作为该待确定可疑垃圾邮件特征在所述截取到的所有待确定可疑垃圾邮件特征中的重复次数。

方法二，统计每个待确定可疑垃圾邮件特征在长度大于或者等于该

，确

复次数，将该重复次数作为该待确定可疑垃圾邮件特征在所述截取到的所有待确定可疑垃圾邮件特征中的重复次数。具体地，可以搜索长度大邮件特征的各个字符中，是否按照被统计的待确定可疑垃圾邮件特征中各个字符的出现顺序，出现了被统计的待确定可疑垃圾邮件特征的各个字符，若是，则将重复次数加 1。

例如，当前截取的待确定可疑垃圾邮件特征有" 123456"、 "12345"、 "12345" "13589" 和 " 1~2~3~4~5" , 按照方法一，待确定可疑垃圾邮件特征 "12345" 的重复次数为 2, 按照方法二，待确定可疑垃圾邮件特征 "12345" 的重复次数为 4。

当按照方法二统计所述重复次数时，可以去除垃圾邮件中干扰字的干扰，例如，去除字符 "~" 的干扰，避免由于干扰字造成的漏检可疑垃圾邮件。

步骤 203, 将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征。其中，第二预定数目是预先设定的自然数。

本步骤中，可以按照重复次数对各个字符串进行排序，例如，可以按照重复次数对字符串进行降序排列或升序排列，然后将排在最前面第二预定数目位或最后面第二预定数目位的字符串确定为可疑垃圾邮件的特征。

例如，按照字符串的重复次数从高到低的顺序对字符串进行排序 (即降序排列），列出出现相应字符串的邮件列表，以供后续确定可疑垃圾邮件使用，具体请见表一，表一中的 EML表示邮件。

如果所述第二预定数目的取值为 2, 那么，字符串 A、字符串 B和字符串 C就是可疑垃圾邮件的特征。第二预定数目的具体取值也是在设计相应的确定可疑垃圾邮件范围的程序时确定的。其中的 "A，，、 "B"和 "C" 是字符串的代号，并非真正的字符串，例如，字符串 A可以代表字符串 "12345" , 字符串 B可以代表字符串 "6789"。步骤 204, 将具有所述特征的邮件作为可疑垃圾邮件，结束本流程。当所述第二预定数目的取值为 2时，按照表一，出现了字符串 A或字符串 B或字符串 C的邮件被确定为可疑垃圾邮件。

确定出可疑垃圾邮件的范围后，可以将确定出的可疑垃圾邮件范围交给反垃圾系统，则后续可以只判断可疑垃圾邮件是否是垃圾邮件，而无需判断接收的每一封邮件是否是垃圾邮件。其中，可以通过人工或者人工智能（AI )来判断可疑垃圾邮件是否为垃圾邮件。实际应用中，可以在收到电子邮件后立即按照图 2的方法判断该邮件是否是可疑垃圾邮件，也可以先存储收到的电子邮件，然后定时或定量判断当前存储的电子邮件是否是可疑垃圾邮件。的，下面对所述第一预定数目的具体数值的选择方法进行介绍。

本领域的技术人员首先预设一个阈值范围，并为所述第一预定数目选择一个具体的取值，所述阈值范围的含义是：如果字符串的重复次数在该阈值范围内，则该字符串是可疑垃圾邮件的特征，否则，该字符串不是可疑垃圾邮件的特征。本领域技术人员可以依据经验来确定该阈值范围，例如，如果通过一段时间的人工统计，发现垃圾电子邮件占所有电子邮件的比例在 10%~50%之间，那么当对 10000封邮件圈定可疑垃圾邮件范围时，所述阈值范围可以确定为（ 1000, 5000 )。

假设所述阈值范围是（ 1000, 5000 ), 第一预定数目取值是 5 , 按照图 2所示的方法统计出的某一字符串的重复次数大于等于 5000,则说明第一预定数目的取值设得过小，该重复次数大于等于 5000 的字符串不仅可能出现在垃圾邮件中，还可能大量地出现在非垃圾邮件中，此后，设计人员增大第一预定数目的取值，例如，取为 7, 再次按照图 2所示的方法统计每一字符串的重复次数，如果本次统计出的该重复次数在 ( 1000, 5000 )之间，则说明第一预定数目的取值是合理的，因此，可以将第一预定数目取为 7。

图 2中，确定出可疑垃圾邮件的特征后，可以将可疑垃圾邮件的特征存入特征库，日后将具有该特征库中的特征的电子邮件判断为可疑垃圾邮件，之后只需判断可疑垃圾邮件是否为垃圾邮件即可。其中，特征库可以采用表一的形式，即存储有可疑垃圾邮件的特征、每个特征在邮件中出现的重复次数以及出现该特征的邮件列表，也可以采用其他的形式，例如只存储有特征和所述重复次数。

所述的特征库占用的存储空间小，因此，在利用该特征库确定可疑垃圾邮件范围时，可以减小反垃圾邮件系统占用的存储空间，这是因为，如果按照现有技术对邮件的全文进行垃圾邮件处理，则需要存储所有需要处理的邮件的全文，存储空间占用较大。

下面给出确定可疑垃圾邮件范围的系统的实施例。

图 3是确定可疑垃圾邮件范围的系统的第一实施例结构图，如图 3 所示，该系统包括字符串截取装置 301、统计装置 302和可疑垃圾邮件确定装置 303。

字符串截取装置 301 , 用于从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征，将截取到的待确定可疑垃圾邮件特征发给统计装置 302。

统计装置 302, 用于接收待确定可疑垃圾邮件特征，统计接收的每个待确定可疑垃圾邮件特征在接收的所有待确定可疑垃圾邮件特征中的重复次数，将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征发给可疑垃圾邮件确定装置 303。

可疑垃圾邮件确定装置 303 , 用于将接收的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征，将具有所述特征的邮件作为可疑垃圾邮件。

字符串截取装置 301 , 还可以用于在电子邮件的主题与全部正文的字符数总和大于第一预定数目时，从电子邮件的主题和全部正文的固定位置处截取所述第一预定数目的字符作为待确定可疑垃圾邮件特征，并在邮件的主题与全部正文的字符数总和少于所述第一预定数目时，截取所述邮件的主题和全部正文作为待确定可疑垃圾邮件特征，将截取到的待确定可疑垃圾邮件特征发给统计装置 302。

图 4是确定可疑垃圾邮件范围的系统的第二实施例结构图，图 4所示的系统与图 3所示的系统的区别仅在于：

可疑垃圾邮件确定装置 303 包括特征库 3031和可疑垃圾邮件确定模块 3032。

特征库 3031 ,用于将接收的待确定可疑垃圾邮件特征作为可疑垃圾邮件特征进行存储。

可疑垃圾邮件确定模块 3032, 用于接收电子邮件，判断接收的电子邮件是否具有特征库 3031 中的特征，将具有所述特征的电子邮件确定为可疑垃圾邮件。

图 5是确定可疑垃圾邮件范围的系统的第三实施例结构图，图 5所示的系统与图 3或图 4所示的系统的区别仅在于：图 5所示的系统进一步包括垃圾邮件确定装置 504。

垃圾邮件确定装置 504, 用于判断可疑垃圾邮件确定装置 303确定出的可疑垃圾邮件是否是垃圾邮件。具体地，垃圾邮件确定装置可以采用人工智能（AI )、贝叶斯类、神经网络类或支持向量机等方式来判断可疑垃圾邮件是否是垃圾邮件。

可见，由于本发明实施例中，通过从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征，统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数，将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征，将具有所述特征的邮件作为可疑垃圾邮件，可以在判断邮件是否是可疑垃圾邮件之前，预先确定出可疑垃圾邮件的范围，后续只需判断可疑垃圾邮件是否为垃圾邮件即可，而不必对每一封邮件均进行判断，提高了判断邮件是否为垃圾邮件的效率。

而且，在确定可疑垃圾邮件的范围时，只对电子邮件的主题和固定位置处的正文进行处理，无须对电子邮件的全文都进行处理，减少了需要处理的信息量，提高了判断邮件是否为垃圾邮件的效率。

另外，由于特征库占用的存储空间较小，与现有技术中判断邮件是否是垃圾邮件时需要保存邮件的全文信息相比，能够节省存储空间。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种确定可疑垃圾邮件范围的方法，其特征在于，该方法包括：从每个已接收的电子邮件中截取第一预定数目个字符；

将具有所述特征的邮件确定为可疑垃圾邮件。

2、如权利要求 1 所述的方法，其特征在于，所述从每个已接收的电子邮件中截取第一预定数目个字符包括：

在电子邮件的主题与全部正文的字符数总和大于第一预定数目时，从电子邮件的主题和全部正文的固定位置处截取所述第一预定数目的字符，在邮件的主题与全部正文的字符数总和少于所述第一预定数目时，截取所述邮件的主题和全部正文。

3、如权利要求 1 所述的方法，其特征在于，所述统计截取到的每个字符串在截取到的所有字符串中的重复次数包括：

统计每个字符串在与该字符串长度相同的所有字符串中的重复次数，将该重复次数确定为该字符串在所述截取到的所有字符串中的重复次数。

4、如权利要求 1 所述的方法，其特征在于，所述统计截取到的每个字符串在截取到的所有字符串中的重复次数包括：

统计每个字符串在长度大于或者等于该字符串长度的所有字符串中的重复次数，将该重复次数作为该待字符串在所述截取到的所有字符串中的重复次数。

5、如权利要求 4所述的方法，其特征在于，统计每个字符串在长度大于或者等于该字符串长度的所有字符串中的重复次数包括：搜索长度大于或者等于被统计的字符串长度的字符串的各个字符中，是否按照被统计的字符串中各个字符的出现顺序，出现了被统计的字符串的各个字符，若是，则将重复次数加 1。

6、如权利要求 1所述的方法，其特征在于，

该方法进一步包括：将被确定为可疑垃圾邮件特征的字符串存储在可疑垃圾邮件特征库中；

所述将具有所述特征的邮件确定为可疑垃圾邮件为：

将具有所述特征库中字符串的邮件确定为可疑垃圾邮件。

7、如权利要求 2所述的方法，其特征在于，所述全部正文的固定位置为所述全部正文的起始处或中部或尾部。

8、如权利要求 1至 7任一权项所述的方法，其特征在于，该方法进一步包括：

判断可疑垃圾邮件是否为垃圾邮件。

9、一种确定可疑垃圾邮件范围的系统，其特征在于，该系统包括字符串截取装置、统计装置和可疑垃圾邮件确定装置；

所述可疑垃圾邮件确定装置，用于将接收的字符串确定为可疑垃圾邮件特征，将具有所述特征的邮件确定为可疑垃圾邮件。

10、如权利要求 9所述的系统，其特征在于，

所述字符串截取装置，用于在电子邮件的主题与全部正文的字符数总和大于第一预定数目时，从电子邮件的主题和全部正文的固定位置处截取所述第一预定数目的字符，在邮件的主题与全部正文的字符数总和少于所述第一预定数目时，截取所述邮件的主题和全部正文；将截取到的字符串发给统计装置。

11、如权利要求 9所述的系统，其特征在于，所述可疑垃圾邮件确定装置包括特征库和可疑垃圾邮件确定模块；

所述特征库，用于将接收的字符串确定为可疑垃圾邮件特征并存储；

所述可疑垃圾邮件确定模块，用于接收电子邮件，判断接收的电子邮件是否具有所述特征库中的特征，将具有所述特征的电子邮件确定为可疑垃圾邮件。

12、如权利要求 9或 10或 11所述的系统，其特征在于，该系统进一步包括垃圾邮件确定装置；

所述垃圾邮件确定装置，用于判断所述可疑垃圾邮件确定装置确定出的可疑垃圾邮件是否是垃圾邮件。