WO2015039478A1

WO2015039478A1 - 垃圾短信的识别方法及装置

Info

Publication number: WO2015039478A1
Application number: PCT/CN2014/080660
Authority: WO
Inventors: 严春霞; 丁岩; 冯军; 单娜
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-09-17
Filing date: 2014-06-24
Publication date: 2015-03-26
Also published as: EP3048539A4; CN104462115A; US20160232452A1; EP3048539A1

Abstract

本发明公开了一种垃圾短信的识别方法及装置，在上述方法中，在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。根据本发明提供的技术方案，提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率，降低了垃圾短信的误报率和漏报率。

Description

垃圾短信的识别方法及装置技术领域本发明涉及通信领域，具体而言，涉及一种垃圾短信的识别方法及装置。背景技术目前，手机用户几乎每日都会接收到不同数量的垃圾短信，经常被垃圾短信所困扰。虽然，运营商每年都在扩大治理资金和人力的投入，但是随着不法分子所采取的规避手段多样化与散播渠道多样化，运营商所采取的监控垃圾短信措施的投入产出比呈逐年下降趋势，尤其是在垃圾短信的挖掘方面更是存在诸多问题。在上述问题中，短信数据量大，无法准确挖掘垃圾短信是其中最为突出的一个难题。由此可见，相关技术中缺乏一种能够准确挖掘垃圾短信的技术方案。发明内容本发明实施例提供了一种垃圾短信的识别方法及装置，以至少解决相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题。根据本发明的一个实施例，提供了一种垃圾短信的识别方法。根据本发明实施例的垃圾短信的识别方法包括：在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。优选地，从短信集合中识别出垃圾短信集合包括：采用以下公式计算每条短信的分类权重 typeweight: typeweight= 其中， PCC0)为垃圾短信样本集中

的短信总量， P(C1) 为非垃圾短信样本集中的短信总量， P(Wt I CO)为第一条件概率， P(Wt I Cl)为第二条件概率， n为每条短信所包含的分词数量， N为每条短信在短信集合中重复出现的次数， wt属于第一特征词集合或者第二特征词集合；根据分类权重与预设阈值的比较结果识别出垃圾短信集合，其中，垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值，预设阈值为 P(C0)与 P(C1)的比值。优选地，获取第一特征词集合以及第一条件概率包括：对垃圾短信样本集进行预处理；对垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数；根据统计出的次数与垃圾短信样本集中短信样本总量的比值计算第一条件概率；采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为第一特征词集合，其中， N为正整数。优选地，获取第二特征词集合以及第二条件概率包括：对非垃圾短信样本集进行预处理；对非垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数；根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率；采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为第二特征词集合，其中， N为正整数。优选地，在从短信集合中识别出垃圾短信集合之后，还包括：获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码；对获取到的主叫号码和被叫号码进行监控。优选地，上述方法应用于 hadoop平台，在 hadoop平台上对短信集合中的各条短信进行并行处理。根据本发明的另一实施例，提供了一种垃圾短信的识别装置。根据本发明实施例的垃圾短信的识别装置包括：第一获取模块，设置为在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；第二获取模块，设置为在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；识别模块，设置为根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。优选地，识别模块包括：第一计算单元，设置为采用以下公式计算每条短信的分类权重 typeweight: ， PCC0)为垃圾短信样本集中的

短信总量， P(C1) 为非垃圾短信样本集中的短信总量， P(Wt I CO)为第一条件概率， P(Wt I C1)为第二条件概率， n为每条短信所包含的分词数量， N为每条短信在短信集合中重复出现的次数， Wt属于第一特征词集合或者第二特征词集合；识别单元，设置为根据分类权重与预设阈值的比较结果识别出垃圾短信集合，其中，垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值，预设阈值为 P(C0)与 P(C1)的比值。优选地，第一获取模块包括：第一预处理单元，设置为对垃圾短信样本集进行预处理；第一分词处理单元，设置为对垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；第一统计单元，设置为根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数；第二计算单元，设置为根据统计出的次数与垃圾短信样本集中的短信样本总量的比值计算第一条件概率；第一选取单元，设置为采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为第一特征词集合，其中， N为正整数。优选地，第二获取模块包括：第二预处理单元，设置为对非垃圾短信样本集进行预处理；第二分词处理单元，设置为对非垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；第二统计单元，设置为根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数；第三计算单元，设置为根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率；第二选取单元，设置为采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为第二特征词集合，其中， N为正整数。优选地，上述装置还包括：第三获取模块，设置为获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码；监控模块，设置为对获取到的主叫号码和被叫号码进行监控。优选地，上述装置应用于 hadoop平台，在 hadoop平台上对短信集合中的各条短信进行并行处理。通过本发明，采用在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数以及上述获取到的第一特征词集合、第二特征词集合、第一条件概率、第二条件概率可以从短信集合中更加准确地识别出垃圾短信集合，由此解决了相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题，进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率，降低了垃圾短信的误报率和漏报率。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：图 1是根据本发明实施例的垃圾短信的识别方法的流程图；图 2是根据本发明实施例的垃圾短信的识别装置的结构框图；图 3是根据本发明优选实施例的垃圾短信的识别装置的结构框图。具体实施方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。图 1是根据本发明实施例的垃圾短信的识别方法的流程图。如图 1所示，该方法可以包括以下处理步骤：步骤 S102:在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；步骤 S104:在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；步骤 S106: 根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。相关技术中，由于短信数据量大而无法准确挖掘垃圾短信。采用如图 1所示的方法，在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数以及上述获取到的第一特征词集合、第二特征词集合、第一条件概率、第二条件概率可以从短信集合中更加准确地识别出垃圾短信集合，由此解决了相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题，进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率，降低了垃圾短信的误报率和漏报率。在优选实施过程中，上述方法应用于 hadoop平台，在 hadoop平台上对短信集合中的各条短信进行并行处理。优选地，在步骤 S106中，从短信集合中识别出垃圾短信集合可以包括以下操作：步骤 S1 : 采用以下公式计算每条短信的分类权重 typeweight:

typeweight=

其中， P(C0)为垃圾短信样本集中的短信总量， P(C1) 为非垃圾短信样本集中的短信总量， P(Wt I CO)为第一条件概率， P(Wt I C1)为第二条件概率， n为每条短信所包含的分词数量， N为每条短信在短信集合中重复出现的次数， Wt属于第一特征词集合或者第二特征词集合；步骤 S2: 根据分类权重与预设阈值的比较结果识别出垃圾短信集合，其中，垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值，预设阈值为 P(C0)与 P(C1) 的比值。在优选实施例中，在从数据源接收到上述短信集合后，首先，需要对短信消息进行归并，将消息内容相同的短信进行汇总，输出短信内容以及短信出现的次数。其次，计算短信的分类权重，并对短信进行分类。然后，分别对上述短信集合中每条短信的短信内容进行如下预处理：

① 进行噪声处理，删除空格、标点符号等特殊字符，仅剩下中文和数字； ② 过滤掉停用词，例如：语气词（如：啊、呢），连词（如：并且、或者），助词 (如：的、地）。

③ 进行 IK分词处理，将短信内容存储在 Dx向量。计算分类权重 typeWeight=P(CO|Dx)/P(Cl|Dx)， n N

P(C0 I Dx) P(C0)(Il P(Wt I CO))

P(C1 I Dx) P(Cl)(fl P(Wt | Cl))^N

1=1 其中， P(C0)为垃圾短信样本集中的短信总量， P(C1) 为非垃圾短信样本集中的短信总量， P(Wt I CO)为第一条件概率， P(Wt I C1)为第二条件概率， n为 Dx向量内不同分词的数量， N为每条短信在短信集合中重复出现的次数， Wt属于第一特征词集合或者第二特征词集合。需要说明的是，如果短信内容在分词处理之后所获得的新分词 wt不属于第一特征词集合和 /或第二特征词集合，则可以按照下面的规则进行计算：

( 1 ) 当特征词 wt仅出现在正常短信样本集中， P(Wt|C0)可以按照拉普拉斯系数计算或者以 P(Wt|Cl)为基础降低两个数量级。

(2) 当特征词 Wt仅出现在垃圾短信样本集中， P(Wt|Cl)可以按照拉普拉斯系数计算或者选取正常短信样本集中最低词频概率。此外，根据实际效果设定一个阈值，如果分类权重大于该阈值，则认为该条短信为垃圾短信，作为结果输出。该阈值需要根据实际效果进行实时调整。优选地，在步骤 S102中，获取第一特征词集合以及第一条件概率可以包括以下步骤：步骤 S3 : 对垃圾短信样本集进行预处理；步骤 S4: 对垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；步骤 S5:根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数；步骤 S6:根据统计出的次数与垃圾短信样本集中短信样本总量的比值计算第一条件概率；步骤 S7:采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为第一特征词集合，其中， N为正整数。在优选实施例中，获取垃圾短信样本集的分词集合以及每个分词在垃圾短信样本集中出现的次数可以包含如下处理内容：

( 1 ) 对垃圾短信样本集进行预处理：

① 剔除内容过短的消息，例如：假设短信内容少于 10个字，则剔除该条消息； ② 进行噪声处理，删除空格、标点符号等特殊字符，仅剩下中文和数字；

③ 过滤掉停用词。

(2) 对垃圾短信进行 IK分词处理，输出每条垃圾短信中包含的分词以及分词个数。

(3 )统计各个分词在垃圾短信样本集中出现的次数，并且输出各个分词以及在垃圾短信样本集中出现的次数。最后，根据条件概率公式 P(Wt|C0) = 分词 Wt在垃圾短信样本集中出现的次数 / 垃圾短信样本集中的垃圾短信总条数 co，计算分词在垃圾短信样本集中的权重，并且根据权重排名输出 Top N作为特征词，其中， N的具体取值需要根据实际情况而定。优选地，在步骤 S104中，获取第二特征词集合以及第二条件概率可以包括以下操作：步骤 S8: 对非垃圾短信样本集进行预处理；步骤 S9: 对非垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；步骤 S10: 根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数；步骤 Sll : 根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率；步骤 S12: 采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为第二特征词集合，其中， N为正整数。在优选实施例中，获取正常（即非垃圾）短信样本集的分词集合以及每个分词在正常短信样本集中出现的次数可以包含如下处理内容：

( 1 ) 对正常短信样本集进行预处理，包括以下几项：

③ 过滤掉停用词。

(2) 对正常短信进行 IK分词处理，输出每条正常短信中包含的分词以及分词个数。

(3 )统计各个分词在正常短信样本集中出现的次数，并且输出各个分词以及在正常短信样本集中出现的次数。最后，根据条件概率公式 P(Wt|Cl) = 分词 Wt在正常短信样本集中出现的次数 / 正常短信样本集中的正常短信总条数 Cl，计算分词在正常短信样本集中的权重，并且根据权重排名输出 Top N作为特征词，其中， N的具体取值需要根据实际情况而定。在优选实施过程中，上述步骤 S102与步骤 S104可以并行处理。优选地，在步骤 S106, 从短信集合中识别出垃圾短信集合之后，还可以包括以下步骤：步骤 S13 : 获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码；步骤 S14: 对获取到的主叫号码和被叫号码进行监控。在优选实施例中，还可以根据上面输出的垃圾短信结果对待处理的短信进行二次挖掘，以获取发送和 /或接收过上述垃圾短信内容的全部手机号码以及每个手机号码发送和 /或接收过的全部短信内容。作为本发明的优选实施方式，下面全部操作均需要在 Hadoop大数据平台上进行，是由 Hadoop—连串的作业实现的上述功能。 Hadoop作业又可以进一步分为 map和 reduce两个过程。 map和 reduce如果不进行配置，则均可以采用缺省 map和 reduce 进行处理。作业一：对垃圾短信样本集进行预处理、获取垃圾短信样本集的分词集合以及每个分词在垃圾短信样本集中出现的次数。 map的输入：垃圾短信样本集每条输入短信的内容如表 1所示：表 1

对输入短信的内容进行 map处理: 对 UserData字段进行如下处理：

① 剔除内容过短的消息，例如：假设短信内容少于 10个字，则剔除该条消息;

② 进行噪声处理，删除空格、标点符号等特殊字符，仅剩下中文和数字；

③ 过滤掉停用词；

④ 对垃圾短信进行 IK分词处理，以每个分词为 key, 其 value为 1。对输入短信的内容进行 map输出，如表 2所示：表 2

map的输出结果经过 Hadoop默认中间处理成为 reduce的输入，具体如下: 对 map的输出结果进行 reduce输入如表 3所示：表 3

reduce处理过程如下：根据不同的分词遍历 List数据进行相加，获得此分词的出现次数 n，以 " spam_" 为前缀与 n组成字符串为 value。 reduce的输出结果如表 4所示：表 4

作业二：对正常短信样本集进行预处理，获取正常短信样本集的分词集合以及每个分词在正常短信样本集中出现的次数。 map的输入：正常短信样本集每条输入短信的内容如表 5所示: 表 5

对输入短信的内容（UserData字段）进行 map处理：

① 剔除内容过短的消息，例如：假设短信内容少于 10个字，则剔除该条消息; ② 进行噪声处理，删除空格、标点符号等特殊字符，仅剩下中文和数字；

③ 过滤掉停用词；

④ 对正常短信进行 IK分词处理，以每个分词为 key, 其 value为 1。对输入短信的内容进行 map输出如表 6所示：表 6

map的输出结果经过 Hadoop默认中间处理成为 reduce的输入，具体如下: 对 map的输出结果进行 reduce输入如表 7所示：表 7

reduce处理过程如下：根据不同的分词遍历 List数据进行相加，获得此分词的出现次数 n，以" normal—" 为前缀与 n组成字符串为 value。 reduce的输出结果如表 8所示：表 8

需要说明的是，上述作业一与作业二完全可以同步进行。作业三：垃圾短信样本集分词权重获取 map输入为：垃圾短信样本集分词，如表 9所示，表 9

其 map操作过程如下: 根据条件概率公式 P(Wt|C0) = 分词 Wt在垃圾短信样本集中出现的次数 /垃圾短信样本集中的垃圾短信总条数 co，计算分词在垃圾短信样本集中的权重，并且根据权重排名输出 Top N作为特征词，其中， N的具体取值需要根据实际情况而定。 map的输出结果如表 10所示：表 10

作业四：正常短信样本集分词权重获取 map输入为：正常短信样本集分词，如表 11所示，表 11

其 map操作过程如下: 根据条件概率公式 P(Wt|Cl) = 分词 Wt在正常短信样本集中出现的次数 /正常短信样本集中的正常短信总条数 Cl，计算分词在正常短信样本集中的权重，并且根据权重排名输出 Top N作为特征词，其中， N的具体取值需要根据实际情况而定。 map的输出结果如表 12所示: 表 12

需要说明的是，作业三与作业四的输出结果会分别存放在两个不同的 cache中，以便后续使用。而且，作业三与作业四同样可以同歩执行。作业五：对待处理短信消息进行归并处理 map输入为：待处理的短信消息每条短信输入的内容如表 13所示：表 13

map操作过程如下: 将上述数据源 UserData-短信内容设置为 key, 并将其 value设置为 1。 map的输出结果如表 14所示：表 14

reduce输入如表 15所示: 表 15

reduce的操作过程如下: 根据不同的 key遍历 List数据进行相加，获得此条消息在新的待分类消息集合出现的次数，并与消息内容加以组合作为 value。 reduce的输出结果如表 16所示: 表 16

作业六：计算短消息分类权重并进行分类 map输入：归并后短消息文本列表，如表 17所示，表 17

map的操作过程: 对上面的数据源短信内容进行预处理并进行 IK分词处理，然后将消息内容存储在 Dx向量中，例如：

Dx={联系，发票，电话， 138999990111， } 计算分类权重 typeWeight=PCCO|Dx)/P(;Cl|Dx)，其中， n为 Dx向量内不同分词的数量， N为该短信重复出现的次数。 P(Wt|C0)和 P(Wt|Cl)基于上述样本库计算取得的结果。如果短信内容在分词之后所获得的新分词 Wt不在步骤 1得到的特征词集合内，则可以按照下面的规则进行计算： n N

P(C0 I Dx) P(C0)(Il P(Wt I CO))

P(C1 I Dx) P(Cl)(fl P(Wt | Cl))^N

1=1

( 1 )当特征词仅出现在正常短信样本集中， P(Wt|C0)可以按照拉普拉斯系数计算或者以 P(Wt|Cl)为基础降低两个数量级。

(2)当特征词仅出现在垃圾短信样本集中， P(Wt|Cl)可以按照拉普拉斯系数计算或者选取正常短信样本集中最低词频概率。 map的输出结果如表 18所示：表 18

将消息内容和 typeWeight输出至文件并且按照 typeWeight的排序结果，对于大于 κ的记录被划分为垃圾短信，其中， K=p(coyp(ci)，具体的 κ值可以根据实际效果进行实时调整。而输出结果可以作为下一步骤的 Cache输入，其命名为 j ob6_ResultCache。作业七：分类结果再挖掘 map输入为：待处理短信消息每条输入短信的内容如表 19所示: 表 19

map的操作过程如下: 对上面的数据源 UserData-短信内容作为 key, 从 job6_ResultCache中读取输出结果，如果输出结果不为空，则可以将短信内容作为 key, 主叫号码_被叫号码作为 value 输出；否则，不输出任何结果。 map的输出结果如表 20所示: 表 20

reduce的输入如表 21所示: 表 21

reduce的操作过程如下: 根据不同的 key遍历 List数据以 "；"将各个元素连接起来，以短信内容为 key。 reduce的输出结果如表 22所示：表 22

Key Value

短信内容主叫号码 1_被叫号码 1 ; 主叫号码 1_被叫号码

2；主叫号 5¾ 2_被叫号码 1…… 图 2是根据本发明实施例的垃圾短信的识别装置的结构框图。如图 1所示，该垃圾短信的识别装置可以包括：第一获取模块 10，设置为在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率；第二获取模块 20，设置为在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率；识别模块 30，设置为根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。采用如图 2所示的装置，解决了相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题，进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率，降低了垃圾短信的误报率和漏报率。在优选实施过程中，上述装置应用于 hadoop平台，在 hadoop平台上对短信集合中的各条短信进行并行处理。优选地，如图 3所示，识别模块 30可以包括：第一计算单元 300，设置为采用以下公式计算每条短信的分类权重 typeweight: typeweight= 其中， P(C0)

为垃圾短信样本集中的短信总量， P(C1) 为非垃圾短信样本集中的短信总量， P(Wt | CO)为第一条件概率， P(Wt I Cl)为第二条件概率， n为每条短信所包含的分词数量， N 为每条短信在短信集合中重复出现的次数， Wt属于第一特征词集合或者第二特征词集合；识别单元 302，设置为根据分类权重与预设阈值的比较结果识别出垃圾短信集合，其中，垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值，预设阈值为 P(C0) 与 P(C1)的比值。优选地，如图 3所示，第一获取模块 10可以包括：第一预处理单元 100，设置为对垃圾短信样本集进行预处理；第一分词处理单元 102，设置为对垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；第一统计单元 104，设置为根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中出现的次数；第二计算单元 106，设置为根据统计出的次数与垃圾短信样本集中的短信样本总量的比值计算第一条件概率；第一选取单元 108，设置为采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为第一特征词集合，其中， N为正整数。优选地，如图 3所示，第二获取模块 20可以包括：第二预处理单元 200，设置为对非垃圾短信样本集进行预处理；第二分词处理单元 202，设置为对非垃圾短信样本集中的每条短信样本进行分词处理，获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数；第二统计单元 204，设置为根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短信样本集中出现的次数；第三计算单元 206，设置为根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概率；第二选取单元 208，设置为采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为第二特征词集合，其中， N为正整数。优选地，如图 3所示，上述装置还可以包括：第三获取模块 40，设置为获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号码；监控模块 50，设置为对获取到的主叫号码和被叫号码进行监控。从以上的描述中，可以看出，上述实施例实现了如下技术效果（需要说明的是这些效果是某些优选实施例可以达到的效果）：本发明实施例所提供的技术方案能够基于大数据平台和 IK智能分词，从短信内容入手对垃圾短信进行分析，其中，可以包括：垃圾短信的发送频率信息，同时还可以避免由于主叫号码或者被叫号码发生变化所带来的监控干扰。对于正常短信样本和垃圾短信样本分别进行分词统计，分别计算出分词在两者中的权重值，再对待处理的短信内容进行分词处理，使用贝叶斯算法计算此条短信的分类权重，如果超过预设阈值，则可以判定为垃圾短信。最后，对于已经获知的垃圾短信还可以再进行二次挖掘，再次对主叫号码和相同短信内容的话单进行汇总，从而挖掘发送垃圾短信的号码群组以及被叫号码群组，以便于运营商对其进行分析和执行下一步操作。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。工业实用性如上所述，本发明实施例提供的一种垃圾短信的识别方法及装置，具有以下有益效果：提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率，降低了垃圾短信的误报率和漏报率。

Claims

权利要求书

1. 一种垃圾短信的识别方法，包括：在所述垃圾短信样本集中获取第一特征词集合以及在所述第一特征词集合中每个特征词的第一条件概率；

在所述非垃圾短信样本集中获取第二特征词集合以及在所述第二特征词集合中每个特征词的第二条件概率；根据待处理的短信集合中每条短信所包含的分词数量、所述每条短信在所述短信集合中重复出现的次数、所述第一特征词集合、所述第二特征词集合、所述第一条件概率以及所述第二条件概率从所述短信集合中识别出垃圾短信集合。

2. 根据权利要求 1所述的方法，其中，从所述短信集合中识别出所述垃圾短信集合包括：

采用以下公式计算所述每条短信的分类权重 typeweight: typeweight=

其中， P(C0)为所述垃圾短信样本集中的短信总量， P(C 1) 为所述非垃圾短信样本集中的短信总量， P(Wt I CO)为所述第一条件概率， P(Wt I C1)为所述第二条件概率， n为所述每条短信所包含的分词数量， N为所述每条短信在所述短信集合中重复出现的次数， Wt属于所述第一特征词集合或者所述第二特征词朱口；

根据所述分类权重与预设阈值的比较结果识别出所述垃圾短信集合，其中，所述垃圾短信集合中的每条垃圾短信的分类权重均大于所述预设阈值，所述预设阈值为 P(CO;>与 P(C I;>的比值。

3. 根据权利要求 1所述的方法，其中，获取所述第一特征词集合以及所述第一条件概率包括：

对所述垃圾短信样本集进行预处理；对所述垃圾短信样本集中的每条短信样本进行分词处理，获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数；

根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述垃圾短信样本集中出现的次数；

根据统计出的次数与所述垃圾短信样本集中短信样本总量的比值计算所述第一条件概率；采用所述统计出的次数与所述第一条件概率计算所述每个分词在所述垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为所述第一特征词集合，其中， N为正整数。

4. 根据权利要求 1所述的方法，其中，在所述非垃圾短信样本集中获取所述第二特征词集合以及所述第二条件概率包括：对所述非垃圾短信样本集进行预处理；对所述非垃圾短信样本集中的每条短信样本进行分词处理，获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数；

根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述非垃圾短信样本集中出现的次数；

根据统计出的次数与所述非垃圾短信样本集中短信样本的总量的比值计算所述第二条件概率；采用所述统计出的次数与所述第二条件概率计算所述每个分词在所述非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N 个分词作为所述第二特征词集合，其中， N为正整数。

5. 根据权利要求 1所述的方法，其中，在从所述短信集合中识别出所述垃圾短信集合之后，还包括：

获取发送所述垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收所述垃圾短信集合中一条或多条垃圾短信的被叫号码；

对获取到的主叫号码和被叫号码进行监控。

6. 根据权利要求 1至 5中任一项所述的方法，其中，所述方法应用于 hadoop平台，在所述 hadoop平台上对所述短信集合中的各条短信进行并行处理。种垃圾短信的识别装置，包括: 第一获取模块，设置为在所述垃圾短信样本集中获取第一特征词集合以及在所述第一特征词集合中每个特征词的第一条件概率；第二获取模块，设置为在所述非垃圾短信样本集中获取第二特征词集合以及在所述第二特征词集合中每个特征词的第二条件概率；识别模块，设置为根据待处理的短信集合中每条短信所包含的分词数量、所述每条短信在所述短信集合中重复出现的次数、所述第一特征词集合、所述第二特征词集合、所述第一条件概率以及所述第二条件概率从所述短信集合中识别出垃圾短信集合。

8. 根据权利要求 7所述的装置，其中，所述识别模块包括：第一计算单元，设置为采用以下公式计算所述每条短信的分类权重 typeweight: typeweight=

其中， P(C0)为所述垃圾短信样本集中的短信总量， P(C1) 为所述非垃圾短信样本集中的短信总量， P(Wt I CO)为所述第一条件概率， P(Wt I C1)为所述第二条件概率， n为所述每条短信所包含的分词数量， N为所述每条短信在所述短信集合中重复出现的次数， Wt属于所述第一特征词集合或者所述第二特征词采口；

识别单元，设置为根据所述分类权重与预设阈值的比较结果识别出所述垃圾短信集合，其中，所述垃圾短信集合中的每条垃圾短信的分类权重均大于所述预设阈值，所述预设阈值为 P(C0)与 P(C1)的比值。

9. 根据权利要求 7所述的装置，其中，所述第一获取模块包括：第一预处理单元，设置为对所述垃圾短信样本集进行预处理；第一分词处理单元，设置为对所述垃圾短信样本集中的每条短信样本进行分词处理，获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数；

第一统计单元，设置为根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述垃圾短信样本集中出现的次数；第二计算单元，设置为根据统计出的次数与所述垃圾短信样本集中的短信样本总量的比值计算所述第一条件概率；第一选取单元，设置为采用所述统计出的次数与所述第一条件概率计算所述每个分词在所述垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为所述第一特征词集合，其中， N为正整数。

10. 根据权利要求 7所述的装置，其中，所述第二获取模块包括：第二预处理单元，设置为对所述非垃圾短信样本集进行预处理；第二分词处理单元，设置为对所述非垃圾短信样本集中的每条短信样本进行分词处理，获取所述每条短信样本中包含的各个分词的内容以及每个分词出现的次数；

第二统计单元，设置为根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述非垃圾短信样本集中出现的次数；

第三计算单元，设置为根据统计出的次数与所述非垃圾短信样本集中短信样本的总量的比值计算所述第二条件概率；

第二选取单元，设置为采用所述统计出的次数与所述第二条件概率计算所述每个分词在所述非垃圾短信样本集中的权重，并将全部分词按照权重由大到小进行排序，选取前 N个分词作为所述第二特征词集合，其中， N为正整数。

11. 根据权利要求 7所述的装置，其中，所述装置还包括：第三获取模块，设置为获取发送所述垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收所述垃圾短信集合中一条或多条垃圾短信的被叫号码；监控模块，设置为对获取到的主叫号码和被叫号码进行监控。

12. 根据权利要求 7至 11中任一项所述的装置，其中，所述装置应用于 hadoop平台，在所述 hadoop平台上对所述短信集合中的各条短信进行并行处理。