WO2015039478A1 - 垃圾短信的识别方法及装置 - Google Patents

垃圾短信的识别方法及装置 Download PDF

Info

Publication number
WO2015039478A1
WO2015039478A1 PCT/CN2014/080660 CN2014080660W WO2015039478A1 WO 2015039478 A1 WO2015039478 A1 WO 2015039478A1 CN 2014080660 W CN2014080660 W CN 2014080660W WO 2015039478 A1 WO2015039478 A1 WO 2015039478A1
Authority
WO
WIPO (PCT)
Prior art keywords
spam
short message
message
feature word
sample
Prior art date
Application number
PCT/CN2014/080660
Other languages
English (en)
French (fr)
Inventor
严春霞
丁岩
冯军
单娜
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Priority to US15/022,604 priority Critical patent/US20160232452A1/en
Priority to EP14845311.1A priority patent/EP3048539A4/en
Publication of WO2015039478A1 publication Critical patent/WO2015039478A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Abstract

本发明公开了一种垃圾短信的识别方法及装置,在上述方法中,在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概率;在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率;根据待处理的短信集合中每条短信所包含的分词数量、每条短信在短信集合中重复出现的次数、第一特征词集合、第二特征词集合、第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。根据本发明提供的技术方案,提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率,降低了垃圾短信的误报率和漏报率。

Description

垃圾短信的识别方法及装置 技术领域 本发明涉及通信领域, 具体而言, 涉及一种垃圾短信的识别方法及装置。 背景技术 目前, 手机用户几乎每日都会接收到不同数量的垃圾短信, 经常被垃圾短信所困 扰。 虽然, 运营商每年都在扩大治理资金和人力的投入, 但是随着不法分子所采取的 规避手段多样化与散播渠道多样化, 运营商所采取的监控垃圾短信措施的投入产出比 呈逐年下降趋势, 尤其是在垃圾短信的挖掘方面更是存在诸多问题。 在上述问题中, 短信数据量大, 无法准确挖掘垃圾短信是其中最为突出的一个难题。 由此可见, 相关技术中缺乏一种能够准确挖掘垃圾短信的技术方案。 发明内容 本发明实施例提供了一种垃圾短信的识别方法及装置, 以至少解决相关技术中由 于短信数据量大而无法准确挖掘垃圾短信的问题。 根据本发明的一个实施例, 提供了一种垃圾短信的识别方法。 根据本发明实施例的垃圾短信的识别方法包括: 在垃圾短信样本集中获取第一特 征词集合以及在第一特征词集合中每个特征词的第一条件概率; 在非垃圾短信样本集 中获取第二特征词集合以及在第二特征词集合中每个特征词的第二条件概率; 根据待 处理的短信集合中每条短信所包含的分词数量、 每条短信在短信集合中重复出现的次 数、 第一特征词集合、 第二特征词集合、 第一条件概率以及第二条件概率从短信集合 中识别出垃圾短信集合。 优选地, 从短信集合中识别出垃圾短信集合包括: 采用以下公式计算每条短信的 分类权重 typeweight: typeweight= 其中, PCC0)为垃圾短信样本集中
Figure imgf000003_0001
的短信总量, P(C1) 为非垃圾短信样本集中的短信总量, P(Wt I CO)为第一条件概率, P(Wt I Cl)为第二条件概率, n为每条短信所包含的分词数量, N为每条短信在短信集 合中重复出现的次数, wt属于第一特征词集合或者第二特征词集合; 根据分类权重与 预设阈值的比较结果识别出垃圾短信集合, 其中, 垃圾短信集合中的每条垃圾短信的 分类权重均大于预设阈值, 预设阈值为 P(C0)与 P(C1)的比值。 优选地, 获取第一特征词集合以及第一条件概率包括: 对垃圾短信样本集进行预 处理; 对垃圾短信样本集中的每条短信样本进行分词处理, 获取每条短信样本中包含 的各个分词的内容以及每个分词出现的次数; 根据在每条短信样本中每个分词出现的 次数统计每个分词在垃圾短信样本集中出现的次数; 根据统计出的次数与垃圾短信样 本集中短信样本总量的比值计算第一条件概率; 采用统计出的次数与第一条件概率计 算每个分词在垃圾短信样本集中的权重, 并将全部分词按照权重由大到小进行排序, 选取前 N个分词作为第一特征词集合, 其中, N为正整数。 优选地, 获取第二特征词集合以及第二条件概率包括: 对非垃圾短信样本集进行 预处理; 对非垃圾短信样本集中的每条短信样本进行分词处理, 获取每条短信样本中 包含的各个分词的内容以及每个分词出现的次数; 根据在每条短信样本中每个分词出 现的次数统计每个分词在非垃圾短信样本集中出现的次数; 根据统计出的次数与非垃 圾短信样本集中短信样本的总量的比值计算第二条件概率; 采用统计出的次数与第二 条件概率计算每个分词在非垃圾短信样本集中的权重, 并将全部分词按照权重由大到 小进行排序, 选取前 N个分词作为第二特征词集合, 其中, N为正整数。 优选地, 在从短信集合中识别出垃圾短信集合之后, 还包括: 获取发送垃圾短信 集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信 的被叫号码; 对获取到的主叫号码和被叫号码进行监控。 优选地, 上述方法应用于 hadoop平台, 在 hadoop平台上对短信集合中的各条短 信进行并行处理。 根据本发明的另一实施例, 提供了一种垃圾短信的识别装置。 根据本发明实施例的垃圾短信的识别装置包括: 第一获取模块, 设置为在垃圾短 信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的第一条件概 率; 第二获取模块, 设置为在非垃圾短信样本集中获取第二特征词集合以及在第二特 征词集合中每个特征词的第二条件概率; 识别模块, 设置为根据待处理的短信集合中 每条短信所包含的分词数量、 每条短信在短信集合中重复出现的次数、 第一特征词集 合、 第二特征词集合、 第一条件概率以及第二条件概率从短信集合中识别出垃圾短信 集合。 优选地, 识别模块包括: 第一计算单元, 设置为采用以下公式计算每条短信的分 类权重 typeweight: , PCC0)为垃圾短信样本集中的
Figure imgf000005_0001
短信总量, P(C1) 为非垃圾短信样本集中的短信总量, P(Wt I CO)为第一条件概率, P(Wt I C1)为第二条件概率, n为每条短信所包含的分词数量, N为每条短信在短信集 合中重复出现的次数, Wt属于第一特征词集合或者第二特征词集合; 识别单元, 设置 为根据分类权重与预设阈值的比较结果识别出垃圾短信集合, 其中, 垃圾短信集合中 的每条垃圾短信的分类权重均大于预设阈值, 预设阈值为 P(C0)与 P(C1)的比值。 优选地, 第一获取模块包括: 第一预处理单元, 设置为对垃圾短信样本集进行预 处理; 第一分词处理单元,设置为对垃圾短信样本集中的每条短信样本进行分词处理, 获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数;第一统计单元, 设置为根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样本集中 出现的次数; 第二计算单元, 设置为根据统计出的次数与垃圾短信样本集中的短信样 本总量的比值计算第一条件概率; 第一选取单元, 设置为采用统计出的次数与第一条 件概率计算每个分词在垃圾短信样本集中的权重, 并将全部分词按照权重由大到小进 行排序, 选取前 N个分词作为第一特征词集合, 其中, N为正整数。 优选地, 第二获取模块包括: 第二预处理单元, 设置为对非垃圾短信样本集进行 预处理; 第二分词处理单元, 设置为对非垃圾短信样本集中的每条短信样本进行分词 处理, 获取每条短信样本中包含的各个分词的内容以及每个分词出现的次数; 第二统 计单元, 设置为根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短 信样本集中出现的次数; 第三计算单元, 设置为根据统计出的次数与非垃圾短信样本 集中短信样本的总量的比值计算第二条件概率; 第二选取单元, 设置为采用统计出的 次数与第二条件概率计算每个分词在非垃圾短信样本集中的权重, 并将全部分词按照 权重由大到小进行排序, 选取前 N个分词作为第二特征词集合, 其中, N为正整数。 优选地, 上述装置还包括: 第三获取模块, 设置为获取发送垃圾短信集合中一条 或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条垃圾短信的被叫号 码; 监控模块, 设置为对获取到的主叫号码和被叫号码进行监控。 优选地, 上述装置应用于 hadoop平台, 在 hadoop平台上对短信集合中的各条短 信进行并行处理。 通过本发明, 采用在垃圾短信样本集中获取第一特征词集合以及在第一特征词集 合中每个特征词的第一条件概率; 在非垃圾短信样本集中获取第二特征词集合以及在 第二特征词集合中每个特征词的第二条件概率; 根据待处理的短信集合中每条短信所 包含的分词数量、 每条短信在短信集合中重复出现的次数以及上述获取到的第一特征 词集合、 第二特征词集合、 第一条件概率、 第二条件概率可以从短信集合中更加准确 地识别出垃圾短信集合, 由此解决了相关技术中由于短信数据量大而无法准确挖掘垃 圾短信的问题, 进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别 准确率, 降低了垃圾短信的误报率和漏报率。 附图说明 此处所说明的附图用来提供对本发明的进一步理解, 构成本申请的一部分, 本发 明的示意性实施例及其说明用于解释本发明, 并不构成对本发明的不当限定。 在附图 中: 图 1是根据本发明实施例的垃圾短信的识别方法的流程图; 图 2是根据本发明实施例的垃圾短信的识别装置的结构框图; 图 3是根据本发明优选实施例的垃圾短信的识别装置的结构框图。 具体实施方式 下文中将参考附图并结合实施例来详细说明本发明。 需要说明的是, 在不冲突的 情况下, 本申请中的实施例及实施例中的特征可以相互组合。 图 1是根据本发明实施例的垃圾短信的识别方法的流程图。 如图 1所示, 该方法 可以包括以下处理步骤: 步骤 S102:在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每 个特征词的第一条件概率; 步骤 S104:在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中 每个特征词的第二条件概率; 步骤 S106: 根据待处理的短信集合中每条短信所包含的分词数量、 每条短信在短 信集合中重复出现的次数、 第一特征词集合、 第二特征词集合、 第一条件概率以及第 二条件概率从短信集合中识别出垃圾短信集合。 相关技术中, 由于短信数据量大而无法准确挖掘垃圾短信。 采用如图 1所示的方 法, 在垃圾短信样本集中获取第一特征词集合以及在第一特征词集合中每个特征词的 第一条件概率; 在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中 每个特征词的第二条件概率; 根据待处理的短信集合中每条短信所包含的分词数量、 每条短信在短信集合中重复出现的次数以及上述获取到的第一特征词集合、 第二特征 词集合、 第一条件概率、 第二条件概率可以从短信集合中更加准确地识别出垃圾短信 集合, 由此解决了相关技术中由于短信数据量大而无法准确挖掘垃圾短信的问题, 进 而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率, 降低了垃 圾短信的误报率和漏报率。 在优选实施过程中, 上述方法应用于 hadoop平台, 在 hadoop平台上对短信集合 中的各条短信进行并行处理。 优选地, 在步骤 S106中, 从短信集合中识别出垃圾短信集合可以包括以下操作: 步骤 S1 : 采用以下公式计算每条短信的分类权重 typeweight:
typeweight=
Figure imgf000007_0001
其中, P(C0)为垃圾短信样本集中的短信总量, P(C1) 为非垃圾短信样本集中的短 信总量, P(Wt I CO)为第一条件概率, P(Wt I C1)为第二条件概率, n为每条短信所包 含的分词数量, N为每条短信在短信集合中重复出现的次数, Wt属于第一特征词集合 或者第二特征词集合; 步骤 S2: 根据分类权重与预设阈值的比较结果识别出垃圾短信集合, 其中, 垃圾 短信集合中的每条垃圾短信的分类权重均大于预设阈值, 预设阈值为 P(C0)与 P(C1) 的比值。 在优选实施例中, 在从数据源接收到上述短信集合后, 首先, 需要对短信消息进 行归并, 将消息内容相同的短信进行汇总, 输出短信内容以及短信出现的次数。其次, 计算短信的分类权重, 并对短信进行分类。 然后, 分别对上述短信集合中每条短信的 短信内容进行如下预处理:
① 进行噪声处理, 删除空格、 标点符号等特殊字符, 仅剩下中文和数字; ② 过滤掉停用词, 例如: 语气词 (如: 啊、 呢), 连词 (如: 并且、 或者), 助词 (如: 的、 地)。
③ 进行 IK分词处理, 将短信内容存储在 Dx向量。 计算分类权重 typeWeight=P(CO|Dx)/P(Cl|Dx), n N
P(C0 I Dx) P(C0)(Il P(Wt I CO))
P(C1 I Dx) P(Cl)(fl P(Wt | Cl))N
1=1 其中, P(C0)为垃圾短信样本集中的短信总量, P(C1) 为非垃圾短信样本集中的短 信总量, P(Wt I CO)为第一条件概率, P(Wt I C1)为第二条件概率, n为 Dx向量内不 同分词的数量, N为每条短信在短信集合中重复出现的次数, Wt属于第一特征词集合 或者第二特征词集合。 需要说明的是, 如果短信内容在分词处理之后所获得的新分词 wt不属于第一特 征词集合和 /或第二特征词集合, 则可以按照下面的规则进行计算:
( 1 ) 当特征词 wt仅出现在正常短信样本集中, P(Wt|C0)可以按照拉普拉斯系数 计算或者以 P(Wt|Cl)为基础降低两个数量级。
(2) 当特征词 Wt仅出现在垃圾短信样本集中, P(Wt|Cl)可以按照拉普拉斯系数 计算或者选取正常短信样本集中最低词频概率。 此外, 根据实际效果设定一个阈值, 如果分类权重大于该阈值, 则认为该条短信 为垃圾短信, 作为结果输出。 该阈值需要根据实际效果进行实时调整。 优选地,在步骤 S102中,获取第一特征词集合以及第一条件概率可以包括以下步 骤: 步骤 S3 : 对垃圾短信样本集进行预处理; 步骤 S4: 对垃圾短信样本集中的每条短信样本进行分词处理, 获取每条短信样本 中包含的各个分词的内容以及每个分词出现的次数; 步骤 S5:根据在每条短信样本中每个分词出现的次数统计每个分词在垃圾短信样 本集中出现的次数; 步骤 S6:根据统计出的次数与垃圾短信样本集中短信样本总量的比值计算第一条 件概率; 步骤 S7:采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本集中的 权重, 并将全部分词按照权重由大到小进行排序, 选取前 N个分词作为第一特征词集 合, 其中, N为正整数。 在优选实施例中, 获取垃圾短信样本集的分词集合以及每个分词在垃圾短信样本 集中出现的次数可以包含如下处理内容:
( 1 ) 对垃圾短信样本集进行预处理:
① 剔除内容过短的消息, 例如: 假设短信内容少于 10个字, 则剔除该条消息; ② 进行噪声处理, 删除空格、 标点符号等特殊字符, 仅剩下中文和数字;
③ 过滤掉停用词。
(2) 对垃圾短信进行 IK分词处理, 输出每条垃圾短信中包含的分词以及分词个 数。
(3 )统计各个分词在垃圾短信样本集中出现的次数, 并且输出各个分词以及在垃 圾短信样本集中出现的次数。 最后, 根据条件概率公式 P(Wt|C0) = 分词 Wt在垃圾短信样本集中出现的次数 / 垃圾短信样本集中的垃圾短信总条数 co, 计算分词在垃圾短信样本集中的权重, 并且 根据权重排名输出 Top N作为特征词, 其中, N的具体取值需要根据实际情况而定。 优选地,在步骤 S104中,获取第二特征词集合以及第二条件概率可以包括以下操 作: 步骤 S8: 对非垃圾短信样本集进行预处理; 步骤 S9: 对非垃圾短信样本集中的每条短信样本进行分词处理, 获取每条短信样 本中包含的各个分词的内容以及每个分词出现的次数; 步骤 S10: 根据在每条短信样本中每个分词出现的次数统计每个分词在非垃圾短 信样本集中出现的次数; 步骤 Sll : 根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算 第二条件概率; 步骤 S12: 采用统计出的次数与第二条件概率计算每个分词在非垃圾短信样本集 中的权重, 并将全部分词按照权重由大到小进行排序, 选取前 N个分词作为第二特征 词集合, 其中, N为正整数。 在优选实施例中, 获取正常 (即非垃圾) 短信样本集的分词集合以及每个分词在 正常短信样本集中出现的次数可以包含如下处理内容:
( 1 ) 对正常短信样本集进行预处理, 包括以下几项:
① 剔除内容过短的消息, 例如: 假设短信内容少于 10个字, 则剔除该条消息; ② 进行噪声处理, 删除空格、 标点符号等特殊字符, 仅剩下中文和数字;
③ 过滤掉停用词。
(2) 对正常短信进行 IK分词处理, 输出每条正常短信中包含的分词以及分词个 数。
(3 )统计各个分词在正常短信样本集中出现的次数, 并且输出各个分词以及在正 常短信样本集中出现的次数。 最后, 根据条件概率公式 P(Wt|Cl) = 分词 Wt在正常短信样本集中出现的次数 / 正常短信样本集中的正常短信总条数 Cl, 计算分词在正常短信样本集中的权重, 并且 根据权重排名输出 Top N作为特征词, 其中, N的具体取值需要根据实际情况而定。 在优选实施过程中, 上述步骤 S102与步骤 S104可以并行处理。 优选地, 在步骤 S106, 从短信集合中识别出垃圾短信集合之后, 还可以包括以下 步骤: 步骤 S13 : 获取发送垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃 圾短信集合中一条或多条垃圾短信的被叫号码; 步骤 S14: 对获取到的主叫号码和被叫号码进行监控。 在优选实施例中, 还可以根据上面输出的垃圾短信结果对待处理的短信进行二次 挖掘, 以获取发送和 /或接收过上述垃圾短信内容的全部手机号码以及每个手机号码发 送和 /或接收过的全部短信内容。 作为本发明的优选实施方式, 下面全部操作均需要在 Hadoop大数据平台上进行, 是由 Hadoop—连串的作业实现的上述功能。 Hadoop作业又可以进一步分为 map和 reduce两个过程。 map和 reduce如果不进行配置, 则均可以采用缺省 map和 reduce 进行处理。 作业一: 对垃圾短信样本集进行预处理、 获取垃圾短信样本集的分词集合以及每 个分词在垃圾短信样本集中出现的次数。 map的输入: 垃圾短信样本集 每条输入短信的内容如表 1所示: 表 1
Figure imgf000011_0001
对输入短信的内容进行 map处理: 对 UserData字段进行如下处理:
① 剔除内容过短的消息, 例如: 假设短信内容少于 10个字, 则剔除该条消息;
② 进行噪声处理, 删除空格、 标点符号等特殊字符, 仅剩下中文和数字;
③ 过滤掉停用词;
④ 对垃圾短信进行 IK分词处理, 以每个分词为 key, 其 value为 1。 对输入短信的内容进行 map输出, 如表 2所示: 表 2
Figure imgf000012_0001
map的输出结果经过 Hadoop默认中间处理成为 reduce的输入, 具体如下: 对 map的输出结果进行 reduce输入如表 3所示: 表 3
Figure imgf000012_0002
reduce处理过程如下: 根据不同的分词遍历 List数据进行相加, 获得此分词的出现次数 n, 以 " spam_" 为前缀与 n组成字符串为 value。 reduce的输出结果如表 4所示: 表 4
Figure imgf000012_0003
作业二: 对正常短信样本集进行预处理, 获取正常短信样本集的分词集合以及每 个分词在正常短信样本集中出现的次数。 map的输入: 正常短信样本集 每条输入短信的内容如表 5所示: 表 5
Figure imgf000012_0004
对输入短信的内容 (UserData字段) 进行 map处理:
① 剔除内容过短的消息, 例如: 假设短信内容少于 10个字, 则剔除该条消息; ② 进行噪声处理, 删除空格、 标点符号等特殊字符, 仅剩下中文和数字;
③ 过滤掉停用词;
④ 对正常短信进行 IK分词处理, 以每个分词为 key, 其 value为 1。 对输入短信的内容进行 map输出如表 6所示: 表 6
Figure imgf000013_0001
map的输出结果经过 Hadoop默认中间处理成为 reduce的输入, 具体如下: 对 map的输出结果进行 reduce输入如表 7所示: 表 7
Figure imgf000013_0002
reduce处理过程如下: 根据不同的分词遍历 List数据进行相加, 获得此分词的出现次数 n, 以" normal—" 为前缀与 n组成字符串为 value。 reduce的输出结果如表 8所示: 表 8
Figure imgf000013_0003
需要说明的是, 上述作业一与作业二完全可以同步进行。 作业三: 垃圾短信样本集分词权重获取 map输入为: 垃圾短信样本集分词, 如表 9所示, 表 9
Figure imgf000013_0004
其 map操作过程如下: 根据条件概率公式 P(Wt|C0) = 分词 Wt在垃圾短信样本集中出现的次数 /垃圾短信 样本集中的垃圾短信总条数 co, 计算分词在垃圾短信样本集中的权重, 并且根据权重 排名输出 Top N作为特征词, 其中, N的具体取值需要根据实际情况而定。 map的输出结果如表 10所示: 表 10
Figure imgf000014_0001
作业四: 正常短信样本集分词权重获取 map输入为: 正常短信样本集分词, 如表 11所示, 表 11
Figure imgf000014_0002
其 map操作过程如下: 根据条件概率公式 P(Wt|Cl) = 分词 Wt在正常短信样本集中出现的次数 /正常短信 样本集中的正常短信总条数 Cl, 计算分词在正常短信样本集中的权重, 并且根据权重 排名输出 Top N作为特征词, 其中, N的具体取值需要根据实际情况而定。 map的输出结果如表 12所示: 表 12
Figure imgf000014_0003
需要说明的是, 作业三与作业四的输出结果会分别存放在两个不同的 cache中, 以便后续使用。 而且, 作业三与作业四同样可以同歩执行。 作业五: 对待处理短信消息进行归并处理 map输入为: 待处理的短信消息 每条短信输入的内容如表 13所示: 表 13
Figure imgf000015_0001
map操作过程如下: 将上述数据源 UserData-短信内容设置为 key, 并将其 value设置为 1。 map的输出结果如表 14所示: 表 14
Figure imgf000015_0002
reduce输入如表 15所示: 表 15
Figure imgf000015_0003
reduce的操作过程如下: 根据不同的 key遍历 List数据进行相加, 获得此条消息在新的待分类消息集合出 现的次数, 并与消息内容加以组合作为 value。 reduce的输出结果如表 16所示: 表 16
Figure imgf000015_0004
作业六: 计算短消息分类权重并进行分类 map输入: 归并后短消息文本列表, 如表 17所示, 表 17
Figure imgf000016_0001
map的操作过程: 对上面的数据源短信内容进行预处理并进行 IK分词处理,然后将消息内容存储在 Dx向量中, 例如:
Dx={联系, 发票, 电话, 138999990111, } 计算分类权重 typeWeight=PCCO|Dx)/P(;Cl|Dx), 其中, n为 Dx向量内不同分词的 数量, N为该短信重复出现的次数。 P(Wt|C0)和 P(Wt|Cl)基于上述样本库计算取得的 结果。如果短信内容在分词之后所获得的新分词 Wt不在步骤 1得到的特征词集合内, 则可以按照下面的规则进行计算: n N
P(C0 I Dx) P(C0)(Il P(Wt I CO))
P(C1 I Dx) P(Cl)(fl P(Wt | Cl))N
1=1
( 1 )当特征词仅出现在正常短信样本集中, P(Wt|C0)可以按照拉普拉斯系数计算 或者以 P(Wt|Cl)为基础降低两个数量级。
(2)当特征词仅出现在垃圾短信样本集中, P(Wt|Cl)可以按照拉普拉斯系数计算 或者选取正常短信样本集中最低词频概率。 map的输出结果如表 18所示: 表 18
Figure imgf000016_0002
将消息内容和 typeWeight输出至文件并且按照 typeWeight的排序结果, 对于大于 κ的记录被划分为垃圾短信, 其中, K=p(coyp(ci), 具体的 κ值可以根据实际效果进 行实时调整。而输出结果可以作为下一步骤的 Cache输入,其命名为 j ob6_ResultCache。 作业七: 分类结果再挖掘 map输入为: 待处理短信消息 每条输入短信的内容如表 19所示: 表 19
Figure imgf000017_0001
map的操作过程如下: 对上面的数据源 UserData-短信内容作为 key, 从 job6_ResultCache中读取输出结 果, 如果输出结果不为空, 则可以将短信内容作为 key, 主叫号码_被叫号码作为 value 输出; 否则, 不输出任何结果。 map的输出结果如表 20所示: 表 20
Figure imgf000017_0002
reduce的输入如表 21所示: 表 21
Figure imgf000017_0003
reduce的操作过程如下: 根据不同的 key遍历 List数据以 ";"将各个元素连接起来, 以短信内容为 key。 reduce的输出结果如表 22所示: 表 22
Key Value
短信内容 主叫号码 1_被叫号码 1 ; 主叫号码 1_被叫号码
2; 主叫号 5¾ 2_被叫号码 1…… 图 2是根据本发明实施例的垃圾短信的识别装置的结构框图。 如图 1所示, 该垃 圾短信的识别装置可以包括: 第一获取模块 10, 设置为在垃圾短信样本集中获取第一 特征词集合以及在第一特征词集合中每个特征词的第一条件概率; 第二获取模块 20, 设置为在非垃圾短信样本集中获取第二特征词集合以及在第二特征词集合中每个特征 词的第二条件概率; 识别模块 30, 设置为根据待处理的短信集合中每条短信所包含的 分词数量、 每条短信在短信集合中重复出现的次数、 第一特征词集合、 第二特征词集 合、 第一条件概率以及第二条件概率从短信集合中识别出垃圾短信集合。 采用如图 2所示的装置, 解决了相关技术中由于短信数据量大而无法准确挖掘垃 圾短信的问题, 进而提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别 准确率, 降低了垃圾短信的误报率和漏报率。 在优选实施过程中, 上述装置应用于 hadoop平台, 在 hadoop平台上对短信集合 中的各条短信进行并行处理。 优选地, 如图 3所示, 识别模块 30可以包括: 第一计算单元 300, 设置为采用以 下公式计算每条短信的分类权重 typeweight: typeweight= 其中, P(C0)
Figure imgf000018_0001
为垃圾短信样本集中的短信总量, P(C1) 为非垃圾短信样本集中的短信总量, P(Wt | CO)为第一条件概率, P(Wt I Cl)为第二条件概率, n为每条短信所包含的分词数量, N 为每条短信在短信集合中重复出现的次数, Wt属于第一特征词集合或者第二特征词集 合; 识别单元 302, 设置为根据分类权重与预设阈值的比较结果识别出垃圾短信集合, 其中,垃圾短信集合中的每条垃圾短信的分类权重均大于预设阈值,预设阈值为 P(C0) 与 P(C1)的比值。 优选地, 如图 3所示, 第一获取模块 10可以包括: 第一预处理单元 100, 设置为 对垃圾短信样本集进行预处理; 第一分词处理单元 102, 设置为对垃圾短信样本集中 的每条短信样本进行分词处理, 获取每条短信样本中包含的各个分词的内容以及每个 分词出现的次数; 第一统计单元 104, 设置为根据在每条短信样本中每个分词出现的 次数统计每个分词在垃圾短信样本集中出现的次数; 第二计算单元 106, 设置为根据 统计出的次数与垃圾短信样本集中的短信样本总量的比值计算第一条件概率; 第一选 取单元 108, 设置为采用统计出的次数与第一条件概率计算每个分词在垃圾短信样本 集中的权重, 并将全部分词按照权重由大到小进行排序, 选取前 N个分词作为第一特 征词集合, 其中, N为正整数。 优选地, 如图 3所示, 第二获取模块 20可以包括: 第二预处理单元 200, 设置为 对非垃圾短信样本集进行预处理; 第二分词处理单元 202, 设置为对非垃圾短信样本 集中的每条短信样本进行分词处理, 获取每条短信样本中包含的各个分词的内容以及 每个分词出现的次数; 第二统计单元 204, 设置为根据在每条短信样本中每个分词出 现的次数统计每个分词在非垃圾短信样本集中出现的次数; 第三计算单元 206, 设置 为根据统计出的次数与非垃圾短信样本集中短信样本的总量的比值计算第二条件概 率; 第二选取单元 208, 设置为采用统计出的次数与第二条件概率计算每个分词在非 垃圾短信样本集中的权重, 并将全部分词按照权重由大到小进行排序, 选取前 N个分 词作为第二特征词集合, 其中, N为正整数。 优选地, 如图 3所示, 上述装置还可以包括: 第三获取模块 40, 设置为获取发送 垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收垃圾短信集合中一条或多条 垃圾短信的被叫号码;监控模块 50,设置为对获取到的主叫号码和被叫号码进行监控。 从以上的描述中, 可以看出, 上述实施例实现了如下技术效果 (需要说明的是这 些效果是某些优选实施例可以达到的效果):本发明实施例所提供的技术方案能够基于 大数据平台和 IK智能分词, 从短信内容入手对垃圾短信进行分析, 其中, 可以包括: 垃圾短信的发送频率信息, 同时还可以避免由于主叫号码或者被叫号码发生变化所带 来的监控干扰。 对于正常短信样本和垃圾短信样本分别进行分词统计, 分别计算出分 词在两者中的权重值, 再对待处理的短信内容进行分词处理, 使用贝叶斯算法计算此 条短信的分类权重, 如果超过预设阈值, 则可以判定为垃圾短信。 最后, 对于已经获 知的垃圾短信还可以再进行二次挖掘, 再次对主叫号码和相同短信内容的话单进行汇 总, 从而挖掘发送垃圾短信的号码群组以及被叫号码群组, 以便于运营商对其进行分 析和执行下一步操作。 显然, 本领域的技术人员应该明白, 上述的本发明的各模块或各步骤可以用通用 的计算装置来实现, 它们可以集中在单个的计算装置上, 或者分布在多个计算装置所 组成的网络上, 可选地, 它们可以用计算装置可执行的程序代码来实现, 从而, 可以 将它们存储在存储装置中由计算装置来执行, 并且在某些情况下, 可以以不同于此处 的顺序执行所示出或描述的步骤, 或者将它们分别制作成各个集成电路模块, 或者将 它们中的多个模块或步骤制作成单个集成电路模块来实现。 这样, 本发明不限制于任 何特定的硬件和软件结合。 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于本领域的技 术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精神和原则之内, 所作的 任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。 工业实用性 如上所述, 本发明实施例提供的一种垃圾短信的识别方法及装置, 具有以下 有益效果:提高了在数据源发送的短信数据量较为庞大时对垃圾短信的识别准确率, 降低了垃圾短信的误报率和漏报率。

Claims

权 利 要 求 书
1. 一种垃圾短信的识别方法, 包括: 在所述垃圾短信样本集中获取第一特征词集合以及在所述第一特征词集合 中每个特征词的第一条件概率;
在所述非垃圾短信样本集中获取第二特征词集合以及在所述第二特征词集 合中每个特征词的第二条件概率; 根据待处理的短信集合中每条短信所包含的分词数量、 所述每条短信在所 述短信集合中重复出现的次数、 所述第一特征词集合、 所述第二特征词集合、 所述第一条件概率以及所述第二条件概率从所述短信集合中识别出垃圾短信集 合。
2. 根据权利要求 1所述的方法, 其中, 从所述短信集合中识别出所述垃圾短信集 合包括:
采用以下公式计算所述每条短信的分类权重 typeweight: typeweight=
Figure imgf000021_0001
其中, P(C0)为所述垃圾短信样本集中的短信总量, P(C 1) 为所述非垃圾短 信样本集中的短信总量, P(Wt I CO)为所述第一条件概率, P(Wt I C1)为所述第 二条件概率, n为所述每条短信所包含的分词数量, N为所述每条短信在所述 短信集合中重复出现的次数, Wt属于所述第一特征词集合或者所述第二特征词 朱口;
根据所述分类权重与预设阈值的比较结果识别出所述垃圾短信集合,其中, 所述垃圾短信集合中的每条垃圾短信的分类权重均大于所述预设阈值, 所述预 设阈值为 P(CO;>与 P(C I;>的比值。
3. 根据权利要求 1所述的方法, 其中, 获取所述第一特征词集合以及所述第一条 件概率包括:
对所述垃圾短信样本集进行预处理; 对所述垃圾短信样本集中的每条短信样本进行分词处理, 获取所述每条短 信样本中包含的各个分词的内容以及每个分词出现的次数;
根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述垃圾 短信样本集中出现的次数;
根据统计出的次数与所述垃圾短信样本集中短信样本总量的比值计算所述 第一条件概率; 采用所述统计出的次数与所述第一条件概率计算所述每个分词在所述垃圾 短信样本集中的权重, 并将全部分词按照权重由大到小进行排序, 选取前 N个 分词作为所述第一特征词集合, 其中, N为正整数。
4. 根据权利要求 1所述的方法, 其中, 在所述非垃圾短信样本集中获取所述第二 特征词集合以及所述第二条件概率包括: 对所述非垃圾短信样本集进行预处理; 对所述非垃圾短信样本集中的每条短信样本进行分词处理, 获取所述每条 短信样本中包含的各个分词的内容以及每个分词出现的次数;
根据在所述每条短信样本中每个分词出现的次数统计每个分词在所述非垃 圾短信样本集中出现的次数;
根据统计出的次数与所述非垃圾短信样本集中短信样本的总量的比值计算 所述第二条件概率; 采用所述统计出的次数与所述第二条件概率计算所述每个分词在所述非垃 圾短信样本集中的权重, 并将全部分词按照权重由大到小进行排序, 选取前 N 个分词作为所述第二特征词集合, 其中, N为正整数。
5. 根据权利要求 1所述的方法, 其中, 在从所述短信集合中识别出所述垃圾短信 集合之后, 还包括:
获取发送所述垃圾短信集合中一条或多条垃圾短信的主叫号码以及接收所 述垃圾短信集合中一条或多条垃圾短信的被叫号码;
对获取到的主叫号码和被叫号码进行监控。
6. 根据权利要求 1至 5中任一项所述的方法,其中,所述方法应用于 hadoop平台, 在所述 hadoop平台上对所述短信集合中的各条短信进行并行处理。 种垃圾短信的识别装置, 包括: 第一获取模块, 设置为在所述垃圾短信样本集中获取第一特征词集合以及 在所述第一特征词集合中每个特征词的第一条件概率; 第二获取模块, 设置为在所述非垃圾短信样本集中获取第二特征词集合以 及在所述第二特征词集合中每个特征词的第二条件概率; 识别模块, 设置为根据待处理的短信集合中每条短信所包含的分词数量、 所述每条短信在所述短信集合中重复出现的次数、 所述第一特征词集合、 所述 第二特征词集合、 所述第一条件概率以及所述第二条件概率从所述短信集合中 识别出垃圾短信集合。
8. 根据权利要求 7所述的装置, 其中, 所述识别模块包括: 第一计算单元, 设置为采用以下公式计算所述每条短信的分类权重 typeweight: typeweight=
Figure imgf000023_0001
其中, P(C0)为所述垃圾短信样本集中的短信总量, P(C1) 为所述非垃圾短 信样本集中的短信总量, P(Wt I CO)为所述第一条件概率, P(Wt I C1)为所述第 二条件概率, n为所述每条短信所包含的分词数量, N为所述每条短信在所述 短信集合中重复出现的次数, Wt属于所述第一特征词集合或者所述第二特征词 采口;
识别单元, 设置为根据所述分类权重与预设阈值的比较结果识别出所述垃 圾短信集合, 其中, 所述垃圾短信集合中的每条垃圾短信的分类权重均大于所 述预设阈值, 所述预设阈值为 P(C0)与 P(C1)的比值。
9. 根据权利要求 7所述的装置, 其中, 所述第一获取模块包括: 第一预处理单元, 设置为对所述垃圾短信样本集进行预处理; 第一分词处理单元, 设置为对所述垃圾短信样本集中的每条短信样本进行 分词处理, 获取所述每条短信样本中包含的各个分词的内容以及每个分词出现 的次数;
第一统计单元, 设置为根据在所述每条短信样本中每个分词出现的次数统 计每个分词在所述垃圾短信样本集中出现的次数; 第二计算单元, 设置为根据统计出的次数与所述垃圾短信样本集中的短信 样本总量的比值计算所述第一条件概率; 第一选取单元, 设置为采用所述统计出的次数与所述第一条件概率计算所 述每个分词在所述垃圾短信样本集中的权重, 并将全部分词按照权重由大到小 进行排序, 选取前 N个分词作为所述第一特征词集合, 其中, N为正整数。
10. 根据权利要求 7所述的装置, 其中, 所述第二获取模块包括: 第二预处理单元, 设置为对所述非垃圾短信样本集进行预处理; 第二分词处理单元, 设置为对所述非垃圾短信样本集中的每条短信样本进 行分词处理, 获取所述每条短信样本中包含的各个分词的内容以及每个分词出 现的次数;
第二统计单元, 设置为根据在所述每条短信样本中每个分词出现的次数统 计每个分词在所述非垃圾短信样本集中出现的次数;
第三计算单元, 设置为根据统计出的次数与所述非垃圾短信样本集中短信 样本的总量的比值计算所述第二条件概率;
第二选取单元, 设置为采用所述统计出的次数与所述第二条件概率计算所 述每个分词在所述非垃圾短信样本集中的权重, 并将全部分词按照权重由大到 小进行排序, 选取前 N个分词作为所述第二特征词集合, 其中, N为正整数。
11. 根据权利要求 7所述的装置, 其中, 所述装置还包括: 第三获取模块, 设置为获取发送所述垃圾短信集合中一条或多条垃圾短信 的主叫号码以及接收所述垃圾短信集合中一条或多条垃圾短信的被叫号码; 监控模块, 设置为对获取到的主叫号码和被叫号码进行监控。
12. 根据权利要求 7至 11中任一项所述的装置, 其中, 所述装置应用于 hadoop平 台, 在所述 hadoop平台上对所述短信集合中的各条短信进行并行处理。
PCT/CN2014/080660 2013-09-17 2014-06-24 垃圾短信的识别方法及装置 WO2015039478A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/022,604 US20160232452A1 (en) 2013-09-17 2014-06-24 Method and device for recognizing spam short messages
EP14845311.1A EP3048539A4 (en) 2013-09-17 2014-06-24 METHOD AND APPARATUS FOR RECOGNIZING ADVERSE MESSAGES

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310425581.9A CN104462115A (zh) 2013-09-17 2013-09-17 垃圾短信的识别方法及装置
CN201310425581.9 2013-09-17

Publications (1)

Publication Number Publication Date
WO2015039478A1 true WO2015039478A1 (zh) 2015-03-26

Family

ID=52688179

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/080660 WO2015039478A1 (zh) 2013-09-17 2014-06-24 垃圾短信的识别方法及装置

Country Status (4)

Country Link
US (1) US20160232452A1 (zh)
EP (1) EP3048539A4 (zh)
CN (1) CN104462115A (zh)
WO (1) WO2015039478A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107155178A (zh) * 2016-03-03 2017-09-12 深圳市新悦蓝图网络科技有限公司 一种基于智能算法的垃圾短信过滤方法
US20220261447A1 (en) * 2015-05-01 2022-08-18 Meta Platforms, Inc. Systems and methods for demotion of content items in a feed
CN116016416A (zh) * 2023-03-24 2023-04-25 深圳市明源云科技有限公司 垃圾邮件识别方法、装置、设备及计算机可读存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488031B (zh) * 2015-12-09 2018-10-19 北京奇虎科技有限公司 一种检测相似短信的方法及装置
CN105704689A (zh) * 2016-01-12 2016-06-22 深圳市深讯数据科技股份有限公司 一种短信行为的大数据采集与分析方法及系统
CN106102027B (zh) * 2016-06-12 2019-03-15 西南医科大学 基于MapReduce的短信批量提交方法
CN107135494B (zh) * 2017-04-24 2020-06-19 北京小米移动软件有限公司 垃圾短信识别方法及装置
CN108733730A (zh) * 2017-04-25 2018-11-02 北京京东尚科信息技术有限公司 垃圾消息拦截方法和装置
CN109426666B (zh) * 2017-09-05 2024-02-09 上海博泰悦臻网络技术服务有限公司 垃圾短信识别方法、系统、可读存储介质及移动终端
CN108153727B (zh) * 2017-12-18 2020-09-08 浙江鹏信信息科技股份有限公司 利用语义挖掘算法标识营销电话的方法及治理营销电话的系统
CN109873755B (zh) * 2019-03-02 2021-01-01 北京亚鸿世纪科技发展有限公司 一种基于变体词识别技术的垃圾短信分类引擎
CN111931487B (zh) * 2020-10-15 2021-01-08 上海一嗨成山汽车租赁南京有限公司 用于短信处理的方法、电子设备和存储介质
CN114040409B (zh) * 2021-11-11 2023-06-06 中国联合网络通信集团有限公司 短信识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080141278A1 (en) * 2006-12-07 2008-06-12 Sybase 365, Inc. System and Method for Enhanced Spam Detection
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN102065387A (zh) * 2009-11-13 2011-05-18 华为技术有限公司 一种短信的识别方法和设备
CN102572744A (zh) * 2010-12-13 2012-07-11 中国移动通信集团设计院有限公司 识别特征库获取方法、装置及短消息识别方法、装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US8364766B2 (en) * 2008-12-04 2013-01-29 Yahoo! Inc. Spam filtering based on statistics and token frequency modeling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080141278A1 (en) * 2006-12-07 2008-06-12 Sybase 365, Inc. System and Method for Enhanced Spam Detection
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN102065387A (zh) * 2009-11-13 2011-05-18 华为技术有限公司 一种短信的识别方法和设备
CN102572744A (zh) * 2010-12-13 2012-07-11 中国移动通信集团设计院有限公司 识别特征库获取方法、装置及短消息识别方法、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3048539A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220261447A1 (en) * 2015-05-01 2022-08-18 Meta Platforms, Inc. Systems and methods for demotion of content items in a feed
CN107155178A (zh) * 2016-03-03 2017-09-12 深圳市新悦蓝图网络科技有限公司 一种基于智能算法的垃圾短信过滤方法
CN116016416A (zh) * 2023-03-24 2023-04-25 深圳市明源云科技有限公司 垃圾邮件识别方法、装置、设备及计算机可读存储介质
CN116016416B (zh) * 2023-03-24 2023-08-04 深圳市明源云科技有限公司 垃圾邮件识别方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
EP3048539A4 (en) 2016-08-31
CN104462115A (zh) 2015-03-25
US20160232452A1 (en) 2016-08-11
EP3048539A1 (en) 2016-07-27

Similar Documents

Publication Publication Date Title
WO2015039478A1 (zh) 垃圾短信的识别方法及装置
CN104915327B (zh) 一种文本信息的处理方法及装置
CN101350869B (zh) 基于索引和散列的电信计费去重方法及设备
CN106649422B (zh) 关键词提取方法及装置
CN111090776A (zh) 一种视频审核的方法、装置、审核服务器和存储介质
CN109635084B (zh) 一种多源数据文档实时快速去重方法及系统
CN107294834A (zh) 一种识别垃圾邮件的方法和装置
CN113254255B (zh) 一种云平台日志的分析方法、系统、设备及介质
CN105893615A (zh) 基于手机取证数据的机主特征属性挖掘方法及其系统
CN110213152B (zh) 识别垃圾邮件的方法、装置、服务器及存储介质
CN111507479A (zh) 特征分箱方法、装置、设备及计算机可读存储介质
CN108234452B (zh) 一种网络数据包多层协议识别的系统和方法
CN110209942B (zh) 一种基于大数据的科技信息智能推送系统
CN106557483B (zh) 一种数据处理、数据查询方法及设备
US11003513B2 (en) Adaptive event aggregation
CN106411704A (zh) 一种分布式垃圾短信识别方法
CN113204716A (zh) 可疑洗钱用户交易关系确定方法及装置
CN110781232A (zh) 数据处理方法、装置、计算机设备和存储介质
CN110990350A (zh) 日志的解析方法及装置
CN111080362A (zh) 广告监测系统及方法
WO2019153546A1 (zh) 万级维度数据生成方法、装置、设备以及存储介质
CN110263082B (zh) 数据库的数据分布分析方法、装置、电子设备及存储介质
CN113271263B (zh) 一种数据处理方法及其设备
CN114090850A (zh) 日志分类方法、电子设备及计算机可读存储介质
CN109842511B (zh) 一种tcp性能参数的确定方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14845311

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15022604

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2014845311

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014845311

Country of ref document: EP