WO2013097327A1 - 一种垃圾邮件过滤方法 - Google Patents

一种垃圾邮件过滤方法 Download PDF

Info

Publication number
WO2013097327A1
WO2013097327A1 PCT/CN2012/071327 CN2012071327W WO2013097327A1 WO 2013097327 A1 WO2013097327 A1 WO 2013097327A1 CN 2012071327 W CN2012071327 W CN 2012071327W WO 2013097327 A1 WO2013097327 A1 WO 2013097327A1
Authority
WO
WIPO (PCT)
Prior art keywords
mail
spam
segmentation
list
word
Prior art date
Application number
PCT/CN2012/071327
Other languages
English (en)
French (fr)
Inventor
林延中
潘庆峰
Original Assignee
盈世信息科技(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 盈世信息科技(北京)有限公司 filed Critical 盈世信息科技(北京)有限公司
Publication of WO2013097327A1 publication Critical patent/WO2013097327A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0245Filtering by information in the payload

Definitions

  • the present invention relates to the field of communications technologies, and in particular, to a spam filtering method.
  • Chinese patent CN201010179995 discloses a reverse neural network spam filtering device based on N-GRAM word segmentation model, which uses a N-GRAM word segmentation model to segment word samples and uses TF-IDF (Terminal Frequency - Inverse Document Frequency) algorithm to segment word segments. Perform weight sorting, and then use the zipf rule to extract the most important feature participle list (the unexamined feature participle is discarded). According to whether the text contains these "important feature words" to construct the feature vector of the document, and use this feature vector to learn and classify the neural network, and finally output the classification results of the normal mail and spam categories.
  • TF-IDF Terminal Frequency - Inverse Document Frequency
  • the above prior art uses the zipf rule to extract the most important feature word segmentation, which causes some sub-critical feature word segments to be discarded.
  • the number of these second most important feature word segments is large, and the overall still has a considerable contribution to the classification system. Therefore, discarding these sub-critical segments will affect the accuracy of the classifier.
  • the above prior art uses a neural network to classify feature vectors, and only obtains whether one mail belongs to spam or normal mail.
  • the embodiment of the invention provides a spam filtering method, which can accurately classify emails and improve the accuracy of spam identification.
  • the spam filtering method provided by the embodiment of the invention includes: 511. Extract Chinese characters from the to-be-filtered emails, synthesize Chinese texts, and separate words from the Chinese texts by using a permutation combination manner;
  • the method for separating the words from the Chinese text by using the arrangement combination comprises: scanning each Chinese character in the Chinese text, and using S Chinese characters as the step size, each Chinese text is followed by The texts are extracted one by one, forming a combination of words, obtaining words; where S is a natural number.
  • Step S12 specifically includes:
  • List the word segmentation list for each message type records the importance location interval number of each word segment sample in this message type, and the importance location interval number indicates the importance of the word segmentation sample in a certain type of mail sample;
  • step S14 the method further includes:
  • the spam filtering method extracts Chinese characters from the to-be-filtered emails, synthesizes the Chinese texts, and separates the words from the Chinese texts by using the arrangement and combination, does not depend on the Chinese dictionary, but passes Arrange and exhaust all possible word segmentation forms, and then use statistics to confirm which participles are important and not to discard the next important
  • the feature segmentation class divides the classification result into four types: spam, normal mail, advertising mail and subscription mail, and the mail classification is accurate.
  • using the support vector machine as the classifier of the feature vector can improve the recognition accuracy of spam.
  • FIG. 1 is a schematic flowchart of a spam filtering method according to Embodiment 1 of the present invention.
  • FIG. 2 is a schematic flowchart of a spam filtering method according to Embodiment 2 of the present invention.
  • FIG. 3 is a schematic flowchart of a spam filtering method according to Embodiment 3 of the present invention. detailed description
  • the spam filtering method collects normal mail samples, spam samples, advertisement mail samples and subscription mail samples in advance, analyzes the probability that each word segment in the mail sample belongs to different mail types, and forms a sample database;
  • the vector machine learns these samples and obtains a support vector machine model. details as follows:
  • the reporting system can be deployed in the mail system, and the spam, advertisement mail and subscription mail reported by the user are collected and added to the sample database.
  • the text in the mail sample is preprocessed, and the html document, Chinese text, and English text are extracted from the mail sample.
  • html documents extract the html tags (html tags) from them separately.
  • Chinese characters and English characters are extracted from the remaining information to form a document with only English characters and a document with only Chinese characters.
  • the words are separated from the sentence using a mechanical arrangement.
  • the method of separation is as follows: For a Chinese character with a Chinese character number L, scan each Chinese character C in the Chinese text, and extract the text after each Chinese character C one by one with S Chinese characters as a step size. Combination of words; where S is 1, 2, 3, .... For example, for the sentence "I am Chinese”, set the scan step size to 3, and the maximum length of the participle to be 3, then the possible participles are: I, I am, I am Zhong, Yes, Yes, China, China, China, Chinese, China, Chinese, and people.
  • the advantage of using this word segmentation is that there is no need for a Chinese dictionary. Due to the characteristics of Chinese, the use of this method can definitely cover most Chinese words.
  • each html tag contains a tag name (tag name) and an undetermined tag attribute (tag attribute).
  • tag name a tag name
  • tag attribute an undetermined tag attribute
  • the TF-IDF algorithm is used to sort the word segmentation of the second step. After sorting, obtain the word segmentation list of the four mail types of the normal mail segmentation list, the spam word segmentation list, the advertisement message segmentation list, and the subscription message segmentation list, and each word segment list contains the word segment samples most representative of the message type, and according to the distinction The ability to sort the word segments from high to low, and assign an importance position interval number according to the sort position of the word segment in each list. The importance location interval number indicates the importance of the word segmentation sample in a certain type of mail sample.
  • the word “Fuwang” is located at the 10% position of the spam segmentation list, and the importance position number assigned to “Fuwang” is 10; and the word “Furong” is in the location of the spam segmentation list. At 90%, the importance of the location area assigned to "Hibiscus” is 90. The higher the position of a participle in the spam segmentation list, the greater the importance of the segmentation in spam classification.
  • the normal mail segmentation list, the spam word segmentation list, the advertisement message segmentation list, the word segmentation sample in the subscription mailing list, and the importance location number thereof are recorded in the database for subsequent mail filtering.
  • this embodiment is only described by taking a 4*10 four-dimensional array as an example.
  • the first line of the four-dimensional array records the words distributed on the interval number of each importance position of the normal mail segmentation list.
  • the number of words respectively Array[3][10], Array[3][20] Array[3][30] Array[13][40] Array[3][50] Array[3][60] Array [3][70] Array[3][80] Array[3][90] Array[3][100].
  • Array[3][10] represents the number of participles distributed on the importance position interval number 10 of the normal mail participle list
  • Array[3][20] indicates the importance position interval number 20 distributed in the normal mail participle list. The number of word segmentation, and so on.
  • the second line of the four-dimensional array records the number of words distributed on each importance position interval number of the spam word segmentation list, which are Array[2][10], Array[2][20] Array[2] [30] Array[13][40] Array[2][50] Array [2] [60] Array[2][70] Array[2][80] Array[2][90] Array[2][ 100].
  • Array[2][10] represents the number of participles distributed on the importance position interval number 10 of the spam segmentation list
  • Array[2][20] indicates the importance position interval number 20 distributed in the spam segmentation list. The number of word segmentation, and so on.
  • the third row of the four-dimensional array records the number of words distributed on each importance position interval number of the advertisement message segmentation list, respectively Array[l][10], Array[l][20] Array[l] [30] Array[13][40] Array[l][50] Array[l][60] Array[l][70] Array[l][80] Array[l][90] Array[l][ 100].
  • Array[l][10] represents the number of word segments distributed on the importance position interval number 10 of the advertisement message segmentation list
  • Array[l][20] indicates the importance position interval number 20 distributed in the advertisement message segmentation list. The number of word segmentation, and so on.
  • the fourth row of the four-dimensional array records the number of words distributed on each importance location interval number of the subscribed mail segmentation list, respectively Array[0][10], Array[0][20] Array[0] [30] Array[13][40] Array[0][50] Array [0] [60] Array[0][70] Array[0][80] Array[0][90] Array[0][ 100].
  • Array[0][10] represents the number of participles distributed on the importance position interval number 10 of the normal mail participle list
  • Array[0][20] represents the importance position interval number 20 distributed in the normal mail participle list. The number of word segmentation, and so on.
  • each number in the four-dimensional array is 0.
  • the words in the mail sample are at a certain importance position. Appears on the interval number, and the number of words in the importance position interval number is incremented by one.
  • the participle "invoice" in a mail sample, in the normal mail participle list the importance position interval number is 30 (representing between 29%-30% of the list), then Array[0][30] Will add 1.
  • the "invoice” in the spam participle list appears in the importance position interval number is 0 (representing between 0%-1% of the list), and Bay U Array[l][0] will be incremented by 1.
  • "hello" in the normal mail participle list appears in the importance position interval number is 30, then Array[0][30] plus 1 and the rest of the analogy, so that each number in the four-dimensional array is counted. value.
  • the above four-dimensional array is converted into a one-dimensional array according to the method of the first row and the back column, and the one-dimensional array is the feature vector of the text.
  • the conversion method is: (1) copying the first line of the four-dimensional array to the one-dimensional array; (2) adding the content of the second line of the four-dimensional array to the one-dimensional array of the above step (1) ; (3), add the content of the third line of the four-dimensional array Add to the back of the one-dimensional array of the above step (2); (4) Add the content of the fourth line of the four-dimensional array to the one-dimensional array of the above step (3), and the one-dimensional array contains the four-dimensional array. All content, and only one dimension.
  • the above feature vector is input to the support vector machine, and the support vector machine model is output.
  • the support vector machine is a prior art and will not be described in detail herein.
  • the message filtering method After obtaining the sample database and the support vector machine model, for a message to be filtered of an unknown message type, the message filtering method is as follows:
  • FIG. 1 is a schematic flowchart of a spam filtering method according to Embodiment 1 of the present invention.
  • the message to be filtered includes Chinese text;
  • the spam filtering method includes the following steps:
  • S1K extracts Chinese characters from the to-be-filtered mail, synthesizes the Chinese text, and separates the words from the Chinese text by using the arrangement and combination;
  • the method for separating words from the Chinese text by using a combination of combinations comprises: scanning each Chinese character in the Chinese text, and using S Chinese characters as a step size for each Chinese The text behind the text is extracted one by one, forming a combination of words to obtain words; where S is a natural number.
  • step S12 specifically includes:
  • Extracting word segmentation samples from the mail sample determining the ability of each word segmentation to distinguish the mail type, forming a normal mail segmentation list, a spam word segmentation list, an advertisement mail segmentation list, and a subscribing message segmentation list. List;
  • the word segmentation list for each message type records the importance location interval number of each word segment sample in this message type, and the importance location interval number indicates the importance of the word segmentation sample in a certain type of mail sample;
  • the importance position interval number in the piece type is used to determine the importance position interval number of each word in the Chinese text in the normal mail segmentation list, the spam word segmentation list, the advertisement mail segmentation list, and the subscription mail segmentation list.
  • step S13 specifically includes:
  • the first row of the four-dimensional array recording the number of words distributed on each importance position interval number of the normal mail segmentation list; the second row of the four-dimensional array recording each of the spam word segmentation lists The number of words distributed on the importance position interval number; the third line of the four-dimensional array records the number of words distributed on each importance position interval number of the advertisement message segmentation list; the fourth line record of the four-dimensional array The number of words distributed on each importance location interval number of the subscription regular mail segmentation list; the words are words separated from the Chinese text of the to-be-filtered email;
  • the four-dimensional array is converted into a one-dimensional array according to the manner of the first row and the back column, and the feature vector of the Chinese text is obtained.
  • step S14 the method further includes:
  • S15 Determine whether the probability that the Chinese text is spam is greater than a set first threshold. If yes, determine that the to-be-filtered email is spam, otherwise it is not spam.
  • FIG. 2 it is a schematic flowchart of a spam filtering method provided by Embodiment 2 of the present invention.
  • the text to be filtered includes the Chinese text and the English text.
  • the processing flow of the Chinese text is the same as the above steps S11 to S14, and details are not described herein.
  • the process of processing English text includes the following steps:
  • step S24 it is determined whether the mail to be filtered is spam, as follows:
  • FIG. 3 is a schematic flowchart of a spam filtering method according to Embodiment 3 of the present invention.
  • the message to be filtered includes the Chinese text, the English text, and the html document.
  • the processing flow of the Chinese text is the same as the above steps S11 and S14, and the processing flow of the English text is the same as the above step S21 S24. This will not be repeated.
  • the processing of the html document includes the following steps:
  • the step S31 specifically includes: extracting an html document from the to-be-filtered email, and extracting an html label from the html document; if the html label includes a label name, extracting the label name to form an html label segmentation;
  • the html tag includes a tag name and at least one tag attribute, and the tag name is extracted, and each tag attribute is combined one by one to form an html tag segmentation.
  • step S34 it is determined whether the mail to be filtered is spam, as follows:
  • an html document is extracted from the to-be-filtered mail, and the html label in the html document is presented for separate processing. Since the current large amount of spam is packaged in an html manner, and the effect of text classification is interfered by adding a large number of invisible or differently sized fonts, the embodiment of the present invention extracts the html document in the mail and processes it separately. Improve the accuracy of the classifier
  • the spam filtering method extracts Chinese characters from the to-be-filtered emails, synthesizes the Chinese texts, and separates the words from the Chinese texts by using the arrangement and combination, does not depend on the Chinese dictionary, but passes Arrange and exhaust all possible word segmentation forms, then use statistics to confirm which participles are important, do not discard the second most important feature participles, and classify the classification results into four types: spam, normal mail, advertising mail and subscription mail. accurate. Moreover, using the support vector machine as the classifier of the feature vector can improve the recognition accuracy of spam.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

公开了一种垃圾邮件过滤方法,包括:从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;通过统计学习样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。本发明实施例能够准确地对邮件进行分类,提高垃圾邮件的识别准确率。

Description

说 明 书 一种垃圾邮件过滤方法 技术领域
本发明涉及通信技术领域, 尤其涉及一种垃圾邮件过滤方法。
背景技术
随着网络的快速发展, 使用电子邮件 (E-mail) 进行通信已十分普遍, 图片、 文档、 影 音等各种计算机文件均可通过 E-mail的方式传送给接收者, 给人们的生活带来了极大的方 便。 但同时垃圾邮件也随之蔓延, 严重威胁到用户邮箱的稳定性及安全性。
中国专利 CN201010179995公开一种基于 N-GRAM分词模型的反向神经网络垃圾邮件 过滤装置, 使用 N-GRAM分词模型对邮件样本进行分词, 并使用 TF-IDF ( Term Frequency - Inverse Document Frequency) 算法对分词进行权重排序, 然后使用 zipf法则提取最重要的 特征分词列表 (未被挑中的特征分词则被丢弃)。 根据文本中是否包含这些 "重要特征分 词"构造出文档的特征向量, 并以此特征向量进行神经网络的学习和分类, 最后输出正常邮 件和垃圾邮件两个类别的分类结果。
上述现有技术使用 zipf法则来提取最重要的特征分词, 会导致某些次重要的特征分词被 丢弃, 但是这些次重要的特征分词数量较多, 总体仍会对分类系统有相当大的贡献。 因此, 丢弃这些次重要分词, 会影响分类器的准确性。 而且, 在实际应用中, 存在部分灰色地带的 邮件, 比如某些信用卡的积分广告邮件, 对于某些用户来说是希望接收的, 但是上述现有技 术只有垃圾邮件和正常邮件两个分类结果, 由于这些灰色地带的邮件是大量群发的, 因此分 类器会将其归类到垃圾邮件内; 此外, 上述现有技术使用神经网络对特征向量进行分类, 只 能获得一个邮件属于垃圾邮件还是正常邮件的分类结果, 不能获得分类结果的置信度; 而且 没有考虑当前大量的垃圾邮件使用 html 方式包装, 并通过添加大量不可见或者不同大小的 字体, 来干扰文本分类的效果, 影响分类器的准确性。 发明内容
本发明实施例提出一种垃圾邮件过滤方法, 邮件分类准确, 能够提高垃圾邮件的识别准 确率。
本发明实施例提供的垃圾邮件过滤方法, 包括: 511、 从待过滤邮件中提取中文字符, 组合成中文文本, 并采用排列组合方式从所述中文文 本中分离出词语;
512、 通过统计已知分类的邮件样本, 获得所述中文文本中每一个词语在正常邮件分词列 表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位置区间编 号;
513、 统计每个重要性位置区间编号上分布的词语的个数, 并转换成一维数组, 获得所述中 文文本的特征向量;
514、 将所述特征向量输入支持向量机模型, 获得所述待过滤邮件分别为正常邮件、 垃圾邮 件、 广告邮件、 订阅邮件的概率。
在步骤 S11 中, 采用排列组合方式从所述中文文本中分离出词语的方法, 具体包括: 扫 描所述中文文本中的每一个中文文字, 以 S个中文字符为步长将每一个中文文字后面的文字 逐个提取出来, 组成文字组合, 获得词语; 其中, S为自然数。
步骤 S12具体包括:
收集已知分类的邮件样本, 所述邮件样本包括正常邮件样本、 垃圾邮件样本、 广告邮件样本 和订阅邮件样本;
从所述邮件样本中提取分词样本, 对每一个分词样本的区分邮件类型的能力进行排序, 形成 正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表和订阅邮件分词列表四个邮件类 型的分词列表; 每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置 区间编号, 所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性;
将所述正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件列表中的分词 样本及其重要性位置编号记录到数据库中;
从所述待过滤邮件的中文文本中分离出词语后, 根据数据库中记录的每个分词样本在不同邮 件类型中的重要性位置区间编号, 来确定所述中文文本中每一个词语在正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位置区间编号。
进一步的, 在步骤 S14之后, 还包括:
515、 判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值, 若是, 则判定所述待 过滤邮件为垃圾邮件, 否则不是垃圾邮件。
本发明实施例提供的垃圾邮件过滤方法, 从待过滤邮件中提取出中文字符, 组合成中文 文本, 并采用排列组合方式从所述中文文本中分离出词语, 不依赖于中文字典, 而是通过排 列组合穷举所有可能的分词形式, 然后通过统计来确认哪些分词比较重要, 不会丢弃次重要 的特征分词, 将分类结果分成垃圾邮件、 正常邮件、 广告邮件和订阅邮件四个类型, 邮件分 类准确。 而且使用支持向量机作为特征向量的分类器, 能够提高垃圾邮件的识别准确率。 附图说明
图 1是本发明实施例一提供的垃圾邮件过滤方法的流程示意图;
图 2是本发明实施例二提供的垃圾邮件过滤方法的流程示意图;
图 3是本发明实施例三提供的垃圾邮件过滤方法的流程示意图。 具体实施方式
下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描 述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于本发明 中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
本发明实施例提供的垃圾邮件过滤方法, 预先收集正常邮件样本、 垃圾邮件样本、 广告 邮件样本和订阅邮件样本, 分析邮件样本中每个分词属于不同邮件类型的概率, 形成样本数 据库; 再使用支持向量机学习这些样本, 获得支持向量机模型。 具体如下:
一、 收集邮件样本:
收集正常邮件样本、 垃圾邮件样本、 广告邮件样本和订阅邮件样本, 加入到样本数据库中。
具体实施时, 可以在邮件系统中部署举报系统, 收集用户举报的垃圾邮件、 广告邮件和 订阅邮件, 加入到样本数据库中。
二、 提取邮件样本中的词语:
首先对邮件样本中的文本进行预处理, 从邮件样本中提取出 html 文档、 中文文本和英文文 本。 对于 html文档, 将其中的 html标签 (html tag) 提取出来单独处理。 之后从剩余的信息 中提取中文字符和英文字符, 形成只有英文字符的文档和只有中文字符的文档。
( 1 )、 对于英文文本, 以标点符号和空格分隔各个分词。
(2)、 对于中文文本, 则使用机械的排列组合方式从句子中分离出词语。 分离的方法如 下: 对于一个中文字符数为 L中文文本, 扫描所述中文文本中的每一个中文文字 C, 以 S个 中文字符为步长将每一个中文文字 C后面的文字逐个提取出来, 组成文字组合; 其中, S为 1、 2、 3、 …。 例如, 对于句子 "我是中国人", 设定扫描步长为 3, 分词最大长度为 3, 则 可能的分词为: 我、 我是、 我是中、 是、 是中、 是中国、 中、 中国、 中国人、 国、 国人、 人。 使用此分词的好处是无需中文词典, 由于中文的特性, 使用此办法分词肯定可以覆盖到 绝大部分的中文词语。 另外可以处理形如 "我 a是 a中 a国 a人" 的带有干扰信息的文本。 而且使用此分词方法, 还可以获得很多次重要的分词, 在后续处理会将这些分词按照区分能 力进行排序, 区分能力低的词语会排到较后的位置。 一些次重要的词语对文本分类有较大作 用, 例如对于 "芙王"这个分词, 经过程序处理之后发现它是垃圾邮件的一个有较大区分作 用的分词, 仔细查看发现这个词来源于销售假烟 "芙蓉王" 的垃圾邮件样本, 而芙蓉可能会 在其他正常邮件中经常出现, 所以 "芙蓉"对于垃圾邮件的区分作用不如 "芙王"。
( 3 )、 对于 html文档, 从 html文档中提取 html标签 (html tag)。 根据 html格式要求, 每个 html tag包含一个标签名称 (tag名称) 以及若个数量不确定的标签属性 (tag属性)。 提取 html tag信息的时候, 假如 html tag只有 tag名称没有 tag属性的, 则提取的 html标签 分词为 tag名称。 如果 html tag包含 tag名称和 n个 tag属性的, 则将 tag名称和每个 tag属 性一一组合后, 形成 n个 html标签分词。
三、 对分词进行排序处理:
从邮件中提取出词语 (包括中文分词、 英文分词和 html标签分词) 后, 使用 TF-IDF算法对 上述第二步的分词进行排序处理。 排序后, 获得正常邮件分词列表、 垃圾邮件分词列表、 广 告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表, 每个分词列表中包含最能代 表这个邮件类型的分词样本, 并按照区分能力从高到低的顺序对分词进行排序, 并按照分词 在每个列表中的排序位置赋予一个重要性位置区间编号。 该重要性位置区间编号表示分词样 本在某类邮件样本中的重要性。 例如 "芙王"这个分词在垃圾邮件分词列表的位置是位于 10%位置的, 则赋予 "芙王" 的重要性位置区间编号为 10; 而 "芙蓉"这个分词在垃圾邮件 分词列表的位置是位于 90%的, 则赋予 "芙蓉" 的重要性位置区间编号为 90。 某一分词在 垃圾邮件分词列表的排序位置越靠前, 表示该分词在垃圾邮件分类中的重要性越大。
将正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件列表中的分词 样本及其重要性位置编号记录到数据库中, 供后续进行邮件过滤时使用。
四、 支持向量机模型:
对于每一个邮件样本, 获得邮件中的每一个词语在正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位置区间编号后, 对每个重要性位置 区间编号上分布的词语的个数进行统计, 如下:
构建一个四维数组, 本实施例仅以 4* 10的四维数组为例进行说明。
四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编号上所分布的词 语个数, 分别为 Array[3][10]、 Array[3][20] Array[3][30] Array[13][40] Array[3][50] Array[3][60] Array[3][70] Array[3][80] Array[3][90] Array[3][100]。 其中, Array[3][10] 表示分布在正常邮件分词列表的重要性位置区间编号 10 上的分词个数, Array[3][20]表示分 布在正常邮件分词列表的重要性位置区间编号 20上的分词个数, 以此类推。
四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区间编号上所分布的词 语个数, 分别为 Array[2][10]、 Array[2][20] Array[2][30] Array[13][40] Array[2][50] Array [2] [60] Array[2][70] Array[2][80] Array[2][90] Array[2][100]。 其中, Array[2][10] 表示分布在垃圾邮件分词列表的重要性位置区间编号 10 上的分词个数, Array[2][20]表示分 布在垃圾邮件分词列表的重要性位置区间编号 20上的分词个数, 以此类推。
四维数组的第三行记录所述广告邮件分词列表的每个重要性位置区间编号上所分布的词 语个数, 分别为 Array[l][10]、 Array[l][20] Array[l][30] Array[13][40] Array[l][50] Array[l][60] Array[l][70] Array[l][80] Array[l][90] Array[l][100]。 其中, Array[l][10] 表示分布在广告邮件分词列表的重要性位置区间编号 10 上的分词个数, Array[l][20]表示分 布在广告邮件分词列表的重要性位置区间编号 20上的分词个数, 以此类推。
四维数组的第四行记录所述订阅邮件分词列表的每个重要性位置区间编号上所分布的词 语个数, 分别为 Array[0][10]、 Array[0][20] Array[0][30] Array[13][40] Array[0][50] Array [0] [60] Array[0][70] Array[0][80] Array[0][90] Array[0][100]。 其中, Array[0][10] 表示分布在正常邮件分词列表的重要性位置区间编号 10 上的分词个数, Array[0][20]表示分 布在正常邮件分词列表的重要性位置区间编号 20上的分词个数, 以此类推。
四维数组中的每一个数的初始值为 0, 在对每个分词列表中的每个重要性位置区间编号 上分布的词语的个数进行统计时, 邮件样本中的词语在某一重要性位置区间编号上出现, 该 重要性位置区间编号的词语个数就加 1。 例如, 某一邮件样本中的分词 "发票", 在正常邮 件分词列表的出现重要性位置区间编号是 30(代表在列表的 29%-30%位置之间), 则 Array[0][30]将会加 1。 "发票"在垃圾邮件分词列表的出现重要性位置区间编号是 0 (代表 在列表的 0%-1%位置之间), 贝 U Array[l][0]将会加 1。 该邮件样本中 "你好"在正常邮件分 词列表的出现重要性位置区间编号是 30, 则 Array[0][30]再加 1, 其余情况类推, 从而统计 出四维数组中的每一个数的值。
将上述四维数组按照先行后列的方式转换成一维数组, 此一维数组即为文本的特征向 量。 具体的, 转换方法为: (1 )、 把四维数组的第一行拷贝到一维数组; (2)、 把四维数组的 第二行的内容添加到上述步骤 (1 ) 的一维数组的后面; (3 )、 把四维数组的第三行的内容添 加到上述步骤 (2) 的一维数组的后面; (4)、 把四维数组的第四行的内容添加到上述步骤 (3 ) 的一维数组的后面, 到此, 一维数组包含四维数组的所有内容, 且只有一维。
将上述特征向量输入支持向量机, 输出支持向量机模型。 其中, 支持向量机为现有技 术, 在此不进行详细说明。
获得样本数据库和支持向量机模型后, 对于一个未知邮件类型的待过滤的邮件, 邮件过 滤方法如下:
参见图 1, 是本发明实施例一提供的垃圾邮件过滤方法的流程示意图。
在本实施例一中, 待过滤邮件中包含中文文本; 垃圾邮件过滤方法包括以下步骤:
S1K 从待过滤邮件中提取中文字符, 组合成中文文本, 并采用排列组合方式从所述中文文 本中分离出词语;
512、 通过统计已知分类的邮件样本, 获得所述中文文本中每一个词语在正常邮件分词列 表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位置区间编 号;
513、 统计每个重要性位置区间编号上分布的词语的个数, 并转换成一维数组, 获得所述中 文文本的特征向量;
514、 将所述特征向量输入支持向量机模型, 获得所述待过滤邮件分别为正常邮件、 垃圾邮 件、 广告邮件、 订阅邮件的概率。
其中, 在步骤 S11 中, 采用排列组合方式从所述中文文本中分离出词语的方法, 具体包 括: 扫描所述中文文本中的每一个中文文字, 以 S个中文字符为步长将每一个中文文字后面 的文字逐个提取出来, 组成文字组合, 获得词语; 其中, S为自然数。
上述步骤 S12具体包括:
收集已知分类的邮件样本, 所述邮件样本包括正常邮件样本、 垃圾邮件样本、 广告邮件样本 和订阅邮件样本;
从所述邮件样本中提取分词样本, 对每一个分词样本的区分邮件类型的能力进行判定, 形成 正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表和订阅邮件分词列表四个邮件类 型的分词列表; 每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置 区间编号, 所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性;
将所述正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件列表中的分词 样本及其重要性位置编号记录到数据库中;
从所述待过滤邮件的中文文本中分离出词语后, 根据数据库中记录的每个分词样本在不同邮 件类型中的重要性位置区间编号, 来确定所述中文文本中每一个词语在正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位置区间编号。
上述步骤 S13具体包括:
构建一个四维数组, 四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编 号上所分布的词语个数; 四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区 间编号上所分布的词语个数; 四维数组的第三行记录所述广告邮件分词列表的每个重要性位 置区间编号上所分布的词语个数; 四维数组的第四行记录所述订阅常邮件分词列表的每个重 要性位置区间编号上所分布的词语个数; 所述词语是从所述待过滤邮件的中文文本中分离出 的词语;
按照先行后列的方式将所述四维数组转换成一维数组, 获得所述中文文本的特征向量。
在一个可选的实施方式中, 在步骤 S14之后, 还包括:
S15、 判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值, 若是, 则判定所述待 过滤邮件为垃圾邮件, 否则不是垃圾邮件。
参见图 2, 是本发明实施例二提供的垃圾邮件过滤方法的流程示意图。
在本实施例二中, 待过滤邮件中包含中文文本和英文文本; 其中, 对中文文本的处理流 程与上述步骤 S11~S14相同, 在此不予赘述。
如图 2所示, 对英文文本的处理流程包括以下步骤:
521、 从待过滤邮件中提取英文字符, 组合成英文文本, 且以标点符号和空格分隔每个分 词, 从所述英文文本中分离出词语;
522、 通过统计已知分类的邮件样本, 获得所述英文文本中每一个词语在正常邮件分词列 表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位置区间编 号;
523、 统计每个重要性位置区间编号上分布的词语的个数, 并转换成一维数组, 获得所述英 文文本的特征向量;
524、 将所述英文文本的特征向量输入支持向量机模型, 获得所述英文文本分别为正常邮 件、 垃圾邮件、 广告邮件、 订阅邮件的概率。
在步骤 S24之后, 根据 S14和 S24 的结果, 判断待过滤邮件是否为垃圾邮件, 具体如 下:
525、 判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值; 若是, 则判定所述待 过滤邮件为垃圾邮件; 若否, 则执行 S26; S26、 判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值; 若是, 则判定所述待 过滤邮件为垃圾邮件; 否则判定所述待过滤邮件不是垃圾邮件。
参见图 3, 是本发明实施例三提供的垃圾邮件过滤方法的流程示意图。
在本实施例三中, 待过滤邮件中包含中文文本、 英文文本和 html 文档; 其中, 对中文 文本的处理流程与上述步骤 S11 S14相同, 对英文文本的处理流程与上述步骤 S21 S24相 同, 在此不予赘述。
如图 3所示, 对 html文档的处理流程包括以下步骤:
S31、 从待过滤邮件中提取 html文档, 从所述 html文档中提取 html标签分词;
532、 通过统计已知分类的邮件样本, 获得所述 html文档的每一个 html标签分词在正常邮 件分词列表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位 置区间编号;
533、 统计每个重要性位置区间编号上分布的 html标签分词的个数, 并转换成一维数组, 获 得所述 html文档的特征向量;
534、 将所述 html文档的特征向量输入支持向量机模型, 获得所述 html文档分别为正常邮 件、 垃圾邮件、 广告邮件、 订阅邮件的概率。
其中, 步骤 S31 具体包括: 从待过滤邮件中提取 html 文档, 从所述 html 文档中提取 html标签; 若所述 html标签包含标签名称, 则将所述标签名称提取出来, 形成 html标签分 词; 若所述 html 标签包含标签名称和至少一个标签属性, 则将所述标签名称提取出来, 和 每个标签属性一一组合后, 形成 html标签分词。
在步骤 S34之后, 根据 S14、 S24和 S34的结果, 判断待过滤邮件是否为垃圾邮件, 具 体如下:
535、 判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值; 若是, 则判定所述待 过滤邮件为垃圾邮件; 若否, 则执行 S36;
536、 判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值; 若是, 则判定所述待 过滤邮件为垃圾邮件; 若否, 则执行 S37;
537、 判断所述 html文档为垃圾邮件的概率是否大于设定的第三阀值; 若是, 则判定所述待 过滤邮件为垃圾邮件; 否则判定所述待过滤邮件不是垃圾邮件。
本实施例从待过滤邮件中提取 html文档, 将所述 html文档中的 html标签提出来单独处 理。 由于当前大量的垃圾邮件使用 html 方式包装, 并通过添加大量不可见或者不同大小的 字体, 来干扰文本分类的效果, 本发明实施例将邮件中的 html 文档提取出来单独处理, 能 够提高分类器的准确性
本发明实施例提供的垃圾邮件过滤方法, 从待过滤邮件中提取出中文字符, 组合成中文 文本, 并采用排列组合方式从所述中文文本中分离出词语, 不依赖于中文字典, 而是通过排 列组合穷举所有可能的分词形式, 然后通过统计来确认哪些分词比较重要, 不会丢弃次重要 的特征分词, 将分类结果分成垃圾邮件、 正常邮件、 广告邮件和订阅邮件四个类型, 邮件分 类准确。 而且使用支持向量机作为特征向量的分类器, 能够提高垃圾邮件的识别准确率。
以上所述是本发明的优选实施方式, 应当指出, 对于本技术领域的普通技术人员来说, 在不脱离本发明原理的前提下, 还可以做出若干改进和润饰, 这些改进和润饰也视为本发明 的保护范围。

Claims

权 利 要 求
1. 一种垃圾邮件过滤方法, 其特征在于, 包括:
S1 K 从待过滤邮件中提取中文字符, 组合成中文文本, 并采用排列组合方式从所述中文文 本中分离出词语;
512、 通过统计已知分类的邮件样本, 获得所述中文文本中每一个词语在正常邮件分词列 表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位置区间编 号;
513、 统计每个重要性位置区间编号上分布的词语的个数, 并转换成一维数组, 获得所述中 文文本的特征向量;
514、 将所述特征向量输入支持向量机模型, 获得所述待过滤邮件分别为正常邮件、 垃圾邮 件、 广告邮件、 订阅邮件的概率。
2. 如权利要求 1 所述的垃圾邮件过滤方法, 其特征在于, 在步骤 S11 中, 采用排列组合方 式从所述中文文本中分离出词语的方法, 具体包括:
扫描所述中文文本中的每一个中文文字, 以 S个中文字符为步长将每一个中文文字后面的文 字逐个提取出来, 组成文字组合, 获得词语; 其中, S为自然数。
3. 如权利要求 2所述的垃圾邮件过滤方法, 其特征在于, 步骤 S12具体包括:
收集已知分类的邮件样本, 所述邮件样本包括正常邮件样本、 垃圾邮件样本、 广告邮件样本 和订阅邮件样本;
从所述邮件样本中提取分词样本, 对每一个分词样本的区分邮件类型的能力进行排序, 形成 正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表和订阅邮件分词列表四个邮件类 型的分词列表; 每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置 区间编号, 所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性;
将所述正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件列表中的分词 样本及其重要性位置编号记录到数据库中;
从所述待过滤邮件的中文文本中分离出词语后, 根据数据库中记录的每个分词样本在不同邮 件类型中的重要性位置区间编号, 来确定所述中文文本中每一个词语在正常邮件分词列表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位置区间编号。
4. 如权利要求 3所述的垃圾邮件过滤方法, 其特征在于, 步骤 S13具体包括:
构建一个四维数组, 四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编 号上所分布的词语个数; 四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区 间编号上所分布的词语个数; 四维数组的第三行记录所述广告邮件分词列表的每个重要性位 置区间编号上所分布的词语个数; 四维数组的第四行记录所述订阅常邮件分词列表的每个重 要性位置区间编号上所分布的词语个数; 所述词语是从所述待过滤邮件的中文文本中分离出 的词语;
按照先行后列的方式将所述四维数组转换成一维数组, 获得所述中文文本的特征向量。
5. 如权利要求 4所述的垃圾邮件过滤方法, 其特征在于, 在步骤 S14之后, 还包括:
S15、 判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值, 若是, 则判定所述待 过滤邮件为垃圾邮件, 否则不是垃圾邮件。
6. 如权利要求 1~4 任一项所述的垃圾邮件过滤方法, 其特征在于, 所述垃圾邮件过滤方法 还包括:
521、 从待过滤邮件中提取英文字符, 组合成英文文本, 且以标点符号和空格分隔每个分 词, 从所述英文文本中分离出词语;
522、 通过统计已知分类的邮件样本, 获得所述英文文本中每一个词语在正常邮件分词列 表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位置区间编 号;
523、 统计每个重要性位置区间编号上分布的词语的个数, 并转换成一维数组, 获得所述英 文文本的特征向量;
524、 将所述英文文本的特征向量输入支持向量机模型, 获得所述英文文本分别为正常邮 件、 垃圾邮件、 广告邮件、 订阅邮件的概率。
7. 如权利要求 6所述的垃圾邮件过滤方法, 其特征在于, 在步骤 S24之后, 还包括:
525、 判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值; 若是, 则判定所述待 过滤邮件为垃圾邮件; 若否, 则执行 S26;
526、 判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值; 若是, 则判定所述待 过滤邮件为垃圾邮件; 否则判定所述待过滤邮件不是垃圾邮件。
8. 如权利要求 6所述的垃圾邮件过滤方法, 其特征在于, 所述垃圾邮件过滤方法还包括: S31、 从待过滤邮件中提取 html文档, 从所述 html文档中提取 html标签分词;
532、 通过统计已知分类的邮件样本, 获得所述 html 文档的每一个 html标签分词在正常邮 件分词列表、 垃圾邮件分词列表、 广告邮件分词列表、 订阅邮件分词列表中所属的重要性位 置区间编号;
533、 统计每个重要性位置区间编号上分布的 html标签分词的个数, 并转换成一维数组, 获 得所述 html文档的特征向量;
534、 将所述 html 文档的特征向量输入支持向量机模型, 获得所述 html 文档分别为正常邮 件、 垃圾邮件、 广告邮件、 订阅邮件的概率。
9. 如权利要求 8所述的垃圾邮件过滤方法, 其特征在于, 步骤 S31具体包括:
从待过滤邮件中提取 html文档, 从所述 html文档中提取 html标签;
若所述 html标签包含标签名称, 则将所述标签名称提取出来, 形成 html标签分词; 若所述 html标签包含标签名称和至少一个标签属性, 则将所述标签名称提取出来, 和每个 标签属性一一组合后, 形成 html标签分词。
10. 如权利要求 9所述的垃圾邮件过滤方法, 其特征在于, 在步骤 S34之后, 还包括:
535、 判断所述中文文本为垃圾邮件的概率是否大于设定的第- 阀值; 若是, 则判定所述待 过滤邮件为垃圾邮件; 若否, 则执行 S36;
536、 判断所述英文文本为垃圾邮件的概率是否大于设定的第. 阀值; 若是, 则判定所述待 过滤邮件为垃圾邮件; 若否, 则执行 S37;
537、 判断所述 html文档为垃圾邮件的概率是否大于设定的第 :阀值; 若是, 则判定所述待 过滤邮件为垃圾邮件; 否则判定所述待过滤邮件不是垃圾邮件
PCT/CN2012/071327 2011-12-29 2012-02-20 一种垃圾邮件过滤方法 WO2013097327A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110450352.3A CN103186845B (zh) 2011-12-29 2011-12-29 一种垃圾邮件过滤方法
CN201110450352.3 2011-12-29

Publications (1)

Publication Number Publication Date
WO2013097327A1 true WO2013097327A1 (zh) 2013-07-04

Family

ID=48678004

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/071327 WO2013097327A1 (zh) 2011-12-29 2012-02-20 一种垃圾邮件过滤方法

Country Status (2)

Country Link
CN (1) CN103186845B (zh)
WO (1) WO2013097327A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955449A (zh) * 2014-04-21 2014-07-30 安一恒通(北京)科技有限公司 定位目标样本的方法和装置
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN113630302A (zh) * 2020-05-09 2021-11-09 阿里巴巴集团控股有限公司 一种垃圾邮件识别方法及装置、计算机可读存储介质
CN114629873A (zh) * 2020-12-11 2022-06-14 李天明 一种垃圾邮件过滤方法、装置、系统及存储介质
CN115086182A (zh) * 2022-06-20 2022-09-20 深圳市恒扬数据股份有限公司 邮件识别模型的优化方法、装置、电子设备及存储介质
CN117474510A (zh) * 2023-12-25 2024-01-30 彩讯科技股份有限公司 一种基于特征选择的垃圾邮件过滤方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716335A (zh) * 2014-01-12 2014-04-09 绵阳师范学院 基于伪造发件人的垃圾邮件检测与过滤方法
CN104156447B (zh) * 2014-08-14 2016-08-24 天格科技(杭州)有限公司 一种智能社交平台广告预警及处理方法
CN107025239B (zh) * 2016-02-01 2019-12-27 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN106817297B (zh) * 2017-01-19 2019-11-26 华云数据(厦门)网络有限公司 一种通过html标签识别垃圾邮件的方法
CN108572961A (zh) * 2017-03-08 2018-09-25 北京嘀嘀无限科技发展有限公司 一种文本的向量化方法以及装置
CN110019773A (zh) * 2017-08-14 2019-07-16 中国移动通信有限公司研究院 一种垃圾短信检测方法、终端及计算机可读存储介质
CN107943941B (zh) * 2017-11-23 2021-10-15 珠海金山网络游戏科技有限公司 一种可迭代更新的垃圾文本识别方法和系统
CN110019763B (zh) * 2017-12-27 2022-04-12 北京京东尚科信息技术有限公司 文本过滤方法、系统、设备及计算机可读存储介质
CN108363694B (zh) * 2018-02-23 2021-08-24 北京窝头网络科技有限公司 关键词提取方法及装置
CN110149266B (zh) * 2018-07-19 2022-06-24 腾讯科技(北京)有限公司 垃圾邮件识别方法及装置
CN110929530B (zh) * 2018-09-17 2023-04-25 阿里巴巴集团控股有限公司 一种多语言垃圾文本的识别方法、装置和计算设备
CN109828957A (zh) * 2019-01-28 2019-05-31 深圳市小满科技有限公司 信息显示方法、装置、电子设备及存储介质
CN110149318B (zh) * 2019-04-26 2022-07-05 奇安信科技集团股份有限公司 邮件元数据的处理方法及装置、存储介质、电子装置
CN110610213A (zh) * 2019-09-20 2019-12-24 苏州大学 一种邮件分类方法、装置、设备及计算机可读存储介质
CN113724037A (zh) * 2021-08-02 2021-11-30 深圳依时货拉拉科技有限公司 非正常订单处理方法、装置、存储介质和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101001244A (zh) * 2006-01-13 2007-07-18 腾讯科技(深圳)有限公司 消除垃圾邮件误判的方法及系统
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101166159A (zh) * 2006-10-18 2008-04-23 阿里巴巴公司 一种确定垃圾信息的方法及系统
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN101594313A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689531B1 (en) * 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101001244A (zh) * 2006-01-13 2007-07-18 腾讯科技(深圳)有限公司 消除垃圾邮件误判的方法及系统
CN101166159A (zh) * 2006-10-18 2008-04-23 阿里巴巴公司 一种确定垃圾信息的方法及系统
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN101594313A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955449A (zh) * 2014-04-21 2014-07-30 安一恒通(北京)科技有限公司 定位目标样本的方法和装置
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN113630302A (zh) * 2020-05-09 2021-11-09 阿里巴巴集团控股有限公司 一种垃圾邮件识别方法及装置、计算机可读存储介质
CN113630302B (zh) * 2020-05-09 2023-07-11 阿里巴巴集团控股有限公司 一种垃圾邮件识别方法及装置、计算机可读存储介质
CN114629873A (zh) * 2020-12-11 2022-06-14 李天明 一种垃圾邮件过滤方法、装置、系统及存储介质
CN115086182A (zh) * 2022-06-20 2022-09-20 深圳市恒扬数据股份有限公司 邮件识别模型的优化方法、装置、电子设备及存储介质
CN115086182B (zh) * 2022-06-20 2024-06-11 深圳市恒扬数据股份有限公司 邮件识别模型的优化方法、装置、电子设备及存储介质
CN117474510A (zh) * 2023-12-25 2024-01-30 彩讯科技股份有限公司 一种基于特征选择的垃圾邮件过滤方法

Also Published As

Publication number Publication date
CN103186845B (zh) 2016-06-08
CN103186845A (zh) 2013-07-03

Similar Documents

Publication Publication Date Title
WO2013097327A1 (zh) 一种垃圾邮件过滤方法
Ning et al. Spam message classification based on the Naïve Bayes classification algorithm
Méndez et al. A comparative performance study of feature selection methods for the anti-spam filtering domain
WO2015032120A1 (zh) 一种基于短文本的垃圾邮件过滤方法及装置
US7930353B2 (en) Trees of classifiers for detecting email spam
CN102158428A (zh) 快速高准确率的垃圾邮件过滤方法
WO2005094238A2 (en) Method and apparatus for analysis of electronic communications containing imagery
CN104866558B (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
CN107294834A (zh) 一种识别垃圾邮件的方法和装置
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN1750030A (zh) 一种过滤垃圾邮件的方法
CN101794378B (zh) 基于图片编码的垃圾图片过滤方法
CN101540017A (zh) 基于字节级n元文法的特征提取方法及垃圾邮件过滤器
Woitaszek et al. Identifying junk electronic mail in Microsoft outlook with a support vector machine
CN101329668A (zh) 一种信息规则生成方法及装置、信息类型判断方法及系统
WO2017094202A1 (ja) 画像処理を応用した文書構造解析装置
Vejendla et al. Score based Support Vector Machine for Spam Mail Detection
Modupe et al. Exploring support vector machines and random forests to detect advanced fee fraud activities on internet
CN109873755A (zh) 一种基于变体词识别技术的垃圾短信分类引擎
Ye et al. A spam discrimination based on mail header feature and SVM
CN103684991A (zh) 基于邮件特征和内容的垃圾邮件过滤方法
Yin et al. An improved bayesian algorithm for filtering spam e-mail
CN115240179A (zh) 一种票据的文本分类方法及系统
Murugavel et al. K-Nearest neighbor classification of E-Mail messages for spam detection
CN113420549A (zh) 异常字符串识别方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12861322

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12861322

Country of ref document: EP

Kind code of ref document: A1