WO2015032124A1 - 一种电子邮件分类方法及其装置 - Google Patents

一种电子邮件分类方法及其装置 Download PDF

Info

Publication number
WO2015032124A1
WO2015032124A1 PCT/CN2013/086175 CN2013086175W WO2015032124A1 WO 2015032124 A1 WO2015032124 A1 WO 2015032124A1 CN 2013086175 W CN2013086175 W CN 2013086175W WO 2015032124 A1 WO2015032124 A1 WO 2015032124A1
Authority
WO
WIPO (PCT)
Prior art keywords
email
similarity
word segmentation
clustering
text
Prior art date
Application number
PCT/CN2013/086175
Other languages
English (en)
French (fr)
Inventor
林延中
潘庆峰
Original Assignee
盈世信息科技(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 盈世信息科技(北京)有限公司 filed Critical 盈世信息科技(北京)有限公司
Publication of WO2015032124A1 publication Critical patent/WO2015032124A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/214Monitoring or handling of messages using selective forwarding

Definitions

  • the present invention relates to the field of network communication technologies, and in particular, to an email classification method and apparatus thereof.
  • the email system will automatically give the email a higher rating; if the email is sent by the sender to the user one-to-one, the email will automatically determine that it has a higher priority than the bulk email; If the message is sent by the sender to the "family" group, the recipient will also determine the message as a home message.
  • the classification standard of the intelligent information system is based on the judgment of the sender information, and the importance of the mail is divided into levels according to the judgment result, and the reading order is judged by the recipient in a short time. give For reference.
  • the object of the present invention is to overcome the deficiencies of the prior art, and the present invention provides an email classification method and apparatus thereof, which can intelligently follow an electronic email without any operation of the user.
  • the content of the email classifies the user's work.
  • the present invention provides an email classification method, the method comprising: performing word segmentation processing on a text in an email and obtaining a word segmentation result;
  • the clustering result is displayed.
  • the step of performing word segmentation processing on the text in the email includes:
  • the Chinese text and the English text are separately processed for word segmentation, and the word segmentation result is obtained.
  • the step of acquiring the similarity between each two emails is specifically: acquiring a coke between the two emails by the cosine of the angle of the product space in the segmentation vector of the two emails Similarity.
  • the step of performing clustering processing on the email according to the similarity and obtaining the clustering result comprises: performing clustering processing on the email by using a K-means algorithm;
  • the email is divided into two clusters according to the similarity, and similar emails are grouped into the same cluster.
  • the step of performing clustering processing on the email according to the similarity and obtaining the clustering result comprises: performing clustering processing on the email by using a K-means algorithm;
  • the email is divided into two clusters according to the similarity, and similar emails are grouped into the same cluster.
  • the present invention further provides an email classification device, the device comprising:
  • a word segmentation module which is used for word segmentation of text in an email and obtains a word segmentation result
  • a sorting module configured to sort the word segmentation result obtained by the word segmentation module by using a TF-IDF technology
  • a similarity obtaining module configured to acquire a similarity between each two emails
  • a clustering module configured to cluster the email according to the similarity acquired by the similarity obtaining module, and obtain a clustering result
  • a display module configured to display the clustering result obtained by the clustering module.
  • the word segmentation module includes:
  • a text preprocessing unit for preprocessing text and extracting Chinese text and/or English text
  • a word segmentation unit configured to perform word segmentation processing on the Chinese text and the English text extracted by the text preprocessing unit, respectively, and obtain a word segmentation result.
  • the similarity obtaining module is further configured to acquire the similarity between two emails by using a cosine of an angle between the product spaces of the segmentation vectors of the two emails.
  • the clustering module comprises:
  • a clustering unit configured to perform clustering processing on the email by using a K-means algorithm
  • a clustering unit configured to divide the email into two clusters according to the similarity, and group similar emails into the same cluster.
  • the device further includes: a mode setting module, configured to acquire the number of emails in any one of the clusters, and set an email mode of similarity corresponding to the cluster according to the number of the emails .
  • a mode setting module configured to acquire the number of emails in any one of the clusters, and set an email mode of similarity corresponding to the cluster according to the number of the emails .
  • Embodiments of the present invention in a case where the user does not want to perform any operation on the email, the email can be intelligently classified according to the content of the email, which can reduce the user's work; and the user intervenes in the classification result. At the same time, priority can be sorted according to the rules set by the user, which improves the operation flexibility and improves the experience and convenience of the email user.
  • FIG. 1 is a schematic flow chart of an email classification method according to an embodiment of the present invention.
  • FIG. 2 is a schematic structural diagram of an electronic mail sorting apparatus according to an embodiment of the present invention.
  • FIG. 1 is a schematic flowchart of an e-mail classification method according to an embodiment of the present invention. As shown in FIG. 1, the method includes:
  • S101 further includes:
  • the Chinese text and the English text are separately segmented and the result of the word segmentation is obtained.
  • an email is first obtained, and the text in the email is preprocessed.
  • HTML Hypertext Markup Language
  • For English text use the traditional word segmentation method (separate each word segment by punctuation and space); for Chinese text, use mechanical arrangement to separate words from the sentence.
  • the method of separation is as follows: For a Chinese sequence L; scan each Chinese character C, and extract the text with a step S of C one by one to form a text combination.
  • the word segmentation obtained in S101 is sorted using the TF-IDF technique. After sorting, the word segmentation results are sorted according to the ability to distinguish from high to low. In the specific implementation, only the top 50% participle (50%) is retained after sorting. For experience values).
  • TF-IDF technology (term frequency - inverse document frequency) is a commonly used weighting technique for information retrieval and information exploration. TF-IDF is a statistical method used to assess the importance of a word for a file set or one of the files in a corpus.
  • obtaining the similarity between each two emails specifically, obtaining the similarity between the two emails by the cosine of the angle of the product space in the segmentation vector of the two emails .
  • the cosine of the 0 degree angle is 1, and the cosine of any other angle is not greater than 1; and the minimum value is -1. It is thus possible to determine whether the two vectors generally point in the same direction by the cosine of the angle between the two vectors.
  • the value of cosine similarity is 1; when the angle between two vectors is 90°, the value of cosine similarity is 0; when the two vectors point to the opposite direction, the value of cosine similarity Is -1.
  • the size of the vector is not considered, only the direction of the vector is considered.
  • Cosine similarity is usually used when the angle between two vectors is less than 90°, so the value of cosine similarity is between 0 and 1.
  • S104 includes:
  • the email is clustered by the K-means algorithm
  • the email is divided into two clusters based on similarity, and similar emails are grouped together in the same cluster.
  • clustering emails are implemented by the K-means algorithm.
  • the K of the K-means algorithm is 2, that is, the email will be divided into two clusters after the clustering (ie, the email will be divided into two types).
  • the computer is actually unable to know the reason for this division, simply by merging similar emails by calculating the similarity between each two emails.
  • cluster A messages that are similar to each other
  • cluster B messages other than cluster A
  • the method further includes: acquiring the number of emails in any one cluster; and setting the cluster according to the quantity Corresponding similarity email mode.
  • cluster centroid points of cluster A are recorded (the newly arrived emails will be determined to belong to cluster A if they are close to the cluster centroid of cluster A). Using cluster B as input to S104, continue to try to get the next email mode.
  • the clustering result is displayed and presented to the user, and the user is arranged to display the optimality of each cluster.
  • First relationship if the user does not select, the email sequence is presented according to the order in which the clusters are found).
  • users have been grouped into emails based on email content. Users only need to take a general look at the groupings that have already been made, so that they can know the grouping reasons and prioritize the emails. Common grouping reasons may be billing emails, subscribed mailing lists, company transaction discussion emails, etc. Users can assign their priority to the classification. If the user does not perform related operations, the email will be presented in the order of cluster discovery. The result will be that the number of emails in the cluster is large, and the cluster email is given priority.
  • the sender address in the cluster may also be extracted, and if most of the emails in the cluster are from one or several senders (the most common is the billing type mail), the automatic reminder may be automatically notified. Whether the user adds a rule to mark the email of one or several senders as the email of this cluster.
  • the method for implementing the embodiment of the present invention can intelligently classify an email according to the content of the email, and can reduce the user's work; When intervening, you can also prioritize according to the rules set by the user, which improves the flexibility of operation; and can help users to add rules that can automatically classify emails as emails with less workload. Users bring great convenience.
  • An embodiment of the present invention further provides an email classification device.
  • the device includes: a word segmentation module 1 configured to perform word segmentation processing on a text in an email and obtain a word segmentation result;
  • the sorting module 2 is configured to sort the word segmentation result obtained by the word segmentation module 1 by using the TF-IDF technology;
  • the similarity obtaining module 3 is configured to acquire the similarity between each two emails;
  • the clustering module 4 is configured to cluster the email according to the similarity acquired by the similarity obtaining module 3 and obtain the clustering result;
  • the display module 5 is configured to display the clustering result obtained by the clustering module 4.
  • the word segmentation module 1 includes:
  • a text preprocessing unit for preprocessing text and extracting Chinese text and/or English text
  • the word segmentation unit is configured to perform word segmentation processing on the Chinese text and the English text extracted by the text preprocessing unit, respectively, and obtain the word segmentation result.
  • the similarity obtaining module 3 is further configured to obtain the similarity between the two emails by the cosine of the angle between the product spaces in the segmentation vectors of the two emails.
  • the clustering module 4 further includes:
  • a clustering unit for dividing an email into two clusters based on similarity, grouping similar emails into the same cluster.
  • the apparatus may further include a mode setting module (not shown) for acquiring any one of the clusters.
  • the number of emails, and the email pattern corresponding to the similarity of the cluster is set according to the number of emails.
  • the device for implementing the embodiment of the present invention can intelligently classify the email according to the content of the email in the case that the user does not want to perform any operation on the email, thereby reducing the user's work; When intervening, you can also prioritize according to the rules set by the user, which improves the flexibility of operation; and can help users to add rules that can automatically classify emails as emails with less workload. Users bring great convenience.
  • Applications of the present invention include, but are not limited to, servers, personal computers (PCs), and mobile terminals, including mobile phones, personal digital assistants (PDAs), and the like.
  • PCs personal computers
  • PDAs personal digital assistants

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种电子邮件分类方法及其装置,其中,该方法包括:对电子邮件中的文本进行分词处理并获得分词结果;使用TF-IDF技术对所述分词结果进行排序处理;获取每两个电子邮件之间的相似性;根据所述相似性对电子邮件进行聚类处理并获得聚类结果;将所述聚类结果进行显示。实施本发明实施例,在用户不希望对电子邮件进行任何操作的情况下,可以智能地根据电子邮件的内容对电子邮件进行分类,可减少用户的工作;在用户对分类结果进行干预时,也可以根据用户自己设定的规则进行优先级排序,提高了操作灵活性,提高了电子邮件用户的体验性及便利性。

Description

一种电子邮件分类方法及其装置 技术领域
[0001] 本发明涉及网络通信技术领域, 特别是涉及一种电子邮件分类方法及其装置。
背景技术
[0002] 随着移动终端技术的不断发展, 手机、 掌上电脑、 平板、 笔记本等各种移动设备已经 成为人们工作、 生活中必不可缺的一部分, 而电子邮件是人们办公、 通信最常用的功能之一。 特别是对于商务人士, 每天因为工作都可能产生几百个电子邮件, 长时间使用电子邮件功能 后, 如何在大量的邮件中方便、 有效地找到一条特定电子邮件, 尤其是和当前环境相关的邮 件, 成了一大问题。
[0003] 对于商务人士而言, 如何面对邮箱里每天繁杂的电子邮件是一个令人头疼的问题。 为 了满足顾客的需求, 许多电子邮件服务商都提供了自定义邮件分类服务。 用户通过设置个性 化收件规则, 可将来自特定发件人、特定域名或是邮件中带有特定词汇的电子邮件分为一类, 方便阅读和管理。
[0004] 现有方案中, 对于电子邮件一般仅保存内容、 收信人或发信人、 时间等信息, 比如简 单地按时间、 主题等排序显示, 或者简单地按联系人分类排序显示, 或者简单的提供搜索功 能, 让用户按联系人或者电子邮件内容来查找。 上述方式只是简单把用户的邮件列出来, 对 电子邮件的区分度较低, 当用户想要查看某一个邮件时, 一般用户很难记得其中的详细信息, 只能根据电子邮件的时间或联系人或者邮件的部分内容去手动查找, 对于存储了大量电子邮 件。
[0005] 然而, 以上功能存在一定的局限性。首先, 使用该功能需要用户进行多步骤的预设置; 其次, 即使邮件已经进行了分类, 用户依旧不能立马从海量的未读邮件中判断出哪些是最需 要优先处理的; 最后, 该功能基本对手机用户不适用。 现有技术中存在一种根据邮件发件人 的重要性进行分级的方案, 会依照发件人的地址对邮件进行优先级评级, 也会通过发件人填 写的收件人信息来判断邮件的重要程度。 如果该邮件来自 work@boss.com, 邮箱系统将自动 给予该邮件较高评级; 如果该邮件是发件人对用户一对一发送的, 邮箱会自动判定它的优先 级比群发邮件更高; 如果该邮件由发件人群发至 "家人"分组, 则收件方也会把这邮件判定 为家庭邮件。 与传统的邮箱系统不同, 这套智能信息系统的分类标准建立在对发件人信息的 判断, 并且依据判断结果把邮件的重要性分为各等级, 为收件人在短时间内判断阅读顺序给 予参考。
[0006] 在现有技术中, 在使用 "智能"分类功能之前, 必须首先整理好联系人列表, 并标记 联系人属于哪个分组, 否则该分类系统也无法获知哪个联系人是 "老板", 哪个联系人是 "家 人";现有技术主要是基于发信人或者收信人进行排序,但是没有考虑邮件内容。一般情况下, 老板和家人的邮件优先级高是正确的, 但是除了这些明显的分类之外, 其他联系人的分类等 级相对模糊。 比如同样是同事, 有时候是本部门同事应该优先, 有时候是外部门同事优先, 更复杂的情况是外部门的经理比本部门的一般职别同事优先。 这些复杂的关系每个人都可能 有不同的定义, 而且最终的逻辑可能会非常复杂, 很难定义清楚。
发明内容
[0007] 本发明的目的在于克服现有技术的不足, 本发明提供了一种电子邮件分类方法及其装 置, 在用户不希望对电子邮件进行任何操作的情况下, 可以智能地根据电子电子邮件的内容 对电子邮件进行分类, 可减少用户的工作。
[0008] 为了解决上述问题, 本发明提出了一种电子邮件分类方法, 所述方法包括: 对电子邮件中的文本进行分词处理并获得分词结果;
使用 TF-IDF技术对所述分词结果进行排序处理;
获取每两个电子邮件之间的相似性;
根据所述相似性对电子邮件进行聚类处理并获得聚类结果;
将所述聚类结果进行显示。
[0009] 优选地, 所述对电子邮件中的文本进行分词处理的步骤包括:
对文本进行预处理并抽取出中文文本和 /或英文文本;
分别对所述中文文本和英文文本进行分词处理, 并获得分词结果。
[0010] 优选地, 所述获取每两个电子邮件之间的相似性的步骤具体为: 通过两个电子邮件的 分词向量内积空间的夹角的余弦值来获取两个电子邮件之间的相似性。
[0011] 优选地, 所述根据所述相似性对电子邮件进行聚类处理并获得聚类结果的步骤包括: 通过 K-means算法对所述电子邮件进行聚类处理;
根据所述相似性将所述电子邮件分成两个簇, 把相似的电子邮件归在同一簇中。
[0012] 优选地, 所述根据所述相似性对电子邮件进行聚类处理并获得聚类结果的步骤包括: 通过 K-means算法对所述电子邮件进行聚类处理;
根据所述相似性将所述电子邮件分成两个簇, 把相似的电子邮件归在同一簇中。
[0013] 相应地, 本发明还提供一种电子邮件分类装置, 所述装置包括:
分词模块, 用于对电子邮件中的文本进行分词处理并获得分词结果; 排序模块, 用于使用 TF-IDF技术对所述分词模块所获得的分词结果进行排序处理; 相似性获取模块, 用于获取每两个电子邮件之间的相似性;
聚类模块, 用于根据所述相似性获取模块所获取的相似性对电子邮件进行聚类处理并获得聚 类结果;
显示模块, 用于将所述聚类模块所获得的聚类结果进行显示。
[0014] 优选地, 所述分词模块包括:
文本预处理单元, 用于对文本进行预处理并抽取出中文文本和 /或英文文本;
分词单元, 用于分别对所述文本预处理单元所抽取的中文文本和英文文本进行分词处理, 并 获得分词结果。
[0015] 优选地, 所述相似性获取模块还用于通过两个电子邮件的分词向量内积空间的夹角的 余弦值来获取两个电子邮件之间的相似性。
[0016] 优选地, 所述聚类模块包括:
聚类单元, 用于通过 K-means算法对所述电子邮件进行聚类处理;
分簇单元, 用于根据所述相似性将所述电子邮件分成两个簇, 把相似的电子邮件归在同一簇 中。
[0017] 优选地, 所述装置还包括: 模式设定模块, 用于获取任意一个簇中的电子邮件的数量, 并根据所述电子邮件的数量设定该簇对应的相似性的电子邮件模式。
[0018] 实施本发明实施例, 在用户不希望对电子邮件进行任何操作的情况下, 可以智能地根 据电子邮件的内容对电子邮件进行分类, 可减少用户的工作; 在用户对分类结果进行干预时, 也可以根据用户自己设定的规则进行优先级排序, 提高了操作灵活性, 提高了电子邮件用户 的体验性及便利性。
附图说明
[0019] 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的 一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下, 还可以根据 这些附图获得其他的附图。
[0020] 图 1是本发明实施例的电子邮件分类方法的流程示意图;
图 2是本发明实施例的电子邮件分类装置的结构组成示意图。
具体实施方式
[0021] 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地 描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于本发 明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
[0022] 图 1是本发明实施例的电子邮件分类方法的流程示意图, 如图 1所示, 该方法包括:
5101 , 对电子邮件中的文本进行分词处理并获得分词结果;
5102, 使用 TF-IDF技术对分词结果进行排序处理;
5103, 获取每两个电子邮件之间的相似性;
5104, 根据相似性对电子邮件进行聚类处理并获得聚类结果;
5105, 将聚类结果进行显示。
[0023] 其中, S101进一步包括:
对文本进行预处理并抽取出中文文本和 /或英文文本;
分别对中文文本和英文文本进行分词处理, 并获得分词结果。
[0024] 具体实施中, 首先获取电子邮件, 并对电子邮件中的文本进行预处理。 对于超文本标 记语言 (Hypertext Markup Language, HTML) 文档, 将其中的 HTML标记 (tag) 提取出来 单独处理; 针对剩余的信息, 将中文字符和英文字符分离出来, 转换成只有英文字符的文本 和只有中文字符的文本。 对于英文文本, 使用传统的分词方式 (以标点符号和空格分隔各个 分词); 对于中文文本, 则使用机械的排列组合方式从句子中分离出词语。 分离的方法如下: 对于一个中文序列 L; 扫描其中的每一个中文文字 C, 并将 C后面步长为 S的文字逐个提取 出来, 组成文字组合。 比如句子: 我是中国人, 假定扫描步长为 3, 分词最大长度为 3 的, 则可能的分词为: 我、 我是、 我是中、 是、 是中、 是中国、 中、 中国、 中国人、 国、 国人、 人。
[0025] 使用此分词方式的好处是无需中文词典, 由于中文的特性, 使用此办法分词肯定可以 覆盖到绝大部分的中文词语。 另外可以处理带有干扰信息的文本, 比如: 我 a是 a中 &国 & 人的。
[0026] 使用此分词的劣势是分词的结果有很多对人来说是没有意义的词组, 但是后续通过 S102的处理, 会将这些分词按照区分能力进行排序, 区分能力低的词语会排到较后的位置。 另外一些对于用户来说没有意义的词语, 实际上是对文本分类有较大作用的。 比如 "芙王" 这个词语, 经过处理之后, 可以发现这个词语是垃圾邮件中一个有较大区分作用的分词, 经 验证, 发现这个词语来源于销售假烟 "芙蓉王" 的垃圾邮件样本, 而 "芙蓉"这个词语可能 会在其他正常邮件中经常出现,所以 "芙蓉"这个词语对于垃圾邮件的区分作用不如 "芙王"。
[0027] 在 S102中, 使用 TF-IDF技术对 S101中所获得的分词进行排序处理。 经排序后, 分 词结果会按照区分能力从高到低排序。具体实施中,排序后只保留排名靠前的 50%分词 (50% 为经验值 )。 TF-IDF技术 (term frequency - inverse document frequency) 是——禾中用于资讯检索 与资讯探勘的常用加权技术。 TF-IDF是一种统计方法, 用以评估一个字词对于一个文件集或 一个语料库中的其中一份文件的重要程度。
[0028] 在 S103 中, 获取每两个电子邮件之间的相似性, 具体是, 通过两个电子邮件的分词 向量内积空间的夹角的余弦值来获取两个电子邮件之间的相似性。 在实施过程中, 0 度角的 余弦值是 1, 而其他任何角度的余弦值都不大于 1 ; 并且其最小值是 -1。 从而可以通过两个向 量之间的角度的余弦值确定两个向量是否大致指向相同的方向。 两个向量有相同的指向时, 余弦相似度的值为 1 ; 两个向量夹角为 90° 时, 余弦相似度的值为 0; 两个向量指向完全相 反的方向时, 余弦相似度的值为 -1。 在比较过程中, 向量的规模大小不予考虑, 仅仅考虑到 向量的指向方向。 余弦相似度通常用于两个向量的夹角小于 90° 之内, 因此余弦相似度的值 为 0到 1之间。
[0029] 进一步地, S104包括:
通过 K-means算法对电子邮件进行聚类处理;
根据相似性将电子邮件分成两个簇, 把相似的电子邮件归在同一簇中。
[0030] 而在根据相似性对电子邮件进行聚类处理并获得聚类结果过程中, 聚类电子邮件通过 K-means算法实现。 在具体实施中, K-means算法的 k为 2, 也就是聚类后电子邮件将会被分 成两个簇(即电子邮件将会被划分成两种类型)。假定两个簇分别是 A和 B, 实际上计算机并 无法知道这么划分的原因, 单纯是通过计算每两个电子邮件之间的相似性, 把相似的电子邮 件归并在一起。 由此, 可以获得簇 A (互相之间比较相似的邮件) 和簇 B (除了簇 A之外的 邮件)。
[0031] 在根据相似性将电子邮件分成两个簇, 把相似的电子邮件归在同一簇中的步骤之后, 还包括: 获取任意一个簇中的电子邮件的数量; 并根据数量设定该簇对应的相似性的电子邮 件模式。
[0032] 假如在 S104过程中获得簇 A的电子邮件数量大于电子邮件总数的 20% (20%是经验 值, g卩 A/(A+B)>0.2), 则可以认为分离出了一类比较相似的电子邮件模式, 将簇 A的聚类质 心点记录下来 (以后新到达的电子邮件如果靠近簇 A的聚类质心点的, 将判定其属于簇 A)。 将簇 B作为 S104的输入, 继续尝试获取下一个电子邮件模式。
[0033] 如果在 S104 过程中获得簇 A 的电子邮件数量小于等于电子邮件总数的 20% (即 A/(A+B)<=0.2), 则可以认为剩下的电子邮件互相之间没有明显的不同, 则无法再获取新的电 子邮件模式。
[0034] 在 S105 中, 将聚类结果进行显示, 呈现给用户, 由用户自行排列每个聚类的呈现优 先关系 (如果用户不选择的, 则按照找到聚类的先后关系呈现电子邮件顺序)。 在这里, 已经 帮用户基于电子邮件内容对电子邮件进行分组, 用户只需要大致看一下已经做好的分组, 便 可获知这批电子邮件的分组原因以及安排优先级。 常见的分组原因可能是账单邮件、 订阅的 邮件列表、 公司事务讨论邮件等, 用户可对分类分配其显示的优先级即可。 如果用户不进行 相关操作, 则会使用聚类发现的先后顺序呈现电子邮件, 结果将是聚类中电子邮件数量较多 的, 其聚类电子邮件优先呈现。
[0035] 具体实施中, 还可以提取聚类中的发信人地址, 如果聚类中的大部分电子邮件都是来 自一个或者几个发信人(最常见的就是账单类邮件),则可以自动提醒用户是否添加一个规则, 将这一个或者几个发信人的电子邮件都标记为这个聚类的电子邮件。
[0036] 实施本发明实施例的方法, 在用户不希望对电子邮件进行任何操作的情况下, 可以智 能地根据电子邮件的内容对电子邮件进行分类, 可减少用户的工作; 在用户对分类结果进行 干预时, 也可以根据用户自己设定的规则进行优先级排序, 提高了操作灵活性; 并可以协助 用户在较少工作量的情况下, 添加可将电子邮件自动分类的规则, 为电子邮件的用户带来极 大的便利。
[0037] 本发明实施例还提供了一种电子邮件分类装置, 如图 2所示, 该装置包括: 分词模块 1, 用于对电子邮件中的文本进行分词处理并获得分词结果;
排序模块 2, 用于使用 TF-IDF技术对分词模块 1所获得的分词结果进行排序处理; 相似性获取模块 3, 用于获取每两个电子邮件之间的相似性;
聚类模块 4, 用于根据相似性获取模块 3所获取的相似性对电子邮件进行聚类处理并获得聚 类结果;
显示模块 5, 用于将聚类模块 4所获得的聚类结果进行显示。
[0038] 进一步地, 分词模块 1包括:
文本预处理单元, 用于对文本进行预处理并抽取出中文文本和 /或英文文本;
分词单元, 用于分别对文本预处理单元所抽取的中文文本和英文文本进行分词处理, 并获得 分词结果。
[0039] 而相似性获取模块 3还用于通过两个电子邮件的分词向量内积空间的夹角的余弦值来 获取两个电子邮件之间的相似性。
[0040] 聚类模块 4则进一步包括:
聚类单元, 用于通过 K-means算法对电子邮件进行聚类处理;
分簇单元, 用于根据相似性将电子邮件分成两个簇, 把相似的电子邮件归在同一簇中。
[0041] 具体实施中, 该装置还可以包括模式设定模块(图中未示出), 用于获取任意一个簇中 的电子邮件的数量, 并根据电子邮件的数量设定该簇对应的相似性的电子邮件模式。
[0042] 本发明实施例中的电子邮件分类装置的模块功能原理可参见本发明的电子邮件分类方 法的实现过程及原理的描述, 这里不再赘述。
[0043] 实施本发明实施例的装置, 在用户不希望对电子邮件进行任何操作的情况下, 可以智 能地根据电子邮件的内容对电子邮件进行分类, 可减少用户的工作; 在用户对分类结果进行 干预时, 也可以根据用户自己设定的规则进行优先级排序, 提高了操作灵活性; 并可以协助 用户在较少工作量的情况下, 添加可将电子邮件自动分类的规则, 为电子邮件的用户带来极 大的便利。
[0044] 本发明的应用包括但不限于服务器、 个人计算机 (Personal Computer, PC) 以及移动 终端, 包括手机、 个人数字助理 (Personal Digital Assistant, PDA) 等。
[0045] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过 程序来指令相关的硬件来完成, 该程序可以存储于一计算机可读存储介质中, 存储介质可以 包括: 只读存储器 (ROM, Read Only Memory )、 随机存取存储器 (RAM, Random Access Memory )、 磁盘或光盘等。
[0046] 另外, 以上对本发明实施例所提供的基于短信的移动互联网搜索系统及实现方法进行 了详细介绍, 本文中应用了具体个例对本发明的原理及实施方式进行了阐述, 以上实施例的 说明只是用于帮助理解本发明的方法及其核心思想; 同时, 对于本领域的一般技术人员, 依 据本发明的思想, 在具体实施方式及应用范围上均会有改变之处, 综上所述, 本说明书内容 不应理解为对本发明的限制。

Claims

权 利 要 求
1. 一种电子邮件分类方法, 其特征在于, 所述方法包括:
对电子邮件中的文本进行分词处理并获得分词结果;
使用 TF-IDF技术对所述分词结果进行排序处理;
获取每两个电子邮件之间的相似性;
根据所述相似性对电子邮件进行聚类处理并获得聚类结果;
将所述聚类结果进行显示。
2. 如权利要求 1所述的电子邮件分类方法, 其特征在于, 所述对电子邮件中的文本进行分词处理 的步骤包括:
对文本进行预处理并抽取出中文文本和 /或英文文本;
分别对所述中文文本和英文文本进行分词处理, 并获得分词结果。
3. 如权利要求 1所述的电子邮件分类方法, 其特征在于, 所述获取每两个电子邮件之间的相似性 的步骤具体为:通过两个电子邮件的分词向量内积空间的夹角的余弦值来获取两个电子邮件之间的 相似性。
4. 如权利要求 1所述的电子邮件分类方法, 其特征在于, 所述根据所述相似性对电子邮件进行聚 类处理并获得聚类结果的步骤包括:
通过 K-means算法对所述电子邮件进行聚类处理;
根据所述相似性将所述电子邮件分成两个簇, 把相似的电子邮件归在同一簇中。
5. 如权利要求 4所述的电子邮件分类方法, 其特征在于, 在所述根据所述相似性将所述电子邮件 分成两个簇, 把相似的电子邮件归在同一簇中的步骤之后, 还包括:
获取任意一个簇中的电子邮件的数量;
根据所述数量设定该簇对应的相似性的电子邮件模式。
6. 一种电子邮件分类装置, 其特征在于, 所述装置包括:
分词模块, 用于对电子邮件中的文本进行分词处理并获得分词结果;
排序模块, 用于使用 TF-IDF技术对所述分词模块所获得的分词结果进行排序处理;
相似性获取模块, 用于获取每两个电子邮件之间的相似性;
聚类模块, 用于根据所述相似性获取模块所获取的相似性对电子邮件进行聚类处理并获得聚类结 果;
显示模块, 用于将所述聚类模块所获得的聚类结果进行显示。
7. 如权利要求 6所述的电子邮件分类装置, 其特征在于, 所述分词模块包括: 文本预处理单元, 用于对文本进行预处理并抽取出中文文本和 /或英文文本;
分词单元,用于分别对所述文本预处理单元所抽取的中文文本和英文文本进行分词处理,并获得分 词结果。
8. 如权利要求 6所述的电子邮件分类装置, 其特征在于, 所述相似性获取模块还用于通过两个电 子邮件的分词向量内积空间的夹角的余弦值来获取两个电子邮件之间的相似性。
9. 如权利要求 6所述的电子邮件分类装置, 其特征在于, 所述聚类模块包括:
聚类单元, 用于通过 K-means算法对所述电子邮件进行聚类处理;
分簇单元, 用于根据所述相似性将所述电子邮件分成两个簇, 把相似的电子邮件归在同一簇中。
10. 如权利要求 6所述的电子邮件分类装置, 其特征在于, 所述装置还包括: 模式设定模块, 用于 获取任意一个簇中的电子邮件的数量,并根据所述电子邮件的数量设定该簇对应的相似性的电子邮 件模式。
PCT/CN2013/086175 2013-09-04 2013-10-29 一种电子邮件分类方法及其装置 WO2015032124A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310396635.3A CN103473218B (zh) 2013-09-04 2013-09-04 一种电子邮件分类方法及其装置
CN201310396635.3 2013-09-04

Publications (1)

Publication Number Publication Date
WO2015032124A1 true WO2015032124A1 (zh) 2015-03-12

Family

ID=49798077

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/086175 WO2015032124A1 (zh) 2013-09-04 2013-10-29 一种电子邮件分类方法及其装置

Country Status (2)

Country Link
CN (1) CN103473218B (zh)
WO (1) WO2015032124A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3281144A4 (en) * 2015-04-10 2018-09-05 Phishme, Inc. Message report processing and threat prioritization
US10298602B2 (en) 2015-04-10 2019-05-21 Cofense Inc. Suspicious message processing and incident response

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902673B (zh) * 2014-03-19 2017-11-24 新浪网技术(中国)有限公司 反垃圾过滤规则升级方法和装置
CN104182539B (zh) * 2014-09-02 2018-02-23 五八同城信息技术有限公司 异常信息批量处理的方法及系统
CN105512277B (zh) * 2015-12-04 2019-09-20 北京航空航天大学 一种面向图书市场书名的短文本聚类方法
CN105959202A (zh) * 2016-04-19 2016-09-21 乐视控股(北京)有限公司 重要邮件识别方法及装置
CN107528763A (zh) * 2016-06-22 2017-12-29 北京易讯通信息技术股份有限公司 一种基于Spark与YARN的邮件内容分析方法
WO2018014319A1 (zh) * 2016-07-22 2018-01-25 王晓光 网络邮件数据的分类存储方法及系统
CN108234434B (zh) * 2016-12-22 2020-12-29 上海行邑信息科技有限公司 一种基于email地址识别的侦测方法
US10911382B2 (en) 2017-01-30 2021-02-02 Futurewei Technologies, Inc. Personalized message priority classification
CN107800616B (zh) * 2017-10-31 2020-04-10 网易(杭州)网络有限公司 一种邮件列表显示方法、介质、装置和计算设备
CN111222851B (zh) * 2019-12-31 2024-02-06 论客科技(广州)有限公司 一种邮件分类方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101594313A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2540034A1 (en) * 2003-09-30 2005-05-06 British Telecommunications Public Limited Company Information retrieval
CN102214320A (zh) * 2010-04-12 2011-10-12 宋威 神经网络训练方法及采用该方法的垃圾邮件过滤方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101594313A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3281144A4 (en) * 2015-04-10 2018-09-05 Phishme, Inc. Message report processing and threat prioritization
US10298602B2 (en) 2015-04-10 2019-05-21 Cofense Inc. Suspicious message processing and incident response
US10375093B1 (en) 2015-04-10 2019-08-06 Cofense Inc Suspicious message report processing and threat response

Also Published As

Publication number Publication date
CN103473218B (zh) 2016-08-17
CN103473218A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
WO2015032124A1 (zh) 一种电子邮件分类方法及其装置
JP5759228B2 (ja) 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法
US10387559B1 (en) Template-based identification of user interest
US7765212B2 (en) Automatic organization of documents through email clustering
US8762375B2 (en) Method for calculating entity similarities
Kestemont et al. Cross-genre authorship verification using unmasking
US11010547B2 (en) Generating and applying outgoing communication templates
US20150186455A1 (en) Systems and methods for automatic electronic message annotation
CN112818111B (zh) 文档推荐方法、装置、电子设备和介质
CN114818705A (zh) 处理数据的方法、电子设备和计算机程序产品
US11036976B2 (en) Methods and systems of handwriting recognition in virtualized-mail services
Patidar et al. A novel technique of email classification for spam detection
CN106294292B (zh) 章节目录筛选方法及装置
CN113746814B (zh) 邮件处理方法、装置、电子设备及存储介质
Mehmood et al. Contributions to the study of bi-lingual roman urdu sms spam filtering
CN110765771B (zh) 用于确定广告语句的方法及装置
CN113595884A (zh) 一种消息提醒方法及应用端
CN111046163A (zh) 未读消息的处理方法、装置、存储介质及设备
Suleiman et al. Deep SMS Spam Detection using H2O Platform
US10176248B2 (en) Performing a dynamic search of electronically stored records based on a search term format
Cernian et al. The design and validation of an automatic email clustering system based on semantics
Sethi et al. Intelligent mail box
Zhao et al. Statistical-Based Bayesian Algorithm for Effective Email Classification
Banday et al. Realization of Microsoft Outlook® Add-In for Language Based E-Mail Folder Classification
CN112825078A (zh) 一种信息处理方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13893025

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13893025

Country of ref document: EP

Kind code of ref document: A1