WO2021027086A1

WO2021027086A1 - 文本聚类的方法、设备和存储介质

Info

Publication number: WO2021027086A1
Application number: PCT/CN2019/115118
Authority: WO
Inventors: 龚朝辉; 陈汝龙; 陈誉; 段成阁
Original assignee: 苏州朗动网络科技有限公司
Priority date: 2019-08-15
Filing date: 2019-11-01
Publication date: 2021-02-18
Also published as: CN110532388B; CN110532388A

Abstract

一种文本聚类的方法、设备和存储介质，所述方法包括：获取待聚类的文本标题列表（S11）；以所述文本标题为顶点，以所述文本标题向量化后的距离为边，构建所述文本标题之间的初始连通图（S12）；移除所述初始连通图的大于初始距离阈值的边，得到一个或者多个子连通图（S13）；计算每个所述子连通图的聚集程度，若一个所述子连通图的聚集程度大于或等于分簇阈值，所述子连通图对应的文本集合即为一个文本簇（S14）。所述方法能够对文本进行快速、稳定地聚类，同样的文本数据每次聚类的结果是一致的。

Description

文本聚类的方法、设备和存储介质

技术领域

本发明涉及信息处理技术，尤其涉及一种文本聚类的方法、设备和存储介质。

背景技术

文本是信息的主要载体，随着互联网的发展，浏览网络上及时发布的新闻文本成为人们获取信息的重要手段，当前网络上的新闻文本信息数量巨大，为了使人们能够快速、方便地导航和浏览新闻，需要对新闻文本使用文本聚类技术进行聚类。文本聚类技术能够将文本集自动划分成多个簇，使得处于同一个簇中的文本具有一定的相似性，不同簇中的文本之间的相似性尽可能低。目前常用的聚类方法有Kmeans，层次聚类，Single pass算法等。

但是Single pass算法具有输入次序依赖特性，即对于同一聚类对象按不同的次序输入，会出现不同的聚类结果。其他聚类算法，如Kmeans需要指定类别的数量，层次聚类算法也存在层次选取的问题，对于指定类别的数量不同或者选取的层次不同，都会造成聚类结果的不一致。

发明内容

本发明的目的在于提供一种文本聚类的方法、设备和存储介质。

为实现上述发明目的之一，本发明一实施方式提供一种文本聚类的方法，所述方法包括：

获取待聚类的文本标题列表；

以所述文本标题为顶点，以所述文本标题向量化后的距离为边，构建所述文本标题之间的初始连通图；

移除所述初始连通图的大于初始距离阈值的边，得到一个或者多个子连通图；

计算每个所述子连通图的聚集程度，若一个所述子连通图的聚集程度大于或等于分簇阈值，所述子连通图对应的文本集合即为一个文本簇。

作为本发明一实施方式的进一步改进，所述方法还包括：

S21、若一个所述子连通图的聚集程度小于分簇阈值，获取所述子连通图的当前距离阈值，移除所述子连通图的大于当前距离阈值的边，得到一个或者多个子连通图；

S22、计算每个所述子连通图的聚集程度，重复步骤S21～S22，直至所有的子连通图的聚集程度都大于或者等于分簇阈值，每个大于或者等于分簇阈值的子连通图对应的文本集合即为一个文本簇。

作为本发明一实施方式的进一步改进，所述子连通图的聚集程度是指所述子连通图的群聚系数与最大图直径的比值。

作为本发明一实施方式的进一步改进，所述“所述文本标题向量化后的距离”的获取方法包括：

通过对所述文本标题列表中的文本标题进行主题训练得到主题模型；

利用所述主题模型将每条所述文本标题向量化，得到文本标题向量；

计算两两所述文本标题向量之间的相似度；

计算两两文本标题向量之间的距离。

作为本发明一实施方式的进一步改进，所述方法还包括：

将所述文本簇对应的子连通图中度最高的顶点所代表的文本作为所述文本簇的代表文本，提取所述文本簇的关键词作为所述文本簇的内容。

作为本发明一实施方式的进一步改进，所述方法还包括：

所述文本为新闻，所述文本簇为新闻簇，将所述新闻簇中的新闻按照发布时间从新到旧排序，计算相邻新闻之间的时间间隔，将所有时间间隔的倒数的和作为此新闻簇的热度，将所述热度大于热度阈值的新闻簇定义为热点新闻。

获取待聚类的文本标题列表；

计算所述初始连通图的聚集程度，若所述初始连通图的聚集程度大于或者等于分簇阈值，所述初始连通图对应的文本集合即为一个文本簇。

作为本发明一实施方式的进一步改进，若所述初始连通图的聚集程度小于分簇阈值，移除所述初始连通图的大于初始距离阈值的边，得到一个或者多个子连通图；

计算每个所述子连通图的聚集程度，若一个所述子连通图的聚集程度大于或者等于分簇阈值，所述子连通图对应的文本集合即为一个文本簇。

作为本发明一实施方式的进一步改进，所述方法还包括：

S41、若一个所述子连通图的聚集程度小于分簇阈值，获取所述子连通图的当前距离阈值，移除所述子连通图的大于当前距离阈值的边，得到一个或者多个子连通图；

S42、计算每个所述子连通图的聚集程度，重复步骤S41～S42，直至所有的子连通图的聚集程度都大于或者等于分簇阈值，每个大于或者等于分簇阈值的子连通图对应的文本集合即为一个文本簇。

作为本发明一实施方式的进一步改进，所述初始连通图的聚集程度是指所述初始连通图的群聚系数与最大图直径的比值。

计算两两所述文本标题向量之间的相似度；

计算两两文本标题向量之间的距离。

作为本发明一实施方式的进一步改进，所述方法还包括：

为实现上述发明目的之一，本发明一实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述任一文本聚类的方法中的步骤。

为实现上述发明目的之一，本发明一实施方式提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一文本聚类的方法中的步骤。

与现有技术相比，本发明能够对文本进行快速、稳定地聚类，同样的文本数据每次聚类的结果是一致的。同时，使用此方法对企业相关的新闻进行聚类，能够快速的实现对企业热点新闻的稳定提取，对于企业相关的新闻热点提取有较好的效果。

附图说明

图1是本发明第一实施方式中文本聚类的方法的流程示意图；

图2是连通图的一个举例；

图3是图2经过移边后得到的子连通图；

图4是本发明第二实施方式中文本聚类的方法的流程示意图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

如图1所示，本发明第一实施方式中文本聚类的方法的流程示意图，本实施方式通过将文本之间的关系用连通图进行表示，然后对连通图进行拆解得到不同的子连通图，从而将文本进行分簇。所述方法包括：

步骤S11：获取待聚类的文本标题列表。

所述文本标题列表可以是与具体某个企业相关的新闻标题列表，也可以是其它类型的文本标题列表。每条文本标题代表一个文本。

步骤S12：以所述文本标题为顶点，以所述文本标题向量化后的距离为边，构建所述文本标题之间的初始连通图。

本步骤将文本之间的关系用连通图进行表示，在一个优选实施方式中，所述步骤包括：

步骤S121：通过对所述列表中的文本标题进行主题训练得到主题模型：可以使用TF-IDF，word2vec，LSI，LDA等向量化的方法，对列表中文本标题进行主题训练得到主题模型。

步骤S122：利用所述主题模型将每条所述文本标题向量化，得到文本标题向量：利用此主题模型得到每条文本标题的主题向量表示，即将每条文本标题向量化，得到文本标题向量。

步骤S123：计算两两所述文本标题向量之间的相似度：利用余弦距离、Jaccard系数和欧式距离等方式计算两个文本标题向量之间的距离，以余弦距离为例，先计算两个文本标题向量之间的余弦相似度，即两个向量的余弦值，余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越接近；越趋近于-1，他们的方向越相反；接近于0，表示两个向量近乎于正交。

步骤S124：计算两两文本标题向量之间的距离：继续以余弦距离为例，余弦距离＝1-余弦相似度，取值范围为[0,2]，距离越小，代表两个文本标题向量的方向越接近，即两个文本标题越相似。

步骤S125：构建初始连通图：以所述文本标题为顶点(顶点代表一条文本标题，文本标题代表一个文本，因此一个顶点代表一个文本)，以所述文本标题向量化后的距离为边，构建所述文本标题之间的初始连通图，连通图(本文中连通图包括此处的初始连通图和后续的子连通图)的特点是图的每两个顶点之间有路径连接，具体的连通图可以参考图2。本发明优选此处构建的初始连通图为完全连通图，即任意两个顶点之间都有一个边相连,也就是顶点两两相连。

步骤S13：移除所述初始连通图的大于初始距离阈值的边，得到一个或者多个子连通图。

连通图的边的长度为顶点之间的相似度，长度越长相似度越低，长度越短相似度越高。聚类的过程就是要将相似度低的边移除，优选初始距离阈值为0.4。移除所述初始连通图的大于初始距离阈值的边，得到一个或者多个子连通图(请参考图3，图2中的连通图经过移边后得到两个子连通图)。

步骤S14：计算每个所述子连通图的聚集程度，若一个所述子连通图的聚集程度大于或等于分簇阈值，所述子连通图对应的文本集合即为一个文本簇。

计算子连通图的聚集程度，如果子连通图的聚集程度比较高，即大于或等于分簇阈值，表示子连通图对应的文本集合的相似度高，所述文本集合即为一个文本簇。

优选的，连通图的聚集程度是指连通图的群聚系数与最大图直径的比值。群聚系数是衡量图的聚集程度的指标，最大图直径也叫树的直径，是图中连通的最长路径。群聚系数的值越大说明图结合越紧密，最大图直径越大说明相对越松散，两者的比值可以更好的衡量图的聚集程度，比值越大说明图聚集的越好。聚集程度的阈值为分簇阈值，默认分簇阈值为0.09，即连通图的群聚系数与最大图直径的比值大于或者等于分簇阈值时，连通图的聚集程度符合要求，一个连通图对应的文本集合相似度达到分簇的标准，可以分为一个文本簇。

在本实施方式中，执行所述文本聚类的方法，通过图解的方法实现聚类，能够对文本进行快速、稳定地聚类，同样的文本数据每次聚类的结果是一致的，且聚类的结果清晰明了。

优选的，所述方法还包括：

当初始连通图通过移边(移边即移除不符合要求的边)，得到一个或者多个第一级的子连通图后，如果某些子连通图的聚集程度小于分簇阈值，即所述子连通图对应的文本集合相似度达不到分簇的标准，还需要对所述子连通图进行进一步拆解。拆解的方法也是通过移边来实现的。由于此时的子连通图的边都是小于初始距离阈值的，因此需要对初始距离阈值进行递减(默认是等量递减，默认每次递减0.05)，即对于初始连通图移边后得到的第一级的子连通图，其当前距离阈值为上一级距离阈值(初始距离阈值)减去默认值(即0.4-0.05＝0.35)。对于第一级聚集程度小于分簇阈值的子连通图，经过移除大于当前距离阈值的边后，得到第二级子连通图，计算第二级子连通图的聚集程度，如果某些第二级子连通图的聚集程度小于分簇阈值，计算第二级子连通图的当前距离阈值，当前距离阈值＝上一级距离阈值-默认值(0.35-0.05＝0.3)，然后移除第二级子连通图的大于当前距离阈值的边，得到第三级子连通图，计算第三级子连通图的聚集程度，判读是否需要移边。如此循环，直至所有的子连通图的聚集程度都大于或者等于分簇阈值，每个大于或者等于分簇阈值的子连通图对应的文本集合即为一个文本簇。

最终，将待聚类的文本标题列表所代表的文本标题集合，分成多个文本簇。

优选的，所述方法还包括：

连通图的顶点的度是指顶点所连接的边的数目，“子连通图中度最高的顶点”是指子连通图中连接的边最多的顶点。将度最高的顶点所代表的文本作为所述文本簇的代表文本，提取所述文本簇的关键词作为所述文本簇的内容，通过代表文本和文本簇的内容，可以很快的了解这个文本簇的大概情况。

优选的，所述方法还包括：

由于新闻的热度与新闻爆发的集中程度有关，因此将所有时间间隔的倒数的和作为此新闻簇的热度，将所述热度大于热度阈值的新闻簇定义为热点新闻。

下面通过具体的实施例对本实施方式进行进一步的解释与说明。

获取到的待聚类的文本(新闻)标题列表如下：

A公司完成新一轮1.1亿元集资

某科技公司“A公司”获C公司1.1亿元独家策略集资

A公司获1.1亿元集资，由C公司独家策略投资

A公司完成新一轮1.1亿元集资

一线丨A公司完成新一轮1.1亿元集资C公司独家策略投资

张某评C公司踩雷10亿圈套：暴露了风险，这是件好事

张某回忆“C公司踩雷10亿圈套”：以前遇到过

张某回忆“C公司踩雷10亿圈套”：以前遇到过，但是对方拒绝核实

C公司踩雷D公司10亿集资罗生门核心：B公司是否参与

C公司踩雷10亿D公司前面的路看不清楚

C公司踩雷10亿，把责任推卸给B公司？

通过本实施方式得到的最终聚类结果为：

##Group1 164.800618(5)-1.000000(1)-A公司 C公司集资新一轮独家策略投资

20190709 14:56:00 A公司完成新一轮1.1亿元集资

20190705 18:32:09 某科技公司“A公司”获C公司1.1亿元独家策略集资

20190705 17:08:00 A公司获2.5亿元集资，由C公司独家策略投资

20190705 16:40:00 A公司完成新一轮1.1亿元集资

20190705 16:33:00 一线丨A公司完成新一轮1.1亿元集资C公司独家策略投资

##Group2 111.744243(6)-0.550000(2)-张某圈套 B公司回忆

20190710 14:00:00 张某评C公司踩雷10亿圈套:暴露了风险，这是件好事

20190710 13:49:00 张某回忆“C公司踩雷10亿圈套”：以前遇到过

20190710 11:15:36 张某回忆“C公司踩雷10亿圈套”：以前遇到过，但是对方拒绝核实

20190709 22:51:00 C公司踩雷D公司10亿集资罗生门核心：B公司是否参与

20190709 13:59:00 C公司踩雷10亿D公司未来的路看不清楚

20190709 00:00:00 C公司踩雷10亿，把责任推卸给B公司？

从结果可以发现，两个新闻热点被很好的区分开来，第一个热点的热度为164.800618，有5条相关新闻，群聚系数是1.0，最大图直径是1，关键词是“A公司 C公司集资新一轮独家策略投资”。第二个热点的热度为111.744243，有6条相关新闻，群聚系数是0.55，最大图直径是2，关键词是“张某圈套 B公司回忆”。

如图4所示，本发明第二实施方式中文本聚类的方法的流程示意图，所述方法包括：

步骤S31：获取待聚类的文本标题列表；

步骤S32：以所述文本标题为顶点，以所述文本标题向量化后的距离为边，构建所述文本标题之间的初始连通图；

步骤S33：计算所述初始连通图的聚集程度，若所述初始连通图的聚集程度大于或者等于分簇阈值，所述初始连通图对应的文本集合即为一个文本簇。

本实施方式与第一实施方式的不同之处在于，对于初始连通图也要计算其聚集程度，如果初始连通图的聚集程度大于或者等于分簇阈值，所述初始连通图对应的文本集合即为一个文本簇。

需要说明的是，如果初始连通图的聚集程度小于分簇阈值，按照第一实施方式中的方法，对初始连通图进行移边得到子连通图，计算子连通图的聚集程度，是否需要移边等，具体的方式参考第一实施方式，此处不再赘述。

本发明还提供一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述文本聚类的方法中的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述文本聚类的方法中的步骤。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

一种文本聚类的方法，其特征在于，所述方法包括：

获取待聚类的文本标题列表；

以所述文本标题为顶点，以所述文本标题向量化后的距离为边，构建所述文本标题之间的初始连通图；

移除所述初始连通图的大于初始距离阈值的边，得到一个或者多个子连通图；

计算每个所述子连通图的聚集程度，若一个所述子连通图的聚集程度大于或等于分簇阈值，所述子连通图对应的文本集合即为一个文本簇。
根据权利要求1所述的文本聚类的方法，其奇特在于，所述方法还包括：

S21、若一个所述子连通图的聚集程度小于分簇阈值，获取所述子连通图的当前距离阈值，移除所述子连通图的大于当前距离阈值的边，得到一个或者多个子连通图；

S22、计算每个所述子连通图的聚集程度，重复步骤S21～S22，直至所有的子连通图的聚集程度都大于或者等于分簇阈值，每个大于或者等于分簇阈值的子连通图对应的文本集合即为一个文本簇。
如权利要求1所述的文本聚类的方法，其特征在于：

所述子连通图的聚集程度是指所述子连通图的群聚系数与最大图直径的比值。
根据权利要求1所述的文本聚类的方法，其特征在于，所述“所述文本标题向量化后的距离”的获取方法包括：

通过对所述文本标题列表中的文本标题进行主题训练得到主题模型；

利用所述主题模型将每条所述文本标题向量化，得到文本标题向量；

计算两两所述文本标题向量之间的相似度；

计算两两文本标题向量之间的距离。
根据权利要求1所述的文本聚类的方法，其特征在于，所述方法还包括：

将所述文本簇对应的子连通图中度最高的顶点所代表的文本作为所述文本簇的代表文本，提取所述文本簇的关键词作为所述文本簇的内容。
根据权利要求1所述的文本聚类的方法，其特征在于，所述方法还包括：

所述文本为新闻，所述文本簇为新闻簇，将所述新闻簇中的新闻按照发布时间从新到旧排序，计算相邻新闻之间的时间间隔，将所有时间间隔的倒数的和作为此新闻簇的热度，将所述热度大于热度阈值的新闻簇定义为热点新闻。
一种文本聚类的方法，其特征在于，所述方法包括：

获取待聚类的文本标题列表；

以所述文本标题为顶点，以所述文本标题向量化后的距离为边，构建所述文本标题之间的初始连通图；

计算所述初始连通图的聚集程度，若所述初始连通图的聚集程度大于或者等于分簇阈值，所述初始连通图对应的文本集合即为一个文本簇。
如权利要求7所述的文本聚类的方法，其特征在于：

若所述初始连通图的聚集程度小于分簇阈值，移除所述初始连通图的大于初始距离阈值的边，得到一个或者多个子连通图；

计算每个所述子连通图的聚集程度，若一个所述子连通图的聚集程度大于或者等于分簇阈值，所述子连通图对应的文本集合即为一个文本簇。
根据权利要求8所述的文本聚类的方法，其奇特在于，所述方法还包括：

S41、若一个所述子连通图的聚集程度小于分簇阈值，获取所述子连通图的当前距离阈值，移除所述子连通图的大于当前距离阈值的边，得到一个或者多个子连通图；

S42、计算每个所述子连通图的聚集程度，重复步骤S41～S42，直至所有的子连通图的聚集程度都大于或者等于分簇阈值，每个大于或者等于分簇阈值的子连通图对应的文本集合即为一个文本簇。
如权利要求7所述的文本聚类的方法，其特征在于：

所述初始连通图的聚集程度是指所述初始连通图的群聚系数与最大图直径的比值。
根据权利要求7所述的文本聚类的方法，其特征在于，所述“所述文本标题向量化后的距离”的获取方法包括：

通过对所述文本标题列表中的文本标题进行主题训练得到主题模型；

利用所述主题模型将每条所述文本标题向量化，得到文本标题向量；

计算两两所述文本标题向量之间的相似度；

计算两两文本标题向量之间的距离。
根据权利要求7所述的文本聚类的方法，其特征在于，所述方法还包括：

将所述文本簇对应的子连通图中度最高的顶点所代表的文本作为所述文本簇的代表文本，提取所述文本簇的关键词作为所述文本簇的内容。
根据权利要求7所述的文本聚类的方法，其特征在于，所述方法还包括：

所述文本为新闻，所述文本簇为新闻簇，将所述新闻簇中的新闻按照发布时间从新到旧排序，计算相邻新闻之间的时间间隔，将所有时间间隔的倒数的和作为此新闻簇的热度，将所述热度大于热度阈值的新闻簇定义为热点新闻。
一种电子设备，包括存储器和处理器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-13任意一项所述文本聚类的方法中的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-13任意一项所述文本聚类的方法中的步骤。