WO2017148267A1

WO2017148267A1 - 一种文本信息聚类方法和文本信息聚类系统

Info

Publication number: WO2017148267A1
Application number: PCT/CN2017/073720
Authority: WO
Inventors: 付子豪; 张凯; 蔡宁; 杨旭; 褚崴
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2016-02-29
Filing date: 2017-02-16
Publication date: 2017-09-08
Also published as: JP2019511040A; CN107133238A; TW201734850A; US20180365218A1

Abstract

一种文本信息聚类方法和系统，该聚类方法包括如下步骤：将多则文本信息中的每一则文本信息进行分词处理，形成多个字词（S101）；对分词处理后的所述多则文本信息进行初次聚类，形成多个一级主题，每个所述一级主题包括至少两则文本信息（S102）；根据每个所述一级主题下文本信息的数目，确定每个所述一级主题下二级主题的个数（S103）；根据每个所述一级主题下二级主题的个数，对每个所述一级主题中包括的至少两则文本信息进行二次聚类，形成多个二级主题（S104）。采用层次化聚类的方法，在初次聚类时，减少了总的一级主题的个数，加快了计算效率；在二次聚类时，根据文本信息数目动态确定二级主题的个数，加快了二级主题的计算速度。

Description

一种文本信息聚类方法和文本信息聚类系统

本申请要求2016年02月29日递交的申请号为201610112522.X、发明名称为“一种文本信息聚类方法和文本信息聚类系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及文本处理领域，尤其涉及一种文本信息聚类方法和文本信息聚类系统。

背景技术

将文本信息按照相应的主题进行文本聚类在文本处理领域有着非常重要的应用，然而由于文本信息覆盖面非常广，每天产生的文本信息数目也非常巨大，因此，开展大规模文本聚类分析有着非常重要的意义。

现有的文本信息聚类分析在主题个数增大的情况下会出现计算缓慢、占用计算资源过多的现象，但是如果限制主题数量，则在不同主题下的文章将会混杂在一起，对最终的结果造成影响。

因此，需要提出一种新的文本信息聚类技术，以解决现有技术存在的计算缓慢、占用计算资源过多的问题。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的文本信息聚类方法和文本信息聚类系统。

为解决上述问题，本申请一实施例公开一种文本信息聚类方法，包括如下步骤：

将多则文本信息中的每一则文本信息进行分词处理；

对分词处理后的所述多则文本信息进行初次聚类，形成多个一级主题，每个所述一级主题包括至少两则文本信息；

根据每个所述一级主题下文本信息的数目，确定每一个所述一级主题下二级主题的个数；

根据每个所述一级主题下二级主题的个数，对每个所述一级主题中包括的至少两则文本信息进行二次聚类，形成多个二级主题。

本发明另一实施例公开一种文本信息聚类系统，包括：

分词处理模块，用于将多则文本信息中的每一则文本信息进行分词处理；

初次聚类模块，用于对分词处理后的所述多则文本信息进行初次聚类，形成多个一级主题，每个所述一级主题包括至少两则文本信息；

主题个数确定模块，用于根据预置规则，基于每个所述一级主题下文本信息的数目，确定每个所述一级主题下二级主题的个数；

二次聚类模块，用于根据每个所述一级主题下二级主题的个数，对每个所述一级主题中包括的至少两则文本信息进行二次聚类，形成多个二级主题。

综上所述，本申请实施例提出的文本信息聚类方法和文本信息聚类系统至少具有以下优点：

在本实施例提出的文本信息聚类方法和聚类系统中，采用层次化聚类的方法，在初次聚类时，减少了总的一级主题的个数，加快了计算效率，减小了系统资源消耗；在二次聚类时，根据文本信息数目动态确定二级主题的个数，减小了每个二级主题下平均的文本信息数目，加快了二级主题的计算速度。

附图说明

图1是本发明一实施例采用的LDA算法的原理示意图。

图2是本发明第一实施例的文本信息聚类方法的流程图。

图3是本发明第二实施例的文本信息聚类方法的流程图。

图4是本发明第三实施例的文本信息聚类方法的流程图。

图5是本发明第四实施例的文本信息聚类系统的方框图。

图6是本发明第五实施例的文本信息聚类系统的方框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请的核心思想之一在于，通过算法对多则文本信息进行两次或以上的聚类，在初次聚类之后生成多个一级主题；再根据每个一级主题下文本信息的数目，确定每个一级主题下二级主题的个数；之后，再根据每一个所述一级主题下二级主题的个数，对每个一级主题下的至少两则文本信息进行二次聚类，生成多个二级主题。

举例来说，系统需要针对5000则文本信息进行聚类，根据本申请提供的文本信息聚类方法，可以先利用算法将该5000则文本信息聚类为5个一级主题。在初次聚类之后，每一个一级主题下分别包括文本信息的数目为：1000则、1500则、500则、1800则、200则，之后根据每个一级主题下包括的文本信息数目，确定每个一级主题应当被划分为二级主题的个数，例如，可以通过人工分析或算法参数设置，确定上述5个一级主题分别应当被划分为10个、15个、5个、18个、2个二级主题。之后，根据上述二级主题的个数对每个一级主题进行二次聚类，生成10个、15个、5个、18个、2个二级主题，每个二级主题下包括若干则文本信息。

正如本领域技术人员所知，实践中通常需要处理的文本信息数目远不止5000则，可能是更高的数量级，本发明的上述示例仅是为了方便理解之用，并不是特别限制。

在本申请实施例中，可以通过LDA算法对多则文本信息进行聚类。LDA(Latent Dirichlet Allocation)算法是一种文档二级主题模型算法。该算法在现有的pLSA算法中引入了贝叶斯框架，能更好地表示文档生成模型。其具体实现步骤如下：

首先假设所有的文档中的每一个词都是从某个文本信息的主题中选择出来的，而该主题也满足一定的概率分布。图1所示为LDA算法的原理图。如图1所示，假设文本信息的主题服从参数为θ的多项分布，其先验分布则是参数为α的狄利克雷分布，z表示从该主题分布中获得的主题，对于每一主题，假设单词在该主题下亦服从参数为φ的多项分布，该分部的先验分布是参数为β的狄利克雷分布。假设一共有K个主题，对于每一个随机选择的主题，从其相应的分布中获取相应的单词。在该图中M表示文章个数，N表示单词数，K表示主题个数，w表示单词，其加深色表示是可以观测的内容，方框表示重复，重复次数用其右下角的字母表示。在完成了建模之后，最后的参数估计由吉布斯采样完成。在利用LDA算法聚类完成之后，多则文本信息依据该算法聚类为特定的主题，每一级主题下包括多则相关的文本信息。

在实际操作中，当主题个数大于300之后，LDA聚类算法运行非常缓慢，并且占用资源也非常地大，与此同时，由于主题个数限制，并不能达到理想的主题个数。因此，在最后的结果中，文本信息条目间的混杂也非常明显，很多不相关的主题被归类到了一个主题之下，给文本信息聚类造成了很多的困难。

本申请提出的文本信息聚类方法中，通过采用层次化聚类的方法，构造了层次化LDA聚类框架，在初次聚类时，减少了总的一级主题的个数，加快了计算效率，减小了系统资源消耗；在二次聚类时，根据文本信息个数动态确定二级主题的个数，减小了每个二级主题下平均的文本信息条目个数，实现每个一级主题之间的解耦，通过并行的方式加快了二级主题的计算速度。

以下通过多个具体实施例对本申请提出的文本信息聚类方法和文本信息聚类系统进行具体描述。

第一实施例

本申请第一实施例提出一种文本信息聚类方法，如图2所示为本申请一实施例的文本信息聚类方法的流程图。本申请第一实施例的文本信息聚类方法包括如下步骤：

步骤S101，将多则文本信息中的每一则文本信息进行分词处理，形成多个字词；

在这一步骤中，可以首先对每一则文本信息进行分词处理。举例来说，可以将“Python是一种面向对象、解释型计算机程序设计语言”切分成“Python/是/一种/面向/对象/解释/型/计算机/程序/设计/语言”。

通过这一步的处理，将一句话切分成若干个字词，便于后续的处理操作。

在这一步中，可以将文本信息出现的字词与预设的字词库中的字词作比较，当文本信息中出现的字词与字词库中的字词一致，则将该字词切分出来。值得注意的是，文中上下提及的字词可以为字，也可以为词。例如，当文本信息中的“面向”与字词库中的“面向”一致，则将该文本信息中的“面向”单独切分出来。当文本信息中的“型”与字词库中的“型”一致，则将该文本信息中的“型”单独切分出来。

之后，可以执行步骤S102，对分词处理后的所述多则文本信息按照所述多个字词进行初次聚类，形成多个一级主题，每一个所述一级主题包括至少两则文本信息；

在这一步骤中，例如可以采用前述的LDA算法对所有文本信息进行初次聚类。在这次聚类中，鉴于文本信息数目较多，可以将一级主题的数目设置的相对较小，避免消耗过多的计算资源，导致计算缓慢。通过初次聚类，可以将文本信息粗略地划分到若干个一级主题中，每个一级主题的大小各异，其中包含的文本信息数目也可以各不相同。

举例来说，根据前述的示例，当针对5000则文本信息进行聚类时，在本步骤中，利用LDA算法将该5000则文本信息聚类为5个一级主题，每个一级主题下例如分别包括文本信息的数目为：1000则、1500则、500则、1800则、200则。

之后，可以执行步骤S103，根据预置规则，基于每个所述一级主题下文本信息的数目，确定每个所述一级主题下二级主题的个数；

在这一步骤中，可以根据每个一级主题下文本信息的数目，利用LDA算法的参数设定，或者人为的设定，确定每个一级主题下二级主题的数目。每个一级主题下二级主题的数目可以相同或者不同。

这里的预置规则例如可以为：预设的每一个二级主题中包含的文本信息数目为X个，X的范围是M≤X≤N，M和N为开发人员或者使用者指定的数值，例如90≤X≤110，则可以选择X为平均值100，在此基础上，可以计算出上述示例的每一个一级主题下包含的二级主题的个数为：1000/100＝10个，1500/100＝15个，500/100＝5个，1800/100＝18个，200/100＝2个。

之后，可以执行步骤S104，根据每一个所述一级主题下二级主题的个数，对每一个所述一级主题中包括的多则文本信息按照所述多个字词进行二次聚类，形成多个二级主题。

在这一步骤中，可以采用前述的LDA算法对所有文本信息进行二次聚类。在这次聚类中，针对每个一级主题下的多则文本信息，根据该一级主题应该被划分的二级主题的数目，采用例如LDA算法进行聚类，形成指定数目的多个二级主题。

举例来说，根据前述的示例，对每个一级主题进行二次聚类，分别生成10个、15个、5个、18个、2个二级主题，每个二级主题下包括若干则文本信息。

在本步骤中，由于对每个一级主题中的多则文本信息的二次聚类的过程是独立的，这些二次聚类可以同时处理，或称并行处理，提高了运算的速度。

在本实施例提出的文本信息聚类方法中，通过上述方式，在该文本信息聚类方法中，采用层次化聚类的方法，在初次聚类时，减少了总的一级主题的个数，加快了计算效率，减小了系统资源消耗；在二次聚类时，根据文本信息数目动态确定二级主题的个数，减小了每个二级主题下平均的文本信息数目，加快了二级主题的计算速度。

第二实施例

本申请第二实施例提出一种文本信息聚类方法，如图3所示为本申请第二实施例的文本信息聚类方法的流程图。本申请第二实施例的文本信息聚类方法包括如下步骤：

步骤S201，将多则文本信息中的每一则文本信息进行分词处理，形成多个字词；

步骤S202，采用LDA算法对分词处理后的所述多则文本信息按照所述多个字词进行初次聚类，形成多个一级主题，每一个所述一级主题包括至少两则文本信息；

步骤S203，根据预置规则，基于每个所述一级主题下文本信息的数目，确定每个所述一级主题下二级主题的个数；

步骤S204，根据每一个所述一级主题下二级主题的个数，(利用LDA算法)对每一个所述一级主题中包括的多则文本信息按照所述多个字词进行二次聚类，形成多个二级主题，每一个所述二级主题包括多则文本信息。

上述四个步骤S201至步骤S204与第一实施例中的步骤S101至S104相同或相似，在此不再赘述。

在本实施例中，在步骤S201之后，该方法还可能包括如下步骤：

S201a，当分词过程中检测到文本信息中出现符号、英文单词和/或数字时，判断该符号、英文单词和/或数字与文本信息的相关程度；

S201b，当判断出该符号、英文单词和/或数字与文本信息的相关程度低于指定值时，删除所述符号、英文单词和/或数字。

上述步骤中，该符合可能是单独的符号，例如“&”、“％”等，也可能是各种符号和数字、字母组成的内容，例如链接等。通过特定的方法在步骤S201a中判断该符号与文本信息内容的相关程度，当判断出相关程度较低时，删除该符号。

同样地，判断英文单词与文本信息内容的相关程度，例如当文本信息中包括“厄尔尼诺现象(El Nino)”该英文单词仅作为注释，当判断出该英文单词仅是注释，则可以删除该英文单词。

同样地，可以利用同样的方式判断数字与文本信息内容的相关程度，当判断出相关程度较低时，删除该数字。

S201c，当分词过程中检测到文本信息中出现英文单词时，将该英文单词单独切分为一个字词。

在这一步骤中，例如上述示例中，“Python”与该文本信息的内容相关性较大，如删除则无法确切地了解文本信息的含义从而得出正确的分类，在此实施例中可以将“Python”这一单词单独切分为一个字词并保留。

S201d，检测分词处理后的每一个所述字词是否与预设的停用表中的字词相同；

S201e，当检测到分词处理后的任一个所述字词与所述预设的停用表中的字词相同时，删除所述分词处理后的相同的字词。

在上述步骤中，分词后的结果通常会包含若干无意义的字词如“的、了、过”，这些字词不仅对结果没有帮助，还占用了大量的计算存储资源，因此需要在计算之前将其过滤掉。具体做法可以为，例如“的、了、过”之类无意义的字词可以被汇总在预设的停用表中，当判断出文本信息中出现上述字词，则删除该文本信息中的上述字词。另外，在实际操作过程中，还会出现一些干扰正常分类的字词，例如一些文本信息的来源标记等等，这些字词也可以被汇总在预设的停用表中，当判断出文本信息中出现上述词汇，则删除该文本信息中的上述词汇。

另外值得注意的是，上述步骤S201a与S201b，以及S201c，以及S201d与S201e并非先后执行，而是可以有选择地执行步骤S201a与S201b、S201c和/或S201d与S201e。

在本实施例中，步骤S202即采用LDA算法对分词处理后的多则文本信息进行初次聚类，形成多个一级主题的步骤之后，该文本信息聚类方法还可以包括如下步骤：

S202a，将两个以上包含的文本信息数目少于第一数值的一级主题合并为一个一级主题。

在这一步骤中，可以通过算法检测或者人工检测每个一级主题下的文本信息数目是否少于第一阈值。如果少于该第一阈值，则将该一级主题与其他一级主题合并，进行后续计算。

举例来说，根据前述的示例，在步骤S202中聚类形成的每个一级主题下分别包括文本信息的数目为：1000则、1500则、500则、1800则、200则。如果将该第一阈值设置为300则，则可以判断出最后一个一级主题中包括的文本信息的数目少于第一阈值，此时可以将上述最后一个一级主题与其他主题合并，例如与上述第三个一级主题合并，之后再进行二级主题的聚类。

在本实施例提出的文本信息聚类方法中，通过上述方式，在该文本信息聚类方法中，采用层次化聚类的方法，在初次聚类时，减少了总的一级主题的个数，加快了计算效率，减小了系统资源消耗；在二次聚类时，根据文本信息数目动态确定二级主题的个数，减小了每个二级主题下平均的文本信息数目，加快了二级主题的计算速度。同时在聚类过程中删除了无意义的字词和/或符号，合并了文本信息数目较小的一级主题，进一步优化了计算方法，减小了计算强度。

第三实施例

本申请第三实施例提出一种文本信息聚类方法，如图4所示为本申请第三实施例的文本信息聚类方法的流程图。本申请第三实施例的文本信息聚类方法包括如下步骤：

步骤S301，将多则文本信息中的每一则文本信息进行分词处理，形成多个字词；

步骤S302，采用LDA算法对分词处理后的所述多则文本信息按照所述多个字词进行初次聚类，形成多个一级主题，每一个所述一级主题包括至少两则文本信息；

步骤S303，根据预置规则，基于每个所述一级主题下文本信息的数目，确定每个所述一级主题下二级主题的个数；

步骤S304，根据每一个所述一级主题下二级主题的个数，(利用LDA算法)对每一个所述一级主题中包括的至少两则文本信息按照所述多个字词进行二次聚类，形成多个二级主题。

上述四个步骤S301至步骤S304与第一实施例中的步骤S101至S104相同或相似，在此不再赘述。

本实施例是在第一的步骤S104或第二实施例的步骤S204完成之后，进行步骤S305，即，对二次聚类后生成的多个二级主题进行匹配度评估，以及

步骤S306，获得匹配度评估结果，当匹配度评估的结果为聚类不合格，根据所述评估结果调整所述LDA算法的参数。

在这一步骤中，当匹配度评估的结果为聚类不合格，例如可以通过调整主题的个数、低频词的频率阈值、需要合并的主题包含的文本信息数目阈值、停用表的内容等。主题的个数例如为图1中的k值；低频词的频率阈值例如可以为人工或者机器设定的阈值，当所有文本信息在分词后，某个或某些字词出现的频率小于阈值，则这些词可以认为是低频词，在这一步骤中，可以调整低频词的频率阈值，使低频词的数目增加或减少，从而影响聚类结果；需要合并的主题包含的文本信息数目阈值例如为人工或者机器设定的阈值，当某一个或多个主题包含的文本信息数目少于特定的阈值，可以认为这些主题是需要合并的，通过修改这一阈值，可以设置更高的合并门槛或者更低的合并门槛，从而影响聚类结果。停用表例如可以为第二实施例例中提供的表格，其可以存储多个停用词，通过调整停用词的内容，达到影响聚类结果的目的。

在这一步骤中，可以通过人工评估的方式，或是利用机器算法，对聚类后生成的二级主题进行评估。由于二次聚类的结果会随文本信息的不同而产生很多变化，因而需要对二次聚类的结果进行评估，具体的评估方法可以包括查看若干个二级主题下的文本信息是否关于同一个内容，通过这一标准判断该聚类是否合适、是否有不合适的词被选为关键词、二级主题是否会有混叠现象、一级主题和二级主题的个数选择是否合适等。如果结果没有达到预期，还可以根据需要通过人工或机器算法继续调整，例如调整LDA算法的参数等。

在本实施例中，在步骤S304即根据每一个所述一级主题下二级主题的个数，对每一个所述一级主题中包括的多则文本信息进行二次聚类，形成多个二级主题之后，该方法还可以包括如下步骤：

S307，利用二级主题下文本信息的数目是否超过第二阈值，判断所述二级主题是否为热点话题。

在这一步骤中，当某一个二级主题下文本信息的数目大于第二阈值，则可以判断该二级主题为热点话题。在判断出该二级主题为热点话题。在判断出热点话题之后，可以进行后续的操作，例如自动或者人工将该热点话题显示在网站的首页、将该热点话题加上醒目标记等，本发明并不以此为限。

在本实施例提出的文本信息聚类方法中，通过上述方式，在该文本信息聚类方法中，采用层次化聚类的方法，在初次聚类时，减少了总的一级主题的个数，加快了计算效率，减小了系统资源消耗；在二次聚类时，根据文本信息数目动态确定二级主题的个数，减小了每个二级主题下平均的文本信息数目，加快了二级主题的计算速度。同时在完成二次聚类后进入评估环节，评估二级主题的聚类是否合适。加入上述的评估环节能够进一步优化上述聚类方法，提高聚类的准确性。此外，在完成二次聚类之后，可以通过与第二阈值比较，判断哪些二级主题是热点话题，为后续处理提供了便利。

在上述多个实施例中，文本信息聚类方法例如可以应用于新闻的聚类。即，上述的文本信息例如可以为新闻。利用该方法可以对大量的新闻进行聚类。该聚类方法至少可以包括如下步骤：通过将多则新闻中的每一则新闻进行分词处理，形成多个字词；对分词处理后的所述多则新闻按照所述多个字词进行初次聚类，形成多个一级主题，每一个所述一级主题包括至少两则新闻；根据预置规则，基于每个所述一级主题下新闻的数目，确定每个所述一级主题下二级主题的个数；根据每一个所述一级主题下二级主题的个数，对每一个所述一级主题中包括的多则新闻按照所述多个字词进行二次聚类，形成多个二级主题。由于日常生活的每一天均会产生大量的新闻，通过上述步骤，可以更快地对新闻进行聚类，避免了人工分类的繁琐和效率低下，方便使用者更快地获得分类的新闻，提高了使用者的体验。

第四实施例

本申请第四实施例提出一种文本信息聚类系统，如图5所示为本申请第四实施例的文本信息聚类系统的方框图。本申请第四实施例的文本信息聚类系统400包括：

分词处理模块401，用于将多则文本信息中的每一则文本信息进行分词处理，形成多个字词；

初次聚类模块402，用于对分词处理后的所述多则文本信息按照所述多个字词进行初次聚类，形成多个一级主题，每个所述一级主题包括多则文本信息；

主题个数确定模块403，用于根据预置规则，基于每个所述一级主题下文本信息的数目，确定每个所述一级主题下二级主题的个数；

二次聚类模块404，用于根据每个所述一级主题下二级主题的个数，对每个所述一级主题中包括的多则文本信息按照所述多个字词进行二次聚类，形成多个二级主题，每个所述二级主题包括多则文本信息。

在本实施例提出的文本信息聚类系统中，在该文本信息聚类方法中，采用层次化聚类的系统，在初次聚类时，减少了总的一级主题的个数，加快了计算效率，减小了系统资源消耗；在二次聚类时，根据文本信息数目动态确定二级主题的个数，减小了每个二级主题下平均的文本信息数目，加快了二级主题的计算速度。

第五实施例

本申请第五实施例提出一种文本信息聚类系统，如图6所示为本申请第四实施例的文本信息聚类系统的方框图。本申请第五实施例的文本信息聚类系统包括：分词处理模块501、初次聚类模块502、主题个数确定模块503、二次聚类模块504。上述模块501-504与第四实施例中的模块401-404相同或相似，在此不再赘述。

在本实施例中，优选地，所述初次聚类和所述二次聚类均采用LDA算法进行聚类。

在本实施例中，优选地，所述系统还包括：

相关度判断模块，用于当检测到文本信息中出现符号、英文单词和/或数字时，判断该符号、英文单词和/或数字与所述文本信息的相关程度；以及

第一删除模块，用于当判断出所述符号、英文单词和/或数字与文本信息内容的相关程度低于指定值时，删除所述符号、英文单词和/或数字。

在本实施例中，优选地，所述系统还包括：

检测模块，用于检测分词处理后的每一个所述字词是否与预设的停用表中的字词相同；以及

第二删除模块，用于当检测到分词处理后的任一个所述字词与所述预设的停用表中的字词相同时，删除所述分词处理后的相同的字词。

在本实施例中，优选地，所述系统还包括：

合并模块505，用于将两个以上包含的文本信息数目少于第一数值的一级主题合并为一个一级主题。

在本实施例中，优选地，所述二次聚类模块504用于同时实施任意两个或两个以上的二次聚类。

在本实施例中，优选地，所述系统还包括：

评估模块506，用于对二次聚类后生成的多个二级主题进行评估；以及

调整模块507，用于根据所述评估结果调整所述LDA算法的参数。

在本实施例中，优选地，所述系统还包括：

热点判断模块508，用于利用每一个二级主题下文本信息的数目，判断所述二级主题是否为热点话题。

在本实施例提出的文本信息聚类系统中，通过上述方式，在该文本信息聚类系统中，采用层次化聚类系统，在初次聚类时，减少了总的一级主题的个数，加快了计算效率，减小了系统资源消耗；在二次聚类时，根据文本信息数目动态确定二级主题的个数，减小了每个二级主题下平均的文本信息数目，加快了二级主题的计算速度。

同时，本实施例的系统在二次聚类时，根据文本信息数目动态确定二级主题的个数，减小了每个二级主题下平均的文本信息数目，加快了二级主题的计算速度。同时在聚类过程中删除了无意义的字词和/或符号，合并了文本信息数目较小的一级主题，进一步优化了计算方法，减小了计算强度。

同时，本实施例的系统可以包括评估模块，用于评估二级主题的聚类是否合适。加入上述的评估环节能够进一步优化上述聚类方法，提高聚类的准确性。此外，本实施例的系统可以包括热点判断模块，可以通过与第二阈值比较，判断哪些二级主题是热点话题，为后续处理提供了便利。

同样地，在上述多个实施例中，文本信息聚类系统例如可以应用于新闻的聚类。即，上述的文本信息例如可以为新闻。利用该系统可以对大量的新闻进行聚类。该聚类系统至少可以包括：

分词处理模块，用于将多则新闻中的每一则新闻进行分词处理，形成多个字词；

初次聚类模块，用于对分词处理后的所述多则新闻按照所述多个字词进行初次聚类，形成多个一级主题，每个所述一级主题包括多则新闻；

主题个数确定模块，用于根据预置规则，基于每个所述一级主题下新闻的数目，确定每个所述一级主题下二级主题的个数；

二次聚类模块，用于根据每个所述一级主题下二级主题的个数，对每个所述一级主题中包括的多则新闻按照所述多个字词进行二次聚类，形成多个二级主题，每个所述二级主题包括多则新闻。

由于日常生活的每一天均会产生大量的新闻，通过上述步骤，可以更快地对新闻进行聚类，避免了人工分类的繁琐和效率低下，方便使用者更快地获得分类的新闻，提高了使用者的体验。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信号存储。信号可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信号。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种文本信息聚类方法和聚类系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种文本信息聚类方法，其特征在于，包括：

将多则文本信息中的每一则文本信息进行分词处理，形成多个字词；

对分词处理后的所述多则文本信息按照所述多个字词进行初次聚类，形成多个一级主题，每个所述一级主题包括至少两则文本信息；

根据预置规则，基于每个所述一级主题下文本信息的数目，确定每个所述一级主题下二级主题的个数；

根据每个所述一级主题下二级主题的个数，对每个所述一级主题中包括的至少两则文本信息按照所述多个字词进行二次聚类，形成多个二级主题。
如权利要求1所述的文本信息聚类方法，其特征在于，所述初次聚类和所述二次聚类均采用LDA算法，根据所述多个字词聚类成所述多个一级主题和所述多个二级主题。
如权利要求1所述的文本信息聚类方法，其特征在于，在将多则文本信息中的每一则文本信息进行分词处理的步骤之后，所述方法还包括：

当检测到文本信息中出现符号、英文单词和/或数字时，判断该符号、英文单词和/或数字与所述文本信息的相关程度；以及

当判断出所述符号、英文单词和/或数字与所述文本信息的相关程度低于指定值时，删除所述符号、英文单词和/或数字。
如权利要求1所述的文本信息聚类方法，其特征在于，在将多则文本信息中的每一则文本信息进行分词处理，形成多个字词的步骤之后，所述方法还包括：

检测分词处理后的每一个所述字词是否与预设的停用表中的字词相同；以及

当检测到分词处理后的任一个所述字词与所述预设的停用表中的字词相同时，删除所述分词处理后的相同的字词。
如权利要求1所述的文本信息聚类方法，其特征在于，所述对分词处理后的多则文本信息按照所述字词进行初次聚类，形成多个一级主题的步骤之后，所述方法还包括：

将两个以上包含的文本信息数目少于第一数值的一级主题合并为一个一级主题。
如权利要求1所述的文本信息聚类方法，其特征在于，根据每个所述一级主题下二级主题的个数，对每个所述一级主题中包括的至少两则文本信息按照所述多个字词进行二次聚类，形成多个二级主题的步骤中，任意两个或两个以上所述二次聚类同时进行。
如权利要求1所述的文本信息聚类方法，其特征在于，根据每个所述一级主题下二级主题的个数，对每个所述一级主题中包括的至少两则文本信息进行二次聚类，形成多个二级主题的步骤之后，所述方法还包括：

利用每一个二级主题下文本信息的数目，判断所述二级主题是否为热点话题。
如权利要求2所述的文本信息聚类方法，其特征在于，根据每个所述一级主题下二级主题的个数，对每个所述一级主题中包括的至少两则文本信息按照所述多个字词进行二次聚类，形成多个二级主题的步骤之后，所述方法还包括：

对二次聚类后生成的多个二级主题进行匹配度评估；

根据所述匹配度评估结果调整所述LDA算法的参数1个或者多个。
如权利要求1所述的文本信息聚类方法，其特征在于，所述文本信息为新闻。
一种文本信息聚类系统，其特征在于，包括：

分词处理模块，用于将多则文本信息中的每一则文本信息进行分词处理，形成多个字词；

初次聚类模块，用于对分词处理后的所述多则文本信息按照所述多个字词进行初次聚类，形成多个一级主题，每个所述一级主题包括至少两则文本信息；

主题个数确定模块，用于根据每个所述一级主题下文本信息的数目，确定每一个所述一级主题下二级主题的个数；

二次聚类模块，用于根据每个所述一级主题下二级主题的个数，对每个所述一级主题中包括的至少两则文本信息按照所述多个字词进行二次聚类，形成多个二级主题。
如权利要求10所述的文本信息聚类系统，其特征在于，所述初次聚类和所述二次聚类均采用LDA算法进行聚类，根据所述多个字词聚类成所述多个一级主题和所述多个二级主题。
如权利要求10所述的文本信息聚类系统，其特征在于，所述系统还包括：

相关度判断模块，用于当检测到文本信息中出现符号、英文单词和/或数字时，判断该符号、英文单词和/或数字与所述文本信息的相关程度；以及

第一删除模块，用于当判断出所述符号、英文单词和/或数字与文本信息内容的相关程度低于指定值时，删除所述符号、英文单词和/或数字。
如权利要求10所述的文本信息聚类系统，其特征在于，所述系统还包括：

检测模块，用于检测分词处理后的每一个所述字词是否与预设的停用表中的字词相同；以及

第二删除模块，用于当检测到分词处理后的任一个所述字词与所述预设的停用表中的字词相同时，删除所述分词处理后的相同的字词。
如权利要求10所述的文本信息聚类系统，其特征在于，所述系统还包括：

合并模块，用于将两个以上包含的文本信息数目少于第一数值的一级主题合并为一个一级主题。
如权利要求10所述的文本信息聚类系统，其特征在于，所述二次聚类模块用于同时实施任意两个或两个以上的二次聚类。
如权利要求10所述的文本信息聚类系统，其特征在于，所述系统还包括：

热点判断模块，用于利用每一个二级主题下文本信息的数目，判断所述二级主题是否为热点话题。
如权利要求11所述的文本信息聚类系统，其特征在于，所述系统还包括：

评估模块，用于对二次聚类后生成的多个二级主题进行匹配度评估；以及

调整模块，用于根据所述匹配度评估结果调整所述LDA算法的参数。
如权利要求10所述的文本信息聚类系统，其特征在于，所述文本信息为新闻。