WO2018223718A1

WO2018223718A1 - 突发话题检测方法、装置、设备及介质

Info

Publication number: WO2018223718A1
Application number: PCT/CN2018/074870
Authority: WO
Inventors: 王健宗; 黄章成; 吴天博; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-06-09
Filing date: 2018-01-31
Publication date: 2018-12-13
Also published as: CN107688596B; CN107688596A

Abstract

本方案提供了一种突发话题检测方法、装置、设备及介质，适用于互联网技术领域，该方法包括：持续获取信息分享平台中的话题数据；在获取到每一话题数据时，将话题数据与预设词库中的各个词语进行匹配处理，以输出多种分词结果；将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词；根据所述关键词，更新与所述话题数据关联的摘要信息；对所述关键词及所述摘要信息进行展示，以使用户获知当前时刻的突发话题。本方案能够确定出话题数据对应的关键词，并基于该关键词来更新摘要信息，使得用户能够从输出的关键词及摘要信息中迅速地了解到信息分享平台上的突发话题。

Description

突发话题检测方法、装置、设备及介质

本申请要求于2017年06月09日提交中国专利局、申请号为201710433359.1、发明名称为“突发话题检测方法及突发话题检测设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于互联网技术，尤其涉及一种突发话题检测方法、装置、设备及介质。

背景技术

在微博、推特Twitter以及论坛等信息分享平台上，基于平台的开放性，用户们可以随时随地地分享和转发各类信息。在较短的时间内，若大量用户都分享或转发了相同的信息，则该信息所对应的具体话题会演变为热度较高的突发话题。这些突发话题如果与特定的企业相关，则可能会为企业带来巨大的舆论影响。如果企业不能及时发现并跟踪与公司相关的突发话题事件，则会错过消除负面舆论影响的最佳时间，从而降低了企业自身的软实力。

然而，现有技术中，难以通过技术手段迅速了解到信息分享平台上的突发话题，也难以确定各个突发话题是否与企业自身相关。

技术问题

有鉴于此，本发明实施例提供了一种突发话题检测方法及热度事件检测设20备，以解决现有技术中难以通过技术手段迅速了解到信息分享平台上的突发话题以及难以确定各个突发话题是否与企业自身相关的问题。

技术解决方案

本申请实施例的第一方面提供了一种突发话题检测方法，包括：

持续获取信息分享平台中的话题数据；

在获取到每一所述话题数据时，将所述话题数据与预设词库中的各个词语进行匹配处理，以输出多种分词结果；

将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词；

根据所述关键词，更新与所述话题数据关联的摘要信息；

对所述关键词及所述摘要信息进行展示，以使用户获知当前时刻的突发话题。

本申请实施例的第二方面提供了一种突发话题检测装置，包括：

获取模块，用于持续获取信息分享平台中的话题数据；

匹配模块，用于在获取到每一所述话题数据时，将所述话题数据与预设词库中的各个词语进行匹配处理，以输出多种分词结果；

输出模块，用于将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词；

更新模块，用于根据所述关键词，更新与所述话题数据关联的摘要信息；

展示模块，用于对所述关键词及所述摘要信息进行展示，以使用户获知当前时刻的突发话题。

本申请实施例的第三方面提供了一种突发话检测设备，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如第一方面所述的突发话题检测方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如第一方面所述的突发话题检测方法的步骤。

有益效果

本申请实施例中，在每一次获取到信息分享平台中的话题数据时，通过确定出该话题数据对应的关键词，并基于该关键词来实时更新摘要信息，使得用户能够从输出的关键词及摘要信息中第一时间了解到信息分享平台上的突发话题大概是什么内容，能够基于该摘要信息迅速地确定出该突发话题是否与企业自身相关，由此可以有效地发现及跟踪处理与企业相关的突发话题事件，提高了企业的软实力。

附图说明

图1是本申请实施例提供的突发话题检测方法的实现流程图；

图2是本申请实施例提供的突发话题检测方法S103的具体实现流程图；

图3是本申请实施例提供的突发话题检测方法S104的具体实现流程图；

图4是本申请实施例提供的突发话题检测方法S303的具体实现流程图；

图5是本申请实施例提供的突发话题检测方法S305的具体实现流程图；

图6是本申请实施例提供的突发话题检测装置的示意图；

图7是本申请实施例提供的突发话题设备的示意图。

本发明的实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

图1示出了本申请实施例提供的突发话题检测方法的实现流程，该方法流程包括步骤S101至S105。各步骤的具体实现原理如下：

S101：持续获取信息分享平台中的话题数据。

本申请实施例中，信息分享平台包括但不限于微博、推特Twitter、Facebook以及各大BBS论坛等。每一条话题数据具体为能够展示于信息分享平台且由用户发布的一条文字信息，其可以关联一个或多个突发事件。这些文字信息包括但不限于信息分享平台中的原文、转载文以及原文或转载文所对应的用户评论数据等。

获取信息分享平台中的话题数据可通过以下两种方式实现：第一种方式，根据预先创建且能够用于与信息分享平台的API（Application Programming Interface，应用程序编程接口）进行交互的应用程序，以及根据预先获取的账号密钥，在该应用程序中，调用信息分享平台所提供的API接口，从而获取信息分享平台所返回的话题数据；第二种方式，通过爬虫程序持续爬取信息分享平台中的话题数据。

由于信息分享平台中的话题数据是不断更新、不断增长的，因此，本申请实施例中，实时获取信息分享平台中的话题数据，即持续不断地获取话题数据，保证系统在各个时刻下都能获取到最新的话题数据，从而能够准确、及时以及迅速地执行突发话题的检测。

S102：在获取到每一所述话题数据时，将所述话题数据与预设词库中的各个词语进行匹配处理，以输出多种分词结果。

每接收到一条新的话题数据时，系统会对该话题数据进行词语匹配处理。具体地，系统将从话题数据的第一个字符开始，判断该话题数据中是否包含预设词库中的词语。当确定出话题数据中连续出现的字符所组成的词语与预设词库中的词语相同时，将该连续出现的字符确定为一个分词，并在话题数据中，从该分词后的第一个字符开始，重新执行上述词语匹配过程。当话题数据中的各个分词均确定后，确定完成一遍词语匹配过程，则该词语匹配过程对应输出一种分词结果，且该分词结果中包括多个分词。特别地，每一分词的字符总数为两个以上。

实际上，对于话题数据中的一个字符，其不但能和左邻的一个或多个字符构成一个第一分词，也能和右邻的一个或多个字符构成一个第一分词，因此，在分词规则不同的情况下，同一话题数据能够得到不同的分词结果。本申请实施例中，对于一条话题数据，输出预存储的每一分词规则所分别对应的一种分词结果。不同分词结果所对应的匹配度可能不同。其中，匹配度表示，根据分词结果中的各个分词，用户能够获知话题数据的实际语义的程度。

S103：将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词。

本申请实施例中，可以根据各个分词的字符平均数来确定每种分词结果的匹配度，或者根据各个分词的字符总数方差来确定每种分词结果的匹配度，在此不作限定。

优选地，由于分词的字符总数越大，用户越容易从分词中确定出话题数据的实际语义，因此，基于最长匹配原则来衡量每一种分词结果的匹配度。在比较每一种分词结果的匹配度后，将匹配度最大的分词结果所包含的各个第一分词输出为话题数据对应的关键词。

例如，当话题数据仅出现“数据线”三个汉字符时，由于“数据线”与“数据”均可以构成一个分词，而“数据线”的匹配度更高，因为确定匹配度最大的分词结果所包含的分词为“数据线”，将“数据线”输出为关键词。

作为本申请的一个实施例，对分词结果匹配度的计算方式作进一步限定。如图2所示，上述S103具体包括：

S201：根据每一种分词结果中各个分词对应的字符总数以及每一种分词结果对应的分词总数，计算每一种分词结果的分词字符平均数。

每一种分词结果中均包含多个分词，每一个分词均由至少两个字符组成。本申请实施例中，识别分词的总数，并识别每个分词的字符总数（即判断每个分词所包含的字符的数量）。将各个分词对应的字符总数的和与分词总数的比值输出为上述分词字符平均数。

例如，若对话题数据进行分词处理后所得到的一种分词结果为{天天集团/数据线/产量}，则该分词结果中的三个分词分别为“天天集团”、“数据线”、“产量”，且这三个分词的字符总数分别为4、3、3，该分词结果的分词总数为3，分词字符平均数为（4+3+3）/3=3.33。

S202：对每一种分词结果对应的所述分词字符平均数以及所述分词总数进行加权处理，以输出每一种分词结果的匹配度。

本申请实施例中，分词字符平均数A ₁所对应的加权系数为预设值a ₁，分词总数A ₂所对应的加权系数为预设值a ₂，且a ₁+a ₂=1。每一种分词结果的匹配度为C=A ₁×a ₁₊A ₂×a ₂。

S203：将所述匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词。

若对话题数据进行分词处理后得到M种分词结果，且M种分词结果的匹配度分别为C ₁、C ₂…、C _m，则在C ₁、C ₂…、C _m中选取数值最大的一个值C _i，并将C _i所对应的一种分词结果中的每一个分词输出为话题数据对应的一个关键词。其中，m为大于1的整数，i≤m。

本申请实施例中，由于分词字符平均数以及分词总数这两个因子都对分词结果具有较大影响，能够决定用户是否能够确定出话题数据的实际语义，因而通过对分词字符平均数以及分词总数进行加权处理，并将加权后得到的值作为分词结果的匹配度来衡量关键词，能够提高关键词选取的准确性及有效性，从而准确定位出突发话题的事件内容。

S104：根据所述关键词，更新与所述话题数据关联的摘要信息。

在任一时刻，系统将累积接收到多条话题数据，在确定每一条话题数据的关键词后，系统将重新生成用于描述当前累积接收到所有话题数据的摘要信息，以使用户能够基于该摘要信息，清楚了解到当前时刻突发话题的大致内容。

关键词具备有话题数据的决定性特征，为了生成与当前累积接收到所有话题数据相关联的摘要信息，可以统计各条话题数据中每一关键词的累计词频，以根据累计词频大于阈值的关键词来生成摘要信息。其中，可利用TextRank算法或者word工具中的摘要信息生成工具等，生成与话题数据以及与关键词关联的摘要信息。

优选地，作为本申请的一个实施例，如图3所示，上述S104具体包括：

S301：分别获取每一所述关键词的累计词频，并计算所述累计词频的增长加速度，其中，所述关键词的累计词频表示在当前时刻已获取的所有话题数据中，所述关键词出现的累计次数。

本申请实施例中，一个关键词的累计词频表示在当前累积接收到所有话题数据中，该关键词的出现次数。因系统处于持续获取话题数据的状态之中，故对于同一个关键词，其累计词频也在不断增长。若时间段ΔT内，系统检测到关键词A的累计词频增长了ΔS，则该关键词A的累计词频的增长速度为V=ΔS/ΔT，其累积词频的增长加速度a为增长速度V对时间的偏导数，即

a=V＇(t)。增长加速度越大，单位时长内，关键词出现于话题数据中的次数越多，话题突发性越高。

S302：将各个所述关键词所对应的所述增长加速度添加至预先生成的矩阵中。

每次接收到新的话题数据时，系统确定出该话题数据的关键词以及关键词的累计词频的增长加速度。若该话题数据的关键词有K个时，将得到K个增长加速度。若系统累计得到的增长加速度的数量为P（P≥K，N∈Z），则矩阵将被扩展为P×P的矩阵，并将实时获得的该K个增长加速度添加至P×P的矩阵中。在P×P的矩阵中，除了包含P个增长加速度外，还包括空值。

S303：计算当前时刻所述矩阵的特征值，当所述特征值大于第一阈值时，从所述矩阵中确定出大于第二阈值的增长加速度。

系统对矩阵中的各个增长加速度进行监控，以实时检测矩阵的特征值。随着累计获取得到的话题数据越来越多，矩阵的大小及其包含的增长加速度的总数也在不断变化，因而矩阵的特征值也随之增大。当特征值大于预设的第一阈值时，系统将从矩阵所包含的各个增长加速度中，定位出数值大于第二阈值的一个或多个增长加速度。

作为本申请的一个实施例，如图4所示，上述S303具体包括：

S401：将当前时刻所述矩阵中的各个增长加速度分成N个组别，并将每一组别的增长加速度映射至一个子矩阵中。

由于矩阵中增长加速度的数量较多，为了提高数值大于第二阈值的增长加速度的定位速度，将矩阵进行降维处理。

具体地，依照预设的规则，将矩阵中所存在的所有增长加速度分成N个组别，使得每个组别包含数量较少的多个增长加速度。其中，每个组别中增长加速度的数量可以相同也可以不同。将每一组别所包含的多个增长加速度映射至一个子矩阵中。故当组别的数量为B个时，子矩阵的数量也为B个。在话题数据逐渐增多的情况下，每次更新得到的各个增长加速度也将分别映射至该B个子矩阵中。

S402：计算每一所述子矩阵的特征值，当所述子矩阵的特征值大于第四阈值时，从所述子矩阵中筛选出大于第二阈值的增长加速度。

对每一个子矩阵的特征值进行计算，若B个子矩阵中任意多个子矩阵的特征值均大于预设的第四阈值，则从特征值大于第四阈值的各个子矩阵中，分别筛选出大于第二阈值的各个增长加速度。

本申请实施例中，由于子矩阵中的增长加速度的数量大大少于矩阵中增长加速度的数量，因此，通过分别计算子矩阵的特征值，在特征值大于第四阈值的情况下，能够从对应的子矩阵中迅速定位出大于第二阈值的增长加速度，从而提高了突发话题的检测效率。

S304：根据确定出的每一增长加速度所对应的分词，从已获取到的所有话题数据中筛选出包含该分词的话题数据。

因矩阵或子矩阵中的每一个增长加速度均对应一个关键词，而每个关键词为话题数据中匹配度最大的分词结果中的一个分词，故系统可以依照预先存储的增长加速度以及分词的映射关系表，查询出数值大于第二阈值的各个增长加速度所分别对应的分词。若数值大于第二阈值的各个增长加速度有L个，则查询出的分词也有L个。

系统依次对当前时刻已经获取的每一条话题数据进行筛选处理，判断每一条话题数据中是否包含了上述L个分词。若某条话题数据包含了上述L个分词，则系统筛选出该条话题数据，并对该话题数据执行步骤S305。

S305：对包含该分词的话题数据再次进行分词处理，并计算分词处理后得到的各个分词的词频特征值。

对筛选出的每一条话题数据，系统重新对其进行分词处理。分词过程可以使用现有的各类分词算法，包括但不限于基于字符串匹配的分词算法、基于统计的分词算法等。分词结束后，将重新得到该条话题数据的多个分词。为了区别S102中得到的分词以及S305中得到的分词，在此将S102中所得到的分词称为第一分词，将S305中得到的分词称为第二分词。其中，第一分词与第二分词可能相同，也可能不同。为了进一步筛选出对摘要信息影响程度较大的第二分词，基于各个第二分词的词频特征量，计算出每个第二分词的词频特征值。这些词频特征量包含但不限于词频、逆向文件频率(termfrequency-TF)等。

作为本申请的一个实施例，如图5所示，上述S305具体包括：

S501：对包含该分词的话题数据再次进行分词处理，得到多个分词。

S502：在当前时刻所获取到的所有话题数据中，分别计算分词处理后得到的每个分词对应的统计词频以及逆向文件频率。

本申请实施例中，计算每个第二分词在筛选出的多条话题数据中所出现的次数，则统计得到的出现次数为第二分词的统计词频F _TF。若筛选出的话题数据的总数为X条，其中包含某一第二分词的话题数据为X＇（X＇≤X，X∈Z）条，则该第二分词的逆向文件频率F _IDF=lg(X/ X＇)。

S503：对每一分词的所述统计词频以及所述逆向文件频率进行加权处理，以输出该分词的词频特征值。

统计词频F _TF所对应的加权系数为预设值a ₃，逆向文件频率F _IDF所对应的加权系数为预设值a ₄，且a ₃+a ₄=1。每一个第二分词的词频特征值为F=F _TF×a ₃+F _IDF×a ₄。

本申请实施例中，根据每一第二分词的TF及IDF值，能够基于自定义的加权系数，计算出第二分词的词频特征值，从而通过综合考虑第二分词的TF-IDF值，能够在筛选出的多条话题数据，对每个第二分词的重要程度进行量化对比。

S306：将所述词频特征值大于第三阈值的分词输出为高频词，通过预算算法对各个所述高频词进行连接处理，以得到包含各个所述高频词的所述摘要信息。

确定出词频特征值F大于预设的第三阈值的每一个第二分词，则这些第二分词为话题数据中所出现的高频词。利用上述TextRank算法、word工具中的摘要信息生成工具以及其他自定义算法等，将各个高频词进行连接，以得到与话题数据以及与高频词关联的摘要信息。

S105：对所述关键词及所述摘要信息进行展示，以使用户获知当前时刻的突发话题。

系统将实时获得的关键词以及更新后的摘要信息进行展示。实际情况下，仅有在话题数据为突发话题时，各个关键词的累计词频的增长加速度才会大于阈值，摘要信息才会得到更新，因此，系统所实时显示的文字内容与突发话题事件的真实内容具有较高的相似度，具有一定的参考价值。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的突发话题检测方法，图6示出了本申请实施例提供的突发话题检测装置的示意图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图6，该装置包括：

获取模块61，用于持续获取信息分享平台中的话题数据。

匹配模块62，用于在获取到每一所述话题数据时，将所述话题数据与预设词库中的各个词语进行匹配处理，以输出多种分词结果。

输出模块63，用于将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词。

更新模块64，用于根据所述关键词，更新与所述话题数据关联的摘要信息。

展示模块65，用于对所述关键词及所述摘要信息进行展示，以使用户获知当前时刻的突发话题。

可选地，所述更新模块64包括：

第一计算子模块，用于分别获取每一所述关键词的累计词频，并计算所述累计词频的增长加速度，其中，所述关键词的累计词频表示在当前时刻已获取的所有话题数据中，所述关键词出现的累计次数。

添加子模块，用于将各个所述关键词所对应的所述增长加速度添加至预先生成的矩阵中。

确定子模块，用于计算当前时刻所述矩阵的特征值，当所述特征值大于第一阈值时，从所述矩阵中确定出大于第二阈值的增长加速度。

筛选子模块，用于根据确定出的每一增长加速度所对应的分词，从已获取到的所有话题数据中筛选出包含该分词的话题数据。

分词子模块，用于对包含该分词的话题数据再次进行分词处理，并计算分词处理后得到的各个分词的词频特征值。

第一输出子模块，用于将所述词频特征值大于第三阈值的分词输出为高频词，通过预算算法对各个所述高频词进行连接处理，以得到包含各个所述高频词的所述摘要信息。

可选地，所述确定子模块具体用于：

将当前时刻所述矩阵中的各个增长加速度分成N个组别，并将每一组别的增长加速度映射至一个子矩阵中；

计算每一所述子矩阵的特征值，当所述子矩阵的特征值大于第四阈值时，从所述子矩阵中筛选出大于第二阈值的增长加速度；

其中，所述N为大于1的整数。

可选地，所述分词子模块具体用于：

对包含该分词的话题数据再次进行分词处理，得到多个分词；

在当前时刻所获取到的所有话题数据中，分别计算分词处理后得到的每个分词对应的统计词频以及逆向文件频率；

对每一分词的所述统计词频以及所述逆向文件频率进行加权处理，以输出该分词的词频特征值。

可选地，所述输出模块63包括：

第二计算子模块，用于根据每一种分词结果中各个分词对应的字符总数以及每一种分词结果对应的分词总数，计算每一种分词结果的分词字符平均数。

加权子模块，用于对每一种分词结果对应的所述分词字符平均数以及所述分词总数进行加权处理，以输出每一种分词结果的匹配度。

第二输出子模块，用于将所述匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词。

图7是本申请实施例提供的突发话题检测设备的示意图。如图7所示，该实施例的突发话题检测设备7包括：处理器70以及存储器71，在所述存储器71中存储有可在所述处理器70上运行的计算机可读指令72，例如突发话题检测程序。所述处理器70执行所述计算机可读指令72时实现上述各个突发话题检测方法实施例中的步骤，例如图1所示的步骤101至105。或者，所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各模块/单元的功能，例如图6所示模块61至65的功能。

示例性的，所述计算机可读指令72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令72在所述突发话题检测设备7中的执行过程。

所述突发话题检测设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，图7仅仅是突发话题检测设备7的示例，并不构成对突发话题检测设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述突发话题检测设备设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述突发话题检测设备7的内部存储单元，例如突发话题检测设备7的硬盘或内存。所述存储器71也可以是所述突发话题检测设备7的外部存储设备，例如所述突发话题检测设备7上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器71还可以既包括所述突发话题检测设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述突发话题检测设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种突发话题检测方法，其特征在于，包括：

持续获取信息分享平台中的话题数据；

在获取到每一所述话题数据时，将所述话题数据与预设词库中的各个词语进行匹配处理，以输出多种分词结果；

将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词；

根据所述关键词，更新与所述话题数据关联的摘要信息；

对所述关键词及所述摘要信息进行展示，以使用户获知当前时刻的突发话题。
如权利要求1所述的突发话题检测方法，其特征在于，所述根据所述关键词，更新与所述话题数据关联的摘要信息，包括：

分别获取每一所述关键词的累计词频，并计算所述累计词频的增长加速度，其中，所述关键词的累计词频表示在当前时刻已获取的所有话题数据中，所述关键词出现的累计次数；

将各个所述关键词所对应的所述增长加速度添加至预先生成的矩阵中；

计算当前时刻所述矩阵的特征值，当所述特征值大于第一阈值时，从所述矩阵中确定出大于第二阈值的增长加速度；

根据确定出的每一增长加速度所对应的分词，从已获取到的所有话题数据中筛选出包含该分词的话题数据；

对包含该分词的话题数据再次进行分词处理，并计算分词处理后得到的各个分词的词频特征值；

将所述词频特征值大于第三阈值的分词输出为高频词，通过预算算法对各个所述高频词进行连接处理，以得到包含各个所述高频词的所述摘要信息。
如权利要求2所述的突发话题检测方法，其特征在于，所述计算当前时刻所述矩阵的特征值，当所述特征值大于第一阈值时，从所述矩阵中确定出大于第二阈值的增长加速度，包括：

将当前时刻所述矩阵中的各个增长加速度分成N个组别，并将每一组别的增长加速度映射至一个子矩阵中；

计算每一所述子矩阵的特征值，当所述子矩阵的特征值大于第四阈值时，从所述子矩阵中筛选出大于第二阈值的增长加速度；

其中，所述N为大于1的整数。
如权利要求2所述的突发话题检测方法，其特征在于，所述对包含该分词的话题数据再次进行分词处理，并计算分词处理后得到的各个分词的词频特征值，包括：

对包含该分词的话题数据再次进行分词处理，得到多个分词；

在当前时刻所获取到的所有话题数据中，分别计算分词处理后得到的每个分词对应的统计词频以及逆向文件频率；

对每一分词的所述统计词频以及所述逆向文件频率进行加权处理，以输出该分词的词频特征值。
如权利要求1所述的突发话题检测方法，其特征在于，所述将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词，包括：

根据每一种分词结果中各个分词对应的字符总数以及每一种分词结果对应的分词总数，计算每一种分词结果的分词字符平均数；

对每一种分词结果对应的所述分词字符平均数以及所述分词总数进行加权处理，以输出每一种分词结果的匹配度；

将所述匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词。
一种突发话题检测装置，其特征在于，包括：

获取模块，用于持续获取信息分享平台中的话题数据；

匹配模块，用于在获取到每一所述话题数据时，将所述话题数据与预设词库中的各个词语进行匹配处理，以输出多种分词结果；

输出模块，用于将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词；

更新模块，用于根据所述关键词，更新与所述话题数据关联的摘要信息；

展示模块，用于对所述关键词及所述摘要信息进行展示，以使用户获知当前时刻的突发话题。
根据权利要求6所述的突发话题检测装置，其特征在于，所述更新模块包括：

第一计算子模块，用于分别获取每一所述关键词的累计词频，并计算所述累计词频的增长加速度，其中，所述关键词的累计词频表示在当前时刻已获取的所有话题数据中，所述关键词出现的累计次数；

添加子模块，用于将各个所述关键词所对应的所述增长加速度添加至预先生成的矩阵中；

确定子模块，用于计算当前时刻所述矩阵的特征值，当所述特征值大于第一阈值时，从所述矩阵中确定出大于第二阈值的增长加速度；

筛选子模块，用于根据确定出的每一增长加速度所对应的分词，从已获取到的所有话题数据中筛选出包含该分词的话题数据；

分词子模块，用于对包含该分词的话题数据再次进行分词处理，并计算分词处理后得到的各个分词的词频特征值；

第一输出子模块，用于将所述词频特征值大于第三阈值的分词输出为高频词，通过预算算法对各个所述高频词进行连接处理，以得到包含各个所述高频词的所述摘要信息。
根据权利要求7所述的突发话题检测装置，其特征在于，所述确定子模块具体用于：

将当前时刻所述矩阵中的各个增长加速度分成N个组别，并将每一组别的增长加速度映射至一个子矩阵中；

计算每一所述子矩阵的特征值，当所述子矩阵的特征值大于第四阈值时，从所述子矩阵中筛选出大于第二阈值的增长加速度；

其中，所述N为大于1的整数。
根据权利要求7所述的突发话题检测装置，其特征在于，所述分词子模块具体用于：

对包含该分词的话题数据再次进行分词处理，得到多个分词；

在当前时刻所获取到的所有话题数据中，分别计算分词处理后得到的每个分词对应的统计词频以及逆向文件频率；

对每一分词的所述统计词频以及所述逆向文件频率进行加权处理，以输出该分词的词频特征值。
根据权利要求6所述的突发话题检测装置，其特征在于，所述输出模块包括：

第二计算子模块，用于根据每一种分词结果中各个分词对应的字符总数以及每一种分词结果对应的分词总数，计算每一种分词结果的分词字符平均数；

加权子模块，用于对每一种分词结果对应的所述分词字符平均数以及所述分词总数进行加权处理，以输出每一种分词结果的匹配度；

第二输出子模块，用于将所述匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词。
一种突发话检测设备，其特征在于，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

持续获取信息分享平台中的话题数据；

在获取到每一所述话题数据时，将所述话题数据与预设词库中的各个词语进行匹配处理，以输出多种分词结果；

将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词；

根据所述关键词，更新与所述话题数据关联的摘要信息；

对所述关键词及所述摘要信息进行展示，以使用户获知当前时刻的突发话题。
根据权利要求11所述的突发话检测设备，其特征在于，所述根据所述关键词，更新与所述话题数据关联的摘要信息，包括：

分别获取每一所述关键词的累计词频，并计算所述累计词频的增长加速度，其中，所述关键词的累计词频表示在当前时刻已获取的所有话题数据中，所述关键词出现的累计次数；

将各个所述关键词所对应的所述增长加速度添加至预先生成的矩阵中；

计算当前时刻所述矩阵的特征值，当所述特征值大于第一阈值时，从所述矩阵中确定出大于第二阈值的增长加速度；

根据确定出的每一增长加速度所对应的分词，从已获取到的所有话题数据中筛选出包含该分词的话题数据；

对包含该分词的话题数据再次进行分词处理，并计算分词处理后得到的各个分词的词频特征值；

将所述词频特征值大于第三阈值的分词输出为高频词，通过预算算法对各个所述高频词进行连接处理，以得到包含各个所述高频词的所述摘要信息。
根据权利要求12所述的突发话检测设备，其特征在于，所述计算当前时刻所述矩阵的特征值，当所述特征值大于第一阈值时，从所述矩阵中确定出大于第二阈值的增长加速度，包括：

将当前时刻所述矩阵中的各个增长加速度分成N个组别，并将每一组别的增长加速度映射至一个子矩阵中；

计算每一所述子矩阵的特征值，当所述子矩阵的特征值大于第四阈值时，从所述子矩阵中筛选出大于第二阈值的增长加速度；

其中，所述N为大于1的整数。
根据权利要求12所述的突发话检测设备，其特征在于，所述对包含该分词的话题数据再次进行分词处理，并计算分词处理后得到的各个分词的词频特征值，包括：

对包含该分词的话题数据再次进行分词处理，得到多个分词；

在当前时刻所获取到的所有话题数据中，分别计算分词处理后得到的每个分词对应的统计词频以及逆向文件频率；

对每一分词的所述统计词频以及所述逆向文件频率进行加权处理，以输出该分词的词频特征值。
根据权利要求11所述的突发话检测设备，其特征在于，所述将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词，包括：

根据每一种分词结果中各个分词对应的字符总数以及每一种分词结果对应的分词总数，计算每一种分词结果的分词字符平均数；

对每一种分词结果对应的所述分词字符平均数以及所述分词总数进行加权处理，以输出每一种分词结果的匹配度；

将所述匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被至少一个处理器执行时实现如下步骤：

持续获取信息分享平台中的话题数据；

在获取到每一所述话题数据时，将所述话题数据与预设词库中的各个词语进行匹配处理，以输出多种分词结果；

将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词；

根据所述关键词，更新与所述话题数据关联的摘要信息；

对所述关键词及所述摘要信息进行展示，以使用户获知当前时刻的突发话题。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述根据所述关键词，更新与所述话题数据关联的摘要信息，包括：

分别获取每一所述关键词的累计词频，并计算所述累计词频的增长加速度，其中，所述关键词的累计词频表示在当前时刻已获取的所有话题数据中，所述关键词出现的累计次数；

将各个所述关键词所对应的所述增长加速度添加至预先生成的矩阵中；

计算当前时刻所述矩阵的特征值，当所述特征值大于第一阈值时，从所述矩阵中确定出大于第二阈值的增长加速度；

根据确定出的每一增长加速度所对应的分词，从已获取到的所有话题数据中筛选出包含该分词的话题数据；

对包含该分词的话题数据再次进行分词处理，并计算分词处理后得到的各个分词的词频特征值；

将所述词频特征值大于第三阈值的分词输出为高频词，通过预算算法对各个所述高频词进行连接处理，以得到包含各个所述高频词的所述摘要信息。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述计算当前时刻所述矩阵的特征值，当所述特征值大于第一阈值时，从所述矩阵中确定出大于第二阈值的增长加速度，包括：

将当前时刻所述矩阵中的各个增长加速度分成N个组别，并将每一组别的增长加速度映射至一个子矩阵中；

计算每一所述子矩阵的特征值，当所述子矩阵的特征值大于第四阈值时，从所述子矩阵中筛选出大于第二阈值的增长加速度；

其中，所述N为大于1的整数。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述对包含该分词的话题数据再次进行分词处理，并计算分词处理后得到的各个分词的词频特征值，包括：

对包含该分词的话题数据再次进行分词处理，得到多个分词；

在当前时刻所获取到的所有话题数据中，分别计算分词处理后得到的每个分词对应的统计词频以及逆向文件频率；

对每一分词的所述统计词频以及所述逆向文件频率进行加权处理，以输出该分词的词频特征值。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述将匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词，包括：

根据每一种分词结果中各个分词对应的字符总数以及每一种分词结果对应的分词总数，计算每一种分词结果的分词字符平均数；

对每一种分词结果对应的所述分词字符平均数以及所述分词总数进行加权处理，以输出每一种分词结果的匹配度；

将所述匹配度最高的分词结果所包含的多个分词输出为所述话题数据对应的关键词。