WO2022134794A1

WO2022134794A1 - 新闻事件的舆情处理方法及装置、存储介质、计算机设备

Info

Publication number: WO2022134794A1
Application number: PCT/CN2021/124890
Authority: WO
Inventors: 赵亮
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-12-22
Filing date: 2021-10-20
Publication date: 2022-06-30
Also published as: CN112650923A

Abstract

一种新闻事件的舆情处理方法及装置、存储介质、计算机设备，涉及人工智能领域，主要目的在于解决现有新闻事件的舆情处理效率低的问题。包括：获取已采集的新闻舆情信息（101）；根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理（102）；提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理（103）；从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出（104）。

Description

新闻事件的舆情处理方法及装置、存储介质、计算机设备

本申请要求与2020年12月22日提交中国专利局、申请号为CN202011526767.X申请名称为“新闻事件的舆情处理方法及装置、存储介质、计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种新闻事件的舆情处理方法及装置、存储介质、计算机设备。

背景技术

目前，现有舆情系统获取数据的方法普遍是利用网络新闻中的内容直接收集舆情信息，对爬取的舆情信息进行人工分析处理，从而挖掘出针对新闻内容有用的信息，然而，这些从散落在各互联网网站的新闻内容，过于零散，不同类型的企业无法满足自身需求快速的找到需要的信息，需要专业分类性强的人员进行长时间、高强度的数据整理、分析处理才能有效得到企业需要的内容，使得长时间对收集的包含有新闻类的舆情信息进行处理又会影响信息的时效性，影响舆情信息对企业的影响作用，又消耗了大量人力资源，从而降低了企业对包含有新闻内容的舆情信息的处理效率。

发明内容

有鉴于此，本申请提供一种新闻事件的舆情处理方法及装置、存储介质、计算机设备，主要目的在于解决现有新闻事件的舆情处理效率低的问题。

依据本申请一个方面，提供了一种新闻事件的舆情处理方法，包括：

获取已采集的新闻舆情信息，所述新闻舆情信息为包含各新闻事件的文字内容的信息；

根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理；

提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理，所述第一分类标记为对所述第一次文本分类模型训练过程中从不同舆情需求训练样本集中自动标记确定的；

从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出。

依据本申请另一个方面，提供了一种新闻事件的舆情处理装置，包括：

获取模块，用于获取已采集的新闻舆情信息，所述新闻舆情信息为包含各新闻事件的文字内容的信息；

第一处理模块，用于根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理；

第二处理模块，用于提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理，所述第一分类标记为对所述第一次文本分类模型训练过程中从不同舆情需求训练样本集中自动标记确定的；

输出模块，用于从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出。

根据本申请的又一方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述新闻事件的舆情处理方法对应的操作。

根据本申请的再一方面，提供了一种计算机设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述新闻事件的舆情处理方法对应的操作。

借由上述技术方案，本申请实施例提供的技术方案至少具有下列优点：

本申请降低了人力资源消耗，并提高了新闻舆情的处理高效性，从而提高了新闻事件的舆情处理效率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种新闻事件的舆情处理方法流程图；

图2示出了本申请实施例提供的一种新闻事件的舆情处理装置组成框图；

图3示出了本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种新闻事件的舆情处理方法，如图1所示，该方法包括：

101、获取已采集的新闻舆情信息。

其中，所述新闻舆情信息为包含各新闻事件的文字内容的信息，可以包括新闻事件的整篇文本、也可以包括新闻事件的部分文本，通过舆情系统实施进行采集，例如，通过舆情系统从不同新闻互联网网站中采集各完整篇幅文字内容的新闻事件，如企业a的上半年技术发展的整篇报道文字内容，本申请实施例不做具体限定。

需要说明的是，步骤101中获取已采集的新闻舆情信息为基于舆情系统进行采集的新闻舆情信息进行存储后获取的，可以为实时的，也可以为按照预设时间间隔的，以便进行对新闻舆情信息的处理。

102、根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理。

其中，所述第一文本分类模型可以为具有分类功能的任意一个机器学习模型，例如，神经网络模型、支持向量机模型，本申请实施例不做具体限定。具体的，第一文本分类模型为基于对新闻舆情信息中各文本特征进行分类的，因此，在进行第一次分类处理之前，需要对新闻舆情信息进行自然语言处理，转换为词向量后，基于已完成训练的第一文本分类模型进行分类，本申请实施例不做具体限定。

需要说明的是，在第一次分类处理后，得到的分类会同时进行分类标记，例如，根据新闻事件中各新闻类词语进行的分类可以包括商机类标记、风险类标记、竞争类标记等，当然的，进行标记的分类标记为在对第一文本分类模型进行训练时，对训练样本集中已完成标记的，从而对获取到的新闻舆情信息进行第一次分类处理时，得到上述分类标记，从而限定本申请实施例中对于第一次分类处理为按照一个大范围程度的分类过程。

103、提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理。

本申请实施例中，当完成第一次分类处理后，可以得到第一分类标记，如为步骤102中的商机类标记、风险类标记、竞争类标记等。本申请实施例中，对于不同的分类标记预先匹配第二文本分类模型进行训练，从而在一个大范围程序的分类下，再次进行小范围的详细分类。具体的，第二本文分类模型可以为任意一个机器学习模型，与第一文本分类模型可以相同，也可以不同，如可以为神经网络模型、支持向量机模型等，本申请实施例不做具体限定。另外，在第二文本分类模型完成训练时，基于不同的第一分类标记所对应的训练样本集进行训练，从而可以基于第一次分类标记匹配到对应的第二文本分类模型，并基于匹配到的第二文本分类模型对标注为第一分类标记的新闻舆情信息进行第二次分类处理。

需要说明的是，为了进一步提高第一文本分类模型的标记能力，所述第一分类标记为对所述第一次文本分类模型训练过程中从不同舆情需求训练样本集中自动标记确定的，即针对商机类标记、风险类标记、竞争类标记是基于不同舆情需求从训练样本集中进行自动标记的，即通过聚类算法基于舆情需求确定聚类特征后，对训练样本集中的新闻事件样本进行标记，本申请实施例不做具体限定。

104、从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出。

本申请实施例中，由于第二分类标记的新闻舆情信息为基于第一分类标记再次进行分类得到的，即一个第一分类标记可以分类出多个第二分类标记，例如，作为第一分类标记的商机类标记所对应的第二分类标记包括与企业相关的新技术类、企业并购新闻类、新市场新销路发现类等，本申请实施例不做具体限定。因此，最终得到新闻舆情信息可以具有2个分类标记，并提取新闻事件内容，映射至事理图谱中的节点处进行输出。

需要说明的是，事理图谱为一个事理逻辑知识库，描述了事件之间的演化规律和模式。结构上，事理图谱是一个有向有环图，其中节点代表事件，有向边代表事件之间的顺承、因果、条件和上下位等事理逻辑关系。因此，为了准确将不同分类标识对应的新闻事件的事件内容准确、并高效的呈现给用户，以实现新闻预警的目的，将事件内容以具有逻辑关系的方式映射到事理图谱对应的节点处。

对于本申请实施例，为了提高对新闻舆情信息的分类准确性，进一步限定对第一文本分类模型的训练方法，所述方法还包括：构建三层卷积神经网络模型，基于预设的三个核特征值从训练样本集中的各完成第一分类标记的新闻文本内容中提取特征信息；基于池化层对所述特征信息进行特征筛选，拼接筛选后的特征向量，并利用所述训练样本集对所述三层卷积神经网络模型进行训练；利用adam优化器对训练过程中的所述三层卷积神经网络模型进行优化，直至完成所述三层卷积神经网络模型训练，得到第一文本分类模型。

本申请实施例中，选取卷积神经网络模型作为待训练的第一文本分类模型，构建一个三层卷积神经网络模型，利用核特征提取从训练样本新闻文本中提取特征，核的大小分别优选设定为2、3、4，其中，模型包括三个维度的输入层、卷积层、池化层pooling、全连接层dense、输出层；将三种卷积核提取的特征，通过maxpooling进行特征筛选，并将特征向量进行拼接，其中，maxPooling是对其中一个Filter卷积层抽取到若干特征值，只取得其中最大的那个池化Pooling层作为保留值，其他特征值全部抛弃，值的最大代表只保留这些特征中最强的，抛弃其他弱的此类特征；然后，经过一层dense层，激活函数为softmax进行三分类；最后，利用adam优化器对卷积神经网络模型进行模型优化，设定优化学习率为0.0005，包括：初始化梯度的累积量和平方累积量V _d/omega＝0；S _d/omega＝0；V _db＝0；S _db＝0；在第t次迭代中，用mini-batch梯度下降法计算出d/omga和db；.计算动量Momentum指数加权平均数；用RMSprop算法进行更新；计算Momentum和RMSprop的偏差修正；更新权重，直至完成模型迭代训练。

对于本申请实施例，为了满足不同企业获取舆情信息的需求，并实现自动标记的可实现性，所述构建三层卷积神经网络模型之前，所述方法还包括：获取待标记的新闻文本内容，并确定舆情需求；根据所述舆情需求确定K-means聚类中的k值，对所述新闻文本内容进行聚类，并提取聚类后不同聚类簇中文本词的出现次数超过预设阈值的特征词语，作为第一分类标记内容；基于所述第一分类标记内容对完成聚类的不同聚类簇进行第一标记分类。

其中，待标记的新闻文本内容为存储于训练样本集中作为待训练的文本内容，舆情需求为用户直接录入的分类个数，例如竞争、xx企业等2个分类个数，确定k值，从而结合舆情需求来自动的实现标记。在完成聚类后，得到不同的聚类簇，即可以确定为分类的每一类的文本内容，需要进一步确定文本内容所对应的标识，因此，基于文本词的出现次数超过阈值预设的特征词语，则确定为标记内容，例如，2个分类簇中，词语“风险”超过特征词语“风险保险”“保险”“风险投资”等预设阈值7，则将风险确定为此类的分类标记，本申请实施例不做具体限定。

需要说明的是，利用k-means聚类的具体方法包括：根据舆情需求确定k值；从数据集中随机选择k个数据点作为质心；对数据集中每一个点，计算其与每一个质心的距离(如欧式距离)，离哪个质心近，就划分到那个质心所属的集合；把所有数据归好集合后，一共有k个集合。然后重新计算每个集合的质心；如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值，我们可以认为聚类已经达到期望的结果，算法终止；如果新质心和原质心距离变化很大，需要重新迭代计算质心距离值的步骤，直至符合要求。

对于本申请实施例，为了提高对新闻舆情信息的分类准确性，进一步限定对第一文本分类模型的训练方法，所述方法还包括：构建二层卷积神经网络模型，基于预设的两个核特征值从训练样本集中隶属于所述第一分类标记的第二分类标记的新闻文本内容中提取特征信息，其中，不同的第一分类标记匹配至少一个不同的第二分类标记；基于池化层对所述特征信息进行特征筛选，拼接筛选后的特征向量，并利用所述训练样本集对所述二层卷积神经网络模型进行训练；利用adam优化器对训练过程中的所述二层卷积神经网络模型进行优化，直至完成所述二层卷积神经网络模型训练，得到第二文本分类模型。

本申请实施例中，选取卷积神经网络模型作为待训练的第二文本分类模型，构建一个二层卷积神经网络模型，利用核特征提取从训练样本新闻文本中提取特征，核的大小分别优选设定为2、3，模型包括二个维度的输入层、卷积层、池化层pooling、全连接层dense、输出层；将两种卷积核提取的特征，通过maxpooling进行特征筛选，并将特征向量进行拼接；然后经过一层dense层，每个神经单元的dropout rate为0.2，激活函数为softmax进行三分类；最后，利用adam优化器对CNN模型进行模型优化，设定优化学习率为0.0001，与第一文本分类模型训练过程中优化方法相同，此处不在赘述。

对于本申请实施例，为了提高对新闻舆情信息的获取准确性，从而提高舆情处理效率，所述获取已采集的新闻舆情信息之前，所述方法还包括：接收录入的舆情关键词，所述舆情关键词与所述舆情需求关联；从预设时间间隔内采集的舆情信息库中，按照所述舆情关键词查找匹配的新闻舆情信息；当查找到的新闻舆情信息中匹配所述舆情关键词的个数超过预设阈值，则将所述新闻舆情信息确定为已采集到的新闻舆情信息。

具体的，用于可以直接输入舆情关键词，且舆情关键词与舆情需求关联，例如，输入舆情需求为3个，关键词可以为3个以上，从而提高舆情处理的准确性。舆情系统将采集到的各新闻舆情信息存储在舆情信息库中，当需要进行舆情处理时，按照预设时间间隔采集舆情信息库中的新闻舆情信息，并结合舆情关键词查找匹配的新闻舆情信息，例如，基于关键词风险查找包含有词语风险的全部新闻舆情信息。进一步判断查找到新闻舆情信息中匹配舆情关键词的个数超过预设阈值，则确定为已采集到的新闻舆情信息，例如匹配的新闻舆情信息1中包含风险词语的5个，超过预设阈值3，则将新闻舆情信息1作为已采集到的新闻舆情信息，本申请实施例不做具体限定。

对于本申请实施例，为了进一步限定事理图谱的映射方法，从而提高舆情处理效率，所述结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处包括：基于所述舆情关键词定义事理图谱的事件，并从所述新闻事件内容中提取事件内容；按照时间顺序、因果关系、上下位关系抽取所述事件内容中的事理关系；根据所述时间顺序、所述因果关系、所述上下位关系建立所述事理关系的各节点以及节点关系，构建事理图谱；将标有所述第一分类标记、所述第二分类标记的所述新闻事件内容写入所述事理图谱中对应于所述事理内容的节点处。

具体的，基于舆情关键词定义事理图谱的事件，即为确定需要构建事理图谱的第一层事件的词语，例如，舆情关键词为竞争，则确定事理图谱的事件为竞争，即构建的事理图谱是围绕着竞争的相关新闻舆情信息所对应的事件内容。可以通过自然语言处理技术从新闻事件内容中提取事件内容是指通过包含有整个新闻事件核心的内容，例如，新闻事件内容为某地于三个商业巨头针对苹果销售的恶意竞争事件，则在提取过程中，按照主语、动词、谓语的形式，提取事件内容为苹果销售恶意竞争，本申请实施例不做具体限定。另外，由于不同的新闻舆情信息的采集会基于时间、是否在一个网站、是否在一个专栏等情况，因此，分布针对时间顺序(采集时间)、因果关系(是否在一个网站采集)、上下位关系(是否在具有上下位关系的专栏中采集)确定事理关系，即为在事理图谱中各节点之间的关系，每个节点用于存储一个新闻舆情信息。在构建事理图谱时，按照时间顺序作为每一层网络节点，依次按照因果关系、上下位关系连接存储各新闻舆情信息的事件内容的节点，本申请实施例不做具体限定。

对于本申请实施例，为了便于及时对舆情处理结果的获取，提高对新闻舆情的预警效果，所述方法还包括：当接收到对所述事理图谱中任意节点的查询请求时，按照预设查询层级统计与所述节点具有节点关系的各节点的事件内容，进行输出。

其中，用户可以基于鼠标触发对事理图片中任意节点的查询请求，当前端接收到查询请求时，按照预设查询层级统计与查询的节点具有节点关系的各节点的事件内容，进行输出。所述预设查询层级为可以基于节点向上一节点进行查询的层级以及向下一节点进行查询的层级，优选为向上2个节点、向下2个节点，然后统计出各节点中事件内容进行输出。另外，与节点具有节点关系即为可以通过上下层级查找的节点，本申请实施例不做具体限定。

本申请实施例提供了一种新闻事件的舆情处理方法，本申请实施例通过获取已采集的新闻舆情信息，所述新闻舆情信息为包含各新闻事件的文字内容的信息；根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理；提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理，所述第一分类标记为对所述第一次文本分类模型训练过程中从不同舆情需求训练样本集中自动标记确定的；从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出，满足不同企业用户进行精准新闻舆情处理的需求，大大降低了人力资源消耗，并提高了新闻舆情的处理高效性，从而提高了新闻事件的舆情处理效率。

进一步的，作为对上述图1所示方法的实现，本申请实施例提供了一种新闻事件的舆情处理装置，如图2所示，该装置包括：

获取模块21，用于获取已采集的新闻舆情信息，所述新闻舆情信息为包含各新闻事件的文字内容的信息；

第一处理模块22，用于根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理；

第二处理模块23，用于提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理，所述第一分类标记为对所述第一次文本分类模型训练过程中从不同舆情需求训练样本集中自动标记确定的；

输出模块24，用于从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出。

进一步地，所述装置还包括：

构建模块，用于构建三层卷积神经网络模型，基于预设的三个核特征值从训练样本集中的各完成第一分类标记的新闻文本内容中提取特征信息；

训练模块，用于基于池化层对所述特征信息进行特征筛选，拼接筛选后的特征向量，并利用所述训练样本集对所述三层卷积神经网络模型进行训练；

优化模块，用于利用adam优化器对训练过程中的所述三层卷积神经网络模型进行优化，直至完成所述三层卷积神经网络模型训练，得到第一文本分类模型。

进一步地，所述装置还包括：

第一确定模块，用于获取待标记的新闻文本内容，并确定舆情需求；

聚类模块，用于根据所述舆情需求确定K-means聚类中的k值，对所述新闻文本内容进行聚类，并提取聚类后不同聚类簇中文本词的出现次数超过预设阈值的特征词语，作为第一分类标记内容，；

标记模块，用于基于所述第一分类标记内容对完成聚类的不同聚类簇进行第一标记分类。

进一步地，所述构建模块，还用于构建二层卷积神经网络模型，基于预设的两个核特征值从训练样本集中隶属于所述第一分类标记的第二分类标记的新闻文本内容中提取特征信息，其中，不同的第一分类标记匹配至少一个不同的第二分类标记；

所述训练模块，还用于基于池化层对所述特征信息进行特征筛选，拼接筛选后的特征向量，并利用所述训练样本集对所述二层卷积神经网络模型进行训练；

所述优化模块，还用于利用adam优化器对训练过程中的所述二层卷积神经网络模型进行优化，直至完成所述二层卷积神经网络模型训练，得到第二文本分类模型。

进一步地，所述装置还包括：

接收模块，用于接收录入的舆情关键词，所述舆情关键词与所述舆情需求关联；

查找模块，用于从预设时间间隔内采集的舆情信息库中，按照所述舆情关键词查找匹配的新闻舆情信息；

第二确定模块，用于当查找到的新闻舆情信息中匹配所述舆情关键词的个数超过预设阈值，则将所述新闻舆情信息确定为已采集到的新闻舆情信息。

进一步地，所述输出模块包括：

提取单元，用于基于所述舆情关键词定义事理图谱的事件，并从所述新闻事件内容中提取事件内容；

计算单元，用于按照时间顺序、因果关系、上下位关系抽取所述事件内容中的事理关系；

构建单元，用于根据所述时间顺序、所述因果关系、所述上下位关系建立所述事理关系的各节点以及节点关系，构建事理图谱；

写入单元，用于将标有所述第一分类标记、所述第二分类标记的所述新闻事件内容写入所述事理图谱中对应于所述事理内容的节点处。

进一步地，所述装置还包括：

统计模块，用于当接收到对所述事理图谱中任意节点的查询请求时，按照预设查询层级统计与所述节点具有节点关系的各节点的事件内容，进行输出。

本申请实施例提供了一种新闻事件的舆情处理装置，本申请实施例通过获取已采集的新闻舆情信息，所述新闻舆情信息为包含各新闻事件的文字内容的信息；根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理；提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理，所述第一分类标记为对所述第一次文本分类模型训练过程中从不同舆情需求训练样本集中自动标记确定的；从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出，满足不同企业用户进行精准新闻舆情处理的需求，大大降低了人力资源消耗，并提高了新闻舆情的处理高效性，从而提高了新闻事件的舆情处理效率。

根据本申请一个实施例提供了一种存储介质，所述存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的新闻事件的舆情处理方法。

图3示出了根据本申请一个实施例提供的一种计算机设备的结构示意图，本申请具体实施例并不对计算机设备的具体实现做限定。

如图3所示，该计算机设备可以包括：处理器(processor)302、通信接口(Communications Interface)204、存储器(memory)306、以及通信总线308。

其中：处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。

通信接口304，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器302，用于执行程序310，具体可以执行上述新闻事件的舆情处理方法实施例中的相关步骤。

具体地，程序310可以包括程序代码，该程序代码包括计算机操作指令。

处理器302可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器306，用于存放程序310。存储器306可能包含高速RAM存储器，也可能还包括存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器可以是非易失性的，也可以是易失性的。

程序310具体可以用于使得处理器302执行以下操作：

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种新闻事件的舆情处理方法，其中，包括：

获取已采集的新闻舆情信息，所述新闻舆情信息为包含各新闻事件的文字内容的信息；

根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理；

提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理，所述第一分类标记为对所述第一次文本分类模型训练过程中从不同舆情需求训练样本集中自动标记确定的；

从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出。
根据权利要求1所述的方法，其中，所述方法还包括：

构建三层卷积神经网络模型，基于预设的三个核特征值从训练样本集中的各完成第一分类标记的新闻文本内容中提取特征信息；

基于池化层对所述特征信息进行特征筛选，拼接筛选后的特征向量，并利用所述训练样本集对所述三层卷积神经网络模型进行训练；

利用adam优化器对训练过程中的所述三层卷积神经网络模型进行优化，直至完成所述三层卷积神经网络模型训练，得到第一文本分类模型。
根据权利要求2所述的方法，其中，所述构建三层卷积神经网络模型之前，所述方法还包括：

获取待标记的新闻文本内容，并确定舆情需求；

根据所述舆情需求确定K-means聚类中的k值，对所述新闻文本内容进行聚类，并提取聚类后不同聚类簇中文本词的出现次数超过预设阈值的特征词语，作为第一分类标记内容；

基于所述第一分类标记内容对完成聚类的不同聚类簇进行第一标记分类。
根据权利要求1所述的方法，其中，所述方法还包括：

构建二层卷积神经网络模型，基于预设的两个核特征值从训练样本集中隶属于所述第一分类标记的第二分类标记的新闻文本内容中提取特征信息，其中，不同的第一分类标记匹配至少一个不同的第二分类标记；

基于池化层对所述特征信息进行特征筛选，拼接筛选后的特征向量，并利用所述训练样本集对所述二层卷积神经网络模型进行训练；

利用adam优化器对训练过程中的所述二层卷积神经网络模型进行优化，直至完成所述二层卷积神经网络模型训练，得到第二文本分类模型。
根据权利要求1所述的方法，其中，所述获取已采集的新闻舆情信息之前，所述方法还包括：

接收录入的舆情关键词，所述舆情关键词与所述舆情需求关联；

从预设时间间隔内采集的舆情信息库中，按照所述舆情关键词查找匹配的新闻舆情信息；

当查找到的新闻舆情信息中匹配所述舆情关键词的个数超过预设阈值，则将所述新闻舆情信息确定为已采集到的新闻舆情信息。
根据权利要求1-5任一项所述的方法，其中，所述结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处包括；

基于所述舆情关键词定义事理图谱的事件，并从所述新闻事件内容中提取事件内容；

按照时间顺序、因果关系、上下位关系抽取所述事件内容中的事理关系；

根据所述时间顺序、所述因果关系、所述上下位关系建立所述事理关系的各节点以及节点关系，构建事理图谱；

将标有所述第一分类标记、所述第二分类标记的所述新闻事件内容写入所述事理图谱中对应于所述事理内容的节点处。
根据权利要求6所述的方法，其中，所述方法还包括：

当接收到对所述事理图谱中任意节点的查询请求时，按照预设查询层级统计与所述节点具有节点关系的各节点的事件内容，进行输出。
一种新闻事件的舆情处理装置，其中，包括：

获取模块，用于获取已采集的新闻舆情信息，所述新闻舆情信息为包含各新闻事件的文字内容的信息；

第一处理模块，用于根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理；

第二处理模块，用于提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理，所述第一分类标记为对所述第一次文本分类模型训练过程中从不同舆情需求训练样本集中自动标记确定的；

输出模块，用于从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出。
一种计算机可读存储介质，其上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时实现新闻事件的舆情处理方法，包括：

获取已采集的新闻舆情信息，所述新闻舆情信息为包含各新闻事件的文字内容的信息；

根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理；

提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理，所述第一分类标记为对所述第一次文本分类模型训练过程中从不同舆情需求训练样本集中自动标记确定的；

从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出。
根据权利要求9所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现方法还包括：

构建三层卷积神经网络模型，基于预设的三个核特征值从训练样本集中的各完成第一分类标记的新闻文本内容中提取特征信息；

基于池化层对所述特征信息进行特征筛选，拼接筛选后的特征向量，并利用所述训练样本集对所述三层卷积神经网络模型进行训练；

利用adam优化器对训练过程中的所述三层卷积神经网络模型进行优化，直至完成所述三层卷积神经网络模型训练，得到第一文本分类模型。
根据权利要求10所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现构建三层卷积神经网络模型之前，所述方法还包括：

获取待标记的新闻文本内容，并确定舆情需求；

根据所述舆情需求确定K-means聚类中的k值，对所述新闻文本内容进行聚类，并提取聚类后不同聚类簇中文本词的出现次数超过预设阈值的特征词语，作为第一分类标记内容；

基于所述第一分类标记内容对完成聚类的不同聚类簇进行第一标记分类。
根据权利要求9所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现方法还包括：

构建二层卷积神经网络模型，基于预设的两个核特征值从训练样本集中隶属于所述第一分类标记的第二分类标记的新闻文本内容中提取特征信息，其中，不同的第一分类标记匹配至少一个不同的第二分类标记；

基于池化层对所述特征信息进行特征筛选，拼接筛选后的特征向量，并利用所述训练样本集对所述二层卷积神经网络模型进行训练；

利用adam优化器对训练过程中的所述二层卷积神经网络模型进行优化，直至完成所述二层卷积神经网络模型训练，得到第二文本分类模型。
根据权利要求9所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现获取已采集的新闻舆情信息之前，所述方法还包括：

接收录入的舆情关键词，所述舆情关键词与所述舆情需求关联；

从预设时间间隔内采集的舆情信息库中，按照所述舆情关键词查找匹配的新闻舆情信息；

当查找到的新闻舆情信息中匹配所述舆情关键词的个数超过预设阈值，则将所述新闻舆情信息确定为已采集到的新闻舆情信息。
根据权利要求9-13任一项所述的计算机可读存储介质，其中，所述计算机可读指令被处理器执行时实现结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处包括；

基于所述舆情关键词定义事理图谱的事件，并从所述新闻事件内容中提取事件内容；

按照时间顺序、因果关系、上下位关系抽取所述事件内容中的事理关系；

根据所述时间顺序、所述因果关系、所述上下位关系建立所述事理关系的各节点以及节点关系，构建事理图谱；

将标有所述第一分类标记、所述第二分类标记的所述新闻事件内容写入所述事理图谱中对应于所述事理内容的节点处。
一种计算机设备，包括存储器、处理器及存储在存储器上并可处理器上运行的计算机可读指令，其中，所述计算机可读指令被处理器执行时实现新闻事件的舆情处理方法，包括：

获取已采集的新闻舆情信息，所述新闻舆情信息为包含各新闻事件的文字内容的信息；

根据已完成训练的第一文本分类模型对所述新闻舆情信息进行第一次分类处理；

提取与所述第一次分类处理得到的第一分类标记匹配的且已完成训练的第二文本分类模型，并根据所述第二文本分类模型对匹配所述第一分类标记的新闻舆情信息进行第二次分类处理，所述第一分类标记为对所述第一次文本分类模型训练过程中从不同舆情需求训练样本集中自动标记确定的；

从所述第二次分类处理确定第二分类标记的所述新闻舆情信息中提取新闻事件内容，并结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处，进行输出。
根据权利要求15所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现方法还包括：

构建三层卷积神经网络模型，基于预设的三个核特征值从训练样本集中的各完成第一分类标记的新闻文本内容中提取特征信息；

基于池化层对所述特征信息进行特征筛选，拼接筛选后的特征向量，并利用所述训练样本集对所述三层卷积神经网络模型进行训练；

利用adam优化器对训练过程中的所述三层卷积神经网络模型进行优化，直至完成所述三层卷积神经网络模型训练，得到第一文本分类模型。
根据权利要求16所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现构建三层卷积神经网络模型之前，所述方法还包括：

获取待标记的新闻文本内容，并确定舆情需求；

根据所述舆情需求确定K-means聚类中的k值，对所述新闻文本内容进行聚类，并提取聚类后不同聚类簇中文本词的出现次数超过预设阈值的特征词语，作为第一分类标记内容；

基于所述第一分类标记内容对完成聚类的不同聚类簇进行第一标记分类。
根据权利要求15所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现方法还包括：

构建二层卷积神经网络模型，基于预设的两个核特征值从训练样本集中隶属于所述第一分类标记的第二分类标记的新闻文本内容中提取特征信息，其中，不同的第一分类标记匹配至少一个不同的第二分类标记；

基于池化层对所述特征信息进行特征筛选，拼接筛选后的特征向量，并利用所述训练样本集对所述二层卷积神经网络模型进行训练；

利用adam优化器对训练过程中的所述二层卷积神经网络模型进行优化，直至完成所述二层卷积神经网络模型训练，得到第二文本分类模型。
根据权利要求15所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现获取已采集的新闻舆情信息之前，所述方法还包括：

接收录入的舆情关键词，所述舆情关键词与所述舆情需求关联；

从预设时间间隔内采集的舆情信息库中，按照所述舆情关键词查找匹配的新闻舆情信息；

当查找到的新闻舆情信息中匹配所述舆情关键词的个数超过预设阈值，则将所述新闻舆情信息确定为已采集到的新闻舆情信息。
根据权利要求15-19任一项所述的计算机设备，其中，所述计算机可读指令被处理器执行时实现结合所述第一分类标记、所述第二分类标记将所述新闻事件内容映射至与所述舆情需求匹配的事理图谱中的对应节点处包括；

基于所述舆情关键词定义事理图谱的事件，并从所述新闻事件内容中提取事件内容；

按照时间顺序、因果关系、上下位关系抽取所述事件内容中的事理关系；

根据所述时间顺序、所述因果关系、所述上下位关系建立所述事理关系的各节点以及节点关系，构建事理图谱；

将标有所述第一分类标记、所述第二分类标记的所述新闻事件内容写入所述事理图谱中对应于所述事理内容的节点处。