WO2019205318A1

WO2019205318A1 - 舆情信息分类方法、装置、计算机设备和存储介质

Info

Publication number: WO2019205318A1
Application number: PCT/CN2018/097033
Authority: WO
Inventors: 金鑫; 赵媛媛; 杨雨芬
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-04-25
Filing date: 2018-07-25
Publication date: 2019-10-31
Also published as: CN108628974B; CN108628974A

Abstract

一种舆情信息分类方法，包括：建立分类模型，分类模型包括词向量模型和多层循环神经网络；获取舆情信息，舆情信息包括多个句子；利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵；获取多个句子分别对应的编码，将多个句子的编码输入至训练后的多层循环神经网络；通过训练后的多层循环神经网络，基于多个句子的编码以及权重矩阵进行运算，输出多个句子的类别；根据多个句子的类别确定舆情信息对应的类别。

Description

舆情信息分类方法、装置、计算机设备和存储介质

本申请要求于2018年4月25日提交中国专利局，申请号为2018103807699，申请名称为“舆情信息分类方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种舆情信息分类方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，人们可以随时了解热点事件。通常热点事件都会产生大量的舆情信息，对舆情信息进行分析可以弄清热点事件的发展趋势。舆情信息可以有多种，例如，微博、评论等。对舆情信息进行分析之前，需要进行适当分类。通常舆情信息内容较短，文本长度不同。传统的语义表达模型很难对其进行有效分类。因此，如何有效对大量舆情信息进行分类成为目前需要解决的一个技术问题。

发明内容

根据本申请公开的各种实施例，提供一种舆情信息分类方法、装置、计算机设备和存储介质。

一种舆情信息分类方法，包括：建立分类模型，所述分类模型包括词向量模型和多层循环神经网络；获取舆情信息，所述舆情信息包括多个句子；利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵；获取所述多个句子分别对应的编码，将多个句子的编码输入至训练后的多层循环神经网络；通过所述训练后的多层循环神经网络，基于多个句子的编码以及所述权重矩阵进行运算，输出多个句子的类别；及根据多个句子的类别确定所述舆情信息对应的类别。

一种舆情信息分类装置，包括：模型建立模块，用于建立分类模型，所述分类模型包括词向量模型和多层循环神经网络；信息获取模块，用于获取舆情信息，所述舆情信息包括多个句子；权重矩阵生成模块，用于利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵；及分类模块，用于获取所述多个句子分别对应的编码，将多个句子的编码输入至所述训练后的多层循环神经网络；所述训练后的多层循环神经网络基于多个句子的编码以及所述权重矩阵进行运算，输出多个句子的类别；根据多个句子的类别确定所述舆情信息对应的类别。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：建立分类模型，所述分类模型包括词向量模型和多层循环神经网络；获取舆情信息，所述舆情信息包括多个句子；利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵；获取所述多个句子分别对应的编码，将多个句子的编码输入至训练后的多层循环神经网络；通过所述训练后的多层循环神经网络，基于多个句子的编码以及所述权重矩阵进行运算，输出多个句子的类别；及根据多个句子的类别确定所述舆情信息对应的类别。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：建立分类模型，所述分类模型包括词向量模型和多层循环神经网络；获取舆情信息，所述舆情信息包括多个句子；利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵；获取所述多个句子分别对应的编码，将多个句子的编码输入至训练后的多层循环神经网络；通过所述训练后的多层循环神经网络，基于多个句子的编码以及所述权重矩阵进行运算，输出多个句子的类别；及根据多个句子的类别确定所述舆情信息对应的类别。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中舆情信息分类方法的应用场景图；

图2为根据一个或多个实施例中舆情信息分类方法的流程示意图；

图3为根据一个或多个实施例中2层循环神经网络在时间上的展开图；

图4为根据一个或多个实施例中4层循环神经网络在时间上的展开图；

图5为根据一个或多个实施例中6层循环神经网络在时间上的展开图；

图6为根据一个或多个实施例中词向量模型训练以及多层循环神经网络训练的步骤的流程示意图；

图7为根据一个或多个实施例中舆情信息分类装置的框图；

图8为一个实施例中计算机设备的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的舆情信息分类方法，可以应用于如图1所示的应用环境中。其中，服务器102与多个网站服务器104通过网络连接。其中，服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器102可以按照预设频率从多个网站服务器104中爬取多种舆情信息。服务器102可以根据标点符号识别每条舆情信息的句子。服务器102中建立了分类模型，分类模型包括词向量模型和多层循环神经网络。服务器102获取通过词向量模型训练得到的多个句子对应的句子向量，利用多个句子向量生成权重矩阵。服务器102调用训练后的多层循环神经网络，获取句子对应的编码，将多个句子的编码输入至训练后的多层循环神经网络。训练后的多层循环神经网络利用多个句子的编码以及权重矩阵进行运算，输出多个句子的类别。服务器102根据多个句子的类别确定舆情信息对应的类别。由此实现了对大量的舆情信息进行有效分类。

在一个实施例中，如图2所示，提供了一种舆情信息分类方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，建立分类模型，分类模型包括词向量模型和多层循环神经网络。

服务器中可以预先建立分类模型，分类模型包括词向量模型和多层循环神经网络。词向量模型可以采用Skip-Gram模型，即该模型可以采用神经网络结构，包括输入向量、隐含层以及输出层。在传统的方式中，是通过该模型的输出层输出最终结果，而最终结果是一个概率分布。这种概率分布并不适用于多层循环神经网络。因此，本实施例中，仅采用该模型的输入向量与隐含层的结构，通过隐含层输出多个词的权重向量即可，不再继续通过输出层进行运算。

在多层循环神经网络中可以包含多层隐含层，隐含层包括向前推算层以及向后推算层，这也可以称为是双向推算的隐含层。第一层的隐含层包括第一向前推算层和第一向后推算层，第二层的隐含层包括第二向前推算层和第二向后推算层，第三层的隐含层包括第三向前推算层和第三向后推算层，以此类推。第一层的隐含层也可以简称为第一隐含层，以此类推。输入层与第一层的隐含层之间设置了相应的权重矩阵，即输入层与第一向前推算层以及输入层与第一向后推算层之间分别设置了相应的权重矩阵。

步骤204，获取舆情信息，舆情信息包括多个句子。

服务器可以按照预设频率从多个网站中爬取多种舆情信息。舆情信息的类型可以包括体育、财经、娱乐、教育等多种。每条舆情信息中可以包括了多个句子，每个句子中又包括多个词。服务器可以根据标点符号识别每条舆情信息的句子。服务器还可以对每个句子进行分词处理，得到每个句子中的词。

步骤206，利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵。

在传统的方式中，第一向前推算层和第一向后推算层所对应的权重矩阵均被初始化为随机向量，但这可能会导致多层循环神经网络的收敛效果较差，输出结果无法满足要求。

在本实施例中，服务器采用多个句子对应的权重矩阵作为多层循环神经网络中输入层与第一隐含层之间的权重矩阵。该权重矩阵是通过对词向量模型训练得到的。能够将自然语言的描述有效映射至向量空间，提高多层循环神经网络的收敛效率，从而能够提高输出效果的准确性。

其中，第一向前推算层和第一向后推算层所对应的权重矩阵是不同的。服务器按照舆情信息的描述顺序可以获取相应每个句子的权重向量，每个句子对应的权重向量可以是一个向量数组。服务器利用多个句子对应的权重向量，生成对应的向前推算的权重矩阵。服务器根据舆情信息中多个句子相反的描述顺序可以再次获取相应每个句子的权重向量，生成多个句子对应的向后推算的权重矩阵。向前推算的权重矩阵即为多层循环神经网络中输入层与第一向前推算层之间的权重矩阵。向后推算的权重矩阵即为多层循环神经网络中输入层与第一向后推算层之间的权重矩阵。

以舆情信息为微博举例说明，舆情可以是“平昌冬奥刚刚结束，冬奥会已经进入北京时间。2022北京冬奥加油。中国加油。”服务器可以按照“平昌冬奥刚刚结束，冬奥会已经进入北京时间”、“2022北京冬奥加油”、“中国加油”的正向描述顺序，生成向前推算的权重矩阵。服务器还可以按照“中国加油”、“2022北京冬奥加油”、“平昌冬奥刚刚结束，冬奥会已经进入北京时间”的反向描述顺序，生成向后推算的权重矩阵。

步骤208，获取句子分别对应的编码，将多个句子的编码输入至训练后的多层循环神经网络；训练后的多层循环神经网络利用多个句子的编码以及权重矩阵进行运算，输出多个句子的类别。

步骤210，根据多个句子的类别确定舆情信息对应的类别。

多层循环神经网络中的多层隐含层可以是2层、4层或者6层等。其中，每一层隐含层都包括向前推算层以及向后推算层。如图3-5所示，分别为2层、4层、6层循环神经网络在时间上的展开图。其中，Relu表示激活函数，Lstm表示长短时记忆单元，Softmax表示分类函数。w*(*表示正整数)表示权重矩阵。由展开图上可以看出，每一层向前推算层以及每一层向后推算层都设置了对应的初始权重矩阵。如图3中的w2、w5，图4中的w3、w5、w6、w8，以及图5中的w3、w5、w7、w8、w10、w12。

多层循环神经网络可以是预先训练好的。多层循环神经网络在训练时，可以利用舆情信息对应的映射文件进行训练，映射文件中记录了多个句子对应的类型。由于多层循环神经网络只接受数值输入，因此在训练时，服务器会对每条舆情信息的多个句子进行编码。具体的，服务器在训练之前，会利用样本信息生成训练表。训练表中记录了多个训练句子，每个训练句子对应多个训练词。服务器对每个训练词进行编码，再根据训练词的编码对每个句子进行编码。

服务器调用训练后的多层循环神经网络，将舆情信息中多个句子的编码输入至多层循环神经网络的输入层。输入层通过激活函数激活第一向前推算层的权重矩阵，以及激活第一向后推算层的权重矩阵，结合第一向前推算层的初始权重矩阵以及第一向后推算层的初始权重矩阵开始进行运算。其中，向前推算层与向后推算层之间没有信息流。

以训练后的多层循环神经网络为4层循环神经网络为例进行说明。输入层中输入可以是“平昌冬奥刚刚结束，冬奥会已经进入北京时间”、“2022北京冬奥加油”、“中国加油”的编码。w1为第一向前推算层的权重矩阵，w3为第一向前推算层的初始权重矩阵，经过Lstm运算之后，分别输出向前推算的权重矩阵w3(此时的w3与初始的w3已不同，这里是为了简洁描述采用了相同的标记)以及第二向前推算层所对应的权重矩阵w4。w2为第一向后推算层的权重矩阵，w6为第一向后推算层的初始权重矩阵，经过Lstm运算之后，分别输出向后推算的权重矩阵w6(此时的w6与初始的w6已不同，同样是为了简洁描述采用了相同的标记)以及第二向后推算层所对应的权重矩阵w7。以此类推进行循环，直至输出层通过分类函数依次输出每个句子的类别。

服务器对舆情信息中多个句子的类别进行统计，将类别统计数量进行排序。按照从高到低的顺序，将一个或多个类别作为舆情信息对应的类别。例如，一条微博，其对应的类别可以是体育，也可以是新闻等。

本实施例中，当需要对舆情信息进行分类时，服务器可以通过词向量模型训练得到舆情信息中的多个句子获取相应的权重向量，继而生成多个句子对应的权重矩阵。服务器将多个句子的编码输入至训练后的多层循环神经网络，通过训练后的多层循环神经网络利用多个句子的编码以及权重矩阵进行运算，输出每个句子的类别。服务器根据多个句子的类别从而能够得出舆情信息的类别。由于每个句子的权重向量是通过词向量模型训练得到的，多层循环神经网络是针对海量句子的权重矩阵进行训练后得到的。通过将自然语言的描述有效映射至向量空间，提高多层循环神经网络的收敛效率，提高分类效果的准确性。从而能够对网络上爬取到的大量的舆情信息进行有效分类。

在一个实施例中，该方法还包括：词向量模型训练以及多层循环神经网络训练的步骤。如图6所示，包括以下：

步骤602，获取与舆情信息对应的训练集，训练集中包括多条样本信息，样本信息包括多个训练句子以及与训练句子对应的多个训练词。

步骤604，通过训练词对词向量模型进行训练，得到训练词对应的词向量。

步骤606，通过多个训练句子对应的词向量对词向量模型进行训练，得到训练句子对应的句子向量。

步骤608，通过多个训练句子对应的句子向量对多层循环神经网络进行训练，得到多个训练句子对应的类别。

服务器可以在多个网站爬取多种舆情信息，将爬取到的舆情信息存入数据库中。服务器将爬取到的舆情信息作为语料进行预处理，包括分句、分词、清洗等。服务器利用预处理后的语料建立语料库。服务器在语料库中按照预设比例将预处理后的语料标记为样本信息。服务器利用样本信息生成训练集。训练集中包括多条样本信息对应的训练句子，以及与训练句子对应的训练词。词向量模型与多层循环神经网络可以通过训练集预先进行训练。多层循环神经网络在训练时需要依赖词向量模型训练得到的句子向量。词向量模型利用训练集训练多个句子的句子向量时，需要依赖每个句子的词向量。

词向量模型可以采用Skip-Gram模型，即该模型可以采用神经网络结构，包括输入向量、隐含层以及输出层。在传统的方式中，是通过该模型的输出层输出最终结果，而最终结果是一个概率分布。这种概率分布并不适用于多层循环神经网络。因此，本实施例中，仅采用该模型的输入向量与隐含层的结构，通过隐含层输出多个词的权重向量即可，不再继续通过输出层进行运算。

由于词向量模型以及多层循环神经网络只接受数值输入，因此在训练时，服务器利用样本信息生成训练表。训练表中记录了多个训练句子。服务器还会根据训练词生成相应的训练词汇表。服务器对每个训练词进行编码，再根据训练词的编码对每个句子进行编码。

对分类模型训练时，服务器首先通过训练集中的多个训练词的编码作为输入向量对词向量模型进行训练，得到训练词对应的词向量。其次，服务器利用样本信息中每个句子的编码以及对应的多个词的词向量再次对词向量模型进行训练，得到训练句子对应的句子向量。接着，服务器利用多个训练句子的句子向量生成训练权重矩阵，利用训练权重矩阵以及多个句子的编码对多层循环神经网络进行训练，得到每个训练句子对应的类别。

在传统的方式中，由于多层循环神经网络的第一向前推算层和第一向后推算层所对应的权重矩阵均被初始化为随机向量，可能会导致多层循环神经网络的收敛效果较差，无法对句子进行有效分类。而本实施例中，通过对样本信息中的训练词进行训练，能够准确得到每个训练词的词向量。再次利用训练词对应的词向量进行训练，准确得到每个训练句子对应的句子向量。从而将自然语言映射至向量空间，进而能够有效提高多层循环神经网络的收敛效果，实现对多个句子的有效分类。

在其中一个实施例中，利用训练词对词向量模型进行训练包括：统计多个训练句子中训练词的词汇数量，将多个训练句子中训练词的最大词汇数量标记为第一输入参数；根据训练句子的词汇数量与第一输入参数对应的最大词汇数量的差值，在训练句子中增加相应数量的预设字符；通过多个训练句子中的训练词以及补入的预设字符对词向量模型进行训练，得到多个训练词对应的词向量。

由于舆情信息中不同句子的词汇数量不同，为了使得训练后的词向量模型能适用于多样化的句子，本实施例中对词向量模型设置了第一输入参数。服务器可以统计多个训练句子中训练词的词汇数量，得到每个训练句子对应的训练词的词汇数量，将多个训练句子中训练词的最大词汇数量标记为第一输入参数。对于词汇数量小于第一输入参数的训练句子，服务器可以根据该训练句子的词汇数量与第一输入参数的差值，增加相应数量的预设字符。预设字符可以是与舆情信息不冲突的字符，如空字符等。例如，第一输入参数为20，相应的第一输出参数也为20，假设某个训练句子的词汇数量为10，则服务器为该句子增加10个预设字符。服务器利用训练词对应的编码以及补入的预设字符的编码对词向量模型进行训练，由此得到每个训练词以及预设字符对应的权重向量。补入的预设字符也可以称为新增字符。

在其中一个实施例中，通过多个训练句子对应的词向量对词向量模型进行训练包括：统计样本信息中训练句子的句子数量，将最大句子数量标记为第二输入参数；根据样本信息的句子数量与第二输入参数的差值，利用预设字符在样本信息中增加相应数量的句子；通过多个训练句子以及新增句子对词向量模型进行训练，得到多个训练句子对应的句子向量。

由于不同舆情信息中的句子数量不同，为了使得词向量模型能适用于多样化的舆情信息，本实施例中对词向量模型设置了第二输入参数。服务器可以统计多条样本信息中训练句子的句子数量，将最大句子数量标记为第二输入参数。对于句子数量小于第二输入参数的样本信息，服务器可以根据样本信息的句子数量与第二输入参数的差值，增加相应数量的句子。被增加的句子中可以由预设字符组成。预设字符可以是与舆情信息不冲突的字符，如空字符等。服务器利用多个训练句子以及补入的句子对应的词向量再次对词向量模型进行训练，由此得到每个训练句子对应的权重向量。其中，补入的句子也可以称为新增句子。

进一步的，服务器对训练句子进行训练之前，还可以根据第一输入参数将每个训练句子中训练词的词汇数量进行增加，使得每个训练句子增加预设字符后的词汇数量达到第一输入参数的值。服务器根据第二输入参数对样本信息中的每个训练句子的句子数量进行增加，使得每条样本信息中的句子数量达到第二输入参数的值。服务器利用增加词汇数量之后的训练句子再次通过词向量模型进行训练，得到多个训练句子对应的句子向量。从而能够进一步固定词向量模型，训练后的词向量模型的通用性得到有效提升。

在一个实施例中，通过多个训练句子以及新增句子对词向量模型进行训练包括：获取训练句子对应的映射文件，映射文件中记录了训练句子对应的类别；根据多个训练句子以及新增句子所对应的句子向量生成训练权重矩阵，训练权重矩阵与增加句子数量之后的样本信息相对应；利用多个训练句子、新增句子以及对应的训练权重矩阵，通过多层循环神经网络进行训练，输出训练句子对应的类别。

为了固定多层循环神经网络的模型结构，使得训练后多层循环神经网络具有通用性。本实施例中对多层循环神经网络均设置了第二输入参数。服务器可以参照上述实施例生成每个增加句子后的样本信息(即根据第二输入参数补入句子后的样本信息)所对应的向前推算的训练权重矩阵，以及向后推算的训练权重矩阵。

参照上述实施例中的方式，服务器获取每个训练句子的编码以及新增句子对应的编码，将相应编码输入至多层循环神经网络的输入层，将向前推算的训练权重矩阵设置为第一向前推算层的权重矩阵，将向后推算的训练权重矩阵设置为第一向后推算层的权重矩阵。服务器根据第二输入参数在输入层与第一向前推算层之间设置了多个向前推算的权重矩阵。服务器根据第二输入参数在输入层与第一向后推算层之间设置了多个向后推算的权重矩阵。例如，第二输入参数为10，则服务器输入层与第一向前推算层之间设置了10个向前推算的权重矩阵，服务器输入层与第一向后推算层之间设置了10个向后推算的权重矩阵。也就是说，服务器在图4中可以设置10个w1以及10个w2。w1中包括了样本信息中10个训练句子以及新增句子所对应的向前推算的权重矩阵。w2中包括了样本信息中10个训练句子以及新增句子所对应的向后推算的权重矩阵。服务器对隐含层中各层向前推算层的初始权重矩阵进行初始化，以及对隐含层中各层向后推算层的初始权重矩阵进行初始化。在初始化之后，服务器对多层循环神经网络进行训练，输出每个训练句子对应的类别。对于预设字符的输出，还可以是预设字符。对训练结果不会造成影响。

在训练的过程中，由于采用了词向量模型训练得到的每个训练句子的句子向量，由此能够更加准确的反映每个训练句子的矢量状况，有效提高多层循环神经网络的收敛效果，从而能够提高多层循环神经网络训练的准确性。通过设置第二输入参数，使得每条样本信息对应的句子数量相同，由此使得训练后的词向量模型以及训练后的多层循环神经网络具有通用性。无需训练多种模型，有效减少了开发人员的工作量。

进一步的，在对多层循环神经网络进行训练之前，还可以参照上述实施例中提供的方式，对词向量模型设置第一输入参数，使得每个训练句子的词汇数量相同。由于训练所采用的多个样本信息中不仅句子数量相同，而且每个句子的词汇数量相同，从而能够进一步提高训练后的词向量模型以及训练后的多层循环神经网络的通用性。

在其中一个实施例中，多层循环神经网络神经包括多个隐含层；利用多个训练句子、新增句子以及对应的训练权重矩阵，通过多层循环神经网络进行训练包括：向每层隐含层分配随机向量作为隐含层的初始权重矩阵；根据第二输入参数在输入层与第一层隐含层之间设置与增加句子数量后的样本信息相对应的训练权重矩阵；将多个训练句子对应的编码以及新增句子的编码输入至多层循环神经网络的输入层；多层隐含层利用初始权重矩阵以及训练权重矩阵进行训练，通过输出层输出训练句子对应的类别。

服务器通过训练词对多层循环神经网络进行训练时，需要对每层隐含层进行初始化。每层隐含层都可以包括向前推算层和向后推算层。每层隐含层的向前推算层和向后推算层都需要进行初始化。在传统的方式中，每层隐含层的向前推算层和向后推算层对应的初始权重矩阵均被初始化为0，但是这种方式训练得到的多层循环神经网络的泛化能力受限，如果将来有更多不同格式的舆情信息时，有可能需要重新训练。

本实施例中，在初始化时，服务器向每层隐含层的向前推算层和向后推算层分配随机向量作为初始权重矩阵。随机向量可以是预设长度的数组，例如，可以是200维或300维。在初始化完成之后，服务器在输入层与第一层隐含层之间设置与增加句子数量后的样本信息相对应的训练权重矩阵。服务器将多个训练句子对应的编码以及新增句子的编码输入至多层循环神经网络的输入层。可以参数上述实施例中提供的方式，通过多层隐含层利用初始权重矩阵以及训练权重矩阵进行训练，通过输出层输出每个训练句子的类别。

由于每层隐含层在初始化时配置随机向量作为初始权重矩阵，由此能够有效提高多层循环神经网络的泛化能力，能够在将来适用于更加多样化的舆情信息。无需训练多种模型，有效减少了开发人员的工作量。

应该理解的是，虽然图2与图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2与图6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种舆情信息分类装置，包括：模型建立模块702、信息获取模块704、权重矩阵生成模块706和分类模块708，其中：

模型建立模块702，用于建立分类模型，分类模型包括词向量模型和多层循环神经网络。

信息获取模块704，用于获取舆情信息，舆情信息包括多个句子。

权重矩阵生成模块706，用于利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵。

分类模块708，用于获取多个句子分别对应的编码，将多个句子的编码输入至训练后的多层循环神经网络；训练后的多层循环神经网络基于多个句子的编码以及权重矩阵进行运算，输出多个句子的类别；根据多个句子的类别确定舆情信息对应的类别。

在一个实施例中，该装置还包括：第一训练模块710和第二训练模块712，其中：

第一训练模块710，用于获取与舆情信息对应的训练集，训练集中包括多条样本信息，样本信息包括多个训练句子以及与训练句子对应的多个训练词；通过训练词对词向量模型进行训练，得到训练词对应的词向量；通过多个训练句子对应的词向量对词向量模型进行训练，得到训练句子对应的句子向量；

第二训练模块712，用于通过多个训练句子对应的句子向量对多层循环神经网络进行训练，得到多个训练句子对应的类别。

在一个实施例中，第一训练模块710还用于统计多个训练句子中训练词的词汇数量，将最大词汇数量标记为第一输入参数；根据训练句子的词汇数量与第一输入参数对应的最大词汇数量的差值，在训练句子中增加相应数量的预设字符；通过多个训练句子中的训练词以及补入的预设字符对词向量模型进行训练，得到多个训练词对应的词向量。

在一个实施例中，第一训练模块710还用于统计样本信息中训练句子的句子数量，将最大句子数量标记为第二输入参数；根据样本信息的句子数量与第二输入参数的差值，利用预设字符在样本信息中增加相应数量的句子；通过多个训练句子以及新增句子对词向量模型进行训练，得到多个训练句子对应的句子向量。

在一个实施例中，第二训练模块712还用于获取训练句子对应的映射文件，映射文件中记录了训练句子对应的类别；根据多个训练句子以及新增句子所对应的句子向量生成训练权重矩阵，训练权重矩阵与增加句子数量之后的样本信息相对应；利用多个训练句子、新增句子以及对应的训练权重矩阵，通过多层循环神经网络进行训练，输出训练句子对应的类别。

在一个实施例中，第二训练模块712还用于向每层隐含层分配随机向量作为隐含层的初始权重矩阵；根据第二输入参数在输入层与第一层隐含层之间设置与增加句子数量后的样本信息相对应的训练权重矩阵；将多个训练句子对应的编码以及新增句子的编码输入至多层循环神经网络的输入层；多层隐含层利用初始权重矩阵以及训练权重矩阵进行训练，通过输出层输出训练句子对应的类别。

关于舆情信息分类装置的具体限定可以参见上文中对于舆情信息分类方法的限定，在此不再赘述。上述舆情信息分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。非易失性存储介质可以是非易失性计算机可读存储介质。该计算机设备的数据库用于存储舆情信息以及样本信息等。该计算机设备的网络接口用于与外部的服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种舆情信息分类方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种舆情信息分类方法，包括：

建立分类模型，所述分类模型包括词向量模型和多层循环神经网络；

获取舆情信息，所述舆情信息包括多个句子；

利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵；

获取所述多个句子分别对应的编码，将多个句子的编码输入至训练后的多层循环神经网络；所述训练后的多层循环神经网络基于多个句子的编码以及所述权重矩阵进行运算，输出多个句子的类别；及

根据多个句子的类别确定所述舆情信息对应的类别。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与舆情信息对应的训练集，所述训练集中包括多条样本信息，样本信息包括多个训练句子以及与训练句子对应的多个训练词；

通过所述训练词对词向量模型进行训练，得到所述训练词对应的词向量；

通过多个训练句子对应的词向量对所述词向量模型进行训练，得到所述训练句子对应的句子向量；及

通过多个训练句子对应的句子向量对多层循环神经网络进行训练，得到多个训练句子对应的类别。
根据权利要求2所述的方法，其特征在于，所述利用所述训练词对词向量模型进行训练包括：

统计多个训练句子中训练词的词汇数量，将最大词汇数量标记为第一输入参数；

根据所述训练句子的词汇数量与第一输入参数对应的最大词汇数量的差值，在所述训练句子中增加相应数量的预设字符；及

通过多个训练句子中的训练词以及补入的预设字符对所述词向量模型进行训练，得到多个训练词对应的词向量。
根据权利要求2所述的方法，其特征在于，所述通过多个训练句子对应的词向量对所述词向量模型进行训练包括：

统计样本信息中训练句子的句子数量，将最大句子数量标记为第二输入参数；

根据样本信息的句子数量与第二输入参数的差值，利用预设字符在所述样本信息中增加相应数量的句子；及

通过多个训练句子以及新增句子对所述词向量模型进行训练，得到多个训练句子对应的句子向量。
根据权利要求4所述的方法，其特征在于，所述通过多个训练句子以及新增句子对所述词向量模型进行训练包括：

获取所述训练句子对应的映射文件，所述映射文件中记录了训练句子对应的类别；

根据多个训练句子以及新增句子所对应的句子向量生成训练权重矩阵，所述训练权重矩阵与增加句子数量之后的样本信息相对应；及

利用多个训练句子、新增句子以及对应的训练权重矩阵，通过所述多层循环神经网络进行训练，输出训练句子对应的类别。
根据权利要求5所述的方法，其特征在于，所述多层循环神经网络神经包括多个隐含层；所述利用多个训练句子、新增句子以及对应的训练权重矩阵，通过所述多层循环神经网络进行训练包括：

向每层隐含层分配随机向量作为隐含层的初始权重矩阵；

根据所述第二输入参数在所述输入层与第一层隐含层之间设置与增加句子数量后的样本信息相对应的训练权重矩阵；

将多个训练句子对应的编码以及新增句子的编码输入至所述多层循环神经网络的输入层；及

多层隐含层利用所述初始权重矩阵以及训练权重矩阵进行训练，通过输出层输出训练句子对应的类别。
一种舆情信息分类装置，包括：

模型建立模块，用于建立分类模型，所述分类模型包括词向量模型和多层循环神经网络；

信息获取模块，用于获取舆情信息，所述舆情信息包括多个句子；

权重矩阵生成模块，用于利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵；及

分类模块，用于获取所述多个句子分别对应的编码，将多个句子的编码输入至所述训练后的多层循环神经网络；所述训练后的多层循环神经网络基于多个句子的编码以及所述权重矩阵进行运算，输出多个句子的类别；根据多个句子的类别确定所述舆情信息对应的类别。
根据权利要求7所述的装置，其特征在于，所述装置还包括：

第一训练模块，用于获取与舆情信息对应的训练集，所述训练集中包括多条样本信息，样本信息包括多个训练句子以及与训练句子对应的多个训练词；通过所述训练词对词向量模型进行训练，得到所述训练词对应的词向量；通过多个训练句子对应的词向量对所述词向量模型进行训练，得到所述训练句子对应的句子向量；及

第二训练模块，用于通过多个训练句子对应的句子向量对多层循环神经网络进行训练，得到多个训练句子对应的类别。
一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，所述计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：

建立分类模型，所述分类模型包括词向量模型和多层循环神经网络；

获取舆情信息，所述舆情信息包括多个句子；

利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵；

获取所述多个句子分别对应的编码，将多个句子的编码输入至训练后的多层循环神经网络；所述训练后的多层循环神经网络基于多个句子的编码以及所述权重矩阵进行运算，输出多个句子的类别；及

根据多个句子的类别确定所述舆情信息对应的类别。
根据权利要求9所述的计算机设备，其特征在于，所述计算机可读指令被处理器执行时，使得一个或多个处理器还执行以下步骤：

获取与舆情信息对应的训练集，所述训练集中包括多条样本信息，样本信息包括多个训练句子以及与训练句子对应的多个训练词；

通过所述训练词对词向量模型进行训练，得到所述训练词对应的词向量；

通过多个训练句子对应的词向量对所述词向量模型进行训练，得到所述训练句子对应的句子向量；及

通过多个训练句子对应的句子向量对多层循环神经网络进行训练，得到多个训练句子对应的类别。
根据权利要求10所述的计算机设备，其特征在于，所述计算机可读指令被处理器执行时，使得一个或多个处理器还执行以下步骤：

统计多个训练句子中训练词的词汇数量，将最大词汇数量标记为第一输入参数；

根据所述训练句子的词汇数量与第一输入参数对应的最大词汇数量的差值，在所述训练句子中增加相应数量的预设字符；及

通过多个训练句子中的训练词以及补入的预设字符对所述词向量模型进行训练，得到多个训练词对应的词向量。
根据权利要求10所述的计算机设备，其特征在于，所述计算机可读指令被处理器执行时，使得一个或多个处理器还执行以下步骤：

统计样本信息中训练句子的句子数量，将最大句子数量标记为第二输入参数；

根据样本信息的句子数量与第二输入参数的差值，利用预设字符在所述样本信息中增加相应数量的句子；及

通过多个训练句子以及新增句子对所述词向量模型进行训练，得到多个训练句子对应的句子向量。
根据权利要求12所述的计算机设备，其特征在于，所述计算机可读指令被处理器执行时，使得一个或多个处理器还执行以下步骤：获取所述训练句子对应的映射文件，所述映射文件中记录了训练句子对应的类别；

根据多个训练句子以及新增句子所对应的句子向量生成训练权重矩阵，所述训练权重矩阵与增加句子数量之后的样本信息相对应；及

利用多个训练句子、新增句子以及对应的训练权重矩阵，通过所述多层循环神经网络进行训练，输出训练句子对应的类别。
根据权利要求13所述的计算机设备，其特征在于，所述多层循环神经网络神经包括多个隐含层；所述计算机可读指令被处理器执行时，使得一个或多个处理器还执行以下步骤：

向每层隐含层分配随机向量作为隐含层的初始权重矩阵；

根据所述第二输入参数在所述输入层与第一层隐含层之间设置与增加句子数量后的样本信息相对应的训练权重矩阵；

将多个训练句子对应的编码以及新增句子的编码输入至所述多层循环神经网络的输入层；及

多层隐含层利用所述初始权重矩阵以及训练权重矩阵进行训练，通过输出层输出训练句子对应的类别。
一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

建立分类模型，所述分类模型包括词向量模型和多层循环神经网络；

获取舆情信息，所述舆情信息包括多个句子；

利用词向量模型训练得到多个句子对应的句子向量，利用多个句子对应的句子向量生成权重矩阵；

获取所述多个句子分别对应的编码，将多个句子的编码输入至训练后的多层循环神经网络；所述训练后的多层循环神经网络基于多个句子的编码以及所述权重矩阵进行运算，输出多个句子的类别；及

根据多个句子的类别确定所述舆情信息对应的类别。
根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

获取与舆情信息对应的训练集，所述训练集中包括多条样本信息，样本信息包括多个训练句子以及与训练句子对应的多个训练词；

通过所述训练词对词向量模型进行训练，得到所述训练词对应的词向量；

通过多个训练句子对应的词向量对所述词向量模型进行训练，得到所述训练句子对应的句子向量；及

通过多个训练句子对应的句子向量对多层循环神经网络进行训练，得到多个训练句子对应的类别。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：统计多个训练句子中训练词的词汇数量，将最大词汇数量标记为第一输入参数；

根据所述训练句子的词汇数量与第一输入参数对应的最大词汇数量的差值，在所述训练句子中增加相应数量的预设字符；及

通过多个训练句子中的训练词以及补入的预设字符对所述词向量模型进行训练，得到多个训练词对应的词向量。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

统计样本信息中训练句子的句子数量，将最大句子数量标记为第二输入参数；

根据样本信息的句子数量与第二输入参数的差值，利用预设字符在所述样本信息中增加相应数量的句子；及

通过多个训练句子以及新增句子对所述词向量模型进行训练，得到多个训练句子对应的句子向量。
根据权利要求18所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

获取所述训练句子对应的映射文件，所述映射文件中记录了训练句子对应的类别；

根据多个训练句子以及新增句子所对应的句子向量生成训练权重矩阵，所述训练权重矩阵与增加句子数量之后的样本信息相对应；及

利用多个训练句子、新增句子以及对应的训练权重矩阵，通过所述多层循环神经网络进行训练，输出训练句子对应的类别。
根据权利要求19所述的存储介质，其特征在于，所述多层循环神经网络神经包括多个隐含层；所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器还执行以下步骤：

向每层隐含层分配随机向量作为隐含层的初始权重矩阵；

根据所述第二输入参数在所述输入层与第一层隐含层之间设置与增加句子数量后的样本信息相对应的训练权重矩阵；

将多个训练句子对应的编码以及新增句子的编码输入至所述多层循环神经网络的输入层；及

多层隐含层利用所述初始权重矩阵以及训练权重矩阵进行训练，通过输出层输出训练句子对应的类别。