WO2020258502A1

WO2020258502A1 - 文本分析方法、装置、计算机装置及存储介质

Info

Publication number: WO2020258502A1
Application number: PCT/CN2019/103413
Authority: WO
Inventors: 金戈; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-06-25
Filing date: 2019-08-29
Publication date: 2020-12-30
Also published as: CN110427610A

Abstract

一种文本分析方法、装置、计算机装置及存储介质，属于人工智能技术领域。所述文本分析方法包括：获取待分析文本（101）；将所述待分析文本的各个词语转换为词向量（102）；将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量（103）；计算所述特征向量的权重（104）；将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量（105）；将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别（106）。该方法提高了文本感情分类的效率和准确性。

Description

文本分析方法、装置、计算机装置及存储介质

本申请要求于2019年06月25日提交中国专利局，申请号为201910555929.3发明名称为“文本分析方法、装置、计算机装置及计算机存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自然语言处理技术领域，具体涉及一种文本分析方法、装置、计算机装置及存储介质。

背景技术

目前，用于文本情感分类的文本分析方法逐渐使用深度学习方法，其中以CNN(Convolutional Neural Network，卷积神经网络)、RNN(Recurrent Neural Networks，递归神经网络)和LSTM(Long Short-term Memory Recurrent Neural Network，长短时记忆递归神经网络)为代表的深度学习方法取得较好的结果。

基于CNN的算法虽然可以有效地进行文本分类，但文本情感分类问题并非单纯的文本分类问题。

RNN因包含输入信息的时序关系而在文本分析中有重要应用，利用RNN进行文本分析，比基于传统机器学习的文本情感分类方法的效果更好。使用RNN进行文档级情感分类，应用池化层自动判断在文本分类中重要的词语。但不可忽略的是RNN自身具有一定的缺陷，当循环轮次过多时，会产生长期依赖和梯度爆炸等问题。

针对RNN的不足，其变体LSTM在神经网络模块的链式结构中采用记忆单元来控制信息的交互，从而避免了RNN的缺陷。基于LSTM网络的算法可以通过有选择的保存和遗忘信息来存储文本中重要的信息，从而完成文本分析。然而，现有的基于LSTM网络的文本分析方法运算过程较长，运算效率不高，并且文本情感分类的准确性不高。

发明内容

鉴于以上内容，有必要提出一种文本分析方法、装置、计算机装置及存储介质，其可以提高文本感情分类的效率和准确性。

本申请的第一方面提供一种文本分析方法，所述方法包括：

获取待分析文本；

将所述待分析文本的各个词语转换为词向量；

将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；

计算所述特征向量的权重；

将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量；

将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。

另一种可能的实现方式中，所述将所述待分析文本的各个词语转换为词向量包括：

对所述待识别文本进行分词，得到所述待识别文本的各个词语；

用word2vec工具将所述待分析文本的各个词语转换为词向量。

另一种可能的实现方式中，所述对所述待识别文本进行分词包括：

利用结巴分词对所述待识别文本进行分词；或者

利用特定字符对所述待识别文本进行分词；或者

利用词典库对所述待识别文本进行分词。

另一种可能的实现方式中，所述获取待分析文本包括：

接收用户输入的文字，将所述用户输入的文字作为所述待分析文本；或者

接受用户输入的语音，对所述语音进行识别，得到所述待分析文本；或者

接收用户输入的文本图像，从所述文本图像进行识别，得到所述待分析文本；或者

从预定数据源获取所述待分析文本。

另一种可能的实现方式中，所述情感识别模型还包括第一隐层和第二隐层，所述计算所述特征向量的权重包括：

将所述特征向量输入所述第一隐层，并通过激活函数激活，得到中间值；

将所述中间值输入所述第二隐层，并通过输出函数输出，得到所述权重。

另一种可能的实现方式中，所述将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别包括：

将所述经过权重调整后的特征向量输入所述全连接层，得到联合特征向量；

将所述联合特征向量通过输出函数输出，得到所述待识别文本的情感类别。

另一种可能的实现方式中，所述方法还包括：

确定所述特征向量中权重大于或等于预设值的目标特征向量；

将所述待识别文本中所述目标特征向量对应的词语作为所述待识别文本的文本摘要。

本申请的第二方面提供一种文本分析装置，所述装置包括：

获取模块，用于获取待分析文本；

转换模块，用于将所述待分析文本的各个词语转换为词向量；

特征提取模块，用于将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；

第一计算模块，用于计算所述特征向量的权重；

第二计算模块，用于将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量；

识别模块，用于将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。

用word2vec工具将所述待分析文本的各个词语转换为词向量。

利用结巴分词对所述待识别文本进行分词；或者

利用特定字符对所述待识别文本进行分词；或者

利用词典库对所述待识别文本进行分词.

另一种可能的实现方式中，所述获取待分析文本包括：

从预定数据源获取所述待分析文本。

另一种可能的实现方式中，所述装置还包括：

摘要获取模块，用于确定所述特征向量中权重大于或等于预设值的目标特征向量，将所述待识别文本中所述目标特征向量对应的词语作为所述待识别文本的文本摘要。

本申请的第三方面提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机可读指令时实现所述文本分析方法。

本申请的第四方面提供一种非易失性可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现所述文本分析方法。

本申请获取待分析文本；将所述待分析文本的各个词语转换为词向量；将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；计算所述特征向量的权重；将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量；将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。本申请提高了文本感情分类的效率和准确性。

附图说明

图1是本申请实施例提供的文本分析方法的流程图。

图2是本申请实施例提供的文本分析装置的结构图。

图3是本申请实施例提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

优选地，本申请的文本分析方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本申请实施例一提供的文本分析方法的流程图。所述文本分析方法应用于计算机装置。

本申请文本分析方法对待分析文本进行分析，确定所述待分析文本的情感类别。所述文本分析方法可以提高文本感情分类的效率和准确性。

如图1所示，所述文本分析方法包括：

步骤101，获取待分析文本。

可以接收用户输入数据，根据所述用户输入数据获取所述待分析文本。所述用户输入数据可以是文字、语音或图像。

例如，可以接收用户输入的文字，将所述用户输入的文字作为所述待分析文本。

又如，可以接受用户输入的语音，对所述语音进行识别，得到所述待分析文本。可以通过所述业务自助机的麦克风采集所述用户的语音，根据采集的语音进获得所述业务申请。可以采用各种语音识别技术，例如动态时间规整(Dynamic Time Warping，DTW)、隐马尔可夫模型(Hidden Markov Model，HMM)、矢量量化(Vector Quantization，VQ)、人工神经网络(Artificial Neural Network，ANN)等技术对所述语音进行识别。

再如，可以接收用户输入的文本图像，对所述文本图像进行识别，得到所述待分析文本。可以对文本图像依次进行聚类分析、灰度化、图像滤波、二值化、倾斜校正处理，对处理后的文本图像进行图像分割，得到多个字符图像，对所述字符图像进行识别，得到所述待分析文本。其中，聚类分析处理可以采用K-means算法进行颜色聚类。二值化处理可以先对图像进行局部阈值法处理，再对局部阈值法处理后的每一部分进行动态阈值法处理。对处理后的图像进行图像分割可以包括：对处理后的图像进行基于区域的分割，对基于区域分割后的每一区域进行基于边缘检测的分割，对基于边缘检测的分割后的图像进行字符分割。

或者，可以从预定数据源获取所述待分析文本。例如，从社交平台(例如网络论坛、微博等)获取用户评论，将所述用户评论作为所述待分析文本。又如，从购物平台(例如淘宝、京东等)获取商品评论，将所述商品评论作为所述待分析文本。

所述待识别文本可以是中文文本。所述待识别文本也可以是其他语言文本。

所述待分析文本可以包括一句话，也可以包括多句话。若所述待分析文本包括多句话，可以分别对每句话进行分析，得到每句话的情感类别。

步骤102，将所述待分析文本的各个词语转换为词向量。

词向量指的是每个词语被表征为一个包含语义信息的多维度的向量。所述待分析文本可以包括n个不同的词语，用n个维度的one-hot向量表示所述待分析文本中的词语(即所述待分析文本中的每个词语对应于one-hot向量的一个维度，第一个词语对应one-hot向量中的第一个维度，第二个词语对应one-hot向量中的第二个维度，依次类推)，其中n为正整数，n可以为5000。例如，所述待分析文本中的第三个词语对应的one-hot向量中，第三个维度的值为1，其他维度的值为0。对用one-hot向量表示的所述待分析文本的各个词语进行向量化处理，得到每个词语的词向量，词向量的维度可以为300个维度，通过所述向量化处理可以用较少维度的向量承载所述待分析文本的信息。

可以利用word2vec工具将所述待分析文本的各个词语转换为词向量。例如，可以利用所述word2vec工具中的Skip-gram模型对所述待分析文本中的用one-hot向量表示的每个词语进行训练，得到词向量字典，其中每个词语对应一个词向量。所述word2vec工具为谷歌词向量工具。

可选的，所述将所述待分析文本的各个词语转换为词向量包括：

用word2vec工具将所述待分析文本的各个词语转换为词向量。

例如，所述待识别文本为中文文本，对所述中文文本进行分词，得到所述中文文本的各个词语；用word2vec工具将用one-hot向量表示的所述待分析文本的各个词语转换为词向量。

可以利用结巴分词对所述待识别文本进行分词。结巴分词属于概率语言模型分词，其任务是在全切分所得的所有结果中求某个切分方案S，使得P(S)最大，其中，P(S)表示切分方案S的概率。结巴分词为现有技术，此处不再赘述。

可以利用特定字符对所述待识别文本进行分词，在所述待识别文本中所述特定字符的前和/或后的位置上进行切分，得到所述待识别文本的分词结果。例如，可以使用预设动词(如去、在)对所述待识别文本进行分词，在所述待识别文本中预设动词的前和/或后的位置上进行切分，得到所述待识别文本的分词结果。

可以利用词典库对所述待识别文本进行分词。词典库包括多个专有名词，将专有名词作为单个词语不再进行切分。

去除所述待识别文本中的指定字符；对去除指定字符的所述待识别文本进行分词，得到去除指定字符的所述待识别文本的各个词语；用word2vec工具将所述待分析文本的各个词语转换为词向量。

所述指定字符可以包括助词，例如语气助词(吗、呢、啊、吧等)、时态助词(着、了、过等)、结构助词(的、地、得等)。所述指定字符可以包括英文字符、数字、符号、介词、连词等。可以建立停词库，停词库中包括需去除的指定字符(即停用词)。

步骤103，将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络(Long Short-term Memory Recurrent Neural Network，LSTM)，得到所述待分析文本的各个词语的特征向量。

所述双向LSTM用于对输入数据(即所述词向量)构造特征。所述双向LSTM包括前向LSTM和后向LSTM。将所述词向量分别输入所述前向LSTM和所述后向LSTM，得到所述特征向量。所述特征向量包括前向特征向量和后向特征向量，由所述前向LSTM得到所述前向特征向量，由所述后向LSTM得到所述后向特征向量。所述前向LSTM和所述后向LSTM可以都包括两层LSTM单元层，第一层LSTM单元层对输入数据构造特征，得到隐藏层单元，第二层LSTM单元层对所述隐藏层单元进行组合。所述第一层LSTM单元层用于提取局部特征，所述第二层LSTM单元层用于结合局部特征得到全局特征。每个LSTM单元层包括遗忘门、输入门、输出门，所述遗忘门、输入门、输出门控制所述LSTM单元层的记忆状态。

所述特征向量的维度等于所述词向量的个数。

LSTM是一种时间递归神经网络。相对于传统的循环神经网络(Recurrent Neural Network,RNN)，LSTM通过在LSTM单元层构建一些门来存储信息，因此其在模型训练的过程中，梯度不会很快消失。

步骤104，计算所述特征向量的权重。

特征向量的权重表示特征向量对应的词语对所述待识别文本情感分类的重要程度。权重较高，则分类能力越强。

如前所述，所述特征向量包括前向特征向量和后向特征向量，计算所述特征向量的权重也就是分别计算所述前向特征向量的前向权重和所述后向特征向量的后向权重。

在本实施例中，可以通过注意力(attention)机制计算每个特征向量的权重。

可选的，所述情感识别模型还包括第一隐层和第二隐层，所述计算所述特征向量的权重包括：

由双向长短时记忆递归神经网络得到的所述特征向量对所述待识别文本的情感分类的重要程度不同，本实施例在情感识别模型中加入所述第一隐层和所述第二隐层，用于计算所述特征向量对所述待识别文本的情感分类的重要程度(即计算所述特征向量的权重)，将所述权重加入到所述待识别文本的情感分类的过程中，有利于提升对所述待识别文本进行情感分类的准确性。

所述激活函数可以采用tanh函数，激活函数可以在神经网络模型中激活非线性关系(即让输入所述第一隐层的特征向量与所述第一隐层输出的所述中间值具有非线性关系)，所述特征向量通过所述激活函数后得到所述中间值。所述中间值被传递给第二隐层，通过所述输出函数后输出所述特征向量的权重，所述输出函数可以采用softmax函数。

所述输出函数输出的向量即为注意力。

上述计算特征向量的权重的方法运算过程简单，能够快速得到特征向量的权重，提高了情感识别模型的运算效率。

在对所述情感识别模型进行训练时，可以使用交叉熵作为损失函数。可以对双向LSTM、第一隐层、第二隐层统一进行训练，可以缩短训练时间，快速获得具有注意力机制的情感识别模型。

步骤105，将所述特征向量与对应的权重相乘，得到经过权重调整后的特征向量。

将每个特征向量与对应的权重相乘，得到经过权重调整后的特征向量，也就是将所述前向特征向量和所述前向权重相乘，得到经过权重调整后的前向特征向量，将所述后向特征向量和所述后向权重相乘，得到经过权重调整后的后向特征向量。

步骤106，将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。

可选的，将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别包括：

全连接层可以整合所述经过权重调整后的特征向量的局部信息，得到联合特征向量。所述联合特征向量可以通过softmax函数(即输出函数)进行输出，得到所述待识别文本的情感类别。

在本实施例中，所述待识别文本的情感类别可以包括正面文本、负面文本。例如，若本方法用于对用户评论进行分析，输出的情感类别包括正面评论和负面评论。

在另一实施例中，所述待识别文本的情感类别可以包括正面文本、负面文本、中性文本。例如，若本方法用于对用户评论进行分析，输出的情感类别包括正面评论、负面评论和中性评论。

实施例一的文本分析方法获取待分析文本；将所述待分析文本的各个词语转换为词向量；将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；计算所述特征向量的权重；将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量；将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。实施例一的文本分析方法使用双向LSTM并加入了注意力机制，能够快速地对文本进行分类，并且提高了分类的准确性，实现了快速准确的文本情感分类。

作为一种可选的实施方式，所述方法还包括：

本申请文本分析方法将文本情感分类和文本摘要提取结合在一起，不需要采用两个独立模型分别训练处理，并且文本情感分类和文本摘要提取共享情感识别模型的同一底层，且编码的部分被双向LSTM同时更新，因此有了相互促进的作用，对于模型的性能有一定的提升，提高了文本分析的效率。

实施例二

图2是本申请实施例二提供的文本分析装置的结构图。所述文本分析装置20应用于计算机装置。本装置的文本分析对待分析文本进行分析，确定所述待分析文本的情感类别。所述文本分析装置20可以提高文本感情分类的效率和准确性。如图2所示，所述文本分析装置20可以包括获取模块201、转换模块202、特征提取模块203、第一计算模块204、第二计算模块205、识别模块206。

获取模块201，用于获取待分析文本。

转换模块202，用于将所述待分析文本的各个词语转换为词向量。

对所述待识别文本进行分词，得到所述待识别文本的各个词语；用word2vec工具将所述待分析文本的各个词语转换为词向量。

例如，所述待识别文本为中文文本，对所述中文文本进行分词，得到所述中文文本的各个词语；用word2vec工具将所述待分析文本的各个词语转换为词向量。

特征提取模块203，用于将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络(Long Short-term Memory Recurrent Neural Network，LSTM)，得到所述待分析文本的各个词语的特征向量。

所述双向LSTM用于对输入数据(即所述词向量)构造特征。所述双向LSTM前向LSTM和后向LSTM。将所述词向量分别输入所述前向LSTM和所述后向LSTM，得到所述特征向量。所述特征向量包括前向特征向量和后向特征向量，由所述前向LSTM得到所述前向特征向量，由所述后向LSTM得到所述后向特征向量。所述前向LSTM和所述后向LSTM可以都包括两层LSTM单元层，第一层LSTM单元层对输入数据构造特征，得到隐藏层单元，第二层LSTM单元层对所述隐藏层单元进行组合。所述第一层LSTM单元层用于提取局部特征，所述第二层LSTM单元层用于结合局部特征得到全局特征。每个LSTM单元层包括遗忘门、输入门、输出门，所述遗忘门、输入门、输出门控制所述LSTM单元层的记忆状态。

所述特征向量的维度等于所述词向量的个数。

LSTM是一种时间递归神经网络模型。相对于传统的循环神经网络(Recurrent Neural Network,RNN)模型，LSTM通过在LSTM单元层构建一些门来存储信息，因此其在模型训练的过程中，梯度不会很快消失。

第一计算模块204，用于计算所述特征向量的权重。

可选的，所述情感识别模型还包括第一隐层和第二隐层，计算所述特征向量的权重包括：

由双向长短时记忆递归神经网络得到的所述特征向量对所述待识别文本的情感分类的重要程度不同，本实施例加入所第一隐层和所述第二隐层，用于计算所述特征向量对所述待识别文本的情感分类的重要程度(即计算所述特征向量的权重)，将所述权重加入到所述待识别文本的情感分类的过程中，有利于提升对所述待识别文本进行情感分类的准确性。

所述输出函数输出的向量即为注意力。

第二计算模块205，用于将所述特征向量与对应的权重相乘，得到经过权重调整后的特征向量。

识别模块206，用于将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。

本实施例提供了一种文本分析装置20。所述文本分析是对待分析文本进行分析，确定所述待分析文本的情感类别。所述文本分析装置20获取待分析文本；将所述待分析文本的各个词语转换为词向量；将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；计算所述特征向量的权重；将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量；将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。本实施例使用双向LSTM并加入了注意力机制，能够快速地对文本进行分类，并且提高了分类的准确性，实现了快速准确的文本情感分类。

在另一实施例中，所述文本分析装置20还可以包括：摘要获取模块，用于确定所述特征向量中权重大于或等于预设值的目标特征向量，将所述待识别文本中所述目标特征向量对应的词语作为所述待识别文本的文本摘要。

文本分析装置20将文本情感分类和文本摘要提取结合在一起，不需要采用两个独立模型分别训练处理，并且文本情感分类和文本摘要提取共享情感识别模型的同一底层，且编码的部分被双向LSTM同时更新，因此有了相互促进的作用，对于模型的性能有一定的提升，提高了文本分析的效率。

实施例三

本实施例提供一种非易失性可读存储介质，该非易失性可读存储介质上存储有计算机可读指令，该计算机可读指令被处理器执行时实现上述文本分析方法实施例中的步骤，例如图1所示的步骤101-106：

步骤101，获取待分析文本；

步骤102，将所述待分析文本的各个词语转换为词向量；

步骤103，将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；

步骤104，计算所述特征向量的权重；

步骤105，将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量；

或者，该计算机可读指令被处理器执行时实现上述装置实施例中各模块的功能，例如图2中的模块201-206：

获取模块201，用于获取待分析文本；

转换模块202，用于将所述待分析文本的各个词语转换为词向量；

特征提取模块203，用于将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；

第一计算模块204，用于计算所述特征向量的权重；

第二计算模块205，用于将所述特征向量与对应的权重相乘，得到经过权重调整后的特征向量；

实施例四

图3为本申请实施例四提供的计算机装置的示意图。所述计算机装置30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机可读指令303，例如文本分析程序。所述处理器302执行所述计算机可读指令303时实现上述文本分析方法实施例中的步骤，例如图1所示的步骤101-106：

步骤101，获取待分析文本；

步骤102，将所述待分析文本的各个词语转换为词向量；

步骤104，计算所述特征向量的权重；

获取模块201，用于获取待分析文本；

第一计算模块204，用于计算所述特征向量的权重；

示例性的，所述计算机可读指令303可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器301中，并由所述处理器302执行，以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令303在所述计算机装置30中的执行过程。例如，所述计算机可读指令303可以被分割成图2中的获取模块201、转换模块202、特征提取模块203、第一计算模块204、第二计算模块205、识别模块206，各模块具体功能参见实施例二。

所述计算机装置30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图3仅仅是计算机装置30的示例，并不构成对计算机装置30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器302可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等，所述处理器302是所述计算机装置30的控制中心，利用各种接口和线路连接整个计算机装置30的各个部分。

所述存储器301可用于存储所述计算机可读指令303，所述处理器302通过运行或执行存储在所述存储器301内的计算机可读指令或模块，以及调用存储在存储器301内的数据，实现所述计算机装置30的各种功能。所述存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置30的使用所创建的数据(比如音频数据等)等。此外，存储器301可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述计算机装置30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机可读指令代码，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述非易失性可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、以及软件分发介质等。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个非易失性可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种文本分析方法，其特征在于，所述方法包括：

获取待分析文本；

将所述待分析文本的各个词语转换为词向量；

将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；

计算所述特征向量的权重；

将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量；

将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。
如权利要求1所述的方法，其特征在于，所述将所述待分析文本的各个词语转换为词向量包括：

对所述待识别文本进行分词，得到所述待识别文本的各个词语；

用word2vec工具将所述待分析文本的各个词语转换为词向量。
如权利要求2所述的方法，其特征在于，所述对所述待识别文本进行分词包括：

利用结巴分词对所述待识别文本进行分词；或者

利用特定字符对所述待识别文本进行分词；或者

利用词典库对所述待识别文本进行分词。
如权利要求1所述的方法，其特征在于，所述获取待分析文本包括：

接收用户输入的文字，将所述用户输入的文字作为所述待分析文本；或者

接受用户输入的语音，对所述语音进行识别，得到所述待分析文本；或者

接收用户输入的文本图像，从所述文本图像进行识别，得到所述待分析文本；或者

从预定数据源获取所述待分析文本。
如权利要求1所述的方法，其特征在于，所述情感识别模型还包括第一隐层和第二隐层，所述计算所述特征向量的权重包括：

将所述特征向量输入所述第一隐层，并通过激活函数激活，得到中间值；

将所述中间值输入所述第二隐层，并通过输出函数输出，得到所述权重。
如权利要求1所述的方法，其特征在于，所述将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别包括：

将所述经过权重调整后的特征向量输入所述全连接层，得到联合特征向量；

将所述联合特征向量通过输出函数输出，得到所述待识别文本的情感类别。
如权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

确定所述特征向量中权重大于或等于预设值的目标特征向量；

将所述待识别文本中所述目标特征向量对应的词语作为所述待识别文本的文本摘要。
一种文本分析装置，其特征在于，所述装置包括：

获取模块，用于获取待分析文本；

转换模块，用于将所述待分析文本的各个词语转换为词向量；

特征提取模块，用于将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；

第一计算模块，用于计算所述特征向量的权重；

第二计算模块，用于将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量；

识别模块，用于将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。
一种计算机装置，其特征在于，所述计算机装置包括处理器和存储器，所述存储器用于存储计算机可读指令，所述处理器用于执行所述计算机可读指令以实现以下步骤：

获取待分析文本；

将所述待分析文本的各个词语转换为词向量；

将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；

计算所述特征向量的权重；

将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量；

将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。
如权利要求9所述的计算机装置，其特征在于，所述处理器执行所述计算机可读指令以实现所述将所述待分析文本的各个词语转换为词向量时，包括以下步骤：

对所述待识别文本进行分词，得到所述待识别文本的各个词语；

用word2vec工具将所述待分析文本的各个词语转换为词向量。
如权利要求10所述的计算机装置，其特征在于，所述处理器执行所述计算机可读指令以实现所述对所述待识别文本进行分词时，包括以下步骤：

利用结巴分词对所述待识别文本进行分词；或者

利用特定字符对所述待识别文本进行分词；或者

利用词典库对所述待识别文本进行分词。
如权利要求9所述的计算机装置，其特征在于，所述处理器执行所述计算机可读指令以实现所述获取待分析文本，包括以下步骤：

接收用户输入的文字，将所述用户输入的文字作为所述待分析文本；或者

接受用户输入的语音，对所述语音进行识别，得到所述待分析文本；或者

接收用户输入的文本图像，从所述文本图像进行识别，得到所述待分析文本；或者

从预定数据源获取所述待分析文本。
如权利要求9所述的计算机装置，其特征在于，所述处理器执行所述计算机可读指令以实现所述将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别，包括以下步骤：

将所述经过权重调整后的特征向量输入所述全连接层，得到联合特征向量；

将所述联合特征向量通过输出函数输出，得到所述待识别文本的情感类别。
如权利要求9-13中任一项所述的计算机装置，其特征在于，所述处理器还用于执行所述计算机可读指令以实现以下步骤：

确定所述特征向量中权重大于或等于预设值的目标特征向量；

将所述待识别文本中所述目标特征向量对应的词语作为所述待识别文本的文本摘要。
一种非易失性可读存储介质，所述非易失性可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现以下步骤：

获取待分析文本；

将所述待分析文本的各个词语转换为词向量；

将所述词向量输入情感识别模型中的双向长短时记忆递归神经网络，得到所述待分析文本的各个词语的特征向量；

计算所述特征向量的权重；

将所述特征向量与对应的所述权重相乘，得到经过权重调整后的特征向量；

将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别。
如权利要求15所述的存储介质，其特征在于，所述计算机可读指令被处理器执行以实现所述将所述待分析文本的各个词语转换为词向量时，包括以下步骤：

对所述待识别文本进行分词，得到所述待识别文本的各个词语；

用word2vec工具将所述待分析文本的各个词语转换为词向量。
如权利要求16所述的存储介质，其特征在于，所述计算机可读指令被处理器执行以实现所述对所述待识别文本进行分词时，包括以下步骤：

利用结巴分词对所述待识别文本进行分词；或者

利用特定字符对所述待识别文本进行分词；或者

利用词典库对所述待识别文本进行分词。
如权利要求15所述的存储介质，其特征在于，所述计算机可读指令被处理器执行以实现所述获取待分析文本，包括以下步骤：

接收用户输入的文字，将所述用户输入的文字作为所述待分析文本；或者

接受用户输入的语音，对所述语音进行识别，得到所述待分析文本；或者

接收用户输入的文本图像，从所述文本图像进行识别，得到所述待分析文本；或者

从预定数据源获取所述待分析文本。
如权利要求15所述的存储介质，其特征在于，所述计算机可读指令被处理器执行以实现所述将所述经过权重调整后的特征向量输入所述情感识别模型中的全连接层，得到所述待识别文本的情感类别，包括以下步骤：

将所述经过权重调整后的特征向量输入所述全连接层，得到联合特征向量；

将所述联合特征向量通过输出函数输出，得到所述待识别文本的情感类别。
如权利要求15-19中任一项所述的存储介质，其特征在于，所述计算机可读指令被处理器时还用于实现以下步骤：

确定所述特征向量中权重大于或等于预设值的目标特征向量；

将所述待识别文本中所述目标特征向量对应的词语作为所述待识别文本的文本摘要。