WO2023173537A1

WO2023173537A1 - 文本情感分析方法、装置、设备及存储介质

Info

Publication number: WO2023173537A1
Application number: PCT/CN2022/089530
Authority: WO
Inventors: 袁超; 李敏; 徐介夫
Original assignee: 平安科技（深圳）有限公司
Priority date: 2022-03-17
Filing date: 2022-04-27
Publication date: 2023-09-21
Also published as: CN114610838A

Abstract

一种文本情感分析方法、装置、设备及存储介质，涉及语义识别技术领域。通过对于待分析数据的预处理得到文本信息（101），判断文本信息的长度是否大于预设长度阈值（102）；若是，则调用预设的文本摘要提取算法对文本信息进行精简处理，得到文本信息的摘要数据（103），将摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到待分析数据中的情感信息（104），从而解决了现有技术中对长文本进行截断处理后，由于信息的不完整，影响情感识别的问题。

Description

文本情感分析方法、装置、设备及存储介质

本申请要求于2022年03月17日提交中国专利局、申请号为202210263353.5、发明名称为“文本情感分析方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及语义识别技术领域，尤其涉及一种文本情感分析方法、装置、设备及存储介质。

背景技术

情感分析指的是利用机器学习与自然语言处理技术自动对包含主观信息的文本进行情感倾向性判断。情感分析常见的任务是情感分类，一般会给主观文本打上情感标签，常用的情感三分类标签分为正面、负面、中性。情感分析可在舆情分析、产品评价分析以及新闻评价倾向分析等应用场景下提供基础技术支持。

现有的文本情感分析技术通常采用基于深度学习的算法，因为该算法需要非常庞大的计算能力，所以采用该算法的模型对于要分析的文本具有长度的限制，如果长度超过其限制，一般都是做截断处理。像新闻这类文章的字数常常能达到几千甚至有些上万字，对其进行截断处理很可能导致保留的文章代表不了文章的情感，基于截断处理后的文本进行的情感分析容易误判原文章的情感，导致其对于长文本进行情感分析的准确度较低。

发明内容

本申请的主要目的是提供一种文本情感分析方法、装置、设备及存储介质，以解决现有的截取式分析方法在对文本的情感分析时，会破坏文本的完整性，而导致情感信息的误导识别，降低识别准确性的问题。

本申请第一方面提供了一种文本情感分析方法，所述文本情感分析方法包括：获取待分析数据，并对所述待分析数据进行预处理，得到文本信息；判断所述文本信息的长度是否大于预设长度阈值；若是，则调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据；将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息。

本申请第二方面提供了一种文本情感分析装置，包括：获取模块，用于获取待分析数据，并对所述待分析数据进行预处理，得到文本信息；判断模块，用于判断所述文本信息的长度是否大于预设长度阈值；摘要提取模块，用于在判断长度大于预设长度阈值时，调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据；情感分析模块，用于将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息。

本申请第三方面提供了一种计算机设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行以下步骤：获取待分析数据，并对所述待分析数据进行预处理，得到文本信息；判断所述文本信息的长度是否大于预设长度阈值；若是，则调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据；将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息。。

本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以下步骤：获取待分析数据，并对所述待分析数据进行预处理，得到文本信息；判断所述文本信息的长度是否大于预设长度阈值；若是，则调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据；将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息。。

本申请的技术方案中，该方法具体是通过对于待分析数据的预处理得到文本信息，判断所述文本信息的长度是否大于预设长度阈值，若是，则调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据，从而避免了对长文本的截断处理，保留了长文本中较为全面的情感信息；将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息，提高了情感分析的准确度。

附图说明

图1为本申请实施例中为文本情感分析方法的第一个实施例示意图；

图2为本申请实施例中为文本情感分析方法的第二个实施例示意图；

图3为本申请实施例中为文本情感分析方法的第三个实施例示意图；

图4为本申请实施例中文本情感分析装置的一个实施例示意图；

图5为本申请实施例中文本情感分析装置的另一个实施例示意图；

图6为本申请实施例中计算机设备的一个实施例示意图。

具体实施方式

为了现有技术对于文本进行文本情感分析时存在的准确度较低的问题，本申请提供了一种文本情感分析方法。通过对于待分析数据的预处理得到文本信息，判断文本信息的长度是否大于预设长度阈值，若是，则调用预设的文本摘要提取算法对文本信息进行精简处理，得到文本信息的摘要数据，将摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到待分析数据中的情感信息，从而避免了对长文本的截断处理，保留了长文本中较为全面的情感信息，提高了情感分析的准确度。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本申请实施例的具体流程进行描述，请参阅图1，本申请实施例中文本情感分析方法的第一个实施例，该方法的实现步骤如下：

101、获取待分析数据，并对待分析数据进行预处理，得到文本信息；

在本实施例中，具体地，包括：

对获取待分析数据进行数据清洗，得到经过数据清洗后的文本数据；

对经过数据清洗后的文本数据按照预设的文本类别进行分类，得到被归类于文本类别的文本信息；

统计文本信息的长度，得到按照长度排列的文本信息序列表，其中，文本信息序列表包含文本信息序列号和对应长度；

按照设定比例对文本信息序列表中的文本信息进行筛选，得到长度落入文本信息序列表设定比例内的文本信息。

102、判断文本信息的长度是否大于预设长度阈值；

在本实施例中，该长度阈值包括至少两个等级的长度阈值，在实际应用中，具体选择哪个等级的长度阈值进行判断，具体是通过文本的长度等级来确定，例如，待处理的文本的长度在1024以下的，则选择长度阈值为512的，若是大于1024的，则选择长度阈值为1024的。

当然，也可以根据后续的情感分析模型对数据处理的能力来确定，例如该模型可以同时处理多个文本时，则选择长度阈值较小的，反之则选较大的，具体根据实际的模型算法来确定。

若长度阈值包括三个等级以上时，例如，包括三个长度阈值，则按照长度阈值从小到大的顺序分别记为第一阈值、第二阈值和第三阈值，判断文本信息的长度位于哪两个相邻的长度阈值之间，并选取其中较小的长度阈值。例如，当文本信息的长度大于第一阈值且小于第二阈值时，则判定文本信息的长度位于第一阈值和第二阈值之间，此时选取其中较小的第一阈值。

103、若文本信息的长度大于预设长度阈值，则调用预设的文本摘要提取算法对文本信息进行精简处理，得到文本信息的摘要数据；

在该步骤中，具体地，包括：

获取文本信息中的每个句子，提取每个句子中的特征信息，形成对应的节点；

迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度；

根据相似度，构造各节点之间的无向有权边，得到文本信息的节点连接图；

根据节点连接图计算每个句子的权重；

将句子按照权重排序，得到句子权重表；

根据文本长度的设定阈值，计算句子数目；

按照权重降序顺序从句子权重表中选取数目为句子数目的句子，按照文本中的语句顺序构建文本信息的摘要数据。

在本实施例中，进一步地，对于获取文本信息中的每个句子，提取每个句子中的特征信息，形成对应的节点，包括：

对于提取文本信息中的句子，通过情感分析模型对于输入的文本信息的处理来实现，其中，情感分析模型可以采用语义识别模型，例如采用Bert模型或者Gpt2模型。在本实施例中，具体地，当情感分析模型采用Bert模型时，在文本信息被输入至Bert模型后，通过Bert模型将文本信息编码成该模型所能识别的标识符组合，其中，标识符与文本信息中的句子、词语、标点以及词语之间的关系存在对应关系。通过Bert模型遍历文本信息中代表标识符来提取句子。在实际应用中，也可以根据代表句号的标识符来进行文本信息的拆分，从而提取文本信息中的句子。

对于提取每个句子中的特征信息，通过情感分析模型对于输入的文本信息的处理来实现。在本实施例中，具体地，当情感分析模型采用Bert模型时，则通过遍历每个句子中包含的特征信息对应向量值来每个句子中的特征信息。在实际应用中，也可以通过获取代表句子中每个词语的标识符，并将包含于同一个句子的所有标识符进行汇总，从而提取每个句子中的特征信息。

对于形成对应的节点，通过情感分析模型对于输入的文本信息的处理来实现。在本实施例中，具体地，将每个句子对应的标识符和其包含的所有特征信息的标识符按照模型所能兼容的数据结构构建节点，从而形成对应的节点，其中，每个节点代表一个句子，节点上包含的特征信息代表着该句子所包含的特征信息。

在本实施例中，进一步地，对于迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度，包括使用如下公式计算节点之间的相似度：

其中，Similarity表示两个节点间的相似度，Si、Sj分别表示两个节点，下标i和j表示节点的编号，ωk表示节点对应的特征信息，ωk中的下标k指代任意一个使得ωk符合条件的值，在上述公式中，ωk中的下标k使得ωk满足的条件为：使得ωk同时属于节点Si和Sj所包含的特征信息。在本实施例中，每个节点对应一个句子，节点对应的特征信息即为句子中的特征信息。公式中等号右侧的分母部分对于两个节点的模取对数相加，表示各自节点所包含的特征信息总量，采取分别取对数求和的处理方式，用于解决当长句子对应的节点包含的特征信息较多时，其中一部分特征信息对于计算相似度缺少贡献的问题；公式中等号右侧的分子部分表示同时出现于Si和Sj两个节点中的特征信息。

在本实施例中，进一步地，对于根据相似度，构造各节点之间的无向有权边，得到文本信息的节点连接图，包括：

连接具有相似度的节点，构造无向无权边；

获取各节点与其他节点间的相似度，将该相似度标注为无向无权边的权值，构造无向有权边，得到节点连接图。

在本实施例中，进一步地，对于根据节点连接图计算每个句子的权重，包括采用如下公式根据节点连接图计算每个句子的权重：

在本实施例中，公式等号左侧的WS(Vi)表示句子i的权重，右侧的求和表示每个相邻句子对本句子的贡献程度。d表示阻尼系数，在本实施例中该系数为0.85，WS(Vi)表示句子i的权重，WS(Vj)表示句子j的权重，Wji表示上次迭代计算得出的句子j的权重，Wjk表示上次迭代计算得出的句子k的权重，V _j∈In(V _i)表示句子j中和句子i之间相同的特征信息数量，V _k∈Out(V _j)表示句子k中和句子j之间不同的特征信息数量。在本实施例中，对于文本信息中的单个文档所形成的节点连接图，我们可以粗略地认为该文档中所有句子都是相邻的，可以在采用前述公式迭代计算句子的权重时减少计算量。

在本实施例中，进一步地，对于将句子按照权重排序，得到句子权重表，包括：

获取所有句子节点的序列号与其对应的权重值，得到未排序的句子权重表；

将未排序的句子权重表的每一项按照权重进行排序。

在本实施例中，对于句子权重表按照权重降序排列，便于对权重高的句子的抽取，当然，根据所采取的对权重高的句子的抽取方式不同，也可以采用按照权重升序排列的方式。在实际应用中，根据采用的重要句子抽取方式的不同，可以在句子权重表的排序过程中同时计算诸如句子长度、句子包含的特征信息的多少以及句子在原文档中的位置等参数，综合进行排序。

在本实施例中，进一步地，对于根据文本长度的设定阈值，计算句子数目，包括：

统计待分析文本信息中的句子平均长度；

计算文本长度的设定阈值除以句子平均长度所得值，所得值的整数位即为句子数目。

根据文本长度的设定阈值在本实施例中，进一步地，对于按照权重降序顺序从句子权重表中选取数目为句子数目的句子，按照文本中的语句顺序构建文本信息的摘要数据，包括：

按照权重降序顺序从句子权重表中选取数目为句子数目的句子；

对于所选取的句子按照预设的筛选方式进行筛选，例如，根据摘要中对于句子长度的预设阈值进行筛选，去除长度不在预设阈值范围内的句子；

按照文本中的语句顺序排列所选取的句子，构建文本信息的摘要数据。

104、将摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到待分析数据中的情感信息。

该步骤中，具体地，包括：

将摘要数据输入至预先训练得到的情感分析模型，提取摘要数据的所有特征信息，并将各特征信息转换成对应的向量，得到向量集；

根据情感分析模型对应的情感分析维度，按照情感分析模型的运算规则对向量集进行映射和归一化处理，得到在情感分析维度上的概率分布结果；

在情感分析模型对应的每一个情感分析维度上，统计概率分布结果对应的概率分布区间，根据情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系，得到待分析数据中的情感信息。

在本实施例中，进一步地，对于将摘要数据输入至预先训练得到的情感分析模型，提取摘要数据的所有特征信息，并将各特征信息转换成对应的向量，得到向量集，包括：

利用情感分析模型提取摘要数据的特征信息，形成对应的特征向量；

对特征向量采用点积函数进行相似度计算得到对应权重；

将权重和相应的键值(Value)进行加权求和得到注意力值(Attention)；

将注意力值(Attention)输入至Sigmoid层，在Sigmoid层上进行注意力(Attention)值与特征向量的相乘运算，得到对应的编码向量；

获取所有编码向量，得到向量集。

在本实施例中，进一步地，对于根据情感分析模型对应的情感分析维度，按照情感分析模型的运算规则对向量集进行映射和归一化处理，得到在情感分析维度上的概率分布结果，包括：

将向量集与权重矩阵进行相乘和偏置处理，得到在全连接层上的映射值；

采用Softmax算法对映射值进行归一化处理，得到处于0至1这一概率区间的概率值。

在本实施例中，进一步地，对于在情感分析模型对应的每一个情感分析维度上，统计概率分布结果对应的概率分布区间，根据情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系，得到待分析数据中的情感信息，包括：

情感分析模型对应的情感分析维度包括至少两个维度，例如，正面和负面这两个情感分析维度。在实际运用中，根据情感分析的应用场景，可以设置更多的情感分析维度，例如，正面、中性和负面这三个情感分析维度。

概率分布结果至少包括待分析数据经过情感分析模型分析得到的概率值和不同数据对应的概率分布。概率值的呈现方式根据所选取的情感分析模型而确定，例如，通过0到1之间的概率值来呈现。不同数据对应的概率分布的呈现方式根据所选取的情感分析模型而确定，例如，通过概率分布列表呈现，该列表包含不同数据标识号和其对应在每一个情感分析维度上的概率分布。各概率分布区间与所表示的情感信息之间的对应关系根据所选取的情感分析模型而确定，例如，根据所选取的情感分析模型，在“正面”这一情感分析维度上，概率分布在0.6以上的对应数据的情感信息被判定为“正面”。情感信息的呈现方式根据所选取的情感分析模型而确定，例如，通过情感信息列表呈现，该列表包含不同数据标识号和其对应的概率分布区间所代表的情感分析结果。

在本实施例中，进一步地，对于预先训练得到的情感分析模型，通过如下方式训练得到：

采集文本数据；

按照预设的标签标记方法对文本数据进行标记，使得文本数据都被标记上对应的标签信息，得到文本数据与对应标签信息的集合，记为情感分析语料集；

对情感分析语料集中的数据按照预设的比例和分类方法进行分类，得到训练数据、验证数据和测试数据；

将训练数据输入至待训练的情感分析模型进行情感分析，得到训练数据中的情感信息；

根据训练数据中的情感信息，通过交叉熵函数计算损失值，记录损失值和待训练的情感分析模型的参数特征；

将训练数据和验证数据按照预设的方式分别循环输入待训练的情感分析模型进行情感分析，并根据训练数据中的情感信息，通过交叉熵函数计算损失值，记录损失值和待训练的情感分析模型的参数特征，直到对应的损失值和待训练的情感分析模型的参数特征符合预设标准，得到情感分析模型。

在本实施例中，具体地，对于按照预设的标签标记方法对文本数据进行标记，使得文本数据都被标记上对应的标签信息，得到文本数据与对应标签信息的集合，记为情感分析语料集，包括：

根据预设的情感分析维度，选取对应的标签标记方法，并对文本数据进行标记，使得文本数据都被标记上对应的标签信息，得到文本数据与对应标签信息的集合，例如：根据预设的“正面”、“负面”和“中性”的情感分析维度，按照文本情感分析为“正面”、“负面”和“中性”的情感标签标签标记方法对文本数据进行标记。

在本实施例中，具体地，对于对情感分析语料集中的数据按照预设的比例和分类方法进行分类，得到训练数据、验证数据和测试数据，包括：

预设的训练数据、验证数据和测试数据比例为8比1比1。在实际应用中，预设的训练数据、验证数据和测试数据比例根据所选取的情感分析模型来确定。

在本实施例中，具体地，对于待训练的情感分析模型，包括：

可以选取基于深度学习的算法的待训练的情感分析模型，例如Bert模型和Gpt2模型。

通过对上述方法的实施，通过对于待分析数据的预处理得到文本信息，判断文本信息的长度是否大于预设长度阈值，若是，则调用预设的文本摘要提取算法对文本信息进行精简处理，得到文本信息的摘要数据，将摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到待分析数据中的情感信息，从而避免了对长文本的截断处理，保留了长文本中较为全面的情感信息，提高了情感分析的准确度。

为便于理解，下面对本申请实施例的具体流程进行描述，请参阅图2，本申请实施例中文本情感分析方法的第二个实施例，该方法的实现步骤如下：

201、获取待分析数据，并对待分析数据进行预处理，得到文本信息；

对于该步骤，具体通过去除文本数据中的噪声，得到去除噪声后的文本数据；将去除噪声后的文本数据的文本形式转换成预设的文本形式，得到转换格式后的文本数据；对转换格式后的文本数据按照预设的类别和特征进行分类和筛选，得到文本信息。

202、判断文本信息的长度是否大于预设长度阈值；

203、若文本信息的长度大于预设长度阈值，则获取文本信息中的每个句子，提取每个句子中的特征信息，形成对应的节点；

在该步骤中，对于提取文本信息中的句子，通过情感分析模型对于输入的文本信息的处理来实现，其中，情感分析模型可以采用语义识别模型，例如采用Bert模型或者Gpt2模型。在本实施例中，具体地，当情感分析模型采用Bert模型时，在文本信息被输入至Bert模型后，通过Bert模型将文本信息编码成该模型所能识别的标识符组合，其中，标识符与文本信息中的句子、词语、标点以及词语之间的关系存在对应关系。通过Bert模型遍历文本信息中代表标识符来提取句子。在实际应用中，也可以根据代表句号的标识符来进行文本信息的拆分，从而提取文本信息中的句子。将每个句子中的特征信息整合至对应的节点上。

204、采用摘要提取算法提取文本中的关键词。

在本实施例中，摘要提取算法包括基于句子权重的计算提取算法，例如TextRank算法，也包括基于边界值的计算提取算法，例如最大边界相关算法MMR(Maximal Marginal Relevance)。在本实施例中，关键词抽取是指从文本中确定一些能够描述文档含义的术语的过程。

在本实施例中，当采用TextRank算法时，提取文本中的关键词包括通过构建顶点集的方式实现，具体地，以句子中的一个或多个字作为文本单元，并通过TextRank算法基于文本单元构建顶点集。

在实际应用中，也可以根据这些字之间的关系构建边，例如，在同一个语义框中出现的关系。在实际应用中，根据任务的需要，可以使用语法过滤器(syntactic filters)对顶点集进行优化。语法过滤器的作用是将某一类或者某几类词性的字过滤出来作为顶点集。

205、采用摘要提取算法提取文本中的关键短语。

在本实施例中，具体地，在关键词抽取结束后，用提取到的N个关键词，在原始文本中相邻的关键词构成关键短语，可选地，当采用TextRank算法时，包括以下步骤：

通过TextRank算法判断关键词是否存在相邻关系；

若存在，则基于该相邻关系构建关键短语；

若不存在，则按照关键词的排列顺序继续判断关键词是否存在相邻关系。

206、采用摘要提取算法提取文本中的关键句，并将关键句按照文本中的语句顺序构建文本信息的摘要数据。

在本实施例中，具体地，是根据两个句子之间的内容重复程度计算句子之间的相似度，并通过对各句子相似度的迭代计算得到每个句子对应的权重，以提取权重高于设定阈值的关键句。

进一步地，内容重复程度主要是依据前述关键词和关键短语的重合程度来计算，包括采用余弦相似度公式计算节点之间的相似度：

其中，给定节点u和节点v，令N(u)表示节点u曾经有过正反馈的特征信息集合，令N(v)为节点v曾经有过正反馈的特征信息集合，Wuv表示节点u和节点v之间的相似度。

207、将摘要数据输入至预先训练得到的情感分析模型，提取摘要数据的所有特征信息，并将各特征信息转换成对应的向量，得到向量集；

对于该步骤，在本实施例中，具体地，包括：

对特征向量采用点积函数进行相似度计算得到对应权重；

获取所有编码向量，得到向量集。

208、根据情感分析模型对应的情感分析维度，按照情感分析模型的运算规则对向量集进行映射和归一化处理，得到在情感分析维度上的概率分布结果；

对于该步骤，在本实施例中，具体地，包括：

采用Softmax算法对映射值进行归一化处理，具体地，采用以下方式计算Softmax值：

假设有一个数组V，Vi表示V中的第i个元素，那么这个元素的Softmax值为:

在本实施例中，e表示自然对数，j表示元素个数，第i个元素的Softmax值，就是该元素的指数与所有元素指数和的比值。在本实施例中，使用Softmax算法将映射值转换到0至1这一概率区间，实现对映射值的归一化处理；

根据情感分析模型对应的情感分析维度，对处于0至1这一概率区间的概率值进行统计，得到在情感分析维度上的概率分布结果。

209、在情感分析模型对应的每一个情感分析维度上，统计概率分布结果对应的概率分布区间，根据情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系，得到待分析数据中的情感信息。

对于该步骤，在本实施例中，具体地，包括：

通过对上述方法的实施，通过对于待分析数据的预处理得到文本信息，判断文本信息的长度是否大于预设长度阈值，若是，则调用预设的文本摘要提取算法对文本信息进行精简处理，得到文本信息的摘要数据，在此过程中以相似度为基础选取关键词、关键短语和关键句，从而形成摘要数据，能够保留文本中重要句子的信息；将摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到待分析数据中的情感信息，从而避免了对长文本的截断处理，保留了长文本中较为全面的情感信息，提高了情感分析的准确度。

为便于理解，下面对本申请实施例的具体流程进行描述，请参阅图3，本申请实施例中文本情感分析方法的第三个实施例，该方法的实现步骤如下：

301、获取待分析数据，并对待分析数据进行预处理，得到文本信息；

对于该步骤，在本实施例中，具体地，包括：

302、判断文本信息的长度是否大于预设长度阈值；

对于该步骤，在本实施例中，具体地，包括：

303、若文本信息的长度大于预设长度阈值，则获取文本信息中的每个句子，提取每个句子中的特征信息，形成对应的节点；

对于该步骤，在本实施例中，具体地，包括：

304、迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度；

对于该步骤，在本实施例中，具体地，包括使用如下公式计算节点之间的相似度：

当然，为了解决当长句子对应的节点包含的特征信息较多时，其中一部分特征信息对于计算相似度缺少贡献的问题，也可以在公式中等号右侧的分母部分对于两个节点各自节点所包含的特征信息总量进行分别取算术平方根求和处理，此时，公式如下：

305、根据相似度，构造各节点之间的无向有权边，得到文本信息的节点连接图；

对于该步骤，在本实施例中，具体地，包括：

连接具有相似度的节点，构造无向无权边；

在本实施例中，节点连接图是由顶点集V(Vertices)和边集E(Edges)组成，表示为G＝(V，E)，顶点包含于顶点集V(v∈V)，即为句子对应的节点，连接一对顶点的边(v _i，v _j)∈E具有权重W(v _i，v _j)，在本实施例中，权重为顶点之间的相似度，所用的是无向图。在实际应用中，由于选取的摘要提取算法不同，有权图可以包括无向有权图和有向有权图。

306、根据节点连接图计算每个句子的权重；

对于该步骤，在本实施例中，具体地，包括采用如下公式根据节点连接图计算每个句子的权重：

在实际应用中，在计算能力能够支持的情况下，可以对单个文档采取类似多文档的生成和抽取方法，即在每一个对应的文档窗口采用前述公式进行计算，实现对单文档中关键词句的生成和抽取。

307、将句子按照权重排序，得到句子权重表；

对于该步骤，在本实施例中，具体地，包括：

将未排序的句子权重表的每一项按照权重进行排序。

308、根据文本长度的设定阈值，计算句子数目；

对于该步骤，在本实施例中，具体地，包括：

统计待分析文本信息中的句子平均长度；

在实际应用中，除了对句子平均长度的统计处理，当然也可以采取对句子长度取中位数的处理，或者根据预设的其他计算方式采用其他的统计手段。

在实际应用中，除了采用直接除法的计算方式来计算句子数目，当然也可以采取先对文本长度的设定阈值进行乘性放大或者缩小再进行除法运算的方式来计算句子数目。

309、按照权重降序顺序从句子权重表中选取数目为句子数目的句子，按照文本中的语句顺序构建文本信息的摘要数据。

对于该步骤，在本实施例中，具体地，包括：

310、将摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到待分析数据中的情感信息。

该步骤中，具体地，包括：

对特征向量采用点积函数进行相似度计算得到对应权重；

将注意力值(Attention)输入至Sigmoid层，在Sigmoid层上进行注意力(Attention) 值与特征向量的相乘运算，得到对应的编码向量；

获取所有编码向量，得到向量集。

采用Softmax算法对映射值进行归一化处理。

通过对上述方法的实施，通过对于待分析数据的预处理得到文本信息，判断文本信息的长度是否大于预设长度阈值，若是，则调用预设的文本摘要提取算法对文本信息进行精简处理，得到文本信息的摘要数据，在此过程中能够主要依据句子的权重来选取摘要中的句子，能够保留重要句子的信息；将摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到待分析数据中的情感信息，从而避免了对长文本的截断处理，保留了长文本中较为全面的情感信息，提高了情感分析的准确度。

上面对本申请实施例中的文本情感分析方法进行了描述，下面对本申请实施例中的文本情感分析装置进行描述，请参照图4，本申请实施例中的文本情感分析装置的一个实施例包括：

获取模块501，用于获取待分析数据，并对待分析数据进行预处理，得到文本信息；

判断模块502，用于判断文本信息的长度是否大于预设长度阈值；

摘要提取模块503，用于在判断长度大于预设长度阈值时，调用预设的文本摘要提取算法对文本信息进行精简处理，得到文本信息的摘要数据；

情感分析模块504，用于将摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到待分析数据中的情感信息。

通过对上述方法的实施，通过对于待分析数据的预处理得到文本信息，判断文本信息的长度是否大于预设长度阈值；若是，则调用预设的文本摘要提取算法对文本信息进行精简处理，得到文本信息的摘要数据，将摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到待分析数据中的情感信息，从而解决了现有技术中对长文本进行截断处理后，由于信息的不完整而影响情感识别的问题。

请参阅图5，本申请实施例中的文本情感分析装置的另一个实施例包括：

其中，获取模块501，包括：

数据获取单元5011，用于获取待分析的数据；

预处理单元5012，用于对待分析的数据进行预处理，得到文本信息；

在本实施例中，预处理单元5012具体用于：

其中，摘要提取模块503包括：

提取单元5031，用于获取文本信息中的每个句子，提取每个句子中的特征信息，形成对应的节点；

第一计算单元5032，用于迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度；

构造单元5033，用于根据相似度，构造各节点之间的无向有权边，得到文本信息的节点连接图；

第二计算单元5034，用于根据节点连接图计算每个句子的权重；

排序单元5035，用于将句子按照权重排序，得到句子权重表；

第三计算单元5036，用于根据文本长度的设定阈值，计算句子数目；

摘要提取单元5037，用于按照权重降序顺序从句子权重表中选取数目为句子数目的句子，按照文本中的语句顺序构建文本信息的摘要数据。

其中，情感分析模块504包括：

向量化单元5041，用于将摘要数据输入至预先训练得到的情感分析模型，提取摘要数据的所有特征信息，并将各特征信息转换成对应的向量，得到向量集；

归一化处理单元5042，用于根据情感分析模型，按照情感分析模型的运算规则对向量集进行映射和归一化处理，得到在情感分析维度上的概率分布结果；

统计分析单元5043，用于在情感分析模型对应的每一个情感分析维度上，统计概率分布结果对应的概率分布区间，根据情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系，得到待分析数据中的情感信息。

综上，通过对上述方法的实施，通过对于待分析数据的预处理得到文本信息，判断文本信息的长度是否大于预设长度阈值；若是，则调用预设的文本摘要提取算法对文本信息进行精简处理，得到文本信息的摘要数据，将摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到待分析数据中的情感信息，从而解决了现有技术中对长文本进行截断处理后，由于信息的不完整而影响情感识别的问题。

请参阅图6，下面从硬件处理的角度对本申请实施例中的计算机设备的一个实施例进行详细描述。

图6是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在计算机设备600上执行存储介质630中的一系列指令操作。

计算机设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的计算机设备结构并不构成对本申请提供的计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行以下步骤：获取待分析数据，并对所述待分析数据进行预处理，得到文本信息；判断所述文本信息的长度是否大于预设长度阈值；若是，则调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据；将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息。。

在实际应用中，上述提供的方法可以基于人工智能技术来实现，其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。其具体可以是基于服务器来执行，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种文本情感分析方法，其中，所述文本情感分析方法包括：

获取待分析数据，并对所述待分析数据进行预处理，得到文本信息；

判断所述文本信息的长度是否大于预设长度阈值；

若是，则调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据；

将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息。
根据权利要求1所述的文本情感分析方法，其中，所述调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据，包括：

获取所述文本信息中的每个句子，提取每个句子中的特征信息，形成对应的节点；

迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度；

根据所述相似度，构造各节点之间的无向有权边，得到所述文本信息的节点连接图；

根据所述节点连接图计算每个句子的权重；

将句子按照权重排序，得到句子权重表；

根据所述文本长度的设定阈值，计算句子数目；

按照权重降序顺序从句子权重表中选取数目为所述句子数目的句子，按照文本中的语句顺序构建所述文本信息的摘要数据。
根据权利要求1所述的文本情感分析方法，其中，所述将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息，包括：

将所述摘要数据输入至预先训练得到的情感分析模型，提取所述摘要数据的所有特征信息，并将各特征信息转换成对应的向量，得到向量集；

根据所述情感分析模型对应的情感分析维度，按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理，得到在所述情感分析维度上的概率分布结果；

在所述情感分析模型对应的每一个情感分析维度上，统计所述概率分布结果对应的概率分布区间，根据所述情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系，得到所述待分析数据中的情感信息。
根据权利要求3所述的文本情感分析方法，其中，所述将所述摘要数据输入至预先训练得到的情感分析模型，提取所述摘要数据的所有特征信息，并将各特征信息转换成对应的向量，得到向量集，包括：

利用所述情感分析模型提取所述摘要数据的特征信息，形成对应的特征向量；

利用所述情感分析模型对所述特征向量进行循环自注意力运算，得到对应的编码向量；

获取所有所述编码向量，得到所述向量集。
根据权利要求3所述的文本情感分析方法，其中，所述根据所述情感分析模型对应的情感分析维度，按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理，得到在所述情感分析维度上的概率分布结果，包括：

选取所述向量集中与分类标识对应的编码向量，对所述编码向量进行面向全连接层的映射运算，得到所述编码向量在所述全连接层上对应的映射值；

在每一个所述情感分析维度上，利用Softmax算法对所述映射值进行归一化处理，得到所述情感分析维度上的概率分布结果。
根据权利要求1-5中任一项所述的文本情感分析方法，其中，在所述获取待分析数据，并对所述待分析数据进行预处理，得到文本信息之前，还包括：

采集文本数据；

按照预设的标签标记方法对所述文本数据进行标记，使得所述文本数据都被标记上对应的标签信息，得到所述文本数据与对应标签信息的集合，记为情感分析语料集；

对所述情感分析语料集中的数据按照预设的比例和分类方法进行分类，得到训练数据和验证数据；

将所述训练数据输入至Bert模型进行情感分析，得到所述训练数据中的情感信息；

根据所述训练数据中的情感信息，通过交叉熵函数计算损失值，记录所述损失值和所述Bert模型的参数特征；

将训练数据和验证数据按照预设的方式分别循环输入所述Bert模型进行情感分析，并根据所述训练数据中的情感信息，通过交叉熵函数计算损失值，记录所述损失值和所述Bert模型的参数特征，直到对应的所述损失值和对应的所述Bert模型的参数特征符合预设标准，得到所述情感分析模型。
根据权利要求6所述的文本情感分析方法，其中，所述将训练数据和验证数据按照预设的方式分别循环输入所述Bert模型进行情感分析，并根据所述训练数据中的情感信息，通过交叉熵函数计算损失值，记录所述损失值和所述Bert模型的参数特征，直到对应的所述损失值和对应的所述Bert模型的参数特征符合预设标准，得到所述情感分析模型，包括：

将所述训练数据输入至所述Bert模型进行情感分析，得到所述训练数据中的情感信息；

判断所述情感分析的次数是否达到预设次数；

若情感分析次数未达到预设次数，则将所述训练数据数据输入至所述Bert模型进行情感分析，得到所述训练数据中的情感信息；

若情感分析次数达到预设次数，则将所述验证数据输入至Bert模型进行情感分析，得到所述验证数据中的情感信息；

根据所述验证数据中的情感信息，通过交叉熵函数计算损失值，记录所述损失值和所述Bert模型的参数特征；

判断所述损失值以及Bert模型的参数特征是否符合预设标准；

若不满足，则继续将训练数据和验证数据按照所述预设的方式分别循环输入所述Bert模型进行情感分析；

若满足，则输出所述情感分析模型。
一种计算机设备，其中，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述计算机设备执行以下步骤：

获取待分析数据，并对所述待分析数据进行预处理，得到文本信息；

判断所述文本信息的长度是否大于预设长度阈值；

若是，则调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据；

将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息。
根据权利要求8所述的计算机设备，其中，所述指令被所述处理器执行实现调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据时，包括：

获取所述文本信息中的每个句子，提取每个句子中的特征信息，形成对应的节点；

迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度；

根据所述相似度，构造各节点之间的无向有权边，得到所述文本信息的节点连接图；

根据所述节点连接图计算每个句子的权重；

将句子按照权重排序，得到句子权重表；

根据所述文本长度的设定阈值，计算句子数目；

按照权重降序顺序从句子权重表中选取数目为所述句子数目的句子，按照文本中的语句顺序构建所述文本信息的摘要数据。
根据权利要求8所述的计算机设备，其中，所述指令被所述处理器执行实现将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息时，包括：

将所述摘要数据输入至预先训练得到的情感分析模型，提取所述摘要数据的所有特征信息，并将各特征信息转换成对应的向量，得到向量集；

根据所述情感分析模型对应的情感分析维度，按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理，得到在所述情感分析维度上的概率分布结果；

在所述情感分析模型对应的每一个情感分析维度上，统计所述概率分布结果对应的概率分布区间，根据所述情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系，得到所述待分析数据中的情感信息。
根据权利要求10所述的计算机设备，其中，所述指令被所述处理器执行实现将所述摘要数据输入至预先训练得到的情感分析模型，提取所述摘要数据的所有特征信息，并将各特征信息转换成对应的向量，得到向量集时，包括：

利用所述情感分析模型提取所述摘要数据的特征信息，形成对应的特征向量；

利用所述情感分析模型对所述特征向量进行循环自注意力运算，得到对应的编码向量；

获取所有所述编码向量，得到所述向量集。
根据权利要求10所述的计算机设备，其中，所述指令被所述处理器执行实现根据所述情感分析模型对应的情感分析维度，按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理，得到在所述情感分析维度上的概率分布结果时，包括：

选取所述向量集中与分类标识对应的编码向量，对所述编码向量进行面向全连接层的映射运算，得到所述编码向量在所述全连接层上对应的映射值；

在每一个所述情感分析维度上，利用Softmax算法对所述映射值进行归一化处理，得到所述情感分析维度上的概率分布结果。
根据权利要求8-12中任一项所述的计算机设备，其中，所述指令被所述处理器执行实现在所述获取待分析数据，并对所述待分析数据进行预处理，得到文本信息之前，还包括：

采集文本数据；

按照预设的标签标记方法对所述文本数据进行标记，使得所述文本数据都被标记上对应的标签信息，得到所述文本数据与对应标签信息的集合，记为情感分析语料集；

对所述情感分析语料集中的数据按照预设的比例和分类方法进行分类，得到训练数据和验证数据；

将所述训练数据输入至Bert模型进行情感分析，得到所述训练数据中的情感信息；

根据所述训练数据中的情感信息，通过交叉熵函数计算损失值，记录所述损失值和所述Bert模型的参数特征；

将训练数据和验证数据按照预设的方式分别循环输入所述Bert模型进行情感分析，并根据所述训练数据中的情感信息，通过交叉熵函数计算损失值，记录所述损失值和所述Bert模型的参数特征，直到对应的所述损失值和对应的所述Bert模型的参数特征符合预设标准，得到所述情感分析模型。
根据权利要求13所述的计算机设备，其中，所述指令被所述处理器执行实现将训练数据和验证数据按照预设的方式分别循环输入所述Bert模型进行情感分析，并根据所述训练数据中的情感信息，通过交叉熵函数计算损失值，记录所述损失值和所述Bert模型的参数特征，直到对应的所述损失值和对应的所述Bert模型的参数特征符合预设标准，得到所述情感分析模型时，包括：

将所述训练数据输入至所述Bert模型进行情感分析，得到所述训练数据中的情感信息；

判断所述情感分析的次数是否达到预设次数；

若情感分析次数未达到预设次数，则将所述训练数据数据输入至所述Bert模型进行情感分析，得到所述训练数据中的情感信息；

若情感分析次数达到预设次数，则将所述验证数据输入至Bert模型进行情感分析，得到所述验证数据中的情感信息；

根据所述验证数据中的情感信息，通过交叉熵函数计算损失值，记录所述损失值和所述Bert模型的参数特征；

判断所述损失值以及Bert模型的参数特征是否符合预设标准；

若不满足，则继续将训练数据和验证数据按照所述预设的方式分别循环输入所述Bert模型进行情感分析；

若满足，则输出所述情感分析模型。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被处理器执行时实现以下步骤：

获取待分析数据，并对所述待分析数据进行预处理，得到文本信息；

判断所述文本信息的长度是否大于预设长度阈值；

若是，则调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据；

将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机程序被所述处理器执行实现调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据时，包括：

获取所述文本信息中的每个句子，提取每个句子中的特征信息，形成对应的节点；

迭代计算各节点对应的特征信息与其他节点对应的特征信息的相似度；

根据所述相似度，构造各节点之间的无向有权边，得到所述文本信息的节点连接图；

根据所述节点连接图计算每个句子的权重；

将句子按照权重排序，得到句子权重表；

根据所述文本长度的设定阈值，计算句子数目；

按照权重降序顺序从句子权重表中选取数目为所述句子数目的句子，按照文本中的语句顺序构建所述文本信息的摘要数据。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机程序被所述处理器执行实现将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息时，包括：

将所述摘要数据输入至预先训练得到的情感分析模型，提取所述摘要数据的所有特征信息，并将各特征信息转换成对应的向量，得到向量集；

根据所述情感分析模型对应的情感分析维度，按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理，得到在所述情感分析维度上的概率分布结果；

在所述情感分析模型对应的每一个情感分析维度上，统计所述概率分布结果对应的概率分布区间，根据所述情感分析模型中各概率分布区间与所表示的情感信息之间的对应关系，得到所述待分析数据中的情感信息。
根据权利要求17所述的计算机可读存储介质，其中，所述计算机程序被所述处理器执行实现将所述摘要数据输入至预先训练得到的情感分析模型，提取所述摘要数据的所有特征信息，并将各特征信息转换成对应的向量，得到向量集时，包括：

利用所述情感分析模型提取所述摘要数据的特征信息，形成对应的特征向量；

利用所述情感分析模型对所述特征向量进行循环自注意力运算，得到对应的编码向量；

获取所有所述编码向量，得到所述向量集。
根据权利要求17所述的计算机可读存储介质，其中，所述计算机程序被所述处理器执行实现根据所述情感分析模型对应的情感分析维度，按照所述情感分析模型的运算规则对所述向量集进行映射和归一化处理，得到在所述情感分析维度上的概率分布结果时，包括：

选取所述向量集中与分类标识对应的编码向量，对所述编码向量进行面向全连接层的映射运算，得到所述编码向量在所述全连接层上对应的映射值；

在每一个所述情感分析维度上，利用Softmax算法对所述映射值进行归一化处理，得到所述情感分析维度上的概率分布结果。
一种文本情感分析装置，其中，所述文本情感分析装置包括：

获取模块，用于获取待分析数据，并对所述待分析数据进行预处理，得到文本信息；

判断模块，用于判断所述文本信息的长度是否大于预设长度阈值；

摘要提取模块，用于在判断长度大于预设长度阈值时，调用预设的文本摘要提取算法对所述文本信息进行精简处理，得到所述文本信息的摘要数据；

情感分析模块，用于将所述摘要数据输入至预先训练得到的情感分析模型进行情感分析，得到所述待分析数据中的情感信息。