WO2021109671A1

WO2021109671A1 - 一种支持跨语言迁移的细粒度情感分析方法

Info

Publication number: WO2021109671A1
Application number: PCT/CN2020/115300
Authority: WO
Inventors: 胡勇军
Original assignee: 广州大学
Priority date: 2019-12-02
Filing date: 2020-09-15
Publication date: 2021-06-10
Also published as: JP7253848B2; JP2022517845A; CN111160037B; CN111160037A

Abstract

一种支持跨语言迁移的细粒度情感分析方法，方法包括以下步骤：对电商评论文本进行随机抽样，并对抽样文本进行人工标注，获得该文本的主题情感标注数据集；把标注数据集放进语义-长短时记忆网络进行训练，得到文本的语义团；把得到的语义团与抽样文本一同通过基于层面的情感模型进行训练，得到该文本的主题特征；通过微调网络对标注数据集与主题特征进行训练，得到抽样文本的嵌入向量；将嵌入向量与主题特征进行特征融合，得到该文本的情感分类结果。所述方法考虑到产品评论中极性分布不对称、层面稀疏和情感词分布不均匀的情况，提高了情感分析的准确度，可广泛应用于文本数据挖掘领域。

Description

一种支持跨语言迁移的细粒度情感分析方法

技术领域

本发明涉及文本数据挖掘领域，尤其是一种支持跨语言迁移的细粒度情感分析方法。

背景技术

情感分析能够从大量的非结构化评论文本中自动挖掘和提取人们的观点、态度和情感。传统的情感分析主要是对整个文档或句子进行粗粒度的极性分析。然而，仅考虑极性是不可能充分表征评论文本的多个层面的细粒度态度。基于对产品不同维度的考量，提出了多层面(不同细粒度)情感分析方法，通过对产品各层面的显式和隐式特征的分析，发现各层面与情感词之间的关系。

现有的情感分析方法大致可分为监督学习方法和非监督学习方法。早期基于监督学习的多层面情感分析(MASA)主要应用朴素贝叶斯、最大熵分类和支持向量机等传统工具。深度学习在很多领域都取得了显著的成果，在MASA中也得到了应用，这些方法通常需要预定义的情感词典，并且依赖于对词的位置表示。这些要求不可避免地导致大量的手工标记工作。此外，他们可能无法处理具有挑战性的电子商务场景与大量的评论和不规则的文字。

在无监督学习中，概率潜在语义分析(PLSA)、隐含狄利克雷分布(LDA)等统计主题模型引入先验知识，在情感分析中取得了良好的效果。然而，这些现有的模型不能直接应用于MASA。因为其掌握的主题不能直接与情感或层面联系起来。因此，研究人员开发了层面与情感统一模型(ASUM)，将层面与情感集成到一个主题模型中，使无监督学习更加灵活。虽然ASUM通常会显示一些全球性的特征，比如知名品牌，但它不太可能从不知名产品的评论中发现本土的特征。为了解决这一问题，通过引入了本地因素和全局因素，建立了联合多粒话题情绪(JMTS)模型。JMTS模型相对于LDA和ASUM的关键优势在于改进了情绪分类的性能。然而，在JMTS中，情感词的稀疏性和语义分布的不对称性等问题一直没有得到很好的解决。这是因为JMTS模型还依赖于预先设置的超参数。

现有的监督和非监督学习情感分析工作主要集中在英语语料库方面。值得注意的是，其他一些语言，如汉语，有自己的语言结构，如字母表，音系，词汇和语法。汉语语料库中常用省略和缩略语。与此同时，电子商务领域不断出现新的中文词汇。在这种背景下，英语的情感分析方法可能不再适用于汉语的情感分析。这就需要一种全新的多语言情感分析方法，以应对跨领域和跨语言MASA的迁移学习的挑战。

发明内容

有鉴于此，本发明实施例提供一种分析结果准确的，支持跨语言迁移的细粒度情感分析方法。

第一方面，本发明实施例提供了一种支持跨语言迁移的细粒度情感分析方法，包括以下步骤：

对电商评论文本进行随机抽样，并对抽样文本进行人工标注，获得该文本的主题情感标注数据集；

把标注数据集放进语义-长短时记忆网络进行训练，得到文本的语义团；

把得到的语义团与抽样文本一同通过基于层面的情感模型进行训练，得到该文本的主题特征；

通过微调网络对标注数据集与主题特征进行训练，得到抽样文本的嵌入向量；

将嵌入向量与主题特征进行特征融合，得到该文本的情感分类结果。

进一步，所述把标注数据集放进语义-长短时记忆网络进行训练，得到文本的语义团这一步骤，包括以下步骤：

提取对应层面和情感常用词汇；

删除同时属于两个或两个以上特征类的词；

对于每个特征分类，将每个特征分类中与其他常用词之间语义距离最小的词作为中心语义；

确定所有特征分类的词的中心语义，得到语义团。

进一步，所述语义距离由经过语义-长短时记忆网络训练的词的嵌入向量之间的余弦距离来度量。

进一步，还包括基于层面的情感模型的构建步骤。

进一步，所述基于层面的情感模型的构建步骤这一步骤，包括以下步骤：

确定词语特征，所述词语特征包括语义词语特征和情感词语特征；

生成每个词语特征的主题单词；

确定文档的情感层面词和主题分布；

确定文档的单词后，生成情感层面的极性分布以及主题模型分布。

进一步，还包括预训练语义-长短时记忆网络的步骤。

进一步，所述预训练语义-长短时记忆网络这一步骤，包括以下步骤：

根据每个单词的能量来确定语义-长短时记忆网络中的无监督语义关系；

基于无监督语义相似模型，通过能量函数构建无监督语义层；

构建向后激活函数；

通过长短时记忆网络的交叉熵代价函数和向后激活代价，构建语义-长短时记忆网络的优化目标。

上述本发明实施例中的技术方案具有如下优点：本发明考虑到产品评论中极性分布不对称、层面稀疏和情感词分布不均匀的情况，提出了一个新的弱监督的跨领域、跨语言的多层面情感分析模型，通过基于层面的情感模型对语义团与抽样文本进行训练，最终根据微调网络训练得到的嵌入向量来确定情感分类结果，提高了情感分析的准确度。

附图说明

图1为本发明实施例的整体步骤流程图；

图2为本发明实施例的语义-长短时记忆网络的预训练步骤流程图；

图3为本发明实施例的情感分析流程示意图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

本发明公开了一种支持跨语言迁移的细粒度情感分析方法，属于信息技术领域。本发明旨在建立一种采用细粒度主题模型方法，可以满足跨领域、跨语言迁移需要的情感分析技术，用于电子商务环境下用户评论的细粒度挖掘分析。随着电子商务的爆炸式增长，用户在线商品评论信息飞速增长，这些信息隐含了消费者对商品的态度，有着巨大的商业价值，但由于信息海量、用语极不规范、新词不断等因素，商家难以直接通过人工分析到有用信息。而现有的模型，一方面以深度神经网络为代表的模型受限于人工标注数据的影响，使得其应用受到很大局限；另一方面，传统的以LDA为代表的主题模型其跨领域、跨语言迁移能力有较大局限。本发明考虑到产品评论中极性分布不对称、层面稀疏和情感词分布不均匀的情况，提出了一个新的弱监督的跨领域、跨语言的多层面情感分析模型，采用了所提出的semantic-LSTM模型作为预训练，牵引细粒度的主题模型进行微调(fine-tuning)，实现了跨语言、跨领域的商品评论情感分析能力。其中，我们设计了一种新的多层面主题模型迁移学习方法的语义距离，称为基于情感语义模型(sL-ASM)。这个模型由两部分组成，语义长短时记忆(semantic Long-Short-Term Memory,semantic-lstm)用于语义cliqs预训练和基于层面的情感模型(Aspect-based Sentiment Model,ASM)层面与情感结合捕捉，该方法能更好地得到文本情感分类效果。

参照图1和图3，本发明实施例的一种支持跨语言迁移的细粒度情感分析方法，包括以下步骤：

步骤1：对电商评论文本进行随机抽样，对抽样文本进行人工标注，获得该文本的主题情感标注数据集；

步骤2：把标注数据集放进语义-长短时记忆网络(Semantic-LTSM)进行训练，得到文本的语义团(cliqs)；

步骤3：把得到的语义团与原始文本数据一同通过基于层面的情感模型(ASM)进行训练得到该语义文本的主题特征；

步骤4：把原始数据与根据步骤3得到的主题特征经过微调网络(Fine-tuning)训练，得到原始数据的嵌入向量(embedding)；

步骤5：把步骤4得到的嵌入向量与步骤3得到的主题特征通过把该嵌入向量与主题特征进行特征融合(Feature Funsion)得到该文本的情感分类结果。

如图2所示，本发明的实施例还提供了语义-长短时记忆网络的预训练方法，包括以下步骤：

构建向后激活函数；

具体的，由于不同领域的多样性，原来的LSTM不适用于跨领域情感分析，因此本实施例将无监督语义关系引入导LSTM中，设计了一种嵌入词的训练方法，即语义-长短时记忆网络(semantic-lstm)。在预训练阶段使用语义-长短时记忆网络(semantic-lstm)来捕获语义团(cliqs)，该功能称为预训练语义-长短时记忆网络(pre-training Semantic-LSTM)。在ASM的指导下，(semantic-lstm)网络将在一个微调任务中进行微调。

对上述方法中，通过引入每个单词的能量来引入LSTM网络中无监督语义关系，分配给单词w的能量可以表示为：

E(θ,w,φ _w,b _w)＝-θ ^Tφ _w-b _w (1)

其中w表示某一个单词，φ _w表示这个单词对应的词向量，θ表示词向量的权重,b _w是补偿参数。

基于无监督语义相似模型，引入能量函数，设计无监督语义层，使能量函数的概率分布最大化，在此基础上，设计一个向后激活函数：

优化目标变成最小化向后激活函数的输出。相应损失函数C _s可以表示为：

通过统一LSTM的交叉熵代价函数和向后激活代价，提出了语义LSTM的优化目标C：

C＝c _s+c _LSTM (4)

通过semantic-lstm，不仅可以获得更好的语义相关词嵌入向量，而且可以获得分布良好的正面和负面情绪特征。在短文本分类中，存在一个中心cliq，可以很好地表示每个短文本的中心。每个文档与每个类对应的cliq之间的语义距离可以用来修改每个类中文档的分布超参数。

本发明实施例还提供了把标注数据集放进语义-长短时记忆网络进行训练，得到文本的语义团的具体实施步骤：

提取对应层面和情感常用词汇；

删除同时属于两个或两个以上特征类的词；

确定所有特征分类的词的中心语义，得到语义团。

本实施例具体为：

(1)提取对应层面和情感常用词汇：

其中，δ为实验中设置的阈值，p(w _v)表示w _v词出现在第v个层面或情感特征上的概率，

表示提取到的高频词。

(2)删除同时属于两个或两个以上特征类的词W，其中:

表示同时属于层面、情感的常用词汇。

(3)对于每个特征分类，选择本身与其他常用词语义距离最小的词作为中心语义cliq。参照公式(7)和公式(8)，语义距离由经过semantic-lstm训练的词嵌入向量之间的余弦距离来度量：

其中，cliq _v代表语义团；

代表语义团cliq _v所对应的词向量。

本发明实施例还提供了基于层面的情感模型的构建步骤，该步骤具体包括：

生成每个词语特征的主题单词；

确定文档的情感层面词和主题分布；

具体的，本实施例的目标是：提取层面级别和情感级别的主题，为区分词和其他词之间的不同情绪和层面，本实施例引入特征选择调整情绪词和其他词的概率。其不对称超参数的语义距离可以通过文本和cliq _v求得：

其中，

代表第d个文档中第n个词w _d,n的词向量，

代表语义团cliq _v的词向量。aspect代表层面；sentiment代表情感正负面极性。

在本实施例中，ASM的单词生成过程如下：

1、选择相应的语义、情感等词语特征。

2、从每个相应的特征类型中选择的主题生成一个单词。

在本实施例中，ASM生成过程的形式化定义如下：

1、对于每个文档d中的情感/层面词v:

a.由(9)式得到其特征值d、v

b.选择主题分布θ _d,c～Dir(α _d,v)

2、对文档d中的每个单词n：

a.绘制层面/情感极性分布V _d,n～Multi(π _d,v)

b.绘制主题模型分布Z _d,n～Multi(θ _d,n)

c.从概率P(W _d,n|V _d,n,Z _d,n,Φ _v)中选择词W _d,n，其中Φ _v服从θ _v～Dir(β _w,v)

对于ASM的超参数α _d,v和β _w,v，本实施例通过以下计算公式计算得到：

其中N _d为文档d中的单词总数，α ₀和β ₀为初始超参数值。

另外，本实施例中提及的ASM的参数如下：

D:文件编号；T：主题编号；V：层面/情感极性编号；W：该词在所有文档中的数量；N _d文档d中的单词数量；V _d,n来自d文档中第n个词被分配到层面/情感的概率；Z _d,n,v：来自文档d的单词n的情感极性被指定到主题Z的概率；

代表文档d的情感极性v被指向到主题k的概率；

代表字典中的词w对应的情感极性v被指定到主题k的概率；α，β代表先验超参数。

另外，本发明实施例还提供了结果对比，来说明本发明的方法具有的有益效果：

首先，LSTM情绪分类中不同特征表示的性能如下表1所示：

表1

Method	BOW	ASM	L-ASM	SL-ASM
Train Err	0.183	0.170	0.148	0:118
Valid Err	0.391	0.170	0:142	0.164
Test Err	0.391	0.180	0.169	0:160

然后，将基于龙井茶数据LSTM与Semantic-LSTM的Cliqs比较，得到表2所示的比较结果：

表2

Aspect	LSTM	Semantic-LSTM
Package	看着/appearance	看着/appearance
Quality	质量/quality	清香/fragrance
Price	性价比/cost performance	性价比/cost performance
Service	一个/single	服务态度/service attitude
Logistics	速度/speed	快递/express
Positive	好喝/good-tasting	挺好/fine

Negative

一般/so so

由此可见，对于不同层面的分割，本发明的Semantic-LSTM能提供更好的词语分割效果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

一种支持跨语言迁移的细粒度情感分析方法，其特征在于：包括以下步骤：

对电商评论文本进行随机抽样，并对抽样文本进行人工标注，获得该文本的主题情感标注数据集；

把标注数据集放进语义-长短时记忆网络进行训练，得到文本的语义团；

把得到的语义团与抽样文本一同通过基于层面的情感模型进行训练，得到该文本的主题特征；

通过微调网络对标注数据集与主题特征进行训练，得到抽样文本的嵌入向量；

将嵌入向量与主题特征进行特征融合，得到该文本的情感分类结果。
根据权利要求1所述的一种支持跨语言迁移的细粒度情感分析方法，其特征在于：所述把标注数据集放进语义-长短时记忆网络进行训练，得到文本的语义团这一步骤，包括以下步骤：

提取对应层面和情感常用词汇；

删除同时属于两个或两个以上特征类的词；

对于每个特征分类，将每个特征分类中与其他常用词之间语义距离最小的词作为中心语义；

确定所有特征分类的词的中心语义，得到语义团。
根据权利要求2所述的一种支持跨语言迁移的细粒度情感分析方法，其特征在于：所述语义距离由经过语义-长短时记忆网络训练的词的嵌入向量之间的余弦距离来度量。
根据权利要求1所述的一种支持跨语言迁移的细粒度情感分析方法，其特征在于：还包括基于层面的情感模型的构建步骤。
根据权利要求4所述的一种支持跨语言迁移的细粒度情感分析方法，其特征在于：所述基于层面的情感模型的构建步骤这一步骤，包括以下步骤：

确定词语特征，所述词语特征包括语义词语特征和情感词语特征；

生成每个词语特征的主题单词；

确定文档的情感层面词和主题分布；

确定文档的单词后，生成情感层面的极性分布以及主题模型分布。
根据权利要求1-5任一项所述的一种支持跨语言迁移的细粒度情感分析方法，其特征在于：还包括预训练语义-长短时记忆网络的步骤。
根据权利要求6所述的一种支持跨语言迁移的细粒度情感分析方法，其特征在于：所述预训练语义-长短时记忆网络这一步骤，包括以下步骤：

根据每个单词的能量来确定语义-长短时记忆网络中的无监督语义关系；

基于无监督语义相似模型，通过能量函数构建无监督语义层；

构建向后激活函数；

通过长短时记忆网络的交叉熵代价函数和向后激活代价，构建语义-长短时记忆网络的优化目标。