WO2021027284A1

WO2021027284A1 - 文本的评论性质确定方法及装置

Info

Publication number: WO2021027284A1
Application number: PCT/CN2020/079696
Authority: WO
Inventors: 戴泽辉
Original assignee: 北京国双科技有限公司
Priority date: 2019-08-12
Filing date: 2020-03-17
Publication date: 2021-02-18
Also published as: CN112446201A

Abstract

本申请公开了一种文本的评论性质确定方法及装置，可以根据文本获得向量矩阵，所述向量矩阵包括所述文本中各词汇的词向量；从所述向量矩阵中提取多个文本底层特征向量；根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量；根据所述评论特征向量确定所述文本对所述评论对象的评论性质。本申请可以自动确定文本对评论对象的评论性质，效率较高。

Description

文本的评论性质确定方法及装置

本申请要求于2019年08月12日提交中国专利局、申请号为201910741324.3、发明名称为“文本的评论性质确定方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及文本处理领域，尤其涉及文本的评论性质确定方法及装置。

背景技术

随着互联网的发展，越来越多的人在互联网上进行信息浏览、评论发表等行为。

通过收集和分析用户在互联网上发表的评论可以了解用户的观点。例如：从某汽车论坛上收集和分析用户对某款汽车的评论可以了解用户对该款汽车的各个方面的评论的性质，如：某评论中对该款汽车的外观持正面观点，但对该款汽车的内饰持负面观点。

现有技术只能通过人工读取评论的方式来确定评论的性质，效率较低。

发明内容

鉴于上述问题，本申请提供一种克服上述问题或者至少部分地解决上述问题的文本的评论性质确定方法及装置，方案如下：

一种文本的评论性质确定方法，包括：

根据文本获得向量矩阵，所述向量矩阵包括所述文本中各词汇的词向量；

从所述向量矩阵中提取多个文本底层特征向量；

根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量；

根据所述评论特征向量确定所述文本对所述评论对象的评论性质。

可选的，所述从所述向量矩阵中提取多个文本底层特征向量，包括：

通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。

可选的，所述根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量，包括：

使用至少一个权重组对所述多个文本底层特征向量进行加权求和，获得多个文本高层特征向量；

使用至少一个权重组，基于多头注意力机制对所述多个文本高层特征向量进行加权求和，获得至少一个评论对象对应的评论特征向量，每个所述评论对象对应所述多头注意力机制中的一个头。

可选的，所述根据所述评论特征向量确定所述文本对所述评论对象的评论性质，包括：

将所述评论特征向量映射到多个评论性质的概率上，获得所述文本对所述评论对象的各评论性质的概率。

可选的，所述根据所述评论特征向量确定所述文本对所述评论对象的评论性质，还包括：

根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。

一种文本的评论性质确定装置，包括：向量矩阵获得单元、底层特征向量获得单元、评论特征向量获得单元和评论性质确定单元，

所述向量矩阵获得单元，用于根据文本获得向量矩阵，所述向量矩阵包括所述文本中各词汇的词向量；

所述底层特征向量获得单元，用于从所述向量矩阵中提取多个文本底层特征向量；

所述评论特征向量获得单元，用于根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量；

所述评论性质确定单元，用于根据所述评论特征向量确定所述文本对所述评论对象的评论性质。

可选的，所述底层特征向量获得单元具体用于：通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。

可选的，所述评论特征向量获得单元，包括：第一向量获得子单元和第二向量获得子单元，

所述第一向量获得子单元，用于使用至少一个权重组对所述多个文本底层特征向量进行加权求和，获得多个文本高层特征向量；

所述第二向量获得子单元，用于使用至少一个权重组，基于多头注意力机制对所述多个文本高层特征向量进行加权求和，获得至少一个评论对象对应的评论特征向量，每个所述评论对象对应所述多头注意力机制中的一个头。

可选的，所述评论性质确定单元包括概率获得子单元，所述概率获得子单元，用于将所述评论特征向量映射到多个评论性质的概率上，获得所述文本对所述评论对象的各评论性质的概率。

可选的，所述评论性质确定单元还包括：文本性质确定子单元，用于根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。

借由上述技术方案，本申请提供的一种文本的评论性质确定方法及装置，可以根据文本获得向量矩阵，所述向量矩阵包括所述文本中各词汇的词向量；从所述向量矩阵中提取多个文本底层特征向量；根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量；根据所述评论特征向量确定所述文本对所述评论对象的评论性质。本申请可以通过多头注意力机制从一个文本中同时获得多个评论对象对应的评论特征向量，然后根据评论特征向量确定所述文本分别对多个所述评论对象的评论性质。可见，本申请可以从一个文本中同时获得文本分别对多个评论对象的评论性质，实现了更细粒度的文本分析，具有较高的准确度和效率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种文本的评论性质确定方法的流程图；

图2示出了本申请实施例提供的根据文本获得向量矩阵的流程图；

图3示出了本申请实施例提供的特征向量的处理过程示意图；

图4示出了本申请实施例提供的一种文本的评论性质确定装置的结构示意图；

图5示出了本申请实施例提供的一种设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本申请实施例提供了一种文本的评论性质确定方法，可以包括：

S100、根据文本获得向量矩阵，所述向量矩阵包括所述文本中各词汇的词向量；

其中，所述文本可以为用户的评论文本，该评论文本可以位于网页中，也可以在于应用程序的界面中。本申请可以从应用程序或网页中爬取用户的评论文本。当然，本申请还可以通过其他方式获得评论文本，本申请在此不做限定。其中，所述向量矩阵还可以包括所述文本中各词汇的词性向量。所述词向量和词性向量可以组成词汇向量。

可选的，如图2所示，步骤S100可以具体包括：

S110、获得评论文本，对所述评论文本进行分词，获得词汇序列；

其中，评论文本可以为用户完整评论内容的一部分或全部，可以理解的是，评论文本是用户对某事物的看法、意见、理解等。

可选的，本申请可以使用多种分词工具进行分词获得词汇序列，如哈工大LTP、jieba等。除获得词汇序列外，本申请还可以对各词汇的词性进行识别，从而获得词性序列。

例如采用哈工大LTP处理“动力很足，但是油耗高。”，LTP返回的分词结果可以为[动力，很，足，但是，油耗，高]，词性序列为[n，adv，adj，conj， n，adj]。

S120、获得所述词汇序列中各词汇的词汇向量构成的向量矩阵。

其中，步骤S120可以具体包括：

对所述词汇序列中的每个词汇：获得该词汇的词向量及词性向量，将该词汇的词向量及词性向量拼接为该词汇的词汇向量；

按照所述词汇序列中各词汇的排列顺序对所述词汇序列中各词汇的词汇向量进行排列，获得所述词汇序列中各词汇的词汇向量构成的向量矩阵。

具体的，本申请可以通过wordvector技术获得词向量。如果词汇不在wordvector的词汇表中，则使用指定的预设词向量进行表达。

本申请可以使用一定维度的随机向量来表达词性，使词性特征化。例如对于共计30种词性[A1,A2,…,A30]，可以用向量a1表示A1，向量a2表示A2等。其中a1、a2等的维度为一个指定的固定值，例如20维，每一个维度都是一个随机生成的接近于0的小数。

在获得词向量与词性向量后，将二者拼接即可形成词汇的向量化表达，即：词汇向量。词汇向量的维度为词向量的维度+词性向量的维度。对于评论文本中的每个词汇，都获得其词汇向量，再将评论文本中的每个词汇的词汇向量拼接起来，就形成一个向量矩阵。例如：当拼接后的词汇向量维度为120且评论文本中排列的词汇数量为200时，本申请可以生成一个维度为200×120的向量矩阵。本申请可以将这个向量矩阵在词汇数量方向扩充至一个特定长度(例如600，形成600×120的向量矩阵)，扩充的部分通过补0进行处理。

可以理解的是，上述向量矩阵包含了评论文本的特征信息。

图2所示实施例中，向量矩阵包括词汇向量，在其他实施例中，向量矩阵可以仅由词向量构成，而不包括词性向量。

S200、从所述向量矩阵中提取多个文本底层特征向量；

其中，步骤S200可以具体包括：通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。

可以理解的是，向量矩阵的特征向量是矩阵理论上的重要概念之一，它有着广泛的应用。数学上，线性变换的特征向量(本征向量)是一个非简并的向量，其方向在该变换下不变。由于所述向量矩阵根据文本得到，因此本申请可以在所述向量矩阵中提取多个文本底层特征向量。所述多个文本底层特征向量可以为词汇、短句、句子等较小粒度的特征向量。文本底层特征向量可以为所述向量矩阵中的部分特征向量。

可以理解的是，由于向量矩阵中携带有大量的文本底层特征，因此本申请可以通过机器学习的方法来从所述向量矩阵中提取多个文本底层特征向量。具体的，本申请可以首先根据Transformer、LSTM、GRU、循环神经网络RNN、循环注意力网络等机器学习方法训练得到一个机器学习模型，然后使用该机器学习模型从向量矩阵中提取用于确定评论性质的多个文本底层特征向量。

S300、根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量；

具体的，本申请可以通过机器学习模型中的多头注意力特征提取层执行步骤S300，以获得多个评论对象对应的评论特征向量。

其中，评论对象可以有多种，评论对象可以为物、人、机构、虚构概念等一切可评论的对象。

可选的，步骤S300可以具体包括：

可以理解的是，本申请可以通过多头注意力机制从一个文本中同时获得多个评论对象对应的评论特征向量，然后根据评论特征向量确定所述文本分别对多个所述评论对象的评论性质。可见，本申请可以从一个文本中同时获得文本分别对多个评论对象的评论性质，效率较高。

具体的，本申请的步骤S300可以使用机器学习模型完成，权重组中包括多个权重，上述权重组可以通过该机器学习模型的训练过程得到。

可选的，上述每个文本高层特征向量都可以由各文本底层特征向量根据一个权重组加权求和得到。各文本高层特征向量的计算过程所使用的权重组可以不同。

例如：如图3所示，设本申请获得的各文本底层特征向量分别为：h ₁至h _n，共n个文本底层特征向量。则本申请可以得到m个文本高层特征向量：e ₁至e _m。则e ₁＝x ₁₁×h ₁+x ₁₂×h ₂+…+x _1n×h _n；e ₂＝x ₂₁×h ₁+x ₂₂×h ₂+…+x _2n×h _n；以此类推。

上述x ₁₁、x ₁₂……x _1n为一个权重组，上述x ₂₁、x ₂₂……x _2n为另一个权重组。

可选的，由于文本底层特征向量的粒度较小，因此本申请可以首先根据第一权重组对所述多个文本底层特征向量进行加权求和，获得多个较大粒度的文本高层特征向量。文本高层特征向量可以包含用户对评论对象的整体评价信息以及用户对评论对象各方面的评价信息。例如当评论对象为汽车时，文本高层特征向量可以包含用户对汽车整体的评价信息以及用户对汽车的动力、油耗、外观、内饰等多个方面的评价信息。在实际应用中，文本底层特征向量和文本高层特征向量的粒度大小关系可以是相对的，例如：当文本底层特征向量为词汇粒度的特征向量时，文本高层特征向量可以为短句粒度的特征向量，或为句子粒度的特征向量，或为段落粒度的特征向量，或为全文粒度的特征向量。当文本底层特征向量为短句粒度的特征向量时，文本高层特征向量可以为句子粒度的特征向量，或为段落粒度的特征向量，或为全文粒度的特征向量。当文本底层特征向量为句子粒度的特征向量时，文本高层特征向量可以为段落粒度的特征向量，或为全文粒度的特征向量。以此类推。

可选的，本申请可以对每个评论对象都生成一个该评论对象对应的评论特征向量。每个评论特征向量均根据所述多个文本高层特征向量进行加权求和得到。具体的，各评论特征向量进行加权求和时使用的权重组可以不同。

例如：如图3所示，设本申请获得的m个文本高层特征向量为：e ₁至e _m。则本申请可以根据如下加权求和公式获得N个评论对象对应的评论特征向量f ₁至f _N。每一个评论特征向量均和一个评论对象A对应。

加权求和公式:

f ₁＝y ₁₁×e ₁+y ₁₂×e ₂+…+y _1N×e _N；f ₂＝y ₂₁×e ₁+y ₂₂×e ₂+…+y _2N×e _N；以此类推。

上述y ₁₁、y ₁₂……y _1N为一个权重组，上述y ₂₁、y ₂₂……y _2N为另一个权重组。

S400、根据所述评论特征向量确定所述文本对所述评论对象的评论性质。

其中步骤S400可以包括：

具体的，本申请可以通过机器学习模型中的全连接层执行步骤S400。可选的，所述评论性质可以包括：正面、负面、中性和未提及中的至少一种。

如图3所示，对每一个评论对象A对应的评论特征向量f，本申请都可以将其映射到文本对该评论对象的评论性质分别为正面、负面、中性和未提及的概率。例如评论对象为A ₁，则可以将评论特征向量f ₁映射到P ₁₁、P ₁₂、P ₁₃、P ₁₄这四个概率上。具体的，P ₁₁可以为文本对评论对象A ₁的评论性质为正面的概率，P ₁₂可以为文本对评论对象A ₁的评论性质为中性的概率，P ₁₃可以为文本对评论对象A ₁的评论性质为负面的概率，P ₁₄可以为文本对评论对象A ₁的评论性质为未提及的概率，

本申请图1所示方法中的步骤S200至步骤S400可以通过机器学习模型进行处理。该机器学习模型的输入可以为：向量矩阵，输出可以为：文本对评论对象的评论性质的概率。该机器学习模型可以为基于多头注意力的神经网络模型，该基于多头注意力的神经网络模型的结构可以包括：输入层、多头注意力特征提取层、全连接层和输出层。其中，如图3所示，输入层用于执行步骤S200，多头注意力特征提取层用于执行步骤S300，全连接层用于执行步骤S400，输出层用于将确定的文本对所述评论对象的评论性质输出。

在实际应用中，本申请还可以将各评论性质进行量化处理，例如：为正面、中性、负面和未提及分别赋值1、0、-1和-2。当然，本申请也可以将所赋的值作为评论对象的评论性质标记。

本申请中的评论对象可以为预设评论对象组中的评论对象。本申请可以预先收集多个词汇并构建至少一个预设评论对象组。例如：当需要确定用户对某款汽车的评论性质时，本申请可以预先收集用户可能会评价到的该款汽车所涉及的词汇，如：外观、内饰、油耗、价格、空间、排量、安全性、性价比、质量、油门、操控、发动机、加速等。本申请可以将这些词汇放入该款汽车的评论对象组中作为一个预设评论对象组。

例如，针对“我只能这样说用了7个月，感觉这款汽车的操控还是非常棒的。比我以前的那款要好很多，缺点就是很多内饰比较挫，刹车嘎吱嘎吱的，很多东西要自己慢慢习惯就是。看你银子多少，银子多就上另一款吧。”这个评论中，涉及的评论对象包括：操控、内饰和刹车，这三个评论对象的评论性质标记分别为1、-1、-1。而针对该款汽车的评论对象组中的其他评论对象，如性价比、发动机、油耗等，则未提及，可以这些评论对象的评论性质标记为-2。

其中，基于多头注意力的神经网络模型输出的文本对评论对象的评论性质的概率可以包括：至少一个评论对象的评论性质分别为正面、负面、中性和未提及的概率。例如：对性价比而言，基于多头注意力的神经网络模型输出的对性价比的评论性质概率为：正面3％，负面87％，中性10％，未提及0％。

在其他实施例中，所述评论对象为第一粒度的评论对象，步骤S400还可以包括：

可以理解的是，本申请可以根据各评论对象的评价得分获得文本的评价得分。例如：评论对象包括：内饰、油耗和动力。本申请的基于多头注意力的神经网络模型输出的文本对内饰的评论性质概率分别为：正面3％，负面87％，中性10％，未提及0％。本申请的基于多头注意力的神经网络模型输出的文本对油耗的评论性质概率分别为：正面73％，负面17％，中性10％，未提及0％。本申请的基于多头注意力的神经网络模型输出的文本对动力的评论性质概率分别为：正面3％，负面8％，中性4％，未提及85％。则当为正面、中性、负面和未提及分别赋值1、0、-1和-2时，则文本对内饰的评价得分为：1×0.03+(﹣1)×0.87+0×0.1+(﹣2)×0＝﹣0.84。相应的，文本对油耗的评价得分为：0.56，文本对动力的评价得分为：﹣1.75。在实际应用中，本申请可以将未提及的评价得分去除，不用于对文本的评价得分的计算过程。则文本的评价得分为：﹣0.84+0.56＝﹣0.28。则可以确定文本的评论性质为负面。

本申请实施例提供的一种文本的评论性质确定方法，可以根据文本获得向量矩阵，所述向量矩阵包括所述文本中各词汇的词向量；从所述向量矩阵中提取多个文本底层特征向量；根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量；根据所述评论特征向量确定所述文本对所述评论对象的评论性质。本申请可以自动确定文本对评论对象的评论性质，效率较高。

可选的，本申请可以基于tensorflow、mxnet、pytorch等深度学习框架训练基于多头注意力的神经网络模型。

本申请实施例还提供了一种机器学习模型获得方法，可以包括：

获得带有对多个评论对象的评论性质标注的训练语料；

根据所述训练语料获得向量矩阵；

对所述向量矩阵及评论性质标注进行机器学习，获得机器学习模型，所述机器学习模型的输入为：向量矩阵，所述机器学习模型的输出为：文本对评论对象的评论性质。

与图1所示方法相对应，本申请实施例还提供了一种文本的评论性质确定装置。

如图4所示，本申请实施例提供的一种文本的评论性质确定装置，可以包括：向量矩阵获得单元100、底层特征向量获得单元200、评论特征向量获得单元300和评论性质确定单元400，

所述向量矩阵获得单元100，用于根据文本获得向量矩阵，所述向量矩阵包括所述文本中各词汇的词向量；

所述底层特征向量获得单元200，用于从所述向量矩阵中提取多个文本底层特征向量；

所述评论特征向量获得单元300，用于根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量；

所述评论性质确定单元400，用于根据所述评论特征向量确定所述文本对所述评论对象的评论性质。

其中，所述底层特征向量获得单元200可以具体用于：通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。

可选的，所述评论特征向量获得单元300，可以包括：第一向量获得子单元和第二向量获得子单元，

可选的，所述评论性质确定单元400可以包括概率获得子单元，所述概率获得子单元，用于将所述评论特征向量映射到多个评论性质的概率上，获得所述文本对所述评论对象的各评论性质的概率。

可选的，所述评论性质确定单元400还可以包括：文本性质确定子单元，用于根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。

本申请实施例提供的一种文本的评论性质确定装置，可以根据文本获得向量矩阵，所述向量矩阵包括所述文本中各词汇的词向量；从所述向量矩阵中提取多个文本底层特征向量；根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量；根据所述评论特征向量确定所述文本对所述评论对象的评论性质。本申请可以自动确定文本对评论对象的评论性质，效率较高。

所述文本的评论性质确定装置包括处理器和存储器，上述向量矩阵获得单元、底层特征向量获得单元、评论特征向量获得单元和评论性质确定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来确定文本对评论对象的评论性质。

本申请实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述文本的评论性质确定方法。

本申请实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述文本的评论性质确定方法。

如图5所示，本申请实施例提供了一种设备70，设备70包括至少一个处理器701、以及与处理器701连接的至少一个存储器702、总线703；其中，处理器701、存储器702通过总线703完成相互间的通信；处理器701用于调用存储器702中的程序指令，以执行上述的文本的评论性质确定方法。本文中的设备70可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

从所述向量矩阵中提取多个文本底层特征向量；

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种文本的评论性质确定方法，其特征在于，包括：

根据文本获得向量矩阵，所述向量矩阵包括所述文本中各词汇的词向量；

从所述向量矩阵中提取多个文本底层特征向量；

根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量；

根据所述评论特征向量确定所述文本对所述评论对象的评论性质。
根据权利要求1所述的方法，其特征在于，所述从所述向量矩阵中提取多个文本底层特征向量，包括：

通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。
根据权利要求1所述的方法，其特征在于，所述根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量，包括：

使用至少一个权重组对所述多个文本底层特征向量进行加权求和，获得多个文本高层特征向量；

使用至少一个权重组，基于多头注意力机制对所述多个文本高层特征向量进行加权求和，获得至少一个评论对象对应的评论特征向量，每个所述评论对象对应所述多头注意力机制中的一个头。
根据权利要求1所述的方法，其特征在于，所述根据所述评论特征向量确定所述文本对所述评论对象的评论性质，包括：

将所述评论特征向量映射到多个评论性质的概率上，获得所述文本对所述评论对象的各评论性质的概率。
根据权利要求4所述的方法，其特征在于，所述根据所述评论特征向量确定所述文本对所述评论对象的评论性质，还包括：

根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。
一种文本的评论性质确定装置，其特征在于，包括：向量矩阵获得单元、底层特征向量获得单元、评论特征向量获得单元和评论性质确定单元，

所述向量矩阵获得单元，用于根据文本获得向量矩阵，所述向量矩阵包括所述文本中各词汇的词向量；

所述底层特征向量获得单元，用于从所述向量矩阵中提取多个文本底层特征向量；

所述评论特征向量获得单元，用于根据所述多个文本底层特征向量获得至少一个评论对象对应的评论特征向量；

所述评论性质确定单元，用于根据所述评论特征向量确定所述文本对所述评论对象的评论性质。
根据权利要求6所述的装置，其特征在于，所述底层特征向量获得单元具体用于：通过训练得到的第一机器学习模型从所述向量矩阵中提取多个文本底层特征向量。
根据权利要求6所述的装置，其特征在于，所述评论特征向量获得单元，包括：第一向量获得子单元和第二向量获得子单元，

所述第一向量获得子单元，用于使用至少一个权重组对所述多个文本底层特征向量进行加权求和，获得多个文本高层特征向量；

所述第二向量获得子单元，用于使用至少一个权重组，基于多头注意力机制对所述多个文本高层特征向量进行加权求和，获得至少一个评论对象对应的评论特征向量，每个所述评论对象对应所述多头注意力机制中的一个头。
根据权利要求6所述的装置，其特征在于，所述评论性质确定单元包括概率获得子单元，所述概率获得子单元，用于将所述评论特征向量映射到多个评论性质的概率上，获得所述文本对所述评论对象的各评论性质的概率；

并且，所述评论性质确定单元还包括：文本性质确定子单元，用于根据所述文本对各所述评论对象的各评论性质的概率确定所述文本的评论性质。
一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一所述的文本的评论性质确定方法。