WO2022048174A1

WO2022048174A1 - 文本匹配方法、装置、计算机设备及存储介质

Info

Publication number: WO2022048174A1
Application number: PCT/CN2021/091340
Authority: WO
Inventors: 赵知纬; 高维国
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-09-03
Filing date: 2021-04-30
Publication date: 2022-03-10
Also published as: CN112052683A

Abstract

一种文本匹配方法、装置、计算机设备及存储介质，涉及人工智能技术领域，该方法包括：构建问句特征词集合QU和文本特征词集合QC，以及术语集合T；进行向量化处理得到特征向量QE以及术语向量TE；进行线性转换得到键矩阵K、查询矩阵Q和值矩阵V，以及矩阵K _T；计算非归一化权重矩阵A _QT，然后进行自我相乘以及归一化处理得到多个子矩阵；对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵A _QT ^avg（I）；对所述键矩阵K和查询矩阵Q进行矩阵乘法，得到自注意力矩阵A，然后计算得到自注意力模块的输出，再根据所述输出进行匹配。该方法着重于已知的术语之间的匹配，减少非术语之间的匹配，达到提高匹配准确度的效果。

Description

文本匹配方法、装置、计算机设备及存储介质

本申请要求于2020年09月03日提交中国专利局、申请号为202010914259.2，申请名称为“一种文本匹配方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，具体涉及自然语言处理，特别涉及文本匹配方法、装置、计算机设备及存储介质。

背景技术

近年来，基于transformer(Google团队在2017年提出的一种NLP经典模型)架构和海量数据的BERT(Bidirectional Encoder Representation from Transformers和基于Transformer的双向编码器表征)模型在各种NLP(自然语言处理)应用中大放光彩。BERT本身支持两段文本输入的设计使得其能够很容易地应用与文本匹配任务。在智能问答的实际应用中，对每个用户问句来说，不同的词或短语，其重要性不同，这些比较重要的词、短语称为术语，往往与实际业务相关。

但发明人意识到现有的处理方法，并未融合术语的重要性，比如用户问句为“XX公司现在有多少员工”，待匹配文本为“XX公司的薪酬福利体系是什么样的”，那么两者之间的“XX”一词也会有较大的注意力权重。而对待匹配文本来说，匹配上“薪酬”或者“福利”远比匹配上“XX”重要，故现有技术中的文本匹配方法在准确性方面还有待提高。

申请内容

本申请的目的是提供文本匹配方法、装置、计算机设备及存储介质，旨在解决现有文本匹配技术在准确性方面有待提高的问题。

第一方面，本申请实施例提供一种基于术语增强的文本匹配方法，其包括：

获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T；

对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE；

对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T；

计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵；

对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵

对所述键矩阵K和查询矩阵Q进行矩阵乘法处理，得到自注意力矩阵A，然后利用所述自注意力矩阵A和影响矩阵

计算得到自注意力模块的输出，再根据所述输出对所述用户问句与待匹配的文本进行匹配。

第二方面，本申请实施例提供一种基于术语增强的文本匹配装置，其包括：

集合构建单元，用于获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T；

向量化单元，用于对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE；

线性转换单元，用于对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T；

自我相乘单元，用于计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵；

平均处理单元，用于对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵

输出单元，用于对所述键矩阵K和查询矩阵Q进行矩阵乘法处理，得到自注意力矩阵A，然后利用所述自注意力矩阵A和影响矩阵

第三方面，本申请实施例提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的基于术语增强的文本匹配方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于术语增强的文本匹配方法。

本申请实施例提供了文本匹配方法、装置、计算机设备及存储介质，本申请实施例中，自注意力模块的输出融入了术语的计算结果，实现着重于已知的术语之间的匹配，减少非术语之间的匹配，达到提高匹配准确度的效果。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的文本匹配方法的流程示意图；

图2为本申请实施例提供的文本匹配方法的子流程示意图；

图3为本申请实施例提供的文本匹配方法的另一子流程示意图；

图4为本申请实施例提供的文本匹配方法的另一子流程示意图；

图5为本申请实施例提供的文本匹配方法的另一子流程示意图；

图6为本申请实施例提供的文本匹配方法的另一子流程示意图；

图7为本申请实施例提供的文本匹配方法的另一子流程示意图；

图8为本申请实施例提供的文本匹配装置的示意性框图；

图9为本申请实施例提供的文本匹配装置的子单元示意性框图；

图10为本申请实施例提供的文本匹配装置的另一子单元示意性框图；

图11为本申请实施例提供的文本匹配装置的另一子单元示意性框图；

图12为本申请实施例提供的文本匹配装置的另一子单元示意性框图；

图13为本申请实施例提供的文本匹配装置的另一子单元示意性框图；

图14为本申请实施例提供的文本匹配装置的另一子单元示意性框图；

图15为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请实施例提供的一种文本匹配方法的流程示意图，包括步骤S101～S106：

S101、获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T；

本步骤是利用自然语言处理方式处理得到问句特征词集合QU和文本特征词集合QC，同时构建出术语集合T。

在一实施例中，如图2所示，所述步骤S101包括：

S201、获取用户问句以及待匹配文本；

S202、对所述用户问句以及待匹配文本进行自然语言处理，分别得到用户问句中的所有特征词和待匹配文本中的所有特征词；

S203、将用户问句中的所有特征词按顺序构建为问句特征词集合QU，将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC；

S204、基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T。

在本实施例中，用户问句和待匹配文本为两个需要进行匹配的对象，在一个具体应用场景中，可以是用户输入问句，然后获取已存储的大量待匹配文本，再将用户问句与待匹配文本进行匹配。例如在搜索引擎中：待匹配文本对应索引网页的相关信息，如title(标题)、content(内容)等，用户问句对应用户的检索请求，那么此时二者进行匹配的含义是指匹配出相关度最高的文本。或者在智能问答中：待匹配文本对应智能问答中的答案，用户问句对应用户的问题，那么此时二者进行匹配的含义是指从答案中查找到语义相似度最高的答案。在信息流推荐中：待匹配文本对应待推荐的信息流，用户问句对应用户的画像，那么此时二者进行匹配的含义就是从中匹配出用户最感兴趣等众多度量标准的信息流。

对于用户问句和待匹配文本而言，都可以进行自然语言处理。这样可以将其表示为一个个的特征词，从而得到分别得到问句特征词集合QU和文本特征词集合QC。例如，所述用户问句可表示为[QU ₁,QU ₂,QU ₃,QU ₄,QU ₅]，表示用户问句可以拆分为QU ₁、QU ₂、QU ₃、QU ₄、QU ₅这5个词，该QU的长度为5。又例如，所述待匹配的问题可表示为[QC ₁,QC ₂,QC ₃]，表示待匹配的文本可以拆分为QC ₁、QC ₂、QC ₃这3个词，该QC的长度为3。

其中术语集合是指术语的集合，术语为一些重要、与实际业务相关的词或短语。例如在智能问答的应用场景中，对每个问句来说，有些词、短语比较重要，而剩下的一些不那么重要，这些比较重要的词、短语可称为术语，且往往与实际业务相关。本申请实施例就是从问句特征词集合QU和文本特征词集合QC中识别一些与业务相关的术语，将其单独构成一个术语集合，表示为T。例如T可以表示为[T ₁,T ₂]，该T的长度为2。术语的识别可采用命名实体识别方法(Named EntityRecognition，简称NER)实现，命名实体识别，又称“专名识别”，其可识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

S102、对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE；

本步骤中，需要对前面的问句特征词集合QU和文本特征词集合QC进行拼接和向量化处理，从而进行后续的矩阵化处理。

在一实施例中，如图3所示，所述步骤S102包括：

S301、将所述文本特征词集合QC与问句特征词集合QU进行拼接，并采用分隔符SEP进行分隔，得到拼接集合Q＝[QC,SEP,QU]；

此步骤是将前面的文本特征词集合QC与问句特征词集合QU拼接，并且文本特征词集合QC与问句特征词集合QU之间还采用分隔符进行分隔。

例如对前面提到的问句特征词集合QU＝[QU ₁,QU ₂,QU ₃,QU ₄,QU ₅]，以及文本特征词集合QC＝[QC ₁,QC ₂,QC ₃]，进行拼接，那么可得到：

拼接集合Q＝[QC ₁,QC ₂,QC ₃,SEP,QU ₁,QU ₂,QU ₃,QU ₄,QU ₅]，其中，SEP代表分隔符。

S302、通过embedding查询，将所述拼接集合Q中的字符转换为相应的向量，得到特征向量QE；

本步骤中，可以embedding(嵌入)查询将字符转换为向量。具体地，可以在成熟的词向量库中查询所述拼接集合Q中每个字符对应的向量，如果某个词在词向量库中不能直接找到其对应的向量，那么可通过语义相似度算法，在所述词向量库中与所述拼接集合Q中字符相似度最高的词，并获取对应的向量。

以前述的拼接集合Q＝[QC ₁,QC ₂,QC ₃,SEP,QU ₁,QU ₂,QU ₃,QU ₄,QU ₅]为例，假设每个字符转换后的向量的长度都是h _e，那么最终得到的

R代表矩阵，即其大小为h _e×9。

S303、通过embedding查询，将所述术语集合T中的字符转换为相应的向量，得到术语向量TE。

本步骤中，可以embedding查询将字符转换为向量。具体地，通过可以在成熟的词向量库中查询所述术语集合T中每个字符对应的向量，如果某个词在词向量库中不能直接找到其对应的向量，那么可通过语义相似度算法，在所述词向量库中与所述术语集合T中字符相似度最高的词，并获取对应的向量。

以前述的术语集合T＝[T ₁,T ₂]为例，假设每个字符转换后的向量的长度都是h _e，那么最终得到的

即其大小为h _e×2。

S103、对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T；

本步骤是对前面的特征向量QE以及术语向量TE进行矩阵化处理，即将向量转换为矩阵。

在一实施例中，如图4所示，所述步骤S103包括：

S401、利用已训练的权重矩阵W _K、W _Q和W _V分别与所述特征向量QE进行矩阵相乘，得到三个形状相同的矩阵：键矩阵K、查询矩阵Q和值矩阵V；

本步骤中，线性转换的方式是矩阵乘法，如：K＝W _K·QE,Q＝W _Q·QE,V＝W _V·QE。其中，W _K，W _Q，W _V均为权重矩阵。键矩阵K，查询矩阵Q，值矩阵V也都是矩阵，以

为例，转换后得到的K，Q，V三者的大小均为h _a×9，即

其中，h _a是权重矩阵W _K、W _Q和W _V的长度(即列数)。

S402、利用已训练的权重矩阵W _T与所述术语向量TE进行矩阵相乘，得到矩阵K _T。

本步骤中，线性转换的方式是矩阵乘法，如：K _T＝W _T·TE。K _T为矩阵，以

为例，转换后的矩阵K _T的大小是h _a×2，即

其中，h _a是权重矩阵W _T的长度(即列数)。

S104、计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵；

本步骤中，需要计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵，然后进行自我相乘和归一化从而得到多个子矩阵。

在一实施例中，如图5所示，所述步骤S104包括：

S501、按下式计算矩阵K _T与查询矩阵Q的非归一化权重矩阵：

本步骤中，K _T是一个矩阵，假设其大小是h _a×2。Q也是一个矩阵，假设其大小是h _a×9，这两个矩阵要相乘，首先需要把K _T转置成

然后才能与Q相乘，相乘后也是一个矩阵，表示为A _QT，大小形状为2×9，即

A _QT∈R ^2×9。

S502、分别取非归一化权重矩阵A _QT中的每一行进行自我相乘，并进行归一化处理得到数量与非归一化权重矩阵A _QT行数相同的多个子矩阵。

本步骤中，假设

因为行数共有2行，那么得到2个子矩阵：

具体如下：

所以计算得到的两个矩阵，大小均为9×9，即

S105、对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵

上述步骤中得到的多个子矩阵大小相同，本步骤是对得到的这些子矩阵进行平均化处理和归一化处理，得到影响矩阵。

在一实施例中，如图6所示，所述步骤S105包括：

S601、按如下公式对所述多个子矩阵进行平均化处理得到平均矩阵

n为子矩阵的个数；

S602、按如下公式对平均矩阵进行归一化处理得到影响矩阵

softmax表示归一化。

继续以前面的例子为例，本步骤是先对前面计算的两个子矩阵进行平均化处理，也就是相加并除以2。然后对平均化结果进行归一化，从而使得影响矩阵

的每一行加起来等于1。具体的，

softmax的作用是使平均化结果归一化，得到的值是正值且和为1。

S106、对所述键矩阵K和查询矩阵Q进行矩阵乘法处理，得到自注意力矩阵A，然后利用所述自注意力矩阵A和影响矩阵

本步骤就是综合所述自注意力矩阵A和影响矩阵

从而得到自注意力模块的输出，基于自注意力模块的输出进行匹配。也就是将术语的权重加入到输出之中，从而减少关注非术语之间的匹配。

在一实施例中，如图7所示，所述步骤S105包括：

S701、对所述键矩阵K和查询矩阵Q进行矩阵乘法，得到自注意力矩阵

h _a表示键矩阵K的长度；

本步骤即为对前面的键矩阵K和查询矩阵Q进行矩阵乘法，从而得到自注意力矩阵A，该自注意力矩阵A的大小是9×9。具体按照如下公式进行计算：

A∈R ^9×9。

S702、按下式计算得到自注意力模块的输出：

其中α是预先设定的超参；

本步骤中，自注意力模块的输出融入了术语的计算结果，可以实现着重于已知的术语之间的匹配，同时减少关注非术语之间的匹配。对每个用户问句来说，通过在自注意力的计算过程中将这部分术语权重增大，实现重点匹配与实际业务相关的术语，达到提高匹配准确度的效果。

S703、利用所述自注意力模块的输出对所述用户问句与待匹配的文本进行匹配。

本步骤就是利用自注意力模块的输出，对用户问句与待匹配的文本进行匹配，例如，用户问句为“XX公司现在有多少员工”，待匹配文本为“XX公司的薪酬福利体系是什么样的”，由于采用本技术方案，两者之间的“XX”一词的注意力权重将会降低，而“薪酬”和“福利” 的注意力权重将会提高，所以最终的匹配结果将会更加准确。

本申请实施例还提供一种基于术语增强的文本匹配装置，该一种基于术语增强的文本匹配装置用于执行前述基于术语增强的文本匹配方法的任一实施例。具体地，请参阅图8，图8是本申请实施例提供的基于术语增强的文本匹配装置的示意性框图。该基于术语增强的文本匹配装置可以配置于服务器中。

如图8所示，基于术语增强的文本匹配装置800包括：集合构建单元801、向量化单元802、线性转换单元803、自我相乘单元804、平均处理单元805、输出单元806。

集合构建单元801，用于获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T；

向量化单元802，用于对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE；

线性转换单元803，用于对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T；

自我相乘单元804，用于计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵；

平均处理单元805，用于对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵

输出单元806，用于对所述键矩阵K和查询矩阵Q进行矩阵乘法处理，得到自注意力矩阵A，然后利用所述自注意力矩阵A和影响矩阵

在一实施例中，如图9所示，所述集合构建单元801包括：

获取单元901，用于获取用户问句以及待匹配文本；

特征词提取单元902，用于对所述用户问句以及待匹配文本进行自然语言处理，分别得到用户问句中的所有特征词和待匹配文本中的所有特征词；

顺序构建单元903，用于将用户问句中的所有特征词按顺序构建为问句特征词集合QU，将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC；

识别单元904，用于基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T。

在一实施例中，如图10所示，所述向量化单元802包括：

拼接单元1001，用于将所述文本特征词集合QC与问句特征词集合QU进行拼接，并采用分隔符SEP进行分隔，得到拼接集合Q＝[QC,SEP,QU]；

第一向量化单元1002，用于通过embedding查询，将所述拼接集合Q中的字符转换为相应的向量，得到特征向量QE；

第二向量化单元1003，用于通过embedding查询，将所述术语集合T中的字符转换为相应的向量，得到术语向量TE。

在一实施例中，如图11所示，所述线性转换单元803包括：

特征向量转换单元1101，用于利用已训练的权重矩阵W _K、W _Q和W _V分别与所述特征向量QE进行矩阵相乘，得到三个形状相同的矩阵：键矩阵K、查询矩阵Q和值矩阵V；

术语向量转换单元1102，用于利用已训练的权重矩阵W _T与所述术语向量TE进行矩阵相乘，得到矩阵K _T。

在一实施例中，如图12所示，所述自我相乘单元804包括：

第一计算单元1201，用于按下式计算矩阵K _T与查询矩阵Q的非归一化权重矩阵：

第二计算单元1202，用于分别取非归一化权重矩阵A _QT中的每一行进行自我相乘，并进行归一化处理得到数量与非归一化权重矩阵A _QT行数相同的多个子矩阵。

在一实施例中，如图13所示，所述平均处理单元805包括：

第三计算单元1301，用于按如下公式对所述多个子矩阵进行平均化处理得到平均矩阵

n为子矩阵的个数；

第四计算单元1302，用于按如下公式对平均矩阵进行归一化处理得到影响矩阵

softmax表示归一化。

在一实施例中，如图14所示，所述输出单元806包括：

自注意力矩阵计算单元1401，用于对所述键矩阵K和查询矩阵Q进行矩阵乘法，得到自注意力矩阵

h _a表示键矩阵K的长度；

自注意力输出单元1402，用于按下式计算得到自注意力模块的输出：

其中α是预先设定的超参；

匹配单元1403，用于利用所述自注意力模块的输出对所述用户问句与待匹配的文本进行匹配。

通过本申请实施例的装置，可以实现着重于已知的术语之间的匹配，减少非术语之间的匹配，达到提高匹配准确度的效果。

上述文本匹配装置800可以实现为计算机程序的形式，该计算机程序可以在如图15所示的计算机设备上运行。

请参阅图15，图15是本申请实施例提供的计算机设备的示意性框图。该计算机设备1500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图15，该计算机设备1500包括通过系统总线1501连接的处理器1502、存储器和网络接口1505，其中，存储器可以包括非易失性存储介质1503和内存储器1504。

该非易失性存储介质1503可存储操作系统15031和计算机程序15032。该计算机程序15032被执行时，可使得处理器1502执行文本匹配方法。

该处理器1502用于提供计算和控制能力，支撑整个计算机设备1500的运行。

该内存储器1504为非易失性存储介质1503中的计算机程序15032的运行提供环境，该计算机程序15032被处理器1502执行时，可使得处理器1502执行文本匹配方法。

该网络接口1505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备1500的限定，具体的计算机设备1500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器1502用于运行存储在存储器中的计算机程序15032，以实现如下功能：获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T；对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE；对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T；计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵；对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵

本领域技术人员可以理解，图15中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图15所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器1502可以是中央处理单元(Central Processing Unit，CPU)，该处理器1502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以是易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T；对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE；对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T；计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵；对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种基于术语增强的文本匹配方法，其中，包括：

获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T；

对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE；

对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T；

计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵；

对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵

对所述键矩阵K和查询矩阵Q进行矩阵乘法处理，得到自注意力矩阵A，然后利用所述自注意力矩阵A和影响矩阵
计算得到自注意力模块的输出，再根据所述输出对所述用户问句与待匹配的文本进行匹配。
根据权利要求1所述的基于术语增强的文本匹配方法，其中，所述获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T，包括：

获取用户问句以及待匹配文本；

对所述用户问句以及待匹配文本进行自然语言处理，分别得到用户问句中的所有特征词和待匹配文本中的所有特征词；

将用户问句中的所有特征词按顺序构建为问句特征词集合QU，将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC；

基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T。
根据权利要求1所述的基于术语增强的文本匹配方法，其中，所述对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE，包括：

将所述文本特征词集合QC与问句特征词集合QU进行拼接，并采用分隔符SEP进行分隔，得到拼接集合Q＝[QC,SEP,QU]；

通过embedding查询，将所述拼接集合Q中的字符转换为相应的向量，得到特征向量QE；

通过embedding查询，将所述术语集合T中的字符转换为相应的向量，得到术语向量 TE。
根据权利要求1所述的基于术语增强的文本匹配方法，其中，所述对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T，包括：

利用已训练的权重矩阵W _K、W _Q和W _V分别与所述特征向量QE进行矩阵相乘，得到三个形状相同的矩阵：键矩阵K、查询矩阵Q和值矩阵V；

利用已训练的权重矩阵W _T与所述术语向量TE进行矩阵相乘，得到矩阵K _T。
根据权利要求1所述的基于术语增强的文本匹配方法，其中，所述计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵，包括：

按下式计算矩阵K _T与查询矩阵Q的非归一化权重矩阵：

分别取非归一化权重矩阵A _QT中的每一行进行自我相乘，并进行归一化处理得到数量与非归一化权重矩阵A _QT行数相同的多个子矩阵。
根据权利要求1所述的基于术语增强的文本匹配方法，其中，所述对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵
包括：

按如下公式对所述多个子矩阵进行平均化处理得到平均矩阵

n为子矩阵的个数；

按如下公式对平均矩阵进行归一化处理得到影响矩阵

softmax表示归一化。
根据权利要求1所述的基于术语增强的文本匹配方法，其中，所述对所述键矩阵K和查询矩阵Q进行矩阵乘法处理，得到自注意力矩阵A，然后利用所述自注意力矩阵A和影响矩阵
计算得到自注意力模块的输出，再根据所述输出对所述用户问句与待匹配的文本进行匹配，包括：

对所述键矩阵K和查询矩阵Q进行矩阵乘法，得到自注意力矩阵
h _a表示键矩阵K的长度；

按下式计算得到自注意力模块的输出：
其中α是预先设定的超参；

利用所述自注意力模块的输出对所述用户问句与待匹配的文本进行匹配。
一种基于术语增强的文本匹配装置，其中，包括：

集合构建单元，用于获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T；

向量化单元，用于对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量 TE；

线性转换单元，用于对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T；

自我相乘单元，用于计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵；

平均处理单元，用于对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵

输出单元，用于对所述键矩阵K和查询矩阵Q进行矩阵乘法处理，得到自注意力矩阵A，然后利用所述自注意力矩阵A和影响矩阵
计算得到自注意力模块的输出，再根据所述输出对所述用户问句与待匹配的文本进行匹配。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1所述的基于术语增强的文本匹配方法。
根据权利要求9所述的计算机设备，其中，所述获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T，包括：

获取用户问句以及待匹配文本；

对所述用户问句以及待匹配文本进行自然语言处理，分别得到用户问句中的所有特征词和待匹配文本中的所有特征词；

将用户问句中的所有特征词按顺序构建为问句特征词集合QU，将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC；

基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T。
根据权利要求9所述的计算机设备，其中，所述对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE，包括：

将所述文本特征词集合QC与问句特征词集合QU进行拼接，并采用分隔符SEP进行分隔，得到拼接集合Q＝[QC,SEP,QU]；

通过embedding查询，将所述拼接集合Q中的字符转换为相应的向量，得到特征向量QE；

通过embedding查询，将所述术语集合T中的字符转换为相应的向量，得到术语向量TE。
根据权利要求9所述的计算机设备，其中，所述对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T，包括：

利用已训练的权重矩阵W _K、W _Q和W _V分别与所述特征向量QE进行矩阵相乘，得到三个形状相同的矩阵：键矩阵K、查询矩阵Q和值矩阵V；

利用已训练的权重矩阵W _T与所述术语向量TE进行矩阵相乘，得到矩阵K _T。
根据权利要求9所述的计算机设备，其中，所述计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵，包括：

按下式计算矩阵K _T与查询矩阵Q的非归一化权重矩阵：

分别取非归一化权重矩阵A _QT中的每一行进行自我相乘，并进行归一化处理得到数量与非归一化权重矩阵A _QT行数相同的多个子矩阵。
根据权利要求9所述的计算机设备，其中，所述对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵
包括：

按如下公式对所述多个子矩阵进行平均化处理得到平均矩阵

n为子矩阵的个数；

按如下公式对平均矩阵进行归一化处理得到影响矩阵

softmax表示归一化。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1所述的基于术语增强的文本匹配方法。
根据权利要求15所述的计算机可读存储介质，其中，所述获取用户问句以及待匹配文本，对所述用户问句以及待匹配文本进行自然语言处理，分别得到问句特征词集合QU和文本特征词集合QC，并识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T，包括：

获取用户问句以及待匹配文本；

对所述用户问句以及待匹配文本进行自然语言处理，分别得到用户问句中的所有特征词和待匹配文本中的所有特征词；

将用户问句中的所有特征词按顺序构建为问句特征词集合QU，将待匹配文本中的所有特征词按顺序构建为文本特征词集合QC；

基于命名实体识别方法识别出所述问句特征词集合QU和文本特征词集合QC中的术语，构建术语集合T。
根据权利要求15所述的计算机可读存储介质，其中，所述对所述问句特征词集合QU和文本特征词集合QC进行拼接，然后进行向量化处理，得到特征向量QE；以及对所述术语集合T进行向量化处理，得到术语向量TE，包括：

将所述文本特征词集合QC与问句特征词集合QU进行拼接，并采用分隔符SEP进行分隔，得到拼接集合Q＝[QC,SEP,QU]；

通过embedding查询，将所述拼接集合Q中的字符转换为相应的向量，得到特征向量 QE；

通过embedding查询，将所述术语集合T中的字符转换为相应的向量，得到术语向量TE。
根据权利要求15所述的计算机可读存储介质，其中，所述对所述特征向量QE进行线性转换得到：键矩阵K、查询矩阵Q和值矩阵V，以及对所述术语向量TE进行线性转换，得到矩阵K _T，包括：

利用已训练的权重矩阵W _K、W _Q和W _V分别与所述特征向量QE进行矩阵相乘，得到三个形状相同的矩阵：键矩阵K、查询矩阵Q和值矩阵V；

利用已训练的权重矩阵W _T与所述术语向量TE进行矩阵相乘，得到矩阵K _T。
根据权利要求15所述的计算机可读存储介质，其中，所述计算所述矩阵K _T与查询矩阵Q的非归一化权重矩阵A _QT，然后对所述非归一化权重矩阵A _QT进行自我相乘以及归一化处理得到多个子矩阵，包括：

按下式计算矩阵K _T与查询矩阵Q的非归一化权重矩阵：

分别取非归一化权重矩阵A _QT中的每一行进行自我相乘，并进行归一化处理得到数量与非归一化权重矩阵A _QT行数相同的多个子矩阵。
根据权利要求15所述的计算机可读存储介质，其中，所述对所述多个子矩阵进行平均化处理，再进行归一化处理得到影响矩阵
包括：

按如下公式对所述多个子矩阵进行平均化处理得到平均矩阵

n为子矩阵的个数；

按如下公式对平均矩阵进行归一化处理得到影响矩阵

softmax表示归一化。