WO2020124959A1

WO2020124959A1 - 基于交叉注意力机制的语义相似度匹配方法及其装置

Info

Publication number: WO2020124959A1
Application number: PCT/CN2019/089483
Authority: WO
Inventors: 周涛涛; 周宝; 陈远旭; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-12-21
Filing date: 2019-05-31
Publication date: 2020-06-25
Also published as: CN109815484A; CN109815484B

Abstract

一种基于交叉注意力机制的语义相似度匹配方法、装置、计算机设备及存储介质，适用于语音交互技术领域，能够实现在语义层面上对两个语句进行交叉表征。首先通过word2vec对两个语句中的每个分词进行词向量表征，分别通过双向LSTM后得到两个拼接矩阵，进而使两个拼接矩阵之间相互进行交叉表征，得到任意句子中的每个分词相对于另一个句子的重要程度。在此基础上再进行最大化处理并输入全连接层，最终获取两个语句之间的匹配度得分。该方法克服了现有技术中单独使用LSTM或者交互式匹配时存在的局限性，使得两个语句之间的匹配度计算更为精确完整，趋近真实情境。

Description

基于交叉注意力机制的语义相似度匹配方法及其装置

相关申请的交叉引用

本申请申明享有2018年12月21日递交的申请号为CN201811573321.5、名称为“基于交叉注意力机制的语义相似度匹配方法及其匹配装置”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本发明涉及语音交互技术领域，尤其涉及一种基于交叉注意力机制的语义相似度匹配方法、装置、计算机设备及存储介质。

背景技术

目前公认的基于深度学习的语义相似度匹配方法包括：1)Siamese结构，即先将两个句子或文本分别通过卷积神经网络(CNN)、LSTM等神经网络进行表征得到两个句子向量，再进行相似度计算；2)交互式匹配的方法，即先将两个句子的词向量之间进行内积操作，得到一个三维矩阵作，再输入CNN、LSTM等神经网络中。然而Siamese结构仅对两个句子进行独立的表征，未能精确表征两者之间的交互关系。另一方面，交互式匹配的方法仅考虑到点对点的内积操作，仅能够表达两个句子间的局部相关性，无法有效地进行语义关系的表征。

发明内容

本发明的目的是提供一种基于交叉注意力机制的语义相似度匹配方法、装置、计算机设备及存储介质，用于解决现有技术存在的问题。

为实现上述目的，本发明提供一种基于交叉注意力机制的语义相似度匹配方法，包括：

获取第一基础语句中的多个第一基础词，获取第二基础语句中的多个第二基础词；

对每个所述第一基础词和所述第二基础词进行词向量表征，得到多个第一基础向量和多个第二基础向量；

将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量；其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成；所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成；

根据所述多个第一拼接向量生成第一拼接矩阵，所述第一拼接矩阵的列向量为所述第一拼接向量；根据所述多个第二拼接向量生成第二拼接矩阵，所述第二拼接矩阵的列向量为所述第二拼接向量；

用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵；用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵；

分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵；

将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层，得到所述第一基础语句和所述第二基础语句的匹配值。

为实现上述目的，本发明还提供一种基于交叉注意力机制的语义相似度匹配装置，包括：

基础词获取模块，获取第一基础语句中的多个第一基础词，获取第二基础语句中的多个第二基础词；

词向量表征模块，适用于对每个所述第一基础词和所述第二基础词进行词向量表征，得到多个第一基础向量和多个第二基础向量；

双向LSTM模块，适用于将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量；其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成；所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成；

拼接模块，适用于根据所述多个第一拼接向量生成第一拼接矩阵，所述第一拼接矩阵的列向量为所述第一拼接向量；根据所述多个第二拼接向量生成第二拼接矩阵，所述第二拼接矩阵的列向量为所述第二拼接向量；

交叉表征模块，适用于用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵；用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵；

最大化模块，适用于分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵；

匹配模块，适用于将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层，得到所述第一基础语句和所述第二基础语句的匹配值。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时以下步骤：

本发明基于交叉注意力机制的语义相似度匹配方案，分别对两个句子进行相互表征，从而在表征阶段已实现对两个句子在语义层面上的交互作用。与现有技术相比，本发明具有以下有益效果：

(1)本发明采用双向LSTM对语句进行预表征，作为交叉表征层的输入，能够抽象出语句的长程序列结构，从而使交叉表征层能够挖掘语义间的长程匹配性。

(2)本发明采用注意力机制，计算一个句子的每个单词在另一个句子下的表征。相比于传统的基于点对点的语义相似度匹配方法，该方法不但包含词语与另一个语句中的每个词语、短语的局部关系，还包含词语在语义层面下的表征。

(3)本发明采用最大池化(max pooling)的方法将交叉匹配后的语句编码为一个向量。相比于传统的采用CNN或LSTM编码的方法，在保证模型表征能力的基础上，显著降低了模型参数数量，从而降低了模型的训练时间。

附图说明

图1为本发明的语义相似度匹配方法实施例一的流程图；

图2为本发明的语义相似度匹配装置实施例一的程序模块示意图；

图3为本发明的语义相似度匹配装置实施例一的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于交叉注意力机制的语义相似度匹配方法、装置、计算机设备及存储介质，适用于语音交互技术领域，能够实现在语义层面上对两个语句进行交叉表征。本发明首先通过word2vec对两个语句中的每个分词进行词向量表征，分别通过双向LSTM后得到两个拼接矩阵，进而使两个拼接矩阵之间相互进行交叉表征，得到任意句子中的每个分词相对于另一个句子的重要程度。在此基础上再进行最大化处理并输入全连接层，最终获取两个语句之间的匹配度得分。本发明提出的上述方案克服了现有技术中单独使用LSTM或者交互式匹配时存在的局限性，使得两个语句之间的匹配度计算更为精确完整，趋近真实情境。

实施例1

请参阅图1，本实施例的一种基于交叉注意力机制的语义相似度匹配方法，包括以下步骤：

S1:获取第一基础语句中的多个第一基础词，获取第二基础语句中的多个第二基础词。

本步骤用于对包含在句子中的所有单词进行划分。例如，句子1为“我是中国人”，对其进行划分可得到“我”、“是”和“中国人”共三个基础词。又例如句子2为“I am Chinese”，对其进行划分可得到“I”、“am”和“Chinese”共三个基础词。

S2:对每个所述第一基础词和所述第二基础词进行词向量表征，得到多个第一基础向量和多个第二基础向量。

本步骤优选采用word2vec词向量模型对句子中的每个词进行表征，其优点在于word2vec词向量模型一方面降低了输入的维度，另一方面经word2vec 模型训练好的词向量相比于传统的one-hot-encoder或者主题模型，充分利用了词的上下文并提供更加丰富的语义信息。

经word2vec模型训练后的每个基础词被表征为计算机可以理解的向量形式，例如[0.792,-0.177,-0.107,……]。本发明将经过word2vec模型后得到的向量称为基础向量，例如，句子1中的基础词“我”、“是”、“中国人”经向量表征后得到三个第一基础向量分别为

和

句子2中的基础词“I”、“am”和“Chinese”经向量表征后得到三个第二基础向量分别为

和

S3:将多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量；其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成；所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成。

本步骤中，将第i个第一基础向量

经过双向LSTM模型后分别输出为

和

其中

是向前输入LSTM得到的第一向前输入向量，

是向后输入LSTM得到的第一向后输入向量，则第一拼接向量为

例如句子1中包含

和

共三个第一基础向量，其中

经过双向LSTM模型后分别输出

和

则第一基础向量

所对应的第一拼接向量p ₁为

本步骤中，将第i个第二基础向量

经过双向LSTM模型后分别输出

和

其中

是向前输入LSTM得到的第二向前输入向量，

是向后输入LSTM得到的第二向后输入向量，则第二拼接向量为

例如句子2中包含

和

共三个第二基础向量，其中

经过双向LSTM模型后分别输出

和

则第二基础向量

所对应的第二拼接向量q ₁为

S4:根据所述多个第一拼接向量生成第一拼接矩阵，所述第一拼接矩阵的列向量为所述第一拼接向量；根据所述多个第二拼接向量生成第二拼接矩阵，所述第二拼接矩阵的列向量为所述第二拼接向量。

本步骤利用前文中得到的第一拼接向量和第二拼接向量分别得到第一拼接矩阵和第二拼接矩阵。例如，句子1包括三个第一拼接向量p ₁、p ₂和p ₃，则根据这三个第一拼接向量组成的第一拼接矩阵为[p ₁，p ₂，p ₃]。句子2包括三个第二拼接向量q ₁、q ₂和q ₃，则根据这三个第一拼接向量组成的第一拼接矩阵为[q ₁，q ₂，q ₃]。

S5:用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵；用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵。

本步骤中，第一表征矩阵P′由第一表征向量p′ _i组成，第一表征向量p′ _i的计算公式如下：

其中：

上式中，α _ij表示第一拼接矩阵P中的第i个第一拼接向量p _i与第二拼接矩阵Q中的每一个第二拼接向量q _j的余弦相似度，N为第二拼接向量q _j的个数。例如，句子1对应的第一拼接矩阵P中包括三个第一拼接向量p ₁、p ₂和p ₃，句子2对应的第二拼接矩阵Q中包括三个第二拼接向量q ₁、q ₂和q ₃，则第一拼接向量p ₁所对应的第一表征向量p′ ₁为：p′ ₁＝α ₁₁q ₁+α ₁₂q ₂+α ₁₃q ₃。相应的，当包含三个第一表征向量p′ _i时，第一表征矩阵P′可以表示为[p′ ₁，p′ ₂，p′ ₃]。

本步骤中，第二表征矩阵Q′由第二表征向量q′ _i组成，第二表征向量q′ _i的计算公式如下：

其中：

上式中，α _ij表示第二拼接矩阵Q中的第i个第二拼接向量q _i与第一拼接矩阵P中的每一个第二拼接向量p _j的余弦相似度，N为第一拼接向量p _j的个数。例如，句子1对应的第一拼接矩阵P中包括三个第一拼接向量p ₁、p ₂和p ₃，句子2对应的第二拼接矩阵Q中包括三个第二拼接向量q ₁、q ₂和q ₃，则第二拼接向量q ₁所对应的第一表征向量q′ ₁为：q′ ₁＝α ₁₁p ₁+α ₁₂p ₂+α ₁₃p ₃。相应的，当包含三个第二表征向量q′ _i时，第二表征矩阵Q′可以表示为[q′ ₁，q′ ₂，q′ ₃]。

S6:分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵。

本步骤中，分别对于第一表征矩阵P′和第二表征矩阵Q′中的每一列取最大值，即选取每个表征向量的最大值。例如向量p′ _i中包括k个数值，选取这k个数值中的最大值p′ _imax作为向量p′ _i的值。对于包含三个第一表征向量的第一表征矩阵P′，经最大池化后得到的第一最大化矩阵P′ _max表示为[p′ _1max，p′ _2max，p′ _3max]，由于p′ _1max、p′ _2max和p′ _3max均为单个数值，上述第一最大化矩阵P′ _max是一维矩阵。

类似的，对于包含三个第二表征向量的第二表征矩阵Q′，经最大池化后得到的第二最大化矩阵Q′ _max表示为[q′ _1max，q′ _2max，q′ _3max]。由于q′ _1max、q′ _2max和q′ _3max均为单个数值，上述第二最大化矩阵Q′ _max是一维矩阵。

S7:将所述第一矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层，得到所述第一基础语句和所述第二基础语句的匹配值。

本步骤将第一最大化矩阵P′ _max和第二最大化矩阵Q′ _max进行拼接，得到拼接矩阵P′ _maxQ′ _max可表示为[p′ _1max，p′ _2max，p′ _3max，q′ _1max，q′ _2max，q′ _3max]。拼接矩阵P′ _maxQ′ _max经过全连接网络层和softmax层后便可输出句子1与句子2的相似度匹配值。上述全连接网络层和池化层的处理方式属于现有技术，本文不再赘述。

请继续参阅图2，示出了一种语义相似度匹配装置，在本实施例中，语义相似度匹配装置10可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述语义相似度匹配方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述语义相似度匹配装置10在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

基础词获取模块11，获取第一基础语句中的多个第一基础词，获取第二基础语句中的多个第二基础词；

词向量表征模块12，适用于对每个所述第一基础词和所述第二基础词进行词向量表征，得到多个第一基础向量和多个第二基础向量；

双向LSTM模块13，适用于将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量；其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成；所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成；

拼接模块14，适用于根据所述多个第一拼接向量生成第一拼接矩阵，所述第一拼接矩阵的列向量为所述第一拼接向量；根据所述多个第二拼接向量生成第二拼接矩阵，所述第二拼接矩阵的列向量为所述第二拼接向量；

交叉表征模块15，适用于用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵；用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵；

最大化模块16，适用于分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵；

匹配模块17，适用于将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层，得到所述第一基础语句和所述第二基础语句的匹配值。

进一步，所述双向LSTM模块13包括：

第一双向LSTM子模块131，适用于将第i个第一基础向量

经过双向LSTM模型后分别输出

和

其中

是向前输入LSTM得到的第一向前输入向量，

是向后输入LSTM得到的第一向后输入向量，则第一拼接向量为

第二双向LSTM子模块132，适用于将第i个第二基础向量

经过双向LSTM模型后分别输出

和

其中

是向前输入LSTM得到的第二向前输入向量，

是向后输入LSTM得到的第二向后输入向量，则第二拼接向量为

本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图3所示。需要指出的是，图3仅示出了具有组件21-22的计算机设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储单元，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件，例如实施例一的语义相似度匹配装置10的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行语义相似度匹配装置10，以实现实施例一的语义相似度匹配方法。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储语义相似度匹配装置10，被处理器执行时实现实施例一的语义相似度匹配方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

本技术领域的普通技术人员可以理解，实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

一种基于交叉注意力机制的语义相似度匹配方法，其特征在于，包括：

获取第一基础语句中的多个第一基础词，获取第二基础语句中的多个第二基础词；

对每个所述第一基础词和所述第二基础词进行词向量表征，得到多个第一基础向量和多个第二基础向量；

将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量；其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成；所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成；

根据所述多个第一拼接向量生成第一拼接矩阵，所述第一拼接矩阵的列向量为所述第一拼接向量；根据所述多个第二拼接向量生成第二拼接矩阵，所述第二拼接矩阵的列向量为所述第二拼接向量；

用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵；用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵；

分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵；

将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层，得到所述第一基础语句和所述第二基础语句的匹配值。
根据权利要求1所述的语义相似度匹配方法，其特征在于，所述词向量表征是通过word2vec模型得到的。
根据权利要求2所述的语义相似度匹配方法，其特征在于，将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量的步骤包括：

将第i个第一基础向量
经过双向LSTM模型后分别输出
和
其中
是向前输入LSTM得到的第一向前输入向量，
是向后输入LSTM得到的第一向后输入向量，则第一拼接向量为

将第i个第二基础向量
经过双向LSTM模型后分别输出
和
其中
是向前输入LSTM得到的第二向前输入向量，
是向后输入LSTM得到的第二向后输入向量，则第二拼接向量为
根据权利要求3所述的语义相似度匹配方法，其特征在于：

用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵的步骤包括：

计算第一拼接矩阵P中的第i个列向量p _i与第二拼接矩阵Q中的每一个列向量q _j的余弦相似度α _ij，并进行加权求和后得到P中的第i个列向量p _i在第二拼接矩阵Q中的第一表征向量p′ _i：

其中N为列向量q _j的个数；

将所有的第一表征向量p′ _i作为列向量形成第一表征矩阵P’；

用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵的步骤包括：

计算第二拼接矩阵Q中的第i个列向量q _i与第一拼接矩阵P中的每一个列向量p _j的余弦相似度α _ij，并进行加权求和后得到Q中的第i个列向量q _i在第一拼接矩阵P中的第二表征向量q′ _i：

其中N为列向量p _j的个数；

将所有的第二表征向量q′ _i作为列向量形成第二表征矩阵Q’。
根据权利要求3所述的语义相似度匹配方法，其特征在于：所述分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵的步骤包括：

对于第一表征矩阵中的每个列向量p′ _i，选取该列的最大值p′ _imax作为该列向量的值，得到第一最大化矩阵(p′ _1max，p′ _2max，…p′ _Nmax)；

对于第二表征矩阵中的每个列向量q′ _i，选取该列的最大值q′ _imax作为该列向量的值，得到第二最大化矩阵(q′ _1max，q′ _2max，…q′ _Nmax)。
一种基于交叉注意力机制的语义相似度匹配装置，其特征在于，包括：

基础词获取模块，获取第一基础语句中的多个第一基础词，获取第二基础语句中的多个第二基础词；

词向量表征模块，适用于对每个所述第一基础词和所述第二基础词进行词向量表征，得到多个第一基础向量和多个第二基础向量；

双向LSTM模块，适用于将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量；其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成；所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成；

拼接模块，适用于根据所述多个第一拼接向量生成第一拼接矩阵，所述第一拼接矩阵的列向量为所述第一拼接向量；根据所述多个第二拼接向量生成第二拼接矩阵，所述第二拼接矩阵的列向量为所述第二拼接向量；

交叉表征模块，适用于用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵；用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵；

最大化模块，适用于分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵；

匹配模块，适用于将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层，得到所述第一基础语句和所述第二基础语句的匹配值。
根据权利要求6所述的语义相似度匹配装置，其特征在于，所述双向LSTM模块包括：

第一双向LSTM子模块，适用于将第i个第一基础向量
经过双向LSTM模型后分别输出
和
其中
是向前输入LSTM得到的第一向前输入向量，
是向后输入LSTM得到的第一向后输入向量，则第一拼接向量为
第二双向LSTM子模块，适用于将第i个第二基础向量
经过双向LSTM 模型后分别输出
和
其中
是向前输入LSTM得到的第二向前输入向量，
是向后输入LSTM得到的第二向后输入向量，则第二拼接向量为
根据权利要求7所述的语义相似度匹配装置，其特征在于，所述交叉表征模块包括第一交叉表征子模块和第二交叉表征子模块，其中：

第一交叉子模块适用于计算第一拼接矩阵P中的第i个列向量p _i与第二拼接矩阵Q中的每一个列向量q _j的余弦相似度α _ij，并进行加权求和后得到P中的第i个列向量p _i在第二拼接矩阵Q中的第一表征向量p′ _i：

其中N为列向量q _j的个数；

将所有的第一表征向量p′ _i作为列向量形成第一表征矩阵P’；

第二交叉表征子模块适用于计算第二拼接矩阵Q中的第i个列向量q _i与第一拼接矩阵P中的每一个列向量p _j的余弦相似度α _ij，并进行加权求和后得到Q中的第i个列向量q _i在第一拼接矩阵P中的第二表征向量q′ _i：

其中N为列向量p _j的个数；

将所有的第二表征向量q′ _i作为列向量形成第二表征矩阵Q’。
根据权利要求6所述的语义相似度匹配装置，其特征在于，所述词向量表征模块包括word2vec子模块，适用于通过word2vec模型对每个所述第一基础词和所述第二基础词进行词向量表征。
根据权利要求8所述的语义相似度匹配装置，其特征在于，所述最大化模块包括：

第一最大化子模块，适用于对于第一表征矩阵中的每个列向量p′ _i，选取该列的最大值p′ _imax作为该列向量的值，得到第一最大化矩阵(p′ _1max，p′ _2max，…p′ _Nmax)；

第二最大化子模块，适用于对于第二表征矩阵中的每个列向量q′ _i，选取该列的最大值q′ _imax作为该列向量的值，得到第二最大化矩阵(q′ _1max，q′ _2max，…q′ _Nmax)。
一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

获取第一基础语句中的多个第一基础词，获取第二基础语句中的多个第二基础词；

对每个所述第一基础词和所述第二基础词进行词向量表征，得到多个第一基础向量和多个第二基础向量；

将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量；其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成；所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成；

根据所述多个第一拼接向量生成第一拼接矩阵，所述第一拼接矩阵的列向量为所述第一拼接向量；根据所述多个第二拼接向量生成第二拼接矩阵，所述第二拼接矩阵的列向量为所述第二拼接向量；

用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵；用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵；

分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵；

将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层，得到所述第一基础语句和所述第二基础语句的匹配值。
根据权利要求11所述的计算机设备，其特征在于，所述词向量表征是通过word2vec模型得到的。
根据权利要求11所述的计算机设备，其特征在于，将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量的步骤包括：

将第i个第一基础向量
经过双向LSTM模型后分别输出
和
其中
是向前输入LSTM得到的第一向前输入向量，
是向后输入LSTM得到的第一向后输入向量，则第一拼接向量为

将第i个第二基础向量
经过双向LSTM模型后分别输出
和
其中
是向前输入LSTM得到的第二向前输入向量，
是向后输入LSTM得到的第二向后输入向量，则第二拼接向量为
根据权利要求13所述的计算机设备，其特征在于，用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵的步骤包括：

计算第一拼接矩阵P中的第i个列向量p _i与第二拼接矩阵Q中的每一个列向量q _j的余弦相似度α _ij，并进行加权求和后得到P中的第i个列向量p _i在第二拼接矩阵Q中的第一表征向量p′ _i：

其中N为列向量q _j的个数；

将所有的第一表征向量p′ _i作为列向量形成第一表征矩阵P’；

用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵的步骤包括：

计算第二拼接矩阵Q中的第i个列向量q _i与第一拼接矩阵P中的每一个列向量p _j的余弦相似度α _ij，并进行加权求和后得到Q中的第i个列向量q _i在第一拼接矩阵P中的第二表征向量q′ _i：

其中N为列向量p _j的个数；

将所有的第二表征向量q′ _i作为列向量形成第二表征矩阵Q’。
根据权利要求13所述的计算机设备，其特征在于，所述分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵的步骤包括：

对于第一表征矩阵中的每个列向量p′ _i，选取该列的最大值p′ _imax作为该列向量的值，得到第一最大化矩阵(p′ _1max，p′ _2max，…p′ _Nmax)；

对于第二表征矩阵中的每个列向量q′ _i，选取该列的最大值q′ _imax作为该列向量的值，得到第二最大化矩阵(q′ _1max，q′ _2max，…q′ _Nmax)。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利以下步骤：

获取第一基础语句中的多个第一基础词，获取第二基础语句中的多个第二基础词；

对每个所述第一基础词和所述第二基础词进行词向量表征，得到多个第一基础向量和多个第二基础向量；

将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量；其中所述第一拼接向量由所述第一基础向量通过双向LSTM模型后得到的第一向前输入向量和第一向后输入向量组合而成；所述第二拼接向量由第二基础向量通过双向LSTM模型后得到的第二向前输入向量和第二向后输出向量组合而成；

根据所述多个第一拼接向量生成第一拼接矩阵，所述第一拼接矩阵的列向量为所述第一拼接向量；根据所述多个第二拼接向量生成第二拼接矩阵，所述第二拼接矩阵的列向量为所述第二拼接向量；

用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵；用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵；

分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵；

将所述第一最大化矩阵和所述第二最大化矩阵拼接后输入全连接层和池化层，得到所述第一基础语句和所述第二基础语句的匹配值。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述词向量表征是通过word2vec模型得到的。
根据权利要求17所述的计算机可读存储介质，其特征在于，将所述多个第一基础向量和多个第二基础向量分别通过双向LSTM模型，得到多个第一拼接向量和多个第二拼接向量的步骤包括：

将第i个第一基础向量
经过双向LSTM模型后分别输出
和
其中
是向前输入LSTM得到的第一向前输入向量，
是向后输入LSTM得到的第一向后输入向量，则第一拼接向量为

将第i个第二基础向量
经过双向LSTM模型后分别输出
和
其中
是向前输入LSTM得到的第二向前输入向量，
是向后输入LSTM得到的第二向后输入向量，则第二拼接向量为
根据权利要求18所述的计算机可读存储介质，其特征在于，用所述第二拼接矩阵中的所有列向量分别对所述第一拼接矩阵中的每个列向量进行交叉表征，得到第一表征矩阵的步骤包括：

计算第一拼接矩阵P中的第i个列向量p _i与第二拼接矩阵Q中的每一个列向量q _j的余弦相似度α _ij，并进行加权求和后得到P中的第i个列向量p _i在第二拼接矩阵Q中的第一表征向量p′ _i：

其中N为列向量q _j的个数；

将所有的第一表征向量p′ _i作为列向量形成第一表征矩阵P’；

用所述第一拼接矩阵中的所有列向量分别对所述第二拼接矩阵中的每个列向量进行交叉表征，得到第二表征矩阵的步骤包括：

计算第二拼接矩阵Q中的第i个列向量q _i与第一拼接矩阵P中的每一个列向量p _j的余弦相似度α _ij，并进行加权求和后得到Q中的第i个列向量q _i在第一拼接矩阵P中的第二表征向量q′ _i：

其中N为列向量p _j的个数；

将所有的第二表征向量q′ _i作为列向量形成第二表征矩阵Q’。
根据权利要求18所述的计算机可读存储介质，其特征在于，所述分别对所述第一表征矩阵和所述第二表征矩阵进行最大化处理，得到第一最大化矩阵和第二最大化矩阵的步骤包括：

对于第一表征矩阵中的每个列向量p′ _i，选取该列的最大值p′ _imax作为该列向量的值，得到第一最大化矩阵(p′ _1max，p′ _2max，…p′ _Nmax)；

对于第二表征矩阵中的每个列向量q′ _i，选取该列的最大值q′ _imax作为该列向量的值，得到第二最大化矩阵(q′ _1max，q′ _2max，…q′ _Nmax)。