WO2022257453A1

WO2022257453A1 - 释义分析模型训练方法、装置、终端设备及存储介质

Info

Publication number: WO2022257453A1
Application number: PCT/CN2022/071358
Authority: WO
Inventors: 赵盟盟; 王媛; 吴文哲; 王磊; 苏亮州
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-06-09
Filing date: 2022-01-11
Publication date: 2022-12-15
Also published as: CN113377909A; CN113377909B

Abstract

本申请适用于人工智能技术领域，提供了一种释义分析模型训练方法、装置、终端设备及存储介质，方法包括：获取包含两段文本的训练样本；将训练样本输入至预训练模型的第一网络结构中，得到训练样本的目标嵌入向量；将目标嵌入向量输入至高通滤波层进行信息噪音过滤处理，得到滤波向量；将目标嵌入向量和滤波向量分别输入至第二网络结构中进行向量处理，得到目标损失函数值；基于目标损失函数值，对预训练模型进行反向传播训练，得到目标训练模型。采用上述方法，可在对待识别文本的向量处理过程中实现对关键信息的增强，有助于提高目标训练模型的预测准确率。

Description

释义分析模型训练方法、装置、终端设备及存储介质

本申请要求于2021年06月09日在中国专利局提交的、申请号为202110642143.2、发明名称为“释义分析模型训练方法、装置、终端设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于人工智能技术领域，尤其涉及一种释义分析模型训练方法、装置、终端设备及存储介质。

背景技术

文本释义分析任务是自然语言处理领域中评价模型性能优劣的常见指标之一。具体为，输入两段文本至模型中，经过模型处理预测两段文本所表达的意思是否为同一个意思，即两段文本之间的释义相似度。

目前，在进行文本释义分析模型的训练过程中，通常是直接基于人工标注的大量文本数据进行向量处理(如提取文本释义)，以进行模型训练。然而，发明人意识到，上述对文本数据进行向量处理的过程中，均未对文本数据中普遍存在的干扰信息进行处理，最终模型的预测准确率较低。

技术问题

本申请实施例的目的之一在于：提供一种释义分析模型训练方法、装置、终端设备及存储介质，旨在解决现有技术中训练的文本释义分析模型预测准确率低的技术问题。

技术解决方案

为解决上述技术问题，本申请实施例采用的技术方案是：

第一方面，本申请实施例提供了一种释义分析模型训练方法，方法包括：

获取训练样本，所述训练样本至少包括两段文本；

将所述训练样本输入至预训练模型的第一网络结构中，得到所述训练样本的目标嵌入向量；所述预训练模型还包括高通滤波层和第二网络结构；

将所述目标嵌入向量输入至所述高通滤波层进行信息噪音过滤处理，得到滤波向量；

将所述目标嵌入向量和所述滤波向量分别输入至所述第二网络结构中进行向量处理，得到所述训练样本的目标损失函数值；

基于所述目标损失函数值，对所述预训练模型进行反向传播训练，得到目标训练模型，所述目标训练模型用于对任意输入的两段待识别文本进行处理，输出所述两段待识别文本的释义相似度。

第二方面，本申请实施例提供了一种释义分析模型训练装置，装置包括：

获取模块，用于获取训练样本，所述训练样本至少包括两段文本；

第一输入模块，用于将所述训练样本输入至预训练模型的第一网络结构中，得到所述训练样本的目标嵌入向量；所述预训练模型还包括高通滤波层和第二网络结构；

第二输入模块，用于将所述目标嵌入向量输入至所述高通滤波层进行信息噪音过滤处理，得到滤波向量；

第三输入模块，用于将所述目标嵌入向量和所述滤波向量分别输入至所述第二网络结构中进行向量处理，得到所述训练样本的目标损失函数值；

训练模块，用于基于所述目标损失函数值，对所述预训练模型进行反向传播训练，得到目标训练模型，所述目标训练模型用于对任意输入的两段待识别文本进行处理，输出所述两段待识别文本的释义相似度。

本申请实施例的第三方面提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：

获取训练样本，所述训练样本至少包括两段文本；

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：

获取训练样本，所述训练样本至少包括两段文本；

本申请实施例的第五方面还提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行时实现：

获取训练样本，所述训练样本至少包括两段文本；

有益效果

与现有技术相比，本申请实施例包括以下优点：

本申请实施例，通过采用已有可对文本进行向量处理的第一网络结构，对训练样本进行向量处理后，可初步得到可包含两段文本之间释义信息的目标嵌入向量，减少重新设计训练模型中的对文本进行向量处理的第一网络结构的时间。而后，对目标嵌入向量进行高通滤波处理，以减少目标嵌入向量中信息噪声对模型的干扰。之后，基于目标嵌入向量和更为精确的滤波向量进行模型处理，得到目标损失函数值。以此，可使预训练模型在向量处理过程中，不仅可最大化的保留原始两段文本之间的特征信息，还可基于滤波向量实现对两段文本中关键信息的增强。最后，根据该目标损失函数值对预训练模型中的多种学习参数和权重参数进行微调，得到目标训练模型，以提高目标训练模型的预测准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或示范性技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请一实施例提供的一种释义分析模型训练方法的实现流程图；

图2是本申请一实施例提供的一种释义分析模型训练方法的S102的一种实现方式示意图；

图3是本申请一实施例提供的一种释义分析模型训练方法的S1023的一种实现方式示意图；

图4是本申请一实施例提供的一种释义分析模型训练方法的S104的一种实现方式示意图；

图5是本申请一实施例提供的一种释义分析模型训练方法的S1043的一种实现方式示意图；

图6是本申请另一实施例提供的一种释义分析模型训练方法的实现流程图；

图7是本申请实施例提供的释义分析模型训练装置的结构示意图；

图8是本申请实施例提供的终端设备的结构示意图。

本发明的实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的释义分析模型训练方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

请参阅图1，图1示出了本申请实施例提供的一种释义分析模型训练方法的实现流程图，该方法包括如下步骤：

S101、获取训练样本，所述训练样本至少包括两段文本。

在一实施例中，上述训练样本可以预先从已有的多个不同行业和/或研究领域的实际应用进行获取。示例性的，不同行业和/或研究领域的实际应用中均预先收集有相应的样本数据集，每种样本数据集均包含有相应的训练样本。在本实施例中，上述样本数据集具体为用于进行释义相似度分析训练的数据集。其中，上述样本数据集具体包括但不限于MNLI数据集、SNLI数据集以及SICK数据集。

在一实施例中，在上述训练样本为用于进行释义相似度分析的样本时，每个训练样本需包括两段文本，并包含两段文本之间的实际结果(相似结果，或者不相似结果)。基于此，在训练模型接收到训练样本后，可对其进行模型处理，并输出预测结果。之后，基于预测结果与实际结果计算训练损失值，以更新训练模型。

在一实施例中，上述两段文本的语言包括但不限于中文、英文等形式的语言。另外，在两段文本的语言并不相同时，可利用已有的语言翻译技术，对其中一段文本的语言进行翻译，以得到相同语言的两段文本。

S102、将所述训练样本输入至预训练模型的第一网络结构中，得到所述训练样本的目标嵌入向量；所述预训练模型还包括高通滤波层和第二网络结构。

在一实施例中，上述预训练模型可以为已有的模型，或者新设计的网络模型，对此不作限定。在本实施例中，上述预训练模型具体为已有由Transformer改进的Bert模型，该模型通常用于执行文本释义分析任务，以减少预训练模型的训练时间。

在一实施例中，上述目标嵌入向量为表示两段文本之间释义关系的特征向量。即在将训练样本输入至第一网络结构并对其进行向量处理后，得到的目标嵌入向量可用于表示两段文本之间的释义关系。而后，第二网络结构和高通滤波层可对目标嵌入向量进行处理，并输出两段文本之间释义相似度的预测结果。最后，第二网络结构还可基于该预测结果与训练样本的实际结果，计算相应损失函数值，并对预训练模型进行迭代更新。

在一实施例中，上述第一网络结构为对训练样本进行处理，得到目标嵌入向量的结构，其可为使用已有的Bert模型中对文本进行处理得到文本特征向量的网络结构，对此不作详细描述。上述第二网络结构具体可包括Dropout层、Linear层、Softmax层以及损失函数计算层。其中，上述Dropout层在模型训练的过程中，可以解决模型过拟合的问题。上述Linear层中的线性函数可以使模型在训练的过程中逐渐收敛。上述Softmax层中的激活函数可以基于输入的特征向量进行计算，输出训练样本中两段文本之间的预测结果(释义相似度)。之后，损失函数计算层可以基于预测结果以及训练样本的实际结果计算损失函数值。

其中，训练样本之间的实际结果通常以1或0为参数参与计算。其中，上述损失函数层中的损失函数具体可以为交叉熵损失函数，而上述softmax函数具体为：

其中，xi为预训练模型预测训练样本属于第i类预测结果的初始概率，f(xi)为基于上述预测结果的初始概率进行激活函数计算，得到的预测训练样本属于第i类预测结果的最终概率。需要说明的是，在进行二分类的过程中，上述i的类别只有两类。然而，在进行多分类的预测过程中，对i的类别的数量不作限定。此时，输出的f(xi)的最终概率还可认为是预训练模型输出的两端文本的释义相似度。需要补充的是，在得到第i类预测结果的初始概率xi后，本实施例还需通过上述激活函数f(xi)对其进行进一步的修正，以提高第二网络结构对整体预训练模型的表达能力。

在一实施例中，上述高通滤波层可用于对输入的目标嵌入向量进行信息噪音过滤处理，以清除目标嵌入向量中的低频分量，保留其中的高频分量。

S103、将所述目标嵌入向量输入至所述高通滤波层进行信息噪音过滤处理，得到滤波向量。

在一实施例中，上述S102已对高通滤波层进行解释，对此不再进行说明。需要补充的是，上述高频分量通常包含有目标嵌入向量中更为精确的向量信息，进而可使得到的滤波向量能够更好的体现出两段文本之间所包含的释义信息。

在一实施例中，上述高通滤波层包含有高通滤波器，其在对信号进行处理时，可使高频信号正常通过，而低于设定临界值的低频信号则被阻隔、减弱。但是阻隔、减弱的幅度则会依据不同的频率以及不同的滤波程序(目的)而改变。在具体应用中，在将目标嵌入向量输入至高通滤波层时，高通滤波层可将目标嵌入向量转换为频率上的信号进行表示，且该信号由多个不同频率之间的信号叠加而成。其中，将向量转换为信号可采用已有的测试向量转换技术进行实现，对此不进行详细说明。之后，对于经过高通滤波器处理后得到高频信号，可重新基于上述转换技术转换为向量进行后续模型处理。

S104、将所述目标嵌入向量和所述滤波向量分别输入至所述第二网络结构中进行向量处理，得到所述训练样本的目标损失函数值。

在一实施例中，上述已对第二网络结构进行解释，对此不再进行说明。需要补充的是，目标嵌入向量和滤波向量可以同时输入至第二网络结构中进行模型处理，得到的为预训练模型输出的两段文本的之间预测结果。之后，预训练模型在基于该预测结果和训练样本的实际结果进行计算，得到目标损失函数值。或者，终端设备也可以分别将目标嵌入向量和滤波向量输入至第二网络结构中，此时可对应得到预训练模型输出的两种预测结果。之后，第二网络结构可将每种预测结果分别和实际结果进行计算，对应得到两种损失函数值。最后，第二网络结构可将两种损失函数值进行加和，得到目标损失函数值，对此不作限定。

需要特别说明的是，对目标嵌入向量进行信息噪音过滤处理后，虽然可精确的保留其两段文本之间的释义信息，然而，在实际情况下，该信息噪音过滤处理还将不可避免的损失两段文本之间的部分特征信息。基于此，在本实施例中，将过滤后的滤波向量和目标嵌入向量输入至第二网络结构中进行处理，可在最大化的保留文本的特征信息时，还可基于滤波向量实现对两段文本中关键信息的增强。

S105、基于所述目标损失函数值，对所述预训练模型进行反向传播训练，得到目标训练模型，所述目标训练模型用于对任意输入的两段待识别文本进行处理，输出所述两段待识别文本的释义相似度。

在一实施例中，在得到上述目标损失函数值后，预训练模型可基于该数值进行反向传播训练，以更新预训练模型中各网络层的学习参数和权重参数，得到目标训练模型。另外，基于上述方法得到的目标训练模型具体为二分类模型，其可用于对输入的两段待识别文本进行模型处理，输出两段待识别文本的释义相似度。

需要补充的是，在进行释义相似度预测时，目标训练模型对两段待识别文本的处理过程具体可参照上述S102以及S103的步骤，得到两段待识别文本的目标嵌入向量和滤波向量。之后，目标训练模型在将目标嵌入向量和滤波向量输入至第二网络结构时，因当前目标训练模型不需要进行反向传播训练，也即不需要进行损失函数值计算。因此，目标训练模型只需将目标嵌入向量和滤波向量输入至第二网络结构中的Dropout层、Linear层、Softmax层进行处理，即可得到预测结果。

在本实施例中，通过采用已有可对文本进行向量处理的第一网络结构，对训练样本进行向量处理后，可初步得到可包含两段文本之间释义信息的目标嵌入向量，减少重新设计训练模型中的对文本进行向量处理的第一网络结构的时间。而后，对目标嵌入向量进行高通滤波处理，以减少目标嵌入向量中信息噪声对模型的干扰。之后，基于目标嵌入向量和更为精确的滤波向量进行模型处理，得到目标损失函数值。以此，可使预训练模型在向量处理过程中，不仅可最大化的保留原始两段文本之间的特征信息，还可基于滤波向量实现对两段文本中关键信息的增强。最后，根据该目标损失函数值对预训练模型中的多种学习参数和权重参数进行微调，得到目标训练模型，以提高目标训练模型的预测准确率。

参照图2，在一实施例中，在S102将所述训练样本输入至预训练模型的第一网络结构中，得到所述训练样本的目标嵌入向量，具体包括如下子步骤S1021-1024，详述如下：

S1021、识别所述训练样本中的起始符号以及分割符号。

S1022、将所述起始符号与所述分割符号之间的文本内容确定为第一文本，以及将处于所述分割符号之后的文本内容确定为第二文本。

在一实施例中，上述起始符号和分割符号均可为用户根据实际情况进行设置，其包括但不限于字母、数字等形式，本实施例对起始符号和分割符号的表现形式不作限定。

在本实施例中，因上述S102中已说明使用已有的Bert模型对训练样本进行向量处理，基于此，可采用Bert模型中对训练样本进行分割的起始符号SEP和分割符号CLS进行标识。之后，终端设备可将SEP符号与CLS符号之间的文本确定为第一文本，以及将CLS符号之后的文本确定为第二文本。

S1023、将所述第一文本和所述第二文本输入至所述第一网络结构中，得到所述第一文本的第一嵌入向量，以及所述第二文本的第二嵌入向量。

在一实施例中，上述第一嵌入向量可以为对第一文本中各个分词进行处理后得到的向量。示例性的，对于第一文本中的任一第一分词，可获取第一分词的第一词向量；以及，基于起始符号，确定第一分词在第一文本中的第一词位置向量。之后，基于第一词向量、第一词位置向量以及第一文本的预设嵌入向量进行综合处理，得到第一分词的第一分词嵌入向量。之后，对上述三种向量进行加和，得到可表示第一分词的第一分词嵌入向量。最后，对每个第一分词执行上述步骤，得到第一文本中各个第一分词的第一分词嵌入向量。基于此，可认为上述第一嵌入向量即由上述第一文本中各个第一分词的第一分词嵌入向量组成。

可以理解的是，得到上述第二文本的第二嵌入向量的过程与上述得到第一嵌入向量的过程相似，具体可参照上述说明。

S1024、计算所述第一嵌入向量和所述第二嵌入向量的均值，并将所述均值作为所述训练样本的目标嵌入向量。

在一实施例中，因上述第一嵌入向量和第二嵌入向量均可通过具体的数字形式进行表示。基于此，在得到第一嵌入向量和第二嵌入向量后，可采用两种向量之间数字的平均值，作为训练样本的目标嵌入向量，对此不作限定。此时，可以理解的是，该目标嵌入向量因是基于第一嵌入向量和第二嵌入向量进行处理得到，因此，可认为目标嵌入向量同时包含了两者嵌入向量的向量信息。

参照图3，在一实施例中，所述第一文本包括至少一个第一分词，所述第二文本包括至少一个第二分词，所述第一嵌入向量由所述第一分词对应的分词嵌入向量组成，所述第二嵌入向量由所述第二分词对应的分词嵌入向量组成；在S1023将所述第一文本和所述第二文本输入至所述第一网络结构中，得到所述第一文本的第一嵌入向量，以及所述第二文本的第二嵌入向量中，具体包括如下子步骤S10231-10234，详述如下：

S10231、针对所述第一文本的任一第一分词，确定所述第一分词的第一词向量；以及，针对所述第二文本的任一第二分词，确定所述第二分词的第二词向量。

S10232、确定所述第一分词在所述第一文本中相对于所述起始符号的第一词位置向量；以及，确定所述第二分词在所述第二文本中相对于所述分割符号的第二词位置向量。

在一实施例中，第一文本和第二文本均分别至少包括一个分词，以第一文本包含多个第一分词为例进行解释说明。示例性的，终端设备可基于预先设置的词向量库，对第一文本进行文本分词，得到多个第一分词。其中，词向量库包含多有多个分词，且每个分词均对应有唯一的词向量。基于此，终端设备可先将整个第一文本作为一个分词，在词向量库中进行比对。若未有相应的分词，则减少第一个字符或最后一个字符，并将剩余的文本作为一个分词在词向量库中进行比对，直至第一文本中的每个字符均匹配有相应的分词以及词向量。此时，相应的分词即为第一分词。

在一实施例中，在对第一文本进行文本分词后，可基于分词结果确定第一分词在第一文本所包含多个第一分词中的词顺序。之后，将词顺序作为第一分词的词位置向量。

S10233、根据所述第一词位置向量、所述第一词向量以及所述第一文本的预设嵌入信息进行向量加和处理，得到所述第一分词的第一分词嵌入向量；以及，根据所述第二词位置向量、所述第二词向量以及所述第二文本的预设嵌入信息进行向量加和处理，得到所述第二分词的第二分词嵌入向量。

S10234、基于所述第一分词的第一分词嵌入向量生成所述第一嵌入向量；以及，基于所述第二分词的第二分词嵌入向量生成所述第二嵌入向量。

在一实施例中，上述第一预先嵌入向量用于区分第一分词所归属的文本，可以由用户根据实际情况进行设置。需要说明的是，对于第一文本中的多个第一分词，其每个第一分词对应的第一预先嵌入向量均一致。

需要补充的是，基于上述S10231-S10233的说明，可认为上述第一词向量、第一词位置向量以及预设嵌入向量均可以具体的数字形式进行表示。因此，对于上述第一分词的三种向量，可采用上述三种向量的加和数值表示为第一分词的第一分词嵌入向量。最后，在确定第一文本中多个第一分词分别对应的第一分词嵌入向量，即为得到第一文本的第一嵌入向量。

在一实施例中，得到上述第二文本的第二嵌入向量的过程与上述得到第一嵌入向量的过程相似，具体可参照上述说明。

参照图4，在一实施例中，在S104所述将所述目标嵌入向量和所述滤波向量分别输入至所述第二网络结构中进行向量处理，得到所述训练样本的目标损失函数值中，具体包括如下子步骤S1041-1043，详述如下：

S1041、将所述目标嵌入向量输入所述第二网络结构中进行向量处理，得到所述第二网络结构预测所述两段文本的释义相似度的第一预测结果；以及，将所述滤波向量输入所述第二网络结构中进行向量处理，得到所述第二网络结构预测所述两段文本的释义相似度的第二预测结果。

在一实施例中，上述第二网络结构已在上述S102中进行解释，对此不再进行说明。需要说明的是，对于上述目标嵌入向量和滤波向量，第二网络结构是分别对两种向量进行处理，以分别得到对应的第一预测结果和第二预测结果。

可以理解的是，因滤波向量是基于对目标嵌入向量进行处理得到。因此，相比于第一预测结果，还可认为第二预测结果更接近于训练样本的实际结果。

S1042、采用预设的交叉熵损失函数分别对所述第一预测结果和所述第二预测结果进行计算，得到原始损失函数和滤波损失函数。

S1043、根据所述原始损失函数和所述滤波损失函数计算所述目标损失函数值。

在一实施例中，上述交叉熵是用来评估当前预训练模型预测的概率分布(预测结果)与真实分布(真实结果)的差异情况。其中，减少交叉熵损失即为可提高预训练模型的预测准确率。需要补充的是，相比于使用其他损失函数(如平方损失函数)，当第二网络结构中使用Sigmoid或Softmax作为激活函数时，使用交叉熵计算损失函数，可以解决利用平方损失函数迭代更新预训练模型慢的问题。

在一实施例中，上述根据原始损失函数和滤波损失函数计算所述目标损失函数值，具体可为：计算原始损失函数和滤波损失函数之和，得到目标损失函数。然而，参照图5，在另一实施例中，上述计算目标损失函数也可以通过如下子步骤S10431-S10432，详述如下：

S10431、基于原始损失函数对应的预设第一权重值，计算修正后的原始损失函数；以及，基于滤波损失函数对应的预设第二权重值，计算修正后的滤波损失函数。

S10432、将所述修正后的原始损失函数与所述修正后的滤波损失函数之和作为所述目标损失函数值。

在一实施例中，上述S105已说明滤波向量可实现对两段文本中关键信息的增强。因此，对于上述两种损失函数，可认为预设第二权重值大于预设第一权重值。以此，经过预设第一权重值和预设的第二权重值进行计算得到的目标损失函数，可更好的完成对预训练模型的训练，以得到预测准确率高的目标训练模型。

在一实施例中，在得到目标损失函数值后，通常的，是对预训练模型所有的权重参数和学习参数进行更新。然而，在本实施中，因第一网络结构为已有的Bert模型中对文本进行向量处理的网络结构，可认为该第一网络结构为已成熟的网络结构。基于此，在对预训练模型的模型参数进行迭代更新时，可只对第二网络结构和高通滤波层中的模型参数进行迭代更新，在保证训练后的目标训练模型具备一定的预测准确率的同时，还可减少对目标训练模型的训练时间。

参照图6，在一实施例中，在生成所述目标训练模型后，若输入至所述目标训练模型的待识别文本的数量超过两段，所述方法还包括如下步骤S11-S12，详述如下：

S11、针对任一待识别文本，将所述待识别文本依次输入所述目标训练模型中的第一网络结构和高通滤波层，得到所述待识别文本的滤波向量。

S12、基于多段待识别文本的滤波向量，分别计算任意两段所述待识别文本的滤波向量的余弦相似度，所述余弦相似度用于表示任意两段所述待识别文本的释义相似度。

在一实施例中，上述余弦相似度是基于向量空间中的两个向量夹角的余弦值作为衡量两个个体(两段待识别文本)间差异大小的度量，值越接近1，可认为两个向量越相似，即表示两段待识别文本之间越相似。

在一实施例中，通过上述方法得到目标训练模型，适用于对两段文本进行释义相似度识别。然而，若目标训练模型需要对多个待识别文本的数量进行识别时，则需对每段文本进行上述方法处理。

具体的，针对任一待识别文本，将该段待识别文本输入至目标训练模型的第一网络结构后，可得到该待识别文本的待识别目标嵌入向量。之后，将待识别目标向量输入至高通滤波层，得到待识别文本的滤波向量。此时，因滤波向量包含有待识别目标嵌入向量中更为精确的向量信息。因此，目标训练模型可计算两两待识别文本的滤波向量的余弦相似度，作为两两待识别文本的释义相似度。此时，目标训练模型不仅可实现两段待识别文本之间的释义相似度分析，还可对多段文本之间的释义相似度进行识别预测。

请参阅图7，图7是本申请实施例提供的一种释义分析模型训练装置的结构框图。本实施例中释义分析模型训练装置包括的各模块用于执行图1至图6对应的实施例中的各步骤。具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图7，释义分析模型训练装置700包括：获取模块710、第一输入模块720、第二输入模块730、第三输入模块740和训练模块750，其中：

获取模块710，用于获取训练样本，所述训练样本至少包括两段文本。

第一输入模块720，用于将所述训练样本输入至预训练模型的第一网络结构中，得到所述训练样本的目标嵌入向量；所述预训练模型还包括高通滤波层和第二网络结构。

第二输入模块730，用于将所述目标嵌入向量输入至所述高通滤波层进行信息噪音过滤处理，得到滤波向量。

第三输入模块740，用于将所述目标嵌入向量和所述滤波向量分别输入至所述第二网络结构中进行向量处理，得到所述训练样本的目标损失函数值。

训练模块750，用于基于所述目标损失函数值，对所述预训练模型进行反向传播训练，得到目标训练模型，所述目标训练模型用于对任意输入的两段待识别文本进行处理，输出所述两段待识别文本的释义相似度。

在一实施例中，第一输入模块720还用于：

识别所述训练样本中的起始符号以及分割符号；将所述起始符号与所述分割符号之间的文本内容确定为第一文本，以及将处于所述分割符号之后的文本内容确定为第二文本；将所述第一文本和所述第二文本输入至所述第一网络结构中，得到所述第一文本的第一嵌入向量，以及所述第二文本的第二嵌入向量；计算所述第一嵌入向量和所述第二嵌入向量的均值，并将所述均值作为所述训练样本的目标嵌入向量。

在一实施例中，第一文本包括至少一个第一分词，所述第二文本包括至少一个第二分词，所述第一嵌入向量由所述第一分词对应的分词嵌入向量组成，所述第二嵌入向量由所述第二分词对应的分词嵌入向量组成；第一输入模块720还用于：

针对所述第一文本的任一第一分词，确定所述第一分词的第一词向量；以及，针对所述第二文本的任一第二分词，确定所述第二分词的第二词向量；确定所述第一分词在所述第一文本中相对于所述起始符号的第一词位置向量；以及，确定所述第二分词在所述第二文本中相对于所述分割符号的第二词位置向量；根据所述第一词位置向量、所述第一词向量以及所述第一文本的预设嵌入信息进行向量加和处理，得到所述第一分词的第一分词嵌入向量；以及，根据所述第二词位置向量、所述第二词向量以及所述第二文本的预设嵌入信息进行向量加和处理，得到所述第二分词的第二分词嵌入向量；基于所述第一分词的第一分词嵌入向量生成所述第一嵌入向量；以及，基于所述第二分词的第二分词嵌入向量生成所述第二嵌入向量。

在一实施例中，第三输入模块740还用于：

将所述目标嵌入向量输入所述第二网络结构中进行向量处理，得到所述第二网络结构预测所述两段文本的释义相似度的第一预测结果；以及，将所述滤波向量输入所述第二网络结构中进行向量处理，得到所述第二网络结构预测所述两段文本的释义相似度的第二预测结果；采用预设的交叉熵损失函数分别对所述第一预测结果和所述第二预测结果进行计算，得到原始损失函数和滤波损失函数；根据所述原始损失函数和所述滤波损失函数计算所述目标损失函数值。

在一实施例中，第三输入模块740还用于：

基于所述原始损失函数对应的预设第一权重值，计算修正后的原始损失函数；以及，基于所述滤波损失函数对应的预设第二权重值，计算修正后的滤波损失函数；将所述修正后的原始损失函数与所述修正后的滤波损失函数之和作为所述目标损失函数值。

在一实施例中，训练模块750还用于：

基于所述目标损失函数值，依次对所述第二网络结构和所述高通滤波层中的模型参数进行迭代更新，得到所述目标训练模型，所述目标训练模型包括所述第一网络结构、更新后的第二网络结构和更新后的高通滤波层。

在一实施例中，释义分析模型训练装置700还包括：

第四输入模块，用于针对任一待识别文本，将所述待识别文本依次输入所述目标训练模型中的第一网络结构和高通滤波层，得到所述待识别文本的滤波向量。

计算模块，用于基于多段待识别文本的滤波向量，分别计算任意两段所述待识别文本的滤波向量的余弦相似度，所述余弦相似度用于表示任意两段所述待识别文本的释义相似度。

应当理解的是，图7示出的释义分析模型训练装置的结构框图中，各模块用于执行图1至图6对应的实施例中的各步骤，而对于图1至图6对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述，此处不再赘述。

图8是本申请另一实施例提供的一种终端设备的结构框图。如图8所示，该实施例的终端设备800包括：处理器810、存储器820以及存储在存储器820中并可在处理器810运行的计算机程序830，例如释义分析模型训练方法的程序。处理器810执行计算机程序830时实现上述各个释义分析模型训练方法各实施例中的步骤，例如图1所示的S101至S105。或者，处理器810执行计算机程序830时实现上述图7对应的实施例中各模块的功能，例如，图7所示的单元710至750的功能，具体如下所述：

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现：

获取训练样本，所述训练样本至少包括两段文本；

在一个实施例中，所述处理器执行所述计算机程序时还实现：

在一个实施例中，所述第一文本包括至少一个第一分词，所述第二文本包括至少一个第二分词，所述第一嵌入向量由所述第一分词对应的分词嵌入向量组成，所述第二嵌入向量由所述第二分词对应的分词嵌入向量组成；所述处理器执行所述计算机程序时还实现：

针对任一待识别文本，将所述待识别文本依次输入所述目标训练模型中的第一网络结构和高通滤波层，得到所述待识别文本的滤波向量；基于多段待识别文本的滤波向量，分别计算任意两段所述待识别文本的滤波向量的余弦相似度，所述余弦相似度用于表示任意两段所述待识别文本的释义相似度。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：

获取训练样本，所述训练样本至少包括两段文本；

在一个实施例中，所述计算机程序被处理器执行时还实现：

在一个实施例中，所述第一文本包括至少一个第一分词，所述第二文本包括至少一个第二分词，所述第一嵌入向量由所述第一分词对应的分词嵌入向量组成，所述第二嵌入向量由所述第二分词对应的分词嵌入向量组成；所述计算机程序被处理器执行时还实现：

在一个实施例中，所述计算机程序被处理器执行时还实现：

示例性的，计算机程序830可以被分割成一个或多个模块，一个或者多个模块被存储在存储器820中，并由处理器810执行，以完成本申请。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序830在终端设备800中的执行过程。例如，计算机程序830可以被分割成获取模块、第一输入模块、第二输入模块、第三输入模块和训练模块，各模块具体功能如上。所述计算机可读存储介质可以是前述实施例所述的终端设备的内部存储单元，例如所述终端设备的硬盘或内存。所述计算机可读存储介质可以是非易失性，也可以是易失性。

终端设备800可包括，但不仅限于，处理器810、存储器820。本领域技术人员可以理解，图8仅仅是终端设备800的示例，并不构成对终端设备800的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器810可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器820可以是终端设备800的内部存储单元，例如终端设备800的硬盘或内存。存储器820也可以是终端设备800的外部存储设备，例如终端设备800上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器820还可以既包括终端设备800的内部存储单元也包括外部存储设备。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种释义分析模型训练方法，其中，包括：

获取训练样本，所述训练样本至少包括两段文本；

将所述训练样本输入至预训练模型的第一网络结构中，得到所述训练样本的目标嵌入向量；所述预训练模型还包括高通滤波层和第二网络结构；

将所述目标嵌入向量输入至所述高通滤波层进行信息噪音过滤处理，得到滤波向量；

将所述目标嵌入向量和所述滤波向量分别输入至所述第二网络结构中进行向量处理，得到所述训练样本的目标损失函数值；

基于所述目标损失函数值，对所述预训练模型进行反向传播训练，得到目标训练模型，所述目标训练模型用于对任意输入的两段待识别文本进行处理，输出所述两段待识别文本的释义相似度。
如权利要求1所述的释义分析模型训练方法，其中，所述将所述训练样本输入至预训练模型的第一网络结构中，得到所述训练样本的目标嵌入向量，包括：

识别所述训练样本中的起始符号以及分割符号；

将所述起始符号与所述分割符号之间的文本内容确定为第一文本，以及将处于所述分割符号之后的文本内容确定为第二文本；

将所述第一文本和所述第二文本输入至所述第一网络结构中，得到所述第一文本的第一嵌入向量，以及所述第二文本的第二嵌入向量；

计算所述第一嵌入向量和所述第二嵌入向量的均值，并将所述均值作为所述训练样本的目标嵌入向量。
如权利要求2所述的释义分析模型训练方法，其中，所述第一文本包括至少一个第一分词，所述第二文本包括至少一个第二分词，所述第一嵌入向量由所述第一分词对应的分词嵌入向量组成，所述第二嵌入向量由所述第二分词对应的分词嵌入向量组成；

所述将所述第一文本和所述第二文本输入至所述第一网络结构中，得到所述第一文本的第一嵌入向量，以及所述第二文本的第二嵌入向量，包括：

针对所述第一文本的任一第一分词，确定所述第一分词的第一词向量；以及，针对所述第二文本的任一第二分词，确定所述第二分词的第二词向量；

确定所述第一分词在所述第一文本中相对于所述起始符号的第一词位置向量；以及，确定所述第二分词在所述第二文本中相对于所述分割符号的第二词位置向量；

根据所述第一词位置向量、所述第一词向量以及所述第一文本的预设嵌入信息进行向量加和处理，得到所述第一分词的第一分词嵌入向量；以及，根据所述第二词位置向量、所述第二词向量以及所述第二文本的预设嵌入信息进行向量加和处理，得到所述第二分词的第二分词嵌入向量；

基于所述第一分词的第一分词嵌入向量生成所述第一嵌入向量；以及，基于所述第二分词的第二分词嵌入向量生成所述第二嵌入向量。
如权利要求1-3任一所述的释义分析模型训练方法，其中，所述将所述目标嵌入向量和所述滤波向量分别输入至所述第二网络结构中进行向量处理，得到所述训练样本的目标损失函数值，包括：

将所述目标嵌入向量输入所述第二网络结构中进行向量处理，得到所述第二网络结构预测所述两段文本的释义相似度的第一预测结果；以及，将所述滤波向量输入所述第二网络结构中进行向量处理，得到所述第二网络结构预测所述两段文本的释义相似度的第二预测结果；

采用预设的交叉熵损失函数分别对所述第一预测结果和所述第二预测结果进行计算，得到原始损失函数和滤波损失函数；

根据所述原始损失函数和所述滤波损失函数计算所述目标损失函数值。
如权利要求4所述的释义分析模型训练方法，其中，所述根据所述原始损失函数和所述滤波损失函数计算所述目标损失函数值，包括：

基于所述原始损失函数对应的预设第一权重值，计算修正后的原始损失函数；以及，基于所述滤波损失函数对应的预设第二权重值，计算修正后的滤波损失函数；

将所述修正后的原始损失函数与所述修正后的滤波损失函数之和作为所述目标损失函数值。
如权利要求1-3任一所述的释义分析模型训练方法，其中，所述基于所述目标损失函数值，对所述预训练模型进行反向传播训练，得到目标训练模型，包括：

基于所述目标损失函数值，依次对所述第二网络结构和所述高通滤波层中的模型参数进行迭代更新，得到所述目标训练模型，所述目标训练模型包括所述第一网络结构、更新后的第二网络结构和更新后的高通滤波层。
如权利要求1-3任一所述的释义分析模型训练方法，其中，在生成所述目标训练模型后，若输入至所述目标训练模型的待识别文本的数量超过两段，所述方法还包括：

针对任一待识别文本，将所述待识别文本依次输入所述目标训练模型中的第一网络结构和高通滤波层，得到所述待识别文本的滤波向量；

基于多段待识别文本的滤波向量，分别计算任意两段所述待识别文本的滤波向量的余弦相似度，所述余弦相似度用于表示任意两段所述待识别文本的释义相似度。
一种释义分析模型训练装置，其中，包括：

获取模块，用于获取训练样本，所述训练样本至少包括两段文本；

第一输入模块，用于将所述训练样本输入至预训练模型的第一网络结构中，得到所述训练样本的目标嵌入向量；所述预训练模型还包括高通滤波层和第二网络结构；

第二输入模块，用于将所述目标嵌入向量输入至所述高通滤波层进行信息噪音过滤处理，得到滤波向量；

第三输入模块，用于将所述目标嵌入向量和所述滤波向量分别输入至所述第二网络结构中进行向量处理，得到所述训练样本的目标损失函数值；

训练模块，用于基于所述目标损失函数值，对所述预训练模型进行反向传播训练，得到目标训练模型，所述目标训练模型用于对任意输入的两段待识别文本进行处理，输出所述两段待识别文本的释义相似度。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现：

获取训练样本，所述训练样本至少包括两段文本；

将所述训练样本输入至预训练模型的第一网络结构中，得到所述训练样本的目标嵌入向量；所述预训练模型还包括高通滤波层和第二网络结构；

将所述目标嵌入向量输入至所述高通滤波层进行信息噪音过滤处理，得到滤波向量；

将所述目标嵌入向量和所述滤波向量分别输入至所述第二网络结构中进行向量处理，得到所述训练样本的目标损失函数值；

基于所述目标损失函数值，对所述预训练模型进行反向传播训练，得到目标训练模型，所述目标训练模型用于对任意输入的两段待识别文本进行处理，输出所述两段待识别文本的释义相似度。
根据权利要求9所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

识别所述训练样本中的起始符号以及分割符号；

将所述起始符号与所述分割符号之间的文本内容确定为第一文本，以及将处于所述分割符号之后的文本内容确定为第二文本；

将所述第一文本和所述第二文本输入至所述第一网络结构中，得到所述第一文本的第一嵌入向量，以及所述第二文本的第二嵌入向量；

计算所述第一嵌入向量和所述第二嵌入向量的均值，并将所述均值作为所述训练样本的目标嵌入向量。
根据权利要求10所述的终端设备，其中，所述第一文本包括至少一个第一分词，所述第二文本包括至少一个第二分词，所述第一嵌入向量由所述第一分词对应的分词嵌入向量组成，所述第二嵌入向量由所述第二分词对应的分词嵌入向量组成，所述处理器执行所述计算机程序时还实现：

针对所述第一文本的任一第一分词，确定所述第一分词的第一词向量；以及，针对所述第二文本的任一第二分词，确定所述第二分词的第二词向量；

确定所述第一分词在所述第一文本中相对于所述起始符号的第一词位置向量；以及，确定所述第二分词在所述第二文本中相对于所述分割符号的第二词位置向量；

根据所述第一词位置向量、所述第一词向量以及所述第一文本的预设嵌入信息进行向量加和处理，得到所述第一分词的第一分词嵌入向量；以及，根据所述第二词位置向量、所述第二词向量以及所述第二文本的预设嵌入信息进行向量加和处理，得到所述第二分词的第二分词嵌入向量；

基于所述第一分词的第一分词嵌入向量生成所述第一嵌入向量；以及，基于所述第二分词的第二分词嵌入向量生成所述第二嵌入向量。
根据权利要求9-11任一所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

将所述目标嵌入向量输入所述第二网络结构中进行向量处理，得到所述第二网络结构预测所述两段文本的释义相似度的第一预测结果；以及，将所述滤波向量输入所述第二网络结构中进行向量处理，得到所述第二网络结构预测所述两段文本的释义相似度的第二预测结果；

采用预设的交叉熵损失函数分别对所述第一预测结果和所述第二预测结果进行计算，得到原始损失函数和滤波损失函数；

根据所述原始损失函数和所述滤波损失函数计算所述目标损失函数值。
根据权利要求12所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

基于所述原始损失函数对应的预设第一权重值，计算修正后的原始损失函数；以及，基于所述滤波损失函数对应的预设第二权重值，计算修正后的滤波损失函数；

将所述修正后的原始损失函数与所述修正后的滤波损失函数之和作为所述目标损失函数值。
根据权利要求9-11任一所述的终端设备，其中，所述处理器执行所述计算机程序时还实现：

基于所述目标损失函数值，依次对所述第二网络结构和所述高通滤波层中的模型参数进行迭代更新，得到所述目标训练模型，所述目标训练模型包括所述第一网络结构、更新后的第二网络结构和更新后的高通滤波层。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现：

获取训练样本，所述训练样本至少包括两段文本；

将所述训练样本输入至预训练模型的第一网络结构中，得到所述训练样本的目标嵌入向量；所述预训练模型还包括高通滤波层和第二网络结构；

将所述目标嵌入向量输入至所述高通滤波层进行信息噪音过滤处理，得到滤波向量；

将所述目标嵌入向量和所述滤波向量分别输入至所述第二网络结构中进行向量处理，得到所述训练样本的目标损失函数值；

基于所述目标损失函数值，对所述预训练模型进行反向传播训练，得到目标训练模型，所述目标训练模型用于对任意输入的两段待识别文本进行处理，输出所述两段待识别文本的释义相似度。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时还实现：

识别所述训练样本中的起始符号以及分割符号；

将所述起始符号与所述分割符号之间的文本内容确定为第一文本，以及将处于所述分割符号之后的文本内容确定为第二文本；

将所述第一文本和所述第二文本输入至所述第一网络结构中，得到所述第一文本的第一嵌入向量，以及所述第二文本的第二嵌入向量；

计算所述第一嵌入向量和所述第二嵌入向量的均值，并将所述均值作为所述训练样本的目标嵌入向量。
根据权利要求16所述的计算机可读存储介质，其中，所述第一文本包括至少一个第一分词，所述第二文本包括至少一个第二分词，所述第一嵌入向量由所述第一分词对应的分词嵌入向量组成，所述第二嵌入向量由所述第二分词对应的分词嵌入向量组成，所述计算机程序被处理器执行时还实现：

针对所述第一文本的任一第一分词，确定所述第一分词的第一词向量；以及，针对所述第二文本的任一第二分词，确定所述第二分词的第二词向量；

确定所述第一分词在所述第一文本中相对于所述起始符号的第一词位置向量；以及，确定所述第二分词在所述第二文本中相对于所述分割符号的第二词位置向量；

根据所述第一词位置向量、所述第一词向量以及所述第一文本的预设嵌入信息进行向量加和处理，得到所述第一分词的第一分词嵌入向量；以及，根据所述第二词位置向量、所述第二词向量以及所述第二文本的预设嵌入信息进行向量加和处理，得到所述第二分词的第二分词嵌入向量；

基于所述第一分词的第一分词嵌入向量生成所述第一嵌入向量；以及，基于所述第二分词的第二分词嵌入向量生成所述第二嵌入向量。
根据权利要求15-17任一所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时还实现：

将所述目标嵌入向量输入所述第二网络结构中进行向量处理，得到所述第二网络结构预测所述两段文本的释义相似度的第一预测结果；以及，将所述滤波向量输入所述第二网络结构中进行向量处理，得到所述第二网络结构预测所述两段文本的释义相似度的第二预测结果；

采用预设的交叉熵损失函数分别对所述第一预测结果和所述第二预测结果进行计算，得到原始损失函数和滤波损失函数；

根据所述原始损失函数和所述滤波损失函数计算所述目标损失函数值。
根据权利要求18所述的计算机可读存储介质，其中，所述处理器执行所述计算机程序时还实现：

基于所述原始损失函数对应的预设第一权重值，计算修正后的原始损失函数；以及，基于所述滤波损失函数对应的预设第二权重值，计算修正后的滤波损失函数；

将所述修正后的原始损失函数与所述修正后的滤波损失函数之和作为所述目标损失函数值。
根据权利要求15-17所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时还实现：

基于所述目标损失函数值，依次对所述第二网络结构和所述高通滤波层中的模型参数进行迭代更新，得到所述目标训练模型，所述目标训练模型包括所述第一网络结构、更新后的第二网络结构和更新后的高通滤波层。