WO2021139297A1

WO2021139297A1 - 基于Transformer模型的问答方法、问答装置及存储装置

Info

Publication number: WO2021139297A1
Application number: PCT/CN2020/121199
Authority: WO
Inventors: 骆加维; 吴信朝; 周宸; 周宝; 陈远旭
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-07-28
Filing date: 2020-10-15
Publication date: 2021-07-15
Also published as: CN111881279A

Abstract

本申请涉及自然语言处理技术领域，具体公开了一种基于Transformer模型的问答方法、问答装置及存储装置。该问答方法包括：获取用户输入的问句文本，对问句文本进行处理，得到问句序列；对问句序列进行解码，获得与问句序列相关的多个候选回答；将问句序列与每个候选回答进行拼接；对每个拼接结果进行打分，选取最高得分对应的候选回答作为问句序列的最优回答。通过上述方式，本申请能够解决回答问题意图识别不够准确，回复答案不够人性化以及对话过程中的上下文联系不够紧密的问题。

Description

基于Transformer模型的问答方法、问答装置及存储装置

本申请要求于2020年7月28日提交中国专利局、申请号为202010737212.3，发明名称为“基于Transformer模型的问答方法、问答装置及存储装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种基于Transformer模型的问答方法、问答装置及存储装置。

背景技术

传统的线上问答系统的搭建方式是基于流水线的。在单轮问答或领域性知识问答的前提下，通过预先设置好知识库以及知识库内问题对应的答案，当用户提问的时候，首先通过意图识别模块，对用户问句的实际意图进行识别，经过意图识别，缩小知识库的筛选范围，对问题进行召回，再通过深度学习模型进行深度语义的相似度匹配，最终将返回匹配度较高的文本答案。除了基于流水线的方式，当前还有基于端对端的对话系统也正在快速发展。但是，发明人发现基于端对端的问答模型系统相比于传统知识库问答，存在以下弊端：1.回答问题意图识别不够准确。2.回复答案不够人性化。3.对话过程中的上下文联系不够紧密，更像是单轮对话的简单问答。

发明内容

本申请提供一种基于Transformer模型的问答方法、问答装置及存储装置，能够解决回答问题意图识别不够准确，回复答案不够人性化以及对话过程中的上下文联系不够紧密的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种基于Transformer模型的问答方法，包括：

获取用户输入的问句文本，对所述问句文本进行处理，得到问句序列；

对所述问句序列进行解码，获得与所述问句序列相关的多个候选回答；

将所述问句序列与每个所述候选回答进行拼接；

对每个所述拼接结果进行打分，选取最高得分对应的所述候选回答作为所述问句序列的最优回答。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种基于Transformer模型的问答装置，包括：

获取模块，所述获取模块用于获取用户输入的问句文本，对所述问句文本进行处理，得到问句序列；

解码模块，所述处理模块与所述获取模块耦接，用于对所述问句序列进行解码，获得与所述问句序列相关的多个候选回答；

拼接模块，所述拼接模块与所述解码模块耦接，用于将所述问句序列与每个所述候选回答进行拼接；

打分模块，所述打分模块与所述拼接模块耦接，用于对每个所述拼接结果进行打分，选取最高得分对应的所述候选回答作为所述问句序列的最优回答。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储装置，存储有能够实现上述基于Transformer模型的问答方法的程序文件，所述程序文件被处理器执行时实现以下步骤：

将所述问句序列与每个所述候选回答进行拼接；

本申请的有益效果是：通过将问句序列输入到解码层中，获得与问句序列相关的多个候选回答，增加了回答的多样性，有效避免用户输入问句后，返回同样答复的机械性，同时，将问句序列与每个候选回答进行拼接，对每个拼接结果进行打分，选取最高得分对应的候选回答作为问句序列的最优回答，能够强化上下文的关联性，有效筛除口语化回复。

附图说明

图1是本申请实施例的Transformer模型的部分网络结构示意图；

图2是本申请第一实施例的基于Transformer模型的问答方法的流程示意图；

图3是图2中步骤S202的流程示意图；

图4是本申请第二实施例的基于Transformer模型的问答方法的流程示意图；

图5是本申请实施例的基于Transformer模型的问答装置的结构示意图；

图6是本申请实施例的存储装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请涉及人工智能技术领域，具体涉及自然语言处理技术。请参见图1，本申请实施例的Transformer模型的网络结构包括解码层10和设于解码层10之后的互信息层20，其中，解码层10包括：依次设置的自注意力机制模块11、前馈网络模块12以及归一化处理模块13。图2是本申请第一实施例的基于Transformer模型的问答方法的流程示意图，需注意的是，若有实质上相同的结果，本申请的方法并不以图2所示的流程顺序为限。如图2所示，该方法包括步骤：

步骤S201：获取用户输入的问句文本，对问句文本进行处理，得到问句序列。

在步骤S201中，问句文本包括问句以及包含问句的对话句子；首先，对问句和对话句子插入标签，具体地，在问句的开始处插入开始标签，在问句的结尾处插入结束标签，在对话句子中插入分隔标签，例如，「Beg」Query「Sep」Sen「Sep」Sen，Beg表示对话开启的问句的开始，Sep表示问句的结尾，后续的对话句子全部用Sep进行分隔，本实施例可以任意时候开启对话交流，除了对话开启句子进行一次标记后，后续不再区分问句和答句，使用无差别全拼接，此外，还可以强化上下文信息关联，基于对话的信息互换，区别于传统流水线模式的一问一答，问句、答句的区分不再明显。然后，对插入标签后的问句进行编码和词嵌入处理，得到问句序列。本实施例的词嵌入采用NLP通用模型技术。本实施例的问句序列包括：序列编码和位置编码，其中，位置编码为相对位置编码，使用相对位置编码能够有效提升短距离对话的关联性。

步骤S202：对问句序列进行解码，获得与问句序列相关的多个候选回答。

在步骤S202中，本实施例输入的问句序列由序列编码和位置编码相加拼接而成。先将问句序列输入到解码层中，输出与问句序列相关的一个候选回答；再循环将问句序列与解码层的输出结果进行拼接后，再次输入到解码层中，获得多个候选回答。例如，首先将问句序列Q1输入到解码层中，输出一个候选回答A1，然后将Q1与A1拼接后再次输入解码层中，输出另一个候选回答A2，再将Q1与A2拼接后再次输入解码层中，输出再一个候选回答A3，重复多次循环以获得候选回答A1、A2、A3…。该步骤通过将问句序列输入到解码层中，获得与问句序列相关的多个候选回答，增加了回答的多样性，有效避免用户输入问句后，返回同样答复的机械性。

请参见图3，步骤S202还包括依次执行的以下各步骤：

步骤S301：采用自注意力机制模块对问句序列进行特征提取。

在步骤S301中，自注意力机制模块涉及单序列不同位置的注意力机制，并能够计算问句序列的表征，从而有效提升文本的隐含语义特征提取能力。在本实施例中，解码层输入一个向量(由序列编码和位置编码拼接而成)时，自注意力机制模块将输入的向量与注意力权重向量相乘，再加上偏置向量，获得该输入向量的键值、值和查询向量。

步骤S302：采用前馈网络模块对特征提取结果进行非线性变换。

在步骤S302中，前馈网络模块采用FFNN前馈网络，FFNN前馈网络对特征提取结果进行非线性变换，并且投影回模型的维度大小。

步骤S303：采用归一化处理模块对非线性变换结果进行归一化处理。

在步骤S303中，归一化处理模块采用softmax函数进行归一化处理，归一化处理模块保证样本输入与最终输出时的分布统一性，同时能够有效加速收敛。

在一具体实施例中，步骤S202的具体工作流程如下进行：Transformer模型的结构包括Encoder(编码器)和Decoder(解码器)。

在该实施例中，Transformer模型的输入部分由Embedding(词向量)经Position Encoding(位置编码，PE)后输入到编码器和解码器。在Transformer模型的输入中，是将词向量和位置编码的结果进行相加，然后输入到编码器/解码器中的。

具体地，PE的计算公式如下：

其中，pos是指词语在序列中的位置，d _model是模型的维度，2i表示偶数维度，2i+1表示奇数维度。

其中，编码器有两个子层，分别为Multi-head attention层(多头注意力机制)和Feed-forward Networks层(全链接网络)，多头注意力机制利用self-attention(自注意力机制)学习源句内部的关系，全链接网络对每个位置的向量分别进行相同的操作，包括两个线性变换和一个ReLU激活函数。

解码器中有三个子层，一个Masked multi-head attention层(掩码的多头注意力机制)、一个Multi-head attention层(多头注意力机制)和一个Feed-forward Networks层(全链接网络)。多头注意力机制是由多个自注意力机制组成的。掩码的多头注意力机制是利用自注意力机制学习目标句内部的关系，之后该层输出与编码器传过来的结果一起输入到上面的多头注意力机制，多头注意力机制并不是自注意力机制，而是encoder-decoder attention，用于学习源句与目标句之间的关系。

在多头注意力机制中，首先计算K(键值)与Q(查询向量)之间的相似度得到S(相似度)，然后将S通过softmax函数进行归一化得到权重a，最后计算a与V(值)的加权和得到attention向量，即K(键值)、V(值)与Q(查询向量)。在自注意力机制中，K(键值)、V(值)与Q(查询向量)相同。在解码器中的多头注意力机制中，Q代表解码器上一步的输出，K和V是来自编码器的输出。

每个多头注意力机制的上方还包括一个Add&Norm层，Add表示残差连接(Residual Connection)，用于防止网络退化，Norm表示归一化层(Layer Normalization)，用于对每一层的激活值进行归一化，即把输入转化成均值为0，方差为1的数据，以避免数据落入激活函数的饱和区。归一化层是对每一个样本计算均值和方差，而不是一批数据。

该实施例的编码器与解码器基本相同，差别就在于增加了一个Mask掩码。Mask可以对某些值进行掩盖，使其在参数更新时不发挥作用。解码器中使用mask主要的目的是确保第i个位置上的单词在进行预测时只能用到前i-1个单词，不会用到未来的信息。

步骤S203：将问句序列与每个候选回答进行拼接。

在步骤203中，将输入的问句序列与步骤202中输出的多个候选回答分别进行拼接，得到多个拼接结果。拼接的形式为「Begin」Query「Sep」Ans，其中，Query表示问句序列，Ans表示候选回答。例如，将问句序列Q1分别与候选回答A1、A2、A3拼接，获得拼接结果分别为「Begin」Q1「Sep」A1、「Begin」Q1「Sep」A2、「Begin」Q1「Sep」A3。

步骤S204：对每个拼接结果进行打分，选取最高得分对应的候选回答作为问句序列的最优回答。

在步骤S204中，基于联合概率分布算法和反向打分训练模型计算每个拼接结果中问句序列与候选回答的相关性以及对相关性进行打分，相关性越高，对应的得分越高；选取最高得分对应的候选回答作为问句序列的最优回答，使得最终输出的回答不仅是从前序背景语境中的合适回复，同时还是与整体对话意图相近的回复。

本申请第一实施例的基于Transformer模型的问答方法通过获得与一个问句序列相关的多个候选回答，增加了回答的多样性，有效避免用户输入问句后，返回同样答复的机械性，同时，将问句序列与每个候选回答进行拼接，对每个拼接结果进行打分，选取最高得分对应的候选回答作为问句序列的最优回答，能够强化上下文的关联性，有效筛除口语化回复。

图4是本申请第二实施例的基于Transformer模型的问答方法的流程示意图，需注意的是，若有实质上相同的结果，本申请的方法并不以图4所示的流程顺序为限。如图4所示，该方法包括步骤：

步骤S401：构建Transformer模型。

在步骤S401中，Transformer模型的网络结构包括解码层和设于解码层之后的互信息层，其中，解码层包括：依次设置的自注意力机制模块、前馈网络模块以及归一化处理模块。

步骤S402：采用损失函数对Transformer模型进行优化。

在步骤S402中，损失函数包括解码层的损失函数和互信息层的损失函数，首先计算解码层的损失偏差值和互信息层的损失偏差值；选取解码层的损失偏差值和互信息层的损失偏差值叠加后的最大值作为Transformer模型的损失偏差值；根据Transformer模型的损失偏差值更新Transformer模型的参数。

具体地，Transformer模型的损失偏差值的计算公式如下：

Loss＝Max(Loss _AR+Loss _MMI)，其中，Loss表示Transformer模型的损失偏差值，Loss _AR表示解码层的损失偏差值，Loss _MMI表示互信息层的损失偏差值。本实施例的Transformer模型的损失偏差值为解码层的损失偏差值与互信息层的损失偏差值叠加之后取最大值，其中，本实施例的互信息层的损失偏差值是一个变量，在计算过程中，取当前输入问句与前序对话的相关性最高的结果。

进一步地，解码层的损失偏差值按照如下公式进行计算：

其中，P表示概率，x表示词，z和t表示词在问句文本中的位置，z和t取1至T之间的整数，x _t表示t位置上的词，x _z<t表示在t位置之前的词。

互信息层的损失偏差值按照如下公式进行计算：Loss _MMI＝Max(P(m/n))，其中，P表示概率，n表示当前输入问句的向量，m表示当前输入问句之前的前序对话信息的向量，P(m/n)表示当前输入问句与前序对话的相关性的概率。

步骤S403至步骤S406与图2中的步骤S201至步骤S204类似，在此不再进行详细描述，本实施例的步骤S401、步骤S402可以在步骤S403之前也可以在步骤S403之后执行。

本申请第二实施例的基于Transformer模型的问答方在第一实施例的基础上，通过优化Transformer模型使得输出更加准确、可靠。

图5是本申请实施例的基于Transformer模型的问答装置的结构示意图。如图5所示，该问答装置50包括获取模块51、解码模块52、拼接模块53以及打分模块54。

获取模块51用于获取用户输入的问句文本，对问句文本进行处理，得到问句序列。

解码模块52与获取模块51耦接，用于对问句序列进行解码，获得与问句序列相关的多个候选回答。

拼接模块53与解码模块52耦接，用于将问句序列与每个候选回答进行拼接。

打分模块54与拼接模块53耦接，用于对每个拼接结果进行打分，选取最高得分对应的候选回答作为问句序列的最优回答。

参阅图6，图6为本申请实施例的存储装置的结构示意图。本申请实施例的存储装置存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储装置中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置可以是非易失性，也可以是易失性，存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于Transformer模型的问答方法，其中，所述问答方法包括：

获取用户输入的问句文本，对所述问句文本进行处理，得到问句序列；

对所述问句序列进行解码，获得与所述问句序列相关的多个候选回答；

将所述问句序列与每个所述候选回答进行拼接；

对每个所述拼接结果进行打分，选取最高得分对应的所述候选回答作为所述问句序列的最优回答。
根据权利要求1所述的问答方法，其中，所述Transformer模型的网络结构包括解码层和设于所述解码层之后的互信息层，所述对所述问句序列进行解码，获得与所述问句序列相关的多个候选回答的步骤包括：

将所述问句序列输入到解码层中，输出与所述问句序列相关的一个所述候选回答；

循环将所述问句序列与所述解码层的输出结果进行拼接后，再次输入到所述解码层中，获得多个所述候选回答。
根据权利要求2所述的问答方法，其中，所述解码层包括：依次设置的自注意力机制模块、前馈网络模块以及归一化处理模块；所述将所述问句序列输入到所述解码层中，输出与所述问句序列相关的一个所述候选回答的步骤包括：

采用所述自注意力机制模块对所述问句序列进行特征提取；

采用所述前馈网络模块对特征提取结果进行非线性变换；

采用所述归一化处理模块对非线性变换结果进行归一化处理。
根据权利要求1所述的问答方法，其中，所述获取用户输入的问句文本，对所述问句文本进行处理，得到问句序列的步骤还包括：

获取用户输入的问句文本，所述问句文本包括问句以及包含所述问句的对话句子；

对所述问句和所述对话句子插入标签；

对插入标签后的所述问句进行编码和词嵌入处理，得到所述问句序列，所述问句序列包括：序列编码和位置编码，所述位置编码为相对位置编码。
根据权利要求4所述的问答方法，其中，所述对所述问句和所述对话句子插入标签的步骤包括；

在所述问句的开始处插入开始标签，在所述问句的结尾处插入结束标签，在所述对话句子中插入分隔标签。
根据权利要求1所述的问答方法，其中，所述对每个所述拼接结果进行打分，选取最高得分对应的所述候选回答作为所述问句序列的最优回答的步骤包括：

基于联合概率分布算法计算每个所述拼接结果中所述问句序列与所述候选回答的相关性；

对所述相关性进行打分，所述相关性的程度越高，对应的得分越高；

选取最高得分对应的所述候选回答作为所述问句序列的最优回答。
根据权利要求1所述的问答方法，其中，所述问答方法还包括：

构建所述Transformer模型，所述Transformer模型的网络结构包括解码层和设于所述解码层之后的互信息层；

采用损失函数对所述Transformer模型进行优化。
根据权利要求7所述的问答方法，其中，所述采用损失函数对所述Transformer模型进行优化的步骤还包括：

计算所述解码层的损失偏差值和所述互信息层的损失偏差值；

选取所述解码层的损失偏差值和所述互信息层的损失偏差值叠加后的最大值作为所述Transformer模型的损失偏差值；

根据所述Transformer模型的损失偏差值更新所述Transformer模型的参数。
一种基于Transformer模型的问答装置，其中，所述问答装置包括：

获取模块，所述获取模块用于获取用户输入的问句文本，对所述问句文本进行处理，得到问句序列；

解码模块，所述处理模块与所述获取模块耦接，用于对所述问句序列进行解码，获得与所述问句序列相关的多个候选回答；

拼接模块，所述拼接模块与所述解码模块耦接，用于将所述问句序列与每个所述候选回答进行拼接；

打分模块，所述打分模块与所述拼接模块耦接，用于对每个所述拼接结果进行打分，选取最高得分对应的所述候选回答作为所述问句序列的最优回答。
一种存储装置，其中，存储有能够实现基于Transformer模型的问答方法的程序文件，所述程序文件被处理器执行时实现以下步骤：

获取用户输入的问句文本，对所述问句文本进行处理，得到问句序列；

对所述问句序列进行解码，获得与所述问句序列相关的多个候选回答；

将所述问句序列与每个所述候选回答进行拼接；

对每个所述拼接结果进行打分，选取最高得分对应的所述候选回答作为所述问句序列的最优回答。
根据权利要求10所述的存储装置，其中，所述Transformer模型的网络结构包括解码层和设于所述解码层之后的互信息层。
根据权利要求11所述的存储装置，其中，所述对所述问句序列进行解码，获得与所述问句序列相关的多个候选回答的步骤包括：

将所述问句序列输入到解码层中，输出与所述问句序列相关的一个所述候选回答；

循环将所述问句序列与所述解码层的输出结果进行拼接后，再次输入到所述解码层中，获得多个所述候选回答。
根据权利要求12所述的存储装置，其中，所述解码层包括：依次设置的自注意力机制模块、前馈网络模块以及归一化处理模块。
根据权利要求13所述的存储装置，其中，所述将所述问句序列输入到所述解码层中，输出与所述问句序列相关的一个所述候选回答的步骤包括：

采用所述自注意力机制模块对所述问句序列进行特征提取；

采用所述前馈网络模块对特征提取结果进行非线性变换；

采用所述归一化处理模块对非线性变换结果进行归一化处理。
根据权利要求10所述的存储装置，其中，所述获取用户输入的问句文本，对所述问句文本进行处理，得到问句序列的步骤还包括：

获取用户输入的问句文本，所述问句文本包括问句以及包含所述问句的对话句子；

对所述问句和所述对话句子插入标签；

对插入标签后的所述问句进行编码和词嵌入处理，得到所述问句序列，所述问句序列包括：序列编码和位置编码，所述位置编码为相对位置编码。
根据权利要求15所述的存储装置，其中，所述对所述问句和所述对话句子插入标签的步骤包括；

在所述问句的开始处插入开始标签，在所述问句的结尾处插入结束标签，在所述对话句子中插入分隔标签。
根据权利要求10所述的存储装置，其中，所述对每个所述拼接结果进行打分，选取最高得分对应的所述候选回答作为所述问句序列的最优回答的步骤包括：

基于联合概率分布算法计算每个所述拼接结果中所述问句序列与所述候选回答的相关性；

对所述相关性进行打分，所述相关性的程度越高，对应的得分越高；

选取最高得分对应的所述候选回答作为所述问句序列的最优回答。
根据权利要求10所述的存储装置，其中，所述问答方法还包括：

构建所述Transformer模型，所述Transformer模型的网络结构包括解码层和设于所述解码层之后的互信息层；

采用损失函数对所述Transformer模型进行优化。
根据权利要求18所述的存储装置，其中，所述采用损失函数对所述Transformer模型进行优化的步骤还包括：

计算所述解码层的损失偏差值和所述互信息层的损失偏差值；

选取所述解码层的损失偏差值和所述互信息层的损失偏差值叠加后的最大值作为所述Transformer模型的损失偏差值；

根据所述Transformer模型的损失偏差值更新所述Transformer模型的参数。
根据权利要求19所述的存储装置，其中，所述互信息层的损失偏差值按照如下公式进行计算：Loss _MMI＝Max(P(m/n))，其中，P表示概率，n表示当前输入问句的向量，m表示当前输入问句之前的前序对话信息的向量，P(m/n)表示当前输入问句与前序对话的相关性的概率。