WO2018014835A1

WO2018014835A1 - 一种对话生成方法及装置、设备、存储介质

Info

Publication number: WO2018014835A1
Application number: PCT/CN2017/093417
Authority: WO
Inventors: 舒悦; 路彦雄; 林芬
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-07-19
Filing date: 2017-07-18
Publication date: 2018-01-25
Also published as: US20180285348A1; CN107632987B; US10740564B2; CN107632987A

Abstract

本发明实施例公开了一种对话生成方法、装置、设备、存储介质，包括：将第K轮询问句中的每个字转化为第一词向量，并根据第一词向量计算每个字的正向隐层向量和反向隐层向量；获取第K轮询问句的内容主题，并将内容主题转化为第二词向量；根据第二词向量、第K轮询问句中最后一个字的正向隐层向量、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对第K-1轮询问句输出的第K-1轮答复句的初始隐层向量，确定针对第K轮询问句输出的初始隐层向量；根据第K轮询问句中每个字的正向隐层向量和反向隐层向量、以及针对第K轮询问句输出的初始隐层向量，生成针对第K轮询问句的答复句。

Description

一种对话生成方法及装置、设备、存储介质

相关申请的交叉引用

本申请基于申请号为2016105675040、申请日为2016年07月19日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本发明涉及语音处理领域，尤其涉及一种对话生成方法及装置、设备、存储介质。

背景技术

近年来，人机交互方式正发生着日新月异的变化，对话机器人正作为一种新的交互模式吸引着越来越多人的关注。然而，如何在多轮对话中提高自动生成的回复语句的相关性，如何降低高频答案的生成概率，生成高质量的对话，一直成为自然语言处理领域研究的重点，其中，对话系统是自然语言处理的一个重要应用方向。

在现有技术方案中，对话系统可以包括基于规则的对话系统、基于搜索的对话系统或生成式对话系统。其中，基于规则的对话系统结构简单、高准确度，但泛化能力较差；基于搜索的对话系统，要求语料库的质量以及数量比较高，否则容易出现低召回等问题；生成式对话系统可以较好的构建语言模型，对任意输入语句，均可生成对应的答句，生成式对话系统建模方式可以分为单轮建模与多轮建模两类，其中，单轮生成式对话模型仅对问答对进行建模，而在处理多轮对话时将上下文直接拼接成一句长问句，但当对话轮数较多且上下文较长时，容易出现信息压缩混乱，导致生成答句质量较低等问题，多轮生成式对话模型将多轮问答传递过程进行建模，但是该模型容易生成高频答案，精确度低。

发明内容

本发明实施例提供一种对话生成方法及装置、设备、存储介质，能够解决生成对话精确度低的技术问题。

本发明实施例提供了一种对话生成方法，包括：

将第K轮询问句中的每个字转化为第一词向量，并根据所述第一词向量计算所述每个字的正向隐层向量和反向隐层向量，K为大于等于2的正整数；

获取所述第K轮询问句的内容主题，并将所述内容主题转化为第二词向量；

根据所述第二词向量、所述第K轮询问句中最后一个字的正向隐层向量、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对所述第K-1轮询问句输出的第K-1轮答复句的初始隐层向量，确定针对所述第K轮询问句输出的初始隐层向量；

根据所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量、以及所述针对所述第K轮询问句输出的初始隐层向量，生成针对所述第K轮询问句的答复句。

本发明实施例提供了一种对话生成装置，包括：

隐层计算部分，配置为将第K轮询问句中的每个字转化为第一词向量，并根据所述第一词向量计算所述每个字的正向隐层向量和反向隐层向量，K为大于等于2的正整数；

主题确定部分，配置为获取所述第K轮询问句的内容主题，并将所述内容主题转化为第二词向量；

向量计算部分，配置为根据所述第二词向量、所述第K轮询问句中最后一个字的正向隐层向量、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对所述第K-1轮询问句输出的第K-1轮答复句的初始隐层向量，确定针对所述第K轮询问句输出的初始隐层向量；

答复输出部分，配置为根据所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量、以及所述针对所述第K轮询问句输出的初始隐层向量，生成针对所述第K轮询问句的答复句。

本发明实施例提供了一种对话生成设备，所述设备包括接口电路、存储器以及处理器，其中，存储器中存储一组程序代码，且处理器配置为调用存储器中存储的程序代码，配置为执行以下步骤：

本发明实施例提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行本发明实施例提供的对话生成方法。

实施本发明实施例，首先将第K轮询问句中的每个字转化为第一词向量，并根据第一词向量计算每个字的正向隐层向量和反向隐层向量；然后获取第K轮询问句的内容主题，并将内容主题转化为第二词向量；其次根据第二词向量、第K轮询问句中最后一个字的正向隐层向量、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对第K-1轮询问句输出的第K-1轮答复句的初始隐层向量，确定针对第K轮询问句输出的初始隐层向量；最后根据第K轮询问句中每个字的正向隐层向量和反向隐层向量、以及针对第K轮询问句输出的初始隐层向量，生成针对第K轮询问句的答复句，通过在生成对话过程中加入主题内容，有效的抑制了跨主题通用高频答复句的生成，提高生成对话的精确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提出的一种对话生成方法的流程示意图；

图2A是本发明实施例提出的一种对话生成系统的架构示意图；

图2B是本发明实施例提出的一种对话生成方法的流程示意图；

图3是本发明实施例提供的一种对话生成装置的结构示意图；

图4是本发明实施例提供的另一种对话生成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更好地理解本发明的各实施例，下面提供一些技术名词的含义：

RNN(Recurrent neural Network)：循环神经网络，可以用于对时序行为进行建模。

LSTM(Long Short-Term Memory)：一种时间递归神经网络，可以理解为循环神经网络的一种细胞结构，含有输入门、输出门、遗忘门，适用于处理和预测时间序列中间隔和延迟非常长的重要事件。

GRU(Gated Recurrent Unit)：门控循环单元，作为一种RNN变种神经网络，GRU将忘记门和输入门合成了一个单一的更新门，同样还混合了细胞状态和隐藏状态，即将单元状态去除，直接通过输出存储信息，由于这种结构比LSTM更加简单。GRU与LSTM类似，适于处理长时依赖，且细胞结构更为简单。

One-hot：独热，一个向量，其维数为字典大小，每一维对应字典中的一个字，仅在对应位为1，其他都为0。

词向量：一个定长低维(通常为200维至300维)向量，用以表示某个字，具有相关性大的字和向量间距小的特点。

Softmax：逻辑(logistic)回归模型在多分类问题上的推广。

BTM(Biterm Topic Model)，Biterm主题模型，其主要思想是统计预料中任意两个词语组成的共现词对(即词共现模式)，并以共现词对为单位进行建模来解决预料特征稀疏的问题。

请参考图1，图1是本发明实施例提供的一种对话生成方法的流程示意图。如图所述，本发明实施例中的方法包括：

S101，将第K轮询问句中的每个字转化为第一词向量，并根据所述第一词向量计算所述每个字的正向隐层向量和反向隐层向量，K为大于等于2的正整数。

在实现中，可以构建多轮对话模型，如图2A所示，可以将每一轮的询问句以及相应的答复句嵌入到单轮对话模型中，多轮对话模型可以看作单轮对话模型的展开，在单轮对话模型中，可以分为编码(encoder)层、意图(intention)层以及解码(decoder)层。

在编码层，可以首先获取用户输入的第K轮询问句，并将第K轮询问句以字进行分词，使用独热(one-hot)编码表示询问中的每个字的词向量，然后通过嵌入空间矩阵(ESM，Embedding Space Matrix)将每个字的词向量转化成一个预定维数的向量

其中，独热编码的维数为预设字典的大小，每一维对应字典中的一个字，仅在对应位为1，其他都为0，然后从前向后扫描第K轮询问句，逐次将每个字的词向量输入到正向门控循环单元，记录输入每个字的正向隐层向量

并且从后向前扫描第K轮询问句，逐次将每个字的词向量输入到反向门控循环单元，记录输入每个字后的反向隐层向量

其中，可以根据所述第K轮询问句中目标字的第一词向量和所述目标字的上一个字的正向隐层向量，计算所述目标字的正向隐层向量，目标字的正向隐层向量可以表示为

根据所述第K轮询问句中目标字的第一词向量和所述目标字的下一个字的反向隐层向量，计算所述目标字的反向隐层向量，目标字的反向隐层向量可以表示为

例如，第K轮询问句为“你看过电影吗？”，首先可以对“你看过电影吗”进行正向编码，将询问中的每个字转化为一个词向量，分别为

然后根据第一个字“你”的词向量

确定第一个字“你”的正向隐层向量

根据第二字“看”的词向量

和第一个字“你”的正向隐层向量

确定第一个字“看”的正向隐层向量

根据第三个字“过”的词向量

和第二个字“看”的正向隐层向量

确定第三个字“过”的正向隐层向量

逐次类推分别计算得到第四个字“电”的正向隐层向量

第五个字“影”的正向隐层向量

第六个字“吗”的正向隐层向量

另外，可以首先可以对“你看过电影吗”进行反向编码，将询问中的每个字转化为一个词向量，分别为

然后根据第六个字“吗”的词向量

确定第六个字“吗”的反向隐层向量

根据第五字“影”的词向量

和第六个字“吗”的反向隐层向量

确定第五个字“影”的反向隐层向量

根据第四个字“电”的词向量

和第五个字“影”的反向隐层向量

确定第四个字“电”的正向隐层向量

逐次类推分别计算得到第三个字“过”的反向隐层向量第二个字“看”的正向隐层向量

第一个字“我”的反向隐层向量

S102，获取所述第K轮询问句的内容主题，并将所述内容主题转化为第二词向量。

在实现中，可以使用BTM算法对多个词中的每个词进行训练，确定每个词作为内容主题的概率分布，然后将第K轮询问句与所述多个词进行匹配，确定第K轮询问句中概率最大的内容主题，该概率最大的内容主题可以使用独热编码表示，并构建该内容主题的嵌入空间矩阵，从而得到该内容主题的词向量E^(k)。

S103，根据所述第二词向量、所述第K轮询问句中最后一个字的正向隐层向量、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对所述第K-1轮询问句输出的第K-1轮答复句的初始隐层向量，确定针对所述第K轮询问句输出的初始隐层向量。

在实现中，如图2A所示，在意图层，可以将第K轮中编码层21中输出的询问句中最后一个字的正向隐层向量、内容主题的词向量E^(k)、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对第K-1轮询问句输出的第K-1轮答复句的初始隐层向量输入到简单循环神经网络(simple-RNN，simple Recurrent neural Network)中，计算得到针对第K轮询问句输出的初始隐层向量，该初始隐层向量可以表示为：

其中，W^(in,in)、W^(in,de)、W^(in,en)以及W^(in,e)分别为simple-RNN神经网络中的参数，σ用于将h^(in,k)初始隐层向量压缩在[0,1]区间，从而增加模型的非线性表征能力。

需要说明的是，在计算初始隐层向量的过程中，由于将第K轮询问句中的内容主题加入到意图层进行计算，相当于在运算过程中加入了监督信息，从而在生成的答复句可以被限制在该内容主题的范围内，进而减少部分通用高频答复句的生成概率。

S104，根据所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量、以及所述针对所述第K轮询问句输出的初始隐层向量，生成针对所述第K轮询问句的答复句。

在实现中，首先对所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量进行拼接得到所述第K轮询问句中每个字的隐层向量，其中，每个字的隐层向量

然后根据所述针对所述第K轮询问句输出的初始隐层向量以及预设的标识字符的词向量，确定针对所述第K轮询问句输出的第二隐层向量，进而根据所述第二隐层向量确定所述针对所述第K轮询问句输出的第一个答复字；根据所述第二隐层向量以及所述第K轮询问句中每个字的隐层向量，计算所述第K轮询问句中每个字对生成第二个答复字的贡献度；根据所述第K轮询问句中每个字对生成第二个答复字的贡献度、所述第二隐层向量以及所述第一个答复字的词向量，计算所述第三隐层向量；根据所述第三隐层向量，生成针对所述第K轮询问句的第二个答复字，依次类推生成针对所述第K轮询问句的答复句。

需要说明的是，使用双向结构的隐状态作为注意力层的输入，可以更加精确的描述上下文中的重点信息，有效降低单向结构重点信息靠后的问题，由于双向结构的隐层状态在一定程度上可以增加每个字的全局信息，因此避免了单向结构越靠后的字所携带的信息越多的问题，使得生成的答复句相关性更强。

在本发明的其他实施例中，可以根据所述第二隐层向量以及所述第K轮询问句中每个字的隐层向量，计算所述第K轮询问句中每个字对生成所述第二个答复字的权重；根据所述第K轮询问句中每个字对生成所述第二个答复字的权重，计算所述第K轮询问句中每个字的隐层向量的加权和，并将所述加权和作为所述第K轮询问句中每个字对生成所述第二个答复字的贡献度。

在本发明的其他实施例中，可以根据所述第三隐层向量，计算在预设字典中的每个字的概率分布；选择在所述预设字典中概率最大的字作为所述第二个答复字进行输出，进而依次输出第三个答复字、第四答复字、第五答复字等等，每次可以选择50个字逐字生成答复句，并选择概率最高的前5句话。

例如：可以通过答复句中某字的上一个字的隐层向量和询问句中的每个字的隐层向量，计算询问句中每个字对生成该字的重要度g_jt，

其中，

为该字的上一个字的隐层向量，

为询问句中的每个字的隐层向量，W^(de,de)、W^(de,en)分别为神经网络中的参数，然后对重要度g_jt进行归一化处理，计算得到第K轮询问句中每个字的隐层向量的权重

最后计算第K轮询问句中每个字的隐层向量的加权和

从而根据

逐字生成该答复字的隐层向量，其中，

为该字的上一个字的词向量，

为该字的上一个字的隐层向量。

针对上述发明实施例提出的一种对话生成方法，参见图2B所示，以下通过详细的例子说明该方法的实施步骤：

在编码层21，首先将询问句“你看过电影吗”25按字分词为“你”、“看”“、过”、“电”、“影”、“吗”，从“你”到“我”进行正向编码，形成6个字的正向隐层向量

即注意力层24中从左向右的向量，然后再从“吗”到“你”进行反向编码，形成6个字的反向隐层向量

即注意力层中从右向左的向量，最后将正向隐层向量和反向隐层向量进行串联拼接，形成某个字的隐层向量，例如，询问句中“你”的隐层向量

为“你”的正向隐层向量，

为“你”的反向隐层向量，并且，将询问句中的最后一个字“吗”的正向隐层向量

输入到意图层。

在意图层22，首先通过计算得到询问句“你看过电影吗”25的内容主题为“电影”，并对内容主题“电影”进行编码得到主题向量，然后将上一轮的意图层的输出向量，上一轮的解码层的输出向量，本轮编码层21的输出向量以及主题向量一并输入到意图层，通过神经网络运算输出初始隐层向量，该初始隐层向量可以用于解码层确定答句的第一个字。

在解码层23，可看作编码层21的逆向过程，可以将词向量和隐层向量解码为自然语言，可以根据意图层输出的初始隐层向量和注意力层中询问句中每个字的词向量，生成答句“我喜欢欧美电影”。假设一个10000个字的字典，解码层23每次解码会生成该1万个字的概率分布，然后每次选取概率最大的一个字进行输出。过程如下：

首先意图层22的输出初始隐层向量，并将该初始隐层向量以及第一个字符是标识字符“_EOS_”的词向量输入到解码层23，通过神经网络更新隐层向量得到第二隐层向量，第二隐层向量通过softmax回归算法生成1万个字的概率分布，其中“我”字的概率最大，因此输出答复字“我”，然后将第二隐层向量和答复字“我”的词向量作为输入，生成第三隐层向量，根据第三隐层向量计算下一个字的概率分布，取概率最大的“喜”字作为输出。重复以上过程，直到输出特殊符号_EOS_时结束全部过程，则可以生成答复句“我喜欢欧美电影_EOS_”26。

在本发明实施例中，首先将第K轮询问句中的每个字转化为第一词向量，并根据第一词向量计算每个字的正向隐层向量和反向隐层向量；然后获取第K轮询问句的内容主题，并将内容主题转化为第二词向量；其次根据第二词向量、第K轮询问句中最后一个字的正向隐层向量、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对第K-1轮询问句输出的第K-1轮答复句的初始隐层向量，确定针对第K轮询问句输出的初始隐层向量；最后根据第K轮询问句中每个字的正向隐层向量和反向隐层向量、以及针对第K轮询问句输出的初始隐层向量，生成针对第K轮询问句的答复句，通过在生成对话过程中加入主题内容，有效的抑制了跨主题通用高频答复句的生成，提高生成对话的精确性。

近年来，人机交互方式正发生着日新月异的变化，对话机器人正作为一种新的交互模式吸引着越来越多人的关注。本发明涉及计算机技术与机器学习领域，使用深度学习技术，让机器人可通过多轮对话理解人类的自然语言语义，并生成相应回复语句。然而如何在多轮对话中提高自动生成的回复语句的相关性，如何降低高频答案的生成概率，使得生成高质量的对话，这些问题一直困扰着相关研究人员。本实施例提供的技术方案不但能避免基于规则的对话系统的低泛化能力，以及基于搜索算法的对话系统的低召回能力，同时也能有效降低主流基于统计学习的生成对话系统大概率生成高频答句的问题，进而使得生成对话算法在实用性上提高了一个台阶。

参见图2A所示，基于多轮对话模型，在解码层23采用GRU单元对单句进行编码，以防梯度弥散；在意图层22创造性地加入基于BTM算法的对话主题信息，作为生成对话监督信息，可在一定程度上降低高频答案的生成概率；同时在解码层23，使用双向注意力机制(注意力层24)，以捕捉上下文中的重点信息，使生成的对话有更好的相关性。

本实施例基于多轮生成对话模型的对话生成方法，该方法包括训练与预测两个过程，其中多轮生成对话模型的输入是前四轮对话的问答对以及当前轮的问句，多轮生成对话模型的输出是算法依据前文信息生成的当前轮的答句。

在训练过程中，拥有真实的五轮问答对，故选取最后一轮的真实答句作为训练算法的监督信息，对生成的答句计算损失函数，进而训练神经网络直至收敛。将每一轮的一问一答嵌入一个单轮生成对话模型中，那么多轮生成对话可视为单轮生成对话的时序展开。在单轮生成模型中，处理流程分为三部分，编码层、意图层和解码层的处理流程。

1)编码层，该层的作用是将输入的自然语言映射到一个固定维度的向量中。故其输入为自然语言表示的句子，输出为固定长度的向量。具体而言：

I>，将句子以字级别进行分词，然后将每个字的one-hot表示，通过嵌入空间矩阵，转换成一个200维的词向量

II>从前向后扫描句子，逐次将每个字的词向量输入正向GRU网络，记录输入每个字后的隐层状态

III>反向扫描句子，逐次将每个字的词向量输入反向GRU网络，记录输入每个字后的隐层状态

IV>取II>的末状态

作为整句话的定长向量表达，即句子嵌入(embedding)，该句子嵌入作为意图层的输入；

V>串型拼接II>和III>中的得到的正反向隐层向量，即

作为改词在句子中的表达，作为解码层的输入。相较于单向结构，使用双向结构的隐状态作为意图层的输入，可以更加精确的描述上下文中的重点信息，有效降低单向结构重点信息靠后的问题，因为双向结构的隐状态从某种程度上使得每个词都带有全局信息，避免了单向结构越靠后的词带有的信息越多的问题，使得生成的答句相关性更强。

2)意图层，该层的作用是编码多轮对话的话题传递过程，意图层的输入为1)中的

上一轮问答解码层结尾隐状态

上一轮问答intention层的输出h^(in,k-1)，以及当前轮问句的主题E^(k)，输出为当前主题与上下文信息综合编码之后的向量h^(in,k)。具体而言：

I>计算当前轮问句的主题，使用BTM算法，先进行线下离线训练，得出每个词的主题分布，进而在线计算出当前问句概率最大的主题序号，该序号可视为主题的one-hot表示，然后构建主题embedding矩阵，得到该主题的词向量E^(k)；

II>通过simple-RNN网络计算主题的传递，

其中，W^(in,in)、W^(in,de)、W^(in,en)以及W^(in,e)分别为simple-RNN神经网络中的参数，σ用于将h^(in,k)初始隐层向量压缩在[0,1]区间，从而增加模型的非线性表征能力；并作为解码层的输入。在该过程中，本实施例显示地将当前query的主题纳入计算，相当于在运算过程中加入了监督信息，使得下一步生成答句的时候会限制在该主题下，进而可以减少部分通用高频答句的生成概率。

3)解码层，该层的作用是通过分析编码层和意图层的输出向量，输出下一个字在字典中的概率分布。输入是意图层的输出h^(in,k)，编码层的输出

输出是下一个字在字典中的概率分布。具体而言：

I>通过

计算attention，首先通过答句上一个字的隐层与问句每个字的隐层，计算问句中该字的重要度，

其中，

为该字的上一个字的隐层向量，

为询问句中的每个字的隐层向量，W^(de,de)、W^(de,en)分别为神经网络中的参数；进而使用softmax概率进行归一化，得到注意力层的权重，

即计算问句中哪些成分对生成该字贡献最大。然后计算问句每个字的隐层向量计算加权和，即

II>使用GRU单元，根据

逐字生成下一个隐层状态，然后每个隐层状态接入全连接层，并通过softmax计算下一个字在字典中的概率分布。在训练时，通过计算标准答句中的对应字在预测答句的概率分布的负log似然来计算损失，计算标准答句的总体损失和作为本轮的损失，使用循环神经网络的反向传播算法(BPTT，Back Propagation Through Time)进行误差回传。在预测时，使用机器学习的集束搜索(Beam Search)算法每次选取概率最大的前50个字，逐字生成答句，并输出概率最高的前5句话。

本实施例提供的技术方案脱胎于翻译模型，众所周知，翻译模型构建的是一种语言到另一种语言的等价空间变换，故语义空间相对固定。而在对话模型中，要完成的是多语义空间的映射，因为同一句问句，不同的人会有不同的回答。然而，在海量数据面前，一些如“哦，好的”之类的通用却中庸的回复方式，在语料中成为主流，使得训练出来的机器人倾向于使用这些高频回答。本发明提供的技术方案通过使用语义段的主题信息，减小生成语句的语义空间，从而在一定程度上抑制了高频无意义答句的生成。同时通过双向注意力模型，更精确地抽取出重点语义信息，更好地保证了生成语句的相关性。

在实现的过程中，本实施例提供的技术方案可以使用深度学习框架使用MXNET 0.5.0，在Tesla K40上进行训练和预测。本实施例提供的技术方案可应用于聊天机器人、邮件自动回复、社交软件中自动生成候选答句等业务场景中，能够根据前几轮的对话实时自动生成最合适的几种答句，其生成过程由算法完全控制，无需用户干涉。例如在聊天机器人中，直接根据用户与输入进行自动回复，从而达到情感陪伴的作用；再如在自动生成候选答句业务中，根据前几轮的聊天情况为用户生成若干候选，当用户不方便输入时，可帮助用户进行快速回复。

请参考图3，图3是本发明实施例提供的一种对话生成装置的结构示意图。该装置所包括的各部分都可以通过对话生成设备例如手机、平板电脑、个人电脑等终端中处理器来实现；其中处理器所实现的功能当然还可以通过逻辑电路来实现，在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。如图3所述，本发明实施例中的装置包括：

隐层计算部分301，配置为将第K轮询问句中的每个字转化为第一词向量，并根据所述第一词向量计算所述每个字的正向隐层向量和反向隐层向量，K为大于等于2的正整数。

在实现中，可以构建多轮对话模型，如图2A所示，可以将每一轮的询问句以及相应的答复句嵌入到单轮对话模型中，多轮对话模型可以看作单轮对话模型的展开，在单轮对话模型中，可以分为编码层、意图层以及解码层。

在编码层，可以首先获取用户输入的第K轮询问句，并将第K轮询问句以字进行分词，使用独热编码表示询问中的每个字的词向量，然后通过嵌入空间矩阵将每个字的词向量转化成一个预定维数的向量

然后根据第一个字“你”的词向量

确定第一个字“你”的正向隐层向量

根据第二字“看”的词向量

和第一个字“你”的正向隐层向量

确定第一个字“看”的正向隐层向量

根据第三个字“过”的词向量

和第二个字“看”的正向隐层向量

确定第三个字“过”的正向隐层向量

逐次类推分别计算得到第四个字“电”的正向隐层向量

第五个字“影”的正向隐层向量

第六个字“吗”的正向隐层向量

然后根据第六个字“吗”的词向量

确定第六个字“吗”的反向隐层向量

根据第五字“影”的词向量

和第六个字“吗”的反向隐层向量

确定第五个字“影”的反向隐层向量

根据第四个字“电”的词向量

和第五个字“影”的反向隐层向量

确定第四个字“电”的正向隐层向量

逐次类推分别计算得到第三个字“过”的反向隐层向量

第二个字“看”的正向隐层向量

第一个字“我”的反向隐层向量

主题确定部分302，配置为获取所述第K轮询问句的内容主题，并将所述内容主题转化为第二词向量。

向量计算部分303，配置为根据所述第二词向量、所述第K轮询问句中最后一个字的正向隐层向量、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对所述第K-1轮询问句输出的第K-1轮答复句的初始隐层向量，确定针对所述第K轮询问句输出的初始隐层向量。

在实现中，如图2A所示，在意图层，可以将第K轮中编码层中输出的询问句中最后一个字的正向隐层向量、内容主题的词向量E^(k)、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对第K-1轮询问句输出的第K-1轮答复句的初始隐层向量输入到simple-RNN神经网络中，计算得到针对第K轮询问句输出的初始隐层向量，该初始隐层向量可以表示为：

答复输出部分304，配置为根据所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量、以及所述针对所述第K轮询问句输出的初始隐层向量，生成针对所述第K轮询问句的答复句。

其中，

为该字的上一个字的隐层向量，

最后计算第K轮询问句中每个字的隐层向量的加权和

从而根据

逐字生成该答复字的隐层向量，其中，

为该字的上一个字的词向量，

为该字的上一个字的隐层向量。

针对上述发明实施例提出的一种对话生成装置，以下通过详细的例子说明该方法的实施步骤：

在编码层，首先将询问句“你看过电影吗”按字分词为“你”、“看”“、过”、“电”、“影”、“吗”，从“你”到“我”进行正向编码，形成6个字的正向隐层向量

即注意力层中从左向右的向量，然后再从“吗”到“你”进行反向编码，形成6个字的反向隐层向量

为“你”的正向隐层向量，

输入到意图层。

在意图层，首先通过计算得到询问句“你看过电影吗”的内容主题为“电影”，并对内容主题“电影”进行编码得到主题向量，然后将上一轮的意图层的输出向量，上一轮的解码层的输出向量，本轮编码层的输出向量以及主题向量一并输入到意图层，通过神经网络运算输出初始隐层向量，该初始隐层向量可以用于解码层确定答句的第一个字。

在解码层，可看做编码层的逆向过程，可以将词向量和隐层向量解码为自然语言，可以根据意图层输出的初始隐层向量和注意力层中询问句中每个字的词向量，生成答句“我喜欢欧美电影”。假设一个10000个字的字典，每次解码会生成该1万个字的概率分布，然后每次选取概率最大的一个字进行输出。过程如下：首先的输出初始隐层向量，并将该初始隐层向量以及第一个字符是标识字符“_EOS_”的词向量输入到解码层，通过神经网络更新隐层向量得到第二隐层向量，第二隐层向量通过softmax回归算法生成1万个字的概率分布，其中“我”字的概率最大，因此输出答复字“我”，然后将第二隐层向量和答复字“我”的词向量作为输入，生成第三隐层向量，根据第三隐层向量计算下一个字的概率分布，取概率最大的“喜”字作为输出。重复以上过程，直到输出特殊符号_EOS_时结束全部过程，则可以生成答复句“我喜欢欧美电影_EOS_”。

请参考图4，图4是本发明实施例提供的一种对话生成设备的结构示意图。如图所示，该设备可以包括：至少一个处理器401，例如CPU，至少一个接口电路402，至少一个存储器403，至少一个总线404。

其中，通信总线404配置为实现这些组件之间的连接通信。

其中，本发明实施例中的接口电路402可以是有线发送端口，也可以为无线设备，例如包括天线装置，配置为与其他节点设备进行信令或数据的通信。

存储器403可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器403可选的还可以是至少一个位于远离前述处理器401的存储装置。存储器403中存储一组程序代码，且处理器401配置为调用存储器中存储的程序代码，配置为执行以下步骤：

其中，处理器401配置为执行如下操作步骤：

根据所述第K轮询问句中目标字的第一词向量和所述目标字的上一个字的正向隐层向量，计算所述目标字的正向隐层向量；或

根据所述第K轮询问句中目标字的第一词向量和所述目标字的下一个字的反向隐层向量，计算所述目标字的反向隐层向量。

其中，处理器401配置为执行如下操作步骤：

对所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量进行拼接得到所述第K轮询问句中每个字的隐层向量；

根据所述针对所述第K轮询问句输出的初始隐层向量以及所述第K轮询问句中每个字的隐层向量，生成针对所述第K轮询问句的答复句。

其中，处理器401配置为执行如下操作步骤：

根据所述针对所述第K轮询问句输出的初始隐层向量以及预设的标识字符的词向量，确定针对所述第K轮询问句输出的第二隐层向量，进而根据所述第二隐层向量确定所述针对所述第K轮询问句输出的第一个答复字；

根据所述第二隐层向量以及所述第K轮询问句中每个字的隐层向量，计算所述第K轮询问句中每个字对生成第二个答复字的贡献度；

根据所述第K轮询问句中每个字对生成第二个答复字的贡献度、所述第二隐层向量以及所述第一个答复字的词向量，计算所述第三隐层向量；

根据所述第三隐层向量，生成针对所述第K轮询问句的第二个答复字，依次类推生成针对所述第K轮询问句的答复句。

其中，处理器401配置为执行如下操作步骤：

根据所述第二隐层向量以及所述第K轮询问句中每个字的隐层向量，计算所述第K轮询问句中每个字对生成所述第二个答复字的权重；

根据所述第K轮询问句中每个字对生成所述第二个答复字的权重，计算所述第K轮询问句中每个字的隐层向量的加权和，并将所述加权和作为所述第K轮询问句中每个字对生成所述第二个答复字的贡献度。

其中，处理器401配置为执行如下操作步骤：

根据所述第三隐层向量，计算在预设字典中的每个字的概率分布；

选择在所述预设字典中概率最大的字作为所述第二个答复字进行输出。

本发明实施例中，如果以软件功能部分的形式实现上述的对话生成方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器 (Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

相应地，本发明实施例再提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行本发明实施例中对话生成方法。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

以上对本发明实施例所提供的内容下载方法及相关设备、系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

工业实用性

在本发明实施例中，根据第K轮询问句中每个字的正向隐层向量和反向隐层向量、以及针对第K轮询问句输出的初始隐层向量，生成针对第K轮询问句的答复句，通过在生成对话过程中加入主题内容，有效的抑制了跨主题通用高频答复句的生成，提高生成对话的精确性。

Claims

一种对话生成方法，所述方法包括：

将第K轮询问句中的每个字转化为第一词向量，并根据所述第一词向量计算所述每个字的正向隐层向量和反向隐层向量，K为大于等于2的正整数；

获取所述第K轮询问句的内容主题，并将所述内容主题转化为第二词向量；

根据所述第二词向量、所述第K轮询问句中最后一个字的正向隐层向量、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对所述第K-1轮询问句输出的第K-1轮答复句的初始隐层向量，确定针对所述第K轮询问句输出的初始隐层向量；

根据所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量、以及所述针对所述第K轮询问句输出的初始隐层向量，生成针对所述第K轮询问句的答复句。
如权利要求1所述的方法，其中，所述根据所述第一词向量计算所述每个字的正向隐层向量和反向隐层向量包括：

根据所述第K轮询问句中目标字的第一词向量和所述目标字的上一个字的正向隐层向量，计算所述目标字的正向隐层向量。
如权利要求1所述的方法，其中，所述根据所述第一词向量计算所述每个字的正向隐层向量和反向隐层向量包括：

根据所述第K轮询问句中目标字的第一词向量和所述目标字的下一个字的反向隐层向量，计算所述目标字的反向隐层向量。
如权利要求1所述的方法，其中，所述根据所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量、以及所述针对所述第K轮询问句输出的初始隐层向量，生成针对所述第K轮询问句的答复句包括：

对所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量进行拼接得到所述第K轮询问句中每个字的隐层向量；

根据所述针对所述第K轮询问句输出的初始隐层向量以及所述第K轮询问句中每个字的隐层向量，生成针对所述第K轮询问句的答复句。
如权利要求4所述的方法，其中，所述根据所述针对所述第K轮询问句输出的初始隐层向量以及所述第K轮询问句中每个字的隐层向量，生成针对所述第K轮询问句的答复句包括：

根据所述针对所述第K轮询问句输出的初始隐层向量以及预设的标识字符的词向量，确定针对所述第K轮询问句输出的第二隐层向量，进而根据所述第二隐层向量确定所述针对所述第K轮询问句输出的第一个答复字；

根据所述第二隐层向量以及所述第K轮询问句中每个字的隐层向量，计算所述第K轮询问句中每个字对生成第二个答复字的贡献度；

根据所述第K轮询问句中每个字对生成第二个答复字的贡献度、所述第二隐层向量以及所述第一个答复字的词向量，计算所述第三隐层向量；

根据所述第三隐层向量，生成针对所述第K轮询问句的第二个答复字，依次类推生成针对所述第K轮询问句的答复句。
如权利要求5所述的方法，其中，所述根据所述第二隐层向量以及所述第K轮询问句中每个字的隐层向量，计算所述第K轮询问句中每个字对生成第二个答复字的贡献度包括：

根据所述第二隐层向量以及所述第K轮询问句中每个字的隐层向量，计算所述第K轮询问句中每个字对生成所述第二个答复字的权重；

根据所述第K轮询问句中每个字对生成所述第二个答复字的权重，计算所述第K轮询问句中每个字的隐层向量的加权和，并将所述加权和作为所述第K轮询问句中每个字对生成所述第二个答复字的贡献度。
如权利要求5或6所述的方法，其中，所述根据所述第三隐层向量，生成针对所述第K轮询问句的第二个答复字包括：

根据所述第三隐层向量，计算在预设字典中的每个字的概率分布；

选择在所述预设字典中概率最大的字作为所述第二个答复字进行输出。
一种对话生成装置，所述装置包括：

隐层计算部分，配置为将第K轮询问句中的每个字转化为第一词向量，并根据所述第一词向量计算所述每个字的正向隐层向量和反向隐层向量，K为大于等于2的正整数；

主题确定部分，配置为获取所述第K轮询问句的内容主题，并将所述内容主题转化为第二词向量；

向量计算部分，配置为根据所述第二词向量、所述第K轮询问句中最后一个字的正向隐层向量、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对所述第K-1轮询问句输出的第K-1轮答复句的初始隐层向量，确定针对所述第K轮询问句输出的初始隐层向量；

答复输出部分，配置为根据所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量、以及所述针对所述第K轮询问句输出的初始隐层向量，生成针对所述第K轮询问句的答复句。
如权利要求8所述的装置，其中，所述隐层计算部分配置为：

根据所述第K轮询问句中目标字的第一词向量和所述目标字的上一个字的正向隐层向量，计算所述目标字的正向隐层向量。
如权利要求8所述的装置，其中，所述隐层计算部分配置为：

根据所述第K轮询问句中目标字的第一词向量和所述目标字的下一个字的反向隐层向量，计算所述目标字的反向隐层向量。
如权利要求8所述的装置，其中，所述答复输出部分配置为：

对所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量进行拼接得到所述第K轮询问句中每个字的隐层向量；

根据所述针对所述第K轮询问句输出的初始隐层向量以及所述第K轮询问句中每个字的隐层向量，生成针对所述第K轮询问句的答复句。
如权利要求11所述的方法，其中，所述答复输出部分配置为：

根据所述针对所述第K轮询问句输出的初始隐层向量以及预设的标识字符的词向量，确定针对所述第K轮询问句输出的第二隐层向量，进而根据所述第二隐层向量确定所述针对所述第K轮询问句输出的第一个答复字；

根据所述第二隐层向量以及所述第K轮询问句中每个字的隐层向量，计算所述第K轮询问句中每个字对生成第二个答复字的贡献度；

根据所述第K轮询问句中每个字对生成第二个答复字的贡献度、所述第二隐层向量以及所述第一个答复字的词向量，计算所述第三隐层向量；

根据所述第三隐层向量，生成针对所述第K轮询问句的第二个答复字，依次类推生成针对所述第K轮询问句的答复句。
如权利要求12所述的方法，其中，所述答复输出部分配置为：

根据所述第二隐层向量以及所述第K轮询问句中每个字的隐层向量，计算所述第K轮询问句中每个字对生成所述第二个答复字的权重；

根据所述第K轮询问句中每个字对生成所述第二个答复字的权重，计算所述第K轮询问句中每个字的隐层向量的加权和，并将所述加权和作为所述第K轮询问句中每个字对生成所述第二个答复字的贡献度。
如权利要求12或13所述的方法，其中，所述答复输出部分配置为：

根据所述第三隐层向量，计算在预设字典中的每个字的概率分布；

选择在所述预设字典中概率最大的字作为所述第二个答复字进行输出。
一种对话生成设备，其中，所述设备包括接口电路、存储器以及处理器，其中，存储器中存储一组程序代码，且处理器配置为调用存储器中存储的程序代码，配置为执行以下步骤：

将第K轮询问句中的每个字转化为第一词向量，并根据所述第一词向量计算所述每个字的正向隐层向量和反向隐层向量，K为大于等于2的正整数；

获取所述第K轮询问句的内容主题，并将所述内容主题转化为第二词向量；

根据所述第二词向量、所述第K轮询问句中最后一个字的正向隐层向量、针对第K-1轮询问句输出的第K-1轮答复句中最后一个字的隐层向量、以及针对所述第K-1轮询问句输出的第K-1轮答复句的初始隐层向量，确定针对所述第K轮询问句输出的初始隐层向量；

根据所述第K轮询问句中每个字的所述正向隐层向量和所述反向隐层向量、以及所述针对所述第K轮询问句输出的初始隐层向量，生成针对所述第K轮询问句的答复句。
一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行权利要求1至7任一项提供的对话生成方法。