WO2021238599A1

WO2021238599A1 - 对话模型的训练方法、装置、计算机设备及存储介质

Info

Publication number: WO2021238599A1
Application number: PCT/CN2021/091954
Authority: WO
Inventors: 欧蛟; 张金超; 冯洋; 孟凡东
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-05-25
Filing date: 2021-05-06
Publication date: 2021-12-02
Also published as: CN111680123B; CN111680123A; US20220309088A1; JP2023508062A; JP7431977B2

Abstract

一种对话模型的训练方法、对话回复生成方法、装置、计算机设备及存储介质，属于人工智能技术领域。所述方法包括：获取第一对话的至少两个第一对话特征和至少两个第二对话特征；基于所述第一对话的至少两个第一对话特征和至少两个第二对话特征，更新对话模型；基于所述第一对话的至少两个第一对话特征，更新所述后验网络；根据第二对话的至少两个第一对话特征和至少两个第二对话特征，更新所述对话模型中的判别器；响应于满足训练结束条件，将训练得到的模型作为对话模型。上述技术方案，考虑了对话的不同语义，使得对话的回复包含多种语义，提高了通过对话模型生成的对话回复的多样性。

Description

对话模型的训练方法、装置、计算机设备及存储介质

本申请要求于2020年05月25日提交的申请号为2020104501940、发明名称为“对话模型的训练方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别涉及一种对话模型的训练方法、对话回复生成方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的不断发展，自然语言处理可以应用在更广阔的范围。例如，闲聊机器人、对话系统以及终端智能助手等人机交互场景。计算机设备可以根据用户在对话过程中输入的对话上文，来输出对应的对话回复。如何避免计算机设备输出的对话回复过于单调，是一个需要解决的问题。

发明内容

本申请实施例提供了一种对话模型的训练方法、对话回复生成方法、装置、计算机设备及存储介质，通过根据对话的对话特征，多次更新对话模型的参数，考虑了对话的不同语义，使得对话的回复包含多种语义，提高了通过对话模型生成的对话回复的多样性。所述技术方案如下：

一方面，提供了一种对话模型的训练方法，所述方法包括：

基于对话模型中的先验网络和后验网络，获取第一对话的至少两个第一对话特征和至少两个第二对话特征，所述先验网络用于输出对话特征的概率分布，所述后验网络用于估计所述先验网络所输出的对话特征的概率分布，所述第一对话特征用于表示一个对话中对话上文和一个对话回复的后验特征，所述第二对话特征用于表示一个对话中所述对话上文和一个对话回复的先验特征，所述第一对话包括一个第一对话上文和至少两个第一对话回复；

基于所述第一对话的至少两个第一对话特征和至少两个第二对话特征，更新所述对话模型；

基于所述第一对话的至少两个第一对话特征，更新所述后验网络；

根据第二对话的至少两个第一对话特征和至少两个第二对话特征，更新所述对话模型的判别器；

响应于满足训练结束条件，将训练得到的模型作为对话模型。

另一方面，提供了一种对话回复生成方法，所述方法包括：

获取对话上文；

将所述对话上文输入对话模型，基于所述对话模型中的先验网络，从多个对话回复对应的第二对话特征中随机抽取一个目标对话特征；

基于所述对话模型中的解码器对所述目标对话特征进行解码，输出目标对话回复；

展示所述目标对话回复。

另一方面，提供了一种对话模型的训练装置，所述装置包括：

特征获取模块，用于基于对话模型中的先验网络和后验网络，获取第一对话的至少两个第一对话特征和至少两个第二对话特征，所述先验网络用于输出对话特征的概率分布，所述后验网络用于估计所述先验网络所输出的对话特征的概率分布，所述第一对话特征用于表示一个对话中对话上文和一个对话回复的后验特征，所述第二对话特征用于表示一个对话中所述对话上文和一个对话回复的先验特征，所述第一对话包括一个第一对话上文和至少两个第一对话回复；

模型更新模块，用于基于所述第一对话的至少两个第一对话特征和至少两个第二对话特征，更新所述对话模型；

所述模型更新模块，还用于基于所述第一对话的至少两个第一对话特征，更新所述后验网络；

所述模型更新模块，还用于根据第二对话的至少两个第一对话特征和至少两个第二对话特征，更新所述对话模型的判别器；

模型获取模块，用于响应于满足训练结束条件，将训练得到的模型作为对话模型。

另一方面，提供了一种对话回复生成装置，所述装置包括：

对话获取模块，用于获取对话上文；

特征抽取模块，用于将所述对话上文输入对话模型，基于所述对话模型中的先验网络，从多个对话回复对应的第一对话特征中随机抽取一个目标对话特征；

回复输出模块，用于基于所述对话模型中的解码器对所述目标对话特征进行解码，输出目标对话回复；

回复展示模块，用于展示所述目标对话回复。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段程序代码，所述至少一段程序代码由所述处理器加载并执行以实现本申请实施例中的对话模型的训练方法中所执行的操作，或者执行以实现本申请实施例中的对话回复生成方法中所执行的操作。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一段程序代码，所述至少一段程序代码用于执行本申请实施例中的对话模型的训练方法，或者执行本申请实施例中的对话回复生成方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的一种对话模型的训练方法的实施环境示意图；

图2是本申请实施例提供的一种对话模型的训练方法的流程图；

图3是本申请实施例提供的一种对话回复生成方法的流程图；

图4是本申请实施例提供的一种对话模型的训练方法的流程图；

图5是根据本申请实施例提供的一种对话模型的结构示意图；

图6是根据本申请实施例提供的一种多语义WAE算法的流程示意图；

图7是根据本申请实施例提供的一种对话模型的训练装置的框图；

图8是根据本申请实施例提供的一种对话回复生成装置的框图；

图9是本申请实施例提供的一种终端的结构框图；

图10是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

下面简单介绍一下本申请实施例可能用到的技术：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提供了一种对话模型的训练方法，可以基于人工智能技术实现。该方法训练得到的对话模型，可以应用于人机交互的场景中。例如，聊天机器人、对话系统以及终端智能助手等。用户在与聊天机器人进行聊天时，聊天机器人可以将用户输入的内容作为对话上文输入对话模型中，由对话模型输出多个对话回复，然后向用户展示其中一个对话回复。同理，对话系统和终端智能助手也可以根据用户输入的内容，来输出符合用户需求的对话回复。

下面介绍一下对话模型的训练方法的实施环境，图1是根据本申请实施例提供的一种对话模型的训练方法的实施环境示意图。该实施环境可以包括：终端110和服务器120。

终端110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110可以安装和运行有支持人机交互的应用程序。该应用程序可以是聊天机器人类应用程序、社交类应用程序以及终端智能助手类应用程序等。示意性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账户。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器120用于为支持人机交互的应用程序提供后台服务。可选地，服务器120承担主要模型训练工作，终端110承担次要模型训练工作；或者，服务器120承担次要模型训练工作，终端110承担主要模型训练工作；或者，服务器120或终端110分别可以单独承担模型训练工作。

可选地，服务器120可以由接入服务器、模型训练服务器和数据库服务器构成。接入服务器用于提供终端110提供接入服务。模型训练服务器用于根据终端提供的已授权的对话数据进行模型训练。模型训练服务器可以是一台或多台。当模型训练服务器是多台时，存在至少两台模型训练服务器用于提供不同的服务，和/或，存在至少两台模型训练服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述对话模型的训练方法的实施例中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

在本申请实施例中，可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方法，本申请实施例对此不作限定。图2是本申请实施例提供的一种对话模型的训练方法的流程图。该实施例以执行主体为服务器为例进行说明，参见图2，该实施例包括：

201、服务器基于对话模型中的先验网络和后验网络，获取第一对话的至少两个第一对话特征和至少两个第二对话特征，该先验网络用于输出对话特征的概率分布，该后验网络用于估计该先验网络所输出的对话特征的概率分布，该第一对话特征用于表示一个对话中对话上文和一个对话回复的后验特征，该第二对话特征用于表示一个对话中该对话上文和一个对话回复的先验特征，该第一对话包括一个第一对话上文和至少两个第一对话回复。在步骤201 中，服务器获取第一对话的至少两个第一对话特征和至少两个第二对话特征，该第一对话特征和该第二对话特征分别用于表示第一对话上文和一个第一对话回复的后验特征和先验特征，一个对话上文对应于至少两个对话回复。

在本申请实施例中，服务器可以从多个对话中选取一个对话作为第一对话，该第一对话包括一个第一对话上文和该第一对话上文对应的至少两个第一对话回复。对于任一一组第一对话上文和第一对话回复，服务器可以通过先验网络和后验网络，分别获取对应先验特征和后验特征。

202、服务器基于该第一对话的至少两个第一对话特征和至少两个第二对话特征，更新对话模型。

在本申请实施例中，服务器可以获取第一对话的至少一个对话特征和至少两个第二对话特征。其中，第一对话中的第一对话上文和一个第一对话回复，可以得到一个第一对话特征和一个第二对话特征，根据该第一对话特征和第二对话特征对对话模型进行一次更新，更新对话模型中的先验网络和后验网络的参数。再根据第一对话中的第一对话上文和另一个第一对话回复，得到另一个第一对话特征和另一个第二对话特征，再对对话模型进行一次更新。对话模型更新的次数与第一对话中包含的第一对话回复的个数相同。

需要说明的是，该对话模型还可以包括编码器、解码器以及判别器，服务器在更新上述先验网络和后验网络的参数的同时，还会更新上述编码器、解码器以及判别器的参数。

203、服务器基于该第一对话的至少两个第一对话特征，更新该后验网络。

在本申请实施例中，服务器可以获取上述第一对话的至少两个第二对话特征，然后基于每个第二对话特征，更新一次后验网络的参数。

204、服务器根据第二对话的至少两个第一对话特征和至少两个第二对话特征，更新该对话模型的判别器。

其中，第二对话包括一个第二对话上文和至少两个第二对话回复。

在本申请实施例中，服务器从多个对话中选择至少一个对话作为第二对话，对于任一第二对话，服务器可以根据步骤201所描述的方式，获取该第二对话的至少两个第一对话特征和至少两个第二对话特征。对于根据任一个第二对话的第二对话上文和一个第二对话回复，可以得到一个第一对话特征和一个第二对话特征，基于该第一对话特征和第二对话特征，对判别器的参数进行一次更新。此时，判别器更新的次数为第二对话中包含的第二对话回复的个数。

需要说明的是，上述过程只是判别器的一次迭代过程，服务器可以获取判别器的迭代次数阈值，然后根据该迭代次数阈值进行多次迭代，达到迭代次数阈值则结束训练。

205、服务器响应于满足训练结束条件，将训练得到的模型作为对话模型。

在本申请实施例中，训练结束条件可以是达到预定的迭代次数，或者模型收敛，或者模型输出的结果符合目标条件，或者符合其他训练结束条件等，本申请实施例对此不进行限制。

在本申请实施例中，通过第一对话的多个对话特征，来多次更新对话模型，以及再次更新后验网络，再根据第二对话的多个对话特征，来更新对话模型的判别器，能够考虑到对话的不同语义，使得对话的回复包含多种语义，提高了对话模型的性能，也提高了通过对话模型生成的对话回复的多样性。

在本申请实施例中，可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方法，本申请实施例对此不作限定。图3是本申请实施例提供的一种对话回复生成方法的流程图。该实施例以执行主体为终端为例进行说明，参见图3，该实施例包括：

301、终端获取对话上文。

在本申请实施例中，该对话上文可以是终端用户输入的内容，例如文字、语音或者表情符号等。

302、终端将该对话上文输入对话模型，基于该对话模型中的先验网络，从多个对话回复对应的第二对话特征中随机抽取一个目标对话特征。

在本申请实施例中，终端可以设置有对话模型，将用户输入的内容作为对话上文，输入对话模型中，由该对话模型对输入的对话上文进行编码，将编码得到的特征输入对话模型中的先验网络，基于该先验网络从多个第一对话特征中随机抽取一个目标对话特征。由于是随机抽取，当终端再次输入该对话上文时，先验网络抽取的对话特征可能与上一次抽取的对话特征不同，从而对话模型输出的对话回复也就不同。

303、终端基于该对话模型中的解码器对该目标对话特征进行解码，输出目标对话回复。

在本申请实施例中，对话模型中的解码器可以对随机抽取得到的目标对话特征进行解码，得到目标对话回复。先验网络随机抽取得到的对话特征不同，则解码器解码得到的对话回复不同。

304、终端展示该目标对话回复。

在本申请实施例中，终端可以采取语音播放、文字显示或者展示对应表情符号的方式来对上述目标对话回复进行展示。

在本申请实施例中，通过采用随机抽取的方式，获取对话上文所对应的对话回复，使得同一对话上文若多次输入对话模型，可以得到不同的对话回复，从而提高了对话回复的多样性。

需要说明的是，在上述通过对话模型进行交互的过程中，终端通过自身配置的对话模型进行对话回复的获取和输出，而在一些实施例中，终端可以通过配置在服务器上的对话模型来进行对话回复的获取，并基于获取到的对话回复来输出，以达到人机对话的效果。

在本申请实施例中，可以由服务器或终端作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方法，本申请实施例对此不作限定。图4是本申请实施例提供的一种对话模型的训练方法的流程图。该实施例以服务器进行一次迭代为例进行说明，参见图4，该实施例包括：

401、服务器从多个对话中获取第一对话。

在本申请实施例中，服务器可以从多个对话中随机选择N个对话作为第一对话，其中N为正整数。对于任一第一对话，该第一对话包括一个第一对话上文以及与该第一对话上文对应的K个第一对话回复，其中K为大于等于2的正整数。不同第一对话包括的第一对话回复的数量可以相同，也可以不同。

例如，数据集中包括1000个对话，服务器从中随机选择10个对话作为第一对话，得到第一对话A、B、C、D、E、F、G、H、I和J，其中第一对话A对应5个第一对话回复a1、a2、a3、a4以及a5，第一对话B对应6个第一对话回复b1、b2、b3、b4、b5以及b6，第一对话C对应5个第一对话回复c1、c2、c3、c4、c5以及c6。在此不再一一列举。

402、服务器基于对话模型中的先验网络和后验网络，获取第一对话的至少两个第一对话特征和至少两个第二对话特征，该第一对话特征用于表示一个对话中对话上文和一个对话回复的后验特征，该第二对话特征用于表示一个对话中该对话上文和一个对话回复的先验特征，该第一对话包括一个第一对话上文和至少两个第一对话回复。

在本申请实施例中，一个第一对话中包括至少两个第一对话回复，则N个第一对话中至少包括2N个第一对话回复。对于任一第一对话回复，服务器可以对该第一对话回复以及对应的第一对话上文进行编码，然后将编码得到的向量表示分别输入到先验网络和后验网络，得到先验特征和后验特征，也即第二对话特征和第一对话特征。

以一个第一对话为例，对于该第一对话包括的每个第一对话回复，服务器可以基于后验网络和先验网络，获取一对第一对话特征和第二对话特征，也即是，一个第一对话特征和一个第二对话特征。相应的，服务器获取一个第一对话的至少两个第一对话特征和至少两个第二对话特征的步骤，可以通过以下子步骤4021至子步骤4023来实现。

4021、对于第一对话的任一第一对话回复，服务器基于该对话模型的编码器，对第一对话上文和该第一对话回复分别进行编码，得到该第一对话上文的第一向量和第一对话回复的第二向量。

在本申请实施例中，服务器将第一对话上文和该第一对话回复，分别输入对话模型的编码器，该编码器为基于双向门控循环单元神经网络构建。服务器根据该编码器，对上述第一对话上文和该第一对话回复分别进行编码，得到该第一对话上文的第一向量和该第一对话回复的第二向量。

需要说明的是，编码器通过双向门控循环单元神经网络对所有输入，如第一对话上文和第一对话回复，进行编码，编码得到的向量为固定长度的向量。例如，以对第一对话上文

进行编码得到第一向量c为例进行说明。第一向量c通过以下公式(1)至公式(4)计算得到。

其中，

表示第一对话上文

中左数第t个单词的向量表示，GRU()表示门控循环单元，

表示第一对话上文

中左数第t-1个单词的向量表示，

表示第一对话上文

中左数第t个单词对应的编码。

其中，

表示第一对话上文

中右数第t个单词的向量表示，GRU()表示门控循环单元，

表示第一对话上文

中右数第t+1个单词的向量表示，

表示第一对话上文

中右数第t个单词对应的编码。

其中，h _t表示第一对话上文

中左数第t个单词的向量表示和第一对话上文

中右数第t个单词的向量表示的拼接向量。

其中，c表示第一对话上文

中左数第T个单词的向量表示和第一对话上文

中右数第1个单词的向量表示的拼接向量，T表示第一对话上文

中包括的单词个数。

4022、服务器获取该第一对话的至少两个第一对话特征，该第一会话的该第一对话特征通过该后验网络对该第一对话上文的第一向量和该第一对话回复的第二向量进行处理得到。

在该步骤4022中，服务器基于后验网络，根据该第一对话上文的第一向量和第二向量，获取第一对话特征。

在本申请实施例中，后验网络用于基于对话上文和对话回复，来学习对话的对话特征的分布，根据回复信息可以使得训练得到的对话模型中对话特征的分布更准确。后验网络输出的对话特征的概率分布称为后验分布，该后验分布用于估计先验分布，也即先验网络所输出的对话特征的概率分布。

在一种可选的实现方式中，假设当前需要重构的对话回复为第一对话回复，后验分布服从正态分布。相应的，服务器基于后验网络，根据该第一向量和第二向量，获取第一对话特征的步骤可以为：服务器可以基于后验网络，根据第一对话上文的第一向量和第一对话回复的第二向量，获取后验分布的第一参数均值和第一参数方差。服务器可以根据该第一参数均值、第一参数方差以及第一采样值，获取第一对话特征。其中，第一采样值为从标准正态分布中采样得到的值，也即是采样点的值。由于通过标准正态分布上采样得到的值，来获取第一对话特征，使得在训练过程中，基于该第一对话特征由解码器重构出对话回复，并基于重构出的对话回复与第一对话回复之间的差别，来调整对话模型的参数，使该第一对话特征与第一对话回复的差别较小，从而可以用第一对话特征来表示第一对话回复。

需要说明的是，服务器基于后验网络，获取第一对话特征时，通过以下公式(5)和公式(6)来计算得到。

其中，μ _k表示第一参数均值，σ _k表示第一参数方差，W表示可变参数，g _φ()表示后验网络，x _k表示第一对话回复的第二向量，c表示第一对话上文的第一向量，b表示偏置参数。

其中，z _k表示第一对话特征，μ _k表示第一参数均值，σ _k表示第一参数方差，∈表示第一采样值，

表示∈服从标准正态分布。

4023、服务器可以基于先验网络，根据该第一向量和该第一对话回复所属的回复类别，获取第二对话特征，该回复类别包括与该第一对话回复属于相同类别的至少一个其他对话回复。

在本申请实施例中，先验网络用于表示真实的对话特征的概率分布，由后验分布估计得出。在通过后验分布估计先验分布时，从先验分布中选择一个子分布，去匹配后验分布。为了能够精确的匹配后验分布和先验分布，可以对一个对话上文对应的至少两个对话回复进行聚类，得到多个回复类别。然后在获取第二对话特征时，根据第一对话回复所属的回复类别，来选择先验分布中的子分布。

在一种可选的实现方式中，假设先验分布服从混合高斯，服务器根据第一对话回复所属的回复类别，来选择子分布，然后从该子分布上采样得到第二对话特征。相应的，服务器基于先验网络，根据该第一向量和该第一对话回复所属的回复类别，获取第二对话特征的步骤可以为：服务器可以根据第一向量和第一对话回复所属的回复类别，确定目标概率分布，该目标概率分布为先验网络所输出的对话特征的概率分布中该回复类别对应的概率分布，也即用于与后验分布进行匹配的子分布。服务器可以基于先验网络，根据第一向量，获取第二参数均值和第二参数方差。服务器可以根据第二参数均值、第二参数方差以及第二采样值，获取第二对话特征。其中，该第二采样值为从目标概率分布中采样得到的值，也即是，采样点的值。由于通过混合高斯分布中的子分布上的采样值，来获取第二对话特征，使得在训练过程中，基于编码器，根据该第二对话特征与第一对话特征，获取先验分布和后验分布之间的Wasserstein(瓦瑟斯坦)距离，从而精确的匹配先验分布和后验分布。

需要说明的是，服务器基于先验网络，获取第二对话特征时，可以通过以下公式(7)至公式(9)来计算能得到。

其中，

表示第二对话特征，

表示第二对话特征服从先验分布，j表示回复类别的标识，J表示回复类别的总数，π _j表示子分布选择参数，r _k表示第k个对话回复，

表示先验分布。

其中，

表示回复类别j对应的目标概率分布的第二参数均值，

表示回复类别j对应的目标概率分布的第二参数方差，

表示回复类别j对应的目标概率分布的可变参数，f _θ()表示先验网络，c表示第一对话上文的第一向量，

表示回复类别j对应的目标概率分布的偏置参数。

其中，

表示第二对话特征，

表示回复类别j对应的目标概率分布的第二参数均值，

表示回复类别j对应的目标概率分布的第二参数方差，

表示第二采样值，

表示

服从标准正态分布。

需要说明的是，对于任一第一对话，根据该第一对话包括至少两个对话回复，可以得到至少两个后验分布，从每个后验分布上可以采样得到一个第一对话特征z _k。根据该第一对话包括的对话上文，可以得到一个先验分布，该先验分布包括至少两个子分布，从每个子分布上可以采样得到一个第二对话特征

也即针对于同一个第一对话，得到的至少两个第二对话特征

来自于同一个先验分布。

403、服务器基于该第一对话的至少两个第一对话特征和至少两个第二对话特征，更新对话模型。

在本申请实施例中，对于任一第一对话回复，服务器可以获取该第一对话回复对应的第一对话特征和第二对话特征。服务器可以根据第一对话上文编码得到的第一向量、该第一对话回复对应的第一对话特征和第二对话特征，获取判别器损失和重构损失。然后，服务器可以根据该判别器损失，更新对话模型中后验网络和先验网络的参数，根据该重构损失，更新对话模型中编码器、后验网络、先验网络以及解码器的参数。最后，服务器可以根据判别器损失，更新对话模型的判别器的参数。

需要说明的是，判别器的损失通过对抗式网络优化后验分布与先验分布之间的Wasserstein(瓦瑟斯坦)距离来获得。服务器基于对话模型的判别器，根据第一对话上文的第一向量、该第一对话回复对应的第一对话特征和第二对话特征，获取第一对话特征和第二对话特征之间的第一瓦瑟斯坦距离，将该第一瓦斯斯坦距离作为判别器损失。相应的，判别器损失可以通过公式(10)计算得到。

其中，

表示判别器损失，

表示第一对话特征z _k的数学期望，D() 表示判别器，z _k表示第一对话特征，c表示第一对话上文的第一向量，

表示第二对话特征

的数学期望，

表示第二对话特征。

相应的，服务器根据判别器损失，更新对话模型中先验网络的参数时，可以通过公式(11)计算得到。

其中，θ _P-net表示先验网络的参数，lr表示对话模型的学习率，

表示求导，

表示判别器损失。

相应的，服务器根据判别器损失，更新对话模型中后验网络的参数，该后验模型的参数通过公式(12)计算得到。

其中，θ _R-net表示后验网络的参数，lr表示对话模型的学习率，

表示求导，

表示判别器损失。

需要说明的是，重构损失可以根据后验分布上采样得到的第一对话特征，基于解码器对该第一对话特征进行解码，以重构对话回复，基于重构的对话回复与第一对话回复之间的误差确定重构损失。服务器可以基于对话模型中的解码器，对第一对话特征进行解码，获取解码得到的目标对话回复对应的目标对话特征。服务器可以根据第一向量、第一对话特征、第二对话特征和目标对话特征，获取重构损失。相应的，重构损失可以通过公式(13)计算得到。

其中，

表示重构损失，

表示从后验分布中无限次采样得到的第一对话特征z _k，以使得重构的目标对话特征的概率整体足够大的数学期望，p _ψ()表示解码器，x _k表示目标对话特征。

相应的，服务器更新对话模型中编码器、后验网络、先验网络以及解码器的参数时，可以通过公式(14)来计算得到。

其中，θ _net表示net的参数，lr表示对话模型的学习率，

表示重构损失s.t.net∈{Enc，P-net，R-net，Dec}表示net是Enc、P-net、R-net以及Dec中的一个，Enc表示编码器，P-net表示先验网络，R-net表示后验网络，Dec表示解码器。

相应的，服务器根据判别器损失，更新对话模型中判别器的参数时，判别器的参数可以通过公式(15)计算得到。

其中，θ _Disc表示判别器的参数，lr表示对话模型的学习率，

表示求导，

表示判别器损失。

404、服务器基于该第一对话的至少两个第一对话特征，更新该后验网络。

在本申请实施例中，服务器通过上述步骤可以得到至少两个第一对话特征，也即后验特征，为了使对话模型最终学习到的先验分布是可区分的多语义分布，服务器可以基于语义距离的优化目标来控制对话上文对应的后验分布之间的语义距离。

在一种可选的实现方式中，服务器可以通过使用最大均值差异，来最大化一个第一对话特征和其他第一对话特征的平均值之间的Wasserstein距离。相应的，服务器基于该第一对话的至少两个第一对话特征，更新该后验网络的步骤可以为：对于任一第一对话特征，服务器可以获取该至少两个第一对话特征中除该第一对话特征外其他第一对话特征的平均值，将该平均值作为平均对话特征。服务器可以获取该第一对话特征与平均对话特征之间的第二瓦瑟斯坦距离，将该第二瓦瑟斯坦距离作为语义损失。服务器可以根据该语义损失，更新后验网络的参数。由于控制了后验分布之间的语义距离，使得先验分布是可区分的多语义分布。

需要说明的是，服务器在获取该至少两个第一对话特征中除该第一对话特征外其他第一对话特征的平均值时，可以通过以下公式(16)计算得到。

其中，

表示平均对话特征，K表示第一对话特征的数量，z _i表示第i个第一对话特征，

表示i属于集合

集合

中不包括K个第一对话特征中的z _k。

相应的，服务器通过以下公式(17)来计算语义损失。

其中，

表示语义损失，z _k表示第一对话特征，

表示平均对话特征，GKF()表示高斯核函数，

表示从后验分布上采样不同的第一对话特征z _k之间的距离足够小的数学期望，

表示从后验分布上采样的第一对话特征z _k与其他后验分布的平均对话特征

距离足够大的数学期望，

表示其他后验分布的平均对话特征

之间的距离足够小的数学期望。

相应的，服务器根据该语义损失，更新后验网络的参数时，后验网络的参数通过以下公式(18)来计算得到。

表示求导，

表示语义损失。

405、服务器根据第二对话的至少两个第一对话特征和至少两个第二对话特征，更新该对话模型的判别器，第二对话包括一个第二对话上文和至少两个第二对话回复。

在本申请实施例中，服务器可以设置判别器的更新次数，每次更新判别器时，服务器从多个对话中选择至少一个对话作为第二对话，然后获取第二对话的至少两个第一对话特征和至少两个第二对话特征，可以参见步骤402，在此不再赘述。对于任一第二对话的第二对话回复，服务器可以根据该第二对话回复对应的第一对话特征和第二对话特征，获取判别器损失，具体可以参见步骤403，在此不再赘述。服务器可以根据该判别器损失，更新对话模型中的判别器。服务器更新对话模型中的判别器的参数时，可以参见上述公式(15)，在此不再赘述。

需要说明的是，上述步骤401至步骤405是本申请实施例提供的对话模型的训练方法的一次迭代过程，服务器重复上述步骤，直至满足训练结束条件。

在本申请实施例中，通过第一对话的多个对话特征来多次更新对话模型，以及再次更新后验网络，再根据第二对话的多个对话特征，来更新对话模型中的判别器，在训练过程中，考虑了对话的不同语义，使得对话的回复包含多种语义，提高了通过对话模型生成的对话回复的多样性。

图5是根据本申请实施例提供的一种对话模型的结构示意图，如图5所示，左侧示意性示出了一个第一对话，该第一对话包括一个第一对话上文和K个第一对话回复。将该第一对话输入编码器可以得到第一对话上文的第一向量和第一对话回复的第二向量。将第一向量输入先验网络可以得到先验分布，从先验分布的各子分布上可以采样得到多个第二对话特征。将第二向量分别输入后验网络可以得到后验分布，从一个后验分布上可以采样得到一个第一对话特征，第k个第一对话回复对应的第一对话特征为z _k，其他第一对话特征的平均值为

解码器对第一对话特征为z _k进行解码，得到重构的对话回复，重构的对话回复与第一对话回复越相似越好。

下面介绍一下本申请实施例在训练上述对话模型时用到的多语义WAE(WassersteinAuto-Encoder，Wasserstein自动编码器)算法。

/*Enc：Encoder(编码器)；R-net：PosteriorNetwork(后验网络)；

P-net：PriorNetwork(先验网络)；Disc：Discriminator(判别器)；

Dec：Decoder(解码器)*/

Input：文集

回复簇的数量K，判别器迭代次数n _critic，模型迭代次数max-step。

为了使上述多语义WAE算法所描述的步骤更清晰，参见图6所示，图6是根据本申请实施例提供的一种多语义WAE算法的流程示意图。该WAE算法的输入为多个对话，步骤1为初始化编码器参数；步骤2模型迭代判定条件；步骤3为获取至少一个第一对话；步骤4为基于第一对话中的第一对话回复，进行迭代判定；步骤5为对第一对话上文和第一对话回复进行编码；步骤6为根据后验网络，得到第一对话特征；步骤7为根据先验网络，得到第二对话特征；步骤8为根据判别器损失，更新先验网络；步骤9为根据判别器损失，更新后验网络；步骤10为根据重构损失，更新编码器、后验网络、先验网络以及解码器；步骤11为根据判别器损失更新判别器；步骤12为基于第一对话回复的迭代结束；步骤13为基于第一对话特征，进行迭代判定；步骤14为根据语义损失，更新后验网络。步骤15为基于第一对话特征的迭代结束；步骤16为基于判别器更新次数，进行迭代判定；步骤17为获取至少一个第二对话；步骤18为基于第二对话中的第二对话回复，进行迭代判定；步骤19为重复上述步骤5至步骤7；步骤20为根据判别器损失更新判别器；步骤21为基于第二对话回复的迭代结束；步骤22为判别器更新次数加1；步骤23为基于判别器更新次数的迭代结束；步骤24为模型迭代次数加1；步骤25为模型迭代结束。

需要说明的是，上述WAE算法中可输入的文集

可以通过下述算法得到。

Input：对话数据集

待选数量M，阈值τ。

需要说明的是，为了验证本申请实施例提供的对话模型的训练方法训练得到的对话模型，具有良好的效果，本申请实施例还设计了实验进行验证。实验通过两个公共会话数据集进行评估。一个数据集是Douban(出自Yu Wu,Furu Wei,Shaohan Huang,Yunli Wang,Zhoujun Li,and Ming Zhou在2019年发表的《Response generationby context-aware prototype editing》，发表于Proceedingsof the AAAI Conference on Artificial Intelligence，第33卷，7281-7288页)。另一个是DailyDialg(出自Yanran Li,Hui Su,Xiaoyu Shen,Wenjie Li,ZiqiangCao,and ShuziNiu在2017年发表的《DailyDialog:A manually labelled multi-turn dialogue dataset》，发表于Proceedings of the Eighth International Joint Conference onNatural Language Processing(Volume 1:Long Papers)，第986-995页)。数据集中样本数量的统计汇总可以参见表1所示。需要说明的是，在Douban和DailyDialog对话数据集的词汇量分别为20,000和10,000。

表1

数据集	train	valid	vest
Douban	894,721	15,000	15,000
DailyDialog	68,096	6,895	6,695

下面介绍一下实验中用于对比的其他方法。在实验时，将本申请实施例提供的MS-WAE(Multi-Semanticwasserstein autoencoder，多语义瓦瑟斯坦自动编码)方法与Bahdanau等人于 2015年提出的Seq2Seq-attn(The standard Seq2Seq architecture with attention mechanism，带有注意力机制的标准Seq2Seq架构)方法，Gao等人于2019年提出的DCVAE(A discrete CVAE forresponse generation on short-text conversation，用于短文本对话产生响应的离散CVAE(Conditional AutoEncoder，有条件的自动编码))方法，Chen等人于2019年提出的MMPMS(Generating multiple diverse responses with multi-mapping and posterior mappingselection，通过多映射和后验映射选择产生多种多样的响应)方法，以及Gu等人于2018年提出的DialogWAE(Multimodal response generation with conditional wasserstein autoencoder，使用条件瓦瑟斯坦自动编码器生成多模态响应)方法。

下面介绍一下实验的评价标准。在实验时，通过BLUE(一种机器翻译的自动评价方法)、BOWEmbedding(bagofwordsEmbedding，词袋模型嵌入)、intra-dist(内在差异)，以及inter-dist(外在差异)者四个大的方面来进行评价。其中，BLUE包括Recall(召回率)、Precision(精确度)以及F1(F1-Score，F1分数)。BOWEmbedding包括Average(平均值)、Extrema(极值)以及Greedy(贪婪值)。intra-dist包括dist-1和dist-2，inter-dist包括dist-1和dist-2。

实验结果可以参见表2所示。

表2

表2表2中带有+号的数字表示超过最佳基本阈值的数值，具有统计学意义。表2中的数据表明，本申请提出的MA-WAE方法显著提高了多样性并保持了相关性。

另外，本申请还设计了人工评判实验。实验过程中招募了5名参与人员，分别从Informativeness(信息性，衡量一个对话回复是否提供有意义的信息)、Appropriateness(恰当性，衡量一个对话回复是否符合逻辑)以及Semantic Diversity(语义多样性)。评分分值为0-2，0表示最差，2表示最好。

人工评判实验结果可以参见表3所示。

表3

表3中示出了所有方法的平均值±标准差，结果表明，在语义多样性方面，MS-WAE在两个数据集上都大大优于其他数据集，超过了基线。

图7是根据本申请实施例提供的一种对话模型的训练装置的框图。该装置用于执行上述对话模型的训练方法执行时的步骤，参见图7，装置包括：特征获取模块701、模型更新模块702以及模型获取模块703。

特征获取模块701，用于获取第一对话的至少两个第一对话特征和至少两个第二对话特征，该第一对话特征和该第二对话特征分别用于表示第一对话上文和一个第一对话回复的后验特征和先验特征，一个对话上文对应于至少两个对话回复；可选地，特征获取模块701，用于基于对话模型中的先验网络和后验网络，获取第一对话的至少两个第一对话特征和至少两个第二对话特征，该先验网络用于输出对话特征的概率分布，该后验网络用于估计该先验网络所输出的对话特征的概率分布，该第一对话特征用于表示一个对话中对话上文和一个对话回复的后验特征，该第二对话特征用于表示一个对话中该对话上文和一个对话回复的先验特征，该第一对话包括一个第一对话上文和至少两个第一对话回复。

模型更新模块702，用于基于该第一对话的至少两个第一对话特征和至少两个第二对话特征，更新对话模型，该对话模型中包括先验网络和后验网络，该后验网络用于估计该先验网络所输出的对话特征的概率分布；

该模型更新模块702，还用于基于该第一对话的至少两个第一对话特征，更新该后验网络；

该模型更新模块702，还用于根据第二对话的至少两个第一对话特征和至少两个第二对话特征，更新该对话模型的判别器；该第二对话包括第二对话上文和至少两个第二对话回复。

模型获取模块703，用于响应于满足训练结束条件，将训练得到的模型作为对话模型。

在一种可选的实现方式中，该特征获取模块701，用于对于任一第一对话回复，基于该对话模型，对该第一对话上文和该第一对话回复分别进行编码，得到该第一对话上文的第一向量和该第一对话回复的第二向量；基于该后验网络，根据该第一向量和该第二向量，获取第一对话特征；基于该先验网络，根据该第一向量和该第一对话回复所属的回复类别，获取第二对话特征，该回复类别包括与该第一对话回复属于相同类别的至少一个其他对话回复。

在一种可选的实现方式中，该特征获取模块701，用于对于该第一对话的任一该第一对话回复，基于该对话模型的编码器，对该第一对话上文和该第一对话回复分别进行编码，得到该第一对话上文的第一向量和该第一对话回复的第二向量；获取该第一对话的至少两个第一对话特征，该第一会话的该第一对话特征通过该后验网络对该第一对话上文的第一向量和该第一对话回复的第二向量进行处理得到；获取该第一对话的至少两个第二对话特征，该第一会话的该第二对话特征通过该先验网络对该第一对话上文的第一向量和该第一对话回复所属的回复类别进行处理得到。

在一种可选的实现方式中，该特征获取模块701，用于将该第一对话上文和该第一对话回复分别输入该对话模型的编码器，该编码器为基于双向门控循环单元神经网络构建；根据该编码器，对该第一对话上文和该第一对话回复分别进行编码，得到该第一对话上文的第一向量和该第一对话回复的第二向量。

在一种可选的实现方式中，该特征获取模块701，还用于基于该后验网络，根据该第一向量和该第二向量，获取第一参数均值和第一参数方差；根据该第一参数均值、该第一参数方差以及第一采样值，获取第一对话特征，该第一采样值为从标准正态分布中获取的采样点的值。

在一种可选的实现方式中，该特征获取模块701，用于将该第一向量和该第二向量输入该后验网络，输出第一参数均值和第一参数方差；根据该第一参数均值、该第一参数方差以及第一采样值，获取第一对话特征，该第一采样值为对标准正态分布采样得到。

在一种可选的实现方式中，该特征获取模块701，用于根据该第一向量和该第一对话回复所属的回复类别，确定目标概率分布，该目标概率分布为该先验网络所输出的对话特征的概率分布中该回复类别对应的概率分布；基于该先验网络，根据该第一向量，获取第二参数均值和第二参数方差；根据该第二参数均值、该第二参数方差以及第二采样值，获取第二对话特征，该第二采样值为从该目标概率分布中获取的采样点的值。

在一种可选的实现方式中，该特征获取模块701，用于根据该第一向量和该第一对话回复所属的回复类别，确定目标概率分布，该目标概率分布为该先验网络所输出的概率分布中该回复类别对应的概率分布；将该第一向量输入该先验网络，得到第二参数均值和第二参数方差；根据该第二参数均值、该第二参数方差以及第二采样值，获取第二对话特征，该第二采样值为对该目标概率分布采样得到。

在一种可选的实现方式中，该模型更新模块702，用于对于该第一会话的任一第一对话回复，获取该第一对话回复对应的第一对话特征和第二对话特征；根据第一向量、该第一对话回复对应的第一对话特征和第二对话特征，获取判别器损失，该第一向量基于该第一对话上文编码得到；根据该第一向量、该第一对话回复对应的第一对话特征和第二对话特征，获取重构损失；根据该判别器损失，更新该对话模型中后验网络和先验网络的参数；根据该重构损失，更新该对话模型中编码器、该后验网络、该先验网络以及解码器的参数；根据该判别器损失，更新该对话模型中判别器的参数。

在一种可选的实现方式中，该模型更新模块702，用于基于该对话模型的判别器，根据该第一对话上文的第一向量、该第一对话回复对应的第一对话特征和第二对话特征，获取该第一对话回复对应的第一对话特征和第二对话特征之间的第一瓦瑟斯坦距离，将该第一瓦斯斯坦距离作为判别器损失。

在一种可选的实现方式中，该模型更新模块702，用于基于该对话模型中的解码器，对该第一对话特征进行解码，获取目标对话特征；根据该第一向量、该该第一对话回复对应的第一对话特征和第二对话特征、该目标对话特征，获取重构损失。

在一种可选的实现方式中，该模型更新模块702，还用于对于第一对话的任一第一对话特征，获取该至少两个第一对话特征中除该第一对话特征外其他第一对话特征的平均值，将该平均值作为平均对话特征；获取该第一对话特征与该平均对话特征之间的第二瓦瑟斯坦距离，将该第二瓦瑟斯坦距离作为语义损失；根据该语义损失，更新该后验网络的参数。

在本申请实施例中，通过第一对话的多个对话特征来多次更新对话模型，以及再次更新后验网络，再根据第二对话的多个对话特征来更新对话模型中的判别器。使得根据对话的对话特征，多次更新对话模型的参数，考虑了对话的不同语义，使得对话的回复包含多种语义，提高了通过对话模型生成的对话回复的多样性。

需要说明的是：上述实施例提供的对话模型的训练装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的对话模型的训练装置与对话模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是根据本申请实施例提供的一种对话回复生成装置的框图。该装置用于执行上述对话回复生成方法执行时的步骤，参见图8，装置包括：对话获取模块801、特征抽取模块802、回复输出模块803以及回复展示模块804。

对话获取模块801，用于获取对话上文；

特征抽取模块802，用于将该对话上文输入对话模型，基于该对话模型中的先验网络，从多个对话回复对应的第一对话特征中随机抽取一个目标对话特征；

回复输出模块803，用于基于该对话模型中的解码器对该目标对话特征进行解码，输出目标对话回复；

回复展示模块804，用于展示该目标对话回复。

在本申请实施例中，通过采用随机抽取的方式获取对话上文所对应的对话回复，使得同一对话上文在多次输入时，可以得到不同的对话回复，从而提高了对话回复的多样性。

需要说明的是：上述实施例提供的对话回复生成装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的对话回复生成装置与对话回复生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备可被配置为终端或者服务器，当计算机设备被配置为终端时，可以由终端作为执行主体来实施本申请实施例提供的技术方案，当计算机设备被配置为服务器时，可以由服务器作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方法，本申请实施例对此不作限定。

计算机设备被配置为终端时，图9是本申请实施例提供的一种终端900的结构框图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的对话模型的训练方法，或者对话回复生成方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件908可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

计算机设备被配置为服务器时，图10是根据本申请实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1001和一个或一个以上的存储器1002，其中，该存储器1002中存储有至少一条指令，该至少一条指令由该处理器1001加载并执行以实现上述各个方法实施例提供的对话模型的训练方法或者对话回复生成方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质应用于计算机设备，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码用于被处理器执行并实现本申请实施例中的对话模型的训练方法或者对话回复生成方法中计算机设备所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种对话模型的训练方法，其特征在于，所述方法包括：

基于对话模型中的先验网络和后验网络，获取第一对话的至少两个第一对话特征和至少两个第二对话特征，所述先验网络用于输出对话特征的概率分布，所述后验网络用于估计所述先验网络所输出的对话特征的概率分布，所述第一对话特征用于表示一个对话中对话上文和一个对话回复的后验特征，所述第二对话特征用于表示一个对话中所述对话上文和一个对话回复的先验特征，所述第一对话包括一个第一对话上文和至少两个第一对话回复；

基于所述第一对话的至少两个第一对话特征和至少两个第二对话特征，更新所述对话模型；

基于所述第一对话的至少两个第一对话特征，更新所述后验网络；

根据第二对话的至少两个第一对话特征和至少两个第二对话特征，更新所述对话模型的判别器；

响应于满足训练结束条件，将训练得到的模型作为对话模型。
根据权利要求1所述的方法，其特征在于，所述基于对话模型中的先验网络和后验网络，获取第一对话的至少两个第一对话特征和至少两个第二对话特征，包括：

对于所述第一对话的任一所述第一对话回复，基于所述对话模型的编码器，对所述第一对话上文和所述第一对话回复分别进行编码，得到所述第一对话上文的第一向量和所述第一对话回复的第二向量；

获取所述第一对话的至少两个第一对话特征，所述第一会话的所述第一对话特征通过所述后验网络对所述第一对话上文的第一向量和所述第一对话回复的第二向量进行处理得到；

获取所述第一对话的至少两个第二对话特征，所述第一会话的所述第二对话特征通过所述先验网络对所述第一对话上文的第一向量和所述第一对话回复所属的回复类别进行处理得到。
根据权利要求2所述的方法，其特征在于，所述获取所述第一对话的至少两个第一对话特征包括：

将所述第一向量和所述第二向量输入所述后验网络，输出第一参数均值和第一参数方差；

根据所述第一参数均值、所述第一参数方差以及第一采样值，获取第一对话特征，所述第一采样值为对标准正态分布采样得到。
根据权利要求2所述的方法，其特征在于，所述获取所述第一对话的至少两个第二对话特征，包括：

根据所述第一向量和所述第一对话回复所属的回复类别，确定目标概率分布，所述目标概率分布为所述先验网络所输出的概率分布中所述回复类别对应的概率分布；

将所述第一向量输入所述先验网络，得到第二参数均值和第二参数方差；

根据所述第二参数均值、所述第二参数方差以及第二采样值，获取第二对话特征，所述第二采样值为对所述目标概率分布采样得到。
根据权利要求1所述的方法，其特征在于，所述基于所述第一对话的至少两个第一对话特征和至少两个第二对话特征，更新所述对话模型，包括：

对于所述第一会话的任一所述第一对话回复，获取所述第一对话回复对应的第一对话特征和第二对话特征；

根据第一向量、所述第一对话回复对应的第一对话特征和第二对话特征，获取判别器损失，所述第一向量基于所述第一对话上文编码得到；

根据所述第一向量、所述第一对话回复对应的第一对话特征和第二对话特征，获取重构损失；

根据所述判别器损失，更新所述对话模型中后验网络和先验网络的参数；

根据所述重构损失，更新所述对话模型中编码器、所述后验网络、所述先验网络以及解码器的参数；

根据所述判别器损失，更新所述对话模型的判别器的参数。
根据权利要求5所述的方法，其特征在于，所述根据第一向量、所述第一对话回复对应的第一对话特征和第二对话特征，获取判别器损失，包括：

基于所述对话模型的判别器，根据所述第一对话上文的第一向量、所述第一对话回复对应的第一对话特征和第二对话特征，获取所述第一对话回复对应的第一对话特征和第二对话特征之间的第一瓦瑟斯坦距离，将所述第一瓦斯斯坦距离作为判别器损失。
根据权利要求5所述的方法，其特征在于，所述根据第一向量、所述第一对话回复对应的第一对话特征和第二对话特征，获取重构损失，包括：

基于所述对话模型中的解码器，对所述第一对话特征进行解码，获取目标对话特征；

根据所述第一向量、所述所述第一对话回复对应的第一对话特征和第二对话特征、所述目标对话特征，获取重构损失。
根据权利要求1所述的方法，其特征在于，所述基于所述第一对话的至少两个第一对话特征，更新所述所述后验网络，包括：

对于所述第一对话的任一第一对话特征，获取所述至少两个第一对话特征中除所述第一对话特征外其他第一对话特征的平均值，将所述平均值作为平均对话特征；

获取所述第一对话特征与所述平均对话特征之间的第二瓦瑟斯坦距离，将所述第二瓦瑟斯坦距离作为语义损失；

根据所述语义损失，更新所述后验网络的参数。
一种对话回复生成方法，其特征在于，所述方法包括：

获取对话上文；

将所述对话上文输入对话模型，基于所述对话模型中的先验网络，从多个对话回复对应的第二对话特征中随机抽取一个目标对话特征；

基于所述对话模型中的解码器对所述目标对话特征进行解码，输出目标对话回复；

展示所述目标对话回复。
一种对话模型的训练装置，其特征在于，所述装置包括：

特征获取模块，用于基于对话模型中的先验网络和后验网络，获取第一对话的至少两个第一对话特征和至少两个第二对话特征，所述先验网络用于输出对话特征的概率分布，所述后验网络用于估计所述先验网络所输出的对话特征的概率分布，所述第一对话特征用于表示一个对话中对话上文和一个对话回复的后验特征，所述第二对话特征用于表示一个对话中所述对话上文和一个对话回复的先验特征，所述第一对话包括一个第一对话上文和至少两个第一对话回复；

模型更新模块，用于基于所述第一对话的至少两个第一对话特征和至少两个第二对话特征，更新所述对话模型；

所述模型更新模块，还用于基于所述第一对话的至少两个第一对话特征，更新所述后验网络；

所述模型更新模块，还用于根据第二对话的至少两个第一对话特征和至少两个第二对话特征，更新所述对话模型的判别器；

模型获取模块，用于响应于满足训练结束条件，将训练得到的模型作为对话模型。
根据权利要求10所述的装置，其特征在于，所述特征获取模块，用于对于所述第一对话的任一所述第一对话回复，基于所述对话模型的编码器，对所述第一对话上文和所述第一对话回复分别进行编码，得到所述第一对话上文的第一向量和所述第一对话回复的第二向量；

获取所述第一对话的至少两个第一对话特征，所述第一会话的所述第一对话特征通过所述后验网络对所述第一向量和所述第二向量进行处理得到；

获取所述第一对话的至少两个第二对话特征，所述第一会话的所述第二对话特征通过所述先验网络对所述第一向量和所述第一对话回复所属的回复类别进行处理得到。
一种对话回复生成装置，其特征在于，所述装置包括：

对话获取模块，用于获取对话上文；

特征抽取模块，用于将所述对话上文输入对话模型，基于所述对话模型中的先验网络，从多个对话回复对应的第一对话特征中随机抽取一个目标对话特征；

回复输出模块，用于基于所述对话模型中的解码器对所述目标对话特征进行解码，输出目标对话回复；

回复展示模块，用于展示所述目标对话回复。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段程序代码，所述至少一段程序代码由所述处理器加载并执行权利要求1至8所述的对话模型的训练方法，或者执行权利要求9所述的对话回复生成方法。
一种存储介质，其特征在于，所述存储介质用于存储至少一段程序代码，所述至少一段程序代码用于执行权利要求1至8任一权利要求所述的对话模型的训练方法，或者执行权利要求9所述的对话回复生成方法。