WO2020228636A1

WO2020228636A1 - 训练方法和装置、对话处理方法和系统及介质

Info

Publication number: WO2020228636A1
Application number: PCT/CN2020/089394
Authority: WO
Inventors: 朱红文; 周莉; 代亚菲; 陈雪; 邹声鹏; 宋伊萍; 张铭; 张子涵; 琚玮
Original assignee: 京东方科技集团股份有限公司; 北京大学
Priority date: 2019-05-10
Filing date: 2020-05-09
Publication date: 2020-11-19
Also published as: CN111914069A; US20220092441A1

Abstract

一种强化学习模型训练方法和装置、对话处理方法和对话系统及计算机可读存储介质。其中，所述强化学习模型的训练方法，包括：获取用于训练所述强化学习模型的未标注数据和标注数据；基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；利用所述经验池训练所述强化学习模型。

Description

训练方法和装置、对话处理方法和系统及介质

相关申请的交叉引用

本申请要求于2019年5月10日提交的中国专利申请第201910390546.5的优先权，该中国专利申请的全文通过引用的方式结合于此以作为本申请的一部分。

技术领域

本公开涉及机器学习领域，更具体地涉及强化学习模型训练方法和装置、对话处理方法和对话系统及计算机可读存储介质。

背景技术

强化学习(Reinforcement Learning)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。强化学习是指智能体(Agent)以“试错”的方式进行学习，通过与环境(Environment)进行交互获得的奖励分数来指导行为，其目标是使得智能体选择的行为能够获得环境最大的奖励分数。

对话系统(Dialog System,或Conversation Agent)是一种旨在与人进行连贯交流的计算机系统，可以包括具有用于访问、处理、管理和传递信息的人机接口的基于计算机的代理。对话系统可以基于强化学习模型而实现。然而，在基于强化学习模型的对话系统的构建过程中，往往需要获取大量的标注数据，以提高对话系统的精度，这些所需的标注数据通常较为昂贵并且难以获取，从而影响了强化学习模型的训练和构建，也限制了对话系统在各领域的进一步应用。

发明内容

根据本公开的一个方面，提供了一种强化学习模型的训练方法，包括：获取用于训练所述强化学习模型的未标注数据和标注数据；基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；利用所述经验池训练所述强化学习模型。

根据本公开的另一方面，提供了一种对话处理方法，包括：获取对话信息；基于强化学习模型生成回复信息；基于所述回复信息对所述对话信息进行响应；其中，所述强化学习模型是通过如下方法训练得到的：获取用于训练所述强化学习模型的未标注数据和标注数据；基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；利用所述经验池训练所述强化学习模型。

根据本公开的另一方面，提供了一种强化学习模型的训练装置，包括：获取单元，配置为获取用于训练所述强化学习模型的未标注数据和标注数据；生成单元，配置为基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；训练单元，配置为利用所述经验池训练所述强化学习模型。

根据本公开的另一方面，提供了一种强化学习模型的训练装置，包括：处理器；存储器；和存储在所述存储器中的计算机程序指令，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：获取用于训练所述强化学习模型的未标注数据和标注数据；基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；利用所述经验池训练所述强化学习模型。

根据本公开的另一方面，提供了一种计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时，执行前述任一项所述的强化学习模型训练方法。

根据本公开的另一方面，提供了一种对话系统，包括：获取单元，配置为获取对话信息；生成单元，配置为基于强化学习模型生成回复信息；响应单元，配置为基于所述回复信息对所述对话信息进行响应；其中，所述强化学习模型是通过如下方法训练得到的：获取用于训练所述强化学习模型的未标注数据和标注数据；基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；利用所述经验池训练所述强化学习模型。

根据本公开的另一方面，提供了一种对话系统，包括：处理器；存储器；和存储在所述存储器中的计算机程序指令，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：获取对话信息；基于强化学习模型生成回复信息；基于所述回复信息对所述对话信息进行响应；其中，所述强化学习模型是通过如下方法训练得到的：获取用于训练所述强化学习模型的未标注数据和标注数据；基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；利用所述经验池训练所述强化学习模型。

根据本公开的另一方面，提供了一种计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时，执行前述任一项所述的对话处理方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本公开的主旨。

图1示出了根据本公开实施例的强化学习模型的训练方法的示例性流程图；

图2示出了根据本公开实施例的对话处理方法的示例性流程图；

图3示出了根据本公开实施例的对话处理方法中所使用的强化学习模型的训练方法的示例性流程图；

图4示出了根据本公开实施例的用于医疗对话系统的强化学习模型的训练方法的示例性流程图；

图5示出了根据本公开实施例的用于医疗对话系统的强化学习模型的训练方法中目标信息的示意图；

图6示出了根据本公开的第一示例所采集的数据以及对DQN的训练流程示意图；

图7示出了根据本公开实施例的用于法律咨询领域的对话处理方法的示例性流程图；

图8示出了根据本公开实施例的强化学习模型的训练装置的框图；

图9示出了根据本公开实施例的强化学习模型的训练装置的框图；

图10示出了根据本公开实施例的对话系统的框图；

图11示出了根据本公开实施例的对话系统的框图；以及

图12示出了根据本公开实施例的医疗对话系统的用户界面1200的示意图。

具体实施方式

下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本公开的部分实施例，而不是全部的实施例。基于本公开实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本公开保护的范围。

如本公开和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法、装置或者系统也可能包含其他的步骤或元素。

虽然本公开对根据本公开的实施例的装置、系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户端和/或服务器上。所述模块仅是说明性的，并且所述装置、系统和方法的不同方面可以使用不同模块。

本公开中使用了流程图用来说明根据本公开的实施例的装置、系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

强化学习模型一般包括智能体和环境，智能体通过与环境的交互和反馈，不断进行学习，优化其策略。具体而言，智能体观察并获得环境的状态(state，s)，根据一定策略，针对当前环境的状态(s)确定要采取的行为或动作(action，a)。这样的动作(a)作用于环境，会改变环境的状态(例如，从s到s’)，同时产生奖励分数作为反馈(reward，r)发送给智能体。智能体根据获得的奖励分数(r)来判断之前的动作是否正确，策略是否需要调整，进而更新其策略。通过反复不断地观察状态、确定动作、收到反馈，智能体可以不断更新策略。强化学习模型训练的最终目标是能够学习到一个策略，使得获得的奖励分数累积最大化。在学习和调整策略的强化学习过程中，智能体可以采取包括神经网络，例如基于深度强化学习DRL的神经网络(例如Deep Q-Learing(DQN)、Double-DQN、Dualing-DQN、Deep Deterministic Policy Gradient(DDPG)、Asynchronous Advantage Actor-Critic(A3C)、Continuous Deep Q-Learning with NAF等)在内的一些深度学习的算法。本公开实施例中所描述的强化学习模型可以是基于深度强化学习DRL的神经网络。

可见，在强化学习模型的训练过程中，一般需要采用大量的标注数据，以作为训练的目标来引导训练的过程，但是，这些标注数据的获取往往需要耗费大量的时间和系统资源，并且数量较少，较难获取。

在此基础上，本公开实施例提供了一种强化学习模型的训练方法，如图1所示。图1示出了根据本公开实施例的强化学习模型的训练方法100的示例性流程图。可选地，图1所涉及的强化学习模型可以适用于教育、法律咨询、购物餐饮查询、航班查询、导航等诸多领域。

在步骤S101中，获取用于训练所述强化学习模型的未标注数据和标注数据。

本步骤中，所获取的用于训练强化学习模型的数据包括标注数据。可选地，标注数据可以是从与所需训练的强化学习模型所在的领域相关的数据库中所获取的数据。在一个示例中，可以从标注数据中提取与强化学习模型相关的训练信息，并将提取出的训练信息作为例如用户的目标信息(也称user goal)进行保存。所提取的来自标注数据的目标信息可以用于对强化学习模型的直接训练，以向智能体提供反馈，并引导训练过程。可选地，在标注数据中所提取的目标信息可以包括分别与结果(result)、分类标签(tag)等对应的信息。

进一步地，所获取的用于训练强化学习模型的数据还可以包括未标注数据。可选地，未标注数据可以通过各种途径进行获取，这些途径可以包括与所需训练的强化学习模型所在的领域相关的未经标注的网页、论坛、聊天记录、数据库等。可选地，未标注数据可以为对话数据。在一个示例中，也可以从未标注数据中提取与强化学习模型相关的训练信息，并将提取出的训练信息用于后续生成用于训练强化学习模型的经验池。

可选地，在本公开实施例的方法应用于医疗领域时，所述标注数据可以为从例如电子病历等所获取的医疗病例数据，而提取出的目标信息可以包括疾病、症状分类、症状属性等各种信息。相应地，所述未标注数据可以为例如从互联网获取的医疗对话数据，提取出的未标注数据的训练信息则可以包括对话时间、对话对象、对话内容、诊断结果等各种信息。当然，上述内容仅为示例，在本公开实施例中，所述训练方法还可以应用于教育、法律咨询、购物餐饮查询、航班查询、导航等各个其他领域，在此不做限制。

在步骤S102中，基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池。

在本步骤中，可选地，可以基于未标注数据所提取的有效的训练信息，以标注数据所提取的目标信息作为训练目标，来生成所述经验池(experience pool)。可选地，经验池可以包括由第一状态(s)、动作(a)、奖励分数(r)和第二状态(s’)构成的一个或多个序列，并且可以表示为四元组<s,a,r,s’>。在一个示例中，可以基于未标注数据获取动作和当前的第一状态，并通过与环境的交互，获取第二状态和奖励分数。其中，当未标注数据为对话数据时，所述动作可以是基于所述对话数据获取的其中任一对话动作；所述第一状态可以包括所述对话数据中在所获取的所述对话动作之前的所有历史信息，而所述历史信息可以由在该对话动作之前的所有信息和动作共同组成。相应地，所述第二状态可以是在所述环境处于第一状态的情况下，被施加所述动作后，所述环境迁移到的状态；所述奖励分数可以包括在所述环境处于第一状态的情况下，被施加所述动作后，在所述标注数据作为目标信息的引导下所做出的反馈。

可选地，构建所述经验池的四元组中的奖励分数还可以进一步包括所述动作的可信度(c或c’)。也就是说，在已知所需训练的强化学习模型所在的领域时，可以基于所述动作(a)计算其在该领域的关键信息集合中相应的出现概率和特异性，从而得到所述动作的可信度c，并经平滑和归一化处理得到处理后的可信度c’。随后，可以根据四元组<s,a,c’r,s’>来构建所述经验池。

可选地，在本公开实施例的方法应用于医疗领域时，可以基于医疗对话数据获取动作和当前的第一状态，并通过与环境的交互，获取第二状态和奖励分数。其中，所述动作可以是基于所述医疗对话数据获取的其中任一对话动作，例如，所述动作包括但不限于：开始对话、结束对话、请求症状信息、确诊疾病等；所述第一状态可以包括所述医疗对话数据中在所获取的所述对话动作之前的所有历史信息，而所述历史信息可以由在该对话动作之前的所有信息和动作共同组成。相应地，所述第二状态可以是在所述环境处于第一状态的情况下，被施加所述动作后，所述环境迁移到的状态；所述奖励分数可以包括在所述环境处于第一状态的情况下，被施加所述动作后，在所述医疗病例数据作为目标信息的引导下所做出的反馈。可选地，此时奖励分数中包括的所述动作的可信度可以通过如下公式(1)-(3)进行计算：

AF-IDF＝AF·IDF (3)

其中，D＝{D ⁱ}可以为疾病的集合，疾病的集合可以包括例如使用ICD-10编码的若干个疾病，例如，D ⁱ可以表示第i个疾病(i为0或正整数)；每个疾病D ⁱ可以包括若干个医疗对话数据，例如，

可以表示针对疾病D ⁱ的第j个对话数据(j为0或正整数)，则AF可以表示动作a在医疗对话数据

中所出现的概率，IDF则表示动作a出现在特定疾病下的特异性。从而，可信度AF-IDF可以通过AF和IDF二者的乘积而获取，以反映某个动作a的可信度c。在计算出可信度c之后，可以将其进行平滑和归一化处理，得到处理后的可信度c’，以避免因某些未采集到的疾病影响训练结果。最后，可以根据计算得到的c’形成四元组<s,a,c’r,s’>，以构建所述经验池。

在步骤S103中，利用所述经验池训练所述强化学习模型。

在本公开实施例中，在根据未标注数据和标注数据形成所述经验池之后，可以利用所述经验池辅助训练所述强化学习模型。可选地，智能体(例如DQN神经网络)和环境(例如可以为用户模拟器(user simulator))可以进行交互，在交互过程中，以经验池中所包含的四元组(<s,a,r,s’>或<s,a,c’r,s’>)辅助训练，并以标注数据或其提取的目标信息作为训练的目标，以通过不断的模拟和迭代来更新DQN中的参数，从而得到最终的训练结果。可选地，在训练过程中，可以利用训练过程中得到的四元组不断更新所述经验池，也就是说，可以将训练过程中得到的新的四元组加入所述经验池。从而，利用所述经验池训练所述强化学习模型还可以包括：在训练所述强化学习模型的过程中，根据训练结果更新所述经验池；利用更新的所述经验池对所述强化学习模型进行训练。在训练所述强化学习模型的过程中，所形成的四元组中的动作(a)可以由DQN发起并作用于环境，而并不取自未标注数据。在例如医疗领域中，此时的动作也可以包括但不限于：开始对话、结束对话、请求症状信息、确诊疾病等。

可选地，在本公开实施例中，还可以在训练所述强化学习模型时，额外引入外部知识以辅助决策，在这种情况下，可以同时考虑强化学习模型的训练结果和外部知识的内容，以做出最终决策，实现进一步改善强化学习模型的训练效果的目的。在一个示例中，这里的外部指示可以为与强化学习模型相关的数据库，例如知识图谱等。例如，在对医疗对话系统的强化学习模型进行训练时，所述知识图谱包括M种疾病和N种症状的节点以及各种疾病与各种症状之间的对应关系，其中M和N为大于等于1的整数，以及针对每种疾病的推荐药物、预防手段、治疗方案、和病因等等。可选地，知识图谱还可以包括每种疾病到每种症状的概率以及每种症状到每种疾病的概率。在本公开实施例中，可选地，所述强化学习模型的训练方法可以用于训练用于对话系统的强化学习模型。其中，根据对话系统的任务类型不同，对话系统可以分为任务导向性系统(Task-oriented Dialogue System)和非任务导向性系统(Non-Task-Oriented Dialogue System)。其中，任务导向型对话系统是指以根据与用户的交流，帮助用户完成特定领域内的任务为目标的一类对话系统。在一个示例中，所述强化学习模型的训练方法可以用于训练用于任务导向性对话系统的强化学习模型，例如，可以用于训练用于医疗对话系统的强化学习模型。当然，上述内容仅为示例，在本公开实施例中，所述训练方法还可以应用于教育、法律咨询、购物餐饮查询、航班查询、导航等各个其他领域相关的对话系统，在此不做限制。

根据本公开实施例的强化学习模型训练方法，能够基于未标注数据和标注数据共同训练强化学习模型，从而有效减少了在训练所述强化学习模型时对标注数据的需求，提高了强化学习模型训练的可行性和稳定性，改善了强化学习模型的训练结果。

本公开实施例提供了一种对话处理方法，如图2所示。图2示出了根据本公开实施例的对话处理方法200的示例性流程图。图2中的对话处理方法可以应用于对话系统，也称聊天信息系统、口语对话系统、交谈代理、聊天者机器人(chatter robot)、聊天者机器人程序(chatterbot)、聊天机器人程序(chatbot)、聊天代理、数字个人助理和自动化在线助理等。该对话系统可以使用自然语言与人交互以模拟智能交谈，并向用户提供个性化的协助。对话系统可以基于强化学习模型而实现。可选地，图2所示的方法中所基于的强化学习模型可以适用于教育、法律咨询、购物餐饮查询、航班查询、导航等诸多领域。

在步骤S201中，获取对话信息。

在本步骤中，所获取的对话信息可以例如为自然语言文本。可选地，可以基于所述自然语言文本进行理解，并从中通过例如分词、语义分析等各种操作而提取需处理的有效对话信息，以供后续的对话处理流程使用。

在步骤S202中，基于强化学习模型生成回复信息。

本步骤中，可以根据所获取的对话信息，基于例如DQN的强化学习模型来生成需要进行反馈的回复信息。其中，所述强化学习模型可以根据前述的强化学习模型训练方法训练得到。

图3示出了根据本公开实施例的对话处理方法中所使用的强化学习模型的训练方法的示例性流程图。可选地，图3所涉及的强化学习模型可以适用于教育、法律咨询、购物餐饮查询、航班查询、导航等诸多领域。

在步骤S2021中获取用于训练所述强化学习模型的未标注数据和标注数据。

在步骤S2022中，基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池。

在本步骤中，可选地，可以基于未标注数据所提取的有效的训练信息，以标注数据所提取的目标信息作为训练目标，来生成所述经验池。可选地，经验池可以包括由第一状态(s)、动作(a)、奖励分数(r)和第二状态(s’)构成的一个或多个序列，并且可以表示为四元组<s,a,r,s’>。在一个示例中，可以基于未标注数据获取动作和当前的第一状态，并通过与环境的交互，获取第二状态和奖励分数。其中，当未标注数据为对话数据时，所述动作可以是基于所述对话数据获取的其中任一对话动作；所述第一状态可以包括所述对话数据中在所获取的所述对话动作之前的所有历史信息，而所述历史信息可以由在该对话动作之前的所有信息和动作共同组成。相应地，所述第二状态可以是在所述环境处于第一状态的情况下，被施加所述动作后，所述环境迁移到的状态；所述奖励分数可以包括在所述环境处于第一状态的情况下，被施加所述动作后，在所述标注数据作为目标信息的引导下所做出的反馈。

可选地，在本公开实施例的方法应用于医疗领域时，可以基于医疗对话数据获取动作和当前的第一状态，并通过与环境的交互，获取第二状态和奖励分数。其中，所述动作可以是基于所述医疗对话数据获取的其中任一对话动作，例如，所述动作包括但不限于：开始对话、结束对话、请求症状信息、确诊疾病等；所述第一状态可以包括所述医疗对话数据中在所获取的所述对话动作之前的所有历史信息，而所述历史信息可以由在该对话动作之前的所有信息和动作共同组成。相应地，所述第二状态可以是在所述环境处于第一状态的情况下，被施加所述动作后，所述环境迁移到的状态；所述奖励分数可以包括在所述环境处于第一状态的情况下，被施加所述动作后，在所述医疗病例数据作为目标信息的引导下所做出的反馈。可选地，此时奖励分数中包括的所述动作的可信度可以通过前述公式(1)-(3)进行计算。

其中，D＝{D ⁱ}可以为疾病的集合，疾病的集合可以包括例如使用ICD-10编码的若干个(疾病，例如，D ⁱ可以表示第i个疾病(i为0或正整数)；每个疾病D ⁱ可以包括若干个医疗对话数据，例如，

在步骤S2023中，利用所述经验池训练所述强化学习模型。

在本公开实施例中，在根据未标注数据和标注数据形成所述经验池之后，可以利用所述经验池辅助训练所述强化学习模型。可选地，智能体(例如DQN神经网络)和环境(例如可以为用户模拟器(user simulator))可以进行交互，在交互过程中，以经验池中所包含的四元组(<s,a,r,s’>或<s,a,c’r,s’>)辅助训练，并以标注数据或其提取的目标信息作为训练的目标，以通过不断的模拟和迭代来更新DQN中的参数，从而得到最终的训练结果。可选地，在训练过程中，可以利用训练过程中得到的四元组不断更新所述经验池，也就是说，可以将训练过程中得到的新的四元组加入所述经验池。从而，利用所述经验池训练所述强化学习模型还可以包括：在训练所述强化学习模型的过程中，根据训练结果更新所述经验池；利用更新的所述经验池对所述强化学习模型进行训练。在训练所述强化学习模型的过程中，所形成的四元组中的动作(a)可以由DQN发起，作用于环境。在例如医疗领域中，此时的动作也可以包括但不限于：开始对话、结束对话、请求症状信息、确诊疾病等。

可选地，在本公开实施例中，还可以在训练所述强化学习模型时，额外引入外部知识以辅助决策，在这种情况下，可以同时考虑强化学习模型的训练结果和外部知识的内容，以做出最终决策，实现进一步改善强化学习模型的训练效果的目的。在一个示例中，这里的外部指示可以为与强化学习模型相关的数据库，例如知识图谱等。

回到图2，在步骤S203中，基于所述回复信息对所述对话信息进行响应。

在本步骤中，可以将由完成训练的DQN所生成的回复信息转化为自然语言并输出，以对所述对话信息进行响应。

根据本公开实施例的对话处理方法，能够基于未标注数据和标注数据共同训练强化学习模型，从而有效减少了在训练所述强化学习模型时对标注数据的需求，提高了强化学习模型训练的可行性和稳定性，改善了强化学习模型的训练结果。

第一示例

在本公开实施例的第一示例中，提供了一种用于医疗对话系统的强化学习模型的训练方法，如图4所示。图4示出了根据本公开实施例的用于医疗对话系统的强化学习模型的训练方法400的示例性流程图。

在步骤S401中，获取用于训练所述强化学习模型的医疗病例数据和医疗对话数据。

本步骤中，所获取的用于训练强化学习模型的数据可以包括从电子病例获取的医疗病例数据。在此基础上，可以从所述医疗病例数据中提取作为user goal的目标信息，例如可以包括疾病、症状分类、症状属性等各种信息。

例如，可以将目标信息提取为如图5所示的格式。在图5中，疾病表示为“disease_tag”：缺血性心脏病(Ischaemic heart diseases)。由病人主动报告的症状可以记录在“explicit_symptoms”中，例如，在图5中，所述症状包括“心悸”，频率为“偶发”，以及“出汗”，条件为“运动后”。经医生询问，从后续对话中所获取的症状可以记录在“implicit_symptoms”中，例如，在图5中，所述症状包括“胸闷”，表现为“加剧”，以及“呕吐”，发生在“数周前”，然而并未“发热”。在图5中，目标信息的其余标签可以为未知，表示为“UNK”。

相应地，所述未标注数据可以为例如从互联网获取的医疗对话数据，从中所提取的未标注数据的训练信息可以包括对话时间、对话对象、对话内容、诊断结果等各种信息，可以采用例如JSON文件进行保存。

在步骤S402中，基于所述医疗对话数据，以所述医疗病例数据作为目标，生成用于训练所述强化学习模型的经验池。

图6示出了根据本公开的第一示例所采集的数据以及对DQN的训练流程示意图。如图6所示，左侧为未标记数据，即医疗对话数据，表现为网络对话的格式；右侧为标记数据，即医疗病例数据，作为目标信息user goal作用于后续DQN的训练过程。在图6中，可以首先基于医疗对话数据提取有效的训练信息，并以标注数据所提取的目标信息作为训练目标，通过与环境(用户模拟器)的交互，来生成所述经验池。

具体地，可以将基于所述医疗对话数据获取的其中任一对话动作，作为动作(a)，例如，所述动作(a)包括但不限于：开始对话、结束对话、请求症状信息、确诊疾病等；并将所述医疗对话数据中在所述动作(a)之前的所有信息和动作共同组成历史信息以形成第一状态(s)。相应地，所述第二状态可以是在所述用户模拟器处于第一状态(s)的情况下，被施加所述动作(a)后，所述环境迁移到的状态(s’)；所述奖励分数可以包括在所述用户模拟器处于第一状态(s)的情况下，被施加所述动作(a)后，在所述医疗病例数据作为目标信息的引导下做出的反馈(r)。此时，可以根据四元组<s,a,r,s’>来构建所述经验池。

具体地，如图6所示，可以根据医疗对话数据形成多个四元组，例如<s ₁,a ₁,r ₁,s ₁’>至<s _n,a _n,r _n,s _n’>，以用于后续构建经验池。在构建经验池的过程中，可以对之前所形成的多个四元组进行评估和筛选，可选地，可以将例如<s _i,a _i,r _i,s _i’>、<s _j,a _j,r _j,s _j’>至<s _k,a _k,r _k,s _k’>这些四元组用以构建经验池。当然，上述经验池的构建方式仅为示例，可选地，也可以将所有第1-n个四元组均置于所述经验池中。

此外，在另一示例中，还可以对所述动作利用可信度进行进一步的评估。也就是说，所述奖励分数还可以包括所述动作(a)的可信度(c’)。也就是说，可以基于所述动作(a)计算其在医疗领域的疾病的集合D＝{D ⁱ}中相应的出现概率和特异性，从而得到所述动作的可信度c，并经平滑和归一化处理得到处理后的可信度c’。随后，也可以根据四元组<s,a,c’r,s’>来构建所述经验池，具体的示例图6中暂未示出。

在步骤S403中，利用所述经验池训练所述强化学习模型。

在本公开的第一示例中，在根据医疗对话数据和医疗病例数据形成所述经验池之后，可以利用所述经验池辅助训练所述强化学习模型。可选地，图6中的DQN和用户模拟器可以进行交互，在交互过程中，以经验池中所包含的四元组进行辅助训练，并以目标信息user goal作为训练的目标，从而通过不断的模拟和迭代更新DQN中的参数，并得到最终的训练结果。可选地，在训练过程中，可以利用训练过程中得到的四元组不断更新所述经验池，也就是说，可以将训练过程中得到的新的四元组加入所述经验池，并可以利用更新的所述经验池对所述强化学习模型进行进一步的训练。在训练所述强化学习模型的过程中，所形成的四元组中的动作(a)可以由DQN发起，作用于环境。在例如医疗领域中，此时的动作也可以包括但不限于：开始对话、结束对话、请求症状信息、确诊疾病等。

可选地，在本公开第一示例中，还可以在训练所述强化学习模型时，额外引入知识图谱等外部知识以辅助决策，在这种情况下，可以同时考虑强化学习模型的训练结果和知识图谱的内容，以做出最终决策，实现进一步改善强化学习模型的训练效果的目的。

第二示例

在本公开实施例的第二示例中，提供了一种用于法律咨询领域的对话处理方法700的示例性流程图，如图7所示。

在步骤S701中，获取法律咨询相关的对话信息。

在本步骤中，所获取的法律咨询相关的对话信息可以例如为法律咨询相关的自然语言文本。可选地，可以基于所述自然语言文本进行理解，并从中提取需处理的有效对话信息。

在步骤S702中，基于强化学习模型生成回复信息。

本步骤中，可以根据所获取的法律咨询相关的对话信息，基于DQN的强化学习模型来生成需要进行反馈的回复信息。其中，所述强化学习模型可以根据下述强化学习模型训练方法训练得到：

首先，可以获取用于训练所述强化学习模型的法律条款数据(作为标注数据)和法律咨询对话数据(作为未标注数据)。本步骤中，所获取的用于训练强化学习模型的数据可以包括从电子法律条款中获取的法律条款数据，并且可以进一步从所述法律条款数据中提取作为user goal的目标信息，例如可以包括法条名称、行为类型、行为表现等各种信息。相应地，所述法律咨询对话数据可以为例如从互联网获取的法律咨询对话数据，从中所提取的法律咨询对话数据的训练信息可以包括对话时间、对话对象、对话内容、法条适用结果等各种信息，可以采用例如json文件的形式进行保存。

随后，基于所述法律咨询对话数据，可以以所述法律条款数据作为目标，生成用于训练所述强化学习模型的经验池。例如，同样可以首先基于法律咨询对话数据提取有效的训练信息，并以法律条款数据所提取的目标信息作为训练目标，通过与环境(用户模拟器)的交互，来生成所述经验池。经验池可以包括一个或多个四元组<s,a,r,s’>或包括置信度c’的<s,a,c’r,s’>，在此不再赘述。

最后，可以利用所述经验池训练所述强化学习模型。例如，可以利用DQN和用户模拟器可以进行交互，在交互过程中，以经验池中所包含的四元组辅助训练，并以目标信息user goal作为训练的目标，以通过不断的模拟和迭代更新DQN中的参数，从而得到最终的训练结果。

在步骤S703中，基于所述回复信息对所述对话信息进行响应。

在本步骤中，可以将所生成的回复信息转化为自然语言并输出，以对所述对话信息进行响应。

下面，参照图8来描述根据本公开实施例的强化学习模型的训练装置。图8示出了根据本公开实施例的强化学习模型的训练装置800的框图。如图8所示，强化学习模型的训练装置800包括获取单元810、生成单元820和训练单元830。除了这些单元以外，强化学习模型的训练装置800还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。此外，由于根据本公开实施例的强化学习模型的训练装置800执行的下述操作的具体细节与在上文中参照图1描述的细节相同，因此在这里为了避免重复而省略对相同细节的重复描述。

图8中的强化学习模型的训练装置800的获取单元810获取用于训练所述强化学习模型的未标注数据和标注数据。

获取单元810所获取的用于训练强化学习模型的数据包括标注数据。可选地，标注数据可以是从与所需训练的强化学习模型所在的领域相关的数据库中所获取的数据。在一个示例中，可以从标注数据中提取与强化学习模型相关的训练信息，并将提取出的训练信息作为例如用户的目标信息(也称user goal)进行保存。所提取的来自标注数据的目标信息可以用于对强化学习模型的直接训练，以向智能体提供反馈，并引导训练过程。可选地，在标注数据中所提取的目标信息可以包括分别与结果(result)、分类标签(tag)等对应的信息。

进一步地，获取单元810所获取的用于训练强化学习模型的数据还可以包括未标注数据。可选地，未标注数据可以通过各种途径进行获取，这些途径可以包括与所需训练的强化学习模型所在的领域相关的未经标注的网页、论坛、聊天记录、数据库等。可选地，未标注数据可以为对话数据。在一个示例中，也可以从未标注数据中提取与强化学习模型相关的训练信息，并将提取出的训练信息用于后续生成用于训练强化学习模型的经验池。

可选地，在本公开实施例的装置应用于医疗领域时，所述标注数据可以为从例如电子病历等所获取的医疗病例数据，而提取出的目标信息可以包括疾病、症状分类、症状属性等各种信息。相应地，所述未标注数据可以为例如从互联网获取的医疗对话数据，提取出的未标注数据的训练信息则可以包括对话时间、对话对象、对话内容、诊断结果等各种信息。当然，上述内容仅为示例，在本公开实施例中，所述训练装置还可以应用于教育、法律咨询、购物餐饮查询、航班查询、导航等各个其他领域，在此不做限制。

生成单元820基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池。

可选地，生成单元820可以基于未标注数据所提取的有效的训练信息，以标注数据所提取的目标信息作为训练目标，来生成所述经验池。可选地，经验池可以包括由第一状态(s)、动作(a)、奖励分数(r)和第二状态(s’)构成的一个或多个序列，并且可以表示为四元组<s,a,r,s’>。在一个示例中，可以基于未标注数据获取动作和当前的第一状态，并通过与环境的交互，获取第二状态和奖励分数。其中，当未标注数据为对话数据时，所述动作可以是基于所述对话数据获取的其中任一对话动作；所述第一状态可以包括所述对话数据中在所获取的所述对话动作之前的所有历史信息，而所述历史信息可以由在该对话动作之前的所有信息和动作共同组成。相应地，所述第二状态可以是在所述环境处于第一状态的情况下，被施加所述动作后，所述环境迁移到的状态；所述奖励分数可以包括在所述环境处于第一状态的情况下，被施加所述动作后，在所述标注数据作为目标信息的引导下所做出的反馈。

可选地，在本公开实施例的装置应用于医疗领域时，生成单元820可以基于医疗对话数据获取动作和当前的第一状态，并通过与环境的交互，获取第二状态和奖励分数。其中，所述动作可以是基于所述医疗对话数据获取的其中任一对话动作，例如，所述动作包括但不限于：开始对话、结束对话、请求症状信息、确诊疾病等；所述第一状态可以包括所述医疗对话数据中在所获取的所述对话动作之前的所有历史信息，而所述历史信息可以由在该对话动作之前的所有信息和动作共同组成。相应地，所述第二状态可以是在所述环境处于第一状态的情况下，被施加所述动作后，所述环境迁移到的状态；所述奖励分数可以包括在所述环境处于第一状态的情况下，被施加所述动作后，在所述医疗病例数据作为目标信息的引导下所做出的反馈。可选地，此时奖励分数中包括的所述动作的可信度可以通过前述公式(1)-(3)进行计算。

训练单元830利用所述经验池训练所述强化学习模型。

在本公开实施例中，在根据未标注数据和标注数据形成所述经验池之后，训练单元830可以利用所述经验池辅助训练所述强化学习模型。可选地，智能体(例如DQN神经网络)和环境(例如可以为用户模拟器(user simulator))可以进行交互，在交互过程中，以经验池中所包含的四元组(<s,a,r,s’>或<s,a,c’r,s’>)辅助训练，并以标注数据或其提取的目标信息作为训练的目标，以通过不断的模拟和迭代来更新DQN中的参数，从而得到最终的训练结果。可选地，在训练过程中，可以利用训练过程中得到的四元组不断更新所述经验池，也就是说，训练单元830可以将训练过程中得到的新的四元组加入所述经验池，并利用更新的所述经验池对所述强化学习模型进行训练。在训练所述强化学习模型的过程中，所形成的四元组中的动作(a)可以由DQN发起并作用于环境，而并不取自未标注数据。在例如医疗领域中，此时的动作也可以包括但不限于：开始对话、结束对话、请求症状信息、确诊疾病等。

可选地，在本公开实施例中，训练单元830还可以在训练所述强化学习模型时，额外引入外部知识以辅助决策，在这种情况下，可以同时考虑强化学习模型的训练结果和外部知识的内容，以做出最终决策，实现进一步改善强化学习模型的训练效果的目的。在一个示例中，这里的外部指示可以为与强化学习模型相关的数据库，例如知识图谱等。

在本公开实施例中，可选地，所述强化学习模型的训练装置可以用于训练用于对话系统的强化学习模型。其中，根据对话系统的任务类型不同，对话系统可以分为任务导向性系统(Task-oriented Dialogue System)和非任务导向性系统(Non-Task-Oriented Dialogue System)。其中，任务导向型对话系统是指以根据与用户的交流，帮助用户完成特定领域内的任务为目标的一类对话系统。在一个示例中，所述强化学习模型的训练装置可以用于训练用于任务导向性对话系统的强化学习模型，例如，可以用于训练用于医疗对话系统的强化学习模型。当然，上述内容仅为示例，在本公开实施例中，所述训练装置还可以应用于教育、法律咨询、购物餐饮查询、航班查询、导航等各个其他领域相关的对话系统，在此不做限制。

根据本公开实施例的强化学习模型训练装置，能够基于未标注数据和标注数据共同训练强化学习模型，从而有效减少了在训练所述强化学习模型时对标注数据的需求，提高了强化学习模型训练的可行性和稳定性，改善了强化学习模型的训练结果。

下面，参照图9来描述根据本公开实施例的强化学习模型的训练装置900。图9示出了根据本公开实施例的强化学习模型的训练装置900的框图。如图9所示，该装置900可以是计算机或服务器。

如图9所示，强化学习模型的训练装置900包括一个或多个处理器910以及存储器920，当然，除此之外，强化学习模型的训练装置900还可能包括输入装置、输出装置(未示出)等，这些组件可以通过总线系统和/或其它形式的连接机构互连。应当注意，图9所示的强化学习模型的训练装置900的组件和结构只是示例性的，而非限制性的，根据需要，强化学习模型的训练装置900也可以具有其他组件和结构。

处理器910可以是中央处理单元(CPU)或者现场可编程逻辑阵列(FPGA)或者单片机(MCU)或者数字信号处理器(DSP)或者专用集成电路(ASIC)等具有数据处理能力和/或程序执行能力的逻辑运算器件。

处理器910可以利用存储器920中所存储的计算机程序指令以执行期望的功能，可以包括：获取用于训练所述强化学习模型的未标注数据和标注数据；基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；利用所述经验池训练所述强化学习模型。

所述的计算机程序指令包括了一个或多个由对应于处理器的指令集架构定义的处理器操作，这些计算机指令可以被一个或多个计算机程序在逻辑上包含和表示。

存储器920可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器910可以运行所述程序指令，以实现上文所述的本公开实施例的强化学习模型的训练装置的功能以及/或者其它期望的功能，并且/或者可以执行根据本公开实施例的强化学习模型的训练方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据。

下面，描述根据本公开实施例的计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现以下步骤：获取用于训练所述强化学习模型的未标注数据和标注数据；基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；利用所述经验池训练所述强化学习模型。

下面，参照图10来描述根据本公开实施例的对话系统。图10示出了根据本公开实施例的对话系统1000的框图。如图10所示，对话系统1000包括获取单元1010、生成单元1020和响应单元1030。除了这些单元以外，对话系统1000还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。此外，由于根据本公开实施例的对话系统1000执行的下述操作的具体细节与在上文中参照图2-图3描述的细节相同，因此在这里为了避免重复而省略对相同细节的重复描述。此外，图10所述的对话系统1000也可称聊天信息系统、口语对话系统、交谈代理、聊天者机器人(chatter robot)、聊天者机器人程序(chatterbot)、聊天机器人程序(chatbot)、聊天代理、数字个人助理和自动化在线助理等。对话系统1000可以使用自然语言与人交互以模拟智能交谈，并向用户提供个性化的协助。对话系统可以基于强化学习模型而实现。可选地，图10所示的系统中所基于的强化学习模型可以适用于教育、法律咨询、购物餐饮查询、航班查询、导航等诸多领域。

图10中的对话系统1000的获取单元1010获取对话信息。

获取单元1010所获取的对话信息可以例如为自然语言文本。可选地，可以基于所述自然语言文本进行理解，并从中通过例如分词、语义分析等各种操作而提取需处理的有效对话信息，以供后续的对话处理流程使用。

生成单元1020基于强化学习模型生成回复信息。

生成单元1020可以根据所获取的对话信息，基于例如DQN的强化学习模型来生成需要进行反馈的回复信息。其中，所述强化学习模型可以根据前述的强化学习模型训练方法或训练装置训练得到。

利用前述强化学习模型训练方法训练所述强化学习模型的流程如图3所示。图3示出了根据本公开实施例的对话系统中所使用的强化学习模型的训练方法的示例性流程图。可选地，图3所涉及的强化学习模型可以适用于教育、法律咨询、购物餐饮查询、航班查询、导航等诸多领域。

在步骤S2021中，获取用于训练所述强化学习模型的未标注数据和标注数据。

在步骤S2023中，利用所述经验池训练所述强化学习模型。

回到图10，响应单元1030基于所述回复信息对所述对话信息进行响应。

响应单元1030可以将所生成的回复信息转化为自然语言并输出，以对所述对话信息进行响应。

根据本公开实施例的对话系统，能够基于未标注数据和标注数据共同训练强化学习模型，从而有效减少了在训练所述强化学习模型时对标注数据的需求，提高了强化学习模型训练的可行性和稳定性，改善了强化学习模型的训练结果。

下面，参照图11来描述根据本公开实施例的对话系统1100。图11示出了根据本公开实施例的对话系统1100的框图。如图11所示，该装置1100可以是计算机或服务器。

如图11所示，对话系统1100包括一个或多个处理器1110以及存储器1120，当然，除此之外，对话系统1100还可能包括输入装置、输出装置(未示出)等，这些组件可以通过总线系统和/或其它形式的连接机构互连。应当注意，图11所示的对话系统1100的组件和结构只是示例性的，而非限制性的，根据需要，对话系统1100也可以具有其他组件和结构。

处理器1110可以是中央处理单元(CPU)或者现场可编程逻辑阵列(FPGA)或者单片机(MCU)或者数字信号处理器(DSP)或者专用集成电路(ASIC)等具有数据处理能力和/或程序执行能力的逻辑运算器件，并且可以利用存储器1120中所存储的计算机程序指令以执行期望的功能，可以包括：获取对话信息；基于强化学习模型生成回复信息；基于所述回复信息对所述对话信息进行响应；其中，所述强化学习模型是通过如下方法训练得到的：获取用于训练所述强化学习模型的未标注数据和标注数据；基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；利用所述经验池训练所述强化学习模型。

存储器1120可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1110可以运行所述程序指令，以实现上文所述的本公开实施例的强化学习模型的训练装置的功能以及/或者其它期望的功能，并且/或者可以执行根据本公开实施例的对话处理方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据。

下面，描述根据本公开实施例的计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现以下步骤：获取对话信息；基于强化学习模型生成回复信息；基于所述回复信息对所述对话信息进行响应；其中，所述强化学习模型是通过如下方法训练得到的：获取用于训练所述强化学习模型的未标注数据和标注数据；基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；利用所述经验池训练所述强化学习模型。

如前面所述，本公开实施例的对话系统特别适用于医疗领域。与其他领域相比，医疗领域的标注数据特别少，因为对数据进行标注的要求比较高，即，需要专业性较高且经验较丰富的医生进行标注，以提高专业性和准确性。通过采用本申请的强化学习模型的训练方法，能够基于未标注数据和标注数据共同训练强化学习模型，从而降低了对医生的专业以及经验性的依赖和要求，有效减少了在训练所述强化学习模型时对标注数据的需求。

可选地，该医疗对话系统中涉及的模型可以采用前文所描述的强化学习模型的训练方法来进行训练而得到。该模型可以以计算机程序指令集的形式存储。该医疗对话系统可以包括：用户界面；处理器；存储器，其上存储有计算机程序指令，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤。

如图12所示，首先医疗对话系统从用户接收自然语言输入信息，并在用户界面1200上(例如靠右侧)显示该自然语言输入信息。自然语言输入信息可以通过语音或文字输入。例如，如框1201所示，用户用文字输入“我有点头晕，吃饭的时候恶心”的自然语言输入信息。

可选地，医疗对话系统对所述自然语言输入信息执行命名实体识别处理以提取症状信息。例如，医疗对话系统从自然语言输入信息“我有点头晕，吃饭的时候恶心”中提取到“头晕”和/或“恶心”的症状信息，以下以“头晕”为例。

然后，医疗对话系统在所述用户界面1200上(例如靠左侧)显示与所述自然语言输入信息中提及的症状相关联的一个或多个问题，以实现多轮问答，并且针对每个问题：从用户接收针对该问题的答案，并在所述用户界面上靠右侧显示所述答案。

具体地，在提取了“头晕”的症状信息后，医疗对话系统在用户界面上(在框1201下方靠左侧)显示询问何时出现头晕的问题(框1202)。该问题可以与用户可以在其中进行选择的多个答案选项一起给出。用户针对该问题给出答案并且该答案将在用户界面上靠右侧(在框1202下方)显示，例如用户在回答问题(1202)时选择了“近几天”的选项，则在框1203显示文本“近几天”。然后，进行下一轮问答，医疗对话系统在用户界面上(在框1203下方靠左侧)显示询问关于头晕的频率的问题(框1204)。类似地，该问题可以与用户可以在其中进行选择的多个答案选项一起给出。用户针对该问题给出答案并且该答案将在用户界面上(在框1204下方靠右侧)显示，例如用户在回答问题(1204)时选择了“每周发作三次及以上”的选项，则在框1205显示文本“每周发作三次及以上”。以此类推地完成多轮问答。虽然图中只示出了两轮问答，但是根据该医疗对话系统的强化学习模型的训练方式，可以有更多轮的问题，本公开对此不作限制。

最后，医疗对话系统在多轮问答结束之后，生成并在用户界面上显示针对所述症状的诊断结果，例如框1206所示。

可选地，诊断结果包括以下各项中的至少一个：可能的疾病类型、可能的疾病类型具有的症状、适用于可能的疾病类型的推荐药物、推荐药物所针对的症状、了解推荐药物更多信息的链接等等。

可选地，诊断结果还可以包括该症状可能对应的各种疾病类型的概率。

可选地，所述诊断结果以自然语言的形式输出并显示在所述用户界面上，例如框1206所示。

在上述实施例中，为了便于理解和描述，使用了与所要执行的功能对应的功能单元的描述方式，容易理解，这些功能单元是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以通过通用处理器运行对应功能的软件以执行计算机指令的形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中可编程地实现这些功能实体，或设计为专门执行对应功能的集成电路来实现这些功能实体。

例如，通用处理器可以是中央处理器(CPU)、单片机(MCU)、数字信号处理器(DSP)等。

例如，可编程的集成电路可以是现场可编程逻辑电路(FPGA)。

例如，专门的集成电路可以是专用集成电路(ASIC)，如Tensor Processing Unit(TPU)。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从图像检索设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供图像检索所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

一种强化学习模型的训练方法(100)，包括：

获取用于训练所述强化学习模型的未标注数据和标注数据(S101)；

基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池(S102)；

利用所述经验池训练所述强化学习模型(S103)。
如权利要求1所述的方法(100)，其中，所述基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池(S102)包括：

基于所述未标注数据，通过与环境进行交互生成所述经验池。
如权利要求2所述的方法(100)，其中，

所述经验池包括由第一状态、动作、奖励分数和第二状态构成的序列；

其中，所述第一状态和动作是基于所述未标注数据获取的；所述第二状态是在所述环境处于第一状态的情况下，被施加所述动作后，所述环境迁移到的状态。
如权利要求3所述的方法(100)，其中，

所述奖励分数包括在所述环境处于第一状态的情况下，被施加所述动作后，在所述标注数据的引导下做出的反馈。
如权利要求3所述的方法(100)，其中，

所述奖励分数还包括所述动作的可信度。
如权利要求1所述的方法(100)，其中，所述利用所述经验池训练所述强化学习模型(S103)还包括：

在训练所述强化学习模型的过程中，根据训练结果更新所述经验池；

利用更新的所述经验池对所述强化学习模型进行训练。
如权利要求3所述的方法(100)，其中，

所述未标注数据为医疗对话数据；和/或

所述标注数据为医疗病例数据。
如权利要求7所述的方法(100)，其中，

所述动作是基于所述医疗对话数据获取的任一对话动作；

所述第一状态是所述医疗对话数据中在所获取的所述对话动作之前的所有历史信息。
如权利要求1-8任一项所述的方法(100)，其中，所述训练方法用于训练用于医疗对话系统的强化学习模型。
一种对话处理方法(200)，包括：

获取对话信息(S201)；

基于强化学习模型生成回复信息(S202)；

基于所述回复信息对所述对话信息进行响应(S203)；

其中，所述强化学习模型是通过如下方法训练得到的：

获取用于训练所述强化学习模型的未标注数据和标注数据(S2021)；

基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池(S2022)；

利用所述经验池训练所述强化学习模型(S2023)。
如权利要求10所述的方法(200)，其中，所述基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池(S2022)包括：

基于所述未标注数据，通过与环境进行交互生成所述经验池。
如权利要求11所述的方法(200)，其中，

所述经验池包括由第一状态、动作、奖励分数和第二状态构成的序列；

其中，所述第一状态和动作是基于所述未标注数据获取的；所述第二状态是在所述环境处于第一状态的情况下，被施加所述动作后，所述环境迁移到的状态。
如权利要求12所述的方法(200)，其中，

所述奖励分数包括在所述环境处于第一状态的情况下，被施加所述动作后，在所述标注数据的引导下做出的反馈。
如权利要求12所述的方法(200)，其中，

所述奖励分数还包括所述动作的可信度。
如权利要求12所述的方法(200)，其中，

所述未标注数据为医疗对话数据；和/或

所述标注数据为医疗病例数据。
如权利要求15所述的方法(200)，其中，

所述动作是基于所述医疗对话数据获取的任一对话动作；

所述第一状态是所述医疗对话数据中在所述对话动作之前的所有历史信息。
如权利要求10-16中任一项所述的方法(200)，其中，所述基于所述回复信息对所述对话信息进行响应(S203)包括：

将所述回复信息转化为自然语言并输出。
一种强化学习模型的训练装置(800)，包括：

获取单元(810)，配置为获取用于训练所述强化学习模型的未标注数据和标注数据；

生成单元(820)，配置为基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；

训练单元(830)，配置为利用所述经验池训练所述强化学习模型。
一种强化学习模型的训练装置(900)，包括：

处理器(910)；

存储器(920)；和

存储在所述存储器中的计算机程序指令，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

获取用于训练所述强化学习模型的未标注数据和标注数据；

基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；

利用所述经验池训练所述强化学习模型。
一种计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时，执行权利要求1-9中任一项所述的方法。
一种对话系统(1000)，包括：

获取单元(1010)，配置为获取对话信息；

生成单元(1020)，配置为基于强化学习模型生成回复信息；

响应单元(1030)，配置为基于所述回复信息对所述对话信息进行响应；

其中，所述强化学习模型是通过如下方法训练得到的：

获取用于训练所述强化学习模型的未标注数据和标注数据；

基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；

利用所述经验池训练所述强化学习模型。
一种对话系统(1100)，包括：

处理器(1110)；

存储器(1120)；和

存储在所述存储器中的计算机程序指令，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

获取对话信息；

基于强化学习模型生成回复信息；

基于所述回复信息对所述对话信息进行响应；

其中，所述强化学习模型是通过如下方法训练得到的：

获取用于训练所述强化学习模型的未标注数据和标注数据；

基于所述未标注数据，参考所述标注数据生成用于训练所述强化学习模型的经验池；

利用所述经验池训练所述强化学习模型。
一种计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时，执行权利要求10-17中任一项所述的方法。
一种医疗对话系统，包括：

用户界面；

处理器；

存储器，其上存储有计算机程序指令，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行以下步骤：

从用户接收自然语言输入信息，并在所述用户界面上显示所述自然语言输入信息；

在所述用户界面上显示与所述自然语言输入信息中提及的症状相关联的一个或多个问题；

针对每个问题：从用户接收针对该问题的答案，并在所述用户界面上显示所述答案，以及

在问答结束之后，生成并在用户界面上显示针对所述症状的诊断结果。
根据权利要求24所述的医疗对话系统，其中，所述诊断结果包括以下各项中的至少一个：可能的疾病类型、可能的疾病类型具有的症状、适用于可能的疾病类型的推荐药物、推荐药物所针对的症状、了解推荐药物更多信息的链接。
根据权利要求25所述的医疗对话系统，其中，所述诊断结果以自然语言的形式输出并显示在所述用户界面上。
根据权利要求24所述的医疗对话系统，其中，所述问题包括多个选项，使得用户选择多个选项中的一个作为所述答案。
根据权利要求24所述的医疗对话系统，其中，所述指令还使得所述处理器对所述自然语言输入信息执行命名实体识别处理以提取症状信息。
根据权利要求24所述的医疗对话系统，其中，所述计算机程序指令还包括强化学习模型的指令集，其中所述强化学习模型是根据权利要求1-8中任一项所述的训练方法来进行训练的。
根据权利要求29所述的医疗对话系统，其中，所述医疗对话系统还基于知识图谱来生成所述诊断结果，

其中，所述知识图谱包括M种疾病和N种症状的节点以及各种疾病与各种症状之间的对应关系，其中M和N为大于等于1的整数，以及针对每种疾病的推荐药物、预防手段、治疗方案、和病因。