WO2019000905A1

WO2019000905A1 - 分诊对话方法、分诊对话设备及系统

Info

Publication number: WO2019000905A1
Application number: PCT/CN2018/072098
Authority: WO
Inventors: 张振中
Original assignee: 京东方科技集团股份有限公司
Priority date: 2017-06-28
Filing date: 2018-01-10
Publication date: 2019-01-03
Also published as: EP3660854B1; EP3660854A4; US20190385739A1; CN109147930A; EP3660854A1; US10872697B2

Abstract

一种分诊对话方法、分诊对话设备以及分诊对话系统。所述分诊对话方法包括：接收分诊对话内容(S202)；将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量(S2041)；输入所述对话特征向量至编码器，并通过所述编码器生成中间表示向量(S2042)；根据所述中间表示向量，判断分诊任务是否成功完成(S206')；以及根据所述分诊任务的判断结果，调整分诊对话策略(S208)。

Description

分诊对话方法、分诊对话设备及系统

本公开要求于2017年6月28日递交的中国专利申请第201710507287.0号的优先权，在此全文引用上述中国专利申请公开的内容以作为本公开的一部分。

技术领域

本公开的实施例涉及一种分诊对话方法、分诊对话设备及系统。

背景技术

智能分诊是指根据患者的主要症状及体征，诊断出可能的疾病，判断病情的轻重缓急及其隶属专科，并推荐有效的就诊路径等。相比传统的门诊分诊，智能分诊能够更快速更准确地判断疾病并给出合理建议。因此，在目前社会医疗资源紧张的情况下，智能分诊受到医疗界的广泛关注，具有广阔的应用前景。

具体来说，智能分诊系统(triage dialogue system)的主要任务是依据患者的症状体征快速准确地判断其隶属专科，并给出有效的就诊路径。为了完成这一任务，智能分诊系统需要同患者进行人机交互，收集患者的症状体征信息。通常来说，同患者交互的次数越多，收集的症状体征信息就越全面，从而做出的判断就越准确。但是，同患者交互的次数越多，也就意味着需要的时间越多，而这会耽误患者的就诊时间以及浪费医疗资源。因此，智能分诊系统能顺利完成分诊任务的关键在于在人机交互过程中能够准确地判断任务是否成功完成。传统的分诊系统通常基于人工编写的规则库或者基于机器学习的方法(例如Airdoc分诊系统)。但是这两种方式都没有显式地评估智能分诊任务是否成功完成。

发明内容

本公开实施例提供一种分诊对话方法，包括：接收分诊对话内容；将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量；输入所述对话特征向量至编码器，并通过所述编码器生成中间表示向量；根据所述中间表示向量，判断分诊任务是否成功完成；以及根据所述分诊任务的判断结果，调整分诊对话策略。

例如，所述编码器采用双向门控循环单元网络；基于所述双向门控循环单元网络的前向隐藏序列和后向隐藏序列，所述中间表示向量h为：

其中，

表征所述前向隐藏序列

中的第i个元素

和所述后向隐藏序列

中第i个元素

的连接，以及T表征所述对话特征的数目。

例如，根据所述中间表示向量，判断分诊任务是否成功完成，包括：基于以往的中间表示向量以及所述中间表示向量，计算所述分诊任务完成的成功概率。

例如，所述判断分诊任务是否成功完成被刻画为高斯过程，所述成功概率为：

其中，H表示以往的中间表示向量；h表示所述中间表示向量，其为当前的中间表示；y∈{-1,1}，y＝1表示所述分诊任务成功完成；φ(·)为标准正态分布的分布函数；μ _*和

分别为f(h)的后验均值和后验方差，f(·)表示潜在函数，被刻画为高斯过程。

例如，当所述成功概率落入失败区间，则所述判断结果为确定所述分诊任务失败；当所述成功概率落入不确定区间，则所述判断结果为不确定所述分诊任务是否成功完成；或者，当所述成功概率落入成功区间，则所述判断结果为确定所述分诊任务已完成。

例如，根据所述分诊任务的判断结果，调整分诊对话策略，包括：当所述判断结果为确定所述分诊任务失败时，继续与用户进行交互；当所述判断结果为不确定所述分诊任务是否成功完成时，提示所述用户提供反馈信息，并根据所述反馈信息确定是否继续与所述用户进行交互；或者，当所述判断结果为确定所述分诊任务已完成时，终止与所述用户的对话。

例如，当所述判断结果为不确定所述分诊任务是否成功完成时，根据所述反馈信息确定是否继续与所述用户进行交互，包括：当所述反馈信息表示所述分诊任务已完成，终止与所述用户的对话；或者，当所述反馈信息表示所述分诊任务尚未完成，选择信息增益最大的信息与所述用户进行交互。

例如，选择信息增益最大的信息与所述用户进行交互，包括：计算不同症状的信息增益，并确定与所述最大信息增益相关联的症状；以及选择与所述最大信息增益相关联的症状与所述用户进行交互。

本公开实施例提供一种分诊对话设备，包括处理器和存储器，所述存储器用于存储指令，其中，所述指令被所述处理器执行时实现以下操作：接收分诊对话内容；将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量；输入所述对话特征向量至编码器，并通过所述编码器生成中间表示向量；根据所述中间表示向量，判断分诊任务是否成功完成；以及根据所述分诊任务的判断结果，调整分诊对话策略。

其中，

表征所述前向隐藏序列

中的第i个元素

和所述后向隐藏序列

中第i个元素

的连接，T表征所述对话特征的数目。

例如，所述根据所述中间表示向量，判断分诊任务是否成功完成的操作，包括：基于以往的中间表示向量以及所述中间表示向量，计算所述分诊任务完成的成功概率。

例如，所述根据所述分诊任务的判断结果，调整分诊对话策略的操作，包括：当所述判断结果为确定所述分诊任务失败时，继续与用户进行交互；当所述判断结果为不确定所述分诊任务是否成功完成时，提示所述用户提供反馈信息，并根据所述反馈信息确定是否继续与所述用户进行交互；或者，当所述判断结果为确定所述分诊任务已完成时，终止与所述用户的对话。

例如，所述当所述判断结果为不确定所述分诊任务是否成功完成时，根据所述反馈信息确定是否继续与所述用户进行交互的操作，包括：当所述反馈信息表示所述分诊任务已完成，终止与所述用户的对话；或者，当所述反馈信息表示所述分诊任务尚未完成，选择信息增益最大的信息与所述用户进行交互。

例如，所述选择信息增益最大的信息与所述用户进行交互的操作，包括：计算不同症状的信息增益，并确定与所述最大信息增益相关联的症状；以及选择与所述最大信息增益相关联的症状与所述用户进行交互。

例如，所述分诊对话设备还包括交互接口，其中，所述交互接口被配置为实现与用户之间的交互。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现以下操作：接收分诊对话内容；将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量；输入所述对话特征向量至编码器，并通过所述编码器生成中间表示向量；根据所述中间表示向量，判断分诊任务是否成功完成；以及根据所述分诊任务的判断结果，调整分诊对话策略。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，而非对本公开的限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种分诊对话系统的示意性框图；

图2A为本公开实施例提供的一种分诊对话方法的流程图之一；

图2B为本公开实施例提供的一种分诊对话方法的流程图之二；

图3为本公开实施例提供的一种分诊对话设备的示意性框图；

图4为本公开实施例提供的一种分诊对话装置的示意性框图；

图5为本公开实施例提供的一种编码器和解码器的示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，以下举实施例对本公开作进一步详细说明。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

本公开实施例提出一种基于主动奖励学习(active reward learning)的分诊对话设备、分诊对话方法以及分诊对话系统，能够依据用户(例如，患者)的症状体征快速准确地判断隶属专科并给出有效的就诊建议。在每轮分诊对话过程中，显式地判断分诊任务是否可以成功完成，并依据该判断结果调整对话策略。例如，通过使用高斯过程的主动学习方法建模奖励模型，并依据奖励模型输出的强化信号调整分诊对话策略(triage dialogue policy)，以便使期望奖励值达到最大(即，以便快速准确地完成分诊任务)。所述分诊对话设备、分诊对话方法以及分诊对话系统具有，但不限于，如下优点：(1)通过使用主动学习方法判断是否需要用户反馈，减轻用户负担；(2)有助于减轻噪音数据对对话策略学习的影响，提高性能；(3)通过用户的显式反馈，学习对话策略，有助于快速准确地完成分诊任务。

例如，当用户(例如，患者)与分诊对话系统进行交互时，本公开实施例提供的分诊对话设备、分诊对话方法以及分诊对话系统可以与用户一起完成如下表格1所示的分诊对话：

表格1：

在上述示例中，分诊对话设备通过和用户交互了解到伤情是蛇伤，但此时分诊对话设备还无法确定是有毒蛇伤还是无毒蛇伤(这两种蛇伤的处理方法不同)。因此，分诊对话设备继续和用户交互，通过症状推断是有毒蛇伤，但还无法确定是哪种蛇伤(例如溶血性毒素、神经性毒素还是混合毒素，不同的毒素对应不同的血清)。通过和用户的进一步交互，由蛇的外形特征判断用户可能被蝮蛇咬伤，最后建议用户挂号急诊科并推荐治疗建议，至此分诊任务成功完成。

下面将结合附图对本公开实施例提供的一种分诊对话设备、分诊对话方法以及分诊对话系统进行详细的说明。

图1为本公开实施例提供的一种分诊对话系统100的示意性框图。如图1所示，分诊对话系统100可以包括分诊对话设备101、用户设备106和服务器150等。系统100中的各设备和/或服务器可以通过网络160连接。系统100的各设备和/或服务器之间可以直接或间接地互相通信，例如，系统100的各设备和/或服务器可以通过网络160互相发送和接收数据和/或信号。

网络160可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。例如，网络160可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。例如，网络160可以为医疗网络。本公开对网络160的类型和功能在此不作限制。

服务器150可以为一种包括处理器和存储器的计算设备。例如，服务器150可以为局域网中的服务器或云端服务器。

分诊对话设备101可以为一种用于完成分诊任务的设备。分诊对话设备 101将在下面结合图2A-5进行详细的说明。

用户设备106可以为一种包括处理器和存储器的计算设备。例如，用户设备106可以为电视、智能家电设备、台式电脑、笔记本电脑、智能手机、平板电脑、游戏控制器、音乐播放器(例如mp3播放器等)以及其他包括处理器和存储器的终端(例如，移动终端，智能终端)。在一些实施例中，用户设备106可以包括处理器、存储器以及诸如输入设备和输出设备等其他部件。在一些例子中，用户可以通过用户设备106来实现与分诊对话设备101的交互。例如，用户可以使用用户设备106中的应用(app)来完成与分诊对话设备101的对话。

在一些实施例中，系统100的各设备和/或服务器根据需要还可以包括显示装置(例如LCD、OLED等)、输入装置(例如触控装置、键盘、麦克风、鼠标等)、扬声器等。本公开在此不作限定。

图2A示出了本公开实施例提供的一种基于主动奖励学习的分诊对话方法200的流程图之一。该分诊对话方法200包括：步骤S202，接收分诊对话内容；步骤S204，生成所述分诊对话内容的中间表示；步骤S206，根据所述中间表示，判断分诊任务是否成功完成；以及步骤S208，根据所述分诊任务的判断结果，调整分诊对话策略。

图2B示出了本公开实施例提供的一种基于主动奖励学习的分诊对话方法200的流程图之二。该分诊对话方法250包括：步骤S202，接收分诊对话内容；步骤S2041，将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量；步骤S2042，输入所述对话特征向量至编码器，并通过所述编码器生成中间表示向量；步骤S206’，根据所述中间表示向量，判断分诊任务是否成功完成；以及步骤S208，根据所述分诊任务的判断结果，调整分诊对话策略。

图2A的方法200和图2B的方法250相类似，不同点包括：图2A中的步骤S204被分解为图2B的步骤S2041和S2042；图2A中的步骤S206被替换为图2B的步骤S206’。当图2A的步骤S206的“中间表示”为“中间表示向量”时，图2A中的步骤S206和图2B的步骤S206’相同。

在步骤S202中，接收分诊对话内容，包括：接收分诊对话设备101与用户之间交互的对话内容。例如，上述表格1示出了分诊对话设备101与用户的三组对话(人机对话1、人机对话2、人机对话3)。用户可以通过语音、显示屏(例如，带触摸功能的触摸屏)、体感装置、键盘、鼠标或用户设备的应用(app)等，来实现与分诊对话设备101的交互。

在一些实施例中，所述中间表示为中间表示向量h，具有固定维数dim(h)。在图2A的步骤S204中，生成所述分诊对话内容的中间表示，首先包括：将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量(图2B的步骤2041)。

具体地，将分诊对话内容切分成一系列的对话特征{d ₁,d ₂,…,d _T}，其中，每一个特征d _i包含了一组人机对话，1≤i≤T。例如，结合上述表格1，对话特征d ₁＝{被蛇咬了右手；您能描述一下症状吗}，对话特征d ₂＝{右手红肿疼痛、心悸、胸闷；您能描述一下蛇的种类或者颜色外形吗}，对话特征d ₃＝{身体短粗，尾巴特别短，暗褐色；建议挂号急诊科，及时注射蝮蛇抗毒血清}，依此类推。

由于使用计算机对自然语言进行处理需要将自然语言转换为机器能够识别的符号，因此，可以将对话特征进行数值化(即，将对话特征{d ₁,d ₂,…,d _T}转化为对话特征向量

)。例如，可以利用词向量(word representation)(即，使用一个指定长度的实数向量来表示一个词)实现对话特征的数值化。又例如，可以通过神经网络或者深度学习对词进行训练，输出指定维度的向量，该向量可以作为输入词的表达(例如，word2vec)。本公开对对话特征的数值化的方法不作限定。

在图2A的步骤S204中，生成所述分诊对话内容的中间表示，还包括：构建编码器和解码器；以及将所述对话特征向量

输入至所述编码器，并通过所述编码器生成所述中间表示向量h并输出(图2B中的步骤S2042)。所述编码器和解码器的一个例子如图5所示。

例如，参照图5，编码器502可以采用双向门控循环单元网络(bi-directional gated recurrent unit network,BGRU)。门控循环单元网络是一种能够缓解梯度弥散问题的循环神经网络(Recurrent Neural Network,RNN)。BGRU编码器502以对话特征向量

作为输入，计算特征序列不同方向(从前向后和从后向前)的信息。例如，前向隐藏序列中的第i个元素

和后向隐藏序列中的第i个元素

分别为：

其中，GRU(·)表示门控循环单元网络的激活函数。基于所述双向门控循环单元网络的前向隐藏序列和后向隐藏序列，所述中间表示向量h为：

其中，

用以表征所述前向隐藏序列

中的第i个元素

和所述后向隐藏序列

中第i个元素

的连接(concatenation)；以及T表征所述对话特征的数目。

继续参照图5，解码器504可以采用前向门控循环单元网络来实现，其以编码器502输出的中间表示向量h作为输入，产生一系列对话特征向量

编码器502和解码器504进行训练时，采用的目标函数可以为输出的对话特征向量

和输入的对话特征向量

之间的均方误差(Mean Square Error,MSE)，计算方式如下：

其中，N表示训练数据中对话特征向量的个数，||·|| ²表示L2范式。因为编码器和解码器所用的函数都是可导的，可以采用随机梯度下降方法(Stochastic Gradient Decent,SGD)去训练编码器和解码器。

继续参照图2A，在步骤S206中，根据所述中间表示，判断分诊任务是否成功完成，包括：基于以往的中间表示以及所述中间表示，计算所述分诊任务完成的成功概率。例如，基于之前的一部分或所有的中间表示以及目前的中间表示，计算所述分诊任务完成的成功概率。分诊任务完成可以为推断出患者的患病情况、判断病症隶属的科室并推荐治疗建议等。

例如，在图2B的步骤S206’中，根据所述中间表示向量，判断分诊任务是否成功完成，包括：基于以往的中间表示向量以及所述中间表示向量，计算所述分诊任务完成的成功概率。例如，基于之前的一部分或所有的中间表示以及目前的中间表示，计算所述分诊任务完成的成功概率。例如，在图2A的步骤S206和/或图2B的步骤S206’中，所述判断分诊任务是否成功完成可以被刻画为高斯过程(Gaussian Process,GP)，即计算成功概率p(y|h,H)，其中：y∈{-1,1}，y＝-1表示分诊失败，y＝1表示分诊成功；h表示当前对话的中间表示向量；H是以前的对话的中间表示向量(例如，以前的一部分或所有的对话的中间表示向量，又称作以往的中间表示向量)。

可以定义p(y＝1|h,H)＝φ(f(h|H))，其中，φ(·)是标准正态分布的分布函数，以及f(h|H)是一个潜在函数，f(h|H)将dim(h)维的向量映射为实数(即R ^dim(h)→R)。本公开实施例将潜在函数f(·)刻画为高斯过程，即f(h)～GP(m(h),k(h,h'))，其中，m(·)表示均值函数，k(·,·)是核函数，其计算公式如下：

其中，exp(·)是以自然常数e为底的指数函数，ε _n用来建模噪音。参数p、l以及ε _n可以通过基于梯度的方法进行参数学习。给定当前对话的中间表示向量h和之前对话的中间表示向量H，可以计算f(h)的后验均值μ _*和后验方差

(后验均值μ _*和后验方差

的计算方法可以参见Y Engel,S Mannor,and R Meir,2005.Reinforcement learning with Gaussian processes.In Proceedings of ICML)。当前对话的中间表示向量h能够成功完成分诊任务的概率(即，成功概率)为：

在分诊过程中，需要判断当前分诊任务是否成功完成。如果已经成功完成分诊任务，则不需要继续和用户进行交互，以防止浪费用户的就诊时间。当然，可以由用户反馈分诊任务是否成功。例如，分诊对话设备每回答一句话，用户都可以选择分诊任务完成或者没完成，如果用户选择分诊任务完成，则分诊对话设备终止此次对话。然而，这样会增加用户的负担，给用户带来不好的体验。因此，本公开的实施例通过主动学习方法评估当前分诊任务是否需要用户反馈。

例如，可以设定不确定区间[λ,1-λ](0<λ<0.5)，失败区间[0,λ)以及成功区间(λ,1]。当所述成功概率p落入失败区间[0,λ)，则步骤S206和/或步骤S206’的所述判断结果为确定所述分诊任务失败，表示有很大的可能性没有完成分诊任务，此时，需要继续和用户交互以确保任务完成或者调整对话策略。当所述成功概率p落入成功区间(λ,1]，则步骤S206和/或步骤S206’的所述判断结果为确定所述分诊任务已完成，表示有很大的可能性完成任务。当所述成功概率p落入不确定区间[λ,1-λ]，则步骤S206和/或步骤S206’的所述判断结果为不确定所述分诊任务是否成功完成，需要调整对话策略(如步骤S208所示)。

在步骤S208中，根据所述分诊任务的判断结果，调整分诊对话策略，包括：

步骤S2080，当所述判断结果为确定所述分诊任务失败时，继续与用户交互和/或调整对话策略；

步骤S2082，当所述判断结果为不确定所述分诊任务是否成功完成时，提示所述用户提供反馈信息，并根据所述反馈信息确定是否继续与所述用户进行交互；或者，

步骤S2084，当所述判断结果为确定所述分诊任务已完成时，终止与所述用户的对话。

例如，在步骤S2082中，当所述判断结果为不确定所述分诊任务是否成功完成时，根据所述反馈信息确定是否继续与所述用户进行交互，包括：当所述反馈信息表示所述分诊任务已完成，终止与所述用户的对话；或者，当所述反馈信息表示所述分诊任务尚未完成，选择信息增益(information gain,IG)最大的信息与所述用户进行交互。

例如，在调整对话策略时，可以选择信息增益最大的信息与所述用户进行交互，其包括：计算不同症状的信息增益，并确定与所述最大信息增益相关联的症状；以及选择与所述最大信息增益相关联的症状与所述用户进行交互。

下面以表格2中所示的疾病和症状为例，对选择信息增益最大的信息与用户进行交互的操作进行说明。为了简单清楚地描述示例，下面的说明只局限在表格2所列的疾病和症状，然而，其应用并不限于表格2中的3种疾病以及8种症状，其可以应用于任何疾病以及任何症状，本公开在此不作限定。

表格2：

疾病	关系	症状或体征
高血压	引发	头疼、眩晕、恶心、尿多
偏头痛	引发	头疼、眩晕、恶心、呕吐
神经衰弱	引发	头疼、眩晕、失眠、焦虑、烦躁

假设有患者出现“头疼”和“眩晕”的症状，此时分诊对话设备无法判断该患者是患有表格2中的哪一种疾病。分诊对话设备需要向患者询问更多的问题来收集信息以便更准确的分析患者的情况。例如，分诊对话设备可以问“请问您最近出现恶心的症状吗？”或者“您最近尿多吗？”等。具体来说，首先要确定一种症状，然后依据该症状询问患者。例如，分诊对话设备可以询问患者“您最近尿多吗？”，如果患者回答是，则分诊对话设备可以断定该患者有很大的可能是患有糖尿病。因此，如何选择症状来询问患者是一个需要解决的问题。例如，分诊对话设备需要从“恶心”、“尿多”、“呕吐”等症状中选择一个来询问患者。一种示例性的解决方案是选择信息增益最大的症状来进行询问。

例如，信息增益的计算方式如下：

IG(symptom)＝H(diseases)-H(diseases|sympton),

其中，symptom表示症状，diseases表示疾病，H(·)表示熵。例如，IG(symptom)表示该症状symptom的信息增益，H(diseases)表示患病的熵，H(diseases|symptom)表示给定该症状symptom时患病的熵。

下面以高血压的两个相关症状“恶心”和“尿多”为例，说明信息增益的计算过程以及症状的选择过程。对于这两个症状，可以分别计算它们的信息增益(IG)，并选择信息增益最大的症状向患者询问。假设患者患上“高血压”，“偏头痛”和“神经衰弱”的概率均服从均匀分布，例如，概率p(高血压)＝p(偏头痛)＝p(神经衰弱)＝1/3，其中，p(·)表示概率。在这种情况下，患病的熵为：

当症状为“恶心”的时候，概率p(高血压)＝1/2，p(偏头痛)＝1/2，p(神经衰弱)＝0，这是因为在本例中出现恶心的疾病只有高血压和偏头痛。此时，给定该恶心症状时患病的熵H(diseases|恶心)、以及恶心症状的信息增益IG(恶心)为：

则

当症状为“尿多”的时候，概率p(高血压)＝1，p(偏头痛)＝0，p(神经衰弱)＝0，这是因为在本例中出现尿多的疾病只有高血压。此时，给定该尿多症状时患病的熵H(diseases|尿多)、以及尿多症状的信息增益IG(尿多)为

因为尿多的信息增益大于恶心的信息增益(即，IG(尿多)>IG(恶心))，所以可以选择症状“尿多”向患者提问(例如，提问“您最近出现尿多情况吗？”)。如果患者回答“是”，则确定疾病为高血压。如果回答“否”，则排除高血压，并将剩下的疾病(对于本例来说，“偏头痛”、“神经衰弱”)作为候选的疾病来重复上述步骤，直到确定疾病或者患者终止该过程。

参照图3，本公开实施例还提供一种基于主动奖励学习的分诊对话设101，包括：处理器302和存储器304，所述存储器304用于存储指令，其中，所述指令被所述处理器302执行时实现以下操作：接收分诊对话内容；将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量；输入所述对话特征向量至编码器，并通过所述编码器生成中间表示向量；根据所述中间表示向量，判断分诊任务是否成功完成；以及根据所述分诊任务的判断结果，调整分诊对话策略。

处理器302可以处理数据信号，可以包括各种计算结构，例如复杂指令集计算机(CISC)结构、结构精简指令集计算机(RISC)结构或者一种实行多种指令集组合的结构。在一些实施例中，处理器302也可以是微处理器，例如X86处理器或ARM处理器，或者可以是数字处理器(DSP)等。处理器302可以控制分诊对话设备101中的其它部件以执行期望的功能。

存储器304可以保存处理器302执行的指令和/或数据。例如，存储器 304可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器302可以运行所述程序指令，以实现本公开实施例提供的分诊对话功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

其中，

用以表征所述前向隐藏序列

中的第i个元素

和所述后向隐藏序列

中第i个元素

的连接，T表征所述对话特征的数目。

例如，所述指令被所述处理器302执行时实现的“根据所述中间表示向量，判断分诊任务是否成功完成”的操作，包括：基于以往的中间表示向量以及所述中间表示向量，计算所述分诊任务完成的成功概率。

其中，H表示以往的一部分或全部中间表示向量；h表示所述中间表示向量，其为当前的中间表示向量；y∈{-1,1}，y＝1表示所述分诊任务成功完成；φ(·)为标准正态分布的分布函数；μ _*和

例如，当所述成功概率落入失败区间，则所述判断结果为确定所述分诊任务失败；当所述成功概率落入不确定区间，则所述判断结果为不确定所述分诊任务是否成功完成；或者当所述成功概率落入成功区间，则所述判断结果为确定所述分诊任务已完成。

例如，所述指令被所述处理器302执行时实现的“根据所述分诊任务的判断结果，调整分诊对话策略”的操作，包括：当所述判断结果为确定所述分诊任务失败时，继续与用户进行交互；当所述判断结果为不确定所述分诊任务是否成功完成时，提示所述用户提供反馈信息，并根据所述反馈信息确定是否继续与所述用户进行交互；或者，当所述判断结果为确定所述分诊任务已完成时，终止与所述用户的对话。

例如，所述指令被所述处理器302执行时实现的“所述当所述判断结果为不确定所述分诊任务是否成功完成时，根据所述反馈信息确定是否继续与所述用户进行交互”的操作，包括：当所述反馈信息表示所述分诊任务已完成，终止与所述用户的对话；或者，当所述反馈信息表示所述分诊任务尚未完成，选择信息增益最大的信息与所述用户进行交互。

例如，所述指令被所述处理器302执行时实现的“选择信息增益最大的信息与所述用户进行交互”的操作，包括：计算不同症状的信息增益，并确定与所述最大信息增益相关联的症状；以及选择与所述最大信息增益相关联的症状与所述用户进行交互。

如图3所示，所述分诊对话设备101还包括交互接口306，其中，所述交互接口306被配置为实现与用户308之间的交互。所述交互接口306可以包括麦克风、扬声器、摄像头、按钮、键盘、鼠标、显示屏和/或体感装置等。

计算机可读存储介质可以包括，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现本公开实施例提供的分诊对话功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

对图3所示的所述分诊对话设备101以及所述计算机可读存储介质的说明，可以参考上述图2A中的分诊对话方法200和图2B的分诊对话方法250的描述，本公开在此不再赘述。

如图4所示，本公开实施例还提供了一种分诊对话装置400。所述分诊对话装置400包括交互装置402、解析装置404、判断装置406以及策略调整装置408。

所述分诊对话装置400可以使用软件、硬件或软硬件结合的方式来实现。在一些实施例中，交互装置402、解析装置404、判断装置406以及策略调整装置408包括存储在存储器中的代码和程序；处理器可以执行该代码和程序以实现本公开实施例提供的一些或全部功能。

在一些实施例中，交互装置402、解析装置404、判断装置406以及策略调整装置408可以是专用硬件器件，用来实现本公开实施例提供的一些或全部功能。例如，交互装置402、解析装置404、判断装置406以及策略调整装置408可以是一个电路板或多个电路板的组合。该一个电路板或多个电路板的组合可以包括：(1)一个或多个处理器；(2)与处理器相连接的一个或多个非暂时的计算机可读的存储器；以及(3)处理器可执行的存储在存储器中的固件。

例如，所述交互装置402被配置为接收来自用户410的分诊对话内容。交互装置402可以为图3所示的交互接口306。所述解析装置404被配置为生成所述分诊对话内容的中间表示。所述判断装置406被配置为根据所述中间表示，判断分诊任务是否成功完成。所述策略调整装置408被配置为根据所述分诊任务的判断结果，调整分诊对话策略。

例如，所述中间表示为中间表示向量，所述解析装置404包括解码器，所述解析装置404还被配置为：将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量；以及将所述对话特征向量作为所述编码器的输入，通过所述编码器生成所述中间表示向量并输出。所述编码器采用双向门控循环单元网络。

所述判断装置406还被配置为：基于以往的中间表示以及所述中间表示，计算所述分诊任务完成的成功概率。例如，所述判断装置406还被配置为：基于以往的中间表示向量以及所述中间表示向量，计算所述分诊任务完成的成功概率。所述判断装置406使用高斯过程来判断所述分诊任务是否成功完成，所述成功概率为：

当所述成功概率落入失败区间，则所述判断结果为确定所述分诊任务失败；当所述成功概率落入不确定区间，则所述判断结果为不确定所述分诊任务是否成功完成；或者，当所述成功概率落入成功区间，则所述判断结果为确定所述分诊任务已完成。

所述策略调整装置408还被配置为：当所述判断结果为确定所述分诊任务失败时，继续与患者进行交互；当所述判断结果为不确定所述分诊任务是否成功完成时，提示所述患者提供反馈信息，并根据所述反馈信息确定是否继续与所述患者进行交互；或者，当所述判断结果为确定所述分诊任务已完成时，终止与所述患者的对话。

当所述判断结果为不确定所述分诊任务是否成功完成时，所述策略调整装置408还被配置为：当所述反馈信息表示所述分诊任务已完成，终止与所述患者的对话；或者，当所述反馈信息表示所述分诊任务尚未完成，选择信息增益最大的信息与所述患者进行交互。

所述策略调整装置408还被配置为：计算不同症状的信息增益，并确定与所述最大信息增益相关联的症状；以及选择与所述最大信息增益相关联的症状与所述患者进行交互。

综上所述，本公开实施例提供的一种分诊对话设备、分诊对话方法、分诊对话系统以及分诊对话装置，通过使用主动学习方法判断是否需要用户反馈，减轻用户负担，能够快速准确地完成分诊任务。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

以上所述，仅为公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种分诊对话方法，包括：

接收分诊对话内容；

将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量；

输入所述对话特征向量至编码器，并通过所述编码器生成中间表示向量；

根据所述中间表示向量，判断分诊任务是否成功完成；以及

根据所述分诊任务的判断结果，调整分诊对话策略。
如权利要求1所述的分诊对话方法，其中，

所述编码器采用双向门控循环单元网络；

基于所述双向门控循环单元网络的前向隐藏序列和后向隐藏序列，所述中间表示向量h为：

其中，
用以表征所述前向隐藏序列
中的第i个元素
和所述后向隐藏序列
中第i个元素
的连接，以及T表征所述对话特征的数目。
如权利要求1-2任一项所述的分诊对话方法，其中，根据所述中间表示向量，判断分诊任务是否成功完成，包括：

基于以往的中间表示向量以及所述中间表示向量，计算所述分诊任务完成的成功概率。
如权利要求3所述的分诊对话方法，其中，

所述判断分诊任务是否成功完成被刻画为高斯过程，所述成功概率为：

其中，H表示所述以往的中间表示向量；h表示所述中间表示向量，其为当前的中间表示；y∈{-1,1}，y＝1表示所述分诊任务成功完成；φ(·)为标准正态分布的分布函数；μ _*和
分别为f(h)的后验均值和后验方差，f(·) 表示潜在函数，被刻画为高斯过程。
如权利要求3-4任一项所述的分诊对话方法，其中，

当所述成功概率落入失败区间，则所述判断结果为确定所述分诊任务失败；

当所述成功概率落入不确定区间，则所述判断结果为不确定所述分诊任务是否成功完成；或者

当所述成功概率落入成功区间，则所述判断结果为确定所述分诊任务已完成。
如权利要求1-5任一项所述的分诊对话方法，其中，根据所述分诊任务的判断结果，调整分诊对话策略，包括：

当所述判断结果为确定所述分诊任务失败时，继续与用户进行交互；

当所述判断结果为不确定所述分诊任务是否成功完成时，提示所述用户提供反馈信息，并根据所述反馈信息确定是否继续与所述用户进行交互；或者

当所述判断结果为确定所述分诊任务已完成时，终止与所述用户的对话。
如权利要求6所述的分诊对话方法，其中，当所述判断结果为不确定所述分诊任务是否成功完成时，根据所述反馈信息确定是否继续与所述用户进行交互，包括：

当所述反馈信息表示所述分诊任务已完成，终止与所述用户的对话；或者

当所述反馈信息表示所述分诊任务尚未完成，选择信息增益最大的信息与所述用户进行交互。
如权利要求7所述的分诊对话方法，其中，选择信息增益最大的信息与所述用户进行交互，包括：

计算不同症状的信息增益，并确定与所述最大信息增益相关联的症状；以及

选择与所述最大信息增益相关联的症状与所述用户进行交互。
一种分诊对话设备，包括处理器和存储器，所述存储器用于存储指令，其中，所述指令被所述处理器执行时实现以下操作：

接收分诊对话内容；

将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量；

输入所述对话特征向量至编码器，并通过所述编码器生成中间表示向量；

根据所述中间表示向量，判断分诊任务是否成功完成；以及

根据所述分诊任务的判断结果，调整分诊对话策略。
如权利要求9所述的分诊对话设备，其中，

所述编码器采用双向门控循环单元网络；

基于所述双向门控循环单元网络的前向隐藏序列和后向隐藏序列，所述中间表示向量h为：

其中，
用以表征所述前向隐藏序列
中的第i个元素
和所述后向隐藏序列
中第i个元素
的连接，T表征所述对话特征的数目。
如权利要求9-10任一项所述的分诊对话设备，其中，所述根据所述中间表示向量，判断分诊任务是否成功完成的操作，包括：

基于以往的中间表示向量以及所述中间表示向量，计算所述分诊任务完成的成功概率。
如权利要求11所述的分诊对话设备，其中，所述判断分诊任务是否成功完成被刻画为高斯过程，所述成功概率为：

其中，H表示所述以往的中间表示向量；h表示所述中间表示向量，其为当前的中间表示；y∈{-1,1}，y＝1表示所述分诊任务成功完成；φ(·)为标准正态分布的分布函数；μ _*和
分别为f(h)的后验均值和后验方差，f(·)表示潜在函数，被刻画为高斯过程。
如权利要求11-12任一项所述的分诊对话设备，其中，

当所述成功概率落入失败区间，则所述判断结果为确定所述分诊任务失败；

当所述成功概率落入不确定区间，则所述判断结果为不确定所述分诊任务是否成功完成；或者

当所述成功概率落入成功区间，则所述判断结果为确定所述分诊任务已完成。
如权利要求9-13任一项所述的分诊对话设备，其中，所述根据所述分诊任务的判断结果，调整分诊对话策略的操作，包括：

当所述判断结果为确定所述分诊任务失败时，继续与用户进行交互；

当所述判断结果为不确定所述分诊任务是否成功完成时，提示所述用户提供反馈信息，并根据所述反馈信息确定是否继续与所述用户进行交互；或者

当所述判断结果为确定所述分诊任务已完成时，终止与所述用户的对话。
如权利要求14所述的分诊对话设备，其中，所述当所述判断结果为不确定所述分诊任务是否成功完成时，根据所述反馈信息确定是否继续与所述用户进行交互的操作，包括：

当所述反馈信息表示所述分诊任务已完成，终止与所述用户的对话；或者

当所述反馈信息表示所述分诊任务尚未完成，选择信息增益最大的信息与所述用户进行交互。
如权利要求15所述的分诊对话设备，其中，所述选择信息增益最大的信息与所述用户进行交互的操作，包括：

计算不同症状的信息增益，并确定与所述最大信息增益相关联的症状；以及

选择与所述最大信息增益相关联的症状与所述用户进行交互。
如权利要求9-16任一项所述的分诊对话设备，还包括交互接口，其中，所述交互接口被配置为实现与用户之间的交互。
一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现以下操作：

接收分诊对话内容；

将所述分诊对话内容切分为一系列对话特征，并生成与所述对话特征一一对应的对话特征向量；

输入所述对话特征向量至编码器，并通过所述编码器生成中间表示向量；

根据所述中间表示向量，判断分诊任务是否成功完成；以及

根据所述分诊任务的判断结果，调整分诊对话策略。