WO2021151356A1

WO2021151356A1 - 分诊数据处理方法、装置、计算机设备及存储介质

Info

Publication number: WO2021151356A1
Application number: PCT/CN2020/135341
Authority: WO
Inventors: 刘卓; 李彦轩; 孙行智
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-09-08
Filing date: 2020-12-10
Publication date: 2021-08-05
Also published as: CN112017742B; CN112017742A

Abstract

一种分诊数据处理方法、装置、计算机设备及存储介质，涉及人工智能技术领域，所述方法包括：通过获取患者的患者症状信息；通过层级强化学习模型中的上层学习模型对患者症状信息进行人体系统识别，识别出第一人体系统类别；自层级强化学习模型中获取与第一人体系统类别关联的下层强化学习模型；通过获取的下层强化学习模型对患者症状信息进行预测并获取动作结果；在动作结果为推荐科室动作时，通过科室分诊模型对患者症状信息进行症状特征识别，识别出与患者对应的分诊结果。该方法通过层级强化学习模型询问患者相关症状，能够快速地、准确地确定患者就诊的科室。该方法适用于智慧医疗等领域，可进一步推动智慧城市的建设。

Description

分诊数据处理方法、装置、计算机设备及存储介质

本申请要求于2020年9月8日提交中国专利局、申请号为202010935263.7，发明名称为“分诊数据处理方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种分诊数据处理方法、装置、计算机设备及存储介质。

背景技术

随着医学的进步和发展，医院对于科室的设置也更专业化，随之带来的问题是用户选择科室带来一定的困难，为了解决这个问题各大医院都增加了导诊环节，包括导诊人员和自主导诊服务，主要是帮助患者推荐诊疗科室。

目前，发明人发现患者去医院就诊时，首先需要去分诊台进行人工分诊，在该过程中患者需要消耗大量排队时间，而且对分诊台的导诊人员的专业知识深度及广度上有较高的要求，如果导诊人员给患者分诊错误，又需要重新进行分诊，大大浪费患者的时间，严重影响患者体验，因此，在现有技术上，患者进行人工分诊过程中耗时长、很难给出合理的就诊科室或者就诊医生，从而导致患者体验差，以及就诊准确率低。

发明内容

本申请提供一种分诊数据处理方法、装置、计算机设备及存储介质，实现了通过层级强化学习模型询问患者相关症状，能够提取出有用的患者症状信息，再通过科室分诊模型对有用的患者症状信息进行症状特征识别，本申请适用于智慧医疗等领域，可进一步推动智慧城市的建设，能够快速地、准确地确定患者需要就诊的科室，提升了就诊准确率，提升了患者体验。

一种分诊数据处理方法，包括：

接收到患者的患者请求，获取所述患者请求中的患者症状信息；

将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联；自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型；

通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；所述动作结果为针对所述患者症状信息确定的最优调度动作；

在所述动作结果为推荐科室动作时，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。

一种分诊数据处理装置，包括：

接收模块，用于接收到患者的患者请求，获取所述患者请求中的患者症状信息；

识别模块，用于将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联；

获取模块，用于自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型；

预测模块，用于通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；所述动作结果为针对所述患者症状信息确定的最优调度动作；

分诊模块，用于在所述动作结果为推荐科室动作时，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联；

自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型；

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

本申请提供的分诊数据处理方法、装置、计算机设备及存储介质，通过接收到患者的患者请求，获取所述患者请求中的患者症状信息；将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联；自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型；通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；所述动作结果为针对所述患者症状信息确定的最优调度动作；在所述动作结果为推荐科室动作时，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果，如此，实现了通过获取患者的患者症状信息；通过层级强化学习模型中的上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；自所述层级强化学习模型中获取与所述第一人体系统类别关联的所述下层强化学习模型；通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；在所述动作结果为推荐科室动作时，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果，因此，实现了通过层级强化学习模型询问患者相关症状，能够提取出有用的患者症状信息，再通过科室分诊模型对有用的患者症状信息进行症状特征识别，能够快速地、准确地确定患者需要就诊的科室，提升了就诊准确率，提升了患者体验。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中分诊数据处理方法的应用环境示意图；

图2是本申请一实施例中分诊数据处理方法的流程图；

图3是本申请一实施例中分诊数据处理方法的步骤S20的流程图；

图4是本申请一实施例中分诊数据处理方法的步骤S30的流程图；

图5是本申请一实施例中分诊数据处理方法的步骤S10的流程图；

图6是本申请一实施例中分诊数据处理装置的原理框图；

图7是本申请一实施例中计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的分诊数据处理方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种分诊数据处理方法，其技术方案主要包括以下步骤S10-S50：

S10，接收到患者的患者请求，获取所述患者请求中的患者症状信息。

可理解地，所述患者症状信息为患者输入的与患者的症状相关的信息，所述患者可以在应用程序平台上输入完所述患者就诊信息，或者在应用程序平台上提供的所有症状描述集中选取相关的症状描述作为所述患者症状信息，或者在应用程序平台上输入完一段当前症状的语音或者文本描述，从该语音或者文本描述中识别出其中的关键词，将识别到的关键词作为所述患者症状信息等等，从而触发所述患者请求。

在一实施例中，如图5所示，所述步骤S10之前，所述获取所述患者请求中的患者症状信息之前，包括：

S101，获取患者输入的患者输入信息。

可理解地，所述患者输入信息为患者在应用程序平台上输入的文本信息。

S102，将所述患者输入信息输入预设的预处理模型，通过所述预处理模型对所述患者输入信息进行关键词识别，得到关键词结果；所述关键词结果包括关键词及与关键词关联的预测值。

可理解地，所述预处理模型为基于BERT模型且训练完成的神经网络模型，所述预处理模型能够实现识别所述患者输入信息中的关键词，并且能够预测出与各关键词对应的所述预测值，所述关键词识别的过程为运用所述预处理模型中的BERT算法对所述患者输入信息进行拆分及词向量转换，通过对转换后的词向量进行预测，预测出与其相对应的与症状相关的关键词，并且能够计算出与该关键词的相似度，从而得出各识别出的关键词的预测值，所述BERT(Bidirectional Encoder Representations from Transformers)算法为通过联合调节所有层中的双向Transformer来识别的算法。

其中，所述关键词结果为从所述患者输入信息中识别到的关键词，所述关键词结果包括多个识别到的所述关键词，所述关键词为与症状相关的且能够有效体现症状的词语。

S103，将与达到预设阈值的所述预测值对应的所述关键词确定为所述患者症状信息，并触发所述患者请求。

可理解地，所述预设阈值为预先设定的概率值，所述预设阈值可以根据需求设定，从所述关键词结果中，将大于所述预设阈值的所述预测值对应的所述关键词标记为所述患者症状信息，从而从患者输入信息中提取出有用的词语，对所述患者症状信息的用语进行统一，便于后续层级强化学习模型和科室分诊模型的识别，提高了识别效率，并提高了识别准确率和可靠性。

本申请实现了通过获取患者输入的患者输入信息；通过所述预处理模型对所述患者输入信息进行关键词识别，得到关键词结果；将与达到预设阈值的所述预测值对应的所述关键词确定为所述患者症状信息，并触发所述患者请求，如此，实现了通过预处理模型提取所述患者输入信息中的关键词，能够对患者症状信息的用语进行统一，便于后续层级强化学习模型和科室分诊模型的识别，提高了识别效率，并提高了识别准确率和可靠性。

S20，将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联。

可理解地，所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型，所述上层学习模型为训练完成的网络模型，所述上层学习模型能够对输入的信息进行人体系统识别，识别出输入的信息属于哪一类的人体系统类别，所述上层学习模型的网络结构可以根据需求设定，比如所述上层学习模型的网络结构为深度卷积神经网络模型、强化学习模型等等，所述人体系统识别为根据所述上层学习模型对所述患者症状信息进行人体系统特征提取，根据所述人体系统特征进行识别出属于哪一类的人体系统类别，所述人体系统特征为与人体系统类别相关的特征，通过所述上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别，所述第一人体系统类别为根据所述患者症状信息识别出的人体系统类别，其中，所述人体系统类别包括运动系统、神经系统、消化系统、泌尿系统、生殖系统、呼吸系统、循环系统和内分泌系统。

在一实施例中，所述上层学习模型的网络结构为强化学习模型，通过上层学习模型将所述患者症状信息作为当前状态，所述上层学习模型中的智能体(agent)根据所述当前状态确定出动作空间，并抽象出各动作空间的价值，从而得到最佳的动作，通过执行最佳的动作向与所述患者症状信息对应的人体系统类别靠拢，得到与该最佳的动作对应的奖励值，根据与该最佳的动作对应的奖励值识别出所述第一人体系统类别。

在一实施例中，如图3所示，所述步骤S20之前，即所述将所述患者症状信息输入层级强化学习模型之前，包括：

S201，获取症状样本集；所述症状样本集包括多个症状样本，所述症状样本与一个人体系统类别标签关联。

可理解地，所述症状样本集为所有所述症状样本的集合，所述症状样本为历史收集的症状词语，所述症状样本包括若干个症状词语，一个所述症状样本与一个所述人体系统类别标签关联，所述人体系统类别标签为人工对该症状样本标注的哪一类人体系统类别。

S202，将所述症状样本输入含有第一初始参数的分诊神经网络模型。

可理解地，所述分诊神经网络模型包括所述第一初始参数，所述分诊神经网络模型的网络结构可以根据需求进行设定，比如所述分诊神经网络模型的网络结构为Word2vec模型、深度卷积神经网络模型等等，所述第一初始参数可以通过迁移学习的方式直接将其他训练完成的神经网络模型中迁移过来。

S203，通过所述分诊神经网络模型对所述症状样本进行人体系统识别，获取与所述症状样本对应的所述人体系统类别的样本识别结果。

可理解地，所述人体系统识别的过程可以为通过对所述症状样本进行词向量转换，即通过词向量字典，将所述症状样本转换成词向量，将所有转换后的词向量拼接成文本特征向量，通过对文本特征向量进行卷积，即提取所述人体系统特征，通过对卷积后的文本特征向量进行全连接识别，从而识别出与所述症状样本对应的所述人体系统类别的样本识别结果，所述样本识别结果为识别出所述症状样本属于哪一类人体系统类别。

S204，根据所述样本识别结果与所述人体系统类别标签，确定出损失值。

可理解地，将所述样本识别结果和与所述症状样本关联的所述人体系统类别标签输入所述分诊神经网络模型中的损失函数中，通过所述损失函数计算出所述损失值，所述损失值表明了所述样本识别结果与所述人体系统类别标签之间的差异，所述损失函数可以根据需求设定，比如交叉熵损失函数。

S205，在所述损失值未达到预设的收敛条件时，迭代更新所述分诊神经网络模型的初始参数，直至所述损失值达到所述预设的收敛条件时，将收敛之后的所述分诊神经网络模型记录为上层学习模型。

可理解地，所述收敛条件可以为所述损失值经过了5000次计算后值为很小且不会再下降的条件，即在所述损失值经过5000次计算后值为很小且不会再下降时，停止训练，并将收敛之后的所述分诊神经网络模型记录为上层学习模型；所述收敛条件也可以为所述损失值小于设定阈值的条件，即在所述损失值小于设定阈值时，停止训练，并将收敛之后的所述所述分诊神经网络模型记录为上层学习模型，如此，在所述损失值未达到预设的收敛条件时，不断更新迭代所述卷积神经网络模型的初始参数，并触发通过通过所述分诊神经网络模型对所述症状样本进行人体系统识别，获取与所述症状样本对应的所述人体系统类别的样本识别结果的步骤，可以不断向准确的结果靠拢，让识别的准确率越来越高。

S30，自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型。

可理解地，一个下层强化学习模型与一个人体系统类别关联，所述人体系统类别包括运动系统、神经系统、消化系统、泌尿系统、生殖系统、呼吸系统、循环系统和内分泌系统，所述下层强化学习模型包括运动系统下层强化学习模型、神经系统下层强化学习模型、消化系统下层强化学习模型、泌尿系统下层强化学习模型、生殖系统下层强化学习模型、呼吸系统下层强化学习模型、循环系统下层强化学习模型和内分泌系统下层强化学习模型，各个所述上层学习模型都是通过与所述上层学习模型关联的所述人体系统类别的样本进行强化学习并训练完成后获得，所述层级强化学习模型中包括多个所述下层强化学习模型，从所述层级强化学习模型中获取与所述第一人体系统类别关联的所述下层强化学习模型，所述下层强化学习模型的训练过程中学习与其关联的人体系统类别的症状状态到动作空间的映射，使得智能体(agent)选择的动作能够获得最大的奖励，使得下层强化学习模型在某种意义下的评价(或整个模型的运行性能)为最佳，并且能够引导针对当前症状状态下做出最优动作之后向更佳或者更大奖励的询问动作。

在一实施例中，如图4所示，所述步骤S30之前，即所述自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型之前，包括：

S301，获取症状状态样本集；所述症状状态样本集包括多个症状状态样本，所述症状状态样本与一个科室标签关联，所有所述症状状态样本均与一个相同的人体系统类别关联。

可理解地，所述症状状态样本集为所述症状状态样本的集合，所述症状状态样本为历史收集的与相同的一个所述人体系统类别对应的体现症状状态的词语，所述症状状态样本可以与所述症状样本相同，也可以与所述症状样本不相同，一个所述症状状态样本包括了若干个所述症状状态的词语，一个所述症状状态样本与一个所述科室标签关联，所述科室标签为体现科室类别的标签，并且所述科室标签是根据与其关联的所述症状状态样本人工标注或者就诊之后确定的标签，所有所述症状状态样本都与相同的一个所述人体系统类别关联，所述症状状态样本集中的所述症状状态样本均是在一个人体系统类别下体现的症状状态的词语。

S302，将所述症状状态样本输入与所述人体系统类别关联且含有第二初始参数的初始强化学习模型。

可理解地，所述初始强化学习模型为通过强化学习进行训练的网络模型，所述初始强化学习模型包括所述第二初始参数。

S303，通过所述初始强化学习模型匹配出与所述症状状态样本对应的动作空间。

可理解地，所述初始强化学习模型根据所述症状状态样本中体现先的症状状态的词语，匹配出与其对应的动作空间，所述动作空间为针对所述症状状态样本而采取动作的集合，执行所述动作空间中的动作会预测出所述症状状态样本的下一步状态的可能性。

S304，执行所述动作空间，得到状态转移结果；所述状态转移结果包括科室结果和状态结果。

可理解地，通过强化学习的方式进行状态预测，所述强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的过程，所述状态预测为执行所述动作空间的动作，根据每一个动作出现的概率来采取行动，选择预测价值最高的动作，从而预测出下一步状态的最佳的可能性，根据预测出的下一步状态确定出所述状态转移结果，所述状态转移结果即为所述症状状态样本执行所述动作空间后预测出的下一步体现症状状态的词语，以及所有科室的可能性由大到小的排序，所述状态转移结果包括所述科室结果和所述状态结果，所述科室结果为预测出所有科室的可能性由大到小的顺序排序的结果，以及上一次预测出所有科室的可能性由大到小的顺序排序的结果，所述状态结果为预测出的下一步体现症状状态的词语的集合。

S305，根据所述症状状态样本、所述状态转移结果和所述科室标签，确定出奖励值。

可理解地，根据所述症状状态样本、执行完所述动作空间得到的所述状态转移结果和与所述症状状态样本关联的所述科室标签，通过所述初始强化学习模型中的奖励函数，计算出与所述状态转移结果对应的奖励值，所述奖励值表明了执行完所述动作空间后给出的奖励评价。

在一实施例中，所述步骤S305中，即所述根据所述状态转移结果和所述科室标签，确定出奖励值，包括：

S3051，将所述症状状态样本、所述状态转移结果和所述科室标签输入奖励函数中，通过所述奖励函数计算出所述奖励值；所述奖励函数为：

R _s＝α ₁·IF(s _t∈S _u)+α ₂·tanh(τ·(p _t-1-p _t))+α ₃·r _t

其中，

R _s为奖励值；

α ₁为返回值的权重；

IF(s _t∈S _u)为所述状态结果是否在症状状态样本中的返回值，所述状态结果在症状状态样本中则返回1，所述状态结果不在症状状态样本中则返回-1；

s _t为第t次状态预测的状态结果；

S _u为症状状态样本；

α ₂为预测分数指的权重；

p _t-1为在第t-1次状态预测得到的所述科室结果对应的科室序列中，与所述症状状态样本关联的科室标签的序列值；

p _t为在第t次状态预测得到的所述科室结果对应的科室序列中，与所述症状状态样本关联的科室标签的序列值；

α ₃为准确奖励值的权重；

r _t为与p _t对应的准确奖励值。

可理解地，r _t为与p _t对应的准确奖励值，在一实施例中，所述r _t与所述p _t可以存在一对一的对应关系，即随着所述p _t的变化而确定出与所述p _t对应的准确奖励值，比如p _t＝4，则r _t为50；p _t＝3，则r _t为60等等。

在一实施例中，在所述p _t为1时，所述r _t为预设的最大奖励值，所述最大奖励值表明了预测出的科室结果达到最佳的结果，比如100或者200等；在p _t不为1时，r _t为零，表明了在p _t未达到1时，不提供奖励。

S306，在所述奖励值未达到预设的奖励收敛条件时，迭代更新所述初始强化学习模型的第二初始参数，直至所述奖励值达到所述预设的奖励收敛条件时，将收敛之后的所述初始强化学习模型记录为下层强化学习模型。

可理解地，所述奖励收敛条件可以为所述p _t为1时，停止训练，也可以为经过t次状态预测之后，奖励值达到最大不会再发生变化，从而停止训练，在所述奖励值未达到预设的所述奖励收敛条件时，迭代更新所述初始强化学习模型的第二初始参数，并触发通过所述初始强化学习模型匹配出与所述症状状态样本对应的动作空间的步骤，直到所述奖励值达到所述预设的奖励收敛条件，停止训练，将收敛之后的所述初始强化学习模型记录为下层强化学习模型。

如此，通过强化学习的方式进行训练，可以不断向准确的结果靠拢，让预测的准确率越来越高。

S40，通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；所述动作结果为针对所述患者症状信息确定的最优调度动作。

可理解地，通过获取到的所述下层强化学习模型对所述患者症状信息进行预测，也即状态预测，从而预测出所述动作结果，所述动作结果为针对所述患者症状信息确定的最优调度动作产生的结果，也即在预测出的动作空间中选择的产生最佳价值(最大奖励)的动作，执行完动作之后确定出的结果，通过训练完成的所述下层强化学习模型能够通过所述患者症状信息可以匹配出一个与其对应的能够达到最大奖励的动作，并执行完该动作后产生的结果，所述动作结果包括推荐科室动作和询问动作，即在执行完动作后确定出下一步的动作是推荐科室动作还是询问动作。

S50，在所述动作结果为推荐科室动作时，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。

可理解地，在所述动作结果为所述推荐科室动作时，即达到了推荐科室动作的情况，即表明当前的所述患者症状信息能够准确地、有效地体现当前患者的表征，无需再进行补充所述患者症状信息，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，所述症状特征识别为将所述患者症状信息进行词向量转换，然后将转换后的词向量进行拼接，从而对拼接后的向量进行提取症状特征，所述症状特征为症状与科室之间的隐含的向量特性，根据所述症状特征识别出与所述患者对应的分诊结果，所述分诊结果为预测出的最高概率的分诊类别，所述分诊结果包括科室类别，即提供给患者就诊的科室的类别，所述分诊结果给患者进行预约提供了准确的依据，便于患者选择准确的科室进行预约就诊。

本申请实现了通过接收到患者的患者请求，获取所述患者请求中的患者症状信息；将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联；自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型；通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；所述动作结果为针对所述患者症状信息确定的最优调度动作；在所述动作结果为推荐科室动作时，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果，如此，实现了通过获取患者的患者症状信息；通过层级强化学习模型中的上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；自所述层级强化学习模型中获取与所述第一人体系统类别关联的所述下层强化学习模型；通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；在所述动作结果为推荐科室动作时，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果，因此，实现了通过层级强化学习模型询问患者相关症状，能够提取出有用的患者症状信息，再通过科室分诊模型对有用的患者症状信息进行症状特征识别，能够快速地、准确地确定患者需要就诊的科室，提升了就诊准确率，提升了患者体验。

在一实施例中，所述步骤S40之后，即所述通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果之后，还包括：

S60，在所述动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，接收到所述患者针对新一轮症状询问信息回答的应答信息，根据所述应答信息更新所述患者症状信息。

可理解地，在所述动作结果为询问动作时，即表明需要对所述患者症状信息进行补充，增加有用的症状信息，所述询问动作中包括所述新一轮症状询问信息，所述新一轮症状询问信息为根据所述患者症状信息和预测所述患者症状信息后的状态信息，确定出下一步的动作策略而提出的询问问题的信息，通过所述新一轮症状询问信息能够向所述患者询问有助于补充完整的患者症状信息的问题，所述患者接收到所述新一轮症状询问信息后，做出针对所述新一轮症状询问信息而回答的所述应答信息，根据接收到的所述应答信息补充至原来的所述患者症状信息中，即在原来的所述患者症状信息后增加所述应答信息，从而完成所述患者症状信息的更新，所述应答信息可以为对所述患者回答所述新一轮症状询问信息的内容进行提取的症状词语。

S70，将更新后的所述患者症状信息输入所述上层学习模型，通过所述上层学习模型对更新后的所述患者症状信息进行人体系统识别，识别出与更新后的所述患者症状信息对应的第二人体系统识别类别。

可理解地，将更新后的所述患者症状信息输入所述上层学习模型，所述人体系统识别为根据所述上层学习模型对所述患者症状信息进行人体系统特征提取，根据所述人体系统特征进行识别出属于哪一类的人体系统类别，所述人体系统特征为与人体系统类别相关的特征，通过所述上层学习模型对更新后的所述患者症状信息进行人体系统识别，识别出与更新后的所述患者症状信息对应的第二人体系统类别，所述第二人体系统类别为根据更新后的所述患者症状信息识别出的人体系统类别，所述第二人体系统类别可能跟所述第一人体系统类别相同，也可能跟所述第一人体系统类别不相同，因为有些症状词语(也即全文中的症状信息、症状状态)会出现在多个人体系统类别中。

S80，自所述层级强化学习模型中获取与识别出的所述第二人体系统类别关联的所述下层强化学习模型。

可理解地，从所述层级强化学习模型中获取与所述第二人体系统类别关联的所述下层强化学习模型，所述下层强化学习模型的训练过程中学习与其关联的人体系统类别的症状状态到动作空间的映射，使得智能体(agent)选择的动作能够获得最大的奖励，使得下层强化学习模型在某种意义下的评价(或整个模型的运行性能)为最佳，并且能够引导针对当前症状状态下做出最优动作之后向更佳或者更大奖励的询问动作。

S90，通过获取的所述下层强化学习模型对更新后的所述患者症状信息进行预测，获取与更新后的所述患者症状信息对应的动作结果。

可理解地，通过获取到的所述下层强化学习模型对更新后的所述患者症状信息进行预测，也即状态预测，从而预测出所述动作结果，所述动作结果为针对更新后的所述患者症状信息确定的最优调度动作产生的结果，也即在预测出的动作空间中选择的产生最佳价值(最大奖励)的动作，执行完动作之后确定出的结果，通过训练完成的所述下层强化学习模型能够通过更新后的所述患者症状信息可以匹配出一个与其对应的能够达到最大奖励的动作，并执行完该动作后产生的结果，所述与更新后的所述患者症状信息对应的动作结果包括推荐科室动作和询问动作。

S100，在所述动作结果为推荐科室动作时，将更新后的所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对更新后的所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。

可理解地，在所述动作结果为所述推荐科室动作时，即达到了推荐科室动作的情况，即表明更新后的所述患者症状信息能够准确地、有效地体现当前患者的表征，无需再进行再次补充所述患者症状信息，将更新后的所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，所述症状特征识别为将更新后的所述患者症状信息进行词向量转换，然后将转换后的词向量进行拼接，从而对拼接后的向量进行提取症状特征，所述症状特征为症状与科室之间的隐含的向量特性，根据所述症状特征识别出与所述患者对应的分诊结果，所述分诊结果为预测出的最高概率的分诊类别，所述分诊结果包括科室类别，即提供给患者就诊的科室的类别，所述分诊结果给患者进行预约提供了准确的依据，便于患者选择准确的科室进行预约就诊。

本申请实现了通过在获取动作结果之后检测到所述动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，接收到所述患者针对新一轮症状询问信息回答的应答信息，根据所述应答信息更新所述患者症状信息；将更新后的所述患者症状信息输入所述上层学习模型，通过所述上层学习模型对更新后的所述患者症状信息进行人体系统识别，识别出与更新后的所述患者症状信息对应的第二人体系统识别类别；自所述层级强化学习模型中获取与识别出的所述第二人体系统类别关联的所述下层强化学习模型；通过获取的所述下层强化学习模型对更新后的所述患者症状信息进行预测，获取与更新后的所述患者症状信息对应的动作结果；在所述动作结果为推荐科室动作时，将更新后的所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对更新后的所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果，如此，实现了通过动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，根据患者回答的应答信息更新所述患者症状信息，通过层级强化学习模型中的上层学习模型对更新后的所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；自所述层级强化学习模型中获取与所述第二人体系统类别关联的所述下层强化学习模型；通过获取的所述下层强化学习模型对更新后的所述患者症状信息进行预测并获取动作结果；在所述动作结果为推荐科室动作时，通过所述科室分诊模型对更新后的所述患者症状信息进行症状特征识别，识别出所述患者对应的分诊结果，因此，实现了通过层级强化学习模型输出询问患者的新一轮症状询问信息，通过该新一轮症状询问信息补充相关症状，能够补充有用的患者症状信息，再通过科室分诊模型对有用的补充后的患者症状信息进行症状特征识别，能够更加准确地确定患者需要就诊的科室，提升了就诊准确率，提升了患者体验。

在一实施例中，所述步骤S90之后，即所述获取与更新后的所述患者症状信息对应的动作结果之后，包括：

S110，在所述动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，经过多轮与患者交互的新一轮症状询问信息之后，对应更新所述患者症状信息，直至检测到所述动作结果为推荐科室动作时，将更新后的所述患者症状信息输入所述科室分诊模型中，通过所述科室分诊模型识别出与所述患者对应的分诊结果。

可理解地，在检测到所述动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，经过多轮与患者之间交互的新一轮症状询问信息之后，不断更新所述患者症状信息，直到检测到所述动作结果为推荐科室动作时，说明不断更新后的所述患者症状信息已经能够准确体现患者症状的信息，此时将最后更新后的患者症状信息输入所述科室分诊模型中，通过所述科室分诊模型对最后更新的患者症状信息的识别，得到最后的所述分诊结果。

本申请实现了通过在检测到所述动作结果为询问动作时，不断通过新一轮症状询问信息与患者进行交互，不断更新所述患者症状信息，直到检测到所述动作结果为推荐科室动作时，补充完整所述患者症状信息，通过所述科室分诊模型对最后更新后的患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果，如此，实现了通过层级强化学习模型输出询问患者的新一轮症状询问信息，不断通过新一轮症状询问信息进行补充相关症状，能够不断补充有用的患者症状信息，再通过科室分诊模型对有用的补充后的患者症状信息进行症状特征识别，能够更加准确地确定患者需要就诊的科室，提升了就诊准确率，提升了患者体验。

在一实施例中，提供一种分诊数据处理装置，该分诊数据处理装置与上述实施例中分诊数据处理方法一一对应。如图6所示，该分诊数据处理装置包括接收模块11、识别模块12、获取模块13、预测模块14和分诊模块15。各功能模块详细说明如下：

接收模块11，用于接收到患者的患者请求，获取所述患者请求中的患者症状信息；

识别模块12，用于将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联；

获取模块13，用于自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型；

预测模块14，用于通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；所述动作结果为针对所述患者症状信息确定的最优调度动作；

分诊模块15，用于在所述动作结果为推荐科室动作时，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。

关于分诊数据处理装置的具体限定可以参见上文中对于分诊数据处理方法的限定，在此不再赘述。上述分诊数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种分诊数据处理方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现上述实施例中分诊数据处理方法。

在一个实施例中，提供了一个或多个存储有计算机可读指令的可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质；该可读存储介质上存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现上述实施例中分诊数据处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种分诊数据处理方法，其中，包括：

接收到患者的患者请求，获取所述患者请求中的患者症状信息；

将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联；

自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型；

通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；所述动作结果为针对所述患者症状信息确定的最优调度动作；

在所述动作结果为推荐科室动作时，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。
如权利要求1所述的分诊数据处理方法，其中，所述通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果之后，还包括：

在所述动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，接收到所述患者针对新一轮症状询问信息回答的应答信息，根据所述应答信息更新所述患者症状信息；

将更新后的所述患者症状信息输入所述上层学习模型，通过所述上层学习模型对更新后的所述患者症状信息进行人体系统识别，识别出与更新后的所述患者症状信息对应的第二人体系统识别类别；

自所述层级强化学习模型中获取与识别出的所述第二人体系统类别关联的所述下层强化学习模型；

通过获取的所述下层强化学习模型对更新后的所述患者症状信息进行预测，获取与更新后的所述患者症状信息对应的动作结果；

在所述动作结果为推荐科室动作时，将更新后的所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对更新后的所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。
如权利要求2所述的分诊数据处理方法，其中，所述获取与更新后的所述患者症状信息对应的动作结果之后，包括：

在所述动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，经过多轮与患者交互的新一轮症状询问信息之后，对应更新所述患者症状信息，直至检测到所述动作结果为推荐科室动作时，将更新后的所述患者症状信息输入所述科室分诊模型中，通过所述科室分诊模型识别出与所述患者对应的分诊结果。
如权利要求1所述的分诊数据处理方法，其中，所述将所述患者症状信息输入层级强化学习模型之前，包括：

获取症状样本集；所述症状样本集包括多个症状样本，所述症状样本与一个人体系统类别标签关联；

将所述症状样本输入含有第一初始参数的分诊神经网络模型；

通过所述分诊神经网络模型对所述症状样本进行人体系统识别，获取与所述症状样本对应的所述人体系统类别的样本识别结果；

根据所述样本识别结果与所述人体系统类别标签，确定出损失值；

在所述损失值未达到预设的收敛条件时，迭代更新所述分诊神经网络模型的初始参数，直至所述损失值达到所述预设的收敛条件时，将收敛之后的所述分诊神经网络模型记录为上层学习模型。
如权利要求1所述的分诊数据处理方法，其中，所述自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型之前，包括：

获取症状状态样本集；所述症状状态样本集包括多个症状状态样本，所述症状状态样本与一个科室标签关联，所有所述症状状态样本均与一个相同的人体系统类别关联；

将所述症状状态样本输入与所述人体系统类别关联且含有第二初始参数的初始强化学习模型；

通过所述初始强化学习模型匹配出与所述症状状态样本对应的动作空间；

执行各所述动作空间，得到状态转移结果；所述状态转移结果包括科室结果和状态结果；

根据所述症状状态样本、所述状态转移结果和所述科室标签，确定出奖励值；

在所述奖励值未达到预设的奖励收敛条件时，迭代更新所述初始强化学习模型的第二初始参数，直至所述奖励值达到所述预设的奖励收敛条件时，将收敛之后的所述初始强化学习模型记录为下层强化学习模型。
如权利要求5所述的分诊数据处理方法，其中，所述根据所述状态转移结果和所述科室标签，确定出奖励值，包括：

将所述症状状态样本、所述状态转移结果和所述科室标签输入奖励函数中，通过所述奖励函数计算出所述奖励值；所述奖励函数为：

R _s＝α ₁·IF(s _t∈S _u)+α ₂·tanh(τ·(p _t-1-p _t))+α ₃·r _t

其中，

R _s为奖励值；

α ₁为返回值的权重；

IF(s _t∈S _u)为所述状态结果是否在症状状态样本中的返回值，所述状态结果在症状状态样本中则返回1，所述状态结果不在症状状态样本中则返回-1；

s _t为第t次状态预测的状态结果；

S _u为症状状态样本；

α ₂为预测分数指的权重；

p _t-1为在第t-1次状态预测得到的所述科室结果对应的科室序列中，与所述症状状态样本关联的科室标签的序列值；

p _t为在第t次状态预测得到的所述科室结果对应的科室序列中，与所述症状状态样本关联的科室标签的序列值；

α ₃为准确奖励值的权重；

r _t为与p _t对应的准确奖励值。
如权利要求1所述的分诊数据处理方法，其中，所述获取所述患者请求中的患者症状信息之前，包括：

获取患者输入的患者输入信息；

将所述患者输入信息输入预设的预处理模型，通过所述预处理模型对所述患者输入信息进行关键词识别，得到关键词结果；所述关键词结果包括关键词及与关键词关联的预测值；

将与达到预设阈值的所述预测值对应的所述关键词确定为所述患者症状信息，并触发所述患者请求。
一种分诊数据处理装置，其中，包括：

接收模块，用于接收到患者的患者请求，获取所述患者请求中的患者症状信息；

识别模块，用于将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联；

获取模块，用于自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型；

预测模块，用于通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；所述动作结果为针对所述患者症状信息确定的最优调度动作；

分诊模块，用于在所述动作结果为推荐科室动作时，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：接收到患者的患者请求，获取所述患者请求中的患者症状信息；

将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联；

自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型；

通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；所述动作结果为针对所述患者症状信息确定的最优调度动作；

在所述动作结果为推荐科室动作时，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。
如权利要求9所述的计算机设备，其中，所述通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果之后，所述处理器执行所述计算机可读指令时还实现如下步骤：

在所述动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，接收到所述患者针对新一轮症状询问信息回答的应答信息，根据所述应答信息更新所述患者症状信息；

将更新后的所述患者症状信息输入所述上层学习模型，通过所述上层学习模型对更新后的所述患者症状信息进行人体系统识别，识别出与更新后的所述患者症状信息对应的第二人体系统识别类别；

自所述层级强化学习模型中获取与识别出的所述第二人体系统类别关联的所述下层强化学习模型；

通过获取的所述下层强化学习模型对更新后的所述患者症状信息进行预测，获取与更新后的所述患者症状信息对应的动作结果；

在所述动作结果为推荐科室动作时，将更新后的所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对更新后的所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。
如权利要求10所述的计算机设备，其中，所述获取与更新后的所述患者症状信息对应的动作结果之后，包括：

在所述动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，经过多轮与患者交互的新一轮症状询问信息之后，对应更新所述患者症状信息，直至检测到所述动作结果为推荐科室动作时，将更新后的所述患者症状信息输入所述科室分诊模型中，通过所述科室分诊模型识别出与所述患者对应的分诊结果。
如权利要求9所述的计算机设备，其中，所述将所述患者症状信息输入层级强化学习模型之前，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取症状样本集；所述症状样本集包括多个症状样本，所述症状样本与一个人体系统类别标签关联；

将所述症状样本输入含有第一初始参数的分诊神经网络模型；

通过所述分诊神经网络模型对所述症状样本进行人体系统识别，获取与所述症状样本对应的所述人体系统类别的样本识别结果；

根据所述样本识别结果与所述人体系统类别标签，确定出损失值；

在所述损失值未达到预设的收敛条件时，迭代更新所述分诊神经网络模型的初始参数，直至所述损失值达到所述预设的收敛条件时，将收敛之后的所述分诊神经网络模型记录为上层学习模型。
如权利要求9所述的计算机设备，其中，所述自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型之前，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取症状状态样本集；所述症状状态样本集包括多个症状状态样本，所述症状状态样本与一个科室标签关联，所有所述症状状态样本均与一个相同的人体系统类别关联；

将所述症状状态样本输入与所述人体系统类别关联且含有第二初始参数的初始强化学习模型；

通过所述初始强化学习模型匹配出与所述症状状态样本对应的动作空间；

执行各所述动作空间，得到状态转移结果；所述状态转移结果包括科室结果和状态结果；

根据所述症状状态样本、所述状态转移结果和所述科室标签，确定出奖励值；

在所述奖励值未达到预设的奖励收敛条件时，迭代更新所述初始强化学习模型的第二初始参数，直至所述奖励值达到所述预设的奖励收敛条件时，将收敛之后的所述初始强化学习模型记录为下层强化学习模型。
如权利要求13所述的计算机设备，其中，所述根据所述状态转移结果和所述科室标签，确定出奖励值，包括：

将所述症状状态样本、所述状态转移结果和所述科室标签输入奖励函数中，通过所述奖励函数计算出所述奖励值；所述奖励函数为：

R _s＝α ₁·IF(s _t∈S _u)+α ₂·tanh(τ·(p _t-1-p _t))+α ₃·r _t

其中，

R _s为奖励值；

α ₁为返回值的权重；

IF(s _t∈S _u)为所述状态结果是否在症状状态样本中的返回值，所述状态结果在症状状态样本中则返回1，所述状态结果不在症状状态样本中则返回-1；

s _t为第t次状态预测的状态结果；

S _u为症状状态样本；

α ₂为预测分数指的权重；

p _t-1为在第t-1次状态预测得到的所述科室结果对应的科室序列中，与所述症状状态样本关联的科室标签的序列值；

p _t为在第t次状态预测得到的所述科室结果对应的科室序列中，与所述症状状态样本关联的科室标签的序列值；

α ₃为准确奖励值的权重；

r _t为与p _t对应的准确奖励值。
一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

接收到患者的患者请求，获取所述患者请求中的患者症状信息；

将所述患者症状信息输入层级强化学习模型，通过上层学习模型对所述患者症状信息进行人体系统识别，识别出与所述患者症状信息对应的第一人体系统类别；所述层级强化学习模型包括所述上层学习模型和多个下层强化学习模型；一个下层强化学习模型与一个人体系统类别关联；

自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型；

通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果；所述动作结果为针对所述患者症状信息确定的最优调度动作；

在所述动作结果为推荐科室动作时，将所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。
如权利要求15所述的可读存储介质，其中，所述通过获取的所述下层强化学习模型对所述患者症状信息进行预测并获取动作结果之后，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

在所述动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，接收到所述患者针对新一轮症状询问信息回答的应答信息，根据所述应答信息更新所述患者症状信息；

将更新后的所述患者症状信息输入所述上层学习模型，通过所述上层学习模型对更新后的所述患者症状信息进行人体系统识别，识别出与更新后的所述患者症状信息对应的第二人体系统识别类别；

自所述层级强化学习模型中获取与识别出的所述第二人体系统类别关联的所述下层强化学习模型；

通过获取的所述下层强化学习模型对更新后的所述患者症状信息进行预测，获取与更新后的所述患者症状信息对应的动作结果；

在所述动作结果为推荐科室动作时，将更新后的所述患者症状信息输入科室分诊模型中，通过所述科室分诊模型对更新后的所述患者症状信息进行症状特征识别，识别出与所述患者对应的分诊结果。
如权利要求16所述的可读存储介质，其中，所述获取与更新后的所述患者症状信息对应的动作结果之后，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

在所述动作结果为询问动作时，发出所述询问动作中的新一轮症状询问信息，经过多轮与患者交互的新一轮症状询问信息之后，对应更新所述患者症状信息，直至检测到所述动作结果为推荐科室动作时，将更新后的所述患者症状信息输入所述科室分诊模型中，通过所述科室分诊模型识别出与所述患者对应的分诊结果。
如权利要求15所述的可读存储介质，其中，所述将所述患者症状信息输入层级强化学习模型之前，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

获取症状样本集；所述症状样本集包括多个症状样本，所述症状样本与一个人体系统类别标签关联；

将所述症状样本输入含有第一初始参数的分诊神经网络模型；

通过所述分诊神经网络模型对所述症状样本进行人体系统识别，获取与所述症状样本对应的所述人体系统类别的样本识别结果；

根据所述样本识别结果与所述人体系统类别标签，确定出损失值；

在所述损失值未达到预设的收敛条件时，迭代更新所述分诊神经网络模型的初始参数，直至所述损失值达到所述预设的收敛条件时，将收敛之后的所述分诊神经网络模型记录为上层学习模型。
如权利要求15所述的可读存储介质，其中，所述自所述层级强化学习模型中获取与识别出的所述第一人体系统类别关联的所述下层强化学习模型之前，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

获取症状状态样本集；所述症状状态样本集包括多个症状状态样本，所述症状状态样本与一个科室标签关联，所有所述症状状态样本均与一个相同的人体系统类别关联；

将所述症状状态样本输入与所述人体系统类别关联且含有第二初始参数的初始强化学习模型；

通过所述初始强化学习模型匹配出与所述症状状态样本对应的动作空间；

执行各所述动作空间，得到状态转移结果；所述状态转移结果包括科室结果和状态结果；

根据所述症状状态样本、所述状态转移结果和所述科室标签，确定出奖励值；

在所述奖励值未达到预设的奖励收敛条件时，迭代更新所述初始强化学习模型的第二初始参数，直至所述奖励值达到所述预设的奖励收敛条件时，将收敛之后的所述初始强化学习模型记录为下层强化学习模型。
如权利要求19所述的可读存储介质，其中，所述根据所述状态转移结果和所述科室标签，确定出奖励值，包括：

将所述症状状态样本、所述状态转移结果和所述科室标签输入奖励函数中，通过所述奖励函数计算出所述奖励值；所述奖励函数为：

R _s＝α ₁·IF(s _t∈S _u)+α ₂·tanh(τ·(p _t-1-p _t))+α ₃·r _t

其中，

R _s为奖励值；

α ₁为返回值的权重；

IF(s _t∈S _u)为所述状态结果是否在症状状态样本中的返回值，所述状态结果在症状状态样本中则返回1，所述状态结果不在症状状态样本中则返回-1；

s _t为第t次状态预测的状态结果；

S _u为症状状态样本；

α ₂为预测分数指的权重；

p _t-1为在第t-1次状态预测得到的所述科室结果对应的科室序列中，与所述症状状态样本关联的科室标签的序列值；

p _t为在第t次状态预测得到的所述科室结果对应的科室序列中，与所述症状状态样本关联的科室标签的序列值；

α ₃为准确奖励值的权重；

r _t为与p _t对应的准确奖励值。