WO2022206599A1

WO2022206599A1 - 分诊方法及装置、计算机可存储介质

Info

Publication number: WO2022206599A1
Application number: PCT/CN2022/083036
Authority: WO
Inventors: 康西龙; 黄亮; 李鑫; 郭旭炀
Original assignee: 北京京东拓先科技有限公司
Priority date: 2021-04-02
Filing date: 2022-03-25
Publication date: 2022-10-06
Also published as: CN113782165A

Abstract

一种分诊方法及装置、计算机可存储介质，涉及计算机技术领域。分诊方法包括：获取待处理主诉信息（S110）；确定待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型（S120）；利用实体匹配算法，确定与待处理主诉信息中的每个实体名称对应的候选科室（S130）；根据待处理主诉信息，利用训练好的深度学习模型，预测与待处理主诉信息对应的候选科室（S140）；根据实体类型的优先级和训练好的深度学习模型的优先级，从候选科室中确定目标科室，作为与待处理主诉信息对应的分诊结果（S150）。从而可以提高分诊结果的精确性。

Description

分诊方法及装置、计算机可存储介质

相关申请的交叉引用

本申请是以CN申请号为202110361861.2，申请日为2021年4月2日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及计算机技术领域，特别涉及分诊方法及装置、计算机可存储介质。

背景技术

患者在就诊过程中，需要选择就诊的科室。然而，患者往往缺乏相关医疗知识，无法准确选择自己应当就诊的科室。为解决此类问题，医院传统的分诊方式是设置分诊台。设置分诊台的方式分诊效率较低，且人力成本较大。

相关技术中，从患者的主诉信息中识别出相关实体名称，并利用实体匹配算法确定目标科室。或者将患者的主诉信息输入到训练好的深度学习模型中，从而利用训练好的深度学习模型预测目标科室。

发明内容

根据本公开的第一方面，提供了一种分诊方法，包括：获取待处理主诉信息；确定所述待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型；利用实体匹配算法，确定与所述待处理主诉信息中的每个实体名称对应的候选科室；根据所述待处理主诉信息，利用训练好的深度学习模型，预测与所述待处理主诉信息对应的候选科室；根据实体类型的优先级和所述训练好的深度学习模型的优先级，从候选科室中确定目标科室，作为与所述待处理主诉信息对应的分诊结果。

在一些实施例中，分诊方法还包括：根据多条测试数据，确定实体类型的优先级和所述训练好的深度学习模型的优先级，每条测试数据为一条已标注实际科室的主诉信息。

在一些实施例中，确定实体类型的优先级和所述训练好的深度学习模型的优先级包括：确定每条测试数据中的至少一个实体名称和与每个实体名称对应的实体类型；利用实体匹配算法，确定与所述每条测试数据中的每个实体名称对应的科室；对于与所述待处理主诉信息中的至少一个实体名称对应的每种实体类型，确定所述多条测试数据中所确定的实体类型包括所述每种实体类型的测试数据的数量，作为第一数量；确定所述第一数量的测试数据中、已标注的实际科室与利用实体匹配算法所确定的科室相同的测试数据的数量，作为第二数量；对于与所述待处理主诉信息中的至少一个实体名称对应的每种实体类型，计算第二数量与第一数量的比值；利用所述训练好的深度学习模型，预测与每条测试数据对应的科室；确定所述多条测试数据中、已标注的实际科室与利用训练好的深度学习模型所预测的科室相同的测试数据的数量，作为第三数量；对于所述训练好的深度学习模型，计算第三数量与所述多条测试数据的总数量的比值；根据与所述待处理主诉信息中的至少一个实体名称对应的每种实体类型所对应的比值、和所述训练好的深度学习模型所对应的比值，确定相应的优先级，优先级与比值成正相关。

在一些实施例中，所述待处理主诉信息中的至少一个实体名称包括多个实体名称，所述多个实体名称对应多种实体类型，确定相应的优先级包括：对与所述多种实体类型对应的多个比值、和与所述训练好的深度学习模型对应的比值进行排序；根据排序结果，确定相应的优先级。

在一些实施例中，分诊方法还包括：对于多条训练数据中的每条训练数据，确定该训练数据中的至少一个实体名称、与每个实体名称对应的实体类型、和该训练数据的拼音，每条训练数据为一条已标注实际科室的主诉信息；利用所述多条训练数据、所述多条训练数据中的多个实体名称、与每个实体名称对应的实体类型和所述多条训练数据的拼音，训练深度学习模型，得到所述训练好的深度学习模型。

在一些实施例中，所述多条训练数据通过对多条待训练主诉信息进行数据增强得到。

在一些实施例中，所述深度学习模型包括来自变换器的双向编码器表征量BERT模型和前馈神经网络模型。

在一些实施例中，利用实体匹配算法，确定与所述待处理主诉信息中的每个实体名称对应的候选科室包括：从预设的知识库中，选择与所述待处理主诉信息中的每个实体名称所对应的实体类型相同的多个实体名称，作为多个待匹配实体名称，所述知识库包括实体名称、实体类型与候选科室之间的对应关系；对于所述待处理主诉信息中的每个实体名称，从所述多个待匹配实体名称中，确定与所述待处理主诉信息中的每个实体名称相匹配的实体名称；将所述知识库中与所述待处理主诉信息中的每个实体名称相匹配的实体名称所对应的候选科室，确定为与所述待处理主诉信息中的每个实体名称对应的候选科室。

在一些实施例中，确定与所述待处理主诉信息中的每个实体名称相匹配的实体名称包括：在所述待处理主诉信息中的每个实体名称的字符长度大于长度阈值的情况下，对所述待处理主诉信息中的每个实体名称与所述多个待匹配实体名称进行模糊匹配操作，得到与所述待处理主诉信息中的每个实体名称相匹配的实体名称；在所述待处理主诉信息中的每个实体名称的字符长度小于或等于所述长度阈值的情况下，对所述待处理主诉信息中的每个实体名称与所述多个待匹配实体名称进行全匹配操作，得到与所述待处理主诉信息中的每个实体名称相匹配的实体名称。

在一些实施例中，对所述待处理主诉信息中的每个实体名称与所述多个待匹配实体名称进行模糊匹配操作包括：计算所述待处理主诉信息中的每个实体名称与每个待匹配实体名称之间的相似度，所述相似度与编辑比例成负相关，所述编辑比例为编辑距离与所述待处理主诉信息中的每个实体名称的字符长度和每个待匹配实体名称的字符长度中的最大字符长度的比值，所述编辑距离为将每个待匹配实体名称修改为与待处理主诉信息中的每个实体名称的编辑次数；将与所述待处理主诉信息中的每个实体名称之间的相似度最大且大于相似度阈值的待匹配实体名称，确定为与与待处理主诉信息中的每个实体名称相匹配的实体名称。

在一些实施例中，确定所述待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型包括：对所述待处理主诉信息进行字嵌入处理，得到待处理主诉向量；根据所述待处理主诉向量，利用预先训练好的点阵长短期记忆Lattice LSTM模型和条件随机场CRF模型，确定所述待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型。

在一些实施例中，确定目标科室包括：将与所述待处理主诉信息中的至少一个实体名称对应的实体类型的优先级和所述训练好的深度学习模型的优先级中的最高优先级所对应的候选科室，确定为所述目标科室。

根据本公开第二方面，提供了一种分诊装置，包括：获取模块，被配置为获取待处理主诉信息；第一确定模块，被配置为确定所述待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型；第二确定模块，被配置为利用实体匹配算法，确定与所述待处理主诉信息中的每个实体名称对应的候选科室；预测模块，被配置为根据所述待处理主诉信息，利用训练好的深度学习模型，预测与所述待处理主诉信息对应的候选科室；第三确定模块，被配置为根据实体类型的优先级和所述训练好的深度学习模型的优先级，从候选科室中确定目标科室，作为与所述待处理主诉信息对应的分诊结果。

根据本公开第三方面，提供了一种分诊装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行上述任一实施例所述的分诊方法。

根据本公开的第四方面，提供了一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述任一实施例所述的分诊方法。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一些实施例的分诊方法的流程图；

图2是示出根据本公开另一些实施例的分诊方法的流程图；

图3是示出根据本公开一些实施例的确定实体类型的优先级和训练好的深度学习模型的优先级的流程图；

图4是示出根据本公开再一些实施例的分诊方法的流程图；

图5是示出根据本公开一些实施例的分诊装置的框图；

图6是示出根据本公开另一些实施例的分诊装置的框图；

图7是示出用于实现本公开一些实施例的计算机系统的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

相关技术中，患者的主诉信息中可能会识别出多个实体名称，不同实体名称可能对应不同的科室，利用实体匹配算法无法准确地确定目标科室。利用训练好的深度学习模型预测目标科室的方式也可能会存在预测不准确的情况。甚至，利用实体匹配算法和利用训练好的深度学习模型所确定的目标科室也可能不同。

针对上述技术问题，本公开提出了一种分诊方法，可以提高分诊结果的精确性。

图1是示出根据本公开一些实施例的分诊方法的流程图。

如图1所示，分诊方法包括：步骤S110，获取待处理主诉信息；步骤S120，确定待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型；步骤S130，利用实体匹配算法，确定与待处理主诉信息中的每个实体名称对应的候选科室；步骤S140，根据待处理主诉信息，利用训练好的深度学习模型，预测与待处理主诉信息对应的候选科室；和步骤S150，根据实体类型的优先级和训练好的深度学习模型的优先级，从候选科室中确定目标科室，作为与待处理主诉信息对应的分诊结果。例如，分诊方法由分诊装置执行。

在步骤S110中，获取待处理主诉信息。例如，通过特定接口接收来自用户的主诉信息，作为待处理主诉信息。

在步骤S120中，确定待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型。例如，待处理主诉信息中可以包括一个实体名称，也可以包括多个实体名称。多个实体名称可以对应一种或多种实体类型。例如，待处理主诉信息中包括实体名称“咳嗽”、“感冒灵颗粒”和“富马酸替诺福韦”。实体名称“咳嗽”、“感冒灵颗粒” 和“富马酸替诺福韦”分别对应实体类型“症状”、“药品”和“药品”。即，待处理主诉信息中包括3个实体名称，对应2种实体类型。

例如，通过如下方式实现如图1所示的步骤S120。

首先，对待处理主诉信息进行字嵌入处理，得到待处理主诉向量。字嵌入处理是一种编码操作，将待处理主诉信息中的每个字都转换为一个可以表示该字的语义信息的数字向量，从而得到待处理主诉向量。

然后，根据待处理主诉向量，利用预先训练好的Lattice LSTM(Lattice Long-Short Term Memory，点阵长短期记忆)模型和CRF(Conditional Random Field，条件随机场)模型，确定待处理主诉信息中的至少一个实体名称。Lattice LSTM模型可以对待处理主诉向量进行二次编码，使得待处理主诉向量能够融合上下文信息，得到融合上下文信息的待处理主诉向量，CRF模型可以对融合上下文信息的待处理主诉向量进行解码，将数学向量转换为实体标记，即确定待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型。

在一些实施例中，可以从一些公开的知识图谱中提取与医疗相关的实体名称和实体类型，再基于开放领域文本(即字符串文本)，利用远程监督方法对与医疗相关的实体名称和实体类型进行扩充，得到一个词典。该词典包括实体名称与实体类型之间的对应关系。利用该词典可以训练Lattice LSTM模型和CRF模型，得到训练好的Lattice LSTM模型和CRF模型。

例如，训练好的Lattice LSTM模型和CRF模型可以识别出的实体类型包括疾病(Dis)、药品(Med)、中医类(Tcm)、科室(Dep)、中医药物(Cmed)、身体特有(Bod)、手术(Sur)、治疗(Tre)、症状(Sym)、科室特有(Des)、检查(Exa)和其他(Other)。实体类型后的括号内的内容为实体缩写。

在步骤S130中，利用实体匹配算法，确定与待处理主诉信息中的每个实体名称对应的候选科室。

例如，通过如下方式实现如图1所示的步骤S130。

首先，从预设的知识库中，选择与待处理主诉信息中的每个实体名称所对应的实体类型相同的多个实体名称，作为多个待匹配实体名称。知识库包括实体名称、实体类型与候选科室之间的对应关系。例如，表1示出了知识库中的部分对应关系。

表1

实体名称	实体类型	候选科室
咳嗽	症状	呼吸内科
感冒灵颗粒	药品	呼吸内科
富马酸替诺福韦	药品	消化内科
腹痛	症状	消化内科

表1示出了四个对应关系，实体名称“咳嗽”、实体类型“症状”与候选科室“呼吸内科”之间具有对应关系。实体名称“感冒灵颗粒”、实体类型“药品”与候选科室“呼吸内科”之间具有对应关系。实体名称“富马酸替诺福韦”、实体类型“药品”与候选科室“消化内科”之间具有对应关系。实体名称“腹痛”、实体类型“药品”与候选科室“消化内科”之间具有对应关系。

然后，对于待处理主诉信息中的每个实体名称，从多个待匹配实体名称中，确定与待处理主诉信息中的每个实体名称相匹配的实体名称。

例如，在待处理主诉信息中的每个实体名称的字符长度大于长度阈值的情况下，对待处理主诉信息中的每个实体名称与多个待匹配实体名称进行模糊匹配操作，得到与待处理主诉信息中的每个实体名称相匹配的实体名称。长度阈值可以为3。

在一些实施例中，计算待处理主诉信息中的每个实体名称与每个待匹配实体名称之间的相似度。相似度与编辑比例成负相关。编辑比例为编辑距离与待处理主诉信息中的每个实体名称的字符长度和每个待匹配实体名称的字符长度中的最大字符长度的比值。编辑距离为将每个待匹配实体名称修改为与待处理主诉信息中的每个实体名称的编辑次数。例如，相似度＝(1-编辑比例)×100。

在计算得到相似度后，将与待处理主诉信息中的每个实体名称之间的相似度最大且大于相似度阈值的待匹配实体名称，确定为与该实体名称相匹配的实体名称。例如，相似度阈值为80。

又例如，在待处理主诉信息中的每个实体名称的字符长度小于或等于长度阈值的情况下，对待处理主诉信息中的每个实体名称与多个待匹配实体名称进行全匹配操作，得到与待处理主诉信息中的每个实体名称相匹配的实体名称。

最后，将知识库中与待处理主诉信息中的每个实体名称相匹配的实体名称所对应的候选科室，确定为与待处理主诉信息中的每个实体名称对应的候选科室。

在步骤S140中，根据待处理主诉信息，利用训练好的深度学习模型，预测与待处理主诉信息对应的候选科室。例如，深度学习模型包括BERT(Bidirectional Encoder Representation from Transformers，来自变换器的双向编码器表征量)模型和前馈神经网络模型。在一些实施例中，将待处理主诉信息输入到BERT模型中，得到待处理主诉信息的语义编码。再将待处理主诉信息的语义编码输入到前馈神经网络模型(全连接神经网络模型)中，得到与待处理主诉信息对应的候选科室。

在步骤S150中，根据实体类型的优先级和训练好的深度学习模型的优先级，从候选科室中确定目标科室，作为与待处理主诉信息对应的分诊结果。实体类型的优先级为待处理主诉信息中的至少一个实体名称对应的实体类型的优先级。在至少一个实体名称对应多种实体类型的情况下，优先级为每种实体类型的优先级。

在一些实施例中，将与待处理主诉信息中的至少一个实体名称对应的实体类型的优先级和训练好的深度学习模型的优先级中的最高优先级所对应的候选科室，确定为目标科室。

例如，待处理主诉信息中的实体名称有咳嗽、感冒灵颗粒和富马酸替诺福韦，相应的实体类型分别为症状、药品和药品。根据表1，可以确定与咳嗽、感冒灵颗粒和富马酸替诺福韦对应的候选科室分别为呼吸内科、呼吸内科和消化内科。利用训练好的深度学习模型预测的候选科室为“心血管内科”。假设实体类型“症状”的优先级大于实体类型“药品”的优先级、且实体类型“药品”的优先级大于训练好的深度学习模型的优先级，则目标科室为呼吸内科。

在上述实施例中，利用实体类型的优先级和训练好的深度学习模型的优先级，综合考虑了实体匹配算法的分诊结果和深度学习模型的分诊结果，可以提高分诊的精确性。

图2是示出根据本公开另一些实施例的分诊方法的流程图。

如图2所示，分诊方法包括步骤S100-步骤S150。图2与图1的不同之处在于，图2示出了另一些实施例的分诊方法还包括的步骤S100。下面将仅描述图2与图1的不同之处，相同之处不再赘述。

在步骤S100中，根据多条测试数据，确定实体类型的优先级和训练好的深度学习模型的优先级。每条测试数据为一条已标注实际科室的主诉信息。例如，多条测试数据包括测试数据1、2、3。测试数据1、2、3标注的实际科室分别为呼吸内科、呼吸内科和心血管内科。

在上述实施例中，利用具有标注信息的测试数据，来确定实体类型的优先级和训练好的深度学习模型的优先级，使得优先级的确定更加精确，从而进一步提高分诊的精确性。

例如，通过如图3所示的步骤S1001-步骤S1009来实现如图2所示的步骤S100。

图3是示出根据本公开一些实施例的确定实体类型的优先级和训练好的深度学习模型的优先级的流程图。

在步骤S1001中，确定每条测试数据中的至少一个实体名称和与每个实体名称对应的实体类型。在一些实施例中，每条测试数据中的至少一个实体名称包括多个实体名称，这多个实体名称对应多种实体类型。例如，测试数据1中包括实体名称A和C。实体名称A和C分别对应实体类型“症状”和“药品”。测试数据2中包括实体名称A、B和D。实体名称B和D分别对应实体类型“药品”和“检查”。测试数据3中包括实体名称A和D。

在步骤S1002中，利用实体匹配算法，确定与每条测试数据中的每个实体名称对应的科室。以测试数据1、2、3为例，实体名称A、B、C、D分别对应科室呼吸内科、消化内科、呼吸内科和皮肤外科。

在步骤S1003中，对于与待处理主诉信息中的至少一个实体名称对应的每种实体类型，确定多条测试数据中所确定的实体类型包括每种实体类型的测试数据的数量，作为第一数量。以待处理主诉信息包括的实体名称对应的实体类型包括症状、药品和药品为例，对于与待处理主诉信息包括的实体名称对应的实体类型“症状”，测试数据1、2、3中每条测试数据所确定的实体类型均包括症状。即，对于与待处理主诉信息包括的实体名称对应的实体类型“症状”，第一数量为3。同理，可以确定与待处理主诉信息包括的实体名称对应的实体类型“药品”所对应的第一数量为2。

在步骤S1004中，确定第一数量的测试数据中、已标注的实际科室与利用实体匹配算法所确定的科室相同的测试数据的数量，作为第二数量。以待处理主诉信息包括的实体名称对应的实体类型“症状”、“药品”和“药品”为例，对于与待处理主诉信息包括的实体名称对应的实体类型“症状”，利用实体匹配算法所确定的科室为呼吸内科。测试数据1、2、3中，已标注的实际科室为呼吸内科的测试数据为1和2。即，对于与待处理主诉信息包括的实体名称对应的实体类型“症状”，第二数量为2。同理，可以确定与待处理主诉信息包括的实体名称对应的实体类型“药品”所对应的第二数量为1。

在步骤S1005中，对于与待处理主诉信息中的至少一个实体名称对应的每种实体类型，计算第二数量与第一数量的比值。以待处理主诉信息包括的实体名称对应的实体类型“症状”、“药品”和“药品”为例，对于与待处理主诉信息包括的实体名称对应的实体类型“症状”，第二数量与第一数量的比值为2/3。对于与待处理主诉信息包括的实体名称对应的实体类型“药品”，第二数量与第一数量的比值为1/2。

在步骤S1006中，利用训练好的深度学习模型，预测与每条测试数据对应的科室。以测试数据1、2、3为例，利用训练好的深度学习模型预测得到的科室分别为呼吸内科、消化内科和皮肤外科。

在步骤S1007中，确定多条测试数据中、已标注的实际科室与利用训练好的深度学习模型所预测的科室相同的测试数据的数量，作为第三数量。以测试数据1、2、3中标注的科室分别为呼吸内科、呼吸内科和心血管内科为例，仅测试数据1的已标注的实际科室与预测的科室相同，均为呼吸内科。即，第三数量为1。

在步骤S1008中，对于训练好的深度学习模型，计算第三数量与多条测试数据的总数量的比值。以测试数据1、2、3为例，第三数量与总数量的比值为1/3。

在步骤S1009中，根据与待处理主诉信息中的至少一个实体名称对应的每种实体类型所对应的比值、和训练好的深度学习模型所对应的比值，确定相应的优先级。优先级与比值成正相关。例如，在待处理主诉信息中有多个实体名称，多个实体名称对应多种实体类型的情况下，确定的是每种实体类型的优先级。

例如，在待处理主诉信息中的至少一个实体名称包括多个实体名称、多个实体名称对应多种实体类型的情况下，可以通过如下的方式确定相应的优先级。

首先，对与待处理主诉信息中的多个实体名称对应的多种实体类型所对应的多个比值、和与训练好的深度学习模型对应的比值进行排序。然后，根据排序结果，确定相应的优先级。

以待处理主诉信息中包括的实体名称A、B和C所对应的实体类型包括症状和药品、且多条测试数据包括测试数据1、2、3为例，实体类型“症状”所对应的比值为2/3，实体类型“药品”所对应的比值为1/2，训练好的深度学习模型所对应的比值为1/3。对比值2/3、1/2和1/3进行排序，可得到2/3＞1/2＞1/3。

根据排序结果可知，实体类型“症状”、实体类型“药品”和训练好的深度学习模型之间的优先级顺序为实体类型“症状”的优先级高于实体类型“药品”的优先级，实体类型“药品”的优先级高于训练好的深度学习模型的优先级。在一些实施例中，还可以对各个优先级进行赋值来展示优先级的高低顺序。例如，实体类型“症状”的优先级设置为1、实体类型“药品”的优先级设置为2、训练好的深度学习模型的优先级设置为3。优先级的数值越小，优先级越高。

图4是示出根据本公开再一些实施例的分诊方法的流程图。

如图4所示，分诊方法包括步骤S101-步骤S150。图4与图1的不同之处在于，图4示出了再一些实施例的分诊方法还包括的步骤S101-步骤S102。下面将仅描述图4与图1的不同之处，相同之处不再赘述。

在步骤S101中，对于多条训练数据中的每条训练数据，确定该训练数据中的至少一个实体名称、与每个实体名称对应的实体类型、和该训练数据的。每条训练数据为一条已标注实际科室的主诉信息。

在一些实施例中，多条训练数据通过对多条待训练主诉信息进行数据增强得到。通过数据增强操作可以对原始数据(待训练主诉信息)进行扩充，增加训练数据的多样性，覆盖了更多可能的文本，也在一定程度上增强了模型对于未见过的数据的预测性能，从而提高深度学习模型的可靠性，增强深度学习模型的泛化能力。例如，数据增强操作包括同义词替换、随机插入、随机交换和随机删除中的至少一种。在一些实施例中，可以利用概率随机的方式决定是否对某一条训练数据进行数据增强。

在步骤S102中，利用多条训练数据、多条训练数据中的多个实体名称、与每个实体名称对应的实体类型和多条训练数据的拼音，训练深度学习模型，得到训练好的深度学习模型。在一些实施例中，在训练过程中可以采用网格搜索的方式进行超参数优化。例如，训练过程中可以将训练数据的10％作为测试深度学习模型性能的数据。

在上述实施例中，利用训练数据、训练数据中的实体名称、与实体名称对应的实体类型和训练数据的拼音来训练深度学习模型，可以提高深度学习模型的可靠性和精确性。在训练过程中利用训练数据的拼音，可以减少用户在输入主诉信息过程中可能输入错别字的影响，从而可以提高深度学习模型的可靠性和精确性。

图5是示出根据本公开一些实施例的分诊装置的框图。

如图5所示，分诊装置5包括获取模块51、第一确定模块52、第二确定模块53、预测模块54和第三确定模块55。

获取模块51被配置为获取待处理主诉信息，例如执行如图1所示的步骤S110。

第一确定模块52被配置为确定待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型，例如执行如图1所示的步骤S120。

第二确定模块53被配置为利用实体匹配算法，确定与待处理主诉信息中的每个实体名称对应的候选科室，例如执行如图1所示的步骤S130。

预测模块54被配置为根据待处理主诉信息，利用训练好的深度学习模型，预测与待处理主诉信息对应的候选科室，例如执行如图1所示的步骤S140。

第三确定模块55被配置为根据实体类型的优先级和训练好的深度学习模型的优先级，从候选科室中确定目标科室，作为与待处理主诉信息对应的分诊结果，例如执行如图1所示的步骤S150。

图6是示出根据本公开另一些实施例的分诊装置的框图。

如图6所示，分诊装置6包括存储器61；以及耦接至该存储器61的处理器62。存储器61用于存储执行分诊方法对应实施例的指令。处理器62被配置为基于存储在存储器61中的指令，执行本公开中任意一些实施例中的分诊方法。

图7是示出用于实现本公开一些实施例的计算机系统的框图。

如图7所示，计算机系统70可以通用计算设备的形式表现。计算机系统70包括存储器710、处理器720和连接不同系统组件的总线700。

存储器710例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行分诊方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器720可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线700可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统70还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730、740、750以及存储器710和处理器720之间可以通过总线700连接。输入输出接口730可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

通过上述实施例中的分诊方法及装置、计算机可存储介质，可以提高分诊结果的精确性。

至此，已经详细描述了根据本公开的分诊方法及装置、计算机可存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

Claims

一种分诊方法，包括：

获取待处理主诉信息；

确定所述待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型；

利用实体匹配算法，确定与所述待处理主诉信息中的每个实体名称对应的候选科室；

根据所述待处理主诉信息，利用训练好的深度学习模型，预测与所述待处理主诉信息对应的候选科室；

根据实体类型的优先级和所述训练好的深度学习模型的优先级，从候选科室中确定目标科室，作为与所述待处理主诉信息对应的分诊结果。
根据权利要求1所述的分诊方法，还包括：

根据多条测试数据，确定实体类型的优先级和所述训练好的深度学习模型的优先级，每条测试数据为一条已标注实际科室的主诉信息。
根据权利要求2所述的分诊方法，其中，确定实体类型的优先级和所述训练好的深度学习模型的优先级包括：

确定每条测试数据中的至少一个实体名称和与每个实体名称对应的实体类型；

利用实体匹配算法，确定与所述每条测试数据中的每个实体名称对应的科室；

对于与所述待处理主诉信息中的至少一个实体名称对应的每种实体类型，确定所述多条测试数据中所确定的实体类型包括所述每种实体类型的测试数据的数量，作为第一数量；

确定所述第一数量的测试数据中、已标注的实际科室与利用实体匹配算法所确定的科室相同的测试数据的数量，作为第二数量；

对于与所述待处理主诉信息中的至少一个实体名称对应的每种实体类型，计算第二数量与第一数量的比值；

利用所述训练好的深度学习模型，预测与每条测试数据对应的科室；

确定所述多条测试数据中、已标注的实际科室与利用训练好的深度学习模型所预测的科室相同的测试数据的数量，作为第三数量；

对于所述训练好的深度学习模型，计算第三数量与所述多条测试数据的总数量的比值；

根据与所述待处理主诉信息中的至少一个实体名称对应的每种实体类型所对应的比值、和所述训练好的深度学习模型所对应的比值，确定相应的优先级，优先级与比值成正相关。
根据权利要求3所述的分诊方法，其中，所述待处理主诉信息中的至少一个实体名称包括多个实体名称，所述多个实体名称对应多种实体类型，确定相应的优先级包括：

对与所述多种实体类型对应的多个比值、和与所述训练好的深度学习模型对应的比值进行排序；

根据排序结果，确定相应的优先级。
根据权利要求1所述的分诊方法，还包括：

对于多条训练数据中的每条训练数据，确定该训练数据中的至少一个实体名称、与每个实体名称对应的实体类型、和该训练数据的拼音，每条训练数据为一条已标注实际科室的主诉信息；

利用所述多条训练数据、所述多条训练数据中的多个实体名称、与每个实体名称对应的实体类型和所述多条训练数据的拼音，训练深度学习模型，得到所述训练好的深度学习模型。
根据权利要求5所述的分诊方法，其中，所述多条训练数据通过对多条待训练主诉信息进行数据增强得到。
根据权利要求5所述的分诊方法，其中，所述深度学习模型包括来自变换器的双向编码器表征量BERT模型和前馈神经网络模型。
根据权利要求1所述的分诊方法，其中，利用实体匹配算法，确定与所述待处理主诉信息中的每个实体名称对应的候选科室包括：

从预设的知识库中，选择与所述待处理主诉信息中的每个实体名称所对应的实体类型相同的多个实体名称，作为多个待匹配实体名称，所述知识库包括实体名称、实体类型与候选科室之间的对应关系；

对于所述待处理主诉信息中的每个实体名称，从所述多个待匹配实体名称中，确定与所述待处理主诉信息中的每个实体名称相匹配的实体名称；

将所述知识库中与所述待处理主诉信息中的每个实体名称相匹配的实体名称所对应的候选科室，确定为与所述待处理主诉信息中的每个实体名称对应的候选科室。
根据权利要求8所述的分诊方法，其中，确定与所述待处理主诉信息中的每个实体名称相匹配的实体名称包括：

在所述待处理主诉信息中的每个实体名称的字符长度大于长度阈值的情况下，对所述待处理主诉信息中的每个实体名称与所述多个待匹配实体名称进行模糊匹配操作，得到与所述待处理主诉信息中的每个实体名称相匹配的实体名称；

在所述待处理主诉信息中的每个实体名称的字符长度小于或等于所述长度阈值的情况下，对所述待处理主诉信息中的每个实体名称与所述多个待匹配实体名称进行全匹配操作，得到与所述待处理主诉信息中的每个实体名称相匹配的实体名称。
根据权利要求9所述的分诊方法，其中，对所述待处理主诉信息中的每个实体名称与所述多个待匹配实体名称进行模糊匹配操作包括：

计算所述待处理主诉信息中的每个实体名称与每个待匹配实体名称之间的相似度，所述相似度与编辑比例成负相关，所述编辑比例为编辑距离与所述待处理主诉信息中的每个实体名称的字符长度和每个待匹配实体名称的字符长度中的最大字符长度的比值，所述编辑距离为将每个待匹配实体名称修改为与待处理主诉信息中的每个实体名称的编辑次数；

将与所述待处理主诉信息中的每个实体名称之间的相似度最大且大于相似度阈值的待匹配实体名称，确定为与待处理主诉信息中的每个实体名称相匹配的实体名称。
根据权利要求1所述的分诊方法，其中，确定所述待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型包括：

对所述待处理主诉信息进行字嵌入处理，得到待处理主诉向量；

根据所述待处理主诉向量，利用预先训练好的点阵长短期记忆Lattice LSTM模型和条件随机场CRF模型，确定所述待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型。
根据权利要求1所述的分诊方法，其中，确定目标科室包括：

将与所述待处理主诉信息中的至少一个实体名称对应的实体类型的优先级和所述训练好的深度学习模型的优先级中的最高优先级所对应的候选科室，确定为所述目标科室。
一种分诊装置，包括：

获取模块，被配置为获取待处理主诉信息；

第一确定模块，被配置为确定所述待处理主诉信息中的至少一个实体名称和与每个实体名称对应的实体类型；

第二确定模块，被配置为利用实体匹配算法，确定与所述待处理主诉信息中的每个实体名称对应的候选科室；

预测模块，被配置为根据所述待处理主诉信息，利用训练好的深度学习模型，预测与所述待处理主诉信息对应的候选科室；

第三确定模块，被配置为根据实体类型的优先级和所述训练好的深度学习模型的优先级，从候选科室中确定目标科室，作为与所述待处理主诉信息对应的分诊结果。
一种分诊装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求1至12任一项所述的分诊方法。
一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至12任一项所述的分诊方法。