WO2021114831A1

WO2021114831A1 - 数据异常检测方法及装置

Info

Publication number: WO2021114831A1
Application number: PCT/CN2020/118419
Authority: WO
Inventors: 李彦轩; 廖希洋; 孙行智
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-06-28
Filing date: 2020-09-28
Publication date: 2021-06-17
Also published as: CN111755086A

Abstract

一种数据异常检测方法及装置，应用于服务器，所述方法包括：接收临床数据集和检验知识集，依据临床数据集和检验知识集生成临床检验数据集(101)；将临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型(102)；接收待检数据，将待检数据输入到训练好的目标相似度排序模型，得到多个检验知识，依据多个检验知识判断待检数据对应的临床检验结论是否处于异常状态(103)。

Description

数据异常检测方法及装置

本申请要求于2020年06月28日提交中国专利局、申请号为202010598054.8、申请名称为“数据异常检测方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，具体涉及一种数据异常检测方法及装置。

背景技术

检验检查是临床中的一项重要过程，主要是利用实验室的各项工具，对患者的健康状态和生理功能进行评估，并协助临床医学中的诊断和治疗。发明人发现，通常情况下，检验检查是由医生根据患者的主诉，基于自身的临床经验给出的，因此，整个检验检查过程主观性强，并且由于医生在临床经验上的差异，检验检查得出的结果也不尽相同，容易导致漏检或多检的情况，漏检导致关键性临床指标的缺失，多检导致检验检查流程周期长，因此，目前仍缺少一种对医生的检验检查进行异常检测的方法，导致检验检查的准确率低下，用户体验度不高。

发明内容

基于目前仍缺少一种对医生的检验检查进行异常检测的方法，导致检验检查的准确率低下的问题，本申请实施方式提供一种数据异常检测方法及装置、服务器、计算机可读存储介质，有利于提高数据异常检测的准确率。

本申请实施例第一方面提供了一种数据异常检测方法，应用于服务器，包括：接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集；将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。

本申请实施例第二方面提供了一种数据异常检测装置，应用于服务器，所述装置包括：接收单元、训练单元和判断单元，其中，所述接收单元，用于接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集；所述训练单元，用于将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；所述判断单元，用于接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。

本申请实施例的第三方面提供一种服务器，所述服务器包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，其中：接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集；将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。

本申请实施例的第四方面提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行以下步骤：接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集；将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。

本申请实施例的第五方面提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

实施本申请实施例，至少具有如下有益效果：通过本申请实施例，可基于训练好的目标相似度排序模型得到待检数据对应的多个检验知识，并通过多个检验知识与上述待检数据对应的临床检验结论进行对比，以判断该临床检验结论是否为异常状态，有利于提高数据异常检测效率。

附图说明

[根据细则91更正 03.11.2020]　
图1A为本申请实施例提供了一种数据异常检测方法的流程示意图。

图1B为本申请实施例提供了一种预设相似度排序模型的网络结构示意图。

图1C为本申请实施例提供了一种数据异常检测方法的网络流程示意图。

图2为本申请实施例提供了一种数据异常检测方法的流程示意图。

图3为本申请实施例提供了一种数据异常检测方法的流程示意图。

图4为本申请实施例提供了一种服务器的结构示意图。

图5为本申请实施例提供了一种数据异常检测装置的结构示意图。

具体实施方式

为了能够更好地理解本申请实施例，下面将对应用本申请实施例的方法进行介绍。

本申请实施例中提到的服务器可以包括但不限于后台服务器、组件服务器、云端服务器、数据分配系统服务器或数据分配软件服务器等，上述仅是举例，而非穷举，包含但不限于上述装置。

请参见图1A，图1A是本申请实施例提供的一种数据异常检测方法的流程示意图，应用于服务器，上述方法包括以下步骤101-103。

101、接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集。

其中，在临床上，检验检查一项重要过程，其主要是利用实验室的各项工具，对患者的健康状态和生理功能进行评估，并协助临床医学中的诊断和治疗。在本申请实施例中，上述临床数据集中可包括多组临床数据，上述检验知识集可包括多组检验知识，上述临床检验数据集可包括多个临床检验数据，上述多个临床检验数据中任意一个临床检验数据可包括一个临床数据与一个检验知识。在实际应用中，上述临床数据集可基于历史临床数据得到，可包括患者的临床症状和医生实际开出的检验检查结果等等，例如，患者的病症、血常规数据、尿常规数据、心电图等等，在此不作限定；上述检验知识可包括各种症状以及其对应的常见检验检查，例如，急性呼吸道感染病毒和细菌诊断的方法以及指导建议等等、血液检验中血涂片的制备以及染色，或者提取量以及其他检验标准等等。

可选地，为了保证用户的医疗数据的安全性，可将上述临床数据集、检验知识集合临床检验数据集存储于区块链的节点中，需要说明的是，本申请实施例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一种可能的示例中，上述步骤101，依据所述临床数据集和检验知识集生成临床检验数据集，包括11-13。

11、从所述临床数据集中获取多组临床数据，其中，所述多组临床数据中任意一组临床数据包括：至少一个临床症状和所述至少一个临床症状对应的临床检验结论。

12、从所述检验知识集中获取多组检验知识，其中，所述多组检验知识中任意一组检验知识包括：一个病症以及所述一个病症对应的至少一个症状检验知识。

13、依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集。

其中，上述病症可包括以下至少一项：发热、发冷、咳嗽、流鼻涕、咽喉红肿等等，在此不作限定。

其中，上述由临床数据集和检验知识集生成的临床检验数据集可作为后续模型训练操作的训练集，有利于后续的对临床检验结论的判断操作的推进。

在一种可能的示例中，上述步骤13，依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集，可包括如下步骤131-132。

131、从所述多组临床数据中获取任意一组临床数据作为目标临床数据，计算所述目标临床数据与所述多组检验知识对应的多个杰卡德相似度。

132、获取所述多个杰卡德相似度中的最大值对应的检验知识为目标检验知识，生成所述目标临床数据与所述目标检验知识的映射关系作为临床检验数据，重复上述步骤，得到所述多组临床数据对应的多个临床检验数据，合并所述多个临床检验数据得到所述临床检验数据集。

其中，上述杰卡德相似度是用于评判检验知识与临床数据两个数据集合之间的相似度的一种指标。

其中，由于上述多组临床数据与多组检验知识的数据量是较大的，并且是多种多样的，为了减少后续模型训练的工作量，以及提高后续临床检验结论的准确性，可对上述多组临床数据以及多个临床检验数据进行评估，以计算得到多个杰卡德相似度，通过杰卡德相似度对上述多组检验知识以及多组临床数据进行筛选，以得到后续用于模型训练的临床检验数据集。

具体实现中，可计算多组临床数据中的任意一组临床数据分别与每组检验知识对应的杰卡德相似度，以得到多个杰卡德相似度，选取多个杰卡德相似度中的最大值对应检验知识为目标检验知识；重复上述步骤，可得到多组临床数据对应的多个临床检验数据，上述多个临床检验数据则组成上述临床检验数据集，如此，可得到用于后续模型训练的临床检验数据集。

在一种可能的示例中，上述步骤131，计算所述目标临床数据与所述多组检验知识对应的多个杰卡德相似度，可包括如下步骤：

获取预设杰卡德计算公式，获取所述多组检验知识中任意一组检验知识，将所述目标临床数据与所述任意一组检验知识作为所述预设杰卡德计算公式的输入，得到所述目标临床数据与所述任意一组检验知识的杰卡德相似度，重复上述步骤，得到多个杰卡德相似度。

其中，上述预设杰卡德计算公式可由用户自行设置或者系统默认，在此不作限定。

举例来说，上述预设杰卡德计算公式可设置为：J(A,B)＝(|A∩B|)/(|A∪B|)，其中，A表示目标临床数据，B表示所述任意一组检验知识，J(A,B)表示目标临床数据A与任意一组检验知识B的杰卡德相似度；也就是说，可得到两组数据(目标临床数据A与检验知识B)相同检验检查的个数与两组数据(目标临床数据A与检验知识B)不重复元素个数的商；如此，可得到目标临床数据与多组检验知识之间的多个杰卡德相似度，并重复上述步骤，可得到多组临床数据对应的多个检验知识，以得到临床检验数据集。

102、将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型。

其中，上述预设相似度排序模型可为用户自行设置或者系统默认，在此不作限定；例如，上述预设相似度排序模型可为深度神经网络(Deep Neural Network，DNN)。

其中，在本申请实施例中，可将上述临床检验数据集作为训练数据，以用于预设相似度排序模型训练，使得训练好的目标相似度排序模型可能在大方向上对与输入最相似的项进行优化，有利于本申请实施例中对最相似的多个临床数据对应的多个检验知识进行优化的需求。

在一种可能的示例中，上述步骤102，将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型，可包括如下步骤21-25。

21、将所述多组临床数据作为所述预设相似度排序模型的第一注意力层的输入。

22、将所述多组检验知识作为所述预设相似度排序模型的第二注意力层的输入。

23、从所述第一注意力层获取所述多组临床数据的临床特征比重向量，从所述第二注意力层获取所述多组检验知识的知识特征比重向量。

24、将所述临床特征比重向量和所述知识特征比重向量输入所述预设相似度排序模型，得到所述多组临床数据和所述多组检验知识对应的嵌入向量，其中，所述嵌入向量表示所述多组临床数据和所述多组检验知识的相似度。

25、基于所述嵌入向量对所述预设相似度排序模型进行训练，得到所述训练好的所述目标相似度排序模型。

其中，如图1B所示，图1B为本申请实施例提供的一种预设相似度排序模型的网络结构示意图，上述预设相似度排序模型可包括DNN网络模型，上述预设相似度排序模型还可包括第一注意力层和第二注意力层。

具体实现中，服务器可将多组临床数据(例如X1＝(A1i,B1i,E1i,G1i,F1i))作为上述预设相似度排序模型的第一注意力层的输入，其中，该第一注意力层包含与多组临床数据维度相同的第一向量，并且第一注意力层通过模型训练调整第一向量中向量元素的取值，第一向量中任意一个向量元素的取值表示基于DNN的相似度排序模型对任意一个向量元素的重要度，任意一个向量元素的取值越高，表示于DNN的相似度排序模型对任意一个向量元素的重要度越大，反之则越小。

进一步地，可将多组检验知识(例如X2＝(A2i,B2i,E2i,G2i,F2i))作为预设相似度排序模型的第二注意力层的输入，第二注意力层中包含与多组检验知识维度相同的第二向量，并且第二注意力层通过模型训练调整第二向量中向量元素的取值，从第一注意力层的获取多组临床数据的临床特征比重向量，从第二注意力层获取多组检验知识的知识特征比重向量，将临床特征比重向量和知识特征比重向量分别输入上述DNN网络，并执行模型训练操作，得到多组临床数据和多组检验知识的嵌入向量，其中，该嵌入向量表示多组临床数据和多组检验知识的相似度。

再进一步地，可基于嵌入向量对预设相似度排序模型进行更新，并得到最终训练好的目标相似度排序模型，具体地，可获取嵌入向量余弦损失函数，并通过该嵌入向量余弦损失函数约束嵌入向量的分布，使多组临床数据和多组检验知识中相互匹配的临床数据和检验知识对应嵌入向量的余弦相似度更大，使不匹配的临床数据和检验知识对应的嵌入向量的余弦相似度更小；可获取预设的TopkRankLoss损失函数，嵌入预设的TopkRankLoss损失函数，对预设相似度排序模型进行更新，得到更新后的相似度排序模型，最后，可输入嵌入向量执行模型训练操作，得到训练好的目标相似度排序模型。

其中，上述嵌入向量余弦损失函数可由用户自行设置或者系统默认，在此不作限定；上述预设的TopkRankLoss损失函数可由用户自行设置或者系统默认，在此不作限定，例如，该预设TopkRankLoss损失函数可包括：

其中，x _i是上述训练好的目标相似度排序模型针对该临床检验数据集中任意一个临床检验数据计算得到的相似度列表中的任意一项，

是x _i在相似度列表中的位置，maxK是相似度列表的总长度，positive、simi_positive、negative表示该临床检验数据中的临床数据与检验知识匹配、近似匹配和不匹配。

也就是说，当临床数据与检验知识匹配时，该检验知识位于相似度列表中的第一位，产生的损失为0，不需要修正；当临床数据与检验知识处于近似匹配关系或不匹配关系时，该检验知识位于相似度列表中第k位，k为大于1的整数，当临床数据与检验知识数据的相似度越低时k的取值越大则产生的损失越大。

可以看出，在本申请实施例中，上述算法针对临床检验检查质控场景中对与患者最相似的若干个检验检查项的需求，引入了预设的TopkRankLoss损失函数；在训练过程中，又引入了向量余弦损失函数，并同时使用嵌入向量余弦损失函数和预设的TopkRankLoss损失函数进行交替训练的机制，使训练好的目标相似度排序模型既能在大方向上对与输入最相似的项进行优化，同时也能符合本申请实施例的场景中对最相似的若干个检验检查项的需求，解决了现有方法只能对最相似项进行优化的局限性问题。

另外，本申请实施例在预设相似度排序模型中引入注意力机制，使模型可以在训练过程中学习到临床数据与检验知识中各特征的重要性，从而为最终的临床检验结果提供解释性，解决了神经网络模型可解释性差的问题。

103、接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。

其中，上述待检数据可包括待检临床数据，该临床数据可包括病症、血常规数据、尿常规数据、心电图等等，在此不作限定。

具体实现中，可将该待检数据输入到训练好的目标相似度排序模型中，以生成相似度列表，并得到多个检验知识，服务器可进一步根据该多个检验知识，确定其在相似度列表中的位置，并根据该位置，确定上述待检数据对应的临床检验结论是否处于异常状态，也就是说，可对该临床检验结论进行质检，以判断该临床检验结论的准确性。

可以看出，在本申请实施例中，当医生在面临复杂病情从而较难给出完整且精确的检验检查结果时，本申请实施例可为其提供质量保护，从而减少其工作量，提高工作效率。

在一种可能的示例中，上述步骤103，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，可包括如下步骤311-313。

311、基于所述训练好的目标相似度排序模型，对所述待检数据进行计算得到相似度矩阵；

312、按照从大到小的规则对所述相似度矩阵中包含的相似度进行排序，得到排序后的目标相似度矩阵；

313、确定所述目标相似度矩阵的前k个相似度，得到所述k个相似度对应的k个检验知识，所述多个检验知识包括所述k个检验知识其中，所述k个检验知识与所述待检数据对应，k为大于1的整数。

具体实现中，服务器将上述待检数据输入上述目标相似度排序模型，以得到该待检数据对应的相似度矩阵，该相似度矩阵中包括该待检数据与目标相似度排序模型中多个检验数据的杰卡德相似度。

进一步地，为了提高数据异常检测的效率，可对该相似度矩阵中包含的相似度按照一定的规则进行排序，例如，可按照从大到小进行排序，以生成排序以后的目标相似度矩阵；由于相似度越大，则表明匹配性越高，则一般的，为了提高检测效率，可确定目标相似度矩阵中的前k个相似度，并确定该k个相似度对应的k个检验知识即为上述多个检验知识，例如可选取前5个相似度对应的检验知识作为下述临床检验结论是否处于异常状态的评判标准，其中，k为大于1的整数。

在一种可能的示例中，上述步骤103，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态，可包括如下步骤321-323。

321、获取所述待检数据对应的临床检验结论，判断所述临床检验结论是否包含所述k个检验知识。

323、若所述临床检验结论包含所述k个检验知识，判断所述临床检验结论与所述k个检验知识是否一致；若一致，确定所述临床检验结论处于非异常状态；若不一致，确定所述临床检验结论处于异常状态。

323、若所述临床检验结论不包含所述k个检验知识中任意一个检验知识，确定所述临床检验结论处于异常状态。

其中，服务器可基于多个检验知识和上述待检数据对应的临床检验结论，确定该临床检验结论是否处于异常状态，该异常状态可包括以下至少一种：多检状态和漏检状态等等；具体地，当上述临床检验结论中包括k个检验知识时，且上述临床检验结论与k个检验知识是不一致的，则可确定该临床检验结论处于异常状态中的多检状态；若上述临床检验结论不包含k个检验知识中任意一个检验知识，确定该临床检验结论处于异常状态中的漏检状态；若上述临床结论包括k个检验知识且与k个检验知识是一致的，则确定该临床检验结论为非异常状态。

如图1C所示，为一种数据异常检测方法的网络流程示意图；服务器可将多组临床数据以及多组检验数据分别输入预设相似度排序模型的第一注意力层和第二注意力层，并分别输出多组临床数据的临床特征比重向量，以及多组检验知识的知识特征比重向量，并将二者输入DNN网络模型中，得到多组临床数据和多组检验知识对应的嵌入向量，该嵌入向量表示所述多组临床数据和所述多组检验知识的相似度；进而，可获取嵌入向量余弦损失函数，并通过该嵌入向量余弦损失函数约束上述嵌入向量的分布，并获取预设的TopkRankLoss损失函数；进而可基于该预设的TopkRankLoss损失函数对预设的相似度排序模型进行更新，基于嵌入向量对该更新以后的模型进行训练，以得到训练好的目标相似度排序模型；如此，在预设相似度排序模型中引入注意力机制，使模型可以在训练过程中学习到临床数据与检验知识中各特征的重要性，从而为最终的临床检验结果提供解释性，解决了神经网络模型可解释性差的问题。

最后，服务器可将该待检数据输入目标相似度排序模型中，并得到相似度列表，并基于该相似度列表，确定该待检数据对应的多个检验知识，最后通过将多个检验知识与待检数据对应的临床检验结果进行对比，以判断该临床检验结果是否处于异常状态；如此，有利于提高临床数据检验的效率。

可以看出，本申请实施例中所描述的数据异常检测方法，应用于服务器，可接收临床数据集和检验知识集，依据临床数据集和检验知识集生成临床检验数据集，将临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；接收待检数据，将待检数据输入到训练好的目标相似度排序模型，得到多个检验知识，依据多个检验知识判断待检数据对应的临床检验结论是否处于异常状态；如此，可基于训练好的目标相似度排序模型得到待检数据对应的多个检验知识，并通过多个检验知识与上述待检数据对应的临床检验结论进行对比，以判断该临床检验结论是否为异常状态，有利于提高数据异常检测效率。

与上述一致地，请参阅图2，图2是本申请实施例公开的一种数据异常检测方法的流程示例图，应用于服务器，该数据异常检测方法可包括如下步骤201-209。

201、接收临床数据集和检验知识集，从所述临床数据集中获取多组临床数据，其中，所述多组临床数据中任意一组临床数据包括：至少一个临床症状和所述至少一个临床症状对应的临床检验结论。

202、从所述检验知识集中获取多组检验知识，其中，所述多组检验知识中任意一组检验知识包括：一个病症以及所述一个病症对应的至少一个症状检验知识。

203、依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集。

204、将所述多组临床数据作为所述预设相似度排序模型的第一注意力层的输入。

205、将所述多组检验知识作为所述预设相似度排序模型的第二注意力层的输入。

206、从所述第一注意力层获取所述多组临床数据的临床特征比重向量，从所述第二注意力层获取所述多组检验知识的知识特征比重向量。

207、将所述临床特征比重向量和所述知识特征比重向量输入所述预设相似度排序模型，得到所述多组临床数据和所述多组检验知识对应的嵌入向量，其中，所述嵌入向量表示所述多组临床数据和所述多组检验知识的相似度。

208、基于所述嵌入向量对所述预设相似度排序模型进行训练，得到所述训练好的所述目标相似度排序模型。

209、接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。

其中，上述步骤201-步骤209所描述的数据异常检测方法可参考图1A所描述的数据异常检测方法的对应步骤。

可以看出，本申请实施例所描述的数据异常检测方法，应用于服务器，可接收临床数据集和检验知识集，从所述临床数据集中获取多组临床数据，其中，多组临床数据中任意一组临床数据包括：至少一个临床症状和至少一个临床症状对应的临床检验结论；从检验知识集中获取多组检验知识，其中，多组检验知识中任意一组检验知识包括：一个病症以及一个病症对应的至少一个症状检验知识；依据多组临床数据与多组检验知识生成临床检验数据集；将多组临床数据作为预设相似度排序模型的第一注意力层的输入；将多组检验知识作为预设相似度排序模型的第二注意力层的输入；从第一注意力层获取多组临床数据的临床特征比重向量，从第二注意力层获取多组检验知识的知识特征比重向量；将临床特征比重向量和知识特征比重向量输入预设相似度排序模型，得到多组临床数据和多组检验知识对应的嵌入向量，其中，嵌入向量表示多组临床数据和多组检验知识的相似度；基于嵌入向量对预设相似度排序模型进行训练，得到训练好的目标相似度排序模型；接收待检数据，将待检数据输入到训练好的目标相似度排序模型，得到多个检验知识，依据多个检验知识判断待检数据对应的临床检验结论是否处于异常状态；如此，服务器可基于临床数据集和检验知识对上述预设相似度排序模型进行训练，也就是说，充分使用了临床检验检查质控场景中对与患者最相似的若干个检验检查项的需求，有利于提高模型进行相似度计算的准确性，并在模型训练的过程中引入了注意力机制，使模型可以在训练过程中学习到临床数据与检验知识中各特征的重要性，从而为最终的临床检验结果提供解释性，解决了神经网络模型可解释性差的问题；最后，可根据目标相似度排序模型对上述临床检验结论进行判断评估，确定该临床检验结论是否异常，有利于提高数据异常检测的效率。

与上述一致地，请参阅图3，图3是本申请实施例公开的一种数据异常检测方法的流程示例图，应用于服务器，该数据异常检测方法可包括如下步骤301-306。

301、接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集。

302、将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型。

303、接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，所述多个检验知识包括所述k个检验知识，其中，所述k个检验知识与所述待检数据对应，k为大于1的整数。

304、获取所述待检数据对应的临床检验结论，判断所述临床检验结论是否包含所述k个检验知识。

305、若所述临床检验结论包含所述k个检验知识，判断所述临床检验结论与所述k个检验知识是否一致；若一致，确定所述临床检验结论处于非异常状态；若不一致，确定所述临床检验结论处于异常状态。

306、若所述临床检验结论不包含所述k个检验知识中任意一个检验知识，确定所述临床检验结论处于异常状态。

其中，上述步骤301-步骤306所描述的数据异常检测方法可参考图1A所描述的数据异常检测方法的对应步骤。

可以看出，本申请实施例所描述的数据异常检测方法，应用于服务器，可接收临床数据集和检验知识集，依据临床数据集和检验知识集生成临床检验数据集；将临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；接收待检数据，将待检数据输入到训练好的目标相似度排序模型，得到多个检验知识，多个检验知识包括k个检验知识，其中，k个检验知识与待检数据对应，k为大于1的整数；获取待检数据对应的临床检验结论，判断临床检验结论是否包含k个检验知识；若临床检验结论包含k个检验知识，判断临床检验结论与k个检验知识是否一致；若一致，确定临床检验结论处于非异常状态；若不一致，确定临床检验结论处于异常状态；若临床检验结论不包含k个检验知识中任意一个检验知识，确定临床检验结论处于异常状态；如此，可基于训练好的目标相似度排序模型确定待检数据对应的相似度靠前的k个检验知识，并通过多个检验知识与上述待检数据对应的临床检验结论进行对比，以判断该临床检验结论是否为异常状态，有利于提高数据异常检测效率。

与上述一致地，请参阅图4，图4为本申请实施例提供的一种服务器的结构示意图，如图4所示，包括处理器、通信接口、存储器以及一个或多个程序，所述处理器、通信接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，上述一个或多个程序程序包括用于执行以下步骤的指令：接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集；将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。

可以看出，本申请实施例中所描述的服务器，可接收临床数据集和检验知识集，依据临床数据集和检验知识集生成临床检验数据集，将临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；接收待检数据，将待检数据输入到训练好的目标相似度排序模型，得到多个检验知识，依据多个检验知识判断待检数据对应的临床检验结论是否处于异常状态；如此，可基于训练好的目标相似度排序模型得到待检数据对应的多个检验知识，并通过多个检验知识与上述待检数据对应的临床检验结论进行对比，以判断该临床检验结论是否为异常状态，有利于提高数据异常检测效率。

在一个可能的示例中，在所述依据所述临床数据集和检验知识集生成临床检验数据集方面，所述程序用于执行以下步骤的指令：从所述临床数据集中获取多组临床数据，其中，所述多组临床数据中任意一组临床数据包括：至少一个临床症状和所述至少一个临床症状对应的临床检验结论；从所述检验知识集中获取多组检验知识，其中，所述多组检验知识中任意一组检验知识包括：一个病症以及所述一个病症对应的至少一个症状检验知识；依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集。

在一个可能的示例中，在所述依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集方面，所述程序用于执行以下步骤的指令：从所述多组临床数据中获取任意一组临床数据作为目标临床数据，计算所述目标临床数据与所述多组检验知识对应的多个杰卡德相似度；获取所述多个杰卡德相似度中的最大值对应的检验知识为目标检验知识，生成所述目标临床数据与所述目标检验知识的映射关系作为临床检验数据，重复上述步骤，得到所述多组临床数据对应的多个临床检验数据，合并所述多个临床检验数据得到所述临床检验数据集。

在一个可能的示例中，在所述计算所述目标临床数据与所述多组检验知识对应的多个杰卡德相似度方面，所述程序用于执行以下步骤的指令：获取预设杰卡德计算公式，获取所述多组检验知识中任意一组检验知识，将所述目标临床数据与所述任意一组检验知识作为所述预设杰卡德计算公式的输入，得到所述目标临床数据与所述任意一组检验知识的杰卡德相似度，重复上述步骤，得到多个杰卡德相似度。

在一个可能的示例中，在所述将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型方面，所述程序用于执行以下步骤的指令：将所述多组临床数据作为所述预设相似度排序模型的第一注意力层的输入；将所述多组检验知识作为所述预设相似度排序模型的第二注意力层的输入；从所述第一注意力层获取所述多组临床数据的临床特征比重向量，从所述第二注意力层获取所述多组检验知识的知识特征比重向量；将所述临床特征比重向量和所述知识特征比重向量输入所述预设相似度排序模型，得到所述多组临床数据和所述多组检验知识对应的嵌入向量，其中，所述嵌入向量表示所述多组临床数据和所述多组检验知识的相似度；基于所述嵌入向量对所述预设相似度排序模型进行训练，得到所述训练好的所述目标相似度排序模型。

在一个可能的示例中，在所述将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识方面，所述程序用于执行以下步骤的指令：基于所述训练好的目标相似度排序模型，对所述待检数据进行计算得到相似度矩阵；按照从大到小的规则对所述相似度矩阵中包含的相似度进行排序，得到排序后的目标相似度矩阵；确定所述目标相似度矩阵的前k个相似度，得到所述k个相似度对应的k个检验知识，所述多个检验知识包括所述k个检验知识，其中，所述k个检验知识与所述待检数据对应，k为大于1的整数。

在一个可能的示例中，在所述依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态方面，所述程序用于执行以下步骤的指令：获取所述待检数据对应的临床检验结论，判断所述临床检验结论是否包含所述k个检验知识；若所述临床检验结论包含所述k个检验知识，判断所述临床检验结论与所述k个检验知识是否一致；若一致，确定所述临床检验结论处于非异常状态；若不一致，确定所述临床检验结论处于异常状态；若所述临床检验结论不包含所述k个检验知识中任意一个检验知识，确定所述临床检验结论处于异常状态。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，服务器为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对服务器进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

与上述一致地，请参阅图5，图5是本申请实施例公开的一种数据异常检测装置的结构示意图，应用于服务器，该装置包括：接收单元501、训练单元502和判断单元503，其中，所述接收单元501，用于接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集；所述训练单元502，用于将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；所述判断单元503，用于接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。

可以看出，本申请实施例中所描述的数据异常检测装置，应用于服务器，该装置可接收临床数据集和检验知识集，依据临床数据集和检验知识集生成临床检验数据集，将临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；接收待检数据，将待检数据输入到训练好的目标相似度排序模型，得到多个检验知识，依据多个检验知识判断待检数据对应的临床检验结论是否处于异常状态；如此，可基于训练好的目标相似度排序模型得到待检数据对应的多个检验知识，并通过多个检验知识与上述待检数据对应的临床检验结论进行对比，以判断该临床检验结论是否为异常状态，有利于提高数据异常检测效率。

在一个可能的示例中，在所述依据所述临床数据集和检验知识集生成临床检验数据集方面，所述接收单元501具体用于：从所述临床数据集中获取多组临床数据，其中，所述多组临床数据中任意一组临床数据包括：至少一个临床症状和所述至少一个临床症状对应的临床检验结论；从所述检验知识集中获取多组检验知识，其中，所述多组检验知识中任意一组检验知识包括：一个病症以及所述一个病症对应的至少一个症状检验知识；依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集。

在一个可能的示例中，在所述依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集方面，所述接收单元501具体用于：从所述多组临床数据中获取任意一组临床数据作为目标临床数据，计算所述目标临床数据与所述多组检验知识对应的多个杰卡德相似度；获取所述多个杰卡德相似度中的最大值对应的检验知识为目标检验知识，生成所述目标临床数据与所述目标检验知识的映射关系作为临床检验数据，重复上述步骤，得到所述多组临床数据对应的多个临床检验数据，合并所述多个临床检验数据得到所述临床检验数据集。

在一个可能的示例中，在所述计算所述目标临床数据与所述多组检验知识对应的多个杰卡德相似度方面，所述接收单元501具体还用于：获取预设杰卡德计算公式，获取所述多组检验知识中任意一组检验知识，将所述目标临床数据与所述任意一组检验知识作为所述预设杰卡德计算公式的输入，得到所述目标临床数据与所述任意一组检验知识的杰卡德相似度，重复上述步骤，得到多个杰卡德相似度。

在一个可能的示例中，在所述将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型方面，所述训练单元502具体用于：将所述多组临床数据作为所述预设相似度排序模型的第一注意力层的输入；将所述多组检验知识作为所述预设相似度排序模型的第二注意力层的输入；从所述第一注意力层获取所述多组临床数据的临床特征比重向量，从所述第二注意力层获取所述多组检验知识的知识特征比重向量；将所述临床特征比重向量和所述知识特征比重向量输入所述预设相似度排序模型，得到所述多组临床数据和所述多组检验知识对应的嵌入向量，其中，所述嵌入向量表示所述多组临床数据和所述多组检验知识的相似度；基于所述嵌入向量对所述预设相似度排序模型进行训练，得到所述训练好的所述目标相似度排序模型。

在一个可能的示例中，在所述将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识方面，所述判断单元503具体用于：基于所述训练好的目标相似度排序模型，对所述待检数据进行计算得到相似度矩阵；按照从大到小的规则对所述相似度矩阵中包含的相似度进行排序，得到排序后的目标相似度矩阵；确定所述目标相似度矩阵的前k个相似度，得到所述k个相似度对应的k个检验知识，所述多个检验知识包括所述k个检验知识，其中，所述k个检验知识与所述待检数据对应，k为大于1的整数。

在一个可能的示例中，在所述依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态方面，所述判断单元503具体还用于：获取所述待检数据对应的临床检验结论，判断所述临床检验结论是否包含所述k个检验知识；若所述临床检验结论包含所述k个检验知识，判断所述临床检验结论与所述k个检验知识是否一致；若一致，确定所述临床检验结论处于非异常状态；若不一致，确定所述临床检验结论处于异常状态；若所述临床检验结论不包含所述k个检验知识中任意一个检验知识，确定所述临床检验结论处于异常状态。

本申请实施例还提供一种计算机可读存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种数据异常检测方法的部分或全部步骤。所述计算机可读存储介质可以是非易失性，也可以是易失性。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种数据异常检测方法的部分或全部步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据异常检测方法，其中，应用于服务器，包括：

接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集；

将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；

接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。
根据权利要求1所述的方法，其中，所述依据所述临床数据集和检验知识集生成临床检验数据集，包括：

从所述临床数据集中获取多组临床数据，其中，所述多组临床数据中任意一组临床数据包括：至少一个临床症状和所述至少一个临床症状对应的临床检验结论；

从所述检验知识集中获取多组检验知识，其中，所述多组检验知识中任意一组检验知识包括：一个病症以及所述一个病症对应的至少一个症状检验知识；

依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集。
根据权利要求2所述的方法，其中，所述依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集，包括：

从所述多组临床数据中获取任意一组临床数据作为目标临床数据，计算所述目标临床数据与所述多组检验知识对应的多个杰卡德相似度；

获取所述多个杰卡德相似度中的最大值对应的检验知识为目标检验知识，生成所述目标临床数据与所述目标检验知识的映射关系作为临床检验数据，重复上述步骤，得到所述多组临床数据对应的多个临床检验数据，合并所述多个临床检验数据得到所述临床检验数据集。
根据权利要求3所述的方法，其中，所述计算所述目标临床数据与所述多组检验知识对应的多个杰卡德相似度，包括：

获取预设杰卡德计算公式，获取所述多组检验知识中任意一组检验知识，将所述目标临床数据与所述任意一组检验知识作为所述预设杰卡德计算公式的输入，得到所述目标临床数据与所述任意一组检验知识的杰卡德相似度，重复上述步骤，得到多个杰卡德相似度。
根据权利要求2所述的方法，其中，所述将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型，包括：

将所述多组临床数据作为所述预设相似度排序模型的第一注意力层的输入；

将所述多组检验知识作为所述预设相似度排序模型的第二注意力层的输入；

从所述第一注意力层获取所述多组临床数据的临床特征比重向量，从所述第二注意力层获取所述多组检验知识的知识特征比重向量；

将所述临床特征比重向量和所述知识特征比重向量输入所述预设相似度排序模型，得到所述多组临床数据和所述多组检验知识对应的嵌入向量，其中，所述嵌入向量表示所述多组临床数据和所述多组检验知识的相似度；

基于所述嵌入向量对所述预设相似度排序模型进行训练，得到所述训练好的所述目标相似度排序模型。
根据权利要求1所述的方法，其中，所述将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，包括：

基于所述训练好的目标相似度排序模型，对所述待检数据进行计算得到相似度矩阵；

按照从大到小的规则对所述相似度矩阵中包含的相似度进行排序，得到排序后的目标相似度矩阵；

确定所述目标相似度矩阵的前k个相似度，得到所述k个相似度对应的k个检验知识，所述多个检验知识包括所述k个检验知识，其中，所述k个检验知识与所述待检数据对应，k为大于1的整数。
根据权利要求6所述的方法，其中，所述依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态，包括：

获取所述待检数据对应的临床检验结论，判断所述临床检验结论是否包含所述k个检验知识；

若所述临床检验结论包含所述k个检验知识，判断所述临床检验结论与所述k个检验知识是否一致；若一致，确定所述临床检验结论处于非异常状态；若不一致，确定所述临床检验结论处于异常状态；

若所述临床检验结论不包含所述k个检验知识中任意一个检验知识，确定所述临床检验结论处于异常状态。
一种数据异常检测装置，其中，应用于服务器，所述装置包括：接收单元、训练单元和判断单元，其中，

所述接收单元，用于接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集；

所述训练单元，用于将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；

所述判断单元，用于接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。
一种服务器，其中，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，其中：

接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集；

将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；

接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。
根据权利要求9所述的服务器，其中，所述处理器用于：

从所述临床数据集中获取多组临床数据，其中，所述多组临床数据中任意一组临床数据包括：至少一个临床症状和所述至少一个临床症状对应的临床检验结论；

从所述检验知识集中获取多组检验知识，其中，所述多组检验知识中任意一组检验知识包括：一个病症以及所述一个病症对应的至少一个症状检验知识；

依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集。
根据权利要求10所述的服务器，其中，所述处理器用于：

从所述多组临床数据中获取任意一组临床数据作为目标临床数据，计算所述目标临床数据与所述多组检验知识对应的多个杰卡德相似度；

获取所述多个杰卡德相似度中的最大值对应的检验知识为目标检验知识，生成所述目标临床数据与所述目标检验知识的映射关系作为临床检验数据，重复上述步骤，得到所述多组临床数据对应的多个临床检验数据，合并所述多个临床检验数据得到所述临床检验数据集。
根据权利要求11所述的服务器，其中，所述处理器用于：

获取预设杰卡德计算公式，获取所述多组检验知识中任意一组检验知识，将所述目标临床数据与所述任意一组检验知识作为所述预设杰卡德计算公式的输入，得到所述目标临床数据与所述任意一组检验知识的杰卡德相似度，重复上述步骤，得到多个杰卡德相似度。
根据权利要求10所述的服务器，其中，所述处理器用于：

将所述多组临床数据作为所述预设相似度排序模型的第一注意力层的输入；

将所述多组检验知识作为所述预设相似度排序模型的第二注意力层的输入；

从所述第一注意力层获取所述多组临床数据的临床特征比重向量，从所述第二注意力层获取所述多组检验知识的知识特征比重向量；

将所述临床特征比重向量和所述知识特征比重向量输入所述预设相似度排序模型，得到所述多组临床数据和所述多组检验知识对应的嵌入向量，其中，所述嵌入向量表示所述多组临床数据和所述多组检验知识的相似度；

基于所述嵌入向量对所述预设相似度排序模型进行训练，得到所述训练好的所述目标相似度排序模型。
根据权利要求9所述的服务器，其中，所述处理器用于：

基于所述训练好的目标相似度排序模型，对所述待检数据进行计算得到相似度矩阵；

按照从大到小的规则对所述相似度矩阵中包含的相似度进行排序，得到排序后的目标相似度矩阵；

确定所述目标相似度矩阵的前k个相似度，得到所述k个相似度对应的k个检验知识，所述多个检验知识包括所述k个检验知识，其中，所述k个检验知识与所述待检数据对应，k为大于1的整数。
根据权利要求14所述的服务器，其中，所述处理器用于：

获取所述待检数据对应的临床检验结论，判断所述临床检验结论是否包含所述k个检验知识；

若所述临床检验结论包含所述k个检验知识，判断所述临床检验结论与所述k个检验知识是否一致；若一致，确定所述临床检验结论处于非异常状态；若不一致，确定所述临床检验结论处于异常状态；

若所述临床检验结论不包含所述k个检验知识中任意一个检验知识，确定所述临床检验结论处于异常状态。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行以下步骤：

接收临床数据集和检验知识集，依据所述临床数据集和检验知识集生成临床检验数据集；

将所述临床检验数据集作为预设相似度排序模型的训练数据执行训练操作，得到训练好的目标相似度排序模型；

接收待检数据，将所述待检数据输入到所述训练好的目标相似度排序模型，得到多个检验知识，依据所述多个检验知识判断所述待检数据对应的临床检验结论是否处于异常状态。
根据权利要16所述的计算机可读存储介质，其中，所述程序指令当被处理器执行时使所述处理器还执行以下步骤：

从所述临床数据集中获取多组临床数据，其中，所述多组临床数据中任意一组临床数据包括：至少一个临床症状和所述至少一个临床症状对应的临床检验结论；

从所述检验知识集中获取多组检验知识，其中，所述多组检验知识中任意一组检验知识包括：一个病症以及所述一个病症对应的至少一个症状检验知识；

依据所述多组临床数据与所述多组检验知识生成所述临床检验数据集。
根据权利要17所述的计算机可读存储介质，其中，所述程序指令当被处理器执行时使所述处理器还执行以下步骤：

从所述多组临床数据中获取任意一组临床数据作为目标临床数据，计算所述目标临床数据与所述多组检验知识对应的多个杰卡德相似度；

获取所述多个杰卡德相似度中的最大值对应的检验知识为目标检验知识，生成所述目标临床数据与所述目标检验知识的映射关系作为临床检验数据，重复上述步骤，得到所述多组临床数据对应的多个临床检验数据，合并所述多个临床检验数据得到所述临床检验数据集。
根据权利要18所述的计算机可读存储介质，其中，所述程序指令当被处理器执行时使所述处理器还执行以下步骤：

获取预设杰卡德计算公式，获取所述多组检验知识中任意一组检验知识，将所述目标临床数据与所述任意一组检验知识作为所述预设杰卡德计算公式的输入，得到所述目标临床数据与所述任意一组检验知识的杰卡德相似度，重复上述步骤，得到多个杰卡德相似度。
根据权利要17所述的计算机可读存储介质，其中，所述程序指令当被处理器执行时使所述处理器还执行以下步骤：

将所述多组临床数据作为所述预设相似度排序模型的第一注意力层的输入；

将所述多组检验知识作为所述预设相似度排序模型的第二注意力层的输入；

从所述第一注意力层获取所述多组临床数据的临床特征比重向量，从所述第二注意力层获取所述多组检验知识的知识特征比重向量；

将所述临床特征比重向量和所述知识特征比重向量输入所述预设相似度排序模型，得到所述多组临床数据和所述多组检验知识对应的嵌入向量，其中，所述嵌入向量表示所述多组临床数据和所述多组检验知识的相似度；

基于所述嵌入向量对所述预设相似度排序模型进行训练，得到所述训练好的所述目标相似度排序模型。