WO2019015369A1

WO2019015369A1 - 用于识别医疗文本中的医疗实体的方法和装置

Info

Publication number: WO2019015369A1
Application number: PCT/CN2018/084214
Authority: WO
Inventors: 张振中
Original assignee: 京东方科技集团股份有限公司
Priority date: 2017-07-20
Filing date: 2018-04-24
Publication date: 2019-01-24
Also published as: CN109284497B; JP7043429B2; US20220300710A9; US11586809B2; JP2020527762A; CN109284497A; US20210342539A1; EP3657359A1; EP3657359A4

Abstract

一种用于识别医疗文本中的医疗实体的方法和装置。在该方法中，将医疗文本分成多个词语（S102）。分别以多个词语中的每一个词语作为目标词语。对目标词语，确定该目标词语的局部标注特征和全局标注特征（S104），其中，局部标注特征包括该目标词语，全局标注特征包括该目标词语与已识别医疗实体的关系。接着，基于该目标词语的局部标注特征和全局标注特征，从多个候选标签中确定该目标词语的标签（S106）。然后，基于该目标词语的标签，获取该目标词语与位于该目标词语之前的词语的组合关系（S108），所述组合关系包括组合和不组合。然后，根据该组合关系将所组合的词语识别为医疗实体（S110）。

Description

用于识别医疗文本中的医疗实体的方法和装置

相关申请的交叉引用

本申请要求于2017年07月20日递交的中国专利申请第201710594503.X号的优先权，在此全文引用上述中国专利申请公开的内容以作为本申请的一部分。

技术领域

本公开涉及医疗数据处理技术领域，具体地，涉及用于识别医疗文本中的医疗实体的方法和装置。

背景技术

随着医疗信息技术的发展，出现了大量可用的电子医疗文本(例如电子病历和体检报告等)。这些医疗文本用于支持临床决策系统。然而，由于电子医疗文本大部分采用自然语言撰写，因此，电子医疗文本中的有用信息无法被依赖于结构化数据的临床决策系统直接使用。为充分利用电子医疗文本，能够从自然语言中抽取结构化数据的自然语言处理技术在临床医学领域受到了广泛关注。作为临床自然语言处理的一项基本任务，医疗实体的识别一直备受医学界关注。医疗实体通常包含与药物、问题(包括疾病和症状)、检查和治疗相关的词语。医疗实体包括连续医疗实体(由连续词语组成的医疗实体)和非连续医疗实体(由非连续词语组成的医疗实体)。

发明内容

本文中描述的实施例提供了一种用于识别医疗文本中的医疗实体的方法和装置。

根据本公开的第一方面，提供了一种用于识别医疗文本中的医疗实体的方法。在该方法中，将医疗文本分成多个词语。分别以多个词语中的每一个词语作为目标词语。对目标词语，确定该目标词语的局部标注特征和全局标注特征，其中，局部标注特征包括该目标词语，全局标注特征包括该目标词语与已识别医疗实体的关系。接着，基于该目标词语的局部标注特征和全局标注特征，从多个候选标签中确定该目标词语的标签。然后，基于该目标词语的标签，获取该目标词语与位于该目标词语之前的词语的组合关系，所述组合关系包括组合和不组合。然后，根据该组合关系将所组合的词语识别为医疗实体。

在本公开的实施例中，多个候选标签包括第一标签、第二标签、第三标签、第四标签和第五标签。第一标签被配置为指示所述词语是医疗实体的共享开始部分。第二标签被配置为指示所述词语是医疗实体的非共享开始部分。第三标签被配置为指示所述词语是医疗实体连续的一部分。第四标签被配置为指示所述词语是非医疗实体的一部分并指示执行识别医疗实体的操作。第五标签被配置为指示所述词语是非医疗实体的一部分并指示不执行识别医疗实体的操作。

在本公开的实施例中，在基于该目标词语的局部标注特征和全局标注特征，从多个候选标签中确定该目标词语的标签的步骤中，基于该目标词语的局部标注特征和全局标注特征，对于多个候选标签中的每一个计算该候选标签是该目标词语的标签的概率。然后，将具有最大概率的候选标签确定为该目标词语的标签。

在本公开的实施例中，该概率使用最大熵模型计算。

在本公开的实施例中，在基于所述目标词语的标签，获取所述目标词语与位于所述目标词语之前的词语的组合关系的步骤中，如果所述标签是所述第一标签，则不组合所述标签与所述标签的前一标签；如果所述标签是所述第三标签，则组合所述标签与所述标签的前一个第一标签、第二标签或第三标签；如果所述标签是所述第二标签，则：确定所述目标词语的组合特征和所述目标词语的前一个具有第一标签或者第二标签的词语的组合特征，其中，所述组合特征包括对应词语所包含的词素；基于所述目标词语的组合特征和所述目标词语的前一个具有第一标签或者第二标签的词语的组合特征，计算标签组合概率和标签不组合概率；响应于所述标签组合概率大于标签不组合概率，组合所述第二标签与所述第二标签的前一个第一标签或者第二标签；响应于所述标签组合概率不大于标签不组合概率，不组合所述第二标签与所述第二标签的前一个第一标签或者第二标签；如果所述标签是所述第四标签，则不组合所述标签与所述标签的前一标签，并执行识别医疗实体的操作；如果所述标签是所述第五标签，则不组合所述标签与所述标签的前一标签；以及根据所述标签的组合确定所述标签对应的词语的组合关系。

在本公开的实施例中，所述局部标注特征还包括在所述目标词语之前的X个词语，以及在所述目标词语之后的X个词语，其中，X为自然数。

在本公开的实施例中，所述局部标注特征还包括所述目标词语的词性，在所述目标词语之前的X个词语的词性以及在所述目标词语之后的X个词语的词性。

在本公开的实施例中，所述全局标注特征还包括在所述目标词语之前的Y个词语与已识别医疗实体的关系以及在所述目标词语之后的Y个词语与已识别医疗实体的关系，其中，Y为自然数。

在本公开的实施例中，所述全局标注特征包括：所述目标词语是否包含在已识别的医疗实体中、所述目标词语的前Y个词语是否包含在已识别的医疗实体中、以及所述目标词语的后Y个词语是否包含在已识别的医疗实体中。

在本公开的实施例中，组合特征还包括在对应词语之前的Z个词语所包含的词素以及在对应词语之后的Z个词语所包含的词素，其中，Z为自然数。

在本公开的实施例中，组合特征包括：对应词语所包含的词素、对应词语的前Z个词语、对应词语的后Z个词语、对应词语的前Z个词语所包含的词素、以及对应词语的后Z个词语所包含的词素。

在本公开的实施例中，标签组合概率和标签不组合概率使用最大熵模型计算。

在本公开的实施例中，所述最大熵模型采用优化算法通过训练获得。

根据本公开的第二方面，提供了一种用于识别医疗文本中的医疗实体的装置。该装置包括至少一个处理器和存储有计算机程序的至少一个存储器。当所述计算机程序由所述至少一个处理器执行时使得所述装置：将医疗文本分成多个词语；分别以所述多个词语中的每一个词语作为目标词语，对所述目标词语执行以下操作：确定所述目标词语的局部标注特征和全局标注特征，其中，所述局部标注特征包括所述目标词语，所述全局标注特征包括所述目标词语与已识别医疗实体的关系；基于所述目标词语的所述局部标注特征和所述全局标注特征，从多个候选标签中确定所述目标词语的标签；基于所述目标词语的标签，获取所述目标词语与位于所述目标词语之前的词语的组合关系，所述组合关系包括组合和不组合；根据该组合关系将所组合的词语识别为医疗实体。

根据本公开的第三方面，提供了一种存储有计算机程序的计算机可读存储介质。计算机程序在由处理器执行时实现上述的用于识别医疗文本中的医疗实体的方法的步骤。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本公开的一些实施例，而非对本公开的限制，其中：

图1是根据本公开的实施例的用于识别医疗文本中的医疗实体的方法的流程图；

图2是在图1所示的实施例中的从多个候选标签中确定该目标词语的标签的过程的示例性流程图；

图3是主要针对在图1所示的实施例中的确定词语的组合关系的过程进行具体描述的示例性流程图；

图4是根据本公开的实施例的用于识别医疗文本中的医疗实体的装置的示意性框图。

具体实施方式

为了使本公开的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本公开的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例，也都属于本公开保护的范围。

除非另外定义，否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是，诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义，并且将不以理想化或过于正式的形式来解释，除非在此另外明确定义。

目前，医疗实体的识别方法主要关注对连续医疗实体的识别，然而，在实际的医疗文本中也存在非连续医疗实体。例如，在医疗文本“EGD showed hiatal hernia and laceration in distal esophagus.”中，“hiatal hernia”和“laceration distal esophagus”是两个医疗实体。“hiatal hernia”是连续医疗实体，而“laceration distal esophagus”是非连续医疗实体。

本公开的实施例以英文医疗文本为例说明医疗实体识别的方法，然而本领域的技术人员应了解，采用根据本公开的实施例的方法来识别其它语言(例如，中文)的医疗文本的方法和装置也落入本公开的保护范围之内。

图1示出根据本公开的实施例的用于识别医疗文本中的医疗实体的方法的流程图。

如图1所示，在步骤S102，将医疗文本分成多个词语。对于英文医疗文本，可以根据词语之间的空格来将医疗文本分成多个词语。对于中文医疗文本，在本发明的实施例中，可以利用自然语言处理技术对输入的医疗文本进行词法分析以便将医疗文本分成多个词语。在本公开的实施例中，可以采取例如条件随机场算法、斯坦福大学提供的分词工具 stanford-segmenter等词法分析算法和工具来完成对医疗文本的预处理。在一些实施例中，如果医疗文本包括标点符号，则标点符号也被视为词语。

在步骤S104，分别以多个词语中的每一个词语作为目标词语，并对于每一个目标词语，确定该目标词语的局部标注特征和全局标注特征。

在本公开的实施例中，局部标注特征可以包括目标词语。局部标注特征还可以包括在目标词语之前的X个词语，以及在所述目标词语之后的X个词语。进一步地，局部标注特征还可以包括目标词语的词性以及在目标词语之前的X个词语的词性以及在所述目标词语之后的X个词语的词性。这里，X为自然数。例如，局部标注特征包括：目标词语、目标词语的前三个词语、目标词语的后三个词语、目标词语的词性、目标词语的前三个词语的词性以及目标词语的后三个词语的词性。

在本公开的实施例中，全局标注特征可以包括目标词语与已识别医疗实体的关系。已识别医疗实体可以包括在当前医疗文本中已经识别出的医疗实体，还可以包括在其它医疗文本中已经识别出的医疗实体。进一步地，全局标注特征还可以包括在目标词语之前的Y个词语与已识别医疗实体的关系以及在所述目标词语之后的Y个词语与已识别医疗实体的关系。这里，Y为自然数。例如，全局标注特征包括：目标词语是否包含在已识别的医疗实体中、目标词语的前一个词语是否包含在已识别的医疗实体中以及目标词语的后一个词语是否包含在已识别的医疗实体中。

在步骤S106，基于目标词语的局部标注特征和全局标注特征，从多个候选标签中确定目标词语的标签。

在本公开的实施例中，多个候选标签例如可以包括：第一标签HB、第二标签DB、第三标签I、第四标签OY和第五标签ON。第一标签HB用于指示所述词语是医疗实体的共享开始部分。第二标签DB用于指示所述词语是医疗实体的非共享开始部分。第三标签I用于指示所述词语是医疗实体连续的一部分。第四标签OY用于指示所述词语是非医疗实体的一部分并指示执行识别医疗实体的操作。第五标签ON用于指示所述词语是非医疗实体的一部分并指示不执行识别医疗实体的操作。

更具体地，在图2中说明图1所示的实施例中的从多个候选标签中确定目标词语的标签的示例性过程。在如图2所示的示例中，在步骤S204，对于多个候选标签中的每一个，计算该候选标签是目标词语的标签的概率。在本公开的实施例中，可以基于目标词语的局部标注特征和全局标注特征，通过最大熵模型，获得多个候选标签(例如，第一标签至第五标签中的多个标签)中的每一个的概率。最大熵模型例如可如下表示：

其中，w _i表示N维列向量的参数，1≤i≤K，K表示标签的总数，x表示对应目标词语的N维特征向量，c _i表示第i标签(在本实施例中，c ₁表示第一标签，c ₂表示第二标签，以此类推)，p(c _i|x)表示在x对应的状态下确定标签为c _i的概率。x包括目标词语的局部标注特征和全局标注特征。局部标注特征和全局标注特征中的参数数量决定x的维度N的大小。在局部标注特征和全局标注特征中的一个或多个参数不存在的情况下，将不存在的参数用空符号来表示。

在本公开的实施例中，可以通过最小化下列目标函数(2)来训练w _i：

其中，W∈R ^K×N表示参数矩阵，W中的第i行向量被表示为w _i，g _j表示第j个训练词语对应的标签，p(g _j)表示第j个训练词语对应的标签为g _j的概率，M表示训练词语的数量，λ表示L2正则项的系数，λ>0。

在训练w _i的过程中，可预先设置具有初始化数值的参数矩阵W，将用于训练的M个训练词语对应的x代入公式(1)，获得M个训练词语的p(g _j)。然后，采用优化算法来获得更新的W。重复更新W的过程，直到W中元素的值趋于稳定，训练w _i的过程结束。由此获得的W将被用于式(1)。可选择地，优化算法可以采用Mini-batched AdaGrad算法。

在步骤S204中，计算i取不同值的情况下的概率p(c _i|x)。

在步骤S206，将具有最大概率p(c _i|x)的候选标签c _i确定为目标词语的标签。

回到图1，在步骤S108，基于目标词语的标签，获取目标词语与位于目标词语之前的词语的组合关系。该组合关系包括组合和不组合。

图3是图1所示的实施例的更具体的示例，详细示出了确定词语的组合关系的过程(S108)。

在步骤S106中确定了目标词语的标签之后，在步骤S302，确定当前标签是否为第四标签OY。第四标签OY指示目标词语是非医疗实体的一部分并指示执行识别医疗实体的操作。如果目标词语的标签指示执行识别医疗实体的操作，则确定在目标词语的标签之前的指示对应词语能够成为医疗实体的一部分的各个标签的组合。指示对应词语能够成为医疗实体的一部分的各个标签例如包括：第一标签HB、第二标签DB和第三标签I。如果确定当前标签不是第四标签OY(步骤S302中的“否”)，则返回步骤S106，继续确定下一词语的标签。

如果确定当前标签是第四标签OY(步骤S302中的“是”)，则确定第四标签OY之前的各个标签的组合。

在步骤S304，将当前标签的前一标签作为当前标签。例如，如果当前标签为第四标签OY，则将第四标签OY的前一标签作为当前标签。

在步骤S306，可确定当前标签是否为第三标签I。第三标签I表示其对应的词语是医疗实体连续的一部分，因此如果确定当前标签是第三标签I(步骤S306中的“是”)，则在步骤S308组合当前标签与当前标签的前一个标签，该前一个标签为第一标签HB、第二标签DB和第三标签I中的一个。然后，在步骤S320确定与当前标签组合的标签是否为第一标签HB。第一标签HB表示其对应的词语是医疗实体的最开始的部分。在一个医疗实体中仅可能存在一个第一标签HB。在标签的组合中已经包括第一标签HB的情况下，可以认为标签组合已经完成。因此，如果确定与当前标签组合的标签是第一标签HB(步骤S320中的“是”)，则在步骤S324，根据标签的组合确定标签对应的词语的组合关系。如果确定与当前标签组合的标签不是第一标签HB(步骤S320中的“否”)，则返回步骤S304继续处理前一标签。

如果确定当前标签不是第三标签I(步骤S306中的“否”)，则进行到步骤S310确定当前标签是否为第二标签DB。如果确定当前标签不是第二标签DB(步骤S310中的“否”)，则返回步骤S304继续处理前一标签。

第二标签DB表示其对应的词语是医疗实体的非共享开始部分。该词语可能是医疗实体的最开始的部分(即，其不需要与其之前的第一标签HB或者第二标签DB组合)，也可能不是医疗实体的最开始的部分(即，其需要与其之前的第一标签HB或者第二标签DB组合)。因此如果该标签是第二标签DB，则需要判断是否组合该第二标签DB与其前一个的第一标签HB或者第二标签DB。

在图3所示的实施例中，如果确定当前标签是第二标签DB(步骤S310中的“是”)，则在步骤S312，确定该第二标签DB对应的词语(即，目标词语)的组合特征和该第二标签DB的前一个第一标签HB或者第二标签DB对应的词语的组合特征。如果该第二标签DB之前没有第一标签HB或第二标签DB，则将该第二标签DB之前的标签定义为空。

在本公开的实施例中，组合特征可以包括对应词语所包含的词素(morpheme)。对于中文医疗文本，这里的词素指的是中文字。进一步地，组合特征还可以包括在对应词语之前的Z个词语所包含的词素以及在对应词语之后的Z个词语所包含的词素。这里，Z为自然数。这样，即使医疗文本中存在拼写错误(对于中文医疗文本，存在错别字)的情况下，组合特征仍然能够根据对应词语及对应词语的之前词语中包含的正确的词素和对应词语的之后词语中包含的正确的词素来提供用于标签组合的信息。例如，组合特征包括：对应词语所包含的词素、对应词语的前三个词语、对应词语的后三个词语、对应词语的前三个词语所包含的词素以及对应词语的后三个词语所包含的词素。

在步骤S314，基于该第二标签DB对应的词语的组合特征和该第二标签DB的前一个第一标签HB或者第二标签DB对应的词语的组合特征，计算标签组合概率和标签不组合概率。在本公开的实施例中，可以基于该第二标签DB对应的词语的组合特征和该第二标签DB的前一个第一标签HB或者第二标签DB对应的词语的组合特征，通过最大熵模型(即，使用式(1))来计算标签组合概率和标签不组合概率。在这种情况下，在式(1)中，w _i表示N维列向量的参数(对于标签标注过程和标签组合过程，W中的元素可能是不同的，并且W的行数K和列数N也可能是不同的)。1≤i≤K。x表示对应目标词语的N维特征向量，其包括目标词语的组合特征和目标词语的前一个具有第一标签HB或者第二标签DB的词语的组合特征。如果组合特征中的一个或多个参数不存在，则将不存在的参数用空符号来表示。c _i表示是否进行标签组合(在本实施例中，c ₁表示进行标签组合，c ₂表示不进行标签组合。在替代实施例中，也可以使用c ₁表示不进行标签组合，c ₂表示进行标签组合)。K为2。p(c _i|x)表示在x对应的状态下是否进行标签组合的概率。在本实施例中，p(c ₁|x)表示在x对应的状态下进行标签组合的概率，p(c ₂|x)表示在x对应的状态下不进行标签组合的概率。在替代实施例中，也可以使用p(c ₁|x)表示在x对应的状态下不进行标签组合的概率，p(c ₂|x)表示在x对应的状态下进行标签组合的概率。

在本公开的实施例中，用于计算标签组合概率和标签不组合概率的最大熵模型中使用的参数也可以通过最小化目标函数(2)来训练。与标签确定的过程中使用的式(2)不同的是，在这里g _j表示第j个训练词语是否进行组合。

在步骤S316，确定标签组合概率是否大于标签不组合概率。如果确定标签组合概率不大于标签不组合概率(步骤S316中的“否”)，则不组合该第二标签DB与该第二标签DB的前一个第一标签HB或者第二标签DB。然后过程进行到步骤S322，确定与当前标签进行组合判断的标签是否为第一标签HB或为空。

如果确定标签组合概率大于标签不组合概率(步骤S316中的 “是”)，则在步骤S318，组合该第二标签DB与该第二标签DB的前一个第一标签HB或者第二标签DB。执行完步骤S318的操作之后，过程进行到步骤S322。

如果确定与当前标签进行组合判断的标签是第一标签HB或为空(步骤S322中的“是”)，则在步骤S324，根据标签的组合确定标签对应的词语的组合关系。如果确定与当前标签组合的标签不是第一标签HB或为空(步骤S322中的“否”)，则返回步骤S304继续处理前一标签。

执行完步骤S324之后，过程进行到步骤S110，根据所确定的词语的组合关系，对医疗文本的多个词语进行组合或不组合，并将所组合的词语识别为医疗实体。在步骤S110中，从第一标签HB与第三标签I的组合或者第二标签DB与第三标签I的组合所对应的词语的组合识别出的医疗实体为连续医疗实体。从第一标签HB与第二标签DB的组合所对应的词语的组合识别出的医疗实体为非连续医疗实体。

在图3所示的实施例中，先在步骤S306确定当前标签是否为第三标签I，然后在步骤S310确定当前标签是否为第二标签DB。可替代地，也可以先确定当前标签是否为第二标签DB，然后再确定当前标签是否为第三标签I。此外，在图3所示的实施例中，采用从后往前(即，从第四标签OY往前)组合标签的方式来确定标签的组合。本领域的技术人员应了解，在替代实施例中，也可以采用从前往后(即，从第四标签OY的前一个第一标签HB开始往后)组合标签的方式来确定标签的组合。

在本公开的实施例中，标签的确定和标签的组合可以通过转移模型来实现。转移模型是用于描述状态转换的模型，例如包括并不限于，马尔可夫模型、隐马尔可夫模型、N元模型、神经网络模型等。转移模型通过动作从一个状态转移到另一个状态。在本公开的实施例中，转移模型中的状态为<L，E>。L表示各个标签形成的序列，E表示已识别的医疗实体。转移模型中的动作例如为{HB，DB，I，OY，ON}。在动作为OY的情况下，还进行医疗实体识别。

具体地，在转移模型中，通过最大熵模型来计算候选标签是目标词语的标签的概率，再通过确定最大的概率来确定目标词语的标签。该标签表示在当前状态下需要进行的动作。基于当前状态和需要进行的动作转移到下一个状态。在动作指示识别医疗实体的情况下，通过最大熵模型来计算标签组合概率和标签不组合概率，再通过比较标签组合概率和标签不组合概率来确定标签的组合。通过组合的标签识别出的医疗实体作为转移模型的状态中的一个参数，有助于判断下一个需要进行的动作。

根据本公开实施例的用于识别医疗文本中的医疗实体的方法能够识别连续医疗实体和非连续医疗实体。此外，在本公开的实施例中，由于采用了联合式方式(在标签标注的过程中考虑词语的局部标注特征和全局标注特征，并且考虑标注和组合之间的相互关系)，因此可以避免管道式方式(只利用局部标注特征完成标签标注之后，再进行标签组合)中的错误传递的缺陷，实现更高的医疗实体识别的准确率。

下面以“EGD showed hiatal hernia and laceration in distal esophagus.”为例，对医疗实体识别的过程进行示例性说明。

首先，将例句“EGD showed hiatal hernia and laceration in distal esophagus.”按顺序分成多个词语。在本公开的实施例中，词语包括标点符号。因此，该例句可被分成十个词语：“EGD”、“showed”、“hiatal”、“hernia”、“and”、“laceration”、“in”、“distal”、“esophagus”以及“.”。再对这十个词语分别标注相应的词性。“.”的词性，用空符号来表示。此外，例如“EGD”之前没有词语，因此“EGD”之前的词语用空符号来表示。

然后，依次对这十个词语进行处理。在本示例中，采用转移模型来建模和实现标签序列的确定及标签的组合。转移模型中的状态为<L，E>。L表示各个标签形成的序列，E表示已识别的医疗实体。转移模型中的动作的集合为{HB，DB，I，OY，ON}。转移模型中的动作表示依据当前状态，转移模型需要进行的动作(例如给下一个词标注标签或者识别医疗实体等)以便达到下一个状态。表1示出转移模型中状态与动作的关系(其中<EOS>表示转移过程结束)。在表1中，序号仅用于说明的目的，并不属于转移模型的一部分。

表1

对于“EGD”，通过式(1)计算候选标签是“EGD”的标签的概率P1＝p(c ₁|x)、P2＝p(c ₂|x)、P3＝p(c ₃|x)、P4＝p(c ₄|x)、P5＝p(c ₅|x)。在这里，c ₁表示第一标签HB，c ₂表示第二标签DB，c ₃表示第三标签I，c ₄表示第四标签OY，c ₅表示第五标签ON。x表示一个包括“EGD”的局部标注特征和全局标注特征的N维特征向量。在x中，局部标注特征和全局标注特征中的词素被转换成相应的N个数值。比较P1、P2、P3、P4和P5，得到P5的值最大。因此，确定“EGD”的标签是第五标签ON。

类似地，可获得“showed”的标签ON，“hiatal”的标签DB，“hernia”的标签I。此时，转移模型处于状态S2。

对于“and”，其标签被判断为OY(即，状态S2对应的动作为OY)。在转移模型采用动作OY的情况下，转移模型进行医疗实体识别的动作。对于“EGD”和“showed”的标签ON，其表示所述目标词语是非医疗实体的一部分并指示不执行识别医疗实体的操作，因此可以直接判断不组合它们与它们之前的标签。对于“hiatal”的标签DB，其表示医疗实体的非共享开始部分。因为“hiatal”之前不存在为HB的标签，因此该DB不与其之前的标签组合。对于“hernia”的标签I，其表示医疗实体连续的一部分，因此将“hernia”的标签I与“hiatal”的标签DB组合。这样获得标签组合DB、I。将标签组合DB、I对应的词语组合“hiatal hernia”识别为医疗实体(该医疗实体为连续医疗实体)。

类似地，获得“in”的标签ON，“distal”的标签DB，“esophagus”的标签I。对于“.”，其标签被判断为OY(即，状态S7对应的动作为OY)。在转移模型采用动作OY的情况下，转移模型进行医疗实体识别的动作。对于“laceration”的标签HB，其表示医疗实体的最开始的部分，因此其不与其之前的标签组合。对于“in”的标签ON，其表示所述目标词语是非医疗实体的一部分并指示不执行识别医疗实体的操作，因此可以直接判断不组合其与其之前的标签。对于“distal”的标签DB，其表示医疗实体的非共享开始部分，因此需要判断是否将“distal”的标签DB与其之前的第一标签HB或者第二标签DB(在这里为“laceration”的标签HB)组合。在这里，仍然使用式(1)来计算标签组合概率P1＝p(c ₁|x)和标签不组合概率P2＝p(c ₂|x)。c ₁表示进行标签组合，c ₂表示不进行标签组合。x表示对应“distal”的N维特征向量，其包括“distal”的组合特征和“distal”的前一个具有第一标签或者第二标签的词语的组合特征(在这里为“laceration”的组合特征)。在P1大于P2的情况下，判断需要组合“laceration”的标签HB与“distal”的标签DB。由于组合特征与对应词语及对应词语的前后词语中包含的词素相关，因此，例如在“laceration”被错写成“lacerasion”的情况下，“lacera”词素与“distal”的组合概率也能够帮助提高“lacerasion”与“distal”的组合概率。

对于“esophagus”的标签I，其表示医疗实体连续的一部分，因此将“esophagus”的标签I与“distal”的标签DB组合。

这样获得标签组合HB、DB、I。将标签组合HB、DB、I对应的词语组合“laceration distal esophagus”识别为医疗实体(该医疗实体为非连续医疗实体)。

图4示出根据本公开的实施例的用于识别医疗文本中的医疗实体的装置400的示意性框图。如图4所示，该装置400可包括处理器410和存储有计算机程序的存储器420。当计算机程序由处理器410执行时，使得装置400可执行如图1所示的用于识别医疗文本中的医疗实体的方法的步骤。也就是说，装置400可以将医疗文本分成多个词语。分别以多个词语中的每一个词语作为目标词语。对目标词语，确定该目标词语的局部标注特征和全局标注特征，其中，局部标注特征包括该目标词语，全局标注特征包括该目标词语与已识别医疗实体的关系。接着，基于该目标词语的局部标注特征和全局标注特征，从多个候选标签中确定该目标词语的标签。然后，基于该目标词语的标签，获取该目标词语与位于该目标词语之前的词语的组合关系，所述组合关系包括组合和不组合。然后，根据该组合关系将所组合的词语识别为医疗实体。

在本公开的实施例中，处理器410可以是例如中央处理单元CPU、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器420可以是使用文本存储技术实现的任何类型的存储器，包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。

此外，在本公开的实施例中，装置400也可包括输入设备430，例如键盘、鼠标等，用于输入医疗文本。另外，装置400还可包括输出设备440，例如显示器等，用于输出所识别的医疗实体。

在本公开的实施例中，装置400通过以下操作来基于该目标词语的局部标注特征和全局标注特征，从多个候选标签中确定该目标词语的标签：基于该目标词语的局部标注特征和全局标注特征，对于多个候选标签中的每一个计算该候选标签是该目标词语的标签的概率。然后，将具有最大概率的候选标签确定为该目标词语的标签。

在本公开的实施例中，装置400通过以下操作来基于所述目标词语的标签，获取所述目标词语与位于所述目标词语之前的词语的组合关系。如果该标签是第一标签HB，则不组合该标签与该标签的前一标签。如果该标签是第三标签I，则组合该标签与该标签的前一个第一标签HB或第二标签DB或第三标签I。如果该标签是第二标签DB，则确定该目标词语的组合特征和该目标词语的前一个具有第一标签HB或者第二标签DB的词语的组合特征，其中，组合特征包括对应词语所包含的词素。然后基于该目标词语的组合特征和该目标词语的前一个具有第一标签HB或者第二标签DB的词语的组合特征，计算标签组合概率和标签不组合概率。响应于标签组合概率大于标签不组合概率，组合该第二标签DB与该第二标签DB的前一个第一标签HB或者第二标签DB。响应于标签组合概率不大于标签不组合概率，不组合该第二标签DB与该第二标签DB的前一个第一标签HB或者第二标签DB。如果所述标签是所述第四标签OY，则不组合所述标签与所述标签的前一标签，并执行识别医疗实体的操作。如果所述标签是所述第五标签ON，则不组合所述标签与所述标签的前一标签。然后，根据所述标签的组合确定所述标签对应的词语的组合关系。

在本公开的其它实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，其中，计算机程序在由处理器执行时实现如图1所示的用于识别医疗文本中的医疗实体的方法的步骤。

除非上下文中另外明确地指出，否则在本文和所附权利要求中所使用的词语的单数形式包括复数，反之亦然。因而，当提及单数时，通常包括相应术语的复数。相似地，措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地，术语“包括”和“或”应当解释为包括在内的，除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处，特别是当其位于一组术语之后时，所述“示例”仅仅是示例性的和阐述性的，且不应当被认为是独占性的或广泛性的。

适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解，本申请的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解，本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本申请的范围。

以上对本公开的若干实施例进行了详细描述，但显然，本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开的实施例进行各种修改和变型。本公开的保护范围由所附的权利要求限定。

Claims

一种用于识别医疗文本中的医疗实体的方法，包括：

将所述医疗文本分成多个词语；

分别以所述多个词语中的每一个词语作为目标词语，对所述目标词语执行以下操作：

确定所述目标词语的局部标注特征和全局标注特征，其中，所述局部标注特征包括所述目标词语，所述全局标注特征包括所述目标词语与已识别医疗实体的关系；

基于所述目标词语的所述局部标注特征和所述全局标注特征，从多个候选标签中确定所述目标词语的标签；

基于所述目标词语的标签，获取所述目标词语与位于所述目标词语之前的词语的组合关系，所述组合关系包括组合和不组合；

根据所述组合关系将所组合的词语识别为医疗实体。
根据权利要求1所述的方法，其中，所述多个候选标签包括：

第一标签，被配置为指示所述词语是医疗实体的共享开始部分；

第二标签，被配置为指示所述词语是医疗实体的非共享开始部分；

第三标签，被配置为指示所述词语是医疗实体连续的一部分；

第四标签，被配置为指示所述词语是非医疗实体的一部分并指示执行识别医疗实体的操作；以及

第五标签，被配置为指示所述词语是非医疗实体的一部分并指示不执行识别医疗实体的操作。
根据权利要求1或2所述的方法，其中，基于所述目标词语的所述局部标注特征和所述全局标注特征，从多个候选标签中确定所述目标词语的标签包括：

基于所述目标词语的所述局部标注特征和所述全局标注特征，对于所述多个候选标签中的每一个计算该候选标签是所述目标词语的标签的概率；以及

将具有最大概率的候选标签确定为所述目标词语的标签。
根据权利要求3所述的方法，其中，所述概率使用最大熵模型计算。
根据权利要求2所述的方法，其中，基于所述目标词语的标签，获取所述目标词语与位于所述目标词语之前的词语的组合关系包括：

如果所述标签是所述第一标签，则不组合所述标签与所述标签的前一标签；

如果所述标签是所述第三标签，则组合所述标签与所述标签的前一个第一标签、第二标签或第三标签；

如果所述标签是所述第二标签，则：

确定所述目标词语的组合特征和所述目标词语的前一个具有第一标签或者第二标签的词语的组合特征，其中，所述组合特征包括对应词语所包含的词素；

基于所述目标词语的组合特征和所述目标词语的前一个具有第一标签或者第二标签的词语的组合特征，计算标签组合概率和标签不组合概率；

响应于所述标签组合概率大于标签不组合概率，组合所述第二标签与所述第二标签的前一个第一标签或者第二标签；

响应于所述标签组合概率不大于标签不组合概率，不组合所述第二标签与所述第二标签的前一个第一标签或者第二标签；

如果所述标签是所述第四标签，则不组合所述标签与所述标签的前一标签，并执行识别医疗实体的操作；

如果所述标签是所述第五标签，则不组合所述标签与所述标签的前一标签；以及

根据所述标签的组合确定所述标签对应的词语的组合关系。
根据权利要求1所述的方法，其中，所述局部标注特征还包括在所述目标词语之前的X个词语，以及在所述目标词语之后的X个词语，其中，X为自然数。
根据权利要求6所述的方法，其中，所述局部标注特征还包括所述目标词语的词性，在所述目标词语之前的X个词语的词性以及在所述目标词语之后的X个词语的词性。
根据权利要求1所述的方法，其中，所述全局标注特征还包括在所述目标词语之前的Y个词语与已识别医疗实体的关系以及在所述目标词语之后的Y个词语与已识别医疗实体的关系，其中，Y为自然数。
根据权利要求8所述的方法，其中，所述全局标注特征包括：所述目标词语是否包含在已识别的医疗实体中、所述目标词语的前Y个词语是否包含在已识别的医疗实体中、以及所述目标词语的后Y个词语是否包含在已识别的医疗实体中。
根据权利要求5所述的方法，其中，所述组合特征还包括在对应词语之前的Z个词语所包含的词素以及在对应词语之后的Z个词语所包含的词素，其中，Z为自然数。
根据权利要求10所述的方法，其中，所述组合特征包括：对应词语所包含的词素、对应词语的前Z个词语、对应词语的后Z个词语、对应词语的前Z个词语所包含的词素、以及对应词语的后Z个词语所包含的词素。
根据权利要求5所述的方法，其中，所述标签组合概率和标签不组合概率使用最大熵模型计算。
根据权利要求4或12所述的方法，其中，所述最大熵模型采用优化算法通过训练获得。
一种用于识别医疗文本中的医疗实体的装置，包括：

至少一个处理器；以及

存储有计算机程序的至少一个存储器；

其中，当所述计算机程序由所述至少一个处理器执行时使得所述装置：

将所述医疗文本分成多个词语；

分别以所述多个词语中的每一个词语作为目标词语，对所述目标词语执行以下操作：

确定所述目标词语的局部标注特征和全局标注特征，其中，所述局部标注特征包括所述目标词语，所述全局标注特征包括所述目标词语与已识别医疗实体的关系；

基于所述目标词语的所述局部标注特征和所述全局标注特征，从多个候选标签中确定所述目标词语的标签；

基于所述目标词语的标签，获取所述目标词语与位于所述目标词语之前的词语的组合关系，所述组合关系包括组合和不组合；

根据所述组合关系将所组合的词语识别为医疗实体。
根据权利要求14所述的装置，其中，所述多个候选标签包括：

第一标签，被配置为指示所述词语是医疗实体的共享开始部分；

第二标签，被配置为指示所述词语是医疗实体的非共享开始部分；

第三标签，被配置为指示所述词语是医疗实体连续的一部分；

第四标签，被配置为指示所述词语是非医疗实体的一部分并指示执行识别医疗实体的操作；以及

第五标签，被配置为指示所述词语是非医疗实体的一部分并指示不执行识别医疗实体的操作。
根据权利要求14或15所述的装置，其中，所述计算机程序在由所述至少一个处理器执行时使得所述装置通过以下操作来基于所述目标词语的所述局部标注特征和所述全局标注特征，从多个候选标签中确定所述目标词语的标签：

基于所述目标词语的所述局部标注特征和所述全局标注特征，对于所述多个候选标签中的每一个计算该候选标签是所述目标词语的标签的概率；以及

将具有最大概率的候选标签确定为所述目标词语的标签。
根据权利要求16所述的装置，其中，所述概率使用最大熵模型计算。
根据权利要求15所述的装置，其中，所述计算机程序在由所述至少一个处理器执行时使得所述装置通过以下操作来基于所述目标词语的标签，获取所述目标词语与位于所述目标词语之前的词语的组合关系：

如果所述标签是所述第一标签，则不组合所述标签与所述标签的前一标签；

如果所述标签是所述第三标签，则组合所述标签与所述标签的前一个第一标签、第二标签或第三标签；

如果所述标签是所述第二标签，则：

确定所述目标词语的组合特征和所述目标词语的前一个具有第一标签或者第二标签的词语的组合特征，其中，所述组合特征包括对应词语所包含的词素；

基于所述目标词语的组合特征和所述目标词语的前一个具有第一标签或者第二标签的词语的组合特征，计算标签组合概率和标签不组合概率；

响应于所述标签组合概率大于标签不组合概率，组合所述第二标签与所述第二标签的前一个第一标签或者第二标签；

响应于所述标签组合概率不大于标签不组合概率，不组合所述第二标签与所述第二标签的前一个第一标签或者第二标签；

如果所述标签是所述第四标签，则不组合所述标签与所述标签的前一标签，并执行识别医疗实体的操作；

如果所述标签是所述第五标签，则不组合所述标签与所述标签的前一标签；以及

根据所述标签的组合确定所述标签对应的目标词语的组合关系。
根据权利要求14所述的装置，其中，所述局部标注特征还包括在所述目标词语之前的X个词语，以及在所述目标词语之后的X个词语，其中，X为自然数。
根据权利要求19所述的装置，其中，所述局部标注特征还包括所述目标词语的词性，在所述目标词语之前的X个词语的词性以及在所述目标词语之后的X个词语的词性。
根据权利要求14所述的装置，其中，所述全局标注特征还包括在所述目标词语之前的Y个词语与已识别医疗实体的关系以及在所述目标词语之后的Y个词语与已识别医疗实体的关系，其中，Y为自然数。
根据权利要求21所述的方法，其中，所述全局标注特征包括：所述目标词语是否包含在已识别的医疗实体中、所述目标词语的前Y个词语是否包含在已识别的医疗实体中、以及所述目标词语的后Y个词语是否包含在已识别的医疗实体中。
根据权利要求18所述的装置，其中，所述组合特征还包括在对应词语之前的Z个词语所包含的词素以及在对应词语之后的Z个词语所包含的词素，其中，Z为自然数。
根据权利要求23所述的装置，其中，所述组合特征包括：对应词语所包含的词素、对应词语的前Z个词语、对应词语的后Z个词语、对应词语的前Z个词语所包含的词素、以及对应词语的后Z个词语所包含的词素。
根据权利要求18所述的装置，其中，所述标签组合概率和标签不组合概率使用最大熵模型计算。
根据权利要求17或25所述的装置，其中，所述最大熵模型采用优化算法通过训练获得。
一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序在由处理器执行时实现权利要求1至13中任一项所述的用于识别医疗文本中的医疗实体的方法的步骤。