WO2024042348A1

WO2024042348A1 - 英文医疗文本结构化的方法、装置、介质及电子设备

Info

Publication number: WO2024042348A1
Application number: PCT/IB2022/057919
Authority: WO
Inventors: 郭锋; 金薇; 张语宸; 俞素娥; 陈伟权; 曹晶露
Original assignee: Evyd科技有限公司
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2024-02-29

Abstract

一种英文医疗文本结构化的方法及装置、存储介质、电子设备。该方法包括：获取英文病历文本，并对英文病历文本进行文本预处理得到待结构化文本；确定待结构化文本的类型，并根据待结构化文本的类型确定对应的结构化模型；利用结构化模型对待结构化文本进行文本结构化，得到病历文本的目标结构化文本。保证了文本的准确性和有效性，减少了因拼写错误导致的文本结构化效果不佳或遗漏的情况发生，对待结构化文本进行文本结构化，减少了研发时长和迭代时间，显著提升了文本结构化的准确性和准召率。

Description

英文医疗文本结构化的方法、装置、介质及电子设备技术领域本公开涉及文本处理技术领域，尤其涉及一种英文医疗文本结构化的方法、英文医疗文本结构化的装置、计算机可读存储介质及电子设备。背景技术文本结构化的相关技术是将自然语言表达的文本转化为可检索、可分析、可计算的结构化数据，提取相应场景中感兴趣的信息，这能够极大的减少人工的工作量，提高效率。例如，在医疗领域，如何从大量的复杂无结构化的就诊或手术记录中进行信息抽取与结构化是非常有用和有难度的技术，也是文本处理与知识提取不可或缺的技术。通常，可以分别利用实体识别模型、关系抽取模型、阅读理解模型、文本分类模型实现文本的结构化效果。但是，这几种监督学习的方法需要大量的人工标注数据，要获取标注数据是极其困难且浪费人力成本、时间成本的。而且，这几种监督学习的模型大量使用西方国家的病例作为研究，并未能很好的契合东南亚地区的英语使用习惯和病例书写习惯，降低了结构化的准确率，劣化了文本结构化的效果。鉴于此，本领域亟需开发一种新的英文医疗文本结构化的方法及装置。需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解, 因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。发明内容本公开的目的在于提供一种英文医疗文本结构化的方法、英文医疗文本结构化的装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的准确率差和成本高的技术问题。本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。根据本公开的一个方面，提供一种英文医疗文本结构化的方法，所述方法包括：获取英文病历文本，并对所述英文病历文本进行文本预处理得到待结构化文本；确定所述待结构化文本的类型，并根据所述待结构化文本的类型确定对应的结构化模型；利用所述结构化模型对所述待结构化文本进行文本结构化，得到所述病历文本的目标结构化文本。在本公开的一种示例性实施例中，所述对所述病历文本进行文本预处理得到待结构化文本，包括：利用拼写校正模型对所述病历文本进行拼写校正得到校正文本；识别所述校正文本中的目标关键词，并根据所述目标关键词对所述校正文本进行合并得到待结构化文本。在本公开的一种示例性实施例中，所述确定所述待结构化文本的类型，并根据所述待结构化文本的类型确定对应的结构化模型，包括：根据所述待结构化文本的目标字段确定所述待结构化文本的类型；当所述待结构化文本类型为第一类型时，确定采用命名实体识别模型进行结构化；当所述待结构化文本类型为第二类型时，确定采用文本分类模型进行结构化；当所述待结构化文本类型为第三类型时，确定采用问答模型进行结构化。在本公开的一种示例性实施例中，所述根据所述待结构化文本的目标字段确定所述待结构化文本的类型，包括：识别所述待结构化文本的目标字段，当所述目标字段为命名实体信息，确定所述待结构化文本为第一类型；当所述目标字段为文本分类信息，确定所述待结构化文本为第二类型；当所述目标字段为问答信息，确定所述待结构化文本为第三类型。在本公开的一种示例性实施例中，确定采用命名实体识别模型进行结构化时，所述利用所述结构化模型对所述待结构化文本进行文本结构化，包括：获取与所述英文病历文本对应的目标格式文本以及与所述待结构化文本格式对应的校验规则，并利用所述校验规则对所述目标格式文本进行解析得到第一校验结构化结果, 所述校验规则包括针对所述目标格式文本制定的自定义规则；利用命名实体识别模型对所述待结构化文本进行命名实体识别得到所述病历文本的第二结构化结果；根据所述第一结构化结果和所述第二结构化结果进行结合，确定目标结构化文本。在本公开的一种示例性实施例中，所述命名实体识别模型通过如下训练步骤得到：获取病历样本以及与所述病历样本对应的标注字段，并利用预训练的词向量对所述病历样本进行文本映射得到单词嵌入向量；利用词嵌入对所述病历样本进行语境映射得到字符串嵌入向量，并对所述单词嵌入向量和所述字符串嵌入向量进行纵向拼接处理得到样本向量；利用所述标注字段和所述样本向量训练多个待训练的命名实体识别模型，并对多个训练得到的命名实体识别模型进行模型评分得到对应的多个第一模型分值；根据多个所述第一模型分值在多个所述训练得到的命名实体识别模型中确定一个训练好的命名实体识别模型。在本公开的一种示例性实施例中，所述文本分类模型通过如下步骤训练得到：获取病历样本，并利用所述病历样本中的文本分类字段训练多个初始文本分类模型；

' 利用优化算法优化多个所述初始文本分类模型，得到每一所述初始文本分类模型对应的第二分值；根据多个所述第二分值确定所述文本分类模型。在本公开的一种示例性实施例中，确定采用问答模型进行结构化时，所述利用所述结构化模型对所述待结构化文本进行文本结构化，包括：获取与所述待结构化文本对应的目标问题；基于所述目标问题，利用问答模型对所述待结构化文本进行答案搜索得到所述病历文本的目标结构化文本。根据本公开的一个方面，提供一种英文医疗文本结构化的装置，所述装置包括：文本获取模块，被配置为获取英文病历文本，并对所述英文病历文本进行文本预处理得到待结构化文本；模型选择模块，被配置为确定所述待结构化文本的类型，并根据所述待结构化文本的类型确定对应的结构化模型；结果生成模块，被配置为利用所述结构化模型对所述待结构化文本进行文本结构化, 得到所述病历文本的目标结构化文本。根据本公开的一个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的英文医疗文本结构化的方法。根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的英文医疗文本结构化的方法。由上述技术方案可知，本公开示例性实施例中的英文医疗文本结构化的方法、英文医疗文本结构化的装置、计算机存储介质及电子设备至少具备以下优点和积极效果：在本公开的示例性实施例提供的方法及装置中，对英文病历文本进行文本预处理，能够自动识别，并改正拼写错误，保证了文本的准确性和有效性，大大减少了因拼写错误导致的文本结构化效果不佳或遗漏的情况发生。进一步的，根据待结构化文本的类型确定对应的结构化模型进行文本结构化，提高了文本结构化的准确性，减少了研发时长和迭代时间，显著提升了文本结构化的准召率。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。附图说明图 1 示意性示出本公开示例性实施例中一种英文医疗文本结构化的方法的流程示意图；图 2示意性示出本公开示例性实施例中对英文病历文本进行文本预处理的方法的流 ^§^^意图 . i 3 '示意性示出本公开示例性实施例中根据待结构化文本确定结构化模型的方法的流程示意图；图 4示意性示出本公开示例性实施例中根据目标字段确定待结构化文本的类型的方法的流程示意图；图 5 示意性示出本公开示例性实施例中一种利用结构化模型对待结构化文本进行文本结构化的方法的流程示意图；图 6 示意性示出本公开示例性实施例中训练命名实体识别模型的方法的流程示意图；图 7示意性示出本公开示例性实施例中训练文本分类模型的方法的流程示意图；图 8示意性示出本公开示例性实施例中另一种利用结构化模型对待结构化文本进行文本结构化的方法的流程示意图；图 9示意性示出本公开示例性实施例中一种英文医疗文本结构化的装置的结构示意图；图 10示意性示出本公开示例性实施例中一种用于实现英文医疗文本结构化的方法的电子设备；图 11示意性示出本公开示例性实施例中一种用于实现英文医疗文本结构化的方法的计算机可读存储介质。具体实施方式现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中, 提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。本说明书中使用用语 “一个”、 “一”、 “该 ”和 “所述”用以表示存在一个或多个要素 /组成部分 /等；用语 “包括 ”和 “具有”用以表示开放式的包括在内的意思并且是指除了列出的要素 /组成部分 /等之外还可存在另外的要素 /组成部分 /等；用语 “第一 ”和 “第二”等仅作为标记使用，不是对其对象的数量限制。此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。文本结构化的相关技术是将自然语言表达的文本转化为可检索、可分析、可计算的结构化数据，提取相应场景中感兴趣的信息，这能够极大的减少人工的工作量，提高效率。例如，在医疗领域，如何从大量的复杂无结构化的就诊或手术记录等医疗文本中进行信息抽取与结构化是非常有用和有难度的技术，也是文本处理与知识提取不可或缺的技术。针对相关技术中存在的问题，本公开提出了一种英文医疗文本结构化的方法。图 1 示出了英文医疗文本结构化的方法的流程图，如图 1所示，英文医疗文本结构化的方法至少包括以下步骤：在步骤 S110中，获取英文病历文本，并对英文病历文本进行文本预处理得到待结构化文本。在步骤 S120中，确定待结构化文本的类型，并根据待结构化文本的类型确定对应的结构化模型。在步骤 S130中，利用结构化模型对待结构化文本进行文本结构化，得到病历文本的目标结构化文本。在本公开的示例性实施例中，对英文病历文本进行文本预处理，大大减少了因拼写错误导致的文本结构化效果不佳或遗漏的情况发生。进一步的，根据待结构化文本的类型确定对应的结构化模型进行文本结构化，提高了文本结构化的准确性，减少了研发时长和迭代时间，显著提升了文本结构化的准召率。下面对英文医疗文本结构化的方法的各个步骤进行详细说明。在步骤 S110中，获取英文病历文本，并对英文病历文本进行文本预处理得到待结构化文本。在本公开的示例性实施例中，真实世界研究是指研究数据来自真实的医疗环境，反映实际诊疗过程和具体条件下的患者健康状况的研究。举例而言，在真实世界的英文病历文本中，每个需要结构化的字段为非结构化文本, 例如阳性症状、急诊等文本类别。其中，英文病历文本可以包括就诊信息、症状信息和诊断信息等，本示例性实施例对此不做特殊限定。在获取到英文病历文本之后，能够对英文病历文本进行文本预处理得到对应的待结构化文本。在此之前，可以利用正则表达式对英文病历文本进行文本清理得到有效文本。正则表达式，又称规则表达式 (Regular Expression, 简写为 regex regexp或 RE) , 是计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式 (规则)的文本。正则表达式是对字符串 (包括普通字符，例如 a到 z之间的字母)和特殊字符 (元字符) 操作的一种逻辑公式，就是用事先定义好的一些特定字符以及这些特定字符的组合，组成一个 “规则字符串” 。这个 “规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模式描述在搜索文本时要匹配一个或多个字符串。具体的，可以利用正则表达式对英文病历文本进行文本剔除得到有效文本。在对英文病历文本进行的常规处理中，可以利用正则表达式识别英文病历文本中的空格、 \t等特殊符号、数字和日期等不相关的文本，进一步从英文病历文本中进行剔除得到有效文本。举例而言，识别英文病历文本中的日期的正则表达式可以是 date regex = r"(?:(?:31(V|-|\.)(?：0?[13578]|l[02]))\l|(?:(?:29|30)(V|-|\.)(?：0?[l,3-9]|l[0-2])\2))(?:(?:l[6-9]|[2-9] \d)?\d{2})|(?:29(V|-|\.)0?2\3(?:(?:(?: l[6-9]|[2-9]\d)?(?:0[48]|[2468][048]|[13579][26])|(?:(?: 16|[2 468][048]|[3579][26])00))))|(?:0?[l-9]|l\d|2[0-8])(V|-|\.)(?:(?:0?[l-9])|(?: l[0-2]))\4(?:(?: l[6-9]|[2 -9]\d)?\d{2})" _o 在对英文病例文本进行的针对性处理中，也可以利用正则表达式识别英文病历文本中的开头的无用信息，并从英文病历文本中剔除。举例而言，识别英文病历文本中开头无用信息的正则表达式可以是 header regex = r"Note Type.*(Clini Note OP|Performed By|Clini Notes OP|Clini Notes IP|Date of Discharge |Progress Notes)" o 除此之外，还可以是利用正则表达式对英文病历文本进行文本替换得到有效文本。在对英文病历文本进行的针对性处理中，还可以利用正则表达式识别英文病历文本中的特定情况。例如，识别英文病例文本中的 “？ ”，进一步将该 “？ ”替换为 “： ” 得到有效文本。举例而言，识别英文病历文本中的 “？ ”等特定符号的正则表达式可以是 r"(?<=Any)(. *?)(?=no|yes|nil)" □ 当英文病历文本为 any fever?no时，正则表达式可以识别其中的问号，并进行音换得到 any fever: no, 以使句子的切分更加合理。利用正则表达式对英文病历文本进行文本清理处理，能够将去除无用信息的干扰，也能够为待结构化文本的生成提供更为合理准确的文本支持。进一步的，在得到有效文本之后，可以对有效文本中拼写错误的部分进行校正得到校正文本以及对校正文本进行合并，以得到待结构化文本。在可选的实施例中，图 2示出了对英文病历文本进行文本预处理的方法的流程示意图，如图 2所示，该方法至少可以包括以下步骤：在步骤 S210中，利用拼写校正模型对病历文本进行拼写校正得到校正文本。具体的，利用拼写校正模型对根据英文病历文本得到的有效文本进行拼写校正得到校正文本。其中，拼写校正模型可以是 BERT (Bidirectional Encoder Representations from Transformers)预训练模型。其中，预训练 (pre-training) 是指一种通过使用大型数据集对神经网络模型进行训练，使神经网络模型学习到数据集中的通用特征的过程。预训练的目的是为后续神经网络模型在特定数据集上训练提供优质的模型参数。使用前沿水平的 BERT预训练模型来获取通用语义表示，实现从自然语言到机器语言的转化。具体的，获取正确文本样本和错误文本样本，并利用正确文本样本和微调预训练的拼写校正模型得到迁移学习后的拼写校正模型。其中，错误文本样本是包含拼写错误的样本，正确文本样本可以是对错误文本样本进行订正后的，不含拼写错误的样本。当拼写校正模型是 BERT预训练模型，可以以 BERT预训练模型对自然语言有一定理解的通用模型为基础，利用迁移学习，且采用正确文本样本和错误文本样本对 BERT预训练模型进行微调。其中，迁移学习 (Transfer learning)顾名思义就是把已训练好的模型 (预训练模型)参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务都是存在相关性的，所以通过迁移学习可以将已经学到的模型参数 (也可理解为模型学到的知识) 通过某种方式来分享给新模型，从而加快并优化模型的学习效率，不用像大多数网络那样从零学习。其中，实现迁移学习有以下三种手段，分别是 Transfer Learning (迁移学习)、 Extract Feature Vector (提取特征向量)和 Fine-tuning (微调) 。其中， Transfer Learning可以冻结预训练模型的全部卷积层，只训练自己定制的全连接层。 Extract Feature Vector可以先计算出预训练模型的卷积层对所有训练和测试数据的特征向量，然后抛开预训练模型，只训练自己定制的简配版全连接网络。 Fine-tuning是一种使用特定数据集对预训练神经网络模型进行进一步训练的过程。通常情况下，微调阶段所使用数据集的数据量小于预训练阶段所使用数据集的数据量，且微调阶段采用监督式学习的方式，即微调阶段所使用数据集中的训练样本包含标注信息。微调可以冻结预训练模型的部分卷积层 (通常是靠近输入的多数卷积层，因为这些层保留了大量底层信息) ，甚至不冻结任何网络层，训练剩下的卷积层 (通常是靠近输出的部分卷积层）和全连接层。在利用正确文本样本和错误文本样本对 BERT预训练模型进行微调时，可以是截断 BERT 预训练模型的最后一层（softmax层），并用正确文本样本和错误文本样本训练出的新的 softmax层替换它，以得到迁移学习后的 BERT预训练模型，亦即拼写校正模型。在得到迁移学习后的拼写校正模型之后，可以将有效文本输入至该迁移学习后的拼写校正模型中，以使该迁移学习后的拼写校正模型输出对应的校正文本。利用深度学习模型学习语义改正拼写错误，能够通过学习现有的真实的就诊记录、入院记录、出院记录、临床记录等文本，自动识别并改正有效文本中的拼写错误，大大减少了后续因拼写错误导致的文本结构化的遗漏情况发生。在步骤 S220中，识别校正文本中的目标关键词，并根据目标关键词对校正文本进行合并得到待结构化文本。在得到校正文本之后，利用正则表达式识别校正文本中的目标关键词，根据目标关键词可以对校正文本进行合并处理，以得到待结构化文本。由于根据病历文本获取到的待结构化文本会包含多个段落，内容过长，因此，可以利用关键词获取对应的待结构化文本，以降低模型学习的难度。在对校正文本进行识别之前，可以利用句子拆分器将校正文本切分成句子，从而对每个句子进行识别。在对每个句子进行识别时，也可以是利用正则表达式实现，以得到目标关键词。举例而言，对校正文本进行“肾病” 的关键词识别的正则表达式可以是 e renal（peritoneal dialysis|on pd|on

并对关键语句进行合并得到待结构化文本。在确定目标关键词之后，可以在校正文本中取目标关键词前后各一句或者两句的句子作为关键语句，并将关键语句合并形成待结构化文本。利用目标关键词获取对应的待结构化文本，缩短了校正文本的句子长度，降低了后续模型学习的难度，并且还能提高模型的训练速度。在步骤 S120中，确定待结构化文本的类型，并根据待结构化文本的类型确定对应的结构化模型。具体的，对待结构化文本进行文本结构化的方式包括三种 NLP （Natural Language Processing, 自然语言处理）模型以达到不同字段的结构化效果，分别是命名实体识别模型、文本分类模型和问答模型，也可以包括其他模型，本示例性实施例对此不做特殊限定。在本公开的示例性实施例中，图 3 示出了根据待结构化文本确定结构化模型的方法的流程示意图，如图 3所示，该方法至少可以包括以下步骤：在步骤 S310中，根据待结构化文本的目标字段确定待结构化文本的类型。在可选的实施例中，图 4示出了根据目标字段确定待结构化文本的类型的方法的流程示意图，如图 4所示，该方法至少可以包括以下步骤：在步骤 S410中，识别待结构化文本的目标字段，当目标字段为命名实体信息，确定待结构化文本为第一类型。举例而言，当目标字段为第一字段时，可以确定待结构化文本的类型为第一类型。其中，第一字段可以是命名实体信息。该命名实体信息可以是表征三大类和七小类的信息。其中，三大类可以包括包括实体类、时间类和数字类，七小类可以包括人名、机构名、地名、时间、日期、货币和百分比。例如，命名实体信息可以是阳性症状、阴性症状或者疾病等信息，本示例性实施例对此不做特殊限定。在步骤 S420中，当目标字段为文本分类信息，确定待结构化文本为第二类型。举例而言，当目标字段为第二字段时，可以确定待结构化文本的类型为第二类型。其中，第二字段可以是文本分类信息。该文本分类信息是按照一定分类体系或标准进行自动分类标记的信息。例如，该文本分类信息可以是是否有肾病、是否为末期肾病等表征分类问题的信息，本示例性实施例对此不做特殊限定。在步骤 S430中，当目标字段为问答信息，确定待结构化文本为第三类型。举例而言，当目标字段为第三字段时，可以确定待结构化文本的类型为第三类型。其中，第三字段可以是问答信息，该问答信息可以用准确、简洁的自然语言回答用户用自然语言提出的问题。例如，问答信息可以包括疾病开始时间等不是分类性质的字段信息，本示例性实施例对此不做特殊限定。进一步的，在确定待结构化文本的类型之后，可以根据该待结构化文本的类型确定对应的结构化模型进行结构化处理。在步骤 S320中，当结构化文本类型为第一类型时，确定采用命名实体识别模型进行结构化。其中，第一类型可以是识别症状等实体信息，也可以是其他信息，本示例性实施例对此不做特殊限定。在步骤 S330中，当结构化文本类型为第二类型时，确定采用文本分类模型进行结构化。其中，第二类型可以是用于识别字段类型的信息，也可以是其他信息，本示例性实施例对此不做特殊限定。在步骤 S340中，当结构化文本类型为第三类型时，确定采用问答模型进行结构化。其中，第三类型可以是非实体以及非类型字段的信息，也可以是其他信息，本示例性实施例对此不做特殊限定。在本示例性实施例中，根据确定出的待结构化文本的类型确定对应的结构化模型，准确选定了文本结构化的方式，使得文本结构化的处理方式更加与待结构化文本贴合，保证了文本结构化的效果。在步骤 S130中，利用结构化模型对待结构化文本进行文本结构化，得到病历文本的目标结构化文本。在本公开的示例性实施例中，确定结构化模型之后，可以对待结构化文本进行文本结构化得到病历文本的目标结构化文本。在可选的实施例中，图 5 示出了一种利用结构化模型对待结构化文本进行文本结构化的方法的流程示意图，如图 5所示，该方法至少可以包括以下步骤：在步骤 S510中，获取与英文病历文本对应的目标格式文本以及与待结构化文本格式对应的校验规则，并利用校验规则对目标格式文本进行解析得到第一结构化结果，校验规则包括针对目标格式文本制定的自定义规则。命名实体识别 (Named Entity Recognition, NER) , 又称作 “专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。利用训练好的命名实体识别模型对待结构化文本进行文本结构化得到英文病历文本的目标结构化文本。从医疗文本抓取医疗实体，例如阳性症状、阴性症状、疾病等是具有普适意义的，也能为后续的关系识别和知识图谱构建奠定基础。在利用训练好的命名实体识别模型对待结构化文本进行文本结构化之前，可以先对待训练的命名实体识别模型进行训练。在可选的实施例中，图 6示出了训练命名实体识别模型的方法的流程示意图，如图 6 所示，该方法至少包括以下步骤：在步骤 S610中，获取病历样本以及与病历样本对应的标注字段，并利用预训练的词向量对病历样本进行文本映射得到单词嵌入向量。该病历样本就可以是对真实世界的病历进行文本清理、拼写校正和段落合并得到的, 且用于训练命名实体识别模型的样本。在获取到真实世界的病历之后，且在成为病历样本之前，可以对随机抽取的病历进行标注得到标注字段。该标注字段为阳性症状、阴性症状等，本示例性实施例对此不做特殊限定。对于词向量的部分，可以采用单词嵌入 (Word Embeddings)和 Flair 下文的字符串嵌入 (Flair Embeddings)的堆叠。在 pubmed embeddings中，可以对查询病历文本中的每个词进行文本映射得到固定的单词嵌入向量。在步骤 S620中，利用词嵌入对病历样本进行语境映射得到字符串嵌入向量，并对单词嵌入向量和字符串嵌入向量进行纵向拼接处理得到样本向量。

Flair Embeddings则是目前处理 NER效果最好的词嵌入之一。 Flair Embeddings又被称为上下文字符串的嵌入。 Flair Embeddings 的两个特点分别是这些单词被理解为字符 (没有任何单词的概念)，以及嵌入是通过其周围文本进行语境化的，单词在不同的句子中可以具有不同的含义。因此，利用 Flair Embeddings可以联系语境将病历文本进行语境映射得到对应的字符串嵌入向量。根据语境的不同，同样的病历文本可能会产生不同的字符串嵌入向量。在得到单词嵌入向量和字符串嵌入向量之后，可以将该单词嵌入向量和字符串嵌入向量进行纵向拼接处理，以得到样本向量。举例而言，当单词嵌入向量为 100X200维，字符串嵌入向量为 100X200维时，经过纵向拼接处理的样本向量为 200X200维的向量。通过对单词嵌入向量和字符串嵌入向量的纵向拼接处理，能够得到表征含义更为清楚的样本向量，为训练命名实体识别模型提供了数据支持。在步骤 S630中，利用标注字段和样本向量训练多个待训练的命名实体识别模型，并对多个训练得到的命名实体识别模型进行模型评分得到对应的多个第一模型分值。在得到样本向量之后，可以利用标注字段和样本向量训练待训练的命名实体识别模型。举例而言，待训练的命名实体识别模型可以是由 Bi-LSTM （ Bi-directional Long Short-Term Memory, 双向长短期记忆）结合条件随机场（CRF, Conditional Random Field）构成的，也可以是其他模型，本示例性实施例对此不做特殊限定。

其中， Fi分数（L Score） , 是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。 F］分数可以看作是模型精确率和召回率的一种调和平均，它的最大值是 1 , 最小值是 0。在步骤 S640中，根据多个第一模型分值在多个训练得到的命名实体识别模型中确定一个训练好的命名实体识别模型。由于在待训练的命名实体识别模型可以有多个，因此，可以训练得到多个命名实体识别模型，并依据公式（1）计算得到多个训练得到的命名实体识别模型的第一模型分值。将多个第一模型分值进行比较，以将第一模型分值最高的训练得到的命名实体识别模型确定为训练好的命名实体识别模型，并对该训练好的命名实体识别模型进行保存。在本示例性实施例中，通过对待训练的命名实体识别模型的训练和评分，能够得到在验证集上表现最好的训练好的命名实体识别模型，为待结构化文本的命名实体识别提供模型基础。在得到训练好的命名实体识别模型之后，可以利用该训练好的命名实体识别模型对待结构化文本进行文本结构化。由于真实世界的病历文本可能是 HTML格式的，因此非结构化文本也可以是根据 HTML 格式的文件获得的，只是失去了 HTML格式的结构，例如表格等信息。因此，可以获取到生成非结构化文本的 HTML格式的目标格式文件。针对该目标格式文件，可以制定自定义规则来辅助命名实体识别模型的预测。其中, 自定义规则即为校验规则，该校验规则是校验目标格式文本的格式的规则。其中，校验规则可以包括目标格式文本的格式是第一行第一列为主诉，除第一行的所有行的第一列为症状等，本示例性实施例对此不做特殊限定。进一步的，可以利用该校验规则从目标格式文本中解析出与症状相关的目标表格。并且，该目标表格中还包括症状的状态，亦即第一结构化结果。其中，症状的状态是由 yes代表该症状为阳性， no代表该症状为阴性。在步骤 S520中，利用命名实体识别模型对待结构化文本进行命名实体识别得到病历文本的第二结构化结果。将待结构化文本输入至训练好的命名实体识别模型中，可以得到对待结构化文本进行命名实体识别后的第二结构化结果。在步骤 S530中，根据第一结构化结果和第二结构化结果进行结合，确定得到结构化文本。将利用校验规则对目标格式文件进行解析之后的第一结构化结果与命名实体识别模型输出的第二结构化结果进行结合以得到目标结构化结果。举例而言，当利用校验规则对目标格式文件进行解析之后的第一结构化结果为 ABC, 而命名实体识别模型输出的第二结构化结果为 BD时，可以将第一结构化结果中不存在的第二结构化结果的 D添加到第一结构化结果中，以得到目标结构化结果为 ABCDo 在本示例性实施例中，利用训练好的命名实体识别模型能够实现对待结构化文本的命名实体识别，同时通过校验规则进行结果校验，大大提升了命名实体识别的准召率。在可选的实施例中，将待结构化文本输入至文本分类模型中，以使文本分类模型对待结构化文本进行文本结构化。文本分类是对文本集（或其他实体、物件）按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合找到文档特征和文档类别之间的关系模型，然后利用这种学习得到的关系模型对新的文档进行类别判断。文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程。其中，文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为预处理、索引、统计、特征抽取、分类器和评价。其中，预处理是将原始语料格式化为同一格式，便于后续的统一处理；索引是将文档分解为基本处理单元，同时降低后续处理的开销；统计是词频统计，项（单词、概念）与分类的相关概率；特征抽取是从文档中抽取出反映文档主题的特征；分类器是分类器的训练；评价是分类器的测试结果分析。一些字段如是否有肾病、是否是末期肾病是分类问题，因此需要训练好的分类器实现实现。然而获取大量标注数据难度较大，而 BERT只需要少量的标注数据即可达到非常不错的效果，因此采取通过微调的方式训练 BERT模型训练文本分类器。在可选的实施例中，图 7示出了训练文本分类模型的方法的流程示意图，如图 7所示, 该方法至少包括以下步骤：在步骤 S710中，获取病历样本，并利用病历样本中的文本分类字段训练多个初始文本分类模型。其中，该病历样本就可以是对真实世界的病历进行文本清理、拼写校正和段落合并得到的，且用于训练命名实体识别模型的样本。预训练的文本分类模型可以是在预训练 BERT模型之上加入线性分类器（Linear Classifier）构成。利用病历文本从头训练线性分类器，并微调 BERT 的参数，使得整个文本分类模型, 亦即 BERT模型和 Linear Classifier结构能一起最大化当前下游任务的目标，以得到微调后的文本分类模型。除此之外，文本分类模型也可以是由其他结构或模型构成，本示例性实施例对此不做特殊限定。在步骤 S720中，利用优化算法优化多个初始文本分类模型，得到每一初始文本分类模型对应的第二分值。利用训练集和验证集中的病历样本调节微调后的文本分类模型的超参数。其中，文本分类模型的超参数包括训练神经网络的学习速率、权值衰减系数、慢热学习的比例等。利用训练集中的病历样本在一次次的迭代和遍历数据集的过程中不断调整微调后的文本分类模型的权重以及优化模型的表现。其中，预训练的文本分类模型还可以采用更为新颖，且更适用于生物医学的与训练模型和词向量 Bio-Clinical BERT。进一步的，按照公式（1）对微调后的文本分类模型进行模型评分得到文本分类模型的 Fi分数，以作为第二模型分值。在步骤 S730中，根据多个第二分值确定文本分类模型。由于训练的文本分类模型可以有多个，例如树结构的随机森林和 XGBoost（一个优化的分布式梯度增强库），或者是其他深度学习模型，因此，可以训练或者微调，并进一步优化得到多个文本分类模型，那么，根据公式（1）可以计算得到多个文本分类模型的第二模型分值。将多个第二模型分值进行比较，以将第二模型分值最高的得到的文本分类模型确定为迁移学习后的文本分类模型，并对该迁移学习后的文本分类模型进行保存。在本示例性实施例中，在训练文本分类模型的过程中只需要少量的病历文本即可达到非常好的效果，使得文本分类模型相比于现有的基于少量数据的规则集而言，大大减少了研发时长和迭代时间，并显著提升了准确率。在得到迁移学习后的文本分类模型之后，可以将待结构化文本输入至迁移学习后的文本分类模型中，以使迁移学习后的文本分类模型输出该待结构化文本的分类结果，以将该分类结果作为非结构化文本的目标结构化文本。对于一些不是分类性质的字段，例如疾病开始时间等，可以采取目标文本进行答案搜索的问答系统方式。举例而言，目标问题可以是肾病开始时间等，本示例性实施例对此不做特殊限定。其中，问答系统（Question Answering System, QA）是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答系统是人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。通过多个由原文的病历样本、问题样本与答案样本组成的样本对，可以使机器学习出一个迁移学习后的问答系统。具体的，获取病历样本、问题样本以及与问题样本对应的答案样本，并利用病历样本、问题样本和答案样本微调预训练的问答模型得到微调后的问答模型。其中，预训练的问答模型可以采用 Bio BERT, 也可以根据实际情况和需求选择其他模型，本示例性实施例对此不做特殊限定。由于预训练的 Bio BERT模型是由海量训练产生的，因此，在针对病例文本形成的目标段落的结构化的特定场景下，只需要少量的问题样本和答案样本对预训练的 Bio BERT 模型进行微调，以使该预训练的 Bio BERT中比较通用的概念能够更好的针对特定场景深入发挥。值得说明的是，问题样本可以是病例文本中与疾病相关的几种或者十几种问题构成的样本，那么，答案样本可以是根据问题样本在病历样本中标注出的对应答案，从而构成的样本。在进行数据预处理的过程中，需要注意的是，在每一个病历样本、问题样本与答案样本组成的样本对里，都要保证答案样本是来自病历样本中的部分内容，因此要保证答案样本和原文的病历样本一致。预训练的 Bio BERT模型在经过病历样本、问题样本与答案样本组成的样本对的微调, 能够学习出如何从原文中搜索出目标问题的对应答案的能力。对微调后的问答模型进行模型评分得到第三模型分值，并根据第三模型分值在微调后的问答模型中确定得到迁移学习后的问答模型。进一步的，按照公式（1）对微调后的问答模型进行模型评分得到问答模型的 Fi分数，以作为第三模型分值。由于训练或者微调的问答模型可以有多个，因此，可以训练或者微调，并进一步优化得到多个问答模型，那么，根据公式（1）可以计算得到多个问答模型的第三模型分值。将多个第三模型分值进行比较，以将第三模型分值最高的得到的问答模型确定为迁移学习后的问答模型，并对该迁移学习后的问答模型进行保存。在微调问答模型的过程中，只需要少量的样本即可达到很好的效果，大大减少了研发时长和迭代时间，并且显著提高了文本结构化的准确率。在可选的实施例中，图 8示出了另一种利用结构化模型对待结构化文本进行文本结构化的方法的流程示意图，如图 8所示，该方法至少包括以下步骤：在步骤 S810中，获取与待结构化文本对应的目标问题。值得说明的是，该目标问题对应的答案必须是属于待结构化文本的某一部分。在步骤 S820中，基于目标问题，利用问答模型对待结构化文本进行答案搜索得到病历文本的目标结构化文本。在得到迁移学习后的问答模型之后，可以将目标问题和待结构化文本输入至迁移学习后的问答系统中，以使迁移学习后的问答系统从目标段落中搜索出目标问题的对应答案，以确定该答案为病历文本文本的目标结构化文本。基于此，在模型训练初期，通过对字段定义的研究，确定字段适合的结构化模型。例如，在通过命名实体识别实现结构化时，一个文本中可以出现多个阳性症状和多个阴性症状，可以通过一个实体识别模型一次性识别所有的实体，结构化的输出是阳性症状、阴性症状各为一个列表。在通过文本分类实现结构化时，例如字段为 “病患是否为末期肾病”的情况，一个文本只能有一个输出： yes/no/null（null表示无法推测），这种情况下分类模型可以达到效果 O 最后一种情况比较特殊，是通过问答系统实现结构化时，例如肾病开始时间，输出的是原文中的一段字符串，输入的是文本和一个问题，模型通过学习样本，做到从原文搜索出用户问题的答案。在本公开的应用场景中，对英文病历文本进行文本预处理，能够自动识别，并改正拼写错误，保证了文本的准确性和有效性，大大减少了因拼写错误导致的文本结构化效果不佳或遗漏的情况发生。进一步的，利用对应的结构化模型对待结构化文本进行文本结构化，减少了研发时长和迭代时间，显著提升了文本结构化的准确性和准召率。此外，在本公开的示例性实施例中，还提供一种英文医疗文本结构化的装置。图 9 示出了英文医疗文本结构化的装置的结构示意图，如图 9所示，英文医疗文本结构化的装置 900可以包括：文本获取模块 910、模型选择模块 920和结果生成模块 930。其中：文本获取模块 910, 被配置为获取英文病历文本，并对所述英文病历文本进行文本预处理得到待结构化文本；模型选择模块 920, 被配置为确定所述待结构化文本的类型，并根据所述待结构化文本的类型确定对应的结构化模型；结果生成模块 930, 被配置为利用所述结构化模型对所述待结构化文本进行文本结构化，得到所述病历文本的目标结构化文本。在本公开的一种示例性实施例中，所述对所述病历文本进行文本预处理得到待结构化文本，包括：利用拼写校正模型对所述病历文本进行拼写校正得到校正文本；识别所述校正文本中的目标关键词，并根据所述目标关键词对所述校正文本进行合并得到待结构化文本。在本公开的一种示例性实施例中，所述确定所述待结构化文本的类型，并根据所述待结构化文本的类型确定对应的结构化模型，包括：根据所述待结构化文本的目标字段确定所述待结构化文本的类型；当所述待结构化文本类型为第一类型时，确定采用命名实体识别模型进行结构化；当所述待结构化文本类型为第二类型时，确定采用文本分类模型进行结构化；当所述待结构化文本类型为第三类型时，确定采用问答模型进行结构化。在本公开的一种示例性实施例中，所述根据所述待结构化文本的目标字段确定所述待结构化文本的类型，包括：识别所述待结构化文本的目标字段，当所述目标字段为命名实体信息，确定所述待结构化文本为第一类型；当所述目标字段为文本分类信息，确定所述待结构化文本为第二类型；当所述目标字段为问答信息，确定所述待结构化文本为第三类型。在本公开的一种示例性实施例中，确定采用命名实体识别模型进行结构化时，所述利用所述结构化模型对所述待结构化文本进行文本结构化，包括：获取与所述病历文本对应的目标格式文本以及与所述待结构化文本格式对应的校验规则，并利用所述校验规则对所述目标格式文本进行解析得到第一结构化结果，所述校验规则包括针对所述目标格式文本制定的自定义规则；利用命名实体识别模型对所述待结构化文本进行命名实体识别得到所述病历文本的第二结构化结果；根据所述第一结构化结果和所述第二结构化结果进行结合，确定目标结构化文本。在本公开的一种示例性实施例中，所述命名实体识别模型通过如下训练步骤得到：获取病历样本以及与所述病历样本对应的标注字段，并利用预训练的词向量对所述病历样本进行文本映射得到单词嵌入向量；利用词嵌入对所述病历样本进行语境映射得到字符串嵌入向量，并对所述单词嵌入向量和所述字符串嵌入向量进行纵向拼接处理得到样本向量；利用所述标注字段和所述样本向量训练多个待训练的命名实体识别模型，并对多个训练得到的命名实体识别模型进行模型评分得到对应的多个第一模型分值；根据多个所述第一模型分值在多个所述训练得到的命名实体识别模型中确定一个训练好的命名实体识别模型。在本公开的一种示例性实施例中，所述文本分类模型通过如下步骤训练得到：获取病历样本，并利用所述病历样本中的文本分类字段训练多个初始文本分类模型；利用优化算法优化多个所述初始文本分类模型，得到每一所述初始文本分类模型对应的第二分值；根据多个所述第二分值确定所述文本分类模型。在本公开的一种示例性实施例中，确定采用问答模型进行结构化时，所述利用所述结构化模型对所述待结构化文本进行文本结构化，包括：获取与所述待结构化文本对应的目标问题；基于所述目标问题，利用问答模型对所述待结构化文本进行答案搜索得到所述病历文本的目标结构化文本。上述英文医疗文本结构化的装置 900的具体细节已经在对应的英文医疗文本结构化的方法中进行了详细的描述，因此此处不再赘述。应当注意，尽管在上文详细描述中提及了英文医疗文本结构化的装置 900的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。下面参照图 10来描述根据本公开的这种实施例的电子设备 1000 o 图 10显示的电子设备 1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。如图 10所示，电子设备 1000以通用计算设备的形式表现。电子设备 1000的组件可以包括但不限于：上述至少一个处理单元 1010、上述至少一个存储单元 1020、连接不同系统组件（包括存储单元 1020和处理单元 1010）的总线 1030、显示单元 1040。其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元 1010执行, 使得所述处理单元 1010执行本说明书上述 “示例性方法 ”部分中描述的根据本公开各种示例性实施例的步骤。存储单元 1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM） 1021和 /或高速缓存存储单元 1022, 还可以进一步包括只读存储单元（ROM） 1023 o 存储单元 1020还可以包括具有一组（至少一个）程序模块 1025的程序 /实用工具 1024, 这样的程序模块 1025包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。总线 1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。电子设备 1000也可以与一个或多个外部设备 1200 （例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备 1000交互的设备通信，和 /或与使得该电子设备 1000能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入 /输出（I/O）接口 1050进行。并且，电子设备 1000还可以通过网络适配器 1060与一个或者多个网络（例如局域网（LAN） , 广域网（WAN）和 /或公共网络，例如因特网）通信。如图所示，网络适配器 1040通过总线 1030与电子设备 1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备 1000使用其它硬件和 /或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、 RAID系统、磁带驱动器以及数据备份存储系统等。通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是 CD-ROM, U盘, 移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本公开实施例的方法。在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述 “示例性方法 ”部分中描述的根据本公开各种示例性实施例的步骤。参考图 11所示，描述了根据本公开的实施例的用于实现上述方法的程序产品 1100, 其可以采用便携式紧凑盘只读存储器（CD-ROM）并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、 RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码, 所述程序设计语言包括面向对象的程序设计语言一诸如 Java、 C++等，还包括常规的过程式程序设计语言一诸如 “C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN） , 连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

权利要求

1. 英文医疗文本结构化的方法，所述方法包括：获取英文病历文本，并对所述英文病历文本进行文本预处理得到待结构化文本；确定所述待结构化文本的类型，并根据所述待结构化文本的类型确定对应的结构化模型；利用所述结构化模型对所述待结构化文本进行文本结构化，得到所述病历文本的目标结构化文本。

2. 根据权利要求 1 所述的方法，其中，所述对所述病历文本进行文本预处理得到待结构化文本，包括：利用拼写校正模型对所述病历文本进行拼写校正得到校正文本；识别所述校正文本中的目标关键词，并根据所述目标关键词对所述校正文本进行合并得到待结构化文本。

3. 根据权利要求 1 所述的方法，其中，所述确定所述待结构化文本的类型，并根据所述待结构化文本的类型确定对应的结构化模型，包括：根据所述待结构化文本的目标字段确定所述待结构化文本的类型；当所述待结构化文本类型为第一类型时，确定采用命名实体识别模型进行结构化；当所述待结构化文本类型为第二类型时，确定采用文本分类模型进行结构化；当所述待结构化文本类型为第三类型时，确定采用问答模型进行结构化。

4. 根据权利要求 3 所述的方法，其中，所述根据所述待结构化文本的目标字段确定所述待结构化文本的类型，包括：识别所述待结构化文本的目标字段，当所述目标字段为命名实体信息，确定所述待结构化文本为第一类型；当所述目标字段为文本分类信息，确定所述待结构化文本为第二类型；当所述目标字段为问答信息，确定所述待结构化文本为第三类型。

5. 根据权利要求 3 所述的方法，其中，确定采用命名实体识别模型进行结构化时，所述利用所述结构化模型对所述待结构化文本进行文本结构化，包括：获取与所述英文病历文本对应的目标格式文本以及与所述待结构化文本格式对应的校验规则，并利用所述校验规则对所述目标格式文本进行解析得到第一结构化结果，所述校验规则包括针对所述目标格式文本制定的自定义规则；利用命名实体识别模型对所述待结构化文本进行命名实体识别得到所述病历文本的第二结构化结果；根据所述第一结构化结果和所述第二结构化结果进行结合，确定目标结构化文本。

6. 根据权利要求 3 所述的方法，其中，所述命名实体识别模型通过如下训练步骤得到: 获取病历样本以及与所述病历样本对应的标注字段，并利用预训练的词向量对所述病历样本进行文本映射得到单词嵌入向量；利用词嵌入对所述病历样本进行语境映射得到字符串嵌入向量，并对所述单词嵌入向量和所述字符串嵌入向量进行纵向拼接处理得到样本向量；利用所述标注字段和所述样本向量训练多个待训练的命名实体识别模型，并对多个训练得到的命名实体识别模型进行模型评分得到对应的多个第一模型分值；根据多个所述第一模型分值在多个所述训练得到的命名实体识别模型中确定一个训练好的命名实体识别模型。

7. 根据权利要求 3所述的方法，其中，所述文本分类模型通过如下步骤训练得到：获取病历样本，并利用所述病历样本中的文本分类字段训练多个初始文本分类模型；利用优化算法优化多个所述初始文本分类模型，得到每一所述初始文本分类模型对应的第二分值；根据多个所述第二分值确定所述文本分类模型。

8. 根据权利要求 3 所述的方法，其中，确定采用问答模型进行结构化时，所述利用所述结构化模型对所述待结构化文本进行文本结构化，包括：获取与所述待结构化文本对应的目标问题；基于所述目标问题，利用问答模型对所述待结构化文本进行答案搜索得到所述病历文本的目标结构化文本。

9. 一种英文医疗文本结构化的装置，包括：文本获取模块，被配置为获取英文病历文本，并对所述英文病历文本进行文本预处理得到待结构化文本；模型选择模块，被配置为确定所述待结构化文本的类型，并根据所述待结构化文本的类型确定对应的结构化模型；结果生成模块，被配置为利用所述结构化模型对所述待结构化文本进行文本结构化, 得到所述病历文本的目标结构化文本。

10. 一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被发送器执行时实现权利要求 1-8中任意一项所述的英文医疗文本结构化的方法。

11. 一种电子设备，包括：发送器；存储器，用于存储所述发送器的可执行指令；其中，所述发送器被配置为经由执行所述可执行指令来执行权利要求 1-8中任意一项所述的英文医疗文本结构化的方法。