WO2020252950A1

WO2020252950A1 - 基于预训练模型和微调技术的医疗文本命名实体识别方法

Info

Publication number: WO2020252950A1
Application number: PCT/CN2019/105506
Authority: WO
Inventors: 陈涛; 杨开漠
Original assignee: 五邑大学
Priority date: 2019-06-17
Filing date: 2019-09-12
Publication date: 2020-12-24
Also published as: CN110348008A

Abstract

一种基于预训练模型和微调技术的医疗文本命名实体识别方法，首先利用大规模非结构化的电子病历等医疗文本对BERT预训练模型进行预训练，以训练出包含文本中语义表示信息的预训练模型。利用堆叠扩张卷积神经网络对所产生的预训练模型进行微调，以获得能够进行医疗领域命名实体自动识别的深度神经网络模型。该方法提供的预训练模型能够更为准确的捕获文本中的语义信息，能够更有效的迁移到特定的任务中，提高模型进行命名实体识别的准确性；该方法将堆叠扩张卷积神经网络与预训练模型结合以对模型进行微调，最终进行医疗文本命名实体的识别，不仅能够很好的捕获文本中的语义信息，而且能够进行并行计算，以提高模型训练速度。

Description

基于预训练模型和微调技术的医疗文本命名实体识别方法

技术领域

本发明涉及数据挖掘技术领域，尤其是一种基于预训练模型和微调技术的医疗文本命名实体识别方法。

背景技术

临床医学是研究疾病的病因、诊断、治疗和预后，提高临床治疗水平，促进人体健康的科学。临床医学中的电子病历等医疗文本数据对于医学领域研究具有巨大的价值。随着互联网的普及，出现了越来越多的在线临床医疗社区以及临床医疗咨询网站。这些在线临床医疗网站也产生了丰富的医疗文本数据。这些医疗文本中有大量真实的个人案例，潜藏着丰富的临床医疗价值。但是这些临床医疗文本大多处于一种非结构化的状态。为充分挖掘其中的价值，并为接下来临床医疗问答机器人、临床医疗决策支持系统等应用打好基础工作。如何采用更加有效合理的方法，准确地挖掘出医疗文本数据中所存在的潜在价值，已经是未来信息科技发展的趋势，也是医疗文本数据挖掘技术产生的背景。

医疗机构通过构建和组织对医疗文本数据进行文本分析的文本数据分析团队，来挖掘临床医学中产生的医疗文本数据中所包含的有用信息，尤其是医疗文本中包含的命名实体信息，为提高医疗机构之间竞争中获取更大的商业利益。同时，国家也将医疗文本数据挖掘作为国家战略布局的重要组成成分，以提高国内医疗水平。

命名实体识别，又名实体识别、实体抽取，是自然语言处理领域信息抽取任务中的一项子任务，旨在通过利用机器学习相关方法从文本语料中自动识别并抽取出文本中的专有名词并加以分类。常见的命名实体有：人名、地名、机构名、特定实体等。命名实体识别是自然语言处理中一个相当重要的基础任务，是许多自然语言处理的高层应用，如搜索引擎、问答系统、推荐系统、翻译系统等的一个基础技术。随着信息技术的不断发展与信息系统应用范围的不断深化，对文本数据进行自动化命名实体识别是提高企业生产效率和竞争优势的一种重要手段及措施。

文本命名实体识别的分析方法可分为基于规则的命名实体识别方法、基于词典的命名实体识别方法、基于传统机器学习的命名实体识别方法和基于深度学习方法的命名实体识别方法。

基于规则的命名实体识别方法是利用模式匹配技术根据预先定义好的规则模板对文本进行匹配识别出命名实体。规则模板一般是根据词法、句法、语法等语言学知识来进行设计的。该方法因为所采用的规则一般是由专家编写的，所以具有较高的准确性。但是因为专家知识具有不可复用性，导致该方法存在人工成本非常高等缺点。

基于词典的命名实体识别方法是通过构建词典并根据词典对文本中的内容进行匹配的命名实体识别方法。传统的命名实体类别，如人名、地名、机构名等的命名实体数量巨大，很难全部收录在词典中，而且部分实体名称变化频繁，并没有严格的规律可循，因此单纯的基于词典匹配的命名实体识别通常无法满足实际应用的需求。

基于传统机器学习的命名实体识别方法利用统计学和概率学的知识，针对特定的命名实体识别问题设计各种复杂的统计模型，利用大量的标记数据进行有监督的学习调整模型的参数，进而使用训练好的模型来进行命名实体识别。相比前两种方法，此类方法不需要很强的语言学知识，灵活性高，适应性强，但命名实体识别的效果依赖标注数据的数量和质量。

基于深度学习的命名实体识别方法利用深度神经网络训练模型来识别不同领域中的特定命名实体。其中，具有代表性意义的方法有基于循环神经网络(Recurrent Neural Network，RNN)及其变体的文本关系抽取方法和基于卷积神经网络(Convolutional Neural Networks，CNN)及其变体的方法。这些方法不仅能够更加准确地识别并抽取出相关领域文本语料中的命名实体，而且减少了人工成本消耗。

医疗文本命名实体识别是利用计算机技术从医疗文本中自动识别出医疗领域有用的命名实体，如解剖部位、独立症状、症状描述、手术、药物等命名实体，形成结构化的数据储存在数据库中，以供用户对信息的查询或进一步分析利用的过程。具体的说，是自然语言处理领域的命名实体识别技术从医疗文本中自动识别出医疗命名实体。

随着各类临床医疗症状的发现解决以及相关药物的研究发明，如何采用更加高效合理的技术从数目繁多的临床医疗文本中识别并抽取不同与医学相关的命名实体，并为不同用户群体及医学专家提供在线查询平台，已经是目前大数据行业所面临的直接问题与挑战。它是医疗知识挖掘、临床医疗问答机器人、临床医疗决策支持系统等应用领域的重要基础工作。综上所述，需要研究与开发一种科学准确的医疗文本命名实体识别的方法，具有很强的现实意义。

发明内容

针对现有技术的不足，本发明提供基于预训练模型和微调技术的医疗文本命名实体识别方法，该方法通过利用已标注好医疗命名实体的医疗文本对基于深度学习方法的命名实体识别模型进行训练，然后利用训练好的模型对未标注的医疗文本进行命名实体识别，并抽取出文档中所包含的命名实体。

本发明的技术方案为：基于预训练模型和微调技术的医疗文本命名实体识别方法，包括以下步骤：

S1)、利用文本数据挖掘的相关技术对医疗文本进行预处理；

S2)、利用BERT预训练模型对大规模非结构化的无标注的医疗文本进行预训练，训练出包含医疗领域语义表示信息的预训练模型；

S3)、利用堆叠扩张卷积神经网络IDCNN对步骤S2)所训练出的预训练模型进行微调，训练出能够识别医疗文本中所包含的相关医疗命名实体的深度神经网络模型；

S4)、将训练好的深度神经网络模型用于医疗文本的命名实体识别任务中，以识别更多有价值的命名实体。

进一步的，上述方法中，步骤S1)中，利用文本数据挖掘的相关技术对医疗文本进行预处理，主要包含以下步骤：

S101)、对医疗文本进行分词处理；

S102)、删除以分词句子中的停用词；

S103)、利用BIO序列标记法标注医疗文本中所存在的解剖部位、独立症状、症状描述、手术、药物相关的临床医疗命名实体；其中，B表示医疗命名实体的开始词；I表示医疗命名实体的中间词或结尾词；O表示非医疗命名实体；

进一步的，上述方法中，步骤S2)中，对大规模非结构化的无标注医疗文本进行预训练，以获得文本中所包含的丰富语义表示信息。相对于神经网络的词向量训练模型从大规模无标注医疗文本中训练词向量，将词向量作为下一层网络的输入，利用BERT预训练模型能够获得更加丰富的文本语义表示信息，能够更有效的迁移到特定的任务中。

进一步的，上述方法中，步骤S3)中，将堆叠扩张卷积神经网络与BERT预训练模型进行结合，对步骤S2)所产生的预训练模型进行微调，得到进行医疗文本命名实体识别的深度神经网络模型。

进一步的，上述方法中，步骤S4)中，通过将未进行命名实体标注的医疗文本输入到步骤S3)中利用预训练模型和微调技术训练出的深度神经网络模型中，得到该输入文本对应的医疗命名实体BIO标记，将上述标记利用可视化方法呈现给用户，使该系统的使用者能够方便的获取输入的医疗文本中被自动识别出的医疗命名实体信息。

本发明的有益效果为：

1、本发明采用预训练模型而不是词向量作为医疗文本命名实体识别模型的输入，相对于词向量，预训练模型能够更为准确的捕获文本中的语义信息，能够更有效的迁移到特定的任务中，提高模型进行命名实体识别的准确性；

2、本发明利用堆叠扩张卷积神经网络进行医疗文本命名实体识别，相对于现有技术，本发明采用的堆叠扩张卷积神经网络不仅能够很好的捕获文本中的语义信息，而且该方法能够进行并行计算，以提高模型训练速度；

3、本发明将堆叠扩张卷积神经网络与预训练模型结合使用，并使用堆叠扩张卷积神经网络来微调预训练得到的预训练模型，以提高模型性能。

附图说明

图1为本发明的流程示意图；

图2为本发明实施例的BIO标记结果示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

如图1所示，本发明提供一种基于预训练模型和微调技术的医疗文本命名实体识别方法，本发明首先利用大规模非结构化的电子病历等医疗文本对BERT预训练模型进行预训练，以训练出包含文本中语义表示信息的预训练模型。然后，利用堆叠扩张卷积神经网络对所产生的预训练模型进行微调，以获得能够进行医疗领域命名实体自动识别的深度神经网络模型。

具体为：S1)、利用文本数据挖掘相关技术对电子病历等医疗文本进行预处理操作；该过程具体包括以下步骤：

S101)、对电子病历等医疗文本进行分词处理；

S102)、删除已分词句子中停用词；

S103)、利用BIO序列标记法对医疗文本中存在的解剖部位、独立症状、症状描述、手术、药物等命名实体进行标注。BIO序列标记法是一种使用B、I、O三个字母来标记文本信息的方法。其中，B表示医疗命名实体的开始词；I表示医疗命名实体的中间词或结尾词；O表示非医疗命名实体。

S2)、利用BERT预训练模型大规模非结构化的无标注医疗文本进行预训练，生成包含文本中语义表示信息的预训练模型。

S3)、利用堆叠扩张卷积神经网络对步骤S2)所产生的预训练模型进行微调。在微调过程中，训练出能够自动识别医疗领域命名实体的深度神经网络模型；

S4)、将训练好的深度神经网络模型用于医疗文本命名实体识别任务中。

本发明采用预训练模型而不是词向量作为医疗文本命名实体识别模型的输入。预训练模型是专门为从大规模无标注语料中以无监督的方式学习语料中的语义信息的神经网络模型，它是由多层神经网络组成的复杂的学习模型，而词向量是使用词向量学习模型从大规模无标注语料中生成的一组一维向量。相对于词向量，预训练模型能够更为准确的捕获文本中的语义信息，提高模型进行命名实体识别的准确性。

同时，本发明采用基于深度学习的人工神经网络与自然语言处理命名实体识别方法相结合的方法，能够提高系统准确性、反应速度和容错性。针对医疗领域实体识别语料进行预处理和利用堆叠扩张卷积神经网络微调预训练模型，提高命名实体识别的准确性和效率，能够满足不同应用的需求。

为了更好的理解本发明，本发明对句子“左肾区叩击疼明显”进行分析，如图2所示，具体为：

1)、对待处理句子进行预处理的分词结果如下：“左肾区叩击疼明显”。

2)、将上述结果输入给基于预处理模型和微调技术的医疗文本命名实体识别模型中，进行命名实体识别，得到的命名实体识别结果为身体部位实体“左肾区”和症状实体“叩击疼”。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

基于预训练模型和微调技术的医疗文本命名实体识别方法，其特征在于，包括以下步骤：

S1)、利用文本数据挖掘的相关技术对医疗文本进行预处理；

S2)、利用BERT预训练模型对大规模非结构化的无标注的医疗文本进行预训练，训练出包含医疗领域语义表示信息的预训练模型；

S3)、利用堆叠扩张卷积神经网络IDCNN对步骤S2)所训练出的预训练模型进行微调，训练出能够识别医疗文本中所包含的相关医疗命名实体的深度神经网络模型；

S4)、将训练好的深度神经网络模型用于医疗文本的命名实体识别任务中，以识别更多有价值的命名实体。
根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法，其特征在于：步骤S1)中，利用文本数据挖掘的相关技术对医疗文本进行预处理，主要包含以下步骤：

S101)、对医疗文本进行分词处理；

S102)、删除已分词句子中的停用词；

S103)、利用BIO序列标记法标注医疗文本中所存在的解剖部位、独立症状、症状描述、手术、药物相关的临床医疗命名实体；其中，B表示医疗命名实体的开始词；I表示医疗命名实体的中间词或结尾词；O表示非医疗命名实体；
根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法，其特征在于：步骤S2)中，对大规模非结构化的无标注医疗文本进行预训练，以获得文本中所包含的丰富语义表示信息。
根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法，其特征在于：步骤S3)中，将堆叠扩张卷积神经网络与BERT预训练模型进行结合，对步骤S2)所产生的预训练模型进行微调，得到进行医疗文本命名实体识别的深度神经网络模型。
根据权利要求1所述的基于预训练模型和微调技术的医疗文本命名实体识别方法，其特征在于：步骤S4)中，通过将未进行命名实体标注的医疗文本输入到步骤S3)中利用预训练模型和微调技术训练出的深度神经网络模型中，得到该输入文本对应的医疗命名实体BIO标记，将上述标记利用可视化方法呈现给用户，使该系统的使用者能够方便的获取输入的医疗文本中被自动识别出的医疗命名实体信息。