WO2020211275A1

WO2020211275A1 - 基于预训练模型与微调技术的医疗文本关系抽取方法

Info

Publication number: WO2020211275A1
Application number: PCT/CN2019/105507
Authority: WO
Inventors: 陈涛; 吴明芬; 杨开漠
Original assignee: 五邑大学
Priority date: 2019-04-18
Filing date: 2019-09-12
Publication date: 2020-10-22
Also published as: CN110134772A; CN110134772B

Abstract

一种基于预训练模型与微调技术的医疗文本关系抽取方法，包括医疗关系抽取语料的预处理、模型预训练、微调；利用预训练模型作为一维卷积神经网络模型的输入，预训练模型更有利于提高医疗文本关系抽取的性能；将一维卷积神经网络模型与预训练模型结合使用，并使用一维卷积神经网络来微调预训练模型，有利于提高模型的性能；通过将一维卷积神经网络的训练误差反向传播到预训练模型来实现模型微调过程，其为动态的模型训练过程；而传统的方法将词嵌入与不同层的输入相结合，仍然从头开始训练主要任务模型，并将预先训练的嵌入视为固定参数，限制了其有用性。

Description

基于预训练模型与微调技术的医疗文本关系抽取方法

技术领域

本发明涉及自然语言数据分析、处理技术领域，尤其是一种医疗领域文本关系抽取方法，更具体涉及一种基于预训练模型与微调技术的医疗文本关系抽取方法。

背景技术

关于医疗的中文解释有两个：1.医治，2.疾病的治疗。中华医史几千年，而这个字眼是在近几十年才出现，是为了与国际接轨而新生的字眼。在此之前大多使用治疗，医疗也包含保健内容。

医疗数据具有巨大的价值，尤其是在医疗文本关系方面。医疗数据挖掘已经上升到国家战略，同时也是全球学术界与产业界竞争的研究热点。如何利用这些医疗数据，挖掘数据的深层价值，是未来信息科技发展的趋势，也是医疗数据分析技术产生的背景。

医疗文本中关系的抽取是指从医疗文本中抽取指定的一类事实信息，形成结构化的数据储存在数据库中，以供用户对信息的查询或进一步分析利用的过程。如一位生物医疗科学家要从海量的生物医疗文献中寻求关于某种疾病的新的治疗方案，借助于医疗文本中的药物和疾病关系的抽取是指从文本中抽取系统抽取出的蛋白质、基因或药物等的交互关系信息，就有可能从中发现有价值的治疗线索或方法。

对文本数据进行自动化关系抽取一直是人工智能、自然语言处理技术的一个重要研究及应用领域，是信息抽取的一个重要子任务。其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据。具体的说，关系抽取主要是通过自然语言处理技术和关系抽取技术，从文本数据中自动识别出相关的实体，然后对两个相关实体间的语义关系进行分类。随着信息技术的不断发展与信息系统应用范围的不断深化，对文本数据进行自动化关系抽取是提高企业生产效率和竞争优势的一种重要手段及措施。

文本关系抽取相关的传统分析方法多采用基于模板的文本关系抽取方法和基于传统机器学习的文本关系抽取方法。其中，基于模板的文本关系抽取方法主要包括基于触发词或字符串的文本关系抽取方法和基于依存句法的文本关系抽取方法。基于触发词或字符串的文本关系抽取方法，首先需要定义触发词或字符串关系规则，然后让计算机根据该规则对给定文本进行查找，并抽取出符合要求的关系。基于依存句法的文本关系抽取方法与基于触发词或字符串的文本关系抽取方法比较类似，但此类方法通常需要先解析规则，然后利用依存分词器分析句子结构，并在依存树上匹配规则，以查找符合要求的关系组。基于模板的文本关系抽取方法因为定义的规则的人一般都是研究该领域的专家，所以该方法具有比较高的准确率，而且可以根据不同领域定义不同的规则。但是由于这些规则都是领域专家构建的，所以需要较高的人工和时间成本，同时此类方法还存在可移植性较差和召回率低等问题。

针对基于模板的文本关系抽取方法所存在的问题，研究者开始尝试利用基于传统机器学习的方法来对文本进行文本关系抽取。此类方法首先预先定义好需要抽取的关系集合和命名实体集合。然后，人工标注命名实体和实体间关系，并将标注的数据分为训练集、开发集和测试集。最后，选择和训练分类器，并利用训练好的分类器对未知语料集进行关系抽取。

近年来，随着大数据和高性能计算的快速发展，深度学习技术在很多领域取得了优异的成绩，越来越多的研究者使用深度神经网络的方法进行文本关系抽取。典型的方法有基于循环神经网络(Recurrent Neural Network，RNN)及其变体的文本关系抽取方法和基于卷积神经网络(Convolutional Neural Networks，CNN)及其变体的方法。此类方法具有抽取效果好、不需要大量人工构建特征或规则、便于移植等优点。但此类方法一般需要较大的训练语料才能达到较高的性能。

因此，对于需要处理大量医疗文本数据的行业而言，随着各类医疗药物的发明以及应用，如何在浩如烟海的医疗文本资料中抽取出不同药物对某些疾病的医疗功效，发掘出药物和疾病间的关系，并为不同用户群体提供查询平台都是大数据处理行业面临的直接挑战。因此，寻找一种科学的医疗文本关系抽取方法，具有很强的现实意义。

发明内容

针对现有技术的不足，本发明提供一种基于预训练模型与微调技术的医疗文本关系抽取方法，本发明采用深度神经网络从标注有药物实体与疾病实体之间关系的中、英文医疗文献、病历等医疗文本语料中训练模型，并利用所训练的模型对未标注有上述实体关系的中、英文医疗文本进行关系抽取，抽取出相关药物与疾病之间的关系。

本发明的技术方案为：基于预训练模型与微调技术的医疗文本关系抽取方法，包括以下步骤：

S1)、对医疗关系抽取语料进行预处理；

S2)、利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型；

S3)、利用一维卷积神经网络对步骤S2)所产生的预训练模型进行微调，在微调过程中，训练出能够进行医疗关系抽取的深度神经网络模型；

S4)、对医疗文本关系抽取结果进行后处理；

S5)、将训练成功的模型用于医疗关系抽取任务。

上述方法中，步骤S1)中，对医疗关系抽取语料进行预处理为对输入的医疗文本进行分词、抽取词干处理，并采用人工标注医疗文本中的药物实体和疾病实体；

具有包括以下步骤：

S101)、采用BIO序列标记法将医疗文本中的句子以词为单位进行标注，其中，B表示药物目标或疾病目标开始词；I表示药物目标或疾病目标中间词或结尾词；O表示非药物目标或疾病目标词；

S102)、将上述标记好的数据输入带有条件随机场的双向LSTM神经网络对其进行训练，通过调节神经网络的参数实现模型的优化，实现对医疗文本中的药物实体和疾病实体进行自动识别，即将未进行BIO序列标记的医疗文本输入到训练好的神经网络中，网络输出每一个词的BIO标记，根据这些BIO标记可以找出医疗文本中的药物实体和疾病实体，从而实现药物实体与疾病实体的自动识别。

上述方法中，步骤S2)中，利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型具体为：利用性能优异的模型预训练方法BERT对对大规模非结构化的无标注的中英文医疗文献、病历进行预训练，

进一步的，所述的预训练的方法分为句子级和词语级两类，其中，句子级方法使用前一个句子预测后一个句子，并随机替换后面的句子，生成预训练需要的反例；

词语级方法随机遮蔽句子中的一个词，训练模型去猜所遮蔽的词。

步骤S3)中，将一维卷积神经网络与BERT预训练得到的模型进行组合，在步骤S1)所产生的语料上对步骤S2)所产生的预训练模型进行微调，微调的过程即将一维卷积神经网络训练产生的误差反向传播给步骤S2)得到的预训练模型和一维卷积神经网络的各个层中，对预训练模型和一维卷积神经网络中的参数进行调整，最终训练出能够比较准确的进行医疗关系抽取的深度神经网络模型。

进一步的，训练产生的误差是指模型训练的结果中与标注的标签不一样的结果，经过数值化操作后得到的数值。

上述方法中，步骤S4)中，所述的后处理具体为通过具有相关医疗知识的专家对步骤S3)训练得到的药物与疾病间关系结果进行分析，制定一系列规则模板，对预测结果进行归一化、标准化处理，提高关系抽取结果的准确性。

进一步的，步骤S5)中，对于一个待进行关系抽取的医疗文献或病历，先对其进行药物实体和疾病实体的标注，然后将其输入到步骤S3)在微调的过程中训练出的能够进行医疗关系抽取的深度神经网络模型，并根据步骤S4)对输出的结果进行后处理，将最终结果利用可视化方法将其呈现给用户，使该系统的使用者能够方便的获取所输入医疗文本中药物与疾病间的关系信息。

本发明的有益效果为：

1、本发明利用预训练模型作为一维卷积神经网络模型的输入，而现有技术利用词嵌入作为一维卷积神经网络模型的输入，预训练模型比词嵌入更有利于提高医疗文本关系抽取的性能；

2、本发明将一维卷积神经网络模型与预训练模型结合使用，并使用一维卷积神经网络来微调预训练模型，有利于提高模型的性能；

3、本发明通过将一维卷积神经网络的训练误差反向传播到预训练模型来实现模型微调过程，这是一个动态的模型训练过程；而传统的方法将词嵌入与不同层的输入相结合，仍然从头开始训练主要任务模型，并将预先训练的嵌入视为固定参数，限制了它们的有用性。

附图说明

图1为本发明基于预训练模型与微调技术的医疗文本关系抽取方法的流程图；

图2为本发明实施例中BIO标记的结果示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

如图1所示，本实施例提供一种基于预训练模型与微调技术的医疗文本关系抽取方法，本发明采用深度神经网络从标注有药物实体与疾病实体之间关系的中、英文医疗文献、病历等医疗文本语料中训练模型，并利用所训练的模型对未标注有上述实体关系的中、英文医疗文本进行关系抽取，抽取出相关药物与疾病之间的关系，具体包括以下步骤：

S1)、对医疗关系抽取语料进行预处理，其主要为对输入的医疗文本进行分词、抽取词干处理，并采用人工标注医疗文本中的药物实体和疾病实体；

具有包括以下步骤：

S101)、采用BIO序列标记法将医疗文本中的句子以词为单位进行标注，即每个词对应B、I、O三种标记中的一种，其中，B表示药物目标或疾病目标开始词；I表示药物目标或疾病目标中间词或结尾词；O表示非药物目标或疾病目标词；

S102)、将上述标记好的数据输入带有条件随机场的双向LSTM神经网络对其进行训练，通过调节神经网络的参数实现模型的优化，实现对医疗文本中的药物实体和疾病实体进行自动识别，即将未进行BIO序列标记的医疗文本输入到训练好的神经网络中，网络输出每一个词的BIO标记，根据这些BIO标记可以找出医疗文本中的药物实体和疾病实体，从而实现药物实体与疾病实体的自动识别，大大提高了序列标注及关系抽取的效果。

S2)、利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型，具体为：利用性能优异的模型预训练方法BERT对对大规模非结构化的无标注的中英文医疗文献、病历进行预训练，所述的预训练的方法分为句子级和词语级两类，其中，句子级方法使用前一个句子预测后一个句子，并随机替换后面的句子，生成预训练需要的反例；词语级方法随机遮蔽句子中的一个词，训练模型去猜所遮蔽的词。

S3)、利用一维卷积神经网络对步骤S2)所产生的预训练模型进行微调，在微调过程中，训练出能够进行医疗关系抽取的深度神经网络模型，具体为将一维卷积神经网络与BERT预训练得到的模型进行组合，在步骤S1)所产生的语料上对步骤S2)所产生的预训练模型进行微调，微调的过程即将一维卷积神经网络训练产生的误差反向传播给步骤S2)得到的预训练模型和一维卷积神经网络的各个层中，对预训练模型和一维卷积神经网络中的参数进行调整，最终训练出能够比较准确的进行医疗关系抽取的深度神经网络模型，其中，训练产生的误差是指模型训练的结果中与标注的标签不一样的结果，经过数值化操作后得到的数值。一维卷积神经网络具有结构简单、训练参数少和适应性强的特点，其降低了网络模型的复杂度，减少了权值的数量。

S4)、对医疗文本关系抽取结果进行后处理，具体为通过具有相关医疗知识的专家对步骤S3)训练得到的药物与疾病间关系结果进行分析，制定一系列规则模板，对预测结果进行归一化、标准化处理，提高关系抽取结果的准确性。

S5)、将训练成功的模型用于医疗关系抽取任务，具体为对于一个待进行关系抽取的医疗文献或病历，先对其进行药物实体和疾病实体的标注，然后将其输入到步骤S3)在微调的过程中训练出的能够进行医疗关系抽取的深度神经网络模型，并根据步骤S4)对输出的结果进行后处理，将最终结果利用可视化方法将其呈现给用户，使该系统的使用者能够方便的获取所输入医疗文本中药物与疾病间的关系信息。

本发明的基本思想是：首先采用深度神经网络从标注有医疗关系的语料中训练模型，并利用该模型对未标注有医疗关系的中英文医疗文献、病历进行关系抽取，抽取出有用的药物与疾病之间的关系。该方法的特点是利用大规模非结构化无标注中英文医疗文献、病历训练预训练模型，然后用一维卷积神经网络对上述预训练模型进行微调，在微调的过程中训练处能够进行医疗关系抽取的深度神经网络模型。本发明采用基于深度学习的人工神经网络和自然语言处理关系抽取相结合的方法，能够提高系统准确性、反应速度和容错性。针对医疗关系抽取语料进行预处理和利用一维卷积神经网络微调预训练算法，能够提高关系抽取的准确性和效率，以满足不同应用的需求。

对于待处理的句子“红花能够治疗寻常型银屑病”具体实施步骤如下：对待处理的句子进行预处理的分词结果如下：“红花能够治疗寻常型银屑病”。将上述结果中的每一个词输入到带有条件随机场的双向LSTM神经网络中，分析结果如图2所示。根据医疗文本关系自动抽取结果，可以知道待处理的句子中含有两个实体。其中，“红花”是药物实体，“银屑病”是疾病实体。然后，将上述带有BIO标注的句子输入给基于预处理模型和微调技术在医疗关系抽取语料中训练好的一维卷积神经网络中进行关系自动抽取，得到关系抽取结果：药物实体“红花”与疾病实体“银屑病”之间是正面的关系，即可以治疗的关系。

本实施例还提供一种基于预处理模型与微调技术的医疗文本关系抽取系统，其包括：预处理模块，用于将对待医疗关系抽取语料切分成词汇；

序列标注预测模块，用于对切分后的待处理的句子进行序列标注，自动分析待关系抽取句子中每个词的BIO标记；

预训练模型训练模块，通过利用大规模非结构化无标注中英文医疗文献、病历训练预训练模型；

微调模块，通过利用一维卷积神经网络对上述预训练模型进行微调，在微调的过程中训练出能够进行医疗关系抽取的深度神经网络模型；

后处理模块，用于对医疗文本关系抽取结果进行后处理。结果输出模块，用于对抽取结果进行可视化输出。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

基于预训练模型与微调技术的医疗文本关系抽取方法，其特征在于，包括以下步骤：

S1)、对医疗关系抽取语料进行预处理；

S2)、利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型，具体为：利用性能优异的模型预训练方法BERT对对大规模非结构化的无标注的中、英文医疗文献、病历进行预训练；

S3)、利用一维卷积神经网络对步骤S2)所产生的预训练模型进行微调，在微调过程中，训练出能够进行医疗关系抽取的深度神经网络模型，具体为：将一维卷积神经网络与BERT预训练得到的模型进行组合，在步骤S1)所产生的语料上对步骤S2)所产生的预训练模型进行微调，微调的过程即将一维卷积神经网络训练产生的误差反向传播给步骤S2)得到的预训练模型和一维卷积神经网络的各个层中，对预训练模型和一维卷积神经网络中的参数进行调整，最终训练出能够比较准确的进行医疗关系抽取的深度神经网络模型；

S4)、对医疗文本关系抽取结果进行后处理；

S5)、将训练成功的模型用于医疗关系抽取任务。
根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法，其特征在于：步骤S1)中，对医疗关系抽取语料进行预处理为对输入的医疗文本进行分词、抽取词干处理，并采用人工标注医疗文本中的药物实体和疾病实体；

具有包括以下步骤：

S101)、采用BIO序列标记法将医疗文本中的句子以词为单位进行标注，其中，B表示药物目标或疾病目标开始词；I表示药物目标或疾病目标中间词或结尾词；O表示非药物目标或疾病目标词；

S102)、将上述标记好的数据输入带有条件随机场的双向LSTM神经网络对其进行训练，通过调节神经网络的参数实现模型的优化，实现对医疗文本中的药物实体和疾病实体进行自动识别，即将未进行BIO序列标记的医疗文本输入到训练好的神经网络中，网络输出每一个词的BIO标记，根据这些BIO标记可以找出医疗文本中的药物实体和疾病实体，从而实现药物实体与疾病实体的自动识别。
根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法，其特征在于：步骤S2)中，所述的预训练的方法分为句子级和词语级两类，其中，句子级方法使用前一个句子预测后一个句子，并随机替换后面的句子，生成预训练需要的反例；词语级方法随机遮蔽句子中的一个词，训练模型去猜所遮蔽的词。
根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法，其特征在于：步骤S3)中，训练产生的误差是指模型训练的结果中与标注的标签不一样的结果，经过数值化操作后得到的数值。
根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法，其特征在于：步骤S4)中，所述的后处理具体为通过具有相关医疗知识的专家对步骤S3)训练得到的药物与疾病间关系结果进行分析，制定一系列规则模板，对预测结果进行归一化、标准化处理，提高关系抽取结果的准确性。
根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法，其特征在于：步骤S5)中，对于一个待进行关系抽取的医疗文献或病历，先对其进行药物实体和疾病实体的标注，然后将其输入到步骤S3)在微调的过程中训练出的能够进行医疗关系抽取的深度神经网络模型，并根据步骤S4)对输出的结果进行后处理，将最终结果利用可视化方法将其呈现给用户，使该系统的使用者能够方便的获取所输入医疗文本中药物与疾病间的关系信息。