WO2020211275A1 - 基于预训练模型与微调技术的医疗文本关系抽取方法 - Google Patents

基于预训练模型与微调技术的医疗文本关系抽取方法 Download PDF

Info

Publication number
WO2020211275A1
WO2020211275A1 PCT/CN2019/105507 CN2019105507W WO2020211275A1 WO 2020211275 A1 WO2020211275 A1 WO 2020211275A1 CN 2019105507 W CN2019105507 W CN 2019105507W WO 2020211275 A1 WO2020211275 A1 WO 2020211275A1
Authority
WO
WIPO (PCT)
Prior art keywords
medical
model
training
fine
neural network
Prior art date
Application number
PCT/CN2019/105507
Other languages
English (en)
French (fr)
Inventor
陈涛
吴明芬
杨开漠
Original Assignee
五邑大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 五邑大学 filed Critical 五邑大学
Publication of WO2020211275A1 publication Critical patent/WO2020211275A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Definitions

  • the invention relates to the technical field of natural language data analysis and processing, in particular to a method for extracting text relations in the medical field, and more specifically to a method for extracting medical text relations based on a pre-training model and fine-tuning technology.
  • Medical data has great value, especially in relation to medical text. Medical data mining has risen to a national strategy, and it is also a research hotspot in the global academia and industry competition. How to use these medical data to mine the deep value of the data is the trend of future development of information technology and the background of medical data analysis technology.
  • the extraction of relations in medical text refers to the process of extracting a specified type of fact information from the medical text, forming structured data and storing it in the database for users to query or further analyze the information.
  • a biomedical scientist wants to find a new treatment plan for a certain disease from a large amount of biomedical literature.
  • the extraction of the relationship between the drug and the disease in the medical text it refers to the extraction of proteins, genes or genes extracted by the system from the text. It is possible to find valuable treatment clues or methods from the interactive relationship information of drugs.
  • Automatic relation extraction of text data has always been an important research and application field of artificial intelligence and natural language processing technology, and an important subtask of information extraction. Its main purpose is to transform unstructured or semi-structured natural language text into structured data.
  • relationship extraction mainly uses natural language processing technology and relationship extraction technology to automatically identify related entities from text data, and then classify the semantic relationship between two related entities.
  • automatic relation extraction of text data is an important means and measure to improve the production efficiency and competitive advantage of enterprises.
  • template-based text relationship extraction methods mainly include text relationship extraction methods based on trigger words or character strings and text relationship extraction methods based on dependency syntax.
  • the method of extracting text relations based on dependency syntax is similar to the method of extracting text relations based on trigger words or strings, but such methods usually need to parse the rules first, then use the dependency tokenizer to analyze the sentence structure and match the rules on the dependency tree. To find the relationship group that meets the requirements.
  • Template-based text relationship extraction method Because the people who define the rules are generally experts in the field, this method has a relatively high accuracy rate and can define different rules according to different fields. However, because these rules are constructed by domain experts, they require high labor and time costs. At the same time, such methods also have problems such as poor portability and low recall rate.
  • Typical methods include text relation extraction methods based on Recurrent Neural Network (RNN) and its variants, and methods based on Convolutional Neural Networks (CNN) and its variants.
  • RNN Recurrent Neural Network
  • CNN Convolutional Neural Networks
  • the present invention provides a method for extracting medical text relations based on pre-training models and fine-tuning technologies.
  • the present invention uses a deep neural network to extract medical documents from Chinese and English medical documents marked with the relationship between drug entities and disease entities. Train models in medical text corpus such as medical records, and use the trained models to extract the relationship between Chinese and English medical texts that are not marked with the above-mentioned entity relationships, and extract the relationship between related drugs and diseases.
  • the technical scheme of the present invention is: a medical text relationship extraction method based on a pre-training model and fine-tuning technology, including the following steps:
  • step S3 Use a one-dimensional convolutional neural network to fine-tune the pre-training model generated in step S2).
  • train a deep neural network model that can extract medical relationships;
  • step S1) the preprocessing of the medical relationship extraction corpus includes word segmentation and stemming processing of the input medical text, and manually labeling the drug entity and disease entity in the medical text;
  • BIO sequence labeling method uses the BIO sequence labeling method to label the sentences in the medical text in word units, where B represents the start word of the drug target or disease target; I represents the middle or ending word of the drug target or disease target; O represents non-drug Target or disease target words;
  • step S2 the use of large-scale unstructured unlabeled Chinese and English medical literature and case text to train the pre-training model is specifically: using the excellent model pre-training method BERT for the large-scale unstructured Pre-training of unlabeled Chinese and English medical documents and medical records,
  • pre-training method is divided into sentence-level and word-level two categories, wherein the sentence-level method uses the previous sentence to predict the next sentence, and randomly replaces the following sentences to generate counterexamples required for pre-training;
  • the word-level method randomly masks a word in a sentence, and trains the model to guess the masked word.
  • step S3) the one-dimensional convolutional neural network and the model obtained by BERT pre-training are combined, and the pre-training model generated in step S2) is fine-tuned on the corpus generated in step S1).
  • the fine-tuning process is about one-dimensional
  • the error generated by the convolutional neural network training is back propagated to the pre-trained model and the one-dimensional convolutional neural network obtained in step S2).
  • the parameters in the pre-trained model and the one-dimensional convolutional neural network are adjusted, and finally Train a deep neural network model that can more accurately extract medical relations.
  • the error generated by the training refers to the result of the model training that is different from the labeled label, and the value obtained after the numerical operation.
  • step S4) the post-processing is specifically that an expert with relevant medical knowledge analyzes the results of the relationship between the drug and the disease obtained in step S3) training, formulates a series of rule templates, and returns the prediction results Unified and standardized processing improves the accuracy of relationship extraction results.
  • step S5) for a medical document or medical record for which relationship extraction is to be performed, the drug entity and disease entity are labeled first, and then it is input into step S3) that can be trained in the fine-tuning process.
  • the deep neural network model of medical relationship extraction, and post-processing the output result according to step S4) and present the final result to the user using a visualization method, so that the user of the system can easily obtain the medicine in the input medical text Information about the relationship with the disease.
  • the present invention uses the pre-training model as the input of the one-dimensional convolutional neural network model, while the prior art uses word embedding as the input of the one-dimensional convolutional neural network model.
  • the pre-training model is more conducive to improving the medical text relationship than the word embedding. Extracted performance;
  • the present invention combines the one-dimensional convolutional neural network model with the pre-training model, and uses the one-dimensional convolutional neural network to fine-tune the pre-training model, which is beneficial to improve the performance of the model;
  • the present invention realizes the model fine-tuning process by backpropagating the training error of the one-dimensional convolutional neural network to the pre-training model, which is a dynamic model training process; while the traditional method integrates the word embedding with the input of different layers.
  • the main task model is still trained from scratch and the pre-trained embeddings are treated as fixed parameters, limiting their usefulness.
  • Fig. 1 is a flowchart of a medical text relationship extraction method based on a pre-training model and fine-tuning technology of the present invention
  • Figure 2 is a schematic diagram of the results of BIO marking in an embodiment of the present invention.
  • this embodiment provides a method for extracting medical text relations based on pre-training models and fine-tuning techniques.
  • the present invention uses a deep neural network to extract medical documents from Chinese and English medical documents marked with the relationship between drug entities and disease entities. Train models in medical text corpus such as medical records, and use the trained model to extract the relationship between Chinese and English medical texts that are not marked with the above-mentioned entity relationships, and extract the relationship between related drugs and diseases.
  • the specific steps include the following steps:
  • BIO sequence tagging method to tag the sentences in the medical text in word units, that is, each word corresponds to one of the three tags B, I, and O, where B represents the start word of the drug target or the disease target ; I represents the middle or ending word of drug target or disease target; O represents non-drug target or disease target word;
  • step S3 Use the one-dimensional convolutional neural network to fine-tune the pre-training model generated in step S2).
  • train a deep neural network model that can extract medical relations, specifically the one-dimensional convolutional neural network Combine with the model obtained by BERT pre-training, fine-tune the pre-trained model produced in step S2) on the corpus produced in step S1).
  • the process of fine-tuning is to backpropagate the error generated by the training of the one-dimensional convolutional neural network to Step S2) In each layer of the obtained pre-training model and the one-dimensional convolutional neural network, adjust the parameters in the pre-training model and the one-dimensional convolutional neural network, and finally train the depth that can more accurately extract the medical relationship Neural network model, where the error generated by training refers to the result of model training that is different from the labeled label, and the value obtained after numerical operation.
  • the one-dimensional convolutional neural network has the characteristics of simple structure, few training parameters and strong adaptability, which reduces the complexity of the network model and reduces the number of weights.
  • step S4 Post-processing the results of medical text relationship extraction, specifically, analyzing the results of the relationship between drugs and diseases obtained in step S3) training by experts with relevant medical knowledge, formulating a series of rule templates, and normalizing the prediction results Improve the accuracy of relationship extraction results.
  • step S5 Use the successfully trained model for the task of extracting medical relationships, specifically for a medical document or medical record to be extracted from the relationship, first label the drug entity and disease entity, and then input it to step S3)
  • the basic idea of the present invention is: firstly, a deep neural network is used to train a model from the corpus marked with a medical relationship, and the model is used to extract the relationship between Chinese and English medical documents and medical records that are not marked with a medical relationship to extract useful drugs and The relationship between diseases.
  • the characteristic of this method is to use large-scale unstructured unlabeled Chinese and English medical literature and medical records to train the pre-training model, and then use one-dimensional convolutional neural network to fine-tune the above-mentioned pre-training model.
  • the training site can perform medical treatment. Deep neural network model for relation extraction.
  • the invention adopts the method of combining artificial neural network based on deep learning and natural language processing relation extraction, which can improve system accuracy, response speed and fault tolerance.
  • Preprocessing the medical relationship extraction corpus and using one-dimensional convolutional neural network to fine-tune the pre-training algorithm can improve the accuracy and efficiency of relationship extraction to meet the needs of different applications.
  • the specific implementation steps for the sentence to be processed "Safflower can treat psoriasis vulgaris” are as follows:
  • the word segmentation result of preprocessing the sentence to be processed is as follows: "Safflower can treat psoriasis vulgaris”.
  • the sentence to be processed contains two entities. Among them, "Safflower” is a drug entity, and "Psoriasis” is a disease entity.
  • This embodiment also provides a medical text relationship extraction system based on a preprocessing model and fine-tuning technology, which includes: a preprocessing module, which is used to divide the extracted corpus of the medical relationship into vocabulary;
  • the sequence labeling prediction module is used for sequence labeling the sentence to be processed after segmentation, and automatically analyze the BIO label of each word in the sentence to be extracted;
  • Pre-training model training module through the use of large-scale unstructured unlabeled Chinese and English medical literature and medical records to train pre-training models;
  • the fine-tuning module uses a one-dimensional convolutional neural network to fine-tune the above-mentioned pre-training model, and trains a deep neural network model that can extract medical relations during the fine-tuning process;
  • the post-processing module is used for post-processing the results of medical text relationship extraction.
  • the result output module is used to visually output the extraction results.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种基于预训练模型与微调技术的医疗文本关系抽取方法,包括医疗关系抽取语料的预处理、模型预训练、微调;利用预训练模型作为一维卷积神经网络模型的输入,预训练模型更有利于提高医疗文本关系抽取的性能;将一维卷积神经网络模型与预训练模型结合使用,并使用一维卷积神经网络来微调预训练模型,有利于提高模型的性能;通过将一维卷积神经网络的训练误差反向传播到预训练模型来实现模型微调过程,其为动态的模型训练过程;而传统的方法将词嵌入与不同层的输入相结合,仍然从头开始训练主要任务模型,并将预先训练的嵌入视为固定参数,限制了其有用性。

Description

基于预训练模型与微调技术的医疗文本关系抽取方法 技术领域
本发明涉及自然语言数据分析、处理技术领域,尤其是一种医疗领域文本关系抽取方法,更具体涉及一种基于预训练模型与微调技术的医疗文本关系抽取方法。
背景技术
关于医疗的中文解释有两个:1.医治,2.疾病的治疗。中华医史几千年,而这个字眼是在近几十年才出现,是为了与国际接轨而新生的字眼。在此之前大多使用治疗,医疗也包含保健内容。
医疗数据具有巨大的价值,尤其是在医疗文本关系方面。医疗数据挖掘已经上升到国家战略,同时也是全球学术界与产业界竞争的研究热点。如何利用这些医疗数据,挖掘数据的深层价值,是未来信息科技发展的趋势,也是医疗数据分析技术产生的背景。
医疗文本中关系的抽取是指从医疗文本中抽取指定的一类事实信息,形成结构化的数据储存在数据库中,以供用户对信息的查询或进一步分析利用的过程。如一位生物医疗科学家要从海量的生物医疗文献中寻求关于某种疾病的新的治疗方案,借助于医疗文本中的药物和疾病关系的抽取是指从文本中抽取系统抽取出的蛋白质、基因或药物等的交互关系信息,就有可能从中发现有价值的治疗线索或方法。
对文本数据进行自动化关系抽取一直是人工智能、自然语言处理技术的一个重要研究及应用领域,是信息抽取的一个重要子任务。其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据。具体的说,关系抽取主要是通过自然语言处理技术和关系抽取技术,从文本数据中自动识别出相关的实体,然后对两个相关实体间的语义关系进行分类。随着信息技术的不断发展与信息系统应用范围的不断深化,对文本数据进行自动化关系抽取是提高企业生产效率和竞争优势的一种重要手段及措施。
文本关系抽取相关的传统分析方法多采用基于模板的文本关系抽取方法和基于传统机器学习的文本关系抽取方法。其中,基于模板的文本关系抽取方法主要包括基于触发词或字符串的文本关系抽取方法和基于依存句法的文本关系抽取方法。基于触发词或字符串的文本关系抽取方法,首先需要定义触发词或字符串关系规则,然后让计算机根据该规则对给定文本进行查找,并抽取出符合要求的关系。基于依存句法的文本关系抽取方法与基于触发词或字符串的文本关系抽取方法比较类似,但此类方法通常需要先解析规则,然后利用依存分词器分析句子结构,并在依存树上匹配规则,以查找符合要求的关系组。基于模板的文本关系抽 取方法因为定义的规则的人一般都是研究该领域的专家,所以该方法具有比较高的准确率,而且可以根据不同领域定义不同的规则。但是由于这些规则都是领域专家构建的,所以需要较高的人工和时间成本,同时此类方法还存在可移植性较差和召回率低等问题。
针对基于模板的文本关系抽取方法所存在的问题,研究者开始尝试利用基于传统机器学习的方法来对文本进行文本关系抽取。此类方法首先预先定义好需要抽取的关系集合和命名实体集合。然后,人工标注命名实体和实体间关系,并将标注的数据分为训练集、开发集和测试集。最后,选择和训练分类器,并利用训练好的分类器对未知语料集进行关系抽取。
近年来,随着大数据和高性能计算的快速发展,深度学习技术在很多领域取得了优异的成绩,越来越多的研究者使用深度神经网络的方法进行文本关系抽取。典型的方法有基于循环神经网络(Recurrent Neural Network,RNN)及其变体的文本关系抽取方法和基于卷积神经网络(Convolutional Neural Networks,CNN)及其变体的方法。此类方法具有抽取效果好、不需要大量人工构建特征或规则、便于移植等优点。但此类方法一般需要较大的训练语料才能达到较高的性能。
因此,对于需要处理大量医疗文本数据的行业而言,随着各类医疗药物的发明以及应用,如何在浩如烟海的医疗文本资料中抽取出不同药物对某些疾病的医疗功效,发掘出药物和疾病间的关系,并为不同用户群体提供查询平台都是大数据处理行业面临的直接挑战。因此,寻找一种科学的医疗文本关系抽取方法,具有很强的现实意义。
发明内容
针对现有技术的不足,本发明提供一种基于预训练模型与微调技术的医疗文本关系抽取方法,本发明采用深度神经网络从标注有药物实体与疾病实体之间关系的中、英文医疗文献、病历等医疗文本语料中训练模型,并利用所训练的模型对未标注有上述实体关系的中、英文医疗文本进行关系抽取,抽取出相关药物与疾病之间的关系。
本发明的技术方案为:基于预训练模型与微调技术的医疗文本关系抽取方法,包括以下步骤:
S1)、对医疗关系抽取语料进行预处理;
S2)、利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型;
S3)、利用一维卷积神经网络对步骤S2)所产生的预训练模型进行微调,在微调过程中,训练出能够进行医疗关系抽取的深度神经网络模型;
S4)、对医疗文本关系抽取结果进行后处理;
S5)、将训练成功的模型用于医疗关系抽取任务。
上述方法中,步骤S1)中,对医疗关系抽取语料进行预处理为对输入的医疗文本进行分词、抽取词干处理,并采用人工标注医疗文本中的药物实体和疾病实体;
具有包括以下步骤:
S101)、采用BIO序列标记法将医疗文本中的句子以词为单位进行标注,其中,B表示药物目标或疾病目标开始词;I表示药物目标或疾病目标中间词或结尾词;O表示非药物目标或疾病目标词;
S102)、将上述标记好的数据输入带有条件随机场的双向LSTM神经网络对其进行训练,通过调节神经网络的参数实现模型的优化,实现对医疗文本中的药物实体和疾病实体进行自动识别,即将未进行BIO序列标记的医疗文本输入到训练好的神经网络中,网络输出每一个词的BIO标记,根据这些BIO标记可以找出医疗文本中的药物实体和疾病实体,从而实现药物实体与疾病实体的自动识别。
上述方法中,步骤S2)中,利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型具体为:利用性能优异的模型预训练方法BERT对对大规模非结构化的无标注的中英文医疗文献、病历进行预训练,
进一步的,所述的预训练的方法分为句子级和词语级两类,其中,句子级方法使用前一个句子预测后一个句子,并随机替换后面的句子,生成预训练需要的反例;
词语级方法随机遮蔽句子中的一个词,训练模型去猜所遮蔽的词。
步骤S3)中,将一维卷积神经网络与BERT预训练得到的模型进行组合,在步骤S1)所产生的语料上对步骤S2)所产生的预训练模型进行微调,微调的过程即将一维卷积神经网络训练产生的误差反向传播给步骤S2)得到的预训练模型和一维卷积神经网络的各个层中,对预训练模型和一维卷积神经网络中的参数进行调整,最终训练出能够比较准确的进行医疗关系抽取的深度神经网络模型。
进一步的,训练产生的误差是指模型训练的结果中与标注的标签不一样的结果,经过数值化操作后得到的数值。
上述方法中,步骤S4)中,所述的后处理具体为通过具有相关医疗知识的专家对步骤S3)训练得到的药物与疾病间关系结果进行分析,制定一系列规则模板,对预测结果进行归一化、标准化处理,提高关系抽取结果的准确性。
进一步的,步骤S5)中,对于一个待进行关系抽取的医疗文献或病历,先对其进行药物实体和疾病实体的标注,然后将其输入到步骤S3)在微调的过程中训练出的能够进行医疗关系抽取的深度神经网络模型,并根据步骤S4)对输出的结果进行后处理,将最终结果利用可视化方法将其呈现给用户,使该系统的使用者能够方便的获取所输入医疗文本中药物与疾病 间的关系信息。
本发明的有益效果为:
1、本发明利用预训练模型作为一维卷积神经网络模型的输入,而现有技术利用词嵌入作为一维卷积神经网络模型的输入,预训练模型比词嵌入更有利于提高医疗文本关系抽取的性能;
2、本发明将一维卷积神经网络模型与预训练模型结合使用,并使用一维卷积神经网络来微调预训练模型,有利于提高模型的性能;
3、本发明通过将一维卷积神经网络的训练误差反向传播到预训练模型来实现模型微调过程,这是一个动态的模型训练过程;而传统的方法将词嵌入与不同层的输入相结合,仍然从头开始训练主要任务模型,并将预先训练的嵌入视为固定参数,限制了它们的有用性。
附图说明
图1为本发明基于预训练模型与微调技术的医疗文本关系抽取方法的流程图;
图2为本发明实施例中BIO标记的结果示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,本实施例提供一种基于预训练模型与微调技术的医疗文本关系抽取方法,本发明采用深度神经网络从标注有药物实体与疾病实体之间关系的中、英文医疗文献、病历等医疗文本语料中训练模型,并利用所训练的模型对未标注有上述实体关系的中、英文医疗文本进行关系抽取,抽取出相关药物与疾病之间的关系,具体包括以下步骤:
S1)、对医疗关系抽取语料进行预处理,其主要为对输入的医疗文本进行分词、抽取词干处理,并采用人工标注医疗文本中的药物实体和疾病实体;
具有包括以下步骤:
S101)、采用BIO序列标记法将医疗文本中的句子以词为单位进行标注,即每个词对应B、I、O三种标记中的一种,其中,B表示药物目标或疾病目标开始词;I表示药物目标或疾病目标中间词或结尾词;O表示非药物目标或疾病目标词;
S102)、将上述标记好的数据输入带有条件随机场的双向LSTM神经网络对其进行训练,通过调节神经网络的参数实现模型的优化,实现对医疗文本中的药物实体和疾病实体进行自动识别,即将未进行BIO序列标记的医疗文本输入到训练好的神经网络中,网络输出每一个词的BIO标记,根据这些BIO标记可以找出医疗文本中的药物实体和疾病实体,从而实现药 物实体与疾病实体的自动识别,大大提高了序列标注及关系抽取的效果。
S2)、利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型,具体为:利用性能优异的模型预训练方法BERT对对大规模非结构化的无标注的中英文医疗文献、病历进行预训练,所述的预训练的方法分为句子级和词语级两类,其中,句子级方法使用前一个句子预测后一个句子,并随机替换后面的句子,生成预训练需要的反例;词语级方法随机遮蔽句子中的一个词,训练模型去猜所遮蔽的词。
S3)、利用一维卷积神经网络对步骤S2)所产生的预训练模型进行微调,在微调过程中,训练出能够进行医疗关系抽取的深度神经网络模型,具体为将一维卷积神经网络与BERT预训练得到的模型进行组合,在步骤S1)所产生的语料上对步骤S2)所产生的预训练模型进行微调,微调的过程即将一维卷积神经网络训练产生的误差反向传播给步骤S2)得到的预训练模型和一维卷积神经网络的各个层中,对预训练模型和一维卷积神经网络中的参数进行调整,最终训练出能够比较准确的进行医疗关系抽取的深度神经网络模型,其中,训练产生的误差是指模型训练的结果中与标注的标签不一样的结果,经过数值化操作后得到的数值。一维卷积神经网络具有结构简单、训练参数少和适应性强的特点,其降低了网络模型的复杂度,减少了权值的数量。
S4)、对医疗文本关系抽取结果进行后处理,具体为通过具有相关医疗知识的专家对步骤S3)训练得到的药物与疾病间关系结果进行分析,制定一系列规则模板,对预测结果进行归一化、标准化处理,提高关系抽取结果的准确性。
S5)、将训练成功的模型用于医疗关系抽取任务,具体为对于一个待进行关系抽取的医疗文献或病历,先对其进行药物实体和疾病实体的标注,然后将其输入到步骤S3)在微调的过程中训练出的能够进行医疗关系抽取的深度神经网络模型,并根据步骤S4)对输出的结果进行后处理,将最终结果利用可视化方法将其呈现给用户,使该系统的使用者能够方便的获取所输入医疗文本中药物与疾病间的关系信息。
本发明的基本思想是:首先采用深度神经网络从标注有医疗关系的语料中训练模型,并利用该模型对未标注有医疗关系的中英文医疗文献、病历进行关系抽取,抽取出有用的药物与疾病之间的关系。该方法的特点是利用大规模非结构化无标注中英文医疗文献、病历训练预训练模型,然后用一维卷积神经网络对上述预训练模型进行微调,在微调的过程中训练处能够进行医疗关系抽取的深度神经网络模型。本发明采用基于深度学习的人工神经网络和自然语言处理关系抽取相结合的方法,能够提高系统准确性、反应速度和容错性。针对医疗关系抽取语料进行预处理和利用一维卷积神经网络微调预训练算法,能够提高关系抽取的准确性和效率,以满足不同应用的需求。
对于待处理的句子“红花能够治疗寻常型银屑病”具体实施步骤如下:对待处理的句子进行预处理的分词结果如下:“红花能够治疗寻常型银屑病”。将上述结果中的每一个词输入到带有条件随机场的双向LSTM神经网络中,分析结果如图2所示。根据医疗文本关系自动抽取结果,可以知道待处理的句子中含有两个实体。其中,“红花”是药物实体,“银屑病”是疾病实体。然后,将上述带有BIO标注的句子输入给基于预处理模型和微调技术在医疗关系抽取语料中训练好的一维卷积神经网络中进行关系自动抽取,得到关系抽取结果:药物实体“红花”与疾病实体“银屑病”之间是正面的关系,即可以治疗的关系。
本实施例还提供一种基于预处理模型与微调技术的医疗文本关系抽取系统,其包括:预处理模块,用于将对待医疗关系抽取语料切分成词汇;
序列标注预测模块,用于对切分后的待处理的句子进行序列标注,自动分析待关系抽取句子中每个词的BIO标记;
预训练模型训练模块,通过利用大规模非结构化无标注中英文医疗文献、病历训练预训练模型;
微调模块,通过利用一维卷积神经网络对上述预训练模型进行微调,在微调的过程中训练出能够进行医疗关系抽取的深度神经网络模型;
后处理模块,用于对医疗文本关系抽取结果进行后处理。结果输出模块,用于对抽取结果进行可视化输出。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (6)

  1. 基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于,包括以下步骤:
    S1)、对医疗关系抽取语料进行预处理;
    S2)、利用大规模非结构化的未标注的中、英文医疗文献、病例文本训练预训练模型,具体为:利用性能优异的模型预训练方法BERT对对大规模非结构化的无标注的中、英文医疗文献、病历进行预训练;
    S3)、利用一维卷积神经网络对步骤S2)所产生的预训练模型进行微调,在微调过程中,训练出能够进行医疗关系抽取的深度神经网络模型,具体为:将一维卷积神经网络与BERT预训练得到的模型进行组合,在步骤S1)所产生的语料上对步骤S2)所产生的预训练模型进行微调,微调的过程即将一维卷积神经网络训练产生的误差反向传播给步骤S2)得到的预训练模型和一维卷积神经网络的各个层中,对预训练模型和一维卷积神经网络中的参数进行调整,最终训练出能够比较准确的进行医疗关系抽取的深度神经网络模型;
    S4)、对医疗文本关系抽取结果进行后处理;
    S5)、将训练成功的模型用于医疗关系抽取任务。
  2. 根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于:步骤S1)中,对医疗关系抽取语料进行预处理为对输入的医疗文本进行分词、抽取词干处理,并采用人工标注医疗文本中的药物实体和疾病实体;
    具有包括以下步骤:
    S101)、采用BIO序列标记法将医疗文本中的句子以词为单位进行标注,其中,B表示药物目标或疾病目标开始词;I表示药物目标或疾病目标中间词或结尾词;O表示非药物目标或疾病目标词;
    S102)、将上述标记好的数据输入带有条件随机场的双向LSTM神经网络对其进行训练,通过调节神经网络的参数实现模型的优化,实现对医疗文本中的药物实体和疾病实体进行自动识别,即将未进行BIO序列标记的医疗文本输入到训练好的神经网络中,网络输出每一个词的BIO标记,根据这些BIO标记可以找出医疗文本中的药物实体和疾病实体,从而实现药物实体与疾病实体的自动识别。
  3. 根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于:步骤S2)中,所述的预训练的方法分为句子级和词语级两类,其中,句子级方法使用前一个句子预测后一个句子,并随机替换后面的句子,生成预训练需要的反例;词语级方法随机遮蔽句子中的一个词,训练模型去猜所遮蔽的词。
  4. 根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于:步骤S3)中,训练产生的误差是指模型训练的结果中与标注的标签不一样的结果,经 过数值化操作后得到的数值。
  5. 根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于:步骤S4)中,所述的后处理具体为通过具有相关医疗知识的专家对步骤S3)训练得到的药物与疾病间关系结果进行分析,制定一系列规则模板,对预测结果进行归一化、标准化处理,提高关系抽取结果的准确性。
  6. 根据权利要求1所述的基于预训练模型与微调技术的医疗文本关系抽取方法,其特征在于:步骤S5)中,对于一个待进行关系抽取的医疗文献或病历,先对其进行药物实体和疾病实体的标注,然后将其输入到步骤S3)在微调的过程中训练出的能够进行医疗关系抽取的深度神经网络模型,并根据步骤S4)对输出的结果进行后处理,将最终结果利用可视化方法将其呈现给用户,使该系统的使用者能够方便的获取所输入医疗文本中药物与疾病间的关系信息。
PCT/CN2019/105507 2019-04-18 2019-09-12 基于预训练模型与微调技术的医疗文本关系抽取方法 WO2020211275A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910311691.XA CN110134772B (zh) 2019-04-18 2019-04-18 基于预训练模型与微调技术的医疗文本关系抽取方法
CN201910311691.X 2019-04-18

Publications (1)

Publication Number Publication Date
WO2020211275A1 true WO2020211275A1 (zh) 2020-10-22

Family

ID=67570108

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/105507 WO2020211275A1 (zh) 2019-04-18 2019-09-12 基于预训练模型与微调技术的医疗文本关系抽取方法

Country Status (2)

Country Link
CN (1) CN110134772B (zh)
WO (1) WO2020211275A1 (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347761A (zh) * 2020-11-27 2021-02-09 北京工业大学 基于bert的药物关系抽取方法
CN112507101A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 一种建立预训练语言模型的方法和装置
CN112528045A (zh) * 2020-12-23 2021-03-19 中译语通科技股份有限公司 基于开放百科图谱的领域图谱关系的判定方法及系统
CN112560484A (zh) * 2020-11-09 2021-03-26 武汉数博科技有限责任公司 一种改进bert训练模型及一种命名实体识别方法、系统
CN112560434A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 确定文本中要素属性冲突的方法、装置、设备和介质
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112632996A (zh) * 2020-12-08 2021-04-09 浙江大学 一种基于对比学习的实体关系三元组抽取方法
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及系统
CN112732910A (zh) * 2020-12-29 2021-04-30 华南理工大学 跨任务文本情绪状态评估方法、系统、装置及介质
CN112749277A (zh) * 2020-12-30 2021-05-04 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质
CN112800766A (zh) * 2021-01-27 2021-05-14 华南理工大学 基于主动学习的中文医疗实体识别标注方法及系统
CN112884354A (zh) * 2021-03-15 2021-06-01 北京工商大学 一种字词双维度的化妆品安全监管领域事件信息抽取方法
CN112966774A (zh) * 2021-03-24 2021-06-15 黑龙江机智通智能科技有限公司 一种基于图片Bert的组织病理图片分类方法
CN113343703A (zh) * 2021-08-09 2021-09-03 北京惠每云科技有限公司 医学实体的分类提取方法、装置、电子设备及存储介质
CN113420562A (zh) * 2021-05-10 2021-09-21 河南大学 医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置
CN113486141A (zh) * 2021-07-29 2021-10-08 宁波薄言信息技术有限公司 一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN113569558A (zh) * 2021-07-06 2021-10-29 上海交通大学 一种电力设备局部放电实体关系抽取方法及系统
CN113609267A (zh) * 2021-07-21 2021-11-05 上海交通大学 基于GCNDT-MacBERT神经网络框架的话语关系识别方法及系统
CN113806514A (zh) * 2021-09-18 2021-12-17 上海交通大学 基于Transformer模型的实体关系抽取方法和系统
CN113821571A (zh) * 2021-06-24 2021-12-21 华中农业大学 基于bert和改进pcnn的食品安全关系抽取方法
CN113822019A (zh) * 2021-09-22 2021-12-21 科大讯飞股份有限公司 文本规整方法、相关设备及可读存储介质
CN113868374A (zh) * 2021-09-15 2021-12-31 西安交通大学 基于多头注意力机制的图卷积网络生物医学信息提取方法
CN114360729A (zh) * 2021-11-25 2022-04-15 达而观数据(成都)有限公司 一种基于深度神经网络的医疗文本信息自动化抽取方法
CN114548099A (zh) * 2022-02-25 2022-05-27 桂林电子科技大学 基于多任务框架的方面词和方面类别联合抽取和检测方法
CN114925678A (zh) * 2022-04-21 2022-08-19 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN115438198A (zh) * 2022-11-07 2022-12-06 四川大学 一种基于知识库的可解释性医疗数据结构化方法和系统
CN115455936A (zh) * 2022-10-28 2022-12-09 北京澜舟科技有限公司 一种公告信息抽取方法、系统及存储介质
CN116028648A (zh) * 2023-02-15 2023-04-28 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法
CN116205601A (zh) * 2023-02-27 2023-06-02 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与系统
CN116775801A (zh) * 2023-06-26 2023-09-19 中山大学 一种面向中文医学文本的实体关系抽取方法及系统
CN117370525A (zh) * 2023-10-20 2024-01-09 厦门狄耐克物联智慧科技有限公司 一种基于微调大模型的智能导诊方法
US11900059B2 (en) 2021-06-28 2024-02-13 Unitedhealth Group Incorporated Method, apparatus and computer program product for generating encounter vectors and client vectors using natural language processing models
CN112560434B (zh) * 2020-12-16 2024-05-28 北京百度网讯科技有限公司 确定文本中要素属性冲突的方法、装置、设备和介质

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134772B (zh) * 2019-04-18 2023-05-12 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法
CN110718305A (zh) * 2019-10-11 2020-01-21 叮当快药科技集团有限公司 基于医药知识体系自动梳理药品标签的方法和装置
CN110991535A (zh) * 2019-12-04 2020-04-10 中山大学 一种基于多类型医学数据的pCR预测方法
CN111078886B (zh) * 2019-12-18 2023-04-18 成都迪普曼林信息技术有限公司 基于dmcnn的特殊事件提取系统
CN113011173A (zh) * 2019-12-20 2021-06-22 北大方正集团有限公司 单位的识别方法、装置、设备以及存储介质
CN111178047B (zh) * 2019-12-24 2021-08-27 浙江大学 基于层次序列标注的古代医案处方抽取方法
CN111177414A (zh) * 2019-12-31 2020-05-19 厦门快商通科技股份有限公司 一种实体预标注方法和装置以及设备
CN111291568B (zh) * 2020-03-06 2023-03-31 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111159414B (zh) * 2020-04-02 2020-07-14 成都数联铭品科技有限公司 文本分类方法及系统、电子设备、计算机可读存储介质
CN111523304B (zh) * 2020-04-27 2022-08-02 华东师范大学 一种基于预训练模型的产品描述文本的自动生成方法
CN111651986B (zh) * 2020-04-28 2024-04-02 银江技术股份有限公司 事件关键词提取方法、装置、设备及介质
CN111597306B (zh) * 2020-05-18 2021-12-07 腾讯科技(深圳)有限公司 语句识别方法和装置、存储介质及电子设备
CN111666350B (zh) * 2020-05-28 2022-10-28 浙江工业大学 一种基于bert模型的医疗文本关系抽取的方法
CN111709243B (zh) * 2020-06-19 2023-07-07 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111798987A (zh) * 2020-07-07 2020-10-20 云知声智能科技股份有限公司 一种实体关系抽取方法和设备
CN112487206B (zh) * 2020-12-09 2022-09-20 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112632972B (zh) * 2020-12-25 2024-03-15 浙江国际海运职业技术学院 一种电网设备故障报告内故障信息的快速提取方法
CN112802570A (zh) * 2021-02-07 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种针对电子病历命名实体识别系统及方法
CN112926313B (zh) * 2021-03-10 2023-08-15 新华智云科技有限公司 一种槽位信息的提取方法与系统
CN113312916B (zh) * 2021-05-28 2022-05-27 北京航空航天大学 基于触发词语态学习的金融文本事件抽取方法
CN113836892B (zh) * 2021-09-08 2023-08-08 灵犀量子(北京)医疗科技有限公司 样本量数据提取方法、装置、电子设备及存储介质
CN113836901B (zh) * 2021-09-14 2023-11-14 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
CN114064938B (zh) * 2022-01-17 2022-04-22 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114564971B (zh) * 2022-02-28 2023-05-12 北京百度网讯科技有限公司 深度学习模型的训练方法、文本数据处理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
US20180060722A1 (en) * 2016-08-30 2018-03-01 Lunit Inc. Machine learning method and apparatus based on weakly supervised learning
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090019032A1 (en) * 2007-07-13 2009-01-15 Siemens Aktiengesellschaft Method and a system for semantic relation extraction
CN107478598A (zh) * 2017-09-01 2017-12-15 广东省智能制造研究所 一种基于一维卷积神经网络的近红外光谱分析方法
CN107944559B (zh) * 2017-11-24 2021-04-27 国家计算机网络与信息安全管理中心 一种实体关系自动识别方法及系统
CN109255119B (zh) * 2018-07-18 2023-04-25 五邑大学 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取系统及方法
US20180060722A1 (en) * 2016-08-30 2018-03-01 Lunit Inc. Machine learning method and apparatus based on weakly supervised learning
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560484B (zh) * 2020-11-09 2024-03-01 武汉数博科技有限责任公司 用于命名实体识别的改进bert训练模型及命名实体识别方法
CN112560484A (zh) * 2020-11-09 2021-03-26 武汉数博科技有限责任公司 一种改进bert训练模型及一种命名实体识别方法、系统
CN112347761A (zh) * 2020-11-27 2021-02-09 北京工业大学 基于bert的药物关系抽取方法
CN112632996A (zh) * 2020-12-08 2021-04-09 浙江大学 一种基于对比学习的实体关系三元组抽取方法
CN112560434A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 确定文本中要素属性冲突的方法、装置、设备和介质
CN112560434B (zh) * 2020-12-16 2024-05-28 北京百度网讯科技有限公司 确定文本中要素属性冲突的方法、装置、设备和介质
CN112507101A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 一种建立预训练语言模型的方法和装置
CN112507101B (zh) * 2020-12-18 2024-04-05 北京百度网讯科技有限公司 一种建立预训练语言模型的方法和装置
CN112614562A (zh) * 2020-12-23 2021-04-06 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112528045A (zh) * 2020-12-23 2021-03-19 中译语通科技股份有限公司 基于开放百科图谱的领域图谱关系的判定方法及系统
CN112528045B (zh) * 2020-12-23 2024-04-02 中译语通科技股份有限公司 基于开放百科图谱的领域图谱关系的判定方法及系统
CN112614562B (zh) * 2020-12-23 2024-05-31 联仁健康医疗大数据科技股份有限公司 基于电子病历的模型训练方法、装置、设备及存储介质
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及系统
CN112732910A (zh) * 2020-12-29 2021-04-30 华南理工大学 跨任务文本情绪状态评估方法、系统、装置及介质
CN112732910B (zh) * 2020-12-29 2024-04-16 华南理工大学 跨任务文本情绪状态评估方法、系统、装置及介质
CN112749277B (zh) * 2020-12-30 2023-08-04 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质
CN112749277A (zh) * 2020-12-30 2021-05-04 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质
CN112800766A (zh) * 2021-01-27 2021-05-14 华南理工大学 基于主动学习的中文医疗实体识别标注方法及系统
CN112800766B (zh) * 2021-01-27 2023-08-22 华南理工大学 基于主动学习的中文医疗实体识别标注方法及系统
CN112884354B (zh) * 2021-03-15 2023-07-11 北京工商大学 一种字词双维度的化妆品安全监管领域事件信息抽取方法
CN112884354A (zh) * 2021-03-15 2021-06-01 北京工商大学 一种字词双维度的化妆品安全监管领域事件信息抽取方法
CN112966774B (zh) * 2021-03-24 2024-05-31 黑龙江机智通智能科技有限公司 一种基于图片Bert的组织病理图片分类方法
CN112966774A (zh) * 2021-03-24 2021-06-15 黑龙江机智通智能科技有限公司 一种基于图片Bert的组织病理图片分类方法
CN113420562A (zh) * 2021-05-10 2021-09-21 河南大学 医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置
CN113821571A (zh) * 2021-06-24 2021-12-21 华中农业大学 基于bert和改进pcnn的食品安全关系抽取方法
CN113821571B (zh) * 2021-06-24 2024-04-26 华中农业大学 基于bert和改进pcnn的食品安全关系抽取方法
US11900059B2 (en) 2021-06-28 2024-02-13 Unitedhealth Group Incorporated Method, apparatus and computer program product for generating encounter vectors and client vectors using natural language processing models
CN113569558B (zh) * 2021-07-06 2023-09-26 上海交通大学 一种实体关系抽取方法及系统
CN113569558A (zh) * 2021-07-06 2021-10-29 上海交通大学 一种电力设备局部放电实体关系抽取方法及系统
CN113609267B (zh) * 2021-07-21 2023-11-07 上海交通大学 基于GCNDT-MacBERT神经网络框架的话语关系识别方法及系统
CN113609267A (zh) * 2021-07-21 2021-11-05 上海交通大学 基于GCNDT-MacBERT神经网络框架的话语关系识别方法及系统
CN113486141A (zh) * 2021-07-29 2021-10-08 宁波薄言信息技术有限公司 一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法
CN113505598A (zh) * 2021-08-06 2021-10-15 贵州江南航天信息网络通信有限公司 一种基于混合神经网络的网络文本实体关系抽取算法
CN113343703A (zh) * 2021-08-09 2021-09-03 北京惠每云科技有限公司 医学实体的分类提取方法、装置、电子设备及存储介质
CN113343703B (zh) * 2021-08-09 2021-10-29 北京惠每云科技有限公司 医学实体的分类提取方法、装置、电子设备及存储介质
CN113868374A (zh) * 2021-09-15 2021-12-31 西安交通大学 基于多头注意力机制的图卷积网络生物医学信息提取方法
CN113868374B (zh) * 2021-09-15 2024-04-12 西安交通大学 基于多头注意力机制的图卷积网络生物医学信息提取方法
CN113806514B (zh) * 2021-09-18 2024-03-01 上海交通大学 基于Transformer模型的实体关系抽取方法和系统
CN113806514A (zh) * 2021-09-18 2021-12-17 上海交通大学 基于Transformer模型的实体关系抽取方法和系统
CN113822019A (zh) * 2021-09-22 2021-12-21 科大讯飞股份有限公司 文本规整方法、相关设备及可读存储介质
CN114360729A (zh) * 2021-11-25 2022-04-15 达而观数据(成都)有限公司 一种基于深度神经网络的医疗文本信息自动化抽取方法
CN114548099A (zh) * 2022-02-25 2022-05-27 桂林电子科技大学 基于多任务框架的方面词和方面类别联合抽取和检测方法
CN114548099B (zh) * 2022-02-25 2024-03-26 桂林电子科技大学 基于多任务框架的方面词和方面类别联合抽取和检测方法
CN114925678A (zh) * 2022-04-21 2022-08-19 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN114925678B (zh) * 2022-04-21 2023-05-26 电子科技大学 一种基于高层交互机制的药物实体和关系联合抽取方法
CN115455936A (zh) * 2022-10-28 2022-12-09 北京澜舟科技有限公司 一种公告信息抽取方法、系统及存储介质
CN115438198A (zh) * 2022-11-07 2022-12-06 四川大学 一种基于知识库的可解释性医疗数据结构化方法和系统
CN115438198B (zh) * 2022-11-07 2023-03-31 四川大学 一种基于知识库的可解释性医疗数据结构化方法和系统
CN116028648A (zh) * 2023-02-15 2023-04-28 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法
CN116205601B (zh) * 2023-02-27 2024-04-05 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与系统
CN116205601A (zh) * 2023-02-27 2023-06-02 开元数智工程咨询集团有限公司 基于互联网的工程清单复核及数据统计方法与系统
CN116775801A (zh) * 2023-06-26 2023-09-19 中山大学 一种面向中文医学文本的实体关系抽取方法及系统
CN117370525A (zh) * 2023-10-20 2024-01-09 厦门狄耐克物联智慧科技有限公司 一种基于微调大模型的智能导诊方法

Also Published As

Publication number Publication date
CN110134772A (zh) 2019-08-16
CN110134772B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
WO2020211275A1 (zh) 基于预训练模型与微调技术的医疗文本关系抽取方法
WO2020252950A1 (zh) 基于预训练模型和微调技术的医疗文本命名实体识别方法
Jiang et al. A BERT-BiLSTM-CRF model for Chinese electronic medical records named entity recognition
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
Zhang et al. Effective subword segmentation for text comprehension
CN110298036A (zh) 一种基于词性增量迭代的在线医疗文本症状识别方法
CN112765952A (zh) 一种图卷积注意力机制下的条件概率联合事件抽取方法
Sun et al. Convolutional neural networks for correcting English article errors
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN111191464A (zh) 基于组合距离的语义相似度计算方法
CN115618005A (zh) 一种传统藏医药知识图谱构建和补全方法
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
CN114564953A (zh) 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型
Wang et al. A BERT-based named entity recognition in Chinese electronic medical record
Zhao et al. Chinese named entity recognition in power domain based on Bi-LSTM-CRF
Wu et al. A radical-based method for Chinese named entity recognition
CN114444467A (zh) 一种中医文献内容分析方法和装置
Lun et al. Research on agricultural named entity recognition based on pre train BERT
Sun et al. Multi-strategy fusion for medical named entity recognition
Wang et al. Chinese symptom component recognition via bidirectional LSTM-CRF
Zhao et al. SkIn: Skimming-Intensive Long-Text Classification Using BERT for Medical Corpus
Liu et al. Comparative research on structure function recognition based on deep learning
Xu et al. Vocabulary enhancement in Chinese-named entity recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19924863

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19924863

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19924863

Country of ref document: EP

Kind code of ref document: A1