WO2023071530A1 - 一种小样本弱标注条件下的医疗事件识别方法及系统 - Google Patents

一种小样本弱标注条件下的医疗事件识别方法及系统 Download PDF

Info

Publication number
WO2023071530A1
WO2023071530A1 PCT/CN2022/116968 CN2022116968W WO2023071530A1 WO 2023071530 A1 WO2023071530 A1 WO 2023071530A1 CN 2022116968 W CN2022116968 W CN 2022116968W WO 2023071530 A1 WO2023071530 A1 WO 2023071530A1
Authority
WO
WIPO (PCT)
Prior art keywords
medical
event
sample
category
elements
Prior art date
Application number
PCT/CN2022/116968
Other languages
English (en)
French (fr)
Inventor
李劲松
周天舒
田雨
Original Assignee
之江实验室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江实验室 filed Critical 之江实验室
Priority to JP2023536800A priority Critical patent/JP7464800B2/ja
Publication of WO2023071530A1 publication Critical patent/WO2023071530A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Definitions

  • the invention belongs to the technical field of medical information, and in particular relates to a medical event recognition method and system under the condition of small samples and weak labels.
  • Medical event recognition aims to identify medical events from electronic medical record texts and express them in a structured way, including medical event categories, participating medical elements and their corresponding categories, etc.
  • the information obtained from event recognition can deeply describe complex and diverse medical knowledge.
  • the remote supervision method uses the knowledge base to automatically annotate the data, which can realize the rapid expansion of training samples, and is widely used in relation recognition tasks.
  • the meta-learning method allows the model to use prior knowledge to learn the process of learning tasks, so as to improve the recognition performance of the model under the condition of small sample and weak labeling.
  • rule-based methods need to manually define event recognition rules.
  • the rule system for medical event recognition is difficult to construct, and rule-based methods have poor generalization and can cover fewer events.
  • rule-based methods due to the large differences in the format of electronic medical records in different hospitals, and the process of defining rules is relatively subjective, different experts will formulate different rules, and it is difficult to formulate a unified medical event rule system.
  • the purpose of the present invention is to address the shortcomings of current medical event recognition methods, and propose a medical event recognition method and system that integrates remote supervision methods and meta-learning under the condition of small samples and weak labels.
  • the present invention mainly solves the problem of weak labeling of small samples through the following two approaches:
  • the present invention utilizes a remote supervision method to realize automatic labeling of Chinese electronic medical record texts by constructing a medical event database, and effectively Expand the sample data and improve the generalization of the model for small sample recognition;
  • the present invention uses the meta-learning method in the field of few-sample learning to identify medical elements and events.
  • it effectively solves the problems of poor generalization of medical event recognition methods, difficulty in unifying rules, and requires a lot of labor costs, and improves the accuracy of medical event recognition results.
  • the proposed event recognition method has good performance.
  • Scalability which is conducive to large-scale extraction of massive electronic medical record texts.
  • the present invention gives priority to identifying medical elements, and uses the medical elements to identify medical events.
  • the present invention discloses a medical event recognition method under the condition of small sample and weak labeling, the method includes:
  • Step 1 medical event database construction and data labeling: define and construct a medical event database based on expert knowledge, which includes medical event categories and medical elements corresponding to each category; The text of the electronic medical record is marked with medical elements, and the training data for the recognition model of medical elements is generated;
  • Step 2 medical element and event meta-learning, includes the following sub-steps:
  • Step three identification of medical elements, includes the following sub-steps:
  • Step 4 medical event identification, includes the following sub-steps:
  • step 4.3 Using the medical element and event meta-learning model, calculate the distance similarity score between the Chinese electronic medical record text and various medical events, and combine it with the probability distribution of various medical events in step 4.2 to calculate the corresponding medical event category.
  • the data of the medical event library comes from small sample medical elements and event data sets and external medical resources;
  • the medical event categories include: personal basic information events, family disease events, past disease events, Drug events, allergic events, surgical events, symptom events, treatment events, diagnostic events.
  • first construct the medical element library and the construction process is as follows:
  • the remote supervision method is used to mark the medical elements, specifically:
  • the prototype representation of the corresponding event and element is constructed, specifically: project the semantic vector of each category sample into a high-dimensional feature space, and divide the feature of each sample into a dimension Summing and averaging are performed as the prototype representation of the category.
  • the distance similarity score includes two parts of Bregman divergence D ⁇ and cosine similarity score C;
  • d is the Euclidean distance calculation function
  • f ⁇ (w j, j+ ⁇ ) is the feature representation of element or event sample w j, j+ ⁇
  • p n is the prototype representation of category n
  • u n is the feature representation of category n, and u n is the training parameter
  • n ' is any category in the training-query set D train-query ;
  • the loss function L1 of the meta-learning model is as follows:
  • the medical element recognition model is trained using the medical element marked by the remote supervision method, specifically:
  • indicates dot multiplication of elements corresponding to the position of the vector
  • the feature representation of the sample segment is transformed nonlinearly, and the probability distribution pr 2 (y j ) of the sample belonging to each category is calculated and output:
  • pr 2 (y j ) softmax(tanh(U 2 f(y j )+b 2 ))
  • U 2 and b 2 are training parameters
  • the output dimension of pr 2 (y j ) is the number of sample categories set to ⁇ , namely:
  • the probability value is used as the weight w c′ :
  • c′ is the predicted sample category, assuming a total of ⁇ medical elements, the global loss function L2 is constructed as:
  • medical elements are taken as the basic dimensions of medical events, and multiple experts score the medical elements at the same time.
  • the expert expert t score the medical element category Arug i in the medical event category Event j as score(expert t , Arug i , Event j ), it is stipulated that the score is an integer and the same expert must have different scores for each medical element.
  • the value range of the score is [1, ⁇ ], where ⁇ is the total number of medical element categories in the medical event category Event j , and the final medical event is calculated
  • the normalized expert score W(Arug i , Event j ) of the medical element category Arug i in the category Event j :
  • the probability distribution pr 3 (Event j ) of the text x belonging to the medical event category Event j is calculated by combining the importance scores of the medical elements:
  • V(Event j ) softmax(dp'+pr 3 (Event j )+pr 3 (Event j ) ⁇ dp')
  • Another aspect of the present invention discloses a medical event recognition system under the condition of small sample weak labeling, the system includes:
  • Medical event library construction and data labeling module define and build a medical event library based on expert knowledge, the medical event library includes medical event categories and the corresponding medical elements for each category; The text is marked with medical elements to generate training data for the recognition model of medical elements;
  • Medical element and event meta-learning module Select and sample the Chinese event and element annotation corpus published in various fields as the training set, and obtain the corresponding training-support set and training-query set through multiple rounds of sampling; construct corresponding events and elements based on the training-support set Prototype representation of the elements; calculate the distance similarity score between the training-query set samples and the prototype representation, calculate the loss of the meta-learning model according to the real results and recognition results, and update the parameters of the meta-learning model; use small-sample medical elements and event data sets as tests Set, the corresponding test-support set and test-query set are obtained by sampling, and the meta-learning model obtained by training is further trained on the test-support set to obtain the medical element and event meta-learning model;
  • Medical element recognition module train the sequence encoder model of Chinese electronic medical record text, obtain the character-level semantic vector representation of the text; calculate the feature representation of the medical element fragments marked by the remote supervision method; use semantic similarity to medical Classify the element fragments; for all non-medical element fragments predicted by the medical element recognition model during the training process, construct negative sampling samples, use the medical element and event meta-learning model to obtain the weight of the medical element category, and calculate the weight of the medical element and negative sampling samples. For the loss in the medical element recognition model, update the parameters of the medical element recognition model;
  • Medical event identification module Calculate the co-occurrence and event correlation characteristics of medical elements in each type of medical event based on the medical event database, and obtain the medical elements of various medical events in combination with the scoring of medical element categories in the medical event category by experts Importance score; Based on the medical element fragments in the Chinese electronic medical record text output by the medical element recognition model, the probability distribution of various medical events is obtained; the medical element and event meta-learning model is used to calculate the distance between the Chinese electronic medical record text and various medical events The similarity score is combined with the probability distribution of various medical events to obtain the corresponding medical event categories.
  • Fig. 1 is a flow chart of a medical event recognition method under the condition of small sample and weak labeling provided by the embodiment of the present invention
  • Fig. 2 is the implementation block diagram of medical elements and event meta-learning provided by the embodiment of the present invention.
  • Fig. 3 is the realization block diagram of medical element identification provided by the embodiment of the present invention.
  • FIG. 4 is a block diagram of medical event identification provided by an embodiment of the present invention.
  • Fig. 5 is a structural block diagram of a medical event recognition system under the condition of small samples and weak labels provided by an embodiment of the present invention.
  • a medical event refers to a collection of a series of medical state changes that have an important impact on the treatment process in the Chinese electronic medical record text.
  • a medical event includes a medical event category, a medical element, and a medical element category.
  • the medical event category is symptom
  • the medical element is "abdominal pain” (medical element category: symptom)
  • “more than 3 months” medical Element Category: Time)
  • “Aggravated 10 Days” Medical Element Category: Trend
  • Small-sample weak labeling condition refers to the situation where there is only a small amount of limited labeled data and a large amount of unlabeled data during model learning, and the labeled data is incomplete and noisy.
  • Meta-learning refers to: It is hoped that the model can acquire the ability to learn new tasks, so that it can quickly learn new tasks on the basis of prior knowledge. Meta-learning first constructs multiple rounds of training tasks, and then constructs the data corresponding to the tasks in each round of training tasks for training. Meta-learning aims to find a function F that can output a function f that can learn new tasks well.
  • Fragment labeling refers to arranging all possible text fragments in the text, marking the fragments in the corresponding medical event database as corresponding categories, and marking other fragments as negative samples.
  • Unlabeled medical elements refer to: during remote supervision and labeling, since the medical event database cannot cover all medical elements, the labeling results will miss medical elements that are not in the medical event database. These medical elements that are not covered by the medical event database are called unlabeled medical elements. Label medical elements.
  • the embodiment provides a medical event recognition method under the condition of small sample weak labeling, the steps are as follows:
  • Step 1 medical event database construction and data labeling: define and construct a medical event database based on expert knowledge, the medical event database includes medical event categories and medical elements corresponding to each category; the data of the medical event database comes from small sample medical elements And event data sets, external medical resources, etc.; based on the medical event database, use the remote supervision method to mark the medical elements of the Chinese electronic medical record text, and generate the training data of the medical element recognition model;
  • medical event medical elements Element example Personal basic information event gender female the age 30 years old the height 165cm the weight 50kg the marital status unmarried the smoking history none the drinking history none family disease events family members
  • the medical element database mainly includes seven types of medical elements, namely: disease, drug, symptom, operation, inducement, treatment, and diagnosis.
  • the specific construction process of the medical element database is as follows:
  • the present invention screens and processes some high-quality external medical resources currently disclosed, and adds them to the corresponding medical element database.
  • the medical element library is obtained by crawling medical resources and identifying and sorting information.
  • the present invention uses a rule-based method for labeling and extraction, without using The method annotation matched to the medical feature library.
  • Medical event category medical elements Medical element category 1 family disease events father, died of natural causes family members, disease 2 family disease events Mother, liver cirrhosis, 3 years family members, illness, time 3 family disease events sister, liver cancer family members, disease 4 family disease events brother, liver cancer family members, disease 5 family disease events Sister, cerebral hemorrhage family members, disease
  • c) Statistically calculate the maximum segment length l of medical elements in the medical element database, and specify the maximum segment length l when using the remote supervision method for labeling.
  • the matched medical element fragment text is marked by fragment labeling, and other text fragments that are not matched as medical elements are marked as negative samples.
  • Step 2 medical element and event meta-learning, is used to improve the learning ability of the medical element recognition model and the medical event recognition model under the condition of small sample weak labeling, mainly including four steps:
  • the meta-learning method uses a large number of labeled corpora in other fields to construct multiple rounds of training tasks that only contain small sample data, and train a model that is capable of quickly learning new tasks on small sample data.
  • the training set D train is sampled M times, samples of N categories are sampled each time, and K samples are sampled for each type of sample as the support set D train-support , and the sampling is the same as in D test-query
  • the number of class samples is used as the query set D train-query .
  • the meta-learning model has the ability to quickly learn medical elements and event recognition tasks under N-way K-shot conditions.
  • the obtained meta-learning model continues to be trained on the medical element and event sample support set D test-support , and the medical element and event meta-learning model is obtained.
  • the feature and event meta-learning model consists of a sequence encoder model and a classification model, where the sequence encoder model is preferably a bidirectional self-attention language model (BERT).
  • the distance similarity score includes two parts: Bregman divergence D ⁇ and cosine similarity score C;
  • the Bregman divergence can be selected as the Euclidean distance, namely:
  • a is a training parameter, usually (0, 1); the present invention considers two dimensions, and can calculate the distance similarity score more comprehensively and accurately.
  • n' is any category in D train-query .
  • the loss function L1 of the meta-learning model is as follows:
  • the above process is carried out M times in total, and the pre-trained medical elements and event meta-learning models are obtained through training.
  • Step 3 Medical element identification: Based on the sequence encoder model and negative sampling method, the medical element is classified and identified, which mainly includes four steps:
  • sequence encoder model of the Chinese electronic medical record text obtain the character-level semantic vector representation of the text, and the sequence encoder model is preferably a two-way self-attention language model (BERT);
  • BERT self-attention language model
  • the character-level semantic vector representation of the text is obtained by using the two-way self-attention language model.
  • the two-way self-attention language model uses both the forward and reverse context information of the text for training during training, which can well represent the semantic vector of the text.
  • the input of the network in the two-way self-attention language model comes from the output of the self-attention mechanism of the previous layer network.
  • pr 2 (y j ) softmax(tanh(U 2 f(y j )+b 2 ))
  • U 2 and b 2 are training parameters
  • the output dimension of pr 2 (y j ) is the number of sample categories set to ⁇ , namely:
  • the constructed medical event library and the rules used can only cover a limited number of medical element fragments, but cannot cover all medical elements.
  • the present invention performs negative sampling on all non-medical element fragments predicted by the medical element recognition model during the training process, and at the same time uses the medical element and event meta-learning model to obtain the category weight of the sampling sample, thereby improving the accuracy of the medical element recognition model in small samples. Generalization under weak annotation conditions.
  • c′ is the predicted sample category, assuming a total of ⁇ medical elements, the global loss function L2 is constructed as:
  • Step 4 medical event identification: based on the importance of medical elements and the distance similarity scores of medical events, classify and identify medical events, mainly including three steps:
  • the present invention identifies medical events based on medical elements.
  • the medical element and event meta-learning model is used to model and identify medical events from the perspective of Chinese electronic medical record text and the distance similarity scores of various medical events.
  • a) Use the medical event database and expert scoring to calculate the importance score of medical elements.
  • the importance of different medical elements is different. For example, for symptom events, compared with medical elements such as time and frequency, symptoms are the key elements , and the descriptive text of a medical event usually cannot cover all the defined medical elements.
  • the importance scores of different medical elements in each type of medical event are calculated based on the constructed medical event database and expert scoring, and then combined with the medical element fragments output by the medical element recognition model to identify medical events.
  • count(Arug i , Event j ) represents the co-occurrence times of medical element category Arug i and medical event category Event j in the medical event database
  • count(Event j ) represents the number of occurrences of medical event category Event j in the medical event database.
  • relevance(Arug i , Event j ) represents the correlation score between medical element category Arug i and medical event category Event j
  • count(Arug i ) represents the number of occurrences of medical element category Arug i in the medical event database.
  • Medical element category Experts score Expert two scoring Three points from experts drug 3 3 3 Medication 2 1 1 time 1 2 2
  • V(Event j ) softmax(dp'+pr 3 (Event j )+pr 3 (Event j ) ⁇ dp')
  • FIG. 5 Another aspect of the present invention discloses a medical event recognition system under the condition of small sample weak labeling, as shown in Figure 5, the system includes the following modules:
  • Medical event library construction and data labeling module define and build a medical event library based on expert knowledge, the medical event library includes medical event categories and the corresponding medical elements for each category; The text is marked with medical elements to generate training data for the medical element recognition model; the implementation of this module can refer to the above step 1.
  • Medical element and event meta-learning module Select and sample the Chinese event and element annotation corpus published in various fields as the training set, and obtain the corresponding training-support set and training-query set through multiple rounds of sampling; construct corresponding events and elements based on the training-support set Prototype representation of the elements; calculate the distance similarity score between the training-query set samples and the prototype representation, calculate the loss of the meta-learning model according to the real results and recognition results, and update the parameters of the meta-learning model; use small-sample medical elements and event data sets as tests Set, sample the corresponding test-support set and test-query set, and further train the trained meta-learning model on the test-support set to obtain the medical element and event meta-learning model; the implementation of this module can refer to the above step 2.
  • Medical element recognition module train the sequence encoder model of Chinese electronic medical record text, obtain the character-level semantic vector representation of the text; calculate the feature representation of the medical element fragments marked by the remote supervision method; use semantic similarity to medical Classify the element fragments; for all non-medical element fragments predicted by the medical element recognition model during the training process, construct negative sampling samples, use the medical element and event meta-learning model to obtain the weight of the medical element category, and calculate the weight of the medical element and negative sampling samples. For the loss in the medical element recognition model, update the parameters of the medical element recognition model; the realization of this module can refer to the above step three.
  • Medical event identification module Calculate the co-occurrence and event correlation characteristics of medical elements in each type of medical event based on the medical event database, and obtain the medical elements of various medical events in combination with the scoring of medical element categories in the medical event category by experts Importance score; Based on the medical element fragments in the Chinese electronic medical record text output by the medical element recognition model, the probability distribution of various medical events is obtained; the medical element and event meta-learning model is used to calculate the distance between the Chinese electronic medical record text and various medical events The similarity score is combined with the probability distribution of various medical events to obtain the corresponding medical event category; the realization of this module can refer to the above step 4.
  • system also includes a recognition result display module for presenting categories of medical events.
  • the present invention realizes the automatic recognition of medical events and elements in large-scale Chinese electronic medical record texts under the condition of small sample and weak labeling, and solves the problems of poor generalization of traditional event recognition methods and systems, difficult unification of rules, and large manpower cost. It solves the problem that the trigger words of medical events are difficult to define, and can effectively identify medical events.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Pathology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种小样本弱标注条件下的医疗事件识别方法及系统,本发明构建了医疗事件库,利用远程监督方法实现了在小样本弱标注条件下对医疗要素的自动标注;从多个维度构建医疗要素和事件元学习模型,解决小样本弱标注条件下,医疗事件识别模型泛化性差、标注数据不足的问题;利用医疗要素和事件元学习模型进行负采样,将未标注医疗要素控制在一个较低的范围,降低远程监督方法引起的漏标问题,提升医疗要素识别模型性能;基于医疗事件库和专家知识计算医疗要素重要度,利用医疗要素重要度与医疗要素和事件元学习模型对医疗事件进行分类识别,解决了医疗事件触发词难以定义的问题。

Description

一种小样本弱标注条件下的医疗事件识别方法及系统 技术领域
本发明属于医疗信息技术领域,尤其涉及一种小样本弱标注条件下的医疗事件识别方法及系统。
背景技术
随着医院电子化进程的发展,大量医学知识以电子病历的形式存储于各类医疗信息系统中。这些数据通过医生的临床实践积累而产生,含有丰富的临床经验知识。从中自动化地识别出这些医学知识,对医疗健康服务智能化具有重要意义。医疗事件识别旨在从电子病历文本中识别医疗事件并结构化表示,包括医疗事件类别、参与的医疗要素及其对应的类别等。事件识别得到的信息可以深层次地描述复杂且多样化的医学知识。
近年来,事件识别的方法主要分为基于规则的方法和基于深度学习的方法。基于规则的方法,人为或半自动地定义好事件识别模版,将文本与规则进行匹配识别事件。随着深度学习技术的发展,卷积神经网络、循环神经网络、注意力网络等深度学习模型在医疗事件识别中的应用逐渐增多。深度学习事件识别模型一般通过识别事件触发词识别对应的事件,再从对应的事件中识别相关的事件要素。
在小样本弱标注条件下,远程监督方法利用知识库对数据进行自动标注,可以实现训练样本的快速扩充,被广泛应用在关系识别任务中。同时元学习方法从建模的角度,让模型利用先验知识,学会学习任务的过程,来提高模型在小样本弱标注条件下的识别性能。
现在医疗事件识别面临的主要问题是小样本弱标注,现有的方法都未能很好地解决这个问题。一方面基于规则的方法需要人为地定义事件识别规则。医疗事件识别的规则体系难以构建,基于规则的方法泛化性差,可以覆盖的事件情况较少。同时由于不同医院的电子病历格式差异大,并且定义规则的过程较为主观,不同的专家会制定出不同的规则,难以制定统一的医疗事件规则体系。
另一方面基于深度学习的方法一般需要大量的标注语料,目前医疗领域公开的事件数据集较少,需要有医学背景知识的人员对大量文本进行标注,并在标注过程中对事件进行一致性校验等,需要的人力成本较大。对于深度学习方法,目前的事件识别通常通过判断触发词的方式来进行事件识别,但医疗领域中的各类事件较为复杂,难以用一个触发词代表一种医疗事件,通过判断触发词的方式不能有效地识别医疗事件。
发明内容
本发明的目的在于针对目前医疗事件识别方法的不足,提出一种小样本弱标注条件下,融合远程监督方法和元学习的医疗事件识别方法及系统。
本发明主要通过以下两种途径解决小样本弱标注问题:一方面本发明利用远程监督方法,通过构建医疗事件库实现对中文电子病历文本的自动标注,在样本量较少的情况下,有效地扩充样本数据和提升模型对小样本识别的泛化性;另一方面本发明利用少样本学习领域中的元学习方法识别医疗要素和事件。在充分利用先验知识的情况下,有效解决医疗事件识别方法泛化性差、规则难以统一、需要大量人力成本的问题,提高了医疗事件识别结果的准确性,同时提出的事件识别方法具有良好的可扩展性,利于海量电子病历文本的大规模抽取。对于医疗事件识别,考虑到医疗领域事件较为复杂,其触发词难以定义,本发明优先识别医疗要素,利用医疗要素识别医疗事件。
本发明的目的是通过以下技术方案来实现的:
本发明一方面公开了一种小样本弱标注条件下的医疗事件识别方法,该方法包括:
步骤一,医疗事件库构建和数据标注:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
步骤二,医疗要素和事件元学习,包括以下子步骤:
2.1选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;
2.2基于训练-支持集,构建对应事件和要素的原型表示;
2.3根据要素和事件的原型表示,计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;
2.4将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
步骤三,医疗要素识别,包括以下子步骤:
3.1训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;
3.2对远程监督方法标注得到的医疗要素片段,基于获得的字符级语义向量表示,计算医疗要素片段的特征表示;
3.3根据医疗要素片段的特征表示,利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重;
3.4基于医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;
步骤四,医疗事件识别,包括以下子步骤:
4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;
4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,结合医疗要素重要度分数,获得各类医疗事件的概率分布;
4.3利用医疗要素和事件元学习模型,计算中文电子病历文本和各类医疗事件的距离相似度分数,与步骤4.2中各类医疗事件的概率分布结合,计算得到对应的医疗事件类别。
进一步地,所述步骤一中,所述医疗事件库的数据来自小样本医疗要素和事件数据集和外部医学资源;所述医疗事件类别包括:个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。
进一步地,所述步骤一中,首先构建医疗要素库,构建过程如下:
a)将小样本医疗要素和事件数据集中出现两次以上的医疗要素按照对应的医疗要素类别,加入到对应类别的医疗要素库;
b)筛选和处理部分公开的高质量外部医学资源,加入到对应的医疗要素库中;
然后构建医疗事件库:对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计,对于每一个标注的事件和要素,建立对应关系,并进行存储记录。
进一步地,所述步骤一中,利用远程监督方法标注医疗要素,具体为:
a)对中文电子病历文本x进行无效字符清洗、大小写转换、标点符号转换、切句处理;
b)对于中文电子病历文本x,使用医疗要素库进行匹配;对于不属于疾病、药物、症状、手术、诱因、治疗、诊断这七类的医疗要素,使用基于规则的方式进行标注和提取,不使用匹配到医疗要素库的方法标注;
c)统计医疗要素库中医疗要素的最大片段长度l,在利用远程监督方法进行标注时规定片段的最大长度为l,采用片段标注的方式对匹配得到的医疗要素片段文本进行标注,其他未匹配为医疗要素的文本片段标注为负样本;将标注得到的样本记为(y j,c j),其中样本片段y j=(s j,e j),s j,e j分别表示样本片段y j在文本x中的起始位置和结束位置,c j为样本对应的类别。
进一步地,所述步骤2.2中,基于训练-支持集,构建对应事件和要素的原型表示,具体为:将各个类别样本的语义向量投影到高维度的特征空间中,将各样本的特征按维度进行加和求平均,作为类别的原型表示。
进一步地,所述步骤2.3中,距离相似度分数包括Bregman散度D Φ和余弦相似度分数C两部分;
Bregman散度D Φ计算公式如下:
D Φ=d(f φ(w j,j+ρ),p n)
其中d为欧式距离计算函数,f φ(w j,j+ρ)为要素或事件样本w j,j+ρ的特征表示,p n为类别n的原型表示;
余弦相似度分数C计算公式如下:
Figure PCTCN2022116968-appb-000001
其中u n为类别n的特征表示,u n是训练参数;
计算样本w j,j+ρ属于类别n的距离相似度分数
Figure PCTCN2022116968-appb-000002
Figure PCTCN2022116968-appb-000003
其中a为训练参数;
计算样本w j,j+ρ预测为类别n的概率pr 1(n|w j,j+ρ):
Figure PCTCN2022116968-appb-000004
其中n′为训练-查询集D train-query中的任一类别;
根据训练-查询集中样本类别的真实结果和识别结果,计算元学习模型的损失,并使用Adam算法进行反向传播更新参数,元学习模型的损失函数L1如下:
Figure PCTCN2022116968-appb-000005
进一步地,所述步骤三中,利用远程监督方法标注的医疗要素,训练医疗要素识别模型,具体为:
输入的中文电子病历文本记为x={x i} i=1,2,...,ζ,ζ是输入的文本长度;通过远程监督方法标注得到的样本记为(y j,c j),其中样本片段y j=(s j,e j),s j,e j分别表示样本片段y j在文本x中的起始位置和结束位置,c j为样本对应的类别;
使用序列编码器模型得到文本的字符级语义向量表示;在医疗要素识别时,对于文本x={x i} i=1,2,...,ζ,通过序列编码器模型获得每个字符的语义向量h={h i} i=1,2,...,ζ
对于样本(y j,c j),计算样本片段y j=(s j,e j)的特征表示f(y j):
Figure PCTCN2022116968-appb-000006
其中
Figure PCTCN2022116968-appb-000007
表示向量拼接,⊙表示向量对应位置元素点乘运算;
样本片段的特征表示经过非线性变换,计算并输出样本属于各类别的概率分布pr 2(y j):
pr 2(y j)=softmax(tanh(U 2f(y j)+b 2))
其中U 2,b 2为训练参数,pr 2(y j)输出维度为样本类别数设为χ,即:
Figure PCTCN2022116968-appb-000008
其中
Figure PCTCN2022116968-appb-000009
表示样本片段y j属于类别c t的概率。
进一步地,所述步骤三中,设所有样本集合为y={(y j,c j)},设医疗要素识别模型在训练过程中预测的所有非医疗要素片段数量为ξ,随机采样λξ个样本,构成负采样样本集合
Figure PCTCN2022116968-appb-000010
其中0<λ<1;将负采样样本集合送入医疗要素和事件元学习模型,得到负采样样本
Figure PCTCN2022116968-appb-000011
属于各类别医疗要素的概率,将该概率值作为权重w c′
Figure PCTCN2022116968-appb-000012
其中c′为预测的样本类别,设共ε类医疗要素,构造全局损失函数L2为:
Figure PCTCN2022116968-appb-000013
使用损失函数L2经过梯度反向传播更新医疗要素识别模型参数。
进一步地,将医疗要素作为医疗事件的基本维度,多位专家同时对医疗要素打分,设专家expert t对于医疗事件类别Event j中的医疗要素类别Arug i打分为score(expert t,Arug i,Event j),规定分数为整数且同一专家对各个医疗要素的打分必须不同,分数的取值范围为[1,Ω],其中Ω为医疗事件类别Event j中医疗要素类别总数,计算最终的医疗事件类别Event j中医疗要素类别Arug i的归一化专家得分W(Arug i,Event j):
Figure PCTCN2022116968-appb-000014
其中Γ为专家数;计算医疗要素类别Arug i在医疗事件类别Event j中的最终重要度分数I(Arug i,Event j):
I(Arug i,Event j)=W(Arug i,Event j)*I′(Arug i,Event j)
设输入的中文电子病历文本记为x={x i} i=1,2,...,ζ,ζ是输入的文本长度,通过医疗要素识别模型预测得到的医疗要素记为
Figure PCTCN2022116968-appb-000015
Figure PCTCN2022116968-appb-000016
为文本中医疗要素数量,设共有医疗事件 类别H个;结合医疗要素重要度分数计算文本x属于医疗事件类别Event j的概率分布pr 3(Event j):
Figure PCTCN2022116968-appb-000017
将中文电子病历文本x送入医疗要素和事件元学习模型中,计算文本和各类医疗事件的距离相似度分数dp’,将距离相似度分数与医疗事件的概率分布结合,得到文本x属于医疗事件类别Event j的得分V(Event j):
V(Event j)=softmax(dp’+pr 3(Event j)+pr 3(Event j)⊙dp’)
取得分最高的医疗事件类别
Figure PCTCN2022116968-appb-000018
作为最终文本x的医疗事件:
Figure PCTCN2022116968-appb-000019
本发明另一方面公开了一种小样本弱标注条件下的医疗事件识别系统,该系统包括:
医疗事件库构建和数据标注模块:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
医疗要素和事件元学习模块:选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;基于训练-支持集构建对应事件和要素的原型表示;计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
医疗要素识别模块:训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;对远程监督方法标注得到的医疗要素片段,计算医疗要素片段的特征表示;利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;
医疗事件识别模块:基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,获得各类医疗事件概率分布;利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数,与各类医疗事件概率分布结合,得到对应的医疗事件类别。
本发明的有益效果如下:
1.构建了医疗事件库,利用远程监督方法,实现了在小样本弱标注条件下对医疗要素的自动标注;
2.从多个维度构建医疗要素和事件元学习模型,解决小样本弱标注条件下,医疗事件识别模型泛化性差、标注数据不足的问题;
3.利用医疗要素和事件元学习模型进行负采样,将未标注医疗要素控制在一个较低的范围,降低远程监督方法引起的漏标问题,提升医疗要素识别模型性能;
4.基于医疗事件库和专家知识计算医疗要素重要度,利用医疗要素重要度与医疗要素和事件元学习模型对医疗事件进行分类识别,解决了医疗事件触发词难以定义的问题。
附图说明
图1为本发明实施例提供的一种小样本弱标注条件下的医疗事件识别方法流程图;
图2为本发明实施例提供的医疗要素和事件元学习实现框图;
图3为本发明实施例提供的医疗要素识别实现框图;
图4为本发明实施例提供的医疗事件识别实现框图;
图5为本发明实施例提供的一种小样本弱标注条件下的医疗事件识别系统结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明中,医疗事件指:在中文电子病历文本中,对治疗过程有重要影响的一系列医学状态变化的集合。一个医疗事件包括医疗事件类别、医疗要素和医疗要素类别。例如对于文本“腹痛3月余,加重10天”,其为描述患者症状变化的事件,医疗事件类别为症状,医疗要素为“腹痛”(医疗要素类别:症状)、“3月余”(医疗要素类别:时间)、“加重10天”(医疗要素类别:趋势)。
小样本弱标注条件指:模型学习时只有少量有限的标注数据和大量的未标注数据,且标注数据不完整、存在噪声的情况。
元学习指:希望使得模型获取一种学会学习新任务的能力,使其可以在获取先验知识的基础上快速学习新的任务。元学习首先构建多轮的训练任务,然后在每轮训练任务中构建任务对应的数据进行训练。元学习以找到函数F为目标,F可以输出函数f,函数f可以很好地 学习新任务。
片段标注指:对文本中所有可能的文本片段进行排列,将在对应医疗事件库中的片段标注为对应类别,其他片段标注为负样本。
未标注医疗要素指:远程监督标注时,由于医疗事件库不可能覆盖所有的医疗要素,标注结果会漏掉不在医疗事件库中的医疗要素,这些未被医疗事件库覆盖的医疗要素称为未标注医疗要素。
如图1所示,本实施例提供的一种小样本弱标注条件下的医疗事件识别方法,步骤如下:
步骤一,医疗事件库构建和数据标注:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;医疗事件库的数据来自小样本医疗要素和事件数据集、外部医学资源等;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
(1)医疗事件库构建
(1.1)医疗事件及对应医疗要素的定义:根据大量中文电子病历文本的特点,在专业医生的指导下,初步定义九种通用的医疗事件类别:个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。并对每种事件定义了对应的医疗要素,如个人基本信息事件中,定义性别、年龄、身高、体重、婚姻状况、吸烟史、饮酒史作为事件的要素。症状事件中,定义症状、时间、频次、趋势、复发情况、诱因作为事件要素。又如在既往疾病事件中,定义疾病、时间、治疗方法作为事件要素。医疗事件及要素的具体定义如下表:
医疗事件 医疗要素 要素举例
个人基本信息事件 性别
  年龄 30岁
  身高 165cm
  体重 50kg
  婚姻状况 未婚
  吸烟史
  饮酒史
家族疾病事件 家族成员 父亲
  疾病 高血压
  时间 10年
既往疾病事件 疾病 高血压
  时间 1年
  治疗方法 口服降压药
用药事件 药物 氨氯地平
  用药方式 口服
  时间 1月
过敏事件 过敏源 青霉素
  时间  
手术事件 时间 4年前
  手术名称 支架植入术
  手术原因 下肢动脉狭窄
症状事件 症状 腹痛
  时间 3月余
  频次 2次
  趋势 加重10天
  复发情况 复发一月
  诱因 进食后
治疗事件 治疗操作 口服降压药
  时间  
  治疗原因 高血压
诊断事件 诊断名称 高血压
  诊断类别  
  诊断依据  
(1.2)医疗要素库构建:考虑到小样本弱标注条件下只有少量标注的医疗事件和要素,本发明引入公开的高质量医学语料来构建医疗要素库。医疗要素库主要包含七类医疗要素,分别为:疾病、药物、症状、手术、诱因、治疗、诊断。医疗要素库的具体构建过程如下:
a)将小样本医疗要素和事件数据集中出现2次以上的医疗要素按照对应的医疗要素类别,加入到对应类别的医疗要素库。
b)由于上述方法只能得到很少的医疗要素,本发明筛选和处理部分目前公开的高质量外部医学资源,加入到对应的医疗要素库中。通过爬取医学资源并对信息进行识别和整理得到医疗要素库。
c)对于不属于上述七种类别的医疗要素,如:时间、性别、年龄、身高、体重、频次、趋势、吸烟史、饮酒史等,本发明使用基于规则的方式进行标注和提取,不使用匹配到医疗要素库的方法标注。
(1.3)医疗事件库构建:对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计,对于每一个标注的事件和要素,建立对应关系,并进行存储记录。
例如对于小样本医疗要素和事件数据集中的家族疾病事件:“家族中无类似患者。父亲已故,死因:自然死亡。母亲肝硬化5年。兄弟姐妹健康状况:7兄弟姐妹;1姐姐1弟弟肝癌去世,1姐姐脑溢血。”,建立对应的医疗事件库进行统计,如下表:
编号 医疗事件类别 医疗要素 医疗要素类别
1 家族疾病事件 父亲,自然死亡 家族成员,疾病
2 家族疾病事件 母亲,肝硬化,3年 家族成员,疾病,时间
3 家族疾病事件 姐姐,肝癌 家族成员,疾病
4 家族疾病事件 弟弟,肝癌 家族成员,疾病
5 家族疾病事件 姐姐,脑溢血 家族成员,疾病
(2)利用远程监督方法标注医疗要素
基于启发式假设,如果医疗要素片段在医疗要素库中被标注为某种类别的医疗要素,则在未标注的中文电子病历文本中的该要素片段都被标注为对应类别的医疗要素。具体的自动标注步骤如下:
a)对中文电子病历文本x进行无效字符清洗、大小写转换、标点符号转换、切句等预处理操作。
b)对于中文电子病历文本x,使用医疗要素库进行匹配;对于不属于七种类别的医疗要素,例如时间、性别、年龄等信息,使用基于规则的方式进行匹配;
c)统计医疗要素库中医疗要素的最大片段长度l,在利用远程监督方法进行标注时规定片段的最大长度为l。采用片段标注的方式对匹配得到的医疗要素片段文本进行标注,其他未匹配为医疗要素的文本片段标注为负样本。将标注得到的样本记为(y j,c j),其中样本片段y j=(s j,e j),s j,e j分别表示样本片段y j在文本x中的起始位置和结束位置,c j为样本对应的类别。
例如:对于文本“突发上腹部疼痛3月,伴进食后呕吐。”匹配得到症状片段集合{“上腹部疼痛”,“疼痛”,“呕吐”},诱因片段集合{“进食后”},时间片段集合{“3月”}。本发明将“上腹部疼痛”、“疼痛”标注为症状,“进食后”标注为诱因,“呕吐”标注为症状,“3月”标注为时间等。其他未匹配到的片段如:“突”标注为负样本,“发上”标注为负样本。
步骤二,医疗要素和事件元学习,用于提高医疗要素识别模型和医疗事件识别模型在小样本弱标注条件下的学习能力,主要包括四个步骤:
2.1选择并采样各领域(不限于医疗领域,因为医疗领域事件识别数据有限)高质量公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;
2.2基于训练-支持集,构建对应事件和要素的原型表示,具体为:将各个类别样本的语 义向量投影到高维度的特征空间中,将各样本的特征按维度进行加和求平均,作为类别的原型表示;
2.3根据要素和事件的原型表示,计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;
2.4将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型,如图2所示。
具体实现细节如下:
a)小样本弱标注条件下,直接使用小样本医疗要素和事件数据集训练医疗事件识别模型,会因为标注数据过少导致严重的过拟合。元学习方法利用其他领域的大量标注语料,构建多轮只含有小样本数据的训练任务,训练得到在小样本数据上具备快速学习新任务能力的模型。
b)采样小样本医疗要素和事件数据集中的样本作为测试集记为D test,假设D test中医疗要素和事件共有N类,每个类别下含有T个样本。将样本按照3∶2进一步划分为支持集D test-support和查询集D test-query,假设D test-support中每个类别下含有K个样本,构建得到一个N-way K-shot的元学习任务。因为医疗要素和事件标注语料较少,本发明获取各领域高质量公开的中文事件和要素标注语料作为训练集记为D train,D train中事件和要素类别与医疗事件和要素类别不同,利用D train训练N-way K-shot的元学习模型。根据测试集样本构造过程,从训练集D train中采样M次,每次采样N个类别的样本,每类样本采样K个样本作为支持集D train-support,采样与D test-query中相同的类别样本数作为查询集D train-query。利用D train-support和D train-query进行M次的元学习模型训练,使得元学习模型具备在N-way K-shot条件下快速学习医疗要素和事件识别任务的能力。将得到的元学习模型继续在医疗要素和事件样本支持集D test-support上训练,得到医疗要素和事件元学习模型。
c)要素和事件元学习模型由序列编码器模型和分类模型组成,其中序列编码器模型优选为双向自注意力语言模型(BERT)。序列编码器模型将输入的文本w={w i} i=1,2,...,τ编码为语义向量q={q i} i=1,2,...,τ,其中τ为输入的文本长度,w i为第i个字符,然后使用f φ函数计算要素和事件的特征,假设要素或事件样本为w j,j+ρ={w j,w j+1...w j+ρ},ρ+1为样本长度,则其特征表示为:
Figure PCTCN2022116968-appb-000020
其中u t,b 1为训练参数。
然后在分类模型中对D train-support中的N个类别样本进行原型建模,对于类别n,设S n 为类别n的样本集合,类别n的原型表示为p n
Figure PCTCN2022116968-appb-000021
计算D train-query中每个要素和事件与原型表示p n的距离相似度分数,距离相似度分数包括Bregman散度D Φ和余弦相似度分数C两部分;
Bregman散度可选为欧式距离,即:
D Φ=d(f φ(w j,j+ρ),p n)
其中d为欧式距离计算函数。
同时,计算要素和事件与类别n的余弦相似度分数C,使用u n作为类别n的特征表示,u n是训练参数:
Figure PCTCN2022116968-appb-000022
计算样本w j,j+ρ属于类别n的距离相似度分数
Figure PCTCN2022116968-appb-000023
分数越大样本w j,j+ρ与类别n越相似:
Figure PCTCN2022116968-appb-000024
其中a为训练参数,通常取(0,1);本发明考虑了两个维度,可以更全面准确地计算距离相似度分数。
计算样本w j,j+ρ预测为类别n的概率pr 1(n|w j,j+ρ):
Figure PCTCN2022116968-appb-000025
其中n′为D train-query中的任一类别。
根据D train-query中样本类别的真实结果和识别结果,计算元学习模型的损失,并使用Adam算法进行反向传播更新参数,元学习模型的损失函数L1如下:
Figure PCTCN2022116968-appb-000026
上述过程共进行M次,训练得到预训练的医疗要素和事件元学习模型。
d)将得到的预训练的医疗要素和事件元学习模型继续在D test-support上训练,对模型的参数进行优化,得到医疗要素和事件元学习模型。在识别时,将D test-query中的医疗要素和事件样本送入医疗要素和事件元学习模型中,得到其对应的类别。
步骤三,医疗要素识别:基于序列编码器模型和负采样方法,对医疗要素进行分类识别, 主要包括四个步骤:
3.1训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示,序列编码器模型优选为双向自注意力语言模型(BERT);
3.2对远程监督方法标注得到的医疗要素片段,基于获得的字符级语义向量表示,计算医疗要素片段的特征表示;
3.3根据医疗要素片段的特征表示,利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重;
3.4基于医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数,如图3所示。
具体实现细节如下:
a)利用远程监督方法标注的医疗要素,训练医疗要素识别模型
输入的中文电子病历文本记为x={x i} i=1,2,...,ζ,ζ是输入的文本长度。通过远程监督方法标注得到的样本记为(y j,c j),其中样本片段y j=(s j,e j),s j,e j分别表示样本片段y j在文本x中的起始位置和结束位置,c j为样本对应的类别。
使用双向自注意力语言模型得到文本的字符级语义向量表示,双向自注意力语言模型在训练时同时利用文本正向和反向的上下文信息进行训练,可以很好地表示文本的语义向量。双向自注意力语言模型中网络的输入来源于上一层网络自注意力机制的输出。
在医疗要素识别时,对于文本x={x i} i=1,2,...,ζ,通过双向自注意力语言模型获得其每个字符的语义向量h={h i} i=1,2,...,ζ
然后对于样本(y j,c j),计算样本片段y j=(s j,e j)的特征表示f(y j):
Figure PCTCN2022116968-appb-000027
其中
Figure PCTCN2022116968-appb-000028
表示向量拼接,⊙表示向量对应位置元素点乘运算。
最后样本片段的特征表示经过非线性变换,计算并输出样本属于各类别的概率分布pr 2(y j):
pr 2(y j)=softmax(tanh(U 2f(y j)+b 2))
其中U 2,b 2为训练参数,pr 2(y j)输出维度为样本类别数设为χ,即:
Figure PCTCN2022116968-appb-000029
其中
Figure PCTCN2022116968-appb-000030
表示样本片段y j属于类别c t的概率。
b)基于医疗要素和事件元学习模型进行负采样降低未标注医疗要素片段的影响
考虑到使用远程监督方法标注数据时,构建的医疗事件库和使用的规则只能覆盖有限的医疗要素片段,不能涵盖所有的医疗要素,存在真实的医疗要素片段被标注为负样本的情况,这些未被标注为医疗要素的片段会对医疗要素识别模型的结果产生较大的影响。本发明在训练时对医疗要素识别模型在训练过程中预测的所有非医疗要素片段进行负采样,同时利用医疗要素和事件元学习模型得到采样样本的类别权重,从而提高医疗要素识别模型在小样本弱标注条件下的泛化性。
设所有样本集合为y={(y j,c j)},设医疗要素识别模型在训练过程中预测的所有非医疗要素片段数量为ξ,随机采样λξ个样本,构成负采样样本集合
Figure PCTCN2022116968-appb-000031
其中0<λ<1。将负采样样本集合送入医疗要素和事件元学习模型,得到负采样样本
Figure PCTCN2022116968-appb-000032
属于各类别医疗要素的概率,将该概率值作为权重w c′
Figure PCTCN2022116968-appb-000033
其中c′为预测的样本类别,设共ε类医疗要素,构造全局损失函数L2为:
Figure PCTCN2022116968-appb-000034
使用此损失函数经过梯度反向传播更新医疗要素识别模型参数。
步骤四,医疗事件识别:基于医疗要素重要度和医疗事件的距离相似度分数,对医疗事件进行分类识别,主要包括三个步骤:
4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合多位专家对于医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;
4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,结合医疗要素重要度分数,获得各类医疗事件的概率分布;
4.3利用医疗要素和事件元学习模型,计算中文电子病历文本和各类医疗事件的距离相似度分数,与步骤4.2中各类医疗事件的概率分布结合,计算得到对应的医疗事件类别,如图4所示。
具体实现细节如下:
考虑到医疗事件文本语义复杂、形式难以统一、医疗事件触发词难以定义的问题,本发明基于医疗要素识别医疗事件。同时,为了提高小样本弱标注条件下模型的泛化性和准确性,使用医疗要素和事件元学习模型从中文电子病历文本和各类医疗事件的距离相似度分数的角度建模识别医疗事件。
a)利用医疗事件库和专家打分情况计算医疗要素重要度分数,在同一医疗事件中不同的医疗要素的重要程度不同,例如对于症状事件,相比于时间、频次等医疗要素,症状是关键要素,同时一个医疗事件的描述文本中通常不能涵盖所有定义的医疗要素。利用医疗要素识别医疗事件时,基于构建好的医疗事件库和专家打分情况计算每类医疗事件中不同医疗要素的重要度分数,再结合医疗要素识别模型输出的医疗要素片段识别医疗事件。
b)对于构建好的医疗事件库,计算医疗要素类别Arug i在医疗事件类别Event j中的共现性分数co_occurence(Arug i,Event j):
Figure PCTCN2022116968-appb-000035
其中count(Arug i,Event j)代表医疗事件库中医疗要素类别Arug i与医疗事件类别Event j共现的次数,count(Event j)代表医疗事件库中医疗事件类别Event j出现的次数。
计算医疗要素与医疗事件的相关性分数,用来区分不同医疗要素类别与医疗事件相关性,若同一类别医疗要素在很多医疗事件类别中出现,则认为该类医疗要素与各类医疗事件相关性较差:
Figure PCTCN2022116968-appb-000036
其中relevance(Arug i,Event j)代表医疗要素类别Arug i与医疗事件类别Event j的相关性分数,count(Arug i)代表在医疗事件库中医疗要素类别Arug i出现的次数。
计算医疗要素类别Arug i在医疗事件类别Event j中的重要度分数I′(Arug i,Event j):
I′(Arug i,Event j)=log(co_occurence(Arug i,Event j)*relevance(Arug i,Event j))
c)在医学专家的指导下,制定具体的规则对医疗要素的重要度分数进行进一步计算。将医疗要素作为医疗事件的基本维度,多位专家同时对医疗要素打分,将专家数记为Γ。设专家expert t对于医疗事件类别Event j中的医疗要素类别Arug i打分为score(expert t,Arug i,Event j),规定分数为整数且同一专家对各个医疗要素的打分必须不同,分数的取值范围为[1,Ω],其中Ω为医疗事件类别Event j中医疗要素类别总数。计算最终的医疗事件类别Event j中医疗要素类别Arug i的归一化专家得分W(Arug i,Event j):
Figure PCTCN2022116968-appb-000037
例如对于用药事件,以三位专家参与打分为例,三位专家分别对医疗要素打分如下:
医疗要素类别 专家一打分 专家二打分 专家三打分
药物 3 3 3
用药方式 2 1 1
时间 1 2 2
结合多位专家的打分情况,计算得到各个用药事件中药物、用药方式、时间的分数为
Figure PCTCN2022116968-appb-000038
计算医疗要素类别Arug i在医疗事件类别Event j中的最终重要度分数I(Arug i,Event j):
I(Arug i,Event j)=W(Arug i,Event j)*I′(Arug i,Event j)
d)设输入的中文电子病历文本记为x={x i} i=1,2,...,ζ,ζ是输入的文本长度,通过医疗要素识别模型预测得到的医疗要素记为
Figure PCTCN2022116968-appb-000039
Figure PCTCN2022116968-appb-000040
为文本中医疗要素数量,设共有医疗事件类别H个。结合医疗要素重要度分数,计算文本x属于医疗事件类别Event j的概率分布pr 3(Event j):
Figure PCTCN2022116968-appb-000041
e)将中文电子病历文本x送入医疗要素和事件元学习模型中,计算文本和各类医疗事件的距离相似度分数dp’,将距离相似度分数与上述医疗事件的概率分布结合,得到文本x属于医疗事件类别Event j的得分V(Event j):
V(Event j)=softmax(dp’+pr 3(Event j)+pr 3(Event j)⊙dp’)
取得分最高的医疗事件类别
Figure PCTCN2022116968-appb-000042
作为最终文本x的医疗事件:
Figure PCTCN2022116968-appb-000043
本发明另一方面公开了一种小样本弱标注条件下的医疗事件识别系统,如图5所示,该系统包括以下模块:
医疗事件库构建和数据标注模块:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;该模块的实现可以参考上述步骤一。
医疗要素和事件元学习模块:选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;基于训练-支持集构建对应事件和要素的原型表示;计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;将小样本医疗要素和事件数据集作为测试 集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;该模块的实现可以参考上述步骤二。
医疗要素识别模块:训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;对远程监督方法标注得到的医疗要素片段,计算医疗要素片段的特征表示;利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;该模块的实现可以参考上述步骤三。
医疗事件识别模块:基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,获得各类医疗事件概率分布;利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数,与各类医疗事件概率分布结合,得到对应的医疗事件类别;该模块的实现可以参考上述步骤四。
此外,还系统还包括识别结果展示模块,用于呈现医疗事件类别。
本发明在小样本弱标注条件下,实现大规模中文电子病历文本中医疗事件和要素的自动识别,解决了传统事件识别方法及系统泛化性差、规则难以统一、需要大量人力成本的问题。解决了医疗事件触发词难以定义的问题,可以有效识别医疗事件。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (9)

  1. 一种小样本弱标注条件下的医疗事件识别方法,其特征在于,该方法包括:
    步骤一,医疗事件库构建和数据标注:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
    步骤二,医疗要素和事件元学习,包括以下子步骤:
    2.1选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;
    2.2基于训练-支持集,构建对应事件和要素的原型表示;
    2.3根据要素和事件的原型表示,计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;
    2.4将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
    步骤三,医疗要素识别,包括以下子步骤:
    3.1训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;输入的中文电子病历文本记为x={x i} i=1,2,...,ζ,ζ是输入的文本长度;通过远程监督方法标注得到的样本记为(y j,c j),其中样本片段y j=(s j,e j),s j,e j分别表示样本片段y j在文本x中的起始位置和结束位置,c j为样本对应的类别;
    3.2对远程监督方法标注得到的医疗要素片段,基于获得的字符级语义向量表示,计算医疗要素片段的特征表示;在医疗要素识别时,对于文本x={x i} i=1,2,...,ζ,通过序列编码器模型获得每个字符的语义向量h={h i} i=1,2,...,ζ
    对于样本(y j,c j),计算样本片段y j=(s j,e j)的特征表示f(y j):
    Figure PCTCN2022116968-appb-100001
    其中
    Figure PCTCN2022116968-appb-100002
    表示向量拼接,⊙表示向量对应位置元素点乘运算;
    样本片段的特征表示经过非线性变换,计算并输出样本属于各类别的概率分布pr 2(y j):
    pr 2(y j)=softmax(tanh(U 2f(y j)+b 2))
    其中U 2,b 2为训练参数,pr 2(y j)输出维度为样本类别数设为χ,即:
    Figure PCTCN2022116968-appb-100003
    其中
    Figure PCTCN2022116968-appb-100004
    表示样本片段y j属于类别c t的概率;
    3.3根据医疗要素片段的特征表示,利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重;
    3.4基于医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;
    步骤四,医疗事件识别,包括以下子步骤:
    4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;
    4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,结合医疗要素重要度分数,获得各类医疗事件的概率分布;
    4.3利用医疗要素和事件元学习模型,计算中文电子病历文本和各类医疗事件的距离相似度分数,与步骤4.2中各类医疗事件的概率分布结合,计算得到对应的医疗事件类别。
  2. 根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤一中,所述医疗事件库的数据来自小样本医疗要素和事件数据集和外部医学资源;所述医疗事件类别包括:个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。
  3. 根据权利要求2所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤一中,首先构建医疗要素库,构建过程如下:
    a)将小样本医疗要素和事件数据集中出现两次以上的医疗要素按照对应的医疗要素类别,加入到对应类别的医疗要素库;
    b)筛选和处理部分公开的高质量外部医学资源,加入到对应的医疗要素库中;
    然后构建医疗事件库:对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计,对于每一个标注的事件和要素,建立对应关系,并进行存储记录。
  4. 根据权利要求3所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤一中,利用远程监督方法标注医疗要素,具体为:
    a)对中文电子病历文本x进行无效字符清洗、大小写转换、标点符号转换、切句处理;
    b)对于中文电子病历文本x,使用医疗要素库进行匹配;对于不属于疾病、药物、症状、手术、诱因、治疗、诊断这七类的医疗要素,使用基于规则的方式进行标注和提取,不使用匹配到医疗要素库的方法标注;
    c)统计医疗要素库中医疗要素的最大片段长度l,在利用远程监督方法进行标注时规定片 段的最大长度为l,采用片段标注的方式对匹配得到的医疗要素片段文本进行标注,其他未匹配为医疗要素的文本片段标注为负样本;将标注得到的样本记为(y j,c j),其中样本片段y j=(s j,e j),s j,e j分别表示样本片段y j在文本x中的起始位置和结束位置,c j为样本对应的类别。
  5. 根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,步骤2.2中,基于训练-支持集,构建对应事件和要素的原型表示,具体为:将各个类别样本的语义向量投影到高维度的特征空间中,将各样本的特征按维度进行加和求平均,作为类别的原型表示。
  6. 根据权利要求5所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,步骤2.3中,距离相似度分数包括Bregman散度D Φ和余弦相似度分数C两部分;
    Bregman散度D Φ计算公式如下:
    D Φ=d(f φ(w j,j+ρ),p n)
    其中d为欧式距离计算函数,f φ(w j,j+ρ)为要素或事件样本w j,j+ρ的特征表示,p n为类别n的原型表示;
    余弦相似度分数C计算公式如下:
    Figure PCTCN2022116968-appb-100005
    其中u n为类别n的特征表示,u n是训练参数;
    计算样本w j,j+ρ属于类别n的距离相似度分数
    Figure PCTCN2022116968-appb-100006
    Figure PCTCN2022116968-appb-100007
    其中a为训练参数;
    计算样本w j,j+ρ预测为类别n的概率pr 1(n|w j,j+ρ):
    Figure PCTCN2022116968-appb-100008
    其中n′为训练-查询集D train-query中的任一类别;
    根据训练-查询集中样本类别的真实结果和识别结果,计算元学习模型的损失,并使用Adam算法进行反向传播更新参数,元学习模型的损失函数L1如下:
    Figure PCTCN2022116968-appb-100009
  7. 根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤三中,设所有样本集合为y={(y j,c j)},设医疗要素识别模型在训练过程中预测的所有非医疗要素片段数量为ξ,随机采样λξ个样本,构成负采样样本集合
    Figure PCTCN2022116968-appb-100010
    其中0<λ<1;将负采样样本集合送入医疗要素和事件元学习模型,得到负采样样本
    Figure PCTCN2022116968-appb-100011
    属于各类别医疗要素的概率,将概率值作为权重w c′
    Figure PCTCN2022116968-appb-100012
    其中c′为预测的样本类别,设共ε类医疗要素,构造全局损失函数L2为:
    Figure PCTCN2022116968-appb-100013
    使用损失函数L2经过梯度反向传播更新医疗要素识别模型参数。
  8. 根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤四中,对于构建好的医疗事件库,计算医疗要素类别Arug i在医疗事件类别Event j中的重要度分数I′(Arug i,Event j):
    I′(Arug i,Event j)=log(co_occurence(Arug i,Event j)*relevance(Arug i,Event j))
    其中co_occurence(Arug i,Event j)为医疗要素类别Arug i在医疗事件类别Event j中的共现性分数,relevance(Arug i,Event j)为医疗要素类别Arug i与医疗事件类别Event j的相关性分数;
    将医疗要素作为医疗事件的基本维度,多位专家同时对医疗要素打分,设专家expert t对于医疗事件类别Event j中的医疗要素类别Arug i打分为score(expert t,Arug i,Event j),规定分数为整数且同一专家对各个医疗要素的打分必须不同,分数的取值范围为[1,Ω],其中Ω为医疗事件类别Event j中医疗要素类别总数,计算最终的医疗事件类别Event j中医疗要素类别Arug i的归一化专家得分W(Arug i,Event j):
    Figure PCTCN2022116968-appb-100014
    其中Γ为专家数;计算医疗要素类别Arug i在医疗事件类别Event j中的最终重要度分数I(Arug i,Event j):
    I(Arug i,Event j)=W(Arug i,Event j)*I′(Arug i,Event j)
    设输入的中文电子病历文本记为x={x i} i=1,2,...,ζ,ζ是输入的文本长度,通过医疗要素识别模型预测得到的医疗要素记为
    Figure PCTCN2022116968-appb-100015
    为文本中医疗要素数量,设共有医疗事件 类别H个;结合医疗要素重要度分数计算文本x属于医疗事件类别Event j的概率分布pr 3(Event j):
    Figure PCTCN2022116968-appb-100016
    将中文电子病历文本x送入医疗要素和事件元学习模型中,计算文本和各类医疗事件的距离相似度分数dp’,将距离相似度分数与医疗事件的概率分布结合,得到文本x属于医疗事件类别Event j的得分V(Event j):
    V(Event j)=softmax(dp’+pr 3(Event j)+pr 3(Event j)⊙dp’)
    取得分最高的医疗事件类别
    Figure PCTCN2022116968-appb-100017
    作为最终文本x的医疗事件:
    Figure PCTCN2022116968-appb-100018
  9. 一种小样本弱标注条件下的医疗事件识别系统,其特征在于,该系统包括:
    医疗事件库构建和数据标注模块:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
    医疗要素和事件元学习模块:选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;基于训练-支持集构建对应事件和要素的原型表示;计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
    医疗要素识别模块:训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;对远程监督方法标注得到的医疗要素片段,计算医疗要素片段的特征表示;利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;利用远程监督方法标注的医疗要素,训练医疗要素识别模型,具体为:
    输入的中文电子病历文本记为x={x i} i=1,2,...,ζ,ζ是输入的文本长度;通过远程监督方法标注得到的样本记为(y j,c j),其中样本片段y j=(s j,e j),s j,e j分别表示样本片段y j在文本x中的起始位置和结束位置,c j为样本对应的类别;
    使用序列编码器模型得到文本的字符级语义向量表示;在医疗要素识别时,对于文本 x={x i} i=1,2,...,ζ,通过序列编码器模型获得每个字符的语义向量h={h i} i=1,2,...,ζ
    对于样本(y j,c j),计算样本片段y j=(s j,e j)的特征表示f(y j):
    Figure PCTCN2022116968-appb-100019
    其中
    Figure PCTCN2022116968-appb-100020
    表示向量拼接,⊙表示向量对应位置元素点乘运算;
    样本片段的特征表示经过非线性变换,计算并输出样本属于各类别的概率分布pr 2(y j):
    pr 2(y j)=softmax(tanh(U 2f(y j)+b 2))
    其中U 2,b 2为训练参数,pr 2(y j)输出维度为样本类别数设为χ,即:
    Figure PCTCN2022116968-appb-100021
    其中
    Figure PCTCN2022116968-appb-100022
    表示样本片段y j属于类别c t的概率;
    医疗事件识别模块:基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,获得各类医疗事件概率分布;利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数,与各类医疗事件概率分布结合,得到对应的医疗事件类别。
PCT/CN2022/116968 2021-10-26 2022-09-05 一种小样本弱标注条件下的医疗事件识别方法及系统 WO2023071530A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023536800A JP7464800B2 (ja) 2021-10-26 2022-09-05 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111247796.7A CN113688248B (zh) 2021-10-26 2021-10-26 一种小样本弱标注条件下的医疗事件识别方法及系统
CN202111247796.7 2021-10-26

Publications (1)

Publication Number Publication Date
WO2023071530A1 true WO2023071530A1 (zh) 2023-05-04

Family

ID=78588046

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/116968 WO2023071530A1 (zh) 2021-10-26 2022-09-05 一种小样本弱标注条件下的医疗事件识别方法及系统

Country Status (3)

Country Link
JP (1) JP7464800B2 (zh)
CN (1) CN113688248B (zh)
WO (1) WO2023071530A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452895A (zh) * 2023-06-13 2023-07-18 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN117390090A (zh) * 2023-12-11 2024-01-12 安徽思高智能科技有限公司 一种rpa流程挖掘方法、存储介质、电子设备
CN117435747A (zh) * 2023-12-18 2024-01-23 中南大学 基于多层级细化网络的少样本链接预测药物再利用方法
CN117520484A (zh) * 2024-01-04 2024-02-06 中国电子科技集团公司第十五研究所 基于大数据语义的相似事件检索方法、系统、设备和介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688248B (zh) * 2021-10-26 2022-02-22 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
CN115187187A (zh) * 2022-05-25 2022-10-14 中核武汉核电运行技术股份有限公司 一种核电数据标注工具

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357924A (zh) * 2017-07-25 2017-11-17 为朔医学数据科技(北京)有限公司 一种精准医学知识图谱构建方法和装置
US20190130282A1 (en) * 2017-10-31 2019-05-02 Microsoft Technology Licensing, Llc Distant Supervision for Entity Linking with Filtering of Noise
CN111834014A (zh) * 2020-07-17 2020-10-27 北京工业大学 一种医疗领域命名实体识别方法及系统
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN112906393A (zh) * 2021-03-05 2021-06-04 杭州费尔斯通科技有限公司 一种基于元学习的少样本实体识别方法
CN113688248A (zh) * 2021-10-26 2021-11-23 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11322256B2 (en) 2018-11-30 2022-05-03 International Business Machines Corporation Automated labeling of images to train machine learning
CN110473192B (zh) 2019-04-10 2021-05-14 腾讯医疗健康(深圳)有限公司 消化道内镜图像识别模型训练及识别方法、装置及系统
CN112365464B (zh) 2020-11-09 2021-08-10 成都信息工程大学 一种基于gan的医学图像病变区域弱监督定位方法
CN112488996A (zh) 2020-11-18 2021-03-12 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 非齐次三维食管癌能谱ct弱监督自动标注方法与系统
CN112598622B (zh) 2020-12-03 2022-08-09 天津理工大学 一种融合深度多示例学习和包间相似性的乳腺癌检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357924A (zh) * 2017-07-25 2017-11-17 为朔医学数据科技(北京)有限公司 一种精准医学知识图谱构建方法和装置
US20190130282A1 (en) * 2017-10-31 2019-05-02 Microsoft Technology Licensing, Llc Distant Supervision for Entity Linking with Filtering of Noise
CN111834014A (zh) * 2020-07-17 2020-10-27 北京工业大学 一种医疗领域命名实体识别方法及系统
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN112906393A (zh) * 2021-03-05 2021-06-04 杭州费尔斯通科技有限公司 一种基于元学习的少样本实体识别方法
CN113688248A (zh) * 2021-10-26 2021-11-23 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452895A (zh) * 2023-06-13 2023-07-18 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN116452895B (zh) * 2023-06-13 2023-10-20 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN117390090A (zh) * 2023-12-11 2024-01-12 安徽思高智能科技有限公司 一种rpa流程挖掘方法、存储介质、电子设备
CN117390090B (zh) * 2023-12-11 2024-04-12 安徽思高智能科技有限公司 一种rpa流程挖掘方法、存储介质、电子设备
CN117435747A (zh) * 2023-12-18 2024-01-23 中南大学 基于多层级细化网络的少样本链接预测药物再利用方法
CN117435747B (zh) * 2023-12-18 2024-03-29 中南大学 基于多层级细化网络的少样本链接预测药物再利用方法
CN117520484A (zh) * 2024-01-04 2024-02-06 中国电子科技集团公司第十五研究所 基于大数据语义的相似事件检索方法、系统、设备和介质
CN117520484B (zh) * 2024-01-04 2024-04-16 中国电子科技集团公司第十五研究所 基于大数据语义的相似事件检索方法、系统、设备和介质

Also Published As

Publication number Publication date
CN113688248A (zh) 2021-11-23
JP2023552912A (ja) 2023-12-19
JP7464800B2 (ja) 2024-04-09
CN113688248B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
WO2023071530A1 (zh) 一种小样本弱标注条件下的医疗事件识别方法及系统
Leaman et al. Challenges in clinical natural language processing for automated disorder normalization
US20210343411A1 (en) Deep learning-based diagnosis and referral of diseases and disorders using natural language processing
Tutubalina et al. Combination of deep recurrent neural networks and conditional random fields for extracting adverse drug reactions from user reviews
CN111191048B (zh) 基于知识图谱的急诊问答系统构建方法
Huddar et al. Predicting complications in critical care using heterogeneous clinical data
CN111048167B (zh) 一种层级式病例结构化方法及系统
Patrick et al. An ontology for clinical questions about the contents of patient notes
CN110569343B (zh) 一种基于问答的临床文本结构化方法
WO2024008043A1 (zh) 一种基于因果关系挖掘的临床数据自动化生成方法及系统
Fakhfakh et al. Prognet: Covid-19 prognosis using recurrent and convolutional neural networks
CN111651991A (zh) 一种利用多模型融合策略的医疗命名实体识别方法
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN115171871A (zh) 一种基于知识图谱与注意力机制的心血管疾病预测方法
Gaur et al. “Who can help me?”: Knowledge Infused Matching of Support Seekers and Support Providers during COVID-19 on Reddit
Ke et al. Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF
Mansouri et al. Predicting hospital length of stay of neonates admitted to the NICU using data mining techniques
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
Galitsky Multi-case-based reasoning by syntactic-semantic alignment and discourse analysis
Li et al. Medical text entity recognition based on CRF and joint entity
Saria The digital patient: machine learning techniques for analyzing electronic health record data
Wang et al. Biomedical named entity recognition based on MCBERT
Finch Tagline: Information extraction for semi-structured text elements in medical progress notes
US20230317279A1 (en) Method and system for medical diagnosis using graph embeddings
CN117727411A (zh) 一种低成本的自动化病历生成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22885420

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023536800

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE