KR102464893B1 - Data pipeline processing method for formalization of clinical participation conditions - Google Patents

Data pipeline processing method for formalization of clinical participation conditions Download PDF

Info

Publication number
KR102464893B1
KR102464893B1 KR1020220067882A KR20220067882A KR102464893B1 KR 102464893 B1 KR102464893 B1 KR 102464893B1 KR 1020220067882 A KR1020220067882 A KR 1020220067882A KR 20220067882 A KR20220067882 A KR 20220067882A KR 102464893 B1 KR102464893 B1 KR 102464893B1
Authority
KR
South Korea
Prior art keywords
clinical
data
subject
negative
term
Prior art date
Application number
KR1020220067882A
Other languages
Korean (ko)
Inventor
김학재
유한정
최윤창
Original Assignee
주식회사 클래스액트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 클래스액트 filed Critical 주식회사 클래스액트
Priority to KR1020220067882A priority Critical patent/KR102464893B1/en
Application granted granted Critical
Publication of KR102464893B1 publication Critical patent/KR102464893B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

The present invention relates to a data pipeline processing method for formalizing clinical participation conditions. The data pipeline processing method, according to the present invention, comprises the steps of: (1) classifying subjects of clinical research data; (2) extracting keywords for each subject and common keywords common to the subjects; and (3) collecting included sentences including the keywords for each subject and the common keywords and sentences following the included sentences, and recognizing attributes of the collected sentences. Therefore, clinical participation conditions can be efficiently databased through data pipeline processing.

Description

임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법{DATA PIPELINE PROCESSING METHOD FOR FORMALIZATION OF CLINICAL PARTICIPATION CONDITIONS}DATA PIPELINE PROCESSING METHOD FOR FORMALIZATION OF CLINICAL PARTICIPATION CONDITIONS

본 발명은 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에 관한 것으로서, 보다 구체적으로는 임상 연구 데이터에서 임상 참여 조건을 식별해 정형화하여 데이터베이스화하기 위한 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에 관한 것이다.The present invention relates to a data pipeline processing method for standardization of clinical participation conditions, and more particularly, to data pipeline processing for standardization of clinical participation conditions for identifying, standardizing, and databaseizing clinical participation conditions in clinical research data it's about how

임상 연구 정보에 포함된 임상 참여 조건은 환자 정보와 매핑되어 임상 시험 추천의 용도로 다양하게 활용될 수 있다. 따라서 임상 시험 추천을 위해 임상 참여 조건을 정형화 및 데이터베이스화할 필요가 있다.Clinical participation conditions included in clinical study information can be mapped with patient information and used in various ways for clinical trial recommendations. Therefore, it is necessary to formalize and database the conditions for clinical participation for clinical trial recommendation.

데이터 파이프라인은, 데이터 생애주기에 따라 적절한 수집, 변환, 저장, 정제, 분석, 시각화 등의 과정을 연속적으로 연결하여 데이터가 원활히 유통될 수 있도록 구성한 일련의 시스템을 의미한다. 데이터 파이프라인에서는, 데이터가 물 흐르듯이 자연스럽게 흘러갈 수 있도록 수동 작업을 최소화하고 자동화된 시스템을 구축하고, 데이터를 쉽게 활용할 수 있도록 변환해 데이터베이스화할 수 있다.A data pipeline refers to a series of systems that are configured so that data can be smoothly distributed by continuously connecting processes such as collection, transformation, storage, purification, analysis, and visualization appropriate for the data life cycle. In the data pipeline, it is possible to minimize manual work and build an automated system so that data flows naturally like water, and transforms the data so that it can be used easily and converts it into a database.

임상 연구 정보에 포함된 임상 참여 조건을 충분히 활용하기 위해서는, 임상 연구 정보를 처리하여 임상 참여 조건을 데이터베이스화하는 데이터 파이프라인 처리 기술이 필요하다. 임상 참여 조건을 데이터 파이프라인 처리하기 위해서는, 임상 연구마다 다르게 표현된 임상 참여 조건의 속성을 인식하고 정형화해야 하는데, 이때 부정 탐지를 중요하게 활용할 수 있다.In order to fully utilize the clinical participation conditions included in the clinical research information, a data pipeline processing technology that processes the clinical research information and converts the clinical participation conditions into a database is required. In order to process the clinical participation condition in a data pipeline, it is necessary to recognize and formalize the properties of the clinical participation condition expressed differently for each clinical study.

부정 탐지는 자연어 처리에서 중요한 문제로, 다수의 연구자들이 해당 문제를 해결하기 위해 노력하였다. 해당 문제를 해결하기 위해 연구자들이 시도한 방법은 규칙 기반 알고리즘, 통계 기반 알고리즘, 머신 러닝 알고리즘 등으로 나뉜다. 최근 연구에 따르면 머신 러닝 알고리즘의 성능이 다른 두 알고리즘의 성능을 앞서는 것으로 나타난다.Negative detection is an important problem in natural language processing, and many researchers have tried to solve the problem. Methods that researchers have tried to solve the problem are divided into rule-based algorithms, statistics-based algorithms, and machine learning algorithms. Recent studies have shown that the performance of machine learning algorithms outperforms the other two algorithms.

그런데 의료 자연어는 제한이 없는 문서보다 어휘적으로 덜 모호하며, 부정의 대상이 소수의 의미 유형으로 제한되고, 부정을 포함한 문구가 한정되어 있다는 특성을 가진다. 이에 정교한 언어적 방법론을 사용하지 않고도 부정 탐지를 적절히 구현할 수 있다고 연구되었다. 따라서 의료 데이터의 특성상 규칙 기반 알고리즘을 이용한 부정 탐지 방법을 사용해 적은 계산량으로 높은 정확도를 얻을 수 있다.However, medical natural language has the characteristics of being less lexically ambiguous than an unrestricted document, the object of negation is limited to a small number of semantic types, and phrases including negation are limited. Therefore, it has been studied that fraud detection can be properly implemented without using sophisticated linguistic methodologies. Therefore, due to the characteristics of medical data, it is possible to obtain high accuracy with a small amount of calculation by using a fraud detection method using a rule-based algorithm.

NegEx, DepNeg, DEEPEN은 모두 규칙 기반 알고리즘으로 분리된 문장과 문장에서 인식된 색인용어가 준비되어야 진행할 수 있으며, 한 번에 한 문장을 처리한다.NegEx, DepNeg, and DEEPEN are all rule-based algorithms, and the separated sentences and index terms recognized in the sentences must be prepared before proceeding, and processing one sentence at a time.

먼저, NegEx(CHAPMAN ET AL., A Simple Algorithm for Identifying Negated Findings and Diseases in Discharge Summaries, journal of Biomedical Informatics 34, 301-310 (2001))는 3가지 유형의 부정 용어((1) 의사 부정 용어, (2) 선행 부정 용어, (3) 후행 부정 용어)를 사용한 정규 표현식에 기반하여 작동된다.First, NegEx (CHAPMAN ET AL., A Simple Algorithm for Identifying Negated Findings and Diseases in Discharge Summaries, journal of Biomedical Informatics 34, 301-310 (2001)) describes three types of negative terms ((1) pseudo-negative terms; It works based on regular expressions using (2) leading negative terms, (3) trailing negative terms).

다음으로, DepNeg 알고리즘은 종속성 경로 패턴을 기반으로 하는 부정 탐지 알고리즘을 개발하여, NegEx 대비 위양성(false positive)을 감소시켜 부정 탐지의 정확도를 제고하였다. Next, the DepNeg algorithm developed a fraud detection algorithm based on the dependency path pattern, and improved the accuracy of fraud detection by reducing false positives compared to NegEx.

마지막으로, DEEPEN 알고리즘(S. Mehrabi et al., DEEPEN: A negation detection system for clinical text incorporating dependency relation into NegEx, Journal of Biomedical Informatics 54 (2015) 213-219)은 DepNeg 알고리즘과 마찬가지로 부정어와 색인용어 간의 종속 관계를 고려한 알고리즘이다. DepNeg와의 가장 큰 차이점은 DEEPEN은 NegEx를 확장한 알고리즘으로 NegEx가 부정으로 판별한 색인용어만 추가 처리를 한다는 점이다. DEEPEN은 NegEx 대비 위양성(false positive)을 감소시켰으며, 특정 데이터에서는 위음성(false negative) 감소시키기도 하였다. DEEPEN과 DepNeg의 성능을 정확히 비교할 수는 없지만 DepNeg에서 사용한 예시 문장을 가지고 그 성능을 비교한 결과 DEEPEN이 DepNeg의 성능을 능가하는 것으로 나타났다.Finally, the DEEPEN algorithm (S. Mehrabi et al., DEEPEN: A negation detection system for clinical text incorporating dependency relation into NegEx, Journal of Biomedical Informatics 54 (2015) 213-219) is similar to the DepNeg algorithm between negation and index terms. It is an algorithm that considers the dependency relationship. The biggest difference from DepNeg is that DEEPEN is an algorithm that extends NegEx, and only index terms that NegEx determines to be negative are additionally processed. DEEPEN reduced false positives compared to NegEx, and also reduced false negatives in certain data. Although the performance of DEEPEN and DepNeg cannot be accurately compared, as a result of comparing the performance with the example sentences used in DepNeg, it was found that DEEPEN outperforms DepNeg.

그러나 DEEPEN은 NegEx가 부정으로 인식하였을 때만 후처리하므로 NegEx가 긍정으로 잘못 인식한 경우는 오류를 수정할 수 없다는 위음성에 대한 한계가 있다. 또한, 특정 도메인, 특정 색인용어에 한정되어 임상 데이터에서 일관된 성능을 보이지 못했다.However, since DEEPEN is post-processed only when NegEx recognizes it as negative, there is a limit to false negatives that the error cannot be corrected when NegEx incorrectly recognizes it as positive. In addition, it was limited to a specific domain and a specific index term and did not show consistent performance in clinical data.

한편, 임상 참여 가능 여부에 대한 판별을 위한 부정 탐지의 대상은 병의 유무가 될 수도 있고, 약물의 복용 여부, 특정 치료법의 경험 유무, 특정 치료법의 병행 유무 등 다양하다. 그러나 DEEPEN 알고리즘 등 의료 데이터의 처리를 위한 기존의 부정 탐지 알고리즘은 병의 유무를 판별하는 데 초점을 맞추었다. 이같이 임상 참여 조건의 정형화에 필요한 부정 탐지 대상은 그 범위가 기존 부정 탐지의 대상보다 넓으므로, DEEPEN 알고리즘과 같은 기존의 부정 탐지 알고리즘을 그대로 적용하면 탐지 정확도가 낮은 문제가 있다.On the other hand, the target of negative detection for determining whether clinical participation is possible may be the presence or absence of a disease, and it is various, such as whether a drug is being taken, whether or not a specific treatment has been experienced, and whether or not a specific treatment is concurrently used. However, the existing fraud detection algorithms for medical data processing, such as the DEEPEN algorithm, focused on determining the presence or absence of disease. As such, since the range of the fraud detection target required for standardization of clinical participation conditions is wider than that of the existing fraud detection target, there is a problem of low detection accuracy when the existing fraud detection algorithm such as the DEEPEN algorithm is applied as it is.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 임상 연구 데이터의 주제를 분류하고 키워드를 추출한 다음, 임상 연구 데이터에서 키워드를 이용해 문장을 수집하고, 수집된 문장에서 키워드에 대한 속성을 인식해 정형화함으로써, 임상 참여 조건을 데이터 파이프라인 처리하여 효율적으로 데이터베이스화할 수 있는, 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법을 제공하는 것을 그 목적으로 한다.The present invention has been proposed to solve the above problems of the previously proposed methods. After classifying the subject of clinical research data and extracting keywords, the sentences are collected using the keywords from the clinical research data, and from the collected sentences An object of the present invention is to provide a data pipeline processing method for standardization of clinical participation conditions that can efficiently database by data pipeline processing of clinical participation conditions by recognizing and formalizing the attributes of keywords.

또한, 본 발명은, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해, 수집한 문장에서 키워드에 대한 부정을 탐지함으로써, 임상 참여 조건에서 일관되고 정확도 높게 키워드의 부정을 탐지하여 속성을 정형화할 수 있으며, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 숫자, 단위, 비교 대상 등의 속성을 인식함으로써, 부등호를 포함해 표현되는 임상 참여 조건을 효과적으로 정형화할 수 있는, 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법을 제공하는 것을 또 다른 목적으로 한다.In addition, the present invention uses a modified DEEPEN algorithm configured by including a negative term dictionary modified to match the identification of clinical participation conditions and adding an additional rule for fraud detection to the DEEPEN algorithm to detect negation of keywords in collected sentences. By detecting the negation of keywords consistently and with high accuracy in clinical participation conditions, the attributes can be formalized. It is another object to provide a data pipeline processing method for the formalization of clinical participation conditions, which can effectively formalize the clinical participation conditions expressed including , inequality and inequality signs.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법은,A data pipeline processing method for standardization of clinical participation conditions according to the features of the present invention for achieving the above object,

임상 연구 데이터에서 임상 참여 조건을 식별해 정형화하여 데이터베이스화하기 위한 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법으로서,A data pipeline processing method for formalizing clinical participation conditions for identifying, formalizing, and databaseizing clinical participation conditions in clinical research data, the data pipeline processing method comprising:

(1) 의료 참조용어 사전을 이용해 임상 연구 데이터에 포함된 임상 참여 주제 라벨을 주제 아이디로 매핑하여 임상 연구 데이터의 주제를 분류하는 단계;(1) classifying subjects of clinical research data by mapping clinical participation subject labels included in clinical research data to subject IDs using a medical reference terminology dictionary;

(2) 상기 단계 (1)에서 분류된 임상 연구 데이터의 임상 참여 조건에서, 의료 참조용어 사전을 이용해 주제별 키워드와 주제에 공통되는 공통 키워드를 추출하는 단계; 및(2) extracting keywords for each topic and common keywords common to the topics by using a medical reference dictionary under the clinical participation conditions of the clinical research data classified in step (1); and

(3) 상기 임상 연구 데이터에서 상기 주제별 키워드 및 공통 키워드를 포함하는 포함 문장 및 상기 포함 문장의 후행 문장을 수집하고, 수집된 문장의 속성을 인식하는 단계를 포함하며,(3) collecting, from the clinical research data, the containing sentences including the subject-specific keywords and the common keywords and the following sentences of the containing sentences, and recognizing the properties of the collected sentences,

상기 단계 (3)에서는,In step (3),

상기 수집된 문장에서 상기 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 것을 그 구성상의 특징으로 한다.It is characterized in that it detects negation of the keyword in the collected sentences and labels it as negative or positive.

바람직하게는, 상기 의료 참조용어 사전은,Preferably, the medical reference terminology dictionary is

용어와 각 용어의 개념별 주제 아이디로 구성될 수 있다.It may consist of terms and subject IDs for each concept of each term.

바람직하게는, 상기 단계 (1)은,Preferably, the step (1) is

(1-1) 상기 임상 참여 주제 라벨과 상기 의료 참조용어 사전의 용어를 각각 공백 정규화, 대소문자 정규화, 불용어 제거 및 로마 숫자 정규화하여 토큰화된 주제 데이터와 토큰화된 참조용어를 생성하는 단계;(1-1) generating tokenized subject data and tokenized reference terms by performing blank normalization, case normalization, stopword removal, and Roman numeral normalization of the clinical participation subject label and the terms of the medical reference terminology dictionary, respectively;

(1-2) 상기 토큰화된 참조용어에서 중복을 제거하고, 상기 토큰화된 주제 데이터와 비교하는 단계;(1-2) removing duplicates from the tokenized reference term and comparing it with the tokenized subject data;

(1-3) 상기 토큰화된 주제 데이터가 중복이 제거된 상기 토큰화된 참조용어와 일치하면, 해당하는 용어의 주제 아이디를 매핑하는 단계;(1-3) if the tokenized subject data matches the tokenized reference term from which duplicates have been removed, mapping the subject ID of the corresponding term;

(1-4) 상기 토큰화된 주제 데이터가 중복이 제거된 상기 토큰화된 참조용어와 일치하지 않으면, 상기 토큰화된 주제 데이터에 약어 정규화를 수행하며, 약어 정규화 결과와 중복이 제거된 상기 토큰화된 참조용어와 비교해, 해당하는 용어의 주제 아이디를 매핑하는 단계; 및(1-4) If the tokenized subject data does not match the tokenized reference term from which duplicates have been removed, abbreviation normalization is performed on the tokenized subject data, and the abbreviation normalization result and the duplicated token are removed mapping the subject ID of the corresponding term compared to the localized reference term; and

(1-5) 상기 단계 (1-3)과 단계 (1-4)의 매핑 결과를 결합해 주제를 분류하는 단계를 포함할 수 있다.(1-5) classifying the subject by combining the mapping results of steps (1-3) and (1-4) above.

바람직하게는, 상기 단계 (2)에서는,Preferably, in step (2),

상기 임상 연구 데이터의 임상 참여 조건에서 의료 참조용어 사전의 색인용어를 인식하며, 인식된 색인용어의 빈도에 기초하여 상기 주제별 키워드와 공통 키워드를 추출할 수 있다.In the clinical participation condition of the clinical research data, index terms in the medical reference dictionary are recognized, and keywords for each subject and common keywords can be extracted based on the frequency of the recognized index terms.

바람직하게는, 상기 단계 (3)에서는,Preferably, in step (3),

상기 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해 부정을 탐지할 수 있다.It is possible to detect fraud using the modified DEEPEN algorithm configured by including a negative term dictionary modified to match the identification of the clinical participation condition and adding an additional rule for fraud detection to the DEEPEN algorithm.

더욱 바람직하게는, 상기 단계 (3)은,More preferably, the step (3) is

(3-1) 상기 임상 연구 데이터에서, 키워드(상기 주제별 키워드 및 공통 키워드로 구성됨)가 포함된 포함 문장 및 상기 포함 문장의 후행 문장을 수집하는 단계; 및(3-1) collecting, from the clinical research data, an embedded sentence including a keyword (consisting of the subject-specific keyword and a common keyword) and a sentence following the containing sentence; and

(3-3) 상기 변형 DEEPEN 알고리즘을 이용해, 상기 수집된 문장(상기 포함 문장 및 후행 문장을 포함함)에서 상기 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 단계를 포함할 수 있다.(3-3) using the modified DEEPEN algorithm, detecting negation of the keyword in the collected sentences (including the containing sentence and the following sentence) and labeling the keyword as negative or positive.

더더욱 바람직하게는, 상기 단계 (3-1)과 단계 (3-3) 사이에는,Even more preferably, between step (3-1) and step (3-3),

(3-2) 상기 수집된 문장이 부등호 사전의 부등호를 포함하면, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 속성을 추출하는 단계를 더 포함할 수 있다.(3-2) If the collected sentences include the inequality sign of the inequality sign dictionary, the method may further include the step of separating the inequality sign and the numerical value from the sentence including the inequality sign and extracting attributes for each keyword.

더욱 바람직하게는, 상기 변형된 부정 용어 사전은,More preferably, the modified negative term dictionary is,

NegEx 의사 부정 용어에 추가되는 임상 참여 조건을 위한 의사 부정 용어;pseudo-negative terms for clinical participation conditions in addition to NegEx pseudo-negative terms;

선행 및 후행 부정 용어의 규칙에 추가되는 제1 용어 규칙 및 제2 용어 규칙; 및a first term rule and a second term rule added to the rule of preceding and trailing negative terms; and

NegEx 선후행 용어에 추가되는 임상 참여 조건을 위한 선행 부정 용어 및 후행 부정 용어를 상기 DEEPEN 알고리즘의 부정 용어 사전에 추가하여 구축될 수 있다.It can be constructed by adding leading negative terms and trailing negative terms for clinical participation conditions added to NegEx leading and trailing terms to the negative term dictionary of the DEEPEN algorithm.

본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에 따르면, 임상 연구 데이터의 주제를 분류하고 키워드를 추출한 다음, 임상 연구 데이터에서 키워드를 이용해 문장을 수집하고, 수집된 문장에서 키워드에 대한 속성을 인식해 정형화함으로써, 임상 참여 조건을 데이터 파이프라인 처리하여 효율적으로 데이터베이스화할 수 있다.According to the data pipeline processing method for standardization of clinical participation conditions proposed in the present invention, after classifying subjects of clinical research data and extracting keywords, sentences are collected using keywords from clinical research data, and from the collected sentences By recognizing and formalizing the attributes of keywords, the conditions for clinical participation can be processed into a data pipeline and efficiently converted into a database.

또한, 본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에 따르면, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해, 수집한 문장에서 키워드에 대한 부정을 탐지함으로써, 임상 참여 조건에서 일관되고 정확도 높게 키워드의 부정을 탐지하여 속성을 정형화할 수 있으며, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 숫자, 단위, 비교 대상 등의 속성을 인식함으로써, 부등호를 포함해 표현되는 임상 참여 조건을 효과적으로 정형화할 수 있다.In addition, according to the data pipeline processing method for standardization of clinical participation conditions proposed in the present invention, a negative term dictionary modified to match the identification of clinical participation conditions is included and additional rules for negative detection are added to the DEEPEN algorithm By detecting the negation of the keyword in the collected sentences using the modified DEEPEN algorithm constructed by By separating and recognizing attributes such as numbers, units, and comparison targets for each keyword, it is possible to effectively standardize the clinical participation conditions expressed including the inequality sign.

도 1은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S100에서 사용하는 주제 라벨을 예를 들어 도시한 도면.
도 3은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S100의 순서도를 도시한 도면.
도 5는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서, 단계 S300의 흐름을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서 변형된 부정 용어 사전에 추가되는 의사 부정 용어를 나타낸 도면.
도 7은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서 변형된 부정 용어 사전에 추가되는 선행 부정 용어 및 후행 부정 용어를 나타낸 도면.
도 8은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서, 추가 규칙 중 하나인 동일시 규칙을 설명하기 위해 도시한 도면.
도 9는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서, 단계 S320의 처리 흐름을 도시한 도면이.
도 10은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서, 단계 S320의 세부적인 흐름을 도시한 도면.
도 11은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S320에서 부등호를 포함하는 문장의 종류를 나타낸 도면.
1 is a diagram illustrating a flow of a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating, for example, a subject label used in step S100 of a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention.
3 is a diagram illustrating a detailed flow of step S100 in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention.
4 is a diagram illustrating a flowchart of step S100 of a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention.
5 is a diagram illustrating a flow of step S300 in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention.
6 is a diagram illustrating a pseudo-negative term added to a modified negative term dictionary in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention;
7 is a diagram illustrating a preceding negative term and a trailing negative term added to a modified negative term dictionary in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention;
8 is a diagram illustrating an identification rule, which is one of additional rules, in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention;
9 is a diagram illustrating a processing flow of step S320 in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention.
10 is a diagram illustrating a detailed flow of step S320 in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention.
11 is a diagram illustrating types of sentences including an inequality sign in step S320 of a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.Hereinafter, preferred embodiments will be described in detail so that those of ordinary skill in the art can easily practice the present invention with reference to the accompanying drawings. However, in describing a preferred embodiment of the present invention in detail, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, the same reference numerals are used throughout the drawings for parts having similar functions and functions.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.In addition, throughout the specification, when a part is 'connected' with another part, it is not only 'directly connected' but also 'indirectly connected' with another element interposed therebetween. include In addition, "including" a certain component means that other components may be further included, rather than excluding other components, unless otherwise stated.

도 1은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 흐름을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법은, 임상 연구 데이터에서 임상 참여 조건을 식별해 정형화하여 데이터베이스화하기 위한 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법으로서, 임상 연구 데이터에 포함된 임상 참여 주제 라벨을 주제 아이디로 매핑하여 임상 연구 데이터의 주제를 분류하는 단계(S100), 분류된 임상 연구 데이터에서 주제별 키워드와 주제에 공통되는 공통 키워드를 추출하는 단계(S200) 및 임상 연구 데이터에서 주제별 키워드 및 공통 키워드를 포함하는 포함 문장 및 포함 문장의 후행 문장을 수집하고, 수집된 문장의 속성을 인식하는 단계(S300)를 포함하여 구현될 수 있다.1 is a diagram illustrating a flow of a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention. As shown in FIG. 1 , the data pipeline processing method for the standardization of clinical participation conditions according to an embodiment of the present invention identifies and formalizes clinical participation conditions in clinical study data, and sets the clinical participation conditions for database. As a data pipeline processing method for standardization, mapping clinical participation topic labels included in clinical research data to topic IDs to classify subjects of clinical research data (S100), keywords and topics for each topic in the classified clinical research data Extracting a common keyword (S200) and collecting a subject-specific keyword and an included sentence including the common keyword and a trailing sentence of the included sentence from the clinical research data, and recognizing the properties of the collected sentence (S300) can be implemented.

본 발명은 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에 관한 것으로서, 메모리 및 프로세서를 포함한 하드웨어에서 기록되는 소프트웨어로 구성될 수 있다. 예를 들어, 본 발명의 특징에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법은, 개인용 컴퓨터, 노트북 컴퓨터, 서버 컴퓨터, PDA, 스마트폰, 태블릿 PC 등에 저장 및 구현될 수 있다. 이하에서는 설명의 편의를 위해, 각 단계를 수행하는 주체는 생략될 수 있다.The present invention relates to a data pipeline processing method for standardization of clinical participation conditions, and may be composed of software recorded in hardware including a memory and a processor. For example, the data pipeline processing method for standardization of clinical participation conditions according to the features of the present invention may be stored and implemented in a personal computer, a notebook computer, a server computer, a PDA, a smart phone, a tablet PC, and the like. Hereinafter, for convenience of description, a subject performing each step may be omitted.

본 발명은, 임상 참여 조건의 정형화 후 DB화까지를 포함하기 때문에 기존 연구와 달리 모든 색인용어에 대해서 정형화를 하지 않고, 임상 연구 정보를 주제별로 분류하여 주제별 키워드와 주제공통 키워드를 추출하고, 해당 키워드에 대해서만 정형화를 진행할 수 있다. 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서는, 단계 S100의 주제 분류, 단계 S200의 키워드 분석, 단계 S300의 속성 인식으로 이루어지는 파이프라인을 통해 임상 참여 조건의 정형화 및 DB화를 구현할 수 있다. 본 발명은 이와 같은 데이터 파이프라인 처리를 통해 임상 참여 조건의 데이터베이스 구축 및 활용의 효율성을 높일 수 있다.The present invention does not standardize all index terms, unlike existing studies, since it includes the standardization of clinical participation conditions and DB formation, and the clinical research information is classified by subject to extract subject-specific keywords and subject-common keywords, and the corresponding Standardization can be performed only for keywords. In the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention, standardization of clinical participation conditions through a pipeline consisting of subject classification in step S100, keyword analysis in step S200, and attribute recognition in step S300 And DB can be implemented. The present invention can increase the efficiency of constructing and utilizing a database of clinical participation conditions through such data pipeline processing.

본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서는, 임상 연구 주제 라벨과 임상 참여 조건을 포함하는 임상 연구 데이터와 의료 참조용어 사전이 입력으로 사용되며, 임상 연구 데이터별로 키워드, 속성, 단위, 비교대상 등의 정형화된 데이터가 출력될 수 있다.In the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention, clinical research data including clinical research subject labels and clinical participation conditions and a medical reference dictionary are used as inputs, and clinical research data Standardized data such as keywords, attributes, units, and comparison targets may be output for each.

이하에서는, 도 1을 참조하여 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 각 단계에 대해 상세히 설명하도록 한다.Hereinafter, each step of the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention will be described in detail with reference to FIG. 1 .

단계 S100에서는, 의료 참조용어 사전을 이용해 임상 연구 데이터에 포함된 임상 참여 주제 라벨을 주제 아이디로 매핑하여 임상 연구 데이터의 주제를 분류할 수 있다. 여기서, 의료 참조용어 사전은, 용어와 각 용어의 개념별 주제 아이디로 구성될 수 있다.In step S100, the clinical study data subject may be classified by mapping the clinical participation subject label included in the clinical study data to the subject ID using the medical reference terminology dictionary. Here, the medical reference terminology dictionary may be composed of terms and subject IDs for each concept of each term.

도 2는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S100에서 사용하는 주제 라벨을 예를 들어 도시한 도면이다. 도 2에 도시된 바와 같이, 임상 연구 정보는 개별 임상 연구마다 주제 라벨을 포함한다. 본 발명에서는, 이와 같은 주제 라벨을 이용해 임상 연구 데이터의 주제를 분류할 수 있다. 보다 구체적으로, 단계 S100에서는, 임상 연구 데이터에 포함된 임상 참여 주제 라벨과 의료 참조용어 사전을 입력으로 사용해, 주제별로 분류된 임상 연구 데이터를 출력할 수 있다.2 is a diagram illustrating, for example, a subject label used in step S100 of a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention. As shown in FIG. 2 , the clinical study information includes subject labels for each individual clinical study. In the present invention, subjects of clinical study data can be classified using such subject labels. More specifically, in step S100, clinical research data classified by subject may be output by using the clinical participation subject label and medical reference terminology included in the clinical research data as inputs.

도 3은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면이고, 도 4는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S100의 순서도를 도시한 도면이다. 주제 라벨은 임상 연구자가 직접 기재하므로 같은 개념의 주제일지라도 다르게 표현되는 경우가 있다. 따라서 본 발명의 단계 S100에서는 도 3 및 도 4에 도시된 바와 같은 일련의 과정을 통해 같은 개념을 가지는 임상 연구 정보의 주제 라벨을 하나의 ID로 매핑하는 작업을 할 수 있다.3 is a diagram illustrating a detailed flow of step S100 in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention, and FIG. 4 is a diagram showing clinical participation according to an embodiment of the present invention. It is a diagram showing a flowchart of step S100 of a data pipeline processing method for standardization of a condition. Because the subject label is written directly by the clinical researcher, even the subject of the same concept may be expressed differently. Therefore, in step S100 of the present invention, it is possible to map a subject label of clinical research information having the same concept to one ID through a series of processes as shown in FIGS. 3 and 4 .

보다 구체적으로, 도 3 및 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S100은, 임상 참여 주제 라벨과 의료 참조용어 사전의 용어를 각각 정규화하여 토큰화된 주제 데이터와 토큰화된 참조용어를 생성하는 단계(S110), 토큰화된 참조용어에서 중복을 제거하고, 토큰화된 주제 데이터와 비교하는 단계(S120), 토큰화된 주제 데이터가 중복이 제거된 토큰화된 참조용어와 일치하면, 해당하는 용어의 주제 아이디를 매핑하는 단계(S130), 토큰화된 주제 데이터가 중복이 제거된 토큰화된 참조용어와 일치하지 않으면, 토큰화된 주제 데이터에 약어 정규화를 수행해 토큰화된 참조용어와 비교하여 주제 아이디를 매핑하는 단계(S140) 및 매핑 결과를 결합해 주제를 분류하는 단계(S150)를 포함하여 구현될 수 있다. 도 4에서 각 과정에 표시된 숫자(①-⑧)는 각각 이하에서 상세히 설명할 표 1 내지 8에 해당한다.More specifically, as shown in FIGS. 3 and 4 , step S100 of the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention includes the clinical participation subject label and the medical reference terminology dictionary. Generating tokenized topic data and tokenized reference terms by normalizing each term (S110), removing duplicates from the tokenized reference terms, and comparing them with tokenized topic data (S120), tokenization If the subject data matches the deduplicated tokenized reference term, mapping the subject ID of the corresponding term (S130), if the tokenized subject data does not match the deduplicated tokenized reference term , performing abbreviation normalization on the tokenized topic data to compare the tokenized reference terms to the topic ID mapping (S140) and combining the mapping results to classify the topic (S150). Numbers (①-⑧) indicated in each process in FIG. 4 correspond to Tables 1 to 8, which will be described in detail below, respectively.

단계 S110에서는, 임상 참여 주제 라벨과 의료 참조용어 사전의 용어를 각각 공백 정규화, 대소문자 정규화, 불용어 제거 및 로마 숫자 정규화하여 토큰화된 주제 데이터와 토큰화된 참조용어를 생성할 수 있다.In step S110, tokenized subject data and tokenized reference terms may be generated by performing blank normalization, case normalization, stopword removal, and Roman numeral normalization of the clinical participation subject label and the terms of the medical reference dictionary, respectively.

다음 표 1은 임상 연구 데이터에 ID를 할당하고(데이터 ID), 각 임상 연구 데이터별로 임상 참여 주제 라벨을 나타낸 것이고, 표 2는 의료 참조용어 사전에서 용어의 개념별로 ID를 할당하여(용어 개념 ID) 나타낸 것이다. 표 2에서 확인할 수 있는 바와 같이, 용어 개념 ID가 같은 것으로 동일한 개념을 나타내더라도 다양한 용어로 표현될 수 있다.The following Table 1 assigns IDs to clinical study data (data IDs), and shows clinical participation subject labels for each clinical study data. ) is shown. As can be seen from Table 2, even if the term concept ID indicates the same concept as the same, it may be expressed in various terms.

Figure 112022058313761-pat00001
Figure 112022058313761-pat00001

Figure 112022058313761-pat00002
Figure 112022058313761-pat00002

도 4에 도시된 바와 같이, 표 1 및 표 2에 예를 들어 나타낸 용어들을 각각 공백 정규화, 대소문자 정규화, 불용어 제거 및 로마 숫자 정규화를 처리하여, 다음 표 3에 나타난 바와 같은 토큰화된 주제 데이터와 표 4에 나타난 바와 같은 토큰화된 참조용어를 각각 생성할 수 있다. 여기서, 토큰화(Tokenization)는 단어 토큰화를 의미하는 것으로, 키워드를 단어 단위로 구분해 인식하여 토큰화할 수 있다.As shown in Fig. 4, the terms shown for example in Tables 1 and 2 were subjected to space normalization, case normalization, stopword removal and Roman numeral normalization, respectively, and tokenized subject data as shown in Table 3 below. and tokenized reference terms as shown in Table 4 can be created respectively. Here, tokenization refers to word tokenization, and it is possible to recognize and tokenize keywords by dividing them into words.

Figure 112022058313761-pat00003
Figure 112022058313761-pat00003

Figure 112022058313761-pat00004
Figure 112022058313761-pat00004

단계 S120에서는, 토큰화된 참조용어에서 중복을 제거하고, 토큰화된 주제 데이터와 비교할 수 있다. 즉, 표 4와 같이 토큰화된 참조용어에서 중복을 제거하고 다음 표 5와 같이 용어 토큰 ID를 할당하여, 표 3과 같은 토큰화된 주제 데이터와 비교할 수 있다.In step S120, duplicates may be removed from the tokenized reference term and compared with the tokenized subject data. That is, by removing duplicates from the tokenized reference terms as shown in Table 4 and assigning a term token ID as shown in Table 5 below, it can be compared with the tokenized subject data shown in Table 3.

Figure 112022058313761-pat00005
Figure 112022058313761-pat00005

단계 S130에서는, 토큰화된 주제 데이터가 중복이 제거된 토큰화된 참조용어와 일치하면, 해당하는 용어의 주제 아이디를 매핑할 수 있다. 즉, 단계 S120에서 표 3과 표 5를 비교하여, 일치하는 용어 개념 ID 즉, 주제 아이디와 데이터 ID를 다음 표 6과 같이 매핑할 수 있다.In step S130, if the tokenized topic data matches the tokenized reference term from which duplicates have been removed, the topic ID of the corresponding term may be mapped. That is, by comparing Table 3 and Table 5 in step S120, the matching term concept ID, ie, subject ID and data ID, may be mapped as shown in Table 6 below.

Figure 112022058313761-pat00006
Figure 112022058313761-pat00006

단계 S140에서는, 토큰화된 주제 데이터가 중복이 제거된 토큰화된 참조용어와 일치하지 않으면, 토큰화된 주제 데이터에 약어 정규화를 수행하며, 약어 정규화 결과와 중복이 제거된 토큰화된 참조용어를 비교해, 해당하는 용어의 주제 아이디를 매핑할 수 있다. 즉, 단계 S120의 비교 결과 일치하지 않으면, 주제 데이터가 약어로 되어 있다고 판단하고 약어 정규화를 수행해 토큰화된 참조용어와 다시 비교할 수 있다.In step S140, if the tokenized subject data does not match the deduplicated tokenized reference term, abbreviation normalization is performed on the tokenized subject data, and the abbreviation normalization result and the deduplicated tokenized reference term are performed. By comparison, the subject ID of the corresponding term can be mapped. That is, if the comparison result in step S120 does not match, it is determined that the subject data is an abbreviation, and the abbreviation normalization can be performed to compare again with the tokenized reference term.

표 1 내지 6과 같은 예에서, 데이터 ID 1 내지 6은 단계 S130에서 주제 아이디(용어 개념 ID)와 모두 매핑되었으나, 데이터 ID 7은 매핑되지 않았다. 데이터 ID 7은 주제 데이터가 “PC”인데 이를 약어로 판단하고 약어 정규화를 수행한 다음 매핑하면 다음 표 7과 같이 용어 개념 ID 3과 매핑될 수 있다.In the examples shown in Tables 1 to 6, data IDs 1 to 6 are all mapped to subject IDs (term concept IDs) in step S130, but data ID 7 is not mapped. Data ID 7 can be mapped to the term concept ID 3 as shown in Table 7 below if the subject data is “PC”, which is determined as an abbreviation, performs abbreviation normalization, and then is mapped.

Figure 112022058313761-pat00007
Figure 112022058313761-pat00007

단계 S150에서는, 단계 130과 단계 S140의 매핑 결과를 결합해 주제를 분류할 수 있다. 즉, 표 6과 표 7을 결합해 다음 표 8과 같이 최종 매핑 결과를 도출할 수 있으며, 총 7개의 임상 연구 데이터가 3개의 주제로 분류될 수 있다.In step S150, the subject may be classified by combining the mapping results of steps 130 and S140. That is, by combining Tables 6 and 7, the final mapping result can be derived as shown in Table 8 below, and a total of seven clinical study data can be classified into three subjects.

Figure 112022058313761-pat00008
Figure 112022058313761-pat00008

단계 S200에서는, 단계 S100에서 분류된 임상 연구 데이터의 임상 참여 조건에서, 의료 참조용어 사전을 이용해 주제별 키워드와 주제에 공통되는 공통 키워드를 추출할 수 있다. 보다 구체적으로, 단계 S200에서는, 임상 연구 데이터의 임상 참여 조건에서 의료 참조용어 사전의 색인용어를 인식하며, 인식된 색인용어의 빈도에 기초하여 주제별 키워드와 공통 키워드를 추출할 수 있다.In step S200, in the clinical participation condition of the clinical research data classified in step S100, keywords for each subject and common keywords common to the subjects may be extracted using the medical reference dictionary. More specifically, in step S200, index terms in the medical reference dictionary are recognized under the clinical participation condition of clinical research data, and keywords for each subject and common keywords can be extracted based on the frequency of the recognized index terms.

즉, 단계 S200에서는, 단계 S100에서 용어개념(주제)별로 분류된 임상 연구 데이터를 받아 해당 데이터의 임상 참여 조건에서 인식된 의료 참조용어 사전 색인용어의 빈도에 기반하여 주제별 키워드 및 공통 키워드를 추출해 출력할 수 있다.That is, in step S200, the clinical research data classified by term concept (subject) is received in step S100, and keywords for each subject and common keywords are extracted and output based on the frequency of the medical reference dictionary index terms recognized in the clinical participation condition of the data. can do.

예를 들어, 임상 연구 데이터의 임상 참여 조건은, “Participants will be ≥ 18 years of age.”, “Known or suspected primary or metastatic breast cancer.”일 수 있으며, 이러한 임상 참여 조건에서 의료 참조용어 사전의 색인용어를 인식하면, “cancer”, “breast cancer” 또는 “metastatic breast cancer”가 인식될 수 있다. 주제별로 색인용어를 모아 주제별 키워드를 추출하고, 주제와 관계없이 모든 데이터에서 색인용어를 모아 공통 키워드를 추출할 수 있다.For example, the clinical participation condition of clinical research data may be “Participants will be ≥ 18 years of age.”, “Known or suspected primary or metastatic breast cancer.” Recognizing the index terms, “cancer”, “breast cancer” or “metastatic breast cancer” can be recognized. By collecting index terms by subject, keywords can be extracted by subject, and common keywords can be extracted by collecting index terms from all data regardless of subject.

단계 S300에서는, 임상 연구 데이터에서 주제별 키워드 및 공통 키워드를 포함하는 포함 문장 및 포함 문장의 후행 문장을 수집하고, 수집된 문장의 속성을 인식할 수 있다. 보다 구체적으로, 단계 S300에서는, 수집된 문장에서 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링할 수 있다. 특히, 단계 S300에서는, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해 부정을 탐지할 수 있다. 또한, 부정 탐지 외에 수치, 단위, 비교 대상 등을 인식하고 정형화할 수도 있다.In step S300, it is possible to collect an included sentence including a subject keyword and a common keyword and a trailing sentence of the included sentence from the clinical research data, and recognize the properties of the collected sentence. More specifically, in step S300, negation of the keyword may be detected in the collected sentences and labeled as negative or positive. In particular, in step S300, fraud may be detected using a modified DEEPEN algorithm configured by including a negative terminology dictionary modified to match the identification of clinical participation conditions and adding additional rules for fraud detection to the DEEPEN algorithm. In addition, it is also possible to recognize and standardize numerical values, units, comparison objects, etc. in addition to fraud detection.

도 5는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서, 단계 S300의 흐름을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S300은, 임상 연구 데이터에서 키워드가 포함된 포함 문장 및 포함 문장의 후행 문장을 수집하는 단계(S310) 및 수집된 문장에서 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 단계(S330)를 포함하여 구현될 수 있으며, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 속성을 추출하는 단계(S320)를 더 포함하여 구현될 수 있다.5 is a diagram illustrating a flow of step S300 in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention. 5 , in step S300 of the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention, the containing sentence including the keyword and the following sentence of the containing sentence in the clinical research data are It may be implemented including the step of collecting (S310) and the step of labeling negative or positive by detecting negation of the keyword in the collected sentence (S330), separating the inequality sign and the numerical value from the sentence including the inequality sign, and by keyword It may be implemented by further including the step of extracting the attribute (S320).

본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서는, 임상 연구 데이터를 처리하여 키워드를 추출하고 키워드별 속성을 인식하여 임상 참여 조건을 정형화할 수 있다. 여기서, 속성은 단계 S330에서 각 키워드에 라벨링하는 부정 또는 긍정 라벨을 의미할 수 있다. 예를 들어, 특정 질병에 관한 임상 연구인 경우, 키워드는 특정 질병이고, 임상 참여 조건에서 해당 질병의 부정 라벨 또는 긍정 라벨이 속성이 될 수 있다.In the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention, it is possible to formulate clinical participation conditions by processing clinical research data to extract keywords and recognizing attributes for each keyword. Here, the attribute may mean a negative or positive label labeling each keyword in step S330. For example, in the case of clinical research on a specific disease, the keyword may be a specific disease, and a negative label or positive label of the disease may be an attribute under conditions of clinical participation.

또한, 단계 S320에서 처리되는 부등호-수치 분리 방법도 키워드의 속성을 추출하는 방법이다. 단계 S320에서는, 임상 연구자가 임상 연구 정보를 서술할 때 기호, 부등호 등 단순화된 서술 방법을 빈번하게 사용한다는 점을 고려해, 기존 의료 데이터의 정형화에서는 다루지 않았던 부등호-수치 분리 방법을 적용하였다. 부등호-수치 분리 방법에서 인식되는 속성은 키워드와 관련된 수치, 단위, 비교 대상 등일 수 있다.In addition, the inequality sign-numerical separation method processed in step S320 is also a method of extracting the attribute of a keyword. In step S320, considering that clinical researchers frequently use simplified descriptive methods such as symbols and inequality signs when describing clinical research information, an inequality sign-numerical separation method, which was not dealt with in the standardization of existing medical data, was applied. The attribute recognized in the inequality sign-numerical separation method may be a keyword-related number, unit, comparison target, and the like.

이와 같이, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서는, 단계 S330의 부정 탐지 방법과 단계 S320의 부등호-수치 분리 방법을 사용해 키워드별 긍정/부정, 수치, 단위, 비교 대상 등의 속성을 인식하여 이를 정형화할 수 있다. 이하에서는, 도 5를 참조하여 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S300을 구성하는 각 단계에 대해 상세히 설명하도록 한다.As such, in the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention, positive/negative, numerical, It can be formalized by recognizing attributes such as units and objects of comparison. Hereinafter, each step constituting step S300 of the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention will be described in detail with reference to FIG. 5 .

단계 S310에서는, 임상 연구 데이터에서, 키워드(주제별 키워드 및 공통 키워드로 구성됨)가 포함된 포함 문장 및 포함 문장의 후행 문장을 수집할 수 있다. 즉, 단계 S200에서 추출한 주제별 키워드와 공통 키워드를 이용해 문장을 수집할 수 있다. 특히, 단계 S310에서는, 키워드가 포함된 포함 문장 및 포함 문장의 후행 문장을 수집하는데, 분석 대상을 색인용어(키워드)를 포함하는 문장에 한정하지 않고 해당 문장과 관련된 문장까지 범위를 확장하여 분석을 진행함으로써, 속성 인식의 정확도를 높일 수 있다.In step S310, from the clinical research data, it is possible to collect the containing sentences including the keywords (consisting of keywords by subject and common keywords) and the following sentences of the containing sentences. That is, sentences may be collected using the keywords for each subject and common keywords extracted in step S200. In particular, in step S310, the containing sentence containing the keyword and the following sentences of the containing sentence are collected. The analysis target is not limited to the sentence containing the index term (keyword), but the scope is extended to the sentence related to the sentence to perform the analysis. By proceeding, it is possible to increase the accuracy of attribute recognition.

단계 S320에서는, 수집된 문장이 부등호 사전의 부등호를 포함하면, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 속성을 추출할 수 있다. 단계 S320은 부등호를 포함하는 문장에 한하여 적용되는 선택적인 과정인바, 모든 문장에 대해 처리되는 단계 S330을 먼저 설명하고, 추후 상세히 설명하도록 한다.In step S320, if the collected sentence includes an inequality sign of the inequality sign dictionary, the inequality sign and the numerical value may be separated from the sentence including the inequality sign, and attributes for each keyword may be extracted. Since step S320 is an optional process applied only to sentences including an inequality sign, step S330, which is processed for all sentences, will be described first, and will be described later in detail.

단계 S330에서는, 변형 DEEPEN 알고리즘을 이용해, 수집된 문장(포함 문장 및 후행 문장을 포함함)에서 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링할 수 있다. 보다 구체적으로, 단계 S330에서는, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해 부정을 탐지할 수 있다.In step S330, by using the modified DEEPEN algorithm, it is possible to detect negation of the keyword in the collected sentences (including the containing sentence and the following sentence) and label it as negative or positive. More specifically, in step S330, fraud may be detected using a modified DEEPEN algorithm configured by including a negative term dictionary modified to match the identification of clinical participation conditions and adding additional rules for fraud detection to the DEEPEN algorithm.

즉, 단계 S330에서는, DEEPEN을 변형 및 보완한 변형 DEEPEN 알고리즘을 사용한다. 여기서, DEEPEN 알고리즘 적용을 위해서는 단어 토큰화(tokenize) 및 품사 태깅 과정이 필요하므로, 단계 S310에서 수집된 문장을 토큰화 및 품사 태깅하여 단계 S330을 처리하는 것으로 전제하고 설명하도록 한다. 변형 DEEPEN 알고리즘의 DEEPEN과의 차별점은 다음과 같다.That is, in step S330, the modified DEEPEN algorithm modified and supplemented with DEEPEN is used. Here, since word tokenization and part-of-speech tagging are required to apply the DEEPEN algorithm, it is assumed that the sentences collected in step S310 are tokenized and part-of-speech tagging to process step S330. The difference between the modified DEEPEN algorithm and DEEPEN is as follows.

첫째, 부정어 사전을 임상 참여 조건이라는 도메인에 맞게 용어를 수정하여 사용한다. 둘째, 부정 탐지 분석 대상은 기존의 부정 탐지 방법에서 색인용어(키워드)를 포함한 문장에 한정하였던 것과 달리, 필요에 따라 해당 문장(포함 문장)과 관련된 문장(후행 문장)까지 분석 대상 범위를 확장한다. 셋째, postag 분석을 추가로 활용한다. 넷째, 기존의 DEEPEN에 규칙을 추가하여 위음성을 줄이고자 시도하였다. 다섯째, 의사 부정 용어 및 부정 용어를 추가하고, 부정 용어를 인식하는 방법을 수정함으로써 각각 위양성, 위음성을 줄이고자 하였다. 다섯째, DEEPEN이 NegEx가 부정으로 처리한 문장에 대해서만 재처리를 했던 것과 달리, 부정 탐지 분석의 대상을 확장하였다. 확장된 부정 탐지 분석의 대상을 설정하는 방법에 대한 상세 설명은 아래와 같다.First, the negation dictionary is used by modifying the term according to the domain of clinical participation conditions. Second, unlike the existing fraud detection method, which was limited to sentences including index terms (keywords), the scope of analysis targets is expanded to sentences (trailing sentences) related to the corresponding sentence (including sentences) as needed. . Third, postag analysis is additionally utilized. Fourth, an attempt was made to reduce false negatives by adding rules to the existing DEEPEN. Fifth, by adding pseudo-negative terms and negative terms, and modifying the method of recognizing negative terms, we tried to reduce false positives and false negatives, respectively. Fifth, unlike DEEPEN, which reprocessed only the sentences treated as negative by NegEx, the target of negative detection analysis was expanded. A detailed description of how to set the target of the extended fraud detection analysis is as follows.

NegEx는 부정 용어와 색인용어 사이의 토큰이 다섯 개 이하이면, 색인용어의 라벨을 부정으로 처리하는, 토큰 수에 의존적인 방식을 사용하는데, 이 방법은 임상 참여 조건 데이터가 조건이나 괄호 등 부연 설명을 다수 포함한다는 특징을 가지기에 적절하지 않다. 예를 들어 ‘patients treated by lumpectomy and axillary node dissection (or no axillary dissection if sentinel node biopsy is negative) to be followed by breast radiation therapy must be excluded’의 경우에 ‘excluded’가 후행 부정 용어라고 하면, 부정으로 라벨링되어야 하는 ‘lumpectomy’와 ‘axillary node dissection’는 긍정되고, 긍정으로 라벨링되어야 하는 ‘radiation therapy’는 부정될 것이다. 따라서 본 발명에서는 의사 부정 용어와 겹치지 않는 선/후행 부정 용어를 부정 용어와 색인용어 사이의 토큰 개수와 관계없이 선/후 자리에 알맞게 포함하고 있다면, 부정 탐지 분석을 적용하였다.NegEx uses a token count-dependent method that treats the label of the index term as negative if there are five or less tokens between the negative term and the index term. It is not suitable to have the feature of including a large number of For example, in the case of 'patients treated by lumpectomy and axillary node dissection (or no axillary dissection if sentinel node biopsy is negative) to be followed by breast radiation therapy must be excluded', if 'excluded' is a trailing negative term, it is negative. 'lumpectomy' and 'axillary node dissection', which should be labeled positively, will be positive, and 'radiation therapy', which should be labeled positively, will be negative. Therefore, in the present invention, if a pre/post negative term that does not overlap with a pseudo-negative term is appropriately included in the preceding/after position regardless of the number of tokens between the negative term and the index term, negative detection analysis is applied.

변형 DEEPEN 알고리즘은, 변형된 부정 용어 사전을 포함하고, 부정 탐지를 위한 추가 규칙을 부가하여 구성되는바, 이하에서는 부정 용어 사전과 추가 규칙에 대해 상세히 설명하도록 한다.The modified DEEPEN algorithm includes a modified negative terminology dictionary and is configured by adding additional rules for fraud detection. Hereinafter, the negative terminology dictionary and additional rules will be described in detail.

먼저, 변형 DEEPEN 알고리즘의 변형된 부정 용어 사전은, NegEx 의사 부정 용어에 추가되는 임상 참여 조건을 위한 의사 부정 용어; 선행 및 후행 부정 용어의 규칙에 추가되는 제1 용어 규칙 및 제2 용어 규칙; 및 NegEx 선후행 용어에 추가되는 임상 참여 조건을 위한 선행 부정 용어 및 후행 부정 용어를 DEEPEN 알고리즘의 부정 용어 사전에 추가하여 구축될 수 있다.First, the modified negation term dictionary of the modified DEEPEN algorithm includes: pseudo negation terms for clinical participation conditions added to the NegEx pseudo negation term; a first term rule and a second term rule added to the rule of preceding and trailing negative terms; And it can be constructed by adding leading negative terms and trailing negative terms for clinical participation conditions added to NegEx leading and trailing terms to the negative term dictionary of the DEEPEN algorithm.

DEEPEN은 NegEx가 선행되어야 실행할 수 있는 모델이며, NegEx는 3가지 유형의 부정 용어 사전에 기반한다. 첫 번째 유형이 의사 부정 용어, 두 번째 유형이 선행 부정 용어, 세 번째 유형이 후행 부정 용어이다. 단계 S330에서 사용하는 변형 DEEPEN 알고리즘은 DEEPEN, NegEx의 부정 용어 사전의 의사 부정 용어, 선/후행 부정 용어의 포맷을 활용하되, 임상 시험 참여 가능 여부 판별이라는 목적에 알맞도록 사전을 수정하여 사용할 수 있다.DEEPEN is a model that can be executed only when NegEx precedes it, and NegEx is based on three types of negative terminology dictionaries. The first type is a pseudo-negative term, the second type is a preceding negative term, and the third type is a trailing negative term. The modified DEEPEN algorithm used in step S330 utilizes the format of pseudo-negative terms and pre/post-negative terms of DEEPEN and NegEx's negative term dictionary, but the dictionary can be modified and used for the purpose of determining whether clinical trial participation is possible. .

먼저, 의사 부정 용어와 관련하여, NegEx 의사 부정 용어에 임상 참여 조건을 위한 부정 용어를 추가하고, 추가된 용어를 의사 부정 용어로 활용하는 방법을 일부 변경하였다. 도 6은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서 변형된 부정 용어 사전에 추가되는 의사 부정 용어를 나타낸 도면이다. 추가된 용어들은 첫 번째 토큰과 두 번째 토큰이 바로 붙어있거나 그렇지 않더라도 서로 종속 관계에 있으면 의사 부정 용어로 쓰일 수 있다. 즉, 추가된 의사 부정 용어를 포함한 의사 부정 용어 리스트에서 부정 용어의 토큰이 직접적으로 붙어있지 않더라도 토큰들이 서로 직접적인 의존성을 가지면 의사 부정 용어로 간주한다. 예를 들어 ‘no significant increase’를 포함하는 문장의 경우 기존의 방법대로 하면 의사 부정 용어인 것을 인식할 수 없었지만 본 발명에서는 ‘no’와 ‘increase’가 서로 직접적인 의존성을 가지기 때문에 의사 부정 용어임을 인식할 수 있다. 의사 부정 용어를 추가하고, 방법을 변경함으로써 부정이 아닌데 부정으로 잘못 인식되는 위양성을 줄일 수 있다. First, with respect to pseudo-negative terms, negative terms for clinical participation conditions were added to NegEx pseudo-negative terms, and the method of using the added terms as pseudo-negative terms was partially changed. 6 is a diagram illustrating a pseudo-negative term added to a modified negative term dictionary in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention. The added terms can be used as pseudo-negative terms if the first token and the second token are directly attached to each other or are not dependent on each other. That is, in the pseudo-negative term list including the added pseudo-negative term, even if the token of the negative term is not directly attached, if the tokens have a direct dependency on each other, it is regarded as a pseudo-negative term. For example, in the case of a sentence containing 'no significant increase', it could not be recognized that it was a pseudo-negative term in the existing method, but in the present invention, it is recognized that 'no' and 'increase' are a pseudo-negative term because they have a direct dependence on each other. can do. By adding pseudo-negative terms and changing the method, it is possible to reduce false positives that are mistakenly recognized as negatives when they are not negatives.

다음으로, 선행/후행 부정 용어 규칙을 변경하였는데, 제1 용어 규칙 및 제2 용어 규칙을 포함할 수 있다. NegEx와 DEEPEN에서는 부정 용어를 사전과 사후로 나누어 사용하였다. 따라서 동사가 수동태의 형태로 사용되는 경우 부정 용어임을 인식하지 못하는 경우가 발생하였다. 이러한 문제점을 해결하기 위해 특정 조건을 만족하면 선행 부정 용어이지만 후행 부정 용어로도 사용할 수 있게 하는 몇 가지 규칙을 추가하였다.Next, the preceding / trailing negative term rule was changed, which may include the first term rule and the second term rule. In NegEx and DEEPEN, negative terms were divided into pre- and post-apocalyptic terms. Therefore, when a verb is used in the passive voice, it is not recognized that it is a negative term. To solve this problem, if certain conditions are satisfied, some rules have been added that allow a preceding negative term to be used as a trailing negative term as well.

여기서, 제1 용어 규칙은, 품사 태그(postag)가 VBN인 토큰을 포함하는 선행 부정 용어가 be 동사 토큰과 직접적 종속 관계이면 후행 부정 용어로 사용하는 것일 수 있다. 여기서, VBN은 품사 태그 중 하나로 ‘verb, past participle’을 나타낼 수 있다. 즉, postag가 VBN인 토큰을 포함하는 선행 부정 용어의 경우 be동사 토큰(be, was, were, being, been)과 직접적 종속 관계일 때, 후행 부정 용어로도 사용할 수 있게 한다. 예를 들어 ‘nephrotic syndrome was ruled out’의 경우, 색인용어인 ‘nephrotic syndrome’의 올바른 라벨은 부정임에도 불구하고, ‘ruled out’은 선행 부정 용어이기 때문에 긍정으로 라벨링된다. 그러나 제1 용어 규칙을 적용하면 선행 부정 용어인 ‘ruled out’이 postag가 VBN인 ‘ruled’를 포함하면서 ‘was’와 직접적 종속 관계를 가지므로 ‘ruled out’은 후행 부정 용어로도 사용되며, 색인용어(키워드)인 ‘nephrotic syndrome’은 부정으로 라벨링될 수 있다.Here, the first term rule may be to use as a trailing negative term when a preceding negative term including a token having a VBN part-of-speech tag is directly dependent on the be verb token. Here, VBN may represent 'verb, past participle' as one of the parts-of-speech tags. That is, in the case of a preceding negative term including a token whose postag is VBN, it can be used as a trailing negative term when it is directly dependent on the be verb token (be, was, were, being, been). For example, in the case of ‘nephrotic syndrome was ruled out’, although the correct label of the index term ‘nephrotic syndrome’ is negative, ‘ruled out’ is labeled as positive because it is a preceding negative term. However, if the first term rule is applied, the preceding negative term 'ruled out' has a direct dependency with 'was' while including 'ruled' where postag is VBN, so 'ruled out' is also used as a trailing negative term, The index term (keyword) 'nephrotic syndrome' can be labeled negatively.

제2 용어 규칙은, 품사 태그(postag)가 VBN인 토큰이 be 동사 토큰과 직접적 종속 관계이고, 미리 정해진 부정어가 품사 태그가 VBN인 토큰이나 be 동사 토큰과 직접적 종속 관계이면, 선행 부정 용어인 미리 정해진 부정어를 후행 부정 용어로도 사용하는 것일 수 있다. 즉, postag가 VBN인 토큰이 be동사 토큰과 직접적 종속 관계를 가지고, not, no, 혹은 never가 postag가 VBN인 토큰이나 be 동사와 직접적 종속 관계인 경우, 언급한 부정어(not, no, 혹은 never)는 원래 선행 부정 용어이지만 해당 경우에 한하여 후행 부정 용어로도 사용할 수 있게 한다. 이러한 방법을 통해 기존에 부정으로 라벨링 되어야 하지만 긍정으로 라벨링 되었던 위음성을 줄일 수 있다.The second term rule is that if a token with a part-of-speech tag (postag) of VBN has a direct dependency relationship with the be verb token, and a predetermined negative word is a token with a part-of-speech tag of VBN or a direct dependency relationship on a token be verb token, the preceding negative term It may be to use a predetermined negative word as a trailing negative term. That is, when a token with VBN postag has a direct dependency relationship with the token be verb, and not, no, or never has a direct dependency relationship with a token whose postag is VBN or be verb, the mentioned negative word (not, no, or never) is originally a leading negative term, but can be used as a trailing negative term only in that case. Through this method, false negatives that were previously labeled as negative but were labeled as positive can be reduced.

마지막으로, 선행 부정 용어 및 후행 부정 용어에 임상 참여 조건을 위한 용어를 추가하였다. 즉, NegEx 선/후행 용어에 전반적 부정 판별에 적용할 수 있는 부정 용어와 임상 시험 참여 가능 여부 판별이라는 목적에 특화된 부정 용어를 추가하였다. 도 7은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서 변형된 부정 용어 사전에 추가되는 선행 부정 용어 및 후행 부정 용어를 나타낸 도면이다. 도 7에서 좌측은 선행 부정 용어, 우측은 후행 부정 용어이며, 임상 시험 참여 가능 여부 판별 목적에 특화된 부정 용어는 밑줄로 표시하였다. 후행 부정 용어의 경우 후행 부정 용어 리스트에 없더라도 제1 용어 규칙 및 제2 용어 규칙에 해당하면 추가하여 사용할 수 있다.Finally, terms for clinical participation conditions were added to the preceding negative terms and the trailing negative terms. In other words, negative terms that can be applied to the overall negative determination and negative terms specialized for the purpose of determining whether to participate in a clinical trial were added to the NegEx preceding and following terms. 7 is a diagram illustrating a preceding negative term and a trailing negative term added to a modified negative term dictionary in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention. In FIG. 7 , the left side is the preceding negative term, the right side is the trailing negative term, and the negative term specialized for the purpose of determining whether to participate in the clinical trial is underlined. In the case of a negative trailing term, even if it is not in the list of negative trailing terms, it can be added and used if it corresponds to the first term rule and the second term rule.

한편, 의사 부정 용어에서와 마찬가지로, 추가된 선행 부정 용어 및 후행 부정 용어를 포함하는 전체 선/후행 부정 용어 리스트에서, 부정 용어들의 토큰이 직접적으로 붙어있지 않더라도 서로 직접적인 의존성(종속 관계)에 있으면 의사 부정 용어로 간주할 수 있다. 이와 같이, NegEx 선/후행 용어에 전반적 부정 판별에 적용할 수 있는 부정 용어와 임상 시험 참여 가능 여부 판별이라는 목적에 특화된 부정 용어를 추가하고, 부정 용어 인식 방법을 수정함으로써 부정인데 부정을 인식하지 못하는 위음성을 줄일 수 있다.On the other hand, as in the pseudo-negative term, in the entire pre/post-negative term list including the added preceding negative term and the trailing negative term, even if the tokens of the negative terms are not directly attached to each other, if there is a direct dependency (dependent relationship) It can be regarded as a negative term. In this way, negative terms that can be applied to overall negative determination and negative terms specialized for the purpose of determining whether clinical trial participation is possible or not, and modifying the negative term recognition method to the NegEx preceding and following terms, false negatives can be reduced.

다음으로, 변형 DEEPEN 알고리즘에서 부정 탐지를 위해 DEEPEN 알고리즘의 규칙에 추가되는 추가 규칙은, 환자 용어 또는 증상 용어가 미리 설정된 전치사로 키워드와 연결되면, 환자 용어 또는 증상 용어의 부정 시에도 키워드를 부정으로 탐지하는 동일시 규칙; 품사 태그를 사용해 대용어를 판단하고, 대용어에 종속된 토큰의 부정 라벨을 탐지하는 대용어 규칙; 품사 태그가 같은 복수 개의 토큰이 conj 또는 appos 종속성 관계로 연결되면, 연결된 토큰 중 하나가 부정이면 나머지 토큰도 부정으로 탐지하는 Rconj 규칙; 및 종류가 다른 부정 용어에 의해 문장 내에서 두 번 부정되는 키워드를 긍정으로 라벨링하는 이중 부정 규칙을 포함할 수 있다.Next, an additional rule added to the rules of the DEEPEN algorithm for negation detection in the modified DEEPEN algorithm is that if a patient term or symptom term is associated with a keyword with a preset preposition, the keyword is also negatively negated even when the patient term or symptom term is negated. identification rules to detect; a proxy rule for judging a proxy using a part-of-speech tag, and detecting a negative label of a token dependent on the proxy; Rconj rule that detects if a plurality of tokens with the same part-of-speech tag are connected by a conj or appos dependency relationship, and if one of the connected tokens is negative, the remaining tokens are also negative; and a double negation rule for positively labeling keywords that are negated twice within a sentence by different kinds of negation terms.

각각에 대해 상세히 살펴보면, 먼저 동일시 규칙은, 환자 용어 또는 증상 용어가 미리 설정된 전치사로 키워드와 연결되면, 환자 용어 또는 증상 용어의 부정 시에도 키워드를 부정으로 탐지하는 것이다. 도 8은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서, 추가 규칙 중 하나인 동일시 규칙을 설명하기 위해 도시한 도면이다. 도 8의 좌측은 환자를 나타내는 환자 용어, 우측은 증상을 나타내는 증상 용어에 관해 각각 설명한 것이다. 각 그림에서 가운데는 전치사(with, of, for 등), 좌/우는 해당 전치사의 종속 관계를 의미한다. 가운데의 전치사를 기준으로 색인용어(키워드)와 환자 용어/증상 용어 사이의 종속 관계가 도 8과 같다면, 부정 탐지 시 좌를 우와 동일시한다. 즉, 키워드나 환자 용어/증상 용어 중 하나만 부정으로 인식되어도 색인용어는 부정된다.Looking at each in detail, first, the identification rule is to detect the keyword as negative even when the patient term or symptom term is negated when the patient term or symptom term is connected to the keyword with a preset preposition. 8 is a diagram illustrating an identification rule, which is one of additional rules, in a data pipeline processing method for standardizing clinical participation conditions according to an embodiment of the present invention. The left side of FIG. 8 describes the patient terms representing the patient, and the right side describes the symptom terms representing the symptoms, respectively. In each figure, the middle preposition (with, of, for, etc.), left/right means the subordinate relationship of the preposition. If the dependency relationship between the index term (keyword) and the patient term/symptom term is as shown in FIG. 8 based on the preposition in the middle, the left is equated with the right at the time of negative detection. That is, even if only one of the keyword or patient term/symptom term is recognized as negative, the index term is negated.

대용어 규칙은, 대용어를 인식하지 못하여 부정임에도 불구하고 긍정으로 인식되는 위음성을 줄이기 위한 것이다. 보다 구체적으로, 키워드가 포함된 문장의 토큰의 품사 태그가 NN, NNS, CC, JJ 로만 이루어져 있으면 앞 문장을 탐색하며, 앞 문장이 “following” 토큰을 포함하고 마지막 토큰이 “:”일 때, “following” 토큰에 종속된 토큰이 부정이면, 키워드가 포함된 문장의 키워드를 부정으로 탐지하는 제1 대용어 규칙; 품사 태그가 WDT면서 “that”, “which”, “who” 및 “whom” 중 어느 하나의 대용어 토큰을 포함하는 문장이고, 종속성 관계(dependency)가 미리 설정된 것 중 하나이며, 대용어 토큰이 종속되는 종속 토큰의 품사 태그가 NN 또는 NNS 이면 대용어 토큰과 종속 토큰의 부정 라벨을 동일하게 탐지하는 제2 대용어 규칙을 포함할 수 있다.The surrogate rule is to reduce false negatives recognized as positive despite the negative because the surrogate is not recognized. More specifically, if the part-of-speech tag of the token of the sentence containing the keyword consists only of NN, NNS, CC, and JJ, the previous sentence is searched, and when the previous sentence contains the “following” token and the last token is “:”, If the token subordinate to the “following” token is negative, the first proxy rule for detecting the keyword of the sentence including the keyword as negative; The part-of-speech tag is a sentence containing any one of the proxies tokens of “that”, “which”, “who” and “whom” while being WDT, the dependency is one of the preset ones, and the proximate token is If the part-of-speech tag of the dependent token is NN or NNS, a second proxy rule for detecting the negative label of the proxy token and the dependent token identically may be included.

제1 대용어 규칙은, 키워드가 포함된 문장의 토큰들의 postag가 NN(Noun, singular or mass), NNS(Noun, plural), CC(Coordinating conjunction), JJ(Adjective)로만 이루어져 있으면 앞 문장을 탐색한다. 앞 문장이 “following” 토큰을 포함하고 마지막 토큰이 “:”이면, “following” 토큰에 종속된 토큰이 부정인지 확인한다. 부정이면 키워드가 포함된 문장의 키워드를 부정으로 탐지할 수 있다.The first proxy rule is, if the postag of the tokens of the sentence containing the keyword consists only of NN (Noun, singular or mass), NNS (Noun, plural), CC (Coordinating conjunction), and JJ (Adjective), the previous sentence is searched. do. If the previous sentence contains a “following” token and the last token is “:”, check whether the token dependent on the “following” token is negative. If it is negative, it is possible to detect the keyword of the sentence containing the keyword as negative.

제2 대용어 규칙은, postag가 WDT(Wh-determiner)이면서 ‘that’, ‘which’, ‘who’, ‘whom’ 중 하나인 토큰을 포함하는 문장이 있다면, dependency가 dobj(direct objective, 직접목적어), iobj(indirect objective, 간접목적어), pobj(object of a preposition), nsbj(nominal subject), nsbjpass(passive nominal subject), xsbj(controlling subject) 중 하나에 해당하면서, 대용어 토큰(‘that’, ‘which’, ‘who’, ‘whom’ 중 어느 하나)이 종속되는 토큰의 종속 토큰의 postag가 NN 혹은 NNS인지 확인한다. 조건에 부합한다면 대용어 토큰과 대용어가 가리키는 종속 토큰은 부정 라벨을 같이할 수 있다.The second proxy rule is that if there is a sentence in which postag is a WDT (Wh-determiner) and contains a token that is one of 'that', 'which', 'who', and 'whom', then the dependency is dobj(direct objective, direct object), iobj(indirect objective), pobj(object of a preposition), nsbj(nominal subject), nsbjpass(passive nominal subject), xsbj(controlling subject), ', 'which', 'who', 'whom') Check whether the postag of the dependent token of the dependent token is NN or NNS. If the conditions are met, the proxy token and the dependent token to which the proxy points can be negatively labeled.

Rconj 규칙에서는, postag가 같은 복수 개의 토큰이 conj(conjunction, 접속사) 혹은 appos(apposition, 동격) 종속성 관계로 이어져 있는 경우, 한 토큰이 부정이면 다른 용어도 부정으로 탐지할 수 있다. 해당 규칙을 통해 부정임에도 불구하고 긍정으로 인식되는 위음성을 줄일 수 있다.In the Rconj rule, when multiple tokens with the same postag are connected by a conj (conjunction) or appos (apposition, equivalence) dependency relationship, if one token is negative, the other term can also be detected as negative. Through this rule, it is possible to reduce false negatives that are recognized as positive even though they are negative.

이중 부정 규칙에서는, 종류가 다른 부정 용어에 의해 각 한 번, 총 두 번 부정되는 경우 긍정으로 처리할 수 있다. 예를 들어, ‘No contraindications for the use of corticosteroids as premedication’에서 ‘corticosteroids’는 no에 의해서도 부정되고, contraindications에 의해서도 부정되므로 긍정으로 라벨링할 수 있다.In the double negative rule, if negative terms of different kinds are negatively negated twice, once each, it can be treated as positive. For example, in ‘No contraindications for the use of corticosteroids as premedication’, ‘corticosteroids’ can be labeled positive because it is also negated by no and negated by contraindications.

도 9는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서, 단계 S320의 처리 흐름을 도시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서는, 부등호가 포함된 문장에 대해서는 단계 S320의 부등호-수치 분리 방법을 적용한 다음 단계 S330의 부정 탐지 방법을 적용할 수 있다. 이때, 단계 S310에서 수집된 문장에는 키워드가 포함되어 있으므로, 단계 S320에서는 키워드와 부등호가 모두 포함된 문장을 처리하게 된다.9 is a diagram illustrating a processing flow of step S320 in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention. As shown in FIG. 9 , in the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention, the inequality sign-numerical separation method of step S320 is applied to a sentence including an inequality sign, followed by step S330 of fraud detection methods can be applied. At this time, since the sentences collected in step S310 include keywords, sentences including both the keywords and the inequality sign are processed in step S320.

도 10은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에서, 단계 S320의 세부적인 흐름을 도시한 도면이다. 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S320은, 문장에서 부등호, times, 단위 및 비교 대상을 인식하며, 키워드, 단위, times의 표현을 표준화하는 단계(S321) 및 인식된 숫자를 키워드별 속성으로 추출하며, 추출한 키워드별 속성, 표준화된 단위 및 비교 대상을 출력하는 단계(S322)를 포함하여 구현될 수 있다.10 is a diagram illustrating a detailed flow of step S320 in a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention. 10 , step S320 of the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention recognizes inequality signs, times, units, and comparison objects in a sentence, keywords, units , standardizing the expression of times (S321) and extracting the recognized number as an attribute for each keyword, and outputting the extracted attribute for each keyword, a standardized unit, and a comparison target (S322).

도 11은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S320에서 부등호를 포함하는 문장의 종류를 나타낸 도면이다. 단계 S320에서는, 부등호를 포함하는 문장이 도 11에 도시된 바와 같이 ⓐ, ⓑ, ⓒ 구조 중 하나에 해당한다고 가정하고, 정규 표현식을 사용하여 키워드, 부등호, 숫자, 단위 및 Times, 비교 대상을 인식할 수 있다. 부등호를 포함하는 문장은 키워드, 부등호 및 숫자를 포함하며, 단위, times 및 비교 대상 중 하나 이상을 추가로 더 포함할 수 있다. 즉, 키워드, 부등호, 숫자(수치)는 반드시 포함하며, 단위 및 Times, 비교 대상은 있을 수도 있고 없을 수도 있다. 키워드, 단위, 비교 대상은 인식 후 표준화하는 과정을 거친다. 즉, 키워드, 단위, 비교 대상은 연구자마다 다양한 표현을 사용할 수 있으므로 DB화를 위해 대표 표현형을 사용해 표준화하며, Times 표현 또한 다양하므로 DB화를 위해 Times로 통일할 수 있다.11 is a diagram illustrating types of sentences including an inequality sign in step S320 of a data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention. In step S320, it is assumed that the sentence including the inequality sign corresponds to one of the structures ⓐ, ⓑ, and ⓒ as shown in FIG. 11, and keywords, inequality signs, numbers, units and Times, and comparison targets are recognized using regular expressions. can do. A sentence including an inequality sign includes a keyword, an inequality sign, and a number, and may further include one or more of a unit, times, and a comparison target. That is, keywords, inequality signs, and numbers (numerics) must be included, and units, times, and comparison objects may or may not exist. Keywords, units, and comparison targets are recognized and then standardized. In other words, each researcher can use various expressions for keywords, units, and comparison targets, so the representative expression is standardized for DB.

이하에서는, 도 9 내지 도 11을 참조하여, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법의 단계 S320의 각 단계에 대해 상세히 설명하도록 한다.Hereinafter, each step of step S320 of the data pipeline processing method for standardization of clinical participation conditions according to an embodiment of the present invention will be described in detail with reference to FIGS. 9 to 11 .

단계 S321에서는, 미리 정의된 리스트를 이용해 문장에서 부등호 및 times를 인식하고, 의료 참조용어 사전을 이용해 단위 및 비교 대상을 인식하며, 키워드, 부등호, 숫자, 단위, times 및 비교 대상의 표현을 표준화할 수 있다. 즉, 부등호, Times는 미리 정의된 리스트 안에 속하는 단어만을 인식하며, 숫자는 아라비아 숫자나 영문자로 표현된 숫자를 인식하고, 단위, 비교 대상은 의료참조용어체계에서 용어 유형이 특정 타입에 속하는 단어만을 인식한다. 예를 들면, 'Bilirubin < 3.0 ㎎/㎗'의 경우, 키워드가 Bilirubin, 부등호가 <, 숫자가 3.0, 단위가 ㎎/㎗이 되며, 'Alkaline phosphatase ≤ 20% times ULN'의 경우 키워드가 Alkaline phosphatase, 부등호가 ≤, 숫자가 0.2, Times가 times, 비교 대상이 ULN이 된다. 이와 같이 인식된 결과는 데이터베이스화하기 위해 표준화 과정을 거치게 된다. 이하에서는, 단계 S321에서 인식하는 인식 단위별로 상세히 설명하도록 한다.In step S321, inequality signs and times are recognized in a sentence using a predefined list, units and comparison objects are recognized using a medical reference terminology dictionary, and keywords, inequality signs, numbers, units, times and expressions of comparison objects are standardized. can That is, the inequality sign and Times recognize only words belonging to a predefined list, numbers recognize numbers expressed in Arabic numerals or English characters, and units and comparison objects only recognize words belonging to a specific type in the medical reference terminology system. Recognize. For example, in the case of 'Bilirubin < 3.0 mg/dL', the keyword is Bilirubin, the inequality sign is <, the number is 3.0, the unit is mg/dL, and in the case of 'Alkaline phosphatase ≤ 20% times ULN', the keyword is alkaline phosphatase , the inequality sign is ≤, the number is 0.2, Times is times, and the comparison target is ULN. The recognized result goes through a standardization process to be converted into a database. Hereinafter, each recognition unit recognized in step S321 will be described in detail.

먼저, 부등호의 인식에 있어서, 도 11의 ⓐ, ⓑ 구조의 [부등호]에 해당하는 부등호 표현은 다음 표 9와 같은 미리 정의된 리스트와 같으며, 이상, 이하, 미만, 초과로 나뉠 수 있다. 단계 S321에서는, [키워드]를 인식하여 키워드 열에 키워드_max, 키워드_min 열을 생성하고, 하나의 임상 연구 ID에서 키워드에 대해 이상/초과와 이하/미만 표현이 공존하면 키워드_max, 키워드_min 열을 동시에 사용하고 그렇지 않으면 한 열만 사용한다(다음 표 10 참고).First, in the recognition of the inequality sign, the inequality sign expression corresponding to the [inequality sign] of the ⓐ, ⓑ structure of FIG. 11 is the same as the predefined list shown in Table 9 below, and can be divided into more than, less than, less than, and more than. In step S321, [keyword] is recognized and keyword_max and keyword_min columns are generated in the keyword column, and if the expression above/exceed and below/under coexist for a keyword in one clinical study ID, keyword_max, keyword_ Use the min column at the same time, otherwise use only one column (see Table 10 below).

Figure 112022058313761-pat00009
Figure 112022058313761-pat00009

Figure 112022058313761-pat00010
Figure 112022058313761-pat00010

표 10은 단계 S320과 단계 S330의 속성 인식 결과를 합해 정형화하여 나타낸 예시이다. 여기서, 임상 연구 ID는 임상 연구 데이터별로 ID를 할당한 것이고, 임상 주제 ID는 개별 임상 연구에 포함된 주제 라벨을 사용해 임상 주제별로 ID를 할당한 것이며, 임상주제 1의 주제별 키워드는 AST, 임상주제 2의 주제별 키워드는 bilirubin, 공통 키워드는 corticosteroid, axilla이다. 또한, 알고리즘 ID가 1인 것은 단계 S330의 부정 탐지 방법이고, 알고리즘 ID가 2인 것은 단계 S320의 부등호-수치 분리 방법을 나타낸다.Table 10 is an example showing the standardization by adding the attribute recognition results of steps S320 and S330. Here, the clinical study ID is an ID assigned to each clinical study data, the clinical subject ID is an ID assigned to each clinical subject using the subject label included in the individual clinical study, and the subject keyword of clinical subject 1 is AST, clinical subject The topical keywords of 2 are bilirubin, and the common keywords are corticosteroid and axilla. In addition, the algorithm ID of 1 indicates the negation detection method of step S330, and the algorithm ID of 2 indicates the inequality sign-numeric separation method of step S320.

숫자 인식에 있어서, [숫자]에 인식된 값을 '숫자'라고 할 때, [부등호]가 이상 혹은 이하에 속하면 키워드_min, 키워드_max 값에 해당하는 속성 열에 '숫자'를 표기하고, 초과 혹은 미만이면 각각 키워드_min, 키워드_max 값을 '숫자' + (1e-13), '숫자' - (1e-13)로 표기할 수 있다(표 10 참고). 인식하는 숫자는 아라비아 숫자, two, twenty 등 문자로 표현된 숫자를 포함하며, 숫자에 %가 붙으면 100으로 나눈 수로 치환할 수 있다.In number recognition, when the value recognized in [number] is 'number', if the [inequality sign] belongs to above or below, 'number' is indicated in the attribute column corresponding to the keyword_min and keyword_max values, If it is more than or less than, the keyword_min and keyword_max values can be expressed as 'number' + (1e-13), 'number' - (1e-13), respectively (refer to Table 10). Recognized numbers include numbers expressed in letters such as Arabic numerals, two, twenty, etc. If % is appended to the number, it can be substituted with a number divided by 100.

Times 및 단위 인식에 있어서, [Times] 혹은 [단위]로 인식된 단어들은 표 10의 단위 열에 해당할 수 있다. [Times]에 해당하는 Times 표현은 'x', 'X', '*', '×', '-fold'를 포함할 수 있다. [단위]는 의료 참조용어 사전에서 수량 유형(Quantitative Concept)에 해당하는 용어들만 인식할 수 있다.In recognizing times and units, words recognized as [Times] or [unit] may correspond to the unit column of Table 10. Times expression corresponding to [Times] may include 'x', 'X', '*', '×', and '-fold'. [Unit] can recognize only terms corresponding to the Quantitative Concept in the medical reference dictionary.

비교 대상 인식에 있어서, [비교 대상]으로 인식된 단어들은 표 10의 비교 대상 열에 해당할 수 있다. [비교 대상] 역시 [단위]와 마찬가지로 의료 참조용어 사전에서 수량 유형(Quantitative Concept)에 해당하는 용어들만 인식한다.In the comparison target recognition, words recognized as [comparison target] may correspond to the comparison target column of Table 10. [Comparison target], like [Unit], recognizes only terms that correspond to Quantitative Concepts in the medical reference terminology dictionary.

그밖에, [비교 대상]과 [Times] 사이에 관사가 들어가는 것을 허용할 수 있다. 예를 들어, 'bilirubin

Figure 112022058313761-pat00011
2.0 X the upper limit of normal (ULN)'의 경우 관사인 'the'를 무시하므로 인식 결과, 키워드는 bilirubin, 부등호는
Figure 112022058313761-pat00012
, 숫자는 2.0, Times는 X, 비교 대상은 upper limit of normal이 될 수 있다. 또한, twice는 [숫자]와 [Times]의 결합 형태로 간주하여 처리할 수 있다.In addition, an article may be allowed between [Compare object] and [Times]. For example, 'bilirubin'
Figure 112022058313761-pat00011
2.0 X the upper limit of normal (ULN)' ignores the article 'the'. As a result, the keyword is bilirubin, and the inequality sign is
Figure 112022058313761-pat00012
, the number is 2.0, Times is X, and the comparison target can be the upper limit of normal. Also, twice can be treated as a combination of [Number] and [Times].

한편, 단계 S321에서도 부정 탐지 방법에 적용했던 Rconj 규칙을 적용할 수 있다. 예를 들어, 'AST and ALT no greater than 2.5 times ULN'의 경우, 단순히 정규 표현식을 적용하면 AST의 범위를 인식할 수 없다. 따라서, Rconj 규칙을 적용해, postag가 같은 복수 개의 용어가 conj 혹은 appos 종속성 관계로 이어져 있는 경우, 한 용어에 대한 범위가 정해지면 다른 용어의 범위도 동일하게 처리할 수 있다.Meanwhile, in step S321, the Rconj rule applied to the fraud detection method may be applied. For example, in the case of 'AST and ALT no greater than 2.5 times ULN', simply applying a regular expression does not recognize the range of AST. Therefore, by applying the Rconj rule, when a plurality of terms with the same postag are connected by a conj or appos dependency relationship, if the scope of one term is determined, the scope of other terms can be treated equally.

단계 S322에서는, 표준화된 숫자를 키워드별 속성으로 추출하며, 추출한 키워드별 속성, 표준화된 단위 및 비교 대상을 출력할 수 있다. 단계 S322 이후에는, 같은 문장에 대해 단계 S330의 부정 탐지를 수행하여, 부정 또는 긍정으로 속성을 인식할 수 있다.In step S322, a standardized number is extracted as an attribute for each keyword, and the extracted attribute for each keyword, a standardized unit, and a comparison target may be output. After step S322, the negative detection of step S330 may be performed for the same sentence, and the attribute may be recognized as negative or positive.

표 10에서 알고리즘 ID가 1로 표시된 항목을 살펴보면 키워드별로 속성이 1(긍정) 또는 0(부정)으로 인식된 것을 확인할 수 있고, 알고리즘 ID가 2로 표시된 항목을 살펴보면, 속성(수치), 단위, 비교 대상 등이 성공적으로 인식된 것을 확인할 수 있다. 이와 같이, 임상 연구 정보에 포함된 임상 참여 조건에서 속성을 인식해 정형화 및 데이터베이스화함으로써, 임상 참여 조건을 환자 정보와 매핑해 임상 시험 추천의 용도로 다양하게 활용할 수 있다.If you look at the items marked with an algorithm ID of 1 in Table 10, you can see that the attribute is recognized as 1 (positive) or 0 (negative) for each keyword. It can be confirmed that the comparison target has been successfully recognized. In this way, by recognizing the attributes of the clinical participation conditions included in the clinical research information, formalizing them and making them into a database, the clinical participation conditions can be mapped with patient information and used in various ways for clinical trial recommendations.

전술한 바와 같이, 본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에 따르면, 임상 연구 데이터의 주제를 분류하고 키워드를 추출한 다음, 임상 연구 데이터에서 키워드를 이용해 문장을 수집하고, 수집된 문장에서 키워드에 대한 속성을 인식해 정형화함으로써, 임상 참여 조건을 데이터 파이프라인 처리하여 효율적으로 데이터베이스화할 수 있다. 또한, 본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에 따르면, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해, 수집한 문장에서 키워드에 대한 부정을 탐지함으로써, 임상 참여 조건에서 일관되고 정확도 높게 키워드의 부정을 탐지하여 속성을 정형화할 수 있으며, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 숫자, 단위, 비교 대상 등의 속성을 인식함으로써, 부등호를 포함해 표현되는 임상 참여 조건을 효과적으로 정형화할 수 있다.As described above, according to the data pipeline processing method for standardization of clinical participation conditions proposed in the present invention, the subject of clinical research data is classified and keywords are extracted, and then sentences are collected using keywords from clinical research data, and , by recognizing and formalizing the attributes of keywords in the collected sentences, it is possible to process the clinical participation conditions with a data pipeline and efficiently create a database. In addition, according to the data pipeline processing method for standardization of clinical participation conditions proposed in the present invention, a negative term dictionary modified to match the identification of clinical participation conditions is included and additional rules for negative detection are added to the DEEPEN algorithm By detecting the negation of the keyword in the collected sentences using the modified DEEPEN algorithm constructed by By separating and recognizing attributes such as numbers, units, and comparison targets for each keyword, it is possible to effectively standardize the clinical participation conditions expressed including the inequality sign.

한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.Meanwhile, the present invention may include a computer-readable medium including program instructions for performing operations implemented in various communication terminals. For example, the computer-readable medium includes magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD_ROM and DVD, and floppy disks. It may include magneto-optical media and hardware devices specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.

이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.Such a computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. In this case, the program instructions recorded in the computer-readable medium may be specially designed and configured to implement the present invention, or may be known and available to those skilled in the art of computer software. For example, it may include not only machine language code such as generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.Various modifications and applications of the present invention described above are possible by those skilled in the art to which the present invention pertains, and the scope of the technical idea according to the present invention should be defined by the following claims.

S100: 임상 연구 데이터에 포함된 임상 참여 주제 라벨을 주제 아이디로 매핑하여 임상 연구 데이터의 주제를 분류하는 단계
S110: 임상 참여 주제 라벨과 의료 참조용어 사전의 용어를 각각 정규화하여 토큰화된 주제 데이터와 토큰화된 참조용어를 생성하는 단계
S120: 토큰화된 참조용어에서 중복을 제거하고, 토큰화된 주제 데이터와 비교하는 단계
S130: 토큰화된 주제 데이터가 중복이 제거된 토큰화된 참조용어와 일치하면, 해당하는 용어의 주제 아이디를 매핑하는 단계
S140: 토큰화된 주제 데이터가 중복이 제거된 토큰화된 참조용어와 일치하지 않으면, 토큰화된 주제 데이터에 약어 정규화를 수행해 토큰화된 참조용어와 비교하여 주제 아이디를 매핑하는 단계
S150: 매핑 결과를 결합해 주제를 분류하는 단계
S200: 분류된 임상 연구 데이터에서 주제별 키워드와 주제에 공통되는 공통 키워드를 추출하는 단계
S300: 임상 연구 데이터에서 주제별 키워드 및 공통 키워드를 포함하는 포함 문장 및 포함 문장의 후행 문장을 수집하고, 수집된 문장의 속성을 인식하는 단계
S310: 임상 연구 데이터에서 키워드가 포함된 포함 문장 및 포함 문장의 후행 문장을 수집하는 단계
S320: 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 속성을 추출하는 단계
S321: 문장에서 부등호, times, 단위 및 비교 대상을 인식하며, 키워드, 단위, times의 표현을 표준화하는 단계
S322: 인식된 숫자를 키워드별 속성으로 추출하며, 추출한 키워드별 속성, 표준화된 단위 및 비교 대상을 출력하는 단계
S330: 수집된 문장에서 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 단계
S100: Classifying subjects of clinical study data by mapping clinical participation subject labels included in clinical study data to subject IDs
S110: Generating tokenized subject data and tokenized reference terms by normalizing each of the clinical participation subject label and the medical reference terminology dictionary
S120: removing duplicates from tokenized reference terms, and comparing with tokenized subject data
S130: If the tokenized subject data matches the deduplicated tokenized reference term, mapping the subject ID of the corresponding term
S140: if the tokenized topic data does not match the deduplicated tokenized reference term, performing abbreviation normalization on the tokenized topic data to map the topic ID compared to the tokenized reference term
S150: Classifying topics by combining the mapping results
S200: extracting keywords for each topic and common keywords common to the topics from the classified clinical research data
S300: Collecting an included sentence including a topical keyword and a common keyword and a trailing sentence of the included sentence from the clinical research data, and recognizing the properties of the collected sentence
S310: Collecting the containing sentence including the keyword and the following sentence of the containing sentence from the clinical research data
S320: A step of separating the inequality sign and the numerical value from the sentence including the inequality sign and extracting attributes for each keyword
S321: Recognizing an inequality sign, times, unit and comparison object in a sentence, and standardizing the expression of keywords, units, and times
S322: extracting the recognized number as a keyword-specific attribute, and outputting the extracted keyword-specific attribute, standardized unit, and comparison target
S330: Detecting negative for keywords in the collected sentences and labeling them as negative or positive

Claims (8)

임상 연구 데이터에서 임상 참여 조건을 식별해 정형화하여 데이터베이스화하기 위한 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법으로서,
(1) 의료 참조용어 사전을 이용해 임상 연구 데이터에 포함된 임상 참여 주제 라벨을 주제 아이디로 매핑하여 임상 연구 데이터의 주제를 분류하는 단계;
(2) 상기 단계 (1)에서 분류된 임상 연구 데이터의 임상 참여 조건에서, 의료 참조용어 사전을 이용해 주제별 키워드와 주제에 공통되는 공통 키워드를 추출하는 단계; 및
(3) 상기 임상 연구 데이터에서 상기 주제별 키워드 및 공통 키워드를 포함하는 포함 문장 및 상기 포함 문장의 후행 문장을 수집하고, 수집된 문장의 속성을 인식하는 단계를 포함하며,
상기 단계 (3)에서는,
상기 수집된 문장에서 상기 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하되,
상기 단계 (3)에서는,
상기 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해 부정을 탐지하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법.
A data pipeline processing method for formalizing clinical participation conditions for identifying, formalizing, and databaseizing clinical participation conditions in clinical research data, the data pipeline processing method comprising:
(1) classifying subjects of clinical research data by mapping clinical participation subject labels included in clinical research data to subject IDs using a medical reference terminology dictionary;
(2) extracting keywords for each topic and common keywords common to the topics by using a medical reference dictionary under the clinical participation conditions of the clinical research data classified in step (1); and
(3) collecting, from the clinical research data, the containing sentences including the subject-specific keywords and the common keywords and the following sentences of the containing sentences, and recognizing the properties of the collected sentences,
In step (3),
Detecting negation of the keyword in the collected sentences and labeling it as negative or positive,
In step (3),
Normalization of clinical participation conditions, characterized in that it includes a modified terminology dictionary modified to match the identification of the clinical participation condition and detects fraud using a modified DEEPEN algorithm configured by adding an additional rule for fraud detection to the DEEPEN algorithm data pipeline processing methods for
제1항에 있어서, 상기 의료 참조용어 사전은,
용어와 각 용어의 개념별 주제 아이디로 구성되는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법.
According to claim 1, wherein the medical reference dictionary,
A data pipeline processing method for standardization of clinical participation conditions, characterized in that it consists of terms and subject IDs for each concept of each term.
제1항에 있어서, 상기 단계 (1)은,
(1-1) 상기 임상 참여 주제 라벨과 상기 의료 참조용어 사전의 용어를 각각 공백 정규화, 대소문자 정규화, 불용어 제거 및 로마 숫자 정규화하여 토큰화된 주제 데이터와 토큰화된 참조용어를 생성하는 단계;
(1-2) 상기 토큰화된 참조용어에서 중복을 제거하고, 상기 토큰화된 주제 데이터와 비교하는 단계;
(1-3) 상기 토큰화된 주제 데이터가 중복이 제거된 상기 토큰화된 참조용어와 일치하면, 해당하는 용어의 주제 아이디를 매핑하는 단계;
(1-4) 상기 토큰화된 주제 데이터가 중복이 제거된 상기 토큰화된 참조용어와 일치하지 않으면, 상기 토큰화된 주제 데이터에 약어 정규화를 수행하며, 약어 정규화 결과와 중복이 제거된 상기 토큰화된 참조용어와 비교해, 해당하는 용어의 주제 아이디를 매핑하는 단계; 및
(1-5) 상기 단계 (1-3)과 단계 (1-4)의 매핑 결과를 결합해 주제를 분류하는 단계를 포함하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법.
According to claim 1, wherein the step (1),
(1-1) generating tokenized subject data and tokenized reference terms by performing blank normalization, case normalization, stopword removal, and Roman numeral normalization of the clinical participation subject label and the terms of the medical reference terminology dictionary, respectively;
(1-2) removing duplicates from the tokenized reference term and comparing it with the tokenized subject data;
(1-3) if the tokenized subject data matches the tokenized reference term from which duplicates have been removed, mapping the subject ID of the corresponding term;
(1-4) If the tokenized subject data does not match the tokenized reference term from which duplicates have been removed, abbreviation normalization is performed on the tokenized subject data, and the abbreviation normalization result and the duplicated token are removed mapping the subject ID of the corresponding term compared to the localized reference term; and
(1-5) A data pipeline processing method for standardization of clinical participation conditions, comprising the step of classifying subjects by combining the mapping results of steps (1-3) and (1-4) .
제1항에 있어서, 상기 단계 (2)에서는,
상기 임상 연구 데이터의 임상 참여 조건에서 의료 참조용어 사전의 색인용어를 인식하며, 인식된 색인용어의 빈도에 기초하여 상기 주제별 키워드와 공통 키워드를 추출하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법.
The method of claim 1, wherein in step (2),
For the standardization of clinical participation conditions, characterized in that the index terms of the medical reference dictionary are recognized in the clinical participation conditions of the clinical study data, and the subject-specific keywords and common keywords are extracted based on the frequency of the recognized index terms How to process the data pipeline.
삭제delete 제1항에 있어서, 상기 단계 (3)은,
(3-1) 상기 임상 연구 데이터에서, 키워드(상기 주제별 키워드 및 공통 키워드로 구성됨)가 포함된 포함 문장 및 상기 포함 문장의 후행 문장을 수집하는 단계; 및
(3-3) 상기 변형 DEEPEN 알고리즘을 이용해, 상기 수집된 문장(상기 포함 문장 및 후행 문장을 포함함)에서 상기 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 단계를 포함하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법.
According to claim 1, wherein the step (3),
(3-1) collecting, from the clinical research data, an embedded sentence including a keyword (consisting of the subject-specific keyword and a common keyword) and a sentence following the containing sentence; and
(3-3) using the modified DEEPEN algorithm, detecting negation of the keyword in the collected sentences (including the containing sentence and the following sentence) and labeling it negatively or positively , a data pipeline processing method for the formalization of clinical participation conditions.
제6항에 있어서, 상기 단계 (3-1)과 단계 (3-3) 사이에는,
(3-2) 상기 수집된 문장이 부등호 사전의 부등호를 포함하면, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 속성을 추출하는 단계를 더 포함하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법.
The method according to claim 6, wherein between step (3-1) and step (3-3),
(3-2) If the collected sentences include the inequality sign of the inequality sign dictionary, separating the inequality sign and the numerical value from the sentence containing the inequality sign and extracting attributes for each keyword, characterized in that it further comprises the step of How to process data pipelines for canonicalization.
제1항에 있어서, 상기 변형된 부정 용어 사전은,
NegEx 의사 부정 용어에 추가되는 임상 참여 조건을 위한 의사 부정 용어;
선행 및 후행 부정 용어의 규칙에 추가되는 제1 용어 규칙 및 제2 용어 규칙; 및
NegEx 선후행 용어에 추가되는 임상 참여 조건을 위한 선행 부정 용어 및 후행 부정 용어를 상기 DEEPEN 알고리즘의 부정 용어 사전에 추가하여 구축되는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법.
According to claim 1, wherein the modified negative term dictionary,
pseudo-negative terms for clinical participation conditions in addition to NegEx pseudo-negative terms;
a first term rule and a second term rule added to the rule of preceding and trailing negative terms; and
A data pipeline processing method for standardization of clinical participation conditions, characterized in that it is constructed by adding leading negative terms and trailing negative terms for clinical participation conditions added to NegEx preceding and trailing terms to the negative term dictionary of the DEEPEN algorithm.
KR1020220067882A 2022-06-03 2022-06-03 Data pipeline processing method for formalization of clinical participation conditions KR102464893B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220067882A KR102464893B1 (en) 2022-06-03 2022-06-03 Data pipeline processing method for formalization of clinical participation conditions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220067882A KR102464893B1 (en) 2022-06-03 2022-06-03 Data pipeline processing method for formalization of clinical participation conditions

Publications (1)

Publication Number Publication Date
KR102464893B1 true KR102464893B1 (en) 2022-11-09

Family

ID=84040243

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220067882A KR102464893B1 (en) 2022-06-03 2022-06-03 Data pipeline processing method for formalization of clinical participation conditions

Country Status (1)

Country Link
KR (1) KR102464893B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210084909A (en) * 2019-12-30 2021-07-08 (주)메디아이플러스 Method and device for matching clinical trials data
KR102318674B1 (en) * 2020-10-27 2021-10-28 (주)메디아이플러스 Method of predicting clinical trial keyword and server performing the same
KR20210152126A (en) * 2020-06-08 2021-12-15 (주)메디아이플러스 Data classification system and method for clinical trial discovery

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210084909A (en) * 2019-12-30 2021-07-08 (주)메디아이플러스 Method and device for matching clinical trials data
KR20210152126A (en) * 2020-06-08 2021-12-15 (주)메디아이플러스 Data classification system and method for clinical trial discovery
KR102318674B1 (en) * 2020-10-27 2021-10-28 (주)메디아이플러스 Method of predicting clinical trial keyword and server performing the same

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
P. Thompson 외, "Annotation and detection of drug effects in text for pharmacovigilance", Journal of Cheminformatics, 10:37. (2018.08.13)* *
R. R. Zavala 외, "The Impact of Pretrained Language Models on Negation and Speculation Detection in Cross-Lingual Medical Text: Comparative Study", JMIR Medical Informatics, 8(12). (2020.12.03.)* *

Similar Documents

Publication Publication Date Title
Henriksson et al. Identifying adverse drug event information in clinical notes with distributional semantic representations of context
Liu et al. Natural language processing methods and systems for biomedical ontology learning
Azmi et al. An abstractive Arabic text summarizer with user controlled granularity
US9792277B2 (en) System and method for determining the meaning of a document with respect to a concept
Rokach et al. Negation recognition in medical narrative reports
Ehsan et al. Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information
Elhammadi et al. A high precision pipeline for financial knowledge graph construction
Goryachev et al. Implementation and evaluation of four different methods of negation detection
Hammami et al. Automated classification of cancer morphology from Italian pathology reports using Natural Language Processing techniques: A rule-based approach
Gero et al. PMCVec: Distributed phrase representation for biomedical text processing
Küçük Automatic compilation of language resources for named entity recognition in Turkish by utilizing Wikipedia article titles
Veena et al. Relation extraction in clinical text using NLP based regular expressions
Aljohani et al. An in-text citation classification predictive model for a scholarly search system
Veisi et al. Multi-level text document similarity estimation and its application for plagiarism detection
Singh et al. Writing Style Change Detection on Multi-Author Documents.
Mutlu et al. Enhanced sentence representation for extractive text summarization: Investigating the syntactic and semantic features and their contribution to sentence scoring
El-Rashidy et al. Reliable plagiarism detection system based on deep learning approaches
Jariwala Optimal feature extraction based machine learning approach for sarcasm type detection in news headlines
Khaing et al. Stock trend extraction using rule-based and syntactic feature-based relationships between named entities
Kim et al. Identifying named entities from PubMed® for enriching semantic categories
KR102464893B1 (en) Data pipeline processing method for formalization of clinical participation conditions
Abolohom et al. A hybrid approach to pronominal anaphora resolution in Arabic
Hagiwara et al. Supervised synonym acquisition using distributional features and syntactic patterns
Morato et al. Experiments in discourse analysis impact on information classification and retrieval algorithms
KR102441576B1 (en) Attribute recognition method for formalization of clinical participation conditions

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant