KR102441576B1 - 임상 참여 조건의 정형화를 위한 속성 인식 방법 - Google Patents

임상 참여 조건의 정형화를 위한 속성 인식 방법 Download PDF

Info

Publication number
KR102441576B1
KR102441576B1 KR1020220067881A KR20220067881A KR102441576B1 KR 102441576 B1 KR102441576 B1 KR 102441576B1 KR 1020220067881 A KR1020220067881 A KR 1020220067881A KR 20220067881 A KR20220067881 A KR 20220067881A KR 102441576 B1 KR102441576 B1 KR 102441576B1
Authority
KR
South Korea
Prior art keywords
negative
clinical
term
keyword
sentence
Prior art date
Application number
KR1020220067881A
Other languages
English (en)
Inventor
김학재
유한정
최윤창
Original Assignee
주식회사 클래스액트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 클래스액트 filed Critical 주식회사 클래스액트
Priority to KR1020220067881A priority Critical patent/KR102441576B1/ko
Application granted granted Critical
Publication of KR102441576B1 publication Critical patent/KR102441576B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

본 발명은 임상 참여 조건의 정형화를 위한 속성 인식 방법에 관한 것으로서, 보다 구체적으로는 임상 연구 데이터에서 임상 참여 조건을 식별해 정형화하여 데이터베이스화하기 위한 임상 참여 조건의 정형화를 위한 속성 인식 방법으로서, (1) 상기 임상 연구 데이터에서, 상기 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드가 포함된 포함 문장 및 상기 포함 문장의 후행 문장을 수집하는 단계; 및 (3) 상기 수집된 문장(상기 포함 문장 및 후행 문장을 포함함)에서 상기 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 단계를 포함하며, 상기 단계 (3)에서는, 상기 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해 부정을 탐지하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 속성 인식 방법에 따르면, 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드를 이용해 임상 연구 데이터에서 문장을 수집하고, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해, 수집한 문장에서 키워드에 대한 부정을 탐지함으로써, 임상 참여 조건에서 일관되고 정확도 높게 키워드의 부정을 탐지하여 정형화할 수 있다.
또한, 본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 속성 인식 방법에 따르면, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 숫자, 단위, 비교 대상 등의 속성을 인식함으로써, 부등호를 포함해 표현되는 임상 참여 조건을 효과적으로 정형화할 수 있다.

Description

임상 참여 조건의 정형화를 위한 속성 인식 방법{ATTRIBUTE RECOGNITION METHOD FOR FORMALIZATION OF CLINICAL PARTICIPATION CONDITIONS}
본 발명은 임상 참여 조건의 정형화를 위한 속성 인식 방법에 관한 것으로서, 보다 구체적으로는 임상 연구 데이터에서 임상 참여 조건을 식별해 정형화하여 데이터베이스화하기 위한 임상 참여 조건의 정형화를 위한 속성 인식 방법에 관한 것이다.
임상 연구 정보에 포함된 임상 참여 조건은 환자 정보와 매핑되어 임상 시험 추천의 용도로 다양하게 활용될 수 있다. 따라서 임상 시험 추천을 위해 임상 참여 조건을 정형화 및 데이터베이스화할 필요가 있다. 이를 위하여 임상 연구 정보를 처리하여 키워드를 추출하고 키워드별 속성을 인식할 수 있는 기술이 필요하다.
부정 탐지는 자연어 처리에서 중요한 문제로, 다수의 연구자들이 해당 문제를 해결하기 위해 노력하였다. 해당 문제를 해결하기 위해 연구자들이 시도한 방법은 규칙 기반 알고리즘, 통계 기반 알고리즘, 머신 러닝 알고리즘 등으로 나뉜다. 최근 연구에 따르면 머신 러닝 알고리즘의 성능이 다른 두 알고리즘의 성능을 앞서는 것으로 나타난다.
그런데 의료 자연어는 제한이 없는 문서보다 어휘적으로 덜 모호하며, 부정의 대상이 소수의 의미 유형으로 제한되고, 부정을 포함한 문구가 한정되어 있다는 특성을 가진다. 이에 정교한 언어적 방법론을 사용하지 않고도 부정 탐지를 적절히 구현할 수 있다고 연구되었다. 따라서 의료 데이터의 특성상 규칙 기반 알고리즘을 이용한 부정 탐지 방법을 사용해 적은 계산량으로 높은 정확도를 얻을 수 있다.
NegEx, DepNeg, DEEPEN은 모두 규칙 기반 알고리즘으로 분리된 문장과 문장에서 인식된 색인용어(키워드)가 준비되어야 진행할 수 있으며, 한 번에 한 문장을 처리한다.
먼저, NegEx(CHAPMAN ET AL., A Simple Algorithm for Identifying Negated Findings and Diseases in Discharge Summaries, journal of Biomedical Informatics 34, 301-310 (2001))는 3가지 유형의 부정 용어((1) 의사 부정 용어, (2) 선행 부정 용어, (3) 후행 부정 용어)를 사용한 정규 표현식에 기반하여 작동된다.
다음으로, DepNeg 알고리즘은 종속성 경로 패턴을 기반으로 하는 부정 탐지 알고리즘을 개발하여, NegEx 대비 위양성(false positive)을 감소시켜 부정 탐지의 정확도를 제고하였다.
마지막으로, DEEPEN 알고리즘(S. Mehrabi et al., DEEPEN: A negation detection system for clinical text incorporating dependency relation into NegEx, Journal of Biomedical Informatics 54 (2015) 213-219)은 DepNeg 알고리즘과 마찬가지로 부정어와 색인용어(키워드) 간의 종속 관계를 고려한 알고리즘이다. DepNeg와의 가장 큰 차이점은 DEEPEN은 NegEx를 확장한 알고리즘으로 NegEx가 부정으로 판별한 색인용어만 추가 처리를 한다는 점이다. DEEPEN은 NegEx 대비 위양성(false positive)을 감소시켰으며, 특정 데이터에서는 위음성(false negative) 감소시키기도 하였다. DEEPEN과 DepNeg의 성능을 정확히 비교할 수는 없지만 DepNeg에서 사용한 예시 문장을 가지고 그 성능을 비교한 결과 DEEPEN이 DepNeg의 성능을 능가하는 것으로 나타났다.
그러나 DEEPEN은 NegEx가 부정으로 인식하였을 때만 후처리하므로 NegEx가 긍정으로 잘못 인식한 경우는 오류를 수정할 수 없다는 위음성에 대한 한계가 있다. 또한, 특정 도메인, 특정 색인용어에 한정되어 임상 데이터에서 일관된 성능을 보이지 못했다.
한편, 임상 참여 가능 여부에 대한 판별을 위한 부정 탐지의 대상은 병의 유무가 될 수도 있고, 약물의 복용 여부, 특정 치료법의 경험 유무, 특정 치료법의 병행 유무 등 다양하다. 그러나 DEEPEN 알고리즘 등 의료 데이터의 처리를 위한 기존의 부정 탐지 알고리즘은 병의 유무를 판별하는 데 초점을 맞추었다. 이같이 임상 참여 조건의 정형화에 필요한 부정 탐지 대상은 그 범위가 기존 부정 탐지의 대상보다 넓으므로, DEEPEN 알고리즘과 같은 기존의 부정 탐지 알고리즘을 그대로 적용하면 탐지 정확도가 낮은 문제가 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드를 이용해 임상 연구 데이터에서 문장을 수집하고, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해, 수집한 문장에서 키워드에 대한 부정을 탐지함으로써, 임상 참여 조건에서 일관되고 정확도 높게 키워드의 부정을 탐지하여 정형화할 수 있는, 임상 참여 조건의 정형화를 위한 속성 인식 방법을 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 숫자, 단위, 비교 대상 등의 속성을 인식함으로써, 부등호를 포함해 표현되는 임상 참여 조건을 효과적으로 정형화할 수 있는, 임상 참여 조건의 정형화를 위한 속성 인식 방법을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법은,
임상 연구 데이터에서 임상 참여 조건을 식별해 정형화하여 데이터베이스화하기 위한 임상 참여 조건의 정형화를 위한 속성 인식 방법으로서,
(1) 상기 임상 연구 데이터에서, 상기 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드가 포함된 포함 문장 및 상기 포함 문장의 후행 문장을 수집하는 단계; 및
(3) 상기 수집된 문장(상기 포함 문장 및 후행 문장을 포함함)에서 상기 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 단계를 포함하며,
상기 단계 (3)에서는,
상기 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해 부정을 탐지하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (1)에서는,
용어와 각 용어의 개념별 주제 아이디로 구성되는 의료 참조용어 사전을 이용해, 상기 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드를 이용해 문장을 수집할 수 있다.
바람직하게는, 상기 변형된 부정 용어 사전은,
NegEx 의사 부정 용어에 추가되는 임상 참여 조건을 위한 의사 부정 용어;
선행 및 후행 부정 용어의 규칙에 추가되는 제1 용어 규칙 및 제2 용어 규칙; 및
NegEx 선후행 용어에 추가되는 임상 참여 조건을 위한 선행 부정 용어 및 후행 부정 용어를 상기 DEEPEN 알고리즘의 부정 용어 사전에 추가하여 구축될 수 있다.
더욱 바람직하게는, 상기 제1 용어 규칙은,
품사 태그(postag)가 VBN인 토큰을 포함하는 선행 부정 용어가 be 동사 토큰과 직접적 종속 관계이면 후행 부정 용어로 사용하는 것일 수 있다.
더욱 바람직하게는, 상기 제2 용어 규칙은,
품사 태그(postag)가 VBN인 토큰이 be 동사 토큰과 직접적 종속 관계이고, 미리 정해진 부정어가 상기 품사 태그가 VBN인 토큰이나 be 동사 토큰과 직접적 종속 관계이면, 선행 부정 용어인 상기 미리 정해진 부정어를 후행 부정 용어로도 사용하는 것일 수 있다.
바람직하게는, 상기 추가 규칙은,
환자 용어 또는 증상 용어가 미리 설정된 전치사로 상기 키워드와 연결되면, 상기 환자 용어 또는 증상 용어의 부정 시에도 상기 키워드를 부정으로 탐지하는 동일시 규칙;
품사 태그를 사용해 대용어를 판단하고, 대용어에 종속된 토큰의 부정 라벨을 탐지하는 대용어 규칙;
품사 태그가 같은 복수 개의 토큰이 conj 또는 appos 종속성 관계로 연결되면, 연결된 토큰 중 하나가 부정이면 나머지 토큰도 부정으로 탐지하는 Rconj 규칙; 및
종류가 다른 부정 용어에 의해 문장 내에서 두 번 부정되는 키워드를 긍정으로 라벨링하는 이중 부정 규칙을 포함할 수 있다.
바람직하게는, 상기 단계 (1)과 단계 (3) 사이에는,
(2) 상기 수집된 문장이 부등호 사전의 부등호를 포함하면, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 속성을 추출하는 단계를 더 포함할 수 있다.
더욱 바람직하게는,
상기 부등호를 포함하는 문장은 상기 키워드, 부등호 및 숫자를 포함하며, 단위, times 및 비교 대상 중 하나 이상을 추가로 더 포함할 수 있고,
상기 단계 (2)는,
(2-1) 미리 정의된 리스트를 이용해 문장에서 부등호 및 times를 인식하고, 상기 의료 참조용어 사전을 이용해 단위 및 비교 대상을 인식하며, 상기 키워드, 부등호, 숫자, 단위, times 및 비교 대상의 표현을 표준화하는 단계; 및
(2-2) 상기 표준화된 숫자를 상기 키워드별 속성으로 추출하며, 상기 추출한 키워드별 속성, 상기 표준화된 단위 및 비교 대상을 출력하는 단계를 포함할 수 있다.
본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 속성 인식 방법에 따르면, 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드를 이용해 임상 연구 데이터에서 문장을 수집하고, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해, 수집한 문장에서 키워드에 대한 부정을 탐지함으로써, 임상 참여 조건에서 일관되고 정확도 높게 키워드의 부정을 탐지하여 정형화할 수 있다.
또한, 본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 속성 인식 방법에 따르면, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 숫자, 단위, 비교 대상 등의 속성을 인식함으로써, 부등호를 포함해 표현되는 임상 참여 조건을 효과적으로 정형화할 수 있다.
도 1은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서 키워드 추출을 위해 사용하는 주제 라벨을 예를 들어 도시한 도면.
도 3은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서 변형된 부정 용어 사전에 추가되는 의사 부정 용어를 나타낸 도면.
도 4는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서 변형된 부정 용어 사전에 추가되는 선행 부정 용어 및 후행 부정 용어를 나타낸 도면.
도 5는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서, 추가 규칙 중 하나인 동일시 규칙을 설명하기 위해 도시한 도면.
도 6은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서, 단계 S120의 처리 흐름을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서, 단계 S120의 세부적인 흐름을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법의 단계 S120에서 부등호를 포함하는 문장의 종류를 나타낸 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법의 흐름을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법은, 임상 연구 데이터에서 임상 참여 조건을 식별해 정형화하여 데이터베이스화하기 위한 임상 참여 조건의 정형화를 위한 속성 인식 방법으로서, 임상 연구 데이터에서 키워드가 포함된 포함 문장 및 포함 문장의 후행 문장을 수집하는 단계(S110) 및 수집된 문장에서 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 단계(S130)를 포함하여 구현될 수 있으며, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 속성을 추출하는 단계(S120)를 더 포함하여 구현될 수 있다.
본 발명은 임상 참여 조건의 정형화를 위한 속성 인식 방법에 관한 것으로서, 본 발명의 특징에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법은, 메모리 및 프로세서를 포함한 하드웨어에서 기록되는 소프트웨어로 구성될 수 있다. 예를 들어, 본 발명의 임상 참여 조건의 정형화를 위한 속성 인식 방법은, 개인용 컴퓨터, 노트북 컴퓨터, 서버 컴퓨터, PDA, 스마트폰, 태블릿 PC 등에 저장 및 구현될 수 있다. 이하에서는 설명의 편의를 위해, 각 단계를 수행하는 주체는 생략될 수 있다.
본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서는, 임상 연구 정보를 처리하여 키워드를 추출하고 키워드별 속성을 인식하여 임상 참여 조건을 정형화할 수 있다. 여기서, 속성은 단계 S130에서 각 키워드에 라벨링하는 부정 또는 긍정 라벨을 의미할 수 있다. 예를 들어, 특정 질병에 관한 임상 연구인 경우, 키워드는 특정 질병이고, 임상 참여 조건에서 해당 질병의 부정 라벨 또는 긍정 라벨이 속성이 될 수 있다.
또한, 단계 S120에서 처리되는 부등호-수치 분리 방법도 키워드의 속성을 추출하는 방법이다. 단계 S120에서는, 임상 연구자가 임상 연구 정보를 서술할 때 기호, 부등호 등 단순화된 서술 방법을 빈번하게 사용한다는 점을 고려해, 기존 의료 데이터의 정형화에서는 다루지 않았던 부등호-수치 분리 방법을 적용하였다. 부등호-수치 분리 방법에서 인식되는 속성은 키워드와 관련된 수치, 단위, 비교 대상 등일 수 있다.
이와 같이, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서는, 단계 S130의 부정 탐지 방법과 단계 S120의 부등호-수치 분리 방법을 사용해 키워드별 긍정/부정, 수치, 단위, 비교 대상 등의 속성을 인식하여 이를 정형화할 수 있다. 이하에서는, 도 1을 참조하여 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법의 각 단계에 대해 상세히 설명하도록 한다.
단계 S110에서는, 임상 연구 데이터에서, 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드가 포함된 포함 문장 및 포함 문장의 후행 문장을 수집할 수 있다. 여기서, 임상 연구 데이터는 임상 연구 주제 라벨과 임상 참여 조건을 포함할 수 있다.
도 2는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서 키워드 추출을 위해 사용하는 주제 라벨을 예를 들어 도시한 도면이다. 도 2에 도시된 바와 같이, 임상 연구 정보는 개별 임상 연구마다 주제 라벨을 포함한다. 본 발명에서는, 주제 라벨을 이용해 임상 연구 데이터의 주제를 분류하고, 의료 참조용어 사전을 이용해 주제별 키워드와 주제에 공통되는 공통 키워드를 추출할 수 있다. 즉, 주제별로 색인용어를 모아 주제별 키워드를 추출하고, 주제와 관계없이 모든 데이터에서 색인용어를 모아 주제공통 키워드를 추출할 수 있다.
단계 S110에서는, 용어와 각 용어의 개념별 주제 아이디로 구성되는 의료 참조용어 사전을 이용해, 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드를 이용해 문장을 수집할 수 있다. 이때, 키워드는 주제별 키워드와 공통 키워드를 포함할 수 있다.
특히, 단계 S110에서는, 키워드가 포함된 포함 문장 및 포함 문장의 후행 문장을 수집하는데, 분석 대상을 색인용어(키워드)를 포함하는 문장에 한정하지 않고 해당 문장과 관련된 문장까지 범위를 확장하여 분석을 진행함으로써, 속성 인식의 정확도를 높일 수 있다.
단계 S120에서는, 수집된 문장이 부등호 사전의 부등호를 포함하면, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 속성을 추출할 수 있다. 단계 S120은 부등호를 포함하는 문장에 한하여 적용되는 선택적인 과정인바, 모든 문장에 대해 처리되는 단계 S130을 먼저 설명하고, 추후 상세히 설명하도록 한다.
단계 S130에서는, 수집된 문장(포함 문장 및 후행 문장을 포함함)에서 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링할 수 있다. 보다 구체적으로, 단계 S130에서는, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해 부정을 탐지할 수 있다.
즉, 단계 S130에서는, DEEPEN을 변형 및 보완한 변형 DEEPEN 알고리즘을 사용한다. 변형 DEEPEN 알고리즘의 DEEPEN과의 차별점은 다음과 같다. 여기서, DEEPEN 알고리즘 적용을 위해서는 단어 토큰화(tokenize) 및 품사 태깅 과정이 필요하므로, 단계 S110에서 수집된 문장을 토큰화 및 품사 태깅하여 단계 S130을 처리하는 것으로 전제하고 설명하도록 한다.
첫째, 부정어 사전을 임상 참여 조건이라는 도메인에 맞게 용어를 수정하여 사용한다. 둘째, 부정 탐지 분석 대상은 기존의 부정 탐지 방법에서 색인용어(키워드)를 포함한 문장에 한정하였던 것과 달리, 필요에 따라 해당 문장(포함 문장)과 관련된 문장(후행 문장)까지 분석 대상 범위를 확장한다. 셋째, postag 분석을 추가로 활용한다. 넷째, 기존의 DEEPEN에 규칙을 추가하여 위음성을 줄이고자 시도하였다. 다섯째, 의사 부정 용어 및 부정 용어를 추가하고, 부정 용어를 인식하는 방법을 수정함으로써 각각 위양성, 위음성을 줄이고자 하였다. 다섯째, DEEPEN이 NegEx가 부정으로 처리한 문장에 대해서만 재처리를 했던 것과 달리, 부정 탐지 분석의 대상을 확장하였다. 확장된 부정 탐지 분석의 대상을 설정하는 방법에 대한 상세 설명은 아래와 같다.
NegEx는 부정 용어와 색인용어 사이의 토큰이 다섯 개 이하이면, 색인용어의 라벨을 부정으로 처리하는, 토큰 수에 의존적인 방식을 사용하는데, 이 방법은 임상 참여 조건 데이터가 조건이나 괄호 등 부연 설명을 다수 포함한다는 특징을 가지기에 적절하지 않다. 예를 들어 ‘patients treated by lumpectomy and axillary node dissection (or no axillary dissection if sentinel node biopsy is negative) to be followed by breast radiation therapy must be excluded’의 경우에 ‘excluded’가 후행 부정 용어라고 하면, 부정으로 라벨링되어야 하는 ‘lumpectomy’와 ‘axillary node dissection’는 긍정되고, 긍정으로 라벨링되어야 하는 ‘radiation therapy’는 부정될 것이다. 따라서 본 발명에서는 의사 부정 용어와 겹치지 않는 선/후행 부정 용어를 부정 용어와 색인용어 사이의 토큰 개수와 관계없이 선/후 자리에 알맞게 포함하고 있다면, 부정 탐지 분석을 적용하였다.
변형 DEEPEN 알고리즘은, 변형된 부정 용어 사전을 포함하고, 부정 탐지를 위한 추가 규칙을 부가하여 구성되는바, 이하에서는 부정 용어 사전과 추가 규칙에 대해 상세히 설명하도록 한다.
먼저, 변형 DEEPEN 알고리즘의 변형된 부정 용어 사전은, NegEx 의사 부정 용어에 추가되는 임상 참여 조건을 위한 의사 부정 용어; 선행 및 후행 부정 용어의 규칙에 추가되는 제1 용어 규칙 및 제2 용어 규칙; 및 NegEx 선후행 용어에 추가되는 임상 참여 조건을 위한 선행 부정 용어 및 후행 부정 용어를 DEEPEN 알고리즘의 부정 용어 사전에 추가하여 구축될 수 있다.
DEEPEN은 NegEx가 선행되어야 실행할 수 있는 모델이며, NegEx는 3가지 유형의 부정 용어 사전에 기반한다. 첫 번째 유형이 의사 부정 용어, 두 번째 유형이 선행 부정 용어, 세 번째 유형이 후행 부정 용어이다. 단계 S130에서 사용하는 변형 DEEPEN 알고리즘은 DEEPEN, NegEx의 부정 용어 사전의 의사 부정 용어, 선/후행 부정 용어의 포맷을 활용하되, 임상 시험 참여 가능 여부 판별이라는 목적에 알맞도록 사전을 수정하여 사용할 수 있다.
먼저, 의사 부정 용어와 관련하여, NegEx 의사 부정 용어에 임상 참여 조건을 위한 부정 용어를 추가하고, 추가된 용어를 의사 부정 용어로 활용하는 방법을 일부 변경하였다. 도 3은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서 변형된 부정 용어 사전에 추가되는 의사 부정 용어를 나타낸 도면이다. 추가된 용어들은 첫 번째 토큰과 두 번째 토큰이 바로 붙어있거나 그렇지 않더라도 서로 종속 관계에 있으면 의사 부정 용어로 쓰일 수 있다. 즉, 추가된 의사 부정 용어를 포함한 의사 부정 용어 리스트에서 부정 용어의 토큰이 직접적으로 붙어있지 않더라도 토큰들이 서로 직접적인 의존성을 가지면 의사 부정 용어로 간주한다. 예를 들어 ‘no significant increase’를 포함하는 문장의 경우 기존의 방법대로 하면 의사 부정 용어인 것을 인식할 수 없었지만 본 발명에서는 ‘no’와 ‘increase’가 서로 직접적인 의존성을 가지기 때문에 의사 부정 용어임을 인식할 수 있다. 의사 부정 용어를 추가하고, 방법을 변경함으로써 부정이 아닌데 부정으로 잘못 인식되는 위양성을 줄일 수 있다.
다음으로, 선행/후행 부정 용어 규칙을 변경하였는데, 제1 용어 규칙 및 제2 용어 규칙을 포함할 수 있다. NegEx와 DEEPEN에서는 부정 용어를 사전과 사후로 나누어 사용하였다. 따라서 동사가 수동태의 형태로 사용되는 경우 부정 용어임을 인식하지 못하는 경우가 발생하였다. 이러한 문제점을 해결하기 위해 특정 조건을 만족하면 선행 부정 용어이지만 후행 부정 용어로도 사용할 수 있게 하는 몇 가지 규칙을 추가하였다.
여기서, 제1 용어 규칙은, 품사 태그(postag)가 VBN인 토큰을 포함하는 선행 부정 용어가 be 동사 토큰과 직접적 종속 관계이면 후행 부정 용어로 사용하는 것일 수 있다. 여기서, VBN은 품사 태그 중 하나로 ‘verb, past participle’을 나타낼 수 있다. 즉, postag가 VBN인 토큰을 포함하는 선행 부정 용어의 경우 be동사 토큰(be, was, were, being, been)과 직접적 종속 관계일 때, 후행 부정 용어로도 사용할 수 있게 한다. 예를 들어 ‘nephrotic syndrome was ruled out’의 경우, 색인용어인 ‘nephrotic syndrome’의 올바른 라벨은 부정임에도 불구하고,‘ruled out’은 선행 부정 용어이기 때문에 긍정으로 라벨링된다. 그러나 제1 용어 규칙을 적용하면 선행 부정 용어인 ‘ruled out’이 postag가 VBN인 ‘ruled’를 포함하면서 ‘was’와 직접적 종속 관계를 가지므로 ‘ruled out’은 후행 부정 용어로도 사용되며, 색인용어인 ‘nephrotic syndrome’은 부정으로 라벨링될 수 있다.
제2 용어 규칙은, 품사 태그(postag)가 VBN인 토큰이 be 동사 토큰과 직접적 종속 관계이고, 미리 정해진 부정어가 품사 태그가 VBN인 토큰이나 be 동사 토큰과 직접적 종속 관계이면, 선행 부정 용어인 미리 정해진 부정어를 후행 부정 용어로도 사용하는 것일 수 있다. 즉, postag가 VBN인 토큰이 be동사 토큰과 직접적 종속 관계를 가지고, not, no, 혹은 never가 postag가 VBN인 토큰이나 be 동사와 직접적 종속 관계인 경우, 언급한 부정어(not, no, 혹은 never)는 원래 선행 부정 용어이지만 해당 경우에 한하여 후행 부정 용어로도 사용할 수 있게 한다. 이러한 방법을 통해 기존에 부정으로 라벨링 되어야 하지만 긍정으로 라벨링 되었던 위음성을 줄일 수 있다.
마지막으로, 선행 부정 용어 및 후행 부정 용어에 임상 참여 조건을 위한 용어를 추가하였다. 즉, NegEx 선/후행 용어에 전반적 부정 판별에 적용할 수 있는 부정 용어와 임상 시험 참여 가능 여부 판별이라는 목적에 특화된 부정 용어를 추가하였다. 도 4는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서 변형된 부정 용어 사전에 추가되는 선행 부정 용어 및 후행 부정 용어를 나타낸 도면이다. 도 4에서 좌측은 선행 부정 용어, 우측은 후행 부정 용어이며, 임상 시험 참여 가능 여부 판별 목적에 특화된 부정 용어는 밑줄로 표시하였다. 후행 부정 용어의 경우 후행 부정 용어 리스트에 없더라도 제1 용어 규칙 및 제2 용어 규칙에 해당하면 추가하여 사용할 수 있다.
한편, 의사 부정 용어에서와 마찬가지로, 추가된 선행 부정 용어 및 후행 부정 용어를 포함하는 전체 선/후행 부정 용어 리스트에서, 부정 용어들의 토큰이 직접적으로 붙어있지 않더라도 서로 직접적인 의존성(종속 관계)에 있으면 의사 부정 용어로 부정 용어로 간주할 수 있다. 이와 같이, NegEx 선/후행 용어에 전반적 부정 판별에 적용할 수 있는 부정 용어와 임상 시험 참여 가능 여부 판별이라는 목적에 특화된 부정 용어를 추가하고, 부정 용어 인식 방법을 수정함으로써 부정인데 부정을 인식하지 못하는 위음성을 줄일 수 있다.
다음으로, 변형 DEEPEN 알고리즘에서 부정 탐지를 위해 DEEPEN 알고리즘의 규칙에 추가되는 추가 규칙은, 환자 용어 또는 증상 용어가 미리 설정된 전치사로 키워드와 연결되면, 환자 용어 또는 증상 용어의 부정 시에도 키워드를 부정으로 탐지하는 동일시 규칙; 품사 태그를 사용해 대용어를 판단하고, 대용어에 종속된 토큰의 부정 라벨을 탐지하는 대용어 규칙; 품사 태그가 같은 복수 개의 토큰이 conj 또는 appos 종속성 관계로 연결되면, 연결된 토큰 중 하나가 부정이면 나머지 토큰도 부정으로 탐지하는 Rconj 규칙; 및 종류가 다른 부정 용어에 의해 문장 내에서 두 번 부정되는 키워드를 긍정으로 라벨링하는 이중 부정 규칙을 포함할 수 있다.
각각에 대해 상세히 살펴보면, 먼저 동일시 규칙은, 환자 용어 또는 증상 용어가 미리 설정된 전치사로 키워드와 연결되면, 환자 용어 또는 증상 용어의 부정 시에도 키워드를 부정으로 탐지하는 것이다. 도 5는 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서, 추가 규칙 중 하나인 동일시 규칙을 설명하기 위해 도시한 도면이다. 도 5의 좌측은 환자를 나타내는 환자 용어, 우측은 증상을 나타내는 증상 용어에 관해 각각 설명한 것이다. 각 그림에서 가운데는 전치사(with, of, for 등), 좌/우는 해당 전치사의 종속 관계를 의미한다. 가운데의 전치사를 기준으로 색인용어(키워드)와 환자 용어/증상 용어 사이의 종속 관계가 도 5와 같다면, 부정 탐지 시 좌를 우와 동일시한다. 즉, 키워드나 환자 용어/증상 용어 중 하나만 부정으로 인식되어도 색인용어는 부정된다.
대용어 규칙은, 대용어를 인식하지 못하여 부정임에도 불구하고 긍정으로 인식되는 위음성을 줄이기 위한 것이다. 보다 구체적으로, 키워드가 포함된 문장의 토큰의 품사 태그가 NN, NNS, CC, JJ 로만 이루어져 있으면 앞 문장을 탐색하며, 앞 문장이 “following” 토큰을 포함하고 마지막 토큰이 “:”일 때, “following” 토큰에 종속된 토큰이 부정이면, 키워드가 포함된 문장의 키워드를 부정으로 탐지하는 제1 대용어 규칙; 품사 태그가 WDT면서 “that”, “which”, “who” 및 “whom” 중 어느 하나의 대용어 토큰을 포함하는 문장이고, 종속성 관계(dependency)가 미리 설정된 것 중 하나이며, 대용어 토큰이 종속되는 종속 토큰의 품사 태그가 NN 또는 NNS 이면 대용어 토큰과 종속 토큰의 부정 라벨을 동일하게 탐지하는 제2 대용어 규칙을 포함할 수 있다.
제1 대용어 규칙은, 키워드가 포함된 문장의 토큰들의 postag가 NN(Noun, singular or mass), NNS(Noun, plural), CC(Coordinating conjunction), JJ(Adjective)로만 이루어져 있으면 앞 문장을 탐색한다. 앞 문장이 “following” 토큰을 포함하고 마지막 토큰이 “:”이면, “following” 토큰에 종속된 토큰이 부정인지 확인한다. 부정이면 키워드가 포함된 문장의 키워드를 부정으로 탐지할 수 있다.
제2 대용어 규칙은, postag가 WDT(Wh-determiner)이면서 ‘that’, ‘which’, ‘who’, ‘whom’ 중 하나인 토큰을 포함하는 문장이 있다면, dependency가 dobj(direct objective, 직접목적어), iobj(indirect objective, 간접목적어), pobj(object of a preposition), nsbj(nominal subject), nsbjpass(passive nominal subject), xsbj(controlling subject) 중 하나에 해당하면서, 대용어 토큰(‘that’, ‘which’, ‘who’, ‘whom’ 중 어느 하나)이 종속되는 토큰의 종속 토큰의 postag가 NN 혹은 NNS인지 확인한다. 조건에 부합한다면 대용어 토큰과 대용어가 가리키는 종속 토큰은 부정 라벨을 같이할 수 있다.
Rconj 규칙에서는, postag가 같은 복수 개의 토큰이 conj(conjunction, 접속사) 혹은 appos(apposition, 동격) 종속성 관계로 이어져 있는 경우, 한 토큰이 부정이면 다른 용어도 부정으로 탐지할 수 있다. 해당 규칙을 통해 부정임에도 불구하고 긍정으로 인식되는 위음성을 줄일 수 있다.
이중 부정 규칙에서는, 종류가 다른 부정 용어에 의해 각 한 번, 총 두 번 부정되는 경우 긍정으로 처리할 수 있다. 예를 들어, ‘No contraindications for the use of corticosteroids as premedication’에서 ‘corticosteroids’는 no에 의해서도 부정되고, contraindications에 의해서도 부정되므로 긍정으로 라벨링할 수 있다.
도 6은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서, 단계 S120의 처리 흐름을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서는, 부등호가 포함된 문장에 대해서는 단계 S120의 부등호-수치 분리 방법을 적용한 다음 단계 S130의 부정 탐지 방법을 적용할 수 있다. 이때, 단계 S110에서 수집된 문장에는 키워드가 포함되어 있으므로, 단계 S120에서는, 키워드와 부등호가 모두 포함된 문장을 처리하게 된다.
도 7은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법에서, 단계 S120의 세부적인 흐름을 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법의 단계 S120은, 문장에서 부등호, times, 단위 및 비교 대상을 인식하며, 키워드, 단위, times의 표현을 표준화하는 단계(S121) 및 인식된 숫자를 키워드별 속성으로 추출하며, 추출한 키워드별 속성, 표준화된 단위 및 비교 대상을 출력하는 단계(S122)를 포함하여 구현될 수 있다.
도 8은 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법의 단계 S120에서 부등호를 포함하는 문장의 종류를 나타낸 도면이다. 단계 S120에서는, 부등호를 포함하는 문장이 도 8에 도시된 바와 같이 ⓐ, ⓑ, ⓒ 구조 중 하나에 해당한다고 가정하고, 정규 표현식을 사용하여 키워드, 부등호, 숫자, 단위 및 Times, 비교 대상을 인식할 수 있다. 부등호를 포함하는 문장은 키워드, 부등호 및 숫자를 포함하며, 단위, times 및 비교 대상 중 하나 이상을 추가로 더 포함할 수 있다. 즉, 키워드, 부등호, 숫자(수치)는 반드시 포함하며, 단위 및 Times, 비교 대상은 있을 수도 있고 없을 수도 있다. 키워드, 단위, 비교 대상은 인식 후 표준화하는 과정을 거친다. 즉, 키워드, 단위, 비교 대상은 연구자마다 다양한 표현을 사용할 수 있으므로 DB화를 위해 대표 표현형을 사용해 표준화하며, Times 표현 또한 다양하므로 DB화를 위해 Times로 통일할 수 있다.
이하에서는, 도 6 내지 도 8을 참조하여, 본 발명의 일실시예에 따른 임상 참여 조건의 정형화를 위한 속성 인식 방법의 단계 S120의 각 단계에 대해 상세히 설명하도록 한다.
단계 S121에서는, 미리 정의된 리스트를 이용해 문장에서 부등호 및 times를 인식하고, 의료 참조용어 사전을 이용해 단위 및 비교 대상을 인식하며, 키워드, 부등호, 숫자, 단위, times 및 비교 대상의 표현을 표준화할 수 있다. 즉, 부등호, Times는 미리 정의된 리스트 안에 속하는 단어만을 인식하며, 숫자는 아라비아 숫자나 영문자로 표현된 숫자를 인식하고, 단위, 비교 대상은 의료참조용어체계에서 용어 유형이 특정 타입에 속하는 단어만을 인식한다. 예를 들면, 'Bilirubin < 3.0 ㎎/㎗'의 경우, 키워드가 Bilirubin, 부등호가 <, 숫자가 3.0, 단위가 ㎎/㎗이 되며, 'Alkaline phosphatase ≤ 20% times ULN'의 경우 키워드가 Alkaline phosphatase, 부등호가 ≤, 숫자가 0.2, Times가 times, 비교 대상이 ULN이 된다. 이와 같이 인식된 결과는 데이터베이스화하기 위해 표준화 과정을 거치게 된다. 이하에서는, 단계 S121에서 인식하는 인식 단위별로 상세히 설명하도록 한다.
먼저, 부등호의 인식에 있어서, 도 8의 ⓐ, ⓑ 구조의 [부등호]에 해당하는 부등호 표현은 다음 표 1과 같은 미리 정의된 리스트와 같으며, 이상, 이하, 미만, 초과로 나뉠 수 있다. 단계 S121에서는, [키워드]를 인식하여 키워드 열에 키워드_max, 키워드_min 열을 생성하고, 하나의 임상 연구 ID에서 키워드에 대해 이상/초과와 이하/미만 표현이 공존하면 키워드_max, 키워드_min 열을 동시에 사용하고 그렇지 않으면 한 열만 사용한다(다음 표 2 참고).
Figure 112022058312906-pat00001
Figure 112022058312906-pat00002
표 2는 단계 S120과 단계 S130의 속성 인식 결과를 합해 정형화하여 나타낸 예시이다. 여기서, 임상 연구 ID는 임상 연구 데이터별로 ID를 할당한 것이고, 임상 주제 ID는 개별 임상 연구에 포함된 주제 라벨을 사용해 임상 주제별로 ID를 할당한 것이며, 알고리즘 ID가 1인 것은 단계 S130의 부정 탐지 방법이고, 알고리즘 ID가 2인 것은 단계 S120의 부등호-수치 분리 방법을 나타낸다.
숫자 인식에 있어서, [숫자]에 인식된 값을 '숫자'라고 할 때, [부등호]가 이상 혹은 이하에 속하면 키워드_min, 키워드_max 값에 해당하는 속성 열에 '숫자'를 표기하고, 초과 혹은 미만이면 각각 키워드_min, 키워드_max 값을 '숫자' + (1e-13), '숫자' - (1e-13)로 표기할 수 있다(표 2 참고). 인식하는 숫자는 아라비아 숫자, two, twenty 등 문자로 표현된 숫자를 포함하며, 숫자에 %가 붙으면 100으로 나눈 수로 치환할 수 있다.
Times 및 단위 인식에 있어서, [Times] 혹은 [단위]로 인식된 단어들은 표 2의 단위 열에 해당할 수 있다. [Times]에 해당하는 Times 표현은 'x', 'X', '*', '×', '-fold'를 포함할 수 있다. [단위]는 의료 참조용어 사전에서 수량 유형(Quantitative Concept)에 해당하는 용어들만 인식할 수 있다.
비교 대상 인식에 있어서, [비교 대상]으로 인식된 단어들은 표 2의 비교 대상 열에 해당할 수 있다. [비교 대상] 역시 [단위]와 마찬가지로 의료 참조용어 사전에서 수량 유형(Quantitative Concept)에 해당하는 용어들만 인식한다.
그밖에, [비교 대상]과 [Times] 사이에 관사가 들어가는 것을 허용할 수 있다. 예를 들어, 'bilirubin
Figure 112022058312906-pat00003
2.0 X the upper limit of normal (ULN)'의 경우 관사인 'the'를 무시하므로 인식 결과, 키워드는 bilirubin, 부등호는
Figure 112022058312906-pat00004
, 숫자는 2.0, Times는 X, 비교 대상은 upper limit of normal이 될 수 있다. 또한, twice는 [숫자]와 [Times]의 결합 형태로 간주하여 처리할 수 있다.
한편, 단계 S121에서도 부정 탐지 방법에 적용했던 Rconj 규칙을 적용할 수 있다. 예를 들어, 'AST and ALT no greater than 2.5 times ULN'의 경우, 단순히 정규 표현식을 적용하면 AST의 범위를 인식할 수 없다. 따라서, Rconj 규칙을 적용해, postag가 같은 복수 개의 용어가 conj 혹은 appos 종속성 관계로 이어져 있는 경우, 한 용어에 대한 범위가 정해지면 다른 용어의 범위도 동일하게 처리할 수 있다.
단계 S122에서는, 표준화된 숫자를 키워드별 속성으로 추출하며, 추출한 키워드별 속성, 표준화된 단위 및 비교 대상을 출력할 수 있다. 단계 S122 이후에는, 같은 문장에 대해 단계 S130의 부정 탐지를 수행하여, 부정 또는 긍정으로 속성을 인식할 수 있다.
표 2에서 알고리즘 ID가 1로 표시된 항목을 살펴보면 키워드별로 속성이 1(긍정) 또는 0(부정)으로 인식된 것을 확인할 수 있고, 알고리즘 ID가 2로 표시된 항목을 살펴보면, 속성(수치), 단위, 비교 대상 등이 성공적으로 인식된 것을 확인할 수 있다. 이와 같이, 임상 연구 정보에 포함된 임상 참여 조건에서 속성을 인식해 정형화 및 데이터베이스화함으로써, 임상 참여 조건을 환자 정보와 매핑해 임상 시험 추천의 용도로 다양하게 활용할 수 있다.
전술한 바와 같이, 본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 속성 인식 방법에 따르면, 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드를 이용해 임상 연구 데이터에서 문장을 수집하고, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해, 수집한 문장에서 키워드에 대한 부정을 탐지함으로써, 임상 참여 조건에서 일관되고 정확도 높게 키워드의 부정을 탐지하여 정형화할 수 있다. 또한, 본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 속성 인식 방법에 따르면, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 숫자, 단위, 비교 대상 등의 속성을 인식함으로써, 부등호를 포함해 표현되는 임상 참여 조건을 효과적으로 정형화할 수 있다.
한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
S110: 임상 연구 데이터에서 키워드가 포함된 포함 문장 및 포함 문장의 후행 문장을 수집하는 단계
S120: 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 속성을 추출하는 단계
S121: 문장에서 부등호, times, 단위 및 비교 대상을 인식하며, 키워드, 단위, times의 표현을 표준화하는 단계
S122: 인식된 숫자를 키워드별 속성으로 추출하며, 추출한 키워드별 속성, 표준화된 단위 및 비교 대상을 출력하는 단계
S130: 수집된 문장에서 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 단계

Claims (8)

  1. 임상 연구 데이터에서 임상 참여 조건을 식별해 정형화하여 데이터베이스화하기 위한 임상 참여 조건의 정형화를 위한 속성 인식 방법으로서,
    (1) 상기 임상 연구 데이터에서, 상기 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드가 포함된 포함 문장 및 상기 포함 문장의 후행 문장을 수집하는 단계; 및
    (3) 상기 수집된 문장(상기 포함 문장 및 후행 문장을 포함함)에서 상기 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 단계를 포함하며,
    상기 단계 (3)에서는,
    상기 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해 부정을 탐지하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 속성 인식 방법.
  2. 제1항에 있어서, 상기 단계 (1)에서는,
    용어와 각 용어의 개념별 주제 아이디로 구성되는 의료 참조용어 사전을 이용해, 상기 임상 연구 데이터의 임상 참여 조건에서 추출한 키워드를 이용해 문장을 수집하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 속성 인식 방법.
  3. 제1항에 있어서, 상기 변형된 부정 용어 사전은,
    NegEx 의사 부정 용어에 추가되는 임상 참여 조건을 위한 의사 부정 용어;
    선행 및 후행 부정 용어의 규칙에 추가되는 제1 용어 규칙 및 제2 용어 규칙; 및
    NegEx 선후행 용어에 추가되는 임상 참여 조건을 위한 선행 부정 용어 및 후행 부정 용어를 상기 DEEPEN 알고리즘의 부정 용어 사전에 추가하여 구축되는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 속성 인식 방법.
  4. 제3항에 있어서, 상기 제1 용어 규칙은,
    품사 태그(postag)가 VBN인 토큰을 포함하는 선행 부정 용어가 be 동사 토큰과 직접적 종속 관계이면 후행 부정 용어로 사용하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 속성 인식 방법.
  5. 제3항에 있어서, 상기 제2 용어 규칙은,
    품사 태그(postag)가 VBN인 토큰이 be 동사 토큰과 직접적 종속 관계이고, 미리 정해진 부정어가 상기 품사 태그가 VBN인 토큰이나 be 동사 토큰과 직접적 종속 관계이면, 선행 부정 용어인 상기 미리 정해진 부정어를 후행 부정 용어로도 사용하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 속성 인식 방법.
  6. 제1항에 있어서, 상기 추가 규칙은,
    환자 용어 또는 증상 용어가 미리 설정된 전치사로 상기 키워드와 연결되면, 상기 환자 용어 또는 증상 용어의 부정 시에도 상기 키워드를 부정으로 탐지하는 동일시 규칙;
    품사 태그를 사용해 대용어를 판단하고, 대용어에 종속된 토큰의 부정 라벨을 탐지하는 대용어 규칙;
    품사 태그가 같은 복수 개의 토큰이 conj 또는 appos 종속성 관계로 연결되면, 연결된 토큰 중 하나가 부정이면 나머지 토큰도 부정으로 탐지하는 Rconj 규칙; 및
    종류가 다른 부정 용어에 의해 문장 내에서 두 번 부정되는 키워드를 긍정으로 라벨링하는 이중 부정 규칙을 포함하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 속성 인식 방법.
  7. 제1항에 있어서, 상기 단계 (1)과 단계 (3) 사이에는,
    (2) 상기 수집된 문장이 부등호 사전의 부등호를 포함하면, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 속성을 추출하는 단계를 더 포함하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 속성 인식 방법.
  8. 제7항에 있어서,
    상기 부등호를 포함하는 문장은 상기 키워드, 부등호 및 숫자를 포함하며, 단위, times 및 비교 대상 중 하나 이상을 추가로 더 포함할 수 있고,
    상기 단계 (2)는,
    (2-1) 미리 정의된 리스트를 이용해 문장에서 부등호 및 times를 인식하고, 의료 참조용어 사전을 이용해 단위 및 비교 대상을 인식하며, 상기 키워드, 부등호, 숫자, 단위, times 및 비교 대상의 표현을 표준화하는 단계; 및
    (2-2) 상기 표준화된 숫자를 상기 키워드별 속성으로 추출하며, 상기 추출한 키워드별 속성, 상기 표준화된 단위 및 비교 대상을 출력하는 단계를 포함하는 것을 특징으로 하는, 임상 참여 조건의 정형화를 위한 속성 인식 방법.
KR1020220067881A 2022-06-03 2022-06-03 임상 참여 조건의 정형화를 위한 속성 인식 방법 KR102441576B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220067881A KR102441576B1 (ko) 2022-06-03 2022-06-03 임상 참여 조건의 정형화를 위한 속성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220067881A KR102441576B1 (ko) 2022-06-03 2022-06-03 임상 참여 조건의 정형화를 위한 속성 인식 방법

Publications (1)

Publication Number Publication Date
KR102441576B1 true KR102441576B1 (ko) 2022-09-08

Family

ID=83279601

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220067881A KR102441576B1 (ko) 2022-06-03 2022-06-03 임상 참여 조건의 정형화를 위한 속성 인식 방법

Country Status (1)

Country Link
KR (1) KR102441576B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210152126A (ko) * 2020-06-08 2021-12-15 (주)메디아이플러스 임상시험 검색을 위한 데이터 분류 장치, 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210152126A (ko) * 2020-06-08 2021-12-15 (주)메디아이플러스 임상시험 검색을 위한 데이터 분류 장치, 시스템 및 방법

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A. Mahany 외, "Negation and Speculation in NLP: A Survey, Corpora, Methods, and Applications", Applied Sciences, 12:5209. (2022.05.21.) *
P. Thompson 외, "Annotation and detection of drug effects in text for pharmacovigilance", Journal of Cheminformatics, 10:37. (2018.08.13) *
R. R. Zavala 외, "The Impact of Pretrained Language Models on Negation and Speculation Detection in Cross-Lingual Medical Text: Comparative Study", JMIR Medical Informatics, 8(12). (2020.12.03.) *
S. Mehrabi 외, "DEEPEN: A negation detection system for clinical text incorporating dependency relation into NegEx", J. Biomed. Inform., 54:213-219. (2015.04.) *
S. Sohn 외, "Dependency Parser-based Negation Detection in Clinical Narratives", AMIA Jt Summits Transl. Sci. Proc., 2021:1-8. (2021.03.19.) *

Similar Documents

Publication Publication Date Title
Quan et al. Multichannel convolutional neural network for biological relation extraction
Yang et al. Automatic detection of protected health information from clinic narratives
Henriksson et al. Identifying adverse drug event information in clinical notes with distributional semantic representations of context
Xu et al. Feature engineering combined with machine learning and rule-based methods for structured information extraction from narrative clinical discharge summaries
Hirst et al. Bigrams of syntactic labels for authorship discrimination of short texts
Ruch et al. Using lexical disambiguation and named-entity recognition to improve spelling correction in the electronic patient record
Wang Annotating and recognising named entities in clinical notes
Kreuzthaler et al. Detection of sentence boundaries and abbreviations in clinical narratives
Keretna et al. A hybrid model for named entity recognition using unstructured medical text
Al-Matham et al. Synoextractor: a novel pipeline for Arabic synonym extraction using Word2Vec word embeddings
Tanushi et al. Negation scope delimitation in clinical text using three approaches: NegEx, PyConTextNLP and SynNeg
Huang et al. A hybrid method for relation extraction from biomedical literature
Cing et al. Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language
Gero et al. PMCVec: Distributed phrase representation for biomedical text processing
Veena et al. Relation extraction in clinical text using NLP based regular expressions
Dung Natural language understanding
Ratnayaka et al. Shift-of-perspective identification within legal cases
Rubrichi et al. A system for the extraction and representation of summary of product characteristics content
Lui Generalized language identification
KR102441576B1 (ko) 임상 참여 조건의 정형화를 위한 속성 인식 방법
Hagiwara et al. Supervised synonym acquisition using distributional features and syntactic patterns
KR102464893B1 (ko) 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법
Sevenster et al. Automatically pairing measured findings across narrative abdomen CT reports
Xu et al. Incorporating Feature-based and Similarity-based Opinion Mining-CTL in NTCIR-8 MOAT.
JPH0844741A (ja) 日本語文時制解析装置及び日本語文時制解析方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant