KR20220063005A - Apparatus for generating patient health summary and method thererof - Google Patents
Apparatus for generating patient health summary and method thererof Download PDFInfo
- Publication number
- KR20220063005A KR20220063005A KR1020200148833A KR20200148833A KR20220063005A KR 20220063005 A KR20220063005 A KR 20220063005A KR 1020200148833 A KR1020200148833 A KR 1020200148833A KR 20200148833 A KR20200148833 A KR 20200148833A KR 20220063005 A KR20220063005 A KR 20220063005A
- Authority
- KR
- South Korea
- Prior art keywords
- candidate
- triple
- similarity
- patient health
- noun
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 환자 건강 요약 생성 장치 및 그 방법에 관한 것이다.The present invention relates to a device and method for generating a patient health summary.
임상 기록은 임상적 만남 동안 환자와 의료 서비스 제공자, 예를 들어 의사와의 상호 작용을 표현한다. 이러한 임상 기록에는 보고된 증상, 임상 검사, 결과, 진단 테스트 및 그 결과, 처방된 치료, 및 가족력과 사회적 및 행동 측면에 의해 보완되는 기타 필수 개입이 포함된다. Clinical records represent interactions between patients and health care providers, such as doctors, during clinical encounters. This clinical record includes reported symptoms, clinical tests, results, diagnostic tests and results, prescribed treatment, and other essential interventions complemented by family history and social and behavioral aspects.
임상 기록의 주요 목적은 시간이 지남에 따라 환자의 건강 상태를 추적하는 것이다. 환자가 의사를 방문할 때마다, 의사는 필요한 조치나 결정을 내리기 전에 먼저 환자의 건강에 대한 완전한 세부 정보를 얻기 위해 환자의 임상 기록을 철저히 확인한다. The main purpose of clinical records is to track a patient's health status over time. Whenever a patient visits a doctor, the doctor first thoroughly checks the patient's clinical record to obtain complete details about the patient's health before making any necessary action or decisions.
환자와 관련된 임상 기록의 수량이 인간 전문가 수작업 큐레이션의 임계값을 초과하므로, 현재 시대의 고급 텍스트 마이닝 기술을 사용하는 시스템이 필요하며, 최근까지 임상 기록 마이닝을 위한 다양한 기술이 개발되었다. As the quantity of patient-related clinical records exceeds the threshold of human expert manual curation, there is a need for a system using advanced text mining techniques of the present era, and until recently, various techniques for mining clinical records have been developed.
그러나, 기존의 애플리케이션의 대부분은 질병 상태, 실험실 테스트 결과 또는 약물 관련 정보와 같은 일부 특정 유형의 정보에만 초점을 맞춘다. 반면에, 의사들은 증상, 실험실 테스트, 진단된 질병 및 치료 계획을 포함한 포괄적인 프로파일이 필요하다. However, most of the existing applications focus only on some specific type of information, such as disease status, laboratory test results, or drug-related information. On the other hand, doctors need a comprehensive profile that includes symptoms, laboratory tests, diagnosed disease and treatment plan.
따라서, 의사의 기대를 충족하고 환자 건강 프로파일로서 필요한 정보 목록을 그들에게 제공할 수 있는 방안이 요구된다.Therefore, there is a need for a method that can meet the expectations of doctors and provide them with a list of necessary information as a patient health profile.
본 발명이 해결하고자 하는 과제는 환자 건강 상태를 한 눈에 쉽게 파악할 수 있고 의료 전문가의 시간을 절약할 수 있는 환자 건강 요약 생성 장치 및 그 방법을 제공하는 것이다.SUMMARY OF THE INVENTION An object of the present invention is to provide an apparatus and method for generating a patient health summary that can easily identify a patient's health status at a glance and save a medical professional's time.
상기한 바와 같은 본 발명의 과제를 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.The characteristic configuration of the present invention for achieving the object of the present invention as described above and for realizing the characteristic effects of the present invention to be described later is as follows.
본 발명의 일 측면에 따르면, 환자 건강 요약 생성 장치가 제공되며, 이 장치는,According to one aspect of the present invention, there is provided an apparatus for generating a patient health summary, the apparatus comprising:
환자에 대한 임상 기록에 포함된 임상 정보의 내용으로부터 적어도 하나의 문장을 추출하고, 추출된 문장에 대해 품사 태깅을 수행하는 전처리를 수행하는 전처리부, 그리고 상기 전처리부에 의해 전처리가 수행된 문장으로부터 인과성 구문 형태의 후보 구문을 추출한 후 미리 설정된 의료 정보를 사용하여 시맨틱 분석을 통해 환자 건강 요약을 생성하는 주처리부를 포함하며, 상기 인과성 구문 형태의 후보 구문은 상기 전처리부에 의해 전처리가 수행된 문장으로부터 식별된 <명사, 동사, 명사> 형태의 트리플을 나타낸다.A preprocessor that extracts at least one sentence from the contents of clinical information included in the clinical record for a patient, performs preprocessing for performing part-of-speech tagging on the extracted sentence, and from the sentence on which the preprocessing is performed by the preprocessor and a main processing unit for generating a patient health summary through semantic analysis using preset medical information after extracting a candidate phrase in the form of a causal phrase, wherein the candidate phrase in the form of a causal phrase is a sentence preprocessed by the preprocessor It represents a triple of the form of <noun, verb, noun> identified from
본 발명의 다른 측면에 따르면, 환자 건강 요약 생성 방법이 제공되며, 이 방법은,According to another aspect of the invention, there is provided a method for generating a patient health summary, the method comprising:
환자에 대한 임상 기록에 포함된 임상 정보의 내용으로부터 적어도 하나의 문장을 추출하는 단계, 추출된 문장에 대해 품사 태깅을 수행하는 전처리를 수행하는 단계, 상기 전처리가 수행된 문장으로부터 인과성 구문 형태의 후보 트리플을 추출하는 단계, 추출되는 후보 트리플에 대해 미리 설정된 인과성 검출 모델을 사용하여 유사도를 측정하고, 측정된 유사도를 포함하여 상기 후보 트리플을 후보 쿼드로 확장하는 단계, 그리고 상기 측정된 유사도가 미리 설정된 임계값 이상인 경우, 미리 설정된 의료 정보를 사용하여 시맨틱 분석을 통해 환자 건강 요약을 생성하는 단계를 포함하며, 상기 후보 트리플은 <명사, 동사, 명사> 형태로 구성되고, 상기 후보 쿼드는 <명사, 동사, 명사, 유사도> 형태로 구성된다.Extracting at least one sentence from the contents of clinical information included in the clinical record for a patient, performing pre-processing of performing part-of-speech tagging on the extracted sentence, and a candidate in the form of a causal phrase from the sentence on which the pre-processing is performed extracting a triple, measuring a similarity using a causality detection model preset for the extracted candidate triple, and extending the candidate triple to a candidate quad including the measured similarity, and the measured similarity is preset If it is greater than or equal to the threshold, generating a patient health summary through semantic analysis using preset medical information, wherein the candidate triple is configured in the form of <noun, verb, noun>, and the candidate quad is <noun, It is composed of verb, noun, similarity> form.
본 발명에 따르면, 의료 서비스 제공자가 환자 건강 상태를 쉽게 파악할 수 있다.According to the present invention, a medical service provider can easily grasp a patient's health condition.
또한, 의료 서비스 제공자가 환자의 임상 기록을 처리하는 시간이 단축됨으로써 의료 서비스 제공자의 시간을 절약할 수 있다.In addition, the time it takes for the health care provider to process the patient's clinical record is shortened, thereby saving the health care provider's time.
또한, 환자의 완전한 건강 상태를 제공하여 의료 평등과 효율성을 높일 수 있다.It can also provide patients with full health status, increasing health care equity and efficiency.
또한, 다양한 정보를 바탕으로 임상 의사 결정을 지원함으로써 환자 간병 능력을 증가시킬 수 있다.In addition, it is possible to increase patient care ability by supporting clinical decision-making based on various information.
도 1은 본 발명의 실시예에 따른 환자 건강 요약 생성 장치의 개략적인 구성 블록도이다.
도 2는 도 1에 도시된 전처리부의 구체적인 구성 블록도이다.
도 3은 도 1에 도시된 주처리부의 구체적인 구성 블록도이다.
도 4는 본 발명의 실시예에 따라 생성되는 건강 요약의 구성 형태의 예를 도시한 도면이다.
도 5는 도 3에 도시된 후보 트리플 추출기의 구체적인 구성 블록도이다.
도 6은 도 3에 도시된 인과성 후보 분류기의 구체적인 구성 블록도이다.
도 7은 도 3에 도시된 시맨틱 분석기의 구체적인 구성 블록도이다.
도 8은 본 발명의 실시예에 따른 환자 건강 요약 생성 방법의 개략적인 흐름도이다.
도 9는 본 발명의 다른 실시예에 따른 환자 건강 요약 생성 장치의 개략적인 구성을 나타내는 도면이다.1 is a schematic structural block diagram of an apparatus for generating a patient health summary according to an embodiment of the present invention.
FIG. 2 is a detailed block diagram of the preprocessing unit shown in FIG. 1 .
FIG. 3 is a detailed block diagram of the main processing unit shown in FIG. 1 .
4 is a diagram illustrating an example of a configuration form of a health summary generated according to an embodiment of the present invention.
5 is a detailed block diagram of the candidate triple extractor shown in FIG.
6 is a detailed block diagram of the causal candidate classifier shown in FIG. 3 .
FIG. 7 is a detailed configuration block diagram of the semantic analyzer shown in FIG. 3 .
8 is a schematic flowchart of a method for generating a patient health summary according to an embodiment of the present invention;
9 is a diagram illustrating a schematic configuration of an apparatus for generating a patient health summary according to another embodiment of the present invention.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다Hereinafter, with reference to the accompanying drawings, the embodiments of the present invention will be described in detail so that those of ordinary skill in the art to which the present invention pertains can easily implement them. However, the present invention may be embodied in several different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. Throughout the specification, when a part "includes" a certain element, it means that other elements may be further included, rather than excluding other elements, unless otherwise stated. In addition, terms such as “…unit”, “…group”, and “module” described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software or a combination of hardware and software. there is.
본 발명에서 설명하는 장치들은 적어도 하나의 프로세서, 메모리 장치, 통신 장치 등을 포함하는 하드웨어로 구성되고, 지정된 장소에 하드웨어와 결합되어 실행되는 프로그램이 저장된다. 하드웨어는 본 발명의 방법을 실행할 수 있는 구성과 성능을 가진다. 프로그램은 도면들을 참고로 설명한 본 발명의 동작 방법을 구현한 명령어(instructions)를 포함하고, 프로세서와 메모리 장치 등의 하드웨어와 결합하여 본 발명을 실행한다. The devices described in the present invention are composed of hardware including at least one processor, a memory device, a communication device, and the like, and a program to be executed in combination with the hardware is stored in a designated place. The hardware has the configuration and capability to implement the method of the present invention. The program includes instructions for implementing the method of operation of the present invention described with reference to the drawings, and is combined with hardware such as a processor and a memory device to execute the present invention.
도 1은 본 발명의 실시예에 따른 환자 건강 요약 생성 장치의 개략적인 구성 블록도이다.1 is a schematic structural block diagram of an apparatus for generating a patient health summary according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시예에 따른 환자 건강 요약 생성 장치(100)는 저장부(110), 입력부(120), 전처리부(130) 및 주처리부(140)를 포함한다.Referring to FIG. 1 , an
저장부(110)는 한 명 이상의 환자 각각에 대한 임상 기록을 저장한다. 이러한 임상 기록은 미리 설정되어 있는 일정한 형식의 데이터로서 기록될 수 있다. 또한, 임상 기록은 환자의 병원 검진 횟수나 병증에 따라 그 양이 다를 수 있다.The
또한, 저장부(110)는 주처리부(140)에서 출력되는 환자 건강 요약을 저장할 수 있다.Also, the
입력부(120)는 환자 건강 요약을 생성할 대상 환자의 임상 기록을 입력받아서 전처리부(130)로 제공한다. The
입력부(120)는 저장부(120)에 저장되어 있는 환자의 임상 기록을 입력받을 수 있지만, 이외에도 외부로부터 환자의 임상 기록을 입력받을 수도 있다. The
입력부(120)는 외부로부터 환자의 임상 기록이 입력되는 경우에는 입력된 환자의 임상 기록을 저장부(110)에 저장할 수 있다. When a clinical record of a patient is input from the outside, the
전처리부(130)는 입력부(120)로부터 입력되는 환자의 임상 기록에 포함된 원시 임상 텍스트를 후속 처리가 가능한 포맷으로 변환하는 전처리 작업을 수행한다. 예를 들어, 전처리부(130)에 의해 수행되는 전처리 작업에는 문장 추출 작업, 정규화 작업, 토큰화 작업 등이 포함될 수 있다. 전처리부(130)의 구성에 대해서는 추후 구체적으로 설명한다.The
주처리부(140)는 전처리부(130)에 의해 전처리 작업이 수행된 임상 기록으로부터 인과성 구문 형태의 후보 구문을 추출한 후 기존의 의료 정보를 사용한 시맨틱(semantic) 분석을 통해 환자 건강 요약을 생성한다.The
주처리부(140)에 의해 생성되는 환자 건강 요약은 출력부(150)를 통해 외부로 출력된다. The patient health summary generated by the
또한, 주처리부(140)는 생성된 환자 건강 요약을 저장부(110)에 저장할 수 있다.Also, the
출력부(150)는 주처리부(140)에서 생성된 환자 건강 요약을 미리 설정되어 있는 형태로 외부로 출력하거나 또는 외부의 장치로 전송할 수 있다. The
도 2는 도 1에 도시된 전처리부(130)의 구체적인 구성 블록도이다.FIG. 2 is a detailed block diagram of the preprocessing
도 2에 도시된 바와 같이, 전처리부(130)는 문장 추출기(131), 정규화기(132), 토큰화기(133), 표제어 추출기(134), 불용어 필터(135) 및 태깅부(136)를 포함한다.As shown in FIG. 2 , the
문장 추출기(131)는 입력부(120)로부터 입력되는 임상 기록에 포함된 임상 텍스트를 판독하여 문장으로 추출한다. 입력부(120)로부터 입력되는 임상 기록에는 집단적 의미를 가진 단어 조합으로 표현된 환자에 대한 완전한 정보가 포함된다. 따라서, 문장 추출기(131)는 임상 기록의 단어 조합을 문장이라고 하는 작은 정보 덩어리로 분할하여 추출한다.The
정규화기(132)는 문장 추출기(131)에 의해 추출된 문장들에 대해 중복 텍스트, 관련없는 정보(예를 들어, 환자에게 유용하지만 상황 설정에는 필요하지 않은 괄호 안의 설명 등), 특수 문자(-, + 등)와 같은 구문을 제거한다. 문장 추출기(131)에 의해 추출된 문장은 관련없는 정보를 포함할 수 있으므로, 정규화기(132)에 의해 관련있는 정보로만 구성되도록 하는 처리가 수행되는 것이다.For the sentences extracted by the
토큰화기(133)는 정규화기(132)에 의해 정규화 처리된 문장들에 대해 단어 모음을 토큰으로 분할하는 토큰화 처리를 수행한다. 이러한 토큰화 처리에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다.The
표제어 추출기(134)는 토큰화기(133)에 의해 토큰화 처리된 각각의 토큰을 기본 형태로 변환한다. 일반적으로, 자연어에서, 단어는 여러 표현을 가질 수 있으며 이는 용어 처리의 복잡성을 증가시킨다. 그러나, 용어의 기본 의미는 동일하게 유지되므로 복잡성을 줄이기 위해 표제어 추출(Lemmatization)이 수행되는 것에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다. The
불용어 필터(135)는 표제어 추출기(134)에 의해 표제어 추출된 문장에서 부차적인 역할을 하는 중요하지 않은 단어, 즉 불용어(stop word)를 필터링한다.The
태깅부(136)는 불용어 필터(135)에 의해 불용어가 필터링된 문장들에 대해 자연어를 처리하는 구문 분석기인 자연어 처리 파서(Parser)를 사용하여 각각의 토큰에 품사를 붙이는 품사(Part of Speech, POS) 태깅을 수행한다.The
이와 같이, 전술한 전처리부(130)에 의해 처리된 내용은 환자 건강 요약의 생성을 위해 다른 컴포넌트에 의해 추가로 처리될 수 있는 문장의 의미론적으로 강화된 토큰이다.As such, the content processed by the
한편, 전처리부(130)는 표제어 추출기(134)에 의해 표제어 추출이 수행된 문장들에 대해 특정 문자 형태로 변환하는 변환기(도시되지 않음)를 더 포함할 수 있다. 예를 들어, 임상 기록에 기재된 임상 텍스트들이 영어로 기재되어 있는 경우 표제어 추출기(134)에 의해 출력되는 문장들에 포함된 모든 토큰을 소문자로 통합하는 변환기가 더 포함될 수 있다.Meanwhile, the
도 3은 도 1에 도시된 주처리부(140)의 구체적인 구성 블록도이다.FIG. 3 is a detailed block diagram of the
도 3에 도시된 바와 같이, 주처리부(140)는 후보 트리플 추출기(141), 인과성 후보 분류기(142), 시맨틱 분석기(143) 및 요약 생성기(144)를 포함한다.3 , the
임상 기록에서 사용된 일부 용어는 환자 건강과 관련하여 다른 용어보다 더 중요할 수 있다. 따라서, 환자 건강 관련 용어는 다른 용어와 구분될 필요가 있으며, 임상 기록의 문장 내에서 가능한 모든 후보 용어를 찾기 위해 후보 트리플 추출기(141)가 사용된다. 임상 기록에서 가장 중요한 정보는 명사구와 그 뒤를 따르는 동사구와 명사구의 조합으로 제공된다.Some terms used in the clinical record may be more important than others in relation to patient health. Accordingly, patient health related terms need to be distinguished from other terms, and the
따라서, 후보 트리플 추출기(141)는 전처리부(130)에서 전처리되어 출력되는 임상 기록의 문장들에 존재하는 <명사, 동사, 명사> 구문의 형태인 후보 트리플을 추출한다.Accordingly, the
인과성 후보 분류기(142)는 미리 설정되어 있는 인과성 검출 모델(145)을 사용하여 후보 트리플 추출기(141)에서 추출된 후보 트리플의 유사도를 측정한 후, 측정된 유사도가 미리 설정된 임계값 이상인 후보 트리플에 대해서만 트리플과 유사도를 포함하는 쿼드(quad)인 인과성 후보로서 분류한다. 예를 들어, 쿼드는 <명사, 동사, 명사, 유사도>의 형태를 포함할 수 있다. The
한편, 전술한 인과성 검출 모델(145)은 저장부(110)에 저장되어 있을 수 있으며, 잘 알려져 있는 인공지능 기술, 예를 들어 딥 러닝 기술에 의해 <명사, 동사, 명사>로 구성된 트리플에서 두 개의 명사가 각각 ‘원인’과 ‘결과’를 나타내는 트리플들을 학습을 통해 형성할 수 있다.On the other hand, the above-described
인과성 후보 분류기(142)에 의해 분류된 인과성 후보인 쿼드 중 일부는 임상 도메인과 관련이 없을 수 있으며 일반 정보를 나타낼 수 있으므로, 임상 도메인과 관련이 없는 쿼드가 필터링되어야 한다.Since some of the quads that are causal candidates classified by the
시맨틱 분석기(143)는 기존의 의료 사전을 사용하여 쿼드를 구성하는 각각의 용어의 시맨틱 유형을 결정하여 임상 도메인과 관련이 없는 비 임상 쿼드를 필터링한다. 즉, 시맨틱 분석기(143)는 환자 건강 요약을 위해 식별된 쿼드가 제공하는 정보를 의미론적으로 강화한다. 이러한 시맨틱 분석은 각각의 쿼드의 도메인 정보를 보여준다.The
요약 생성기(144)는 시맨틱 분석기(143)에 의해 의미론적으로 강화된 임상 쿼드를 그룹화하여 환자 건강 요약으로 생성하여 출력부(150) 및 저장부(110)로 제공한다. 이 때, 요약 생성기(144)는 환자 건강 요약에 쿼드 정보를 모두 포함할 수 있으나, 보다 요약되고 단순화된 형태의 환자 건강 요약을 제공하기 위해, 예를 들어 도 4에 도시된 바와 같이, 쿼드의 정보 중에서 ‘원인’과 ‘결과’를 나타내는 명사들과 유사도에 해당되는 ‘신뢰도’로 구성된 형태로서 임상 정보의 요약을 포함하는 환자 건강 요약을 생성한다. 즉, ‘원인’에 대응하는 ‘결과’와 이에 대한 신뢰도 정보로서 환자 건강 요약이 구성될 수 있다.The
이와 같이, 본 발명의 실시예에 따른 환자 건강 요약 생성 장치에 따라 환자별 임상 정보를 포함하는 임상 기록을 대응되는 환자 건강 요약으로 제공함으로써, 환자를 진료하는 의사 등이 환자 건강 상태를 한 눈에 파악하는 데 도움이 되므로, 의사를 포함한 의료 전문가의 시간을 절약하고 환자 이해를 도울 수 있다.As described above, according to the apparatus for generating a patient health summary according to an embodiment of the present invention, by providing a clinical record including clinical information for each patient as a corresponding patient health summary, a doctor who treats a patient, etc. can view the patient's health status at a glance As it helps to understand, it can save time for healthcare professionals, including doctors, and help understand patients.
도 5는 도 3에 도시된 후보 트리플 추출기(141)의 구체적인 구성 블록도이다.5 is a detailed block diagram of the
도 5에 도시된 바와 같이, 후보 트리플 추출기(141)는 후보 트리플 식별기(1411) 및 벡터 변환기(1412)를 포함한다.As shown in FIG. 5 , the
후보 트리플 식별기(1411)는 전처리부(130)에서 전처리되어 출력되는 임상 기록의 문장들에 존재하는 트리플, 즉 <명사, 동사, 명사> 구문의 형태를 후보 트리플로 식별한다.The
한편, 후보 트리플 식별기(1411)에서 식별된 후보 트리플은 기계에서 직접 처리될 수 없으며 기계에서 이해될 수 있는 인코딩이 필요하다.On the other hand, the candidate triple identified by the
벡터 변환기(1412)는 단어 임베딩 기술을 사용하여 후보 트리플 식별기(1411)에서 식별된 트리플을 벡터 형태로 인코딩한다. 여기서, 단어 임베딩 기술은 단어를 밀집한 표현(dense representation)으로 변환하는 방법으로, 자연어 처리에서 주로 사용되는 기술로서 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다.The
도 6은 도 3에 도시된 인과성 후보 분류기(142)의 구체적인 구성 블록도이다.FIG. 6 is a detailed block diagram of the
도 6에 도시된 바와 같이, 인과성 후보 분류기(142)는 유사도 식별기(1421) 및 쿼드 필터(1422)를 포함한다.As shown in FIG. 6 , the
유사도 식별기(1421)는 후보 트리플 추출기(141)에서 추출된 후보 트리플 각각에 대해 인과성 검출 모델(145)을 사용하여 유사도를 측정한다. 이러한 유사도 측정을 사용하여 이미 알려진 용어에 대한 후보의 근접성 및 관련성이 확인될 수 있다. 본 발명의 실시예에서, 유사도 식별기(1421)는 코사인 유사도를 사용하여 후보 트리플 각각에 대한 유사도를 측정하였지만, 이것으로만 한정되는 것은 아니다. 여기서, 코사인 유사도는 텍스트 데이터의 유사도를 구하는 방법 중 하나로, 두 벡터 사이의 코사인 각도를 구해 서로의 유사도를 구하는 방식이다. 코사인 유사도는 데이터의 크기에 관계없이 각도로만 유사도를 판단하기에, 데이터 셋의 길이 차이가 심한 상황일 때도 데이터들의 유사도를 판단할 수 있다.The
또한, 유사도 식별기(1421)는 측정된 최대 유사도를 후보 트리플에 추가하여 <명사, 동사, 명사, 유사도> 형태의 쿼드로 확장한다. 여기서, 최대 유사도는, 후보 트리플에 대해 인과성 검출 모델(145)에 포함된 트리플들과의 유사도가 계산되므로, 계산된 유사도 중에서 최대값을 갖는 유사도를 의미한다.Also, the
쿼드 필터(1422)는 유사도 식별기(1421)에서 각각의 후보 트리플에 대해 측정된 유사도가 미리 설정된 임계값 이상인 후보 트리플에 대해서만 트리플과 유사도를 포함하는 쿼드를 인과성 후보로서 분류한다. 여기서, 임계값은 그 값이 높을수록 정확도가 높아지고, 요약에 포함되는 쿼드 수를 제한할 수 있으므로, 통계적이거나 실험적인 방식, 또는 기타 방식을 통해서 적절한 값으로 설정될 수 있다.The
도 7은 도 3에 도시된 시맨틱 분석기(143)의 구체적인 구성 블록도이다.7 is a detailed configuration block diagram of the
도 7에 도시된 바와 같이, 시맨틱 분석기(143)는 시맨틱 카테고리 식별기(1431) 및 의료 쿼드 필터(1432)를 포함한다.As shown in FIG. 7 , the
시맨틱 카테고리 식별기(1431)는 인과성 후보 분류기(142)에서 식별된 후보 쿼드들에 대해 기존의 의료 사전을 사용하여 각각의 용어의 시맨틱 유형을 결정한다. 여기서, 기존의 의료 사전으로는 UMLS(Unified Medical Language System)가 사용될 수 있으나 이것으로만 제한되는 것은 아니다. 여기서, UMLS는 60여개의 의학 관련 시소러스, 분류표 등에 수록된 개념을 연계한 통합 개념 체계로서, 기본 엔트리로 단어, 용어가 아닌 개념을 이용하고 있고, 생물의학 분야의 다양한 정보 시스템 간의 정보 검색과 통합을 촉진시키기 위한 지식 소스이다.The
의료 쿼드 필터(1432)는 시맨틱 카테고리 식별기(1431)에 의해 시맨틱 유형이 결정된 후보 트리플들의 정보가 임상 프로파일로 제한되도록 하기 위해 임상 쿼드가 아닌 비 임상 쿼드를 제거하는 필터링을 수행한다. 즉, 의료 쿼드 필터(1432)는 임상 도메인과 관련있는 임상 쿼드만을 출력한다.The
이하, 전술한 환자 건강 요약 생성 장치(100)에서의 설명을 참조하여 본 발명의 실시예에 따른 환자 건강 요약 생성 방법에 대해 설명한다.Hereinafter, a method for generating a patient health summary according to an embodiment of the present invention will be described with reference to the description of the
도 8은 본 발명의 실시예에 따른 환자 건강 요약 생성 방법의 개략적인 흐름도이다.8 is a schematic flowchart of a method for generating a patient health summary according to an embodiment of the present invention;
설명 전에, 예를 들어, 인공지능 기술을 사용하여 임상 프로파일에서 사용되는 용어들을 사용하여 <명사, 동사, 명사>로 구성된 트리플에서 두 개의 명사가 각각 ‘원인’과 ‘결과’를 나타내는 트리플을 학습을 통해 판별하여 인과성 검출 모델(145)로서 미리 형성한 것으로 가정한다. 또한, 본 발명의 실시예에 따른 환자 건강 요약 방법은 도 1 내지 도 7을 참조하여 설명한 환자 건강 요약 생성 장치(100)에 의해 수행될 수 있다.Before the explanation, for example, using the terms used in the clinical profile using artificial intelligence technology, learn a triple in which two nouns represent 'cause' and 'effect', respectively, from a triple composed of <noun, verb, noun> It is assumed that the
도 8을 참조하면, 먼저 특정 환자에 해당하는 임상 기록이 입력된다(S100). 전술한 바와 같이, 이러한 환자에 대한 임상 기록은 저장부(110)에 저장되어 있거나 외부로부터 입력될 수 있다.Referring to FIG. 8 , first, a clinical record corresponding to a specific patient is input ( S100 ). As described above, the clinical record for such a patient may be stored in the
다음, 입력된 임상 기록에 포함된 임상 텍스트를 판독하여 해당되는 문장들을 추출하고(S110), 추출되는 문장이 존재하는지가 판단된다(S120).Next, the clinical text included in the input clinical record is read to extract the corresponding sentences (S110), and it is determined whether the extracted sentence exists (S120).
만약 추출되는 문장이 없으면, 본 발명의 실시예에 따른 환자 건강 요약 생성 방법이 종료된다. 그러나, 적어도 하나의 문장이라도 존재하면, 해당 문장에 대한 전처리가 수행된다(S130). 이러한 전처리에는 추출된 문장에 대해 중복 텍스트, 관련없는 정보(예를 들어, 환자에게 유용하지만 상황 설정에는 필요하지 않은 괄호 안의 설명 등), 특수 문자(-, + 등)와 같은 구문을 제거하는 정규화 처리, 정규화 처리된 문장들에 대해 단어 모음을 토큰으로 분할하는 토큰화 처리, 토큰화 처리된 각각의 토큰을 기본 형태로 변환하는 표제어 추출 처리, 표제어 추출된 문장에서 부차적인 역할을 하는 중요하지 않은 단어, 즉 불용어를 필터링하는 불용어 필터링 처리, 불용어가 필터링된 문장들에 대해 자연어를 처리하는 구문 분석기인 자연어 처리 파서를 사용하여 각각의 토큰에 품사를 붙이는 품사(Part of Speech, POS) 태깅 처리 등이 포함되며, 이에 대해서는 위에서 이미 설명하였으므로 여기에서는 구체적인 설명을 생략한다.If there is no sentence to be extracted, the patient health summary generating method according to the embodiment of the present invention is terminated. However, if at least one sentence exists, pre-processing is performed on the corresponding sentence (S130). This preprocessing involves normalization for the extracted sentences to remove phrases such as duplicate text, extraneous information (e.g., comments in parentheses useful to the patient but not necessary for setting the situation), and special characters (-, +, etc.) Processing, tokenization processing that divides the word collection into tokens for the normalized sentences, lemma extraction processing that converts each tokenized token into a basic form, insignificant role that plays a secondary role in the lemma extracted sentence Stopword filtering processing to filter out words, that is, stopwords, Part of Speech (POS) tagging processing that attaches parts of speech to each token using a natural language processing parser, a syntax analyzer that processes natural language for sentences filtered by stopwords, etc. is included, and since it has already been described above, a detailed description thereof will be omitted.
다음, 전처리된 문장들에 존재하는 <명사, 동사, 명사> 구문의 형태인 트리플을 후보 트리플로 식별한다(S140).Next, a triple in the form of a <noun, verb, noun> phrase existing in the preprocessed sentences is identified as a candidate triple (S140).
그 후, 식별된 후보 트리플이 존재하는지가 판단되고(S150), 만약 후보 트리플이 존재하지 않으면 본 발명의 실시예에 따른 환자 건강 요약 생성 방법이 종료된다.Thereafter, it is determined whether the identified candidate triple exists ( S150 ). If the candidate triple does not exist, the patient health summary generating method according to the embodiment of the present invention is terminated.
그러나, 후보 트리플이 적어도 하나라도 존재하는 것으로 판단되면, 먼저 하나의 후보 트리플에 대해 단어 임베딩 기술을 사용하여 벡터 형태로 인코딩을 수행한다(S160).However, if it is determined that at least one candidate triple exists, encoding is first performed in a vector form using a word embedding technique on one candidate triple ( S160 ).
계속해서, 벡터 인코딩된 후보 트리플에 대해 인과성 검출 모델(145)을 사용하여 유사도를 측정한다(S170). 이 때, 측정되는 유사도는 하나의 후보 트리플에 대해 다수로 측정될 수 있다.Subsequently, similarity is measured using the
그 후, 측정된 유사도 중에서 최대의 값을 갖는 유사도를 포함하도록 후보 트리플이 쿼드로 확장된다(S180). 여기서, 쿼드는 트리플에 최대의 유사도를 추가한 형태, 즉 <명사, 동사, 명사, 유사도>로 확장될 수 있다. Thereafter, the candidate triples are expanded to quads to include the similarity having the maximum value among the measured similarities ( S180 ). Here, the quad may be expanded to a form in which the maximum degree of similarity is added to the triple, that is, <noun, verb, noun, similarity>.
다음, 상기 단계(S170)에서 측정된 유사도 중에서 최대 유사도가 미리 설정된 임계값 이상인지가 판단된다(S190).Next, it is determined whether the maximum similarity among the similarities measured in step S170 is equal to or greater than a preset threshold value (S190).
만약 유사도, 즉 최대 유사도가 미리 설정된 임계값 이상인 경우에는 인과성 후보로 확장된 쿼드에 대해 UMLS(Unified Medical Language System) 등의 의료 사전을 사용하여 시맨틱 카테고리를 식별하고(S200), 식별된 시맨틱 카테고리가 임상 도메인과 관련있는 임상 쿼드인지가 판단된다(S210).If the similarity, that is, the maximum similarity is greater than or equal to a preset threshold, the semantic category is identified using a medical dictionary such as UMLS (Unified Medical Language System) for the quad extended to the causality candidate (S200), and the identified semantic category is It is determined whether it is a clinical quad related to a clinical domain (S210).
만약 식별된 시맨틱 카테고리를 통해 임상 도메인과 관련있는 임상 쿼드인 것으로 판단되면, 해당되는 후보 쿼드가 환자 건강 요약으로 추가된다(S220). 이 때, <명사, 동사, 명사, 유사도> 형태의 쿼드의 정보는 도 4에 도시되어 있는 바와 같이 <원인 -> 결과, 신뢰도>의 형태로서 환자 건강 요약에 추가된다. 여기서, ‘원인’과 ‘결과’는 이미 전술한 단계(S170)에서 인과성 여부가 판단되었으므로, 두 개의 명사 중에서 ‘원인’에 해당하는 명사와 ‘결과’에 해당하는 명사로서 대체되며, ‘신뢰도’는 쿼드의 유사도로 대체된다.If it is determined that the clinical quad is related to the clinical domain through the identified semantic category, the corresponding candidate quad is added to the patient health summary ( S220 ). At this time, the quad information in the form of <noun, verb, noun, similarity> is added to the patient health summary in the form of <cause -> result, reliability> as shown in FIG. 4 . Here, since 'cause' and 'result' have already been determined in the above-described step (S170), whether or not causality is determined is replaced with a noun corresponding to 'cause' and a noun corresponding to 'result' among the two nouns, and 'reliability' is replaced by the similarity of the quad.
이와 같이, 상기 단계(140)에서 식별된 하나의 후보 트리플에 대해 대응하는 환자 건강 요약으로의 추가가 완료되면 다른 후보 트리플에 대해서도 마찬가지의 과정을 통해 환자 건강 요약으로의 추가가 수행될 수 있도록 상기 단계(S150 ~ S220)가 반복 수행된다.In this way, when the addition to the patient health summary corresponding to one candidate triple identified in
한편, 전술한 단계(S190)에서 유사도, 즉 최대 유사도가 미리 설정된 임계값보다 작은 경우와, 전술한 단계(S210)에서 임상 쿼드가 아닌 경우에도 마찬가지로 다른 후보 트리플에 대해 상기 단계(S150 ~ S220)가 수행될 수 있도록 절차가 진행된다.Meanwhile, in the above-described step (S190), when the similarity, that is, the maximum similarity, is smaller than a preset threshold, and in the above-described step (S210), even if it is not a clinical quad, the above steps (S150 to S220) for other candidate triples. The procedure is in progress so that it can be carried out.
이와 같이 모든 후보 트리플에 대해 전술한 단계(S150 ~ S220)가 수행되면 환자 건강 요약에는 임상 쿼드에 대응하는 환자 건강 요약만이 추가되어 있으므로, 최종의 환자 건강 요약이 저장부(110)에 저장되고 또한 의사 등에게 제공될 수 있다.In this way, when the above-described steps (S150 to S220) are performed for all candidate triples, only the patient health summary corresponding to the clinical quad is added to the patient health summary, so the final patient health summary is stored in the
도 9는 본 발명의 다른 실시예에 따른 환자 건강 요약 생성 장치의 개략적인 구성을 나타내는 도면이다.9 is a diagram illustrating a schematic configuration of an apparatus for generating a patient health summary according to another embodiment of the present invention.
도 9에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 환자 건강 요약 생성 장치(200)는 적어도 하나의 프로세서(210), 메모리(220), 통신기(230), 입출력기(240) 및 통신 버스(250)를 포함한다.As shown in FIG. 9 , the
프로세서(210)는 범용 CPU(Central Processing Unit), 마이크로프로세서, ASIC(Application-Specific Integrated Circuit), 또는 본 출원의 해결수단에서 프로그램 실행을 제어하기 위한 하나 이상의 집적 회로일 수 있다.The
메모리(220)는 본 발명의 실시예에 따른 환자 건강 요약 생성과 관련된 정보를 저장한다.The
구체적으로, 메모리(220)는 코드의 집합을 저장하도록 추가로 구성되고, 그 코드는 다음과 같은 프로세스를 실행하기 위해 프로세서(210)를 제어하는 데 사용된다. 이러한 프로세스는, 환자에 대한 임상 기록에 포함된 임상 정보의 내용으로부터 적어도 하나의 문장을 추출하는 프로세스, 추출된 문장에 대해 품사 태깅을 수행하는 전처리를 수행하는 프로세스, 전처리가 수행된 문장으로부터 인과성 구문 형태의 후보 트리플을 추출하는 프로세스, 추출되는 후보 트리플에 대해 미리 설정된 인과성 검출 모델을 사용하여 유사도를 측정하는 프로세스, 측정된 유사도를 포함하여 후보 트리플을 후보 쿼드로 확장하는 프로세스, 그리고 측정된 유사도가 미리 설정된 임계값 이상인 경우, 미리 설정된 의료 정보를 사용하여 시맨틱 분석을 통해 환자 건강 요약을 생성하는 프로세스를 포함한다. Specifically, the
여기서, 후보 트리플은 <명사, 동사, 명사> 형태로 구성되고, 후보 쿼드는 <명사, 동사, 명사, 유사도> 형태로 구성되다. Here, the candidate triple is configured in the form of <noun, verb, noun>, and the candidate quad is configured in the form of <noun, verb, noun, similarity>.
또한, 환자 건강 요약은 <원인 -> 결과, 신뢰도> 형태로 구성되며, 원인과 결과는 후보 쿼드를 구성하며 인과관계를 나타내는 2개의 명사 중에서 원인을 나타내는 명사를 상기 원인으로 하고, 결과를 나타내는 명사를 상기 결과로 설정하며, 신뢰도는 후보 쿼드를 구성하는 유사도로서 대체된다.In addition, the patient health summary is configured in the form of <cause -> result, reliability>, cause and effect constitute a candidate quad, and among the two nouns indicating causality, the noun indicating the cause is the cause, and the noun indicating the effect is set as the result, and the reliability is replaced with the degree of similarity constituting the candidate quad.
또한, 이러한 프로세스는 입출력기(240)를 통해 외부로부터 임상 기록을 입력받는 프로세스, 및 생성된 환자 건강 요약을 외부로 출력하는 프로세스를 더 포함한다.In addition, this process further includes a process of receiving a clinical record from the outside through the input/
또한, 이러한 프로세스는 통신기(230)를 통해 외부로부터 임상 기록을 입력받는 프로세스, 및 생성된 환자 건강 요약을 외부로 출력하는 프로세스를 더 포함한다.In addition, the process further includes a process of receiving a clinical record from the outside through the
또한, 전처리가 수행된 문장으로부터 인과성 구문 형태의 후보 트리플을 추출하는 프로세스는, 후보 트리플에 대해 단어 임베딩 기술을 사용하여 벡터 인코딩을 수행하는 프로세스를 포함한다.In addition, the process of extracting a candidate triple in the form of a causal phrase from the sentence on which the preprocessing has been performed includes a process of performing vector encoding on the candidate triple by using a word embedding technique.
메모리(220)는 ROM(Read-Only Memory) 또는 명령을 저장할 수 있는 다른 유형의 정적 저장 장치, 또는 RAM(Random Access Memory) 또는 정보 및 명령을 저장할 수 있는 다른 유형의 동적 저장 장치일 수 있거나, 또는 EEPROM(Electrically Erasable Programmable Read-Only Memory), CD-ROM(Compact Disc Read-Only Memory) 또는 다른 컴팩트 디스크 저장 장치 또는 광 디스크 저장 장치(압축 광 디스크, 레이저 디스크, 광 디스크, 디지털 다용도 디스크, 블루레이 디스크 등을 포함함), 자기 디스크 저장 매체 또는 다른 자기 저장 장치, 또는 명령 또는 데이터 구조의 형태로 예상 프로그램 코드를 운반하거나 저장할 수 있으면서 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체일 수 있으며, 이것은 제한되지 않는다. 메모리(220)는 독립적으로 존재할 수 있으며, 통신 버스(250)에 의해 프로세서(210)에 연결된다.
통신기(230)는 다른 장치 또는 통신 네트워크와 통신을 수행하며, 다양한 통신 기술로 구현될 수 있다. 즉, 와이파이(WIFI), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), HSPA(High Speed Packet Access), 모바일 와이맥스(Mobile WiMAX), 와이브로(WiBro), LTE(Long Term Evolution), 블루투스(bluetooth), 적외선통신(IrDA, infrared data association), NFC(Near Field Communication), 지그비(Zigbee), 무선랜 기술, USB(Universal Serial Bus) 등이 적용될 수 있다. 또한, 인터넷과 연결되어 서비스를 제공하는 경우 인터넷에서 정보 전송을 위한 표준 프로토콜인 TCP/IP를 따를 수 있다.The
입출력기(240)는 구체적으로는 입력 장치(241)와 출력 장치(242)로 구성되며, 입력 장치(241)는 프로세서(210)와 통신하고, 복수의 방식으로 사용자의 입력을 수신할 수 있다. 예를 들어, 입력 장치(241)는 마우스, 키보드, 터치 스크린 또는 센싱 장치일 수 있다. 출력 장치(242)는 프로세서(210)와 통신하고, 복수의 방식으로 정보를 디스플레이하거나 음성을 출력할 수 있다. 예를 들어, 출력 장치(242)는 LCD(Liquid Crystal Display, LCD), LED(Light Emitting Diode, LED) 디스플레이, OLED(Organic Light Emitting Diode) 디스플레이, 스피커 등일 수 있다. The input/
통신 버스(250)는 환자 건강 요약 생성 장치(200)의 모든 컴포넌트들, 즉 프로세서(210), 메모리(220), 통신기(230) 및 입출력기(240)를 결합하도록 구성된다. The
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.The embodiment of the present invention described above is not implemented only through the apparatus and method, and may be implemented through a program for realizing a function corresponding to the configuration of the embodiment of the present invention or a recording medium in which the program is recorded.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto. is within the scope of the right.
Claims (13)
환자에 대한 임상 기록에 포함된 임상 정보의 내용으로부터 적어도 하나의 문장을 추출하고, 추출된 문장에 대해 품사 태깅을 수행하는 전처리를 수행하는 전처리부, 그리고
상기 전처리부에 의해 전처리가 수행된 문장으로부터 인과성 구문 형태의 후보 구문을 추출한 후 미리 설정된 의료 정보를 사용하여 시맨틱 분석을 통해 환자 건강 요약을 생성하는 주처리부
를 포함하며,
상기 인과성 구문 형태의 후보 구문은 상기 전처리부에 의해 전처리가 수행된 문장으로부터 식별된 <명사, 동사, 명사> 형태의 트리플을 나타내는,
환자 건강 요약 생성 장치.A device for generating a patient health summary, comprising:
A preprocessor that extracts at least one sentence from the contents of clinical information included in the clinical record for a patient, and performs preprocessing for performing part-of-speech tagging on the extracted sentence, and
A main processing unit that extracts a candidate phrase in the form of a causal phrase from a sentence that has been pre-processed by the pre-processing unit, and then generates a patient health summary through semantic analysis using preset medical information.
includes,
The candidate syntax of the causal syntax form represents a triple of the form <noun, verb, noun> identified from the sentence on which preprocessing has been performed by the preprocessor,
Patient health summary generation device.
상기 주처리부는,
상기 전처리부에 의해 전처리가 수행된 문장에 존재하는 트리플을 식별하여 후보 트리플로 추출하는 후보 트리플 추출기,
상기 후보 트리플 추출기에 의해 추출되는 후보 트리플이, 상기 후보 트리플을 구성하는 2개의 명사가 각각 원인과 결과를 나타내는 인과 관계를 형성하는 인과성 트리플인 경우, 상기 후보 트리플을 인과성 후보로 분류하는 인과성 후보 분류기,
상기 인과성 후보 분류기에 의해 분류된 인과성 후보를 구성하는 용어의 시맨틱 유형을 결정하여 임상 도메인에 해당하는 인과성 후보를 필터링하는 시맨틱 분석기, 그리고
상기 시맨틱 분석기에 의해 필터링된 인과성 후보를 그룹화하여 상기 환자 건강 요약으로 생성하는 요약 생성기
를 포함하는 환자 건강 요약 생성 장치.According to claim 1,
The main processing unit,
a candidate triple extractor for identifying triples existing in the sentence on which the preprocessing has been performed by the preprocessor and extracting them as candidate triples;
When the candidate triple extracted by the candidate triple extractor is a causal triple in which two nouns constituting the candidate triple form a causal relationship representing a cause and an effect, respectively, a causal candidate classifier for classifying the candidate triple as a causal candidate ,
A semantic analyzer for filtering causal candidates corresponding to clinical domains by determining semantic types of terms constituting the causal candidates classified by the causal candidate classifier; and
Summary generator that groups the causal candidates filtered by the semantic analyzer to generate the patient health summary
A device for generating a patient health summary comprising a.
상기 후보 트리플 추출기는,
상기 전처리부에 의해 전처리가 수행된 문장에 존재하는 트리플을 식별하는 후보 트리플 식별기, 그리고
상기 후보 트리플 식별기에 의해 식별된 후보 트리플에 대해 단어 임베딩 기술을 사용하여 벡터 인코딩을 수행하는 벡터 변환기
를 포함하는, 환자 건강 요약 생성 장치.3. The method of claim 2,
The candidate triple extractor is
A candidate triple identifier for identifying triples present in the sentence on which the preprocessing has been performed by the preprocessor, and
A vector converter that performs vector encoding on a candidate triple identified by the candidate triple identifier using a word embedding technique
A device for generating a patient health summary comprising:
상기 인과성 후보 분류기는,
상기 후보 트리플 추출기에 의해 추출되는 후보 트리플에 대해 미리 설정된 인과성 검출 모델을 사용하여 유사도를 측정하고, 측정된 유사도를 포함하여 상기 후보 트리플을 후보 쿼드로 확장하는 유사도 식별기, 그리고
상기 유사도 식별기에 의해 측정된 유사도가 미리 설정된 임계값 이상인 후보 쿼드만을 상기 인과성 후보로 필터링하는 쿼드 필터
를 포함하며,
상기 후보 쿼드는 <명사, 동사, 명사, 유사도>의 형태로 구성되는,
환자 건강 요약 생성 장치.3. The method of claim 2,
The causal candidate classifier is
A similarity identifier that measures the similarity using a causal detection model preset with respect to the candidate triple extracted by the candidate triple extractor, and expands the candidate triple into a candidate quad including the measured similarity, and
A quad filter for filtering only candidate quads whose similarity measured by the similarity identifier is equal to or greater than a preset threshold value as the causal candidates
includes,
The candidate quad is configured in the form of <noun, verb, noun, similarity>,
Patient health summary generation device.
상기 인과성 검출 모델은 인공지능 기술을 사용하여 <명사, 동사, 명사> 형태로 구성된 트리플에서 두 개의 명사가 각각 ‘원인’과 ‘결과’에 해당하는 인과관계를 나타내는 인과성 트리플을 포함하도록 학습을 통해 형성되는,
환자 건강 요약 생성 장치.5. The method of claim 4,
The causality detection model uses artificial intelligence technology to learn to include a causal triple in which two nouns represent a causal relationship corresponding to a 'cause' and a 'effect' in a triple composed of a <noun, verb, noun> form, respectively. formed,
Patient health summary generation device.
상기 유사도 식별기는 상기 인과성 검출 모델을 사용하여 상기 후보 트리플에 대한 유사도 측정시 코사인 유사도 방식을 사용하는,
환자 건강 요약 생성 장치.5. The method of claim 4,
The similarity identifier uses a cosine similarity method when measuring the similarity for the candidate triple using the causality detection model.
Patient health summary generation device.
상기 후보 쿼드에 포함되는 유사도는 상기 후보 트리플에 대해 상기 유사도 식별기에 의해 측정되는 하나 이상의 유사도 중에서 최대 값을 갖는 유사도인,
환자 건강 요약 생성 장치.5. The method of claim 4,
The similarity included in the candidate quad is a degree of similarity having a maximum value among one or more similarities measured by the similarity identifier with respect to the candidate triple,
Patient health summary generation device.
상기 시맨틱 분석기는,
상기 인과성 후보 분류기에 의해 분류된 인과성 후보에 대해 미리 설정된 의료 사전을 사용하여 용어의 시맨틱 유형을 식별하는 시맨틱 카테고리 식별기, 그리고
상기 시맨틱 카테고리 식별기에 의해 식별된 시맨틱 유형이 상기 임상 도메인에 해당하지 않는 비 임상 후보를 제거하는 의료 쿼드 필터
를 포함하는, 환자 건강 요약 생성 장치.3. The method of claim 2,
The semantic analyzer is
a semantic category identifier for identifying a semantic type of a term using a medical dictionary preset for a causal candidate classified by the causal candidate classifier; and
Medical quad filter for removing non-clinical candidates whose semantic type identified by the semantic category identifier does not correspond to the clinical domain
A device for generating a patient health summary comprising:
상기 요약 생성기는 상기 시맨틱 분석기에 의해 필터링된 후보 쿼드를 구성하는 <명사, 동사, 명사, 유사도> 형태로부터 <원인 -> 결과, 신뢰도>의 형태인 환자 건강 요약을 생성하며,
상기 원인과 결과는 상기 후보 쿼드를 구성하며 인과관계를 나타내는 2개의 명사 중에서 원인을 나타내는 명사를 상기 원인으로 하고, 결과를 나타내는 명사를 상기 결과로 설정하며, 상기 신뢰도는 상기 후보 쿼드를 구성하는 유사도로서 대체되는,
환자 건강 요약 생성 장치.5. The method of claim 4,
The summary generator generates a patient health summary in the form of <cause -> result, reliability> from the form of <noun, verb, noun, similarity> constituting the candidate quad filtered by the semantic analyzer,
The cause and effect constitute the candidate quad, and a noun indicating a cause among two nouns indicating a causal relationship is the cause, and a noun indicating a result is set as the result, and the reliability is the degree of similarity constituting the candidate quad. replaced by
Patient health summary generation device.
상기 전처리부는,
상기 임상 기록에 포함된 임상 정보의 내용으로부터 문장을 추출하는 문장 추출기,
문장 추출기에 의해 추출된 문장에 대해 중복 텍스트, 특수 문자를 포함하는 내용을 제거하는 정규화기,
상기 정규화기에 의해 정규화 처리된 문장에 대해 단어 모음을 토큰으로 분할하는 토큰화 처리를 수행하는 토큰화기,
상기 토큰화기에 의해 토큰화 처리된 각각의 토큰을 기본 형태로 변환하는 표제어 추출기,
상기 표제어 추출기에 의해 변환된 문장에서 불용어를 제거하는 불용어 필터, 그리고
상기 불용어 필터에 의해 필터링된 후의 문장에 대해 자연어 처리 파서를 사용하여 각각의 토큰에 품사를 태깅하는 태깅부
를 포함하는, 환자 건강 요약 생성 장치.According to claim 1,
The preprocessor is
a sentence extractor for extracting sentences from the contents of clinical information included in the clinical record;
A normalizer that removes duplicate text and content containing special characters for the sentences extracted by the sentence extractor;
A tokenizer that performs tokenization processing of dividing a collection of words into tokens for the sentences normalized by the normalizer;
A lemma extractor that converts each token tokenized by the tokenizer into a basic form;
A stopword filter for removing stopwords from the sentences converted by the headword extractor, and
A tagging unit for tagging each token with a part-of-speech by using a natural language processing parser for the sentences filtered by the stopword filter
A device for generating a patient health summary comprising:
환자에 대한 임상 기록에 포함된 임상 정보의 내용으로부터 문장을 추출하는 단계,
추출된 문장에 대해 품사 태깅을 수행하는 전처리를 수행하는 단계,
상기 전처리가 수행된 문장으로부터 인과성 구문 형태의 후보 트리플을 추출하는 단계,
추출되는 후보 트리플에 대해 미리 설정된 인과성 검출 모델을 사용하여 유사도를 측정하고, 측정된 유사도를 포함하여 상기 후보 트리플을 후보 쿼드로 확장하는 단계, 그리고
상기 측정된 유사도가 미리 설정된 임계값 이상인 경우, 미리 설정된 의료 정보를 사용하여 시맨틱 분석을 통해 환자 건강 요약을 생성하는 단계
를 포함하며,
상기 후보 트리플은 <명사, 동사, 명사> 형태로 구성되고, 상기 후보 쿼드는 <명사, 동사, 명사, 유사도> 형태로 구성되는,
환자 건강 요약 생성 방법.A method of generating a patient health summary comprising:
extracting sentences from the contents of clinical information included in the clinical record for the patient;
performing pre-processing for performing part-of-speech tagging on the extracted sentence;
extracting a candidate triple in the form of a causal syntax from the sentence on which the preprocessing has been performed;
Measuring similarity using a causality detection model preset for the extracted candidate triple, and expanding the candidate triple to a candidate quad including the measured similarity; and
generating a patient health summary through semantic analysis using preset medical information when the measured similarity is greater than or equal to a preset threshold
includes,
The candidate triple is configured in the form of <noun, verb, noun>, and the candidate quad is configured in the form of <noun, verb, noun, similarity>,
How to create a patient health summary.
상기 전처리가 수행된 문장으로부터 인과성 구문 형태의 후보 트리플을 추출하는 단계는,
상기 후보 트리플에 대해 단어 임베딩 기술을 사용하여 벡터 인코딩을 수행하는 단계를 포함하는,
환자 건강 요약 생성 방법.12. The method of claim 11,
The step of extracting a candidate triple in the form of a causal syntax from the sentence on which the pre-processing has been performed,
performing vector encoding on the candidate triple using a word embedding technique;
How to create a patient health summary.
상기 환자 건강 요약은 <원인 -> 결과, 신뢰도> 형태로 구성되며, 상기 원인과 결과는 상기 후보 쿼드를 구성하며 인과관계를 나타내는 2개의 명사 중에서 원인을 나타내는 명사를 상기 원인으로 하고, 결과를 나타내는 명사를 상기 결과로 설정하며, 상기 신뢰도는 상기 후보 쿼드를 구성하는 유사도로서 대체되는,
환자 건강 요약 생성 방법.12. The method of claim 11,
The patient health summary is configured in the form of <cause -> result, reliability>, wherein the cause and effect constitute the candidate quad, and the noun indicating the cause is the cause among the two nouns indicating the causal relationship, and the noun indicating the result is the cause. set a noun to the result, wherein the confidence is replaced by the degree of similarity constituting the candidate quad,
How to create a patient health summary.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200148833A KR102468250B1 (en) | 2020-11-09 | 2020-11-09 | Apparatus for generating patient health summary and method thererof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200148833A KR102468250B1 (en) | 2020-11-09 | 2020-11-09 | Apparatus for generating patient health summary and method thererof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220063005A true KR20220063005A (en) | 2022-05-17 |
KR102468250B1 KR102468250B1 (en) | 2022-11-16 |
Family
ID=81803192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200148833A KR102468250B1 (en) | 2020-11-09 | 2020-11-09 | Apparatus for generating patient health summary and method thererof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102468250B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101541170B1 (en) * | 2014-10-21 | 2015-08-03 | (주)센솔로지 | Apparatus and method for summarizing text |
KR20170089142A (en) * | 2016-01-26 | 2017-08-03 | 경북대학교 산학협력단 | Generating method and system for triple data |
KR20190033269A (en) * | 2017-09-21 | 2019-03-29 | 숭실대학교산학협력단 | Knowledge Base completion method and server |
-
2020
- 2020-11-09 KR KR1020200148833A patent/KR102468250B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101541170B1 (en) * | 2014-10-21 | 2015-08-03 | (주)센솔로지 | Apparatus and method for summarizing text |
KR20170089142A (en) * | 2016-01-26 | 2017-08-03 | 경북대학교 산학협력단 | Generating method and system for triple data |
KR20190033269A (en) * | 2017-09-21 | 2019-03-29 | 숭실대학교산학협력단 | Knowledge Base completion method and server |
Non-Patent Citations (3)
Title |
---|
M. Alobaidi 외, "Linked open data-based framework for automatic biomedical ontology generation", BMC Bioinformatics, 19:319. (2018.09.10.)* * |
S. Molenaar 외, "Medical Dialogue Summarization for Automated Reporting in Healthcare", CAiSE 2020. Lecture Notes in Business Information Processing, vol 382. Springer, Cham. (2020.05.16.)* * |
이균성 기자, "부산대병원, 국내 최초 음성으로 진료기록 입력", 의학신문. (2017.07.29.)* * |
Also Published As
Publication number | Publication date |
---|---|
KR102468250B1 (en) | 2022-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9606990B2 (en) | Cognitive system with ingestion of natural language documents with embedded code | |
US10140272B2 (en) | Dynamic context aware abbreviation detection and annotation | |
US9740769B2 (en) | Interpreting and distinguishing lack of an answer in a question answering system | |
US10956463B2 (en) | System and method for generating improved search queries from natural language questions | |
JP2015109068A (en) | Mechanisms, methods, computer programs and devices for identifying and displaying relationships between candidate answers | |
US10303766B2 (en) | System and method for supplementing a question answering system with mixed-language source documents | |
US11495332B2 (en) | Automated prediction and answering of medical professional questions directed to patient based on EMR | |
US11379660B2 (en) | Deep learning approach to computing spans | |
US20160055155A1 (en) | Answering Superlative Questions with a Question and Answer System | |
US9842096B2 (en) | Pre-processing for identifying nonsense passages in documents being ingested into a corpus of a natural language processing system | |
US10628749B2 (en) | Automatically assessing question answering system performance across possible confidence values | |
US10282678B2 (en) | Automated similarity comparison of model answers versus question answering system output | |
US11295080B2 (en) | Automatic detection of context switch triggers | |
Demner-Fushman et al. | A Knowledge-Based Approach to Medical Records Retrieval. | |
Venturi et al. | NLP–based readability assessment of health–related texts: a case study on Italian informed consent forms | |
Zhao et al. | Exploiting classification correlations for the extraction of evidence-based practice information | |
Alsudias et al. | Developing an Arabic infectious disease ontology to include non-standard terminology | |
US20200334331A1 (en) | Machine learned sentence span inclusion judgments | |
US11763081B2 (en) | Extracting fine grain labels from medical imaging reports | |
KR102468250B1 (en) | Apparatus for generating patient health summary and method thererof | |
CN113314236A (en) | Intelligent question-answering system for hypertension | |
Si et al. | Scaling up prediction of psychosis by natural language processing | |
Kocaman et al. | John_snow_labs@ smm4h’22: Social media mining for health (# smm4h) with spark nlp | |
Angelova | Use of domain knowledge in the automatic extraction of structured representations from patient-related texts | |
US20170329753A1 (en) | Post-Processing for Identifying Nonsense Passages in a Question Answering System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |