KR101869438B1 - Method and system for predicting prognosis from diagnostic histories using deep learning - Google Patents

Method and system for predicting prognosis from diagnostic histories using deep learning Download PDF

Info

Publication number
KR101869438B1
KR101869438B1 KR1020160155771A KR20160155771A KR101869438B1 KR 101869438 B1 KR101869438 B1 KR 101869438B1 KR 1020160155771 A KR1020160155771 A KR 1020160155771A KR 20160155771 A KR20160155771 A KR 20160155771A KR 101869438 B1 KR101869438 B1 KR 101869438B1
Authority
KR
South Korea
Prior art keywords
disease
sequence
data
learning
generating
Prior art date
Application number
KR1020160155771A
Other languages
Korean (ko)
Other versions
KR20180057300A (en
Inventor
하정우
김정희
민구
신재경
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020160155771A priority Critical patent/KR101869438B1/en
Publication of KR20180057300A publication Critical patent/KR20180057300A/en
Application granted granted Critical
Publication of KR101869438B1 publication Critical patent/KR101869438B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Abstract

딥 러닝을 이용하여 환자의 진단 이력으로부터 질병 예후를 예측하는 방법 및 시스템이 개시된다. 질병 예후 예측 방법은, 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하는 단계; 상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하는 단계; 및 상기 학습데이터를 이용하여 질병 예후를 예측하는 단계를 포함할 수 있다.A method and system for predicting a disease prognosis from a patient ' s diagnostic history using deep learning is disclosed. The disease prognosis prediction method includes generating sequence data by expressing a diagnostic classification code indicating a diagnosis history of a patient in a word sequence form; Generating learning data by word sequence learning using Recurrent Neural Networks (RNN) for the sequence data; And predicting a disease prognosis using the learning data.

Description

딥 러닝을 이용하여 환자의 진단 이력으로부터 질병 예후를 예측하는 방법 및 시스템{METHOD AND SYSTEM FOR PREDICTING PROGNOSIS FROM DIAGNOSTIC HISTORIES USING DEEP LEARNING}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to a method and system for predicting a disease prognosis from a patient's diagnosis history using deep learning,

아래의 설명은 질병 예후를 예측하는 기술에 관한 것이다.The following discussion is about techniques for predicting disease prognosis.

고혈압(HBP), 당뇨, 고지혈증 등과 같은 성인병들은 전세계적으로 중년들에게 매우 흔하게 나타나고 있는 질병 중 하나이다. 비록 성인병 그 자체가 건강에 치명적이지는 않더라도 이는 심각한 합병증을 유발시킬 수 있다.Diseases such as hypertension (HBP), diabetes, and hyperlipidemia are among the most common diseases worldwide in the middle-aged. Although adult disease itself is not fatal to health, it can lead to serious complications.

특히, 성인병은 사망의 주요 원인인 심장, 뇌, 혈관 질병과 같은 고위험 질병과 관련성이 매우 높다는 점이 지속적으로 보고되고 있다. 따라서, 성인병 환자의 고위험 예후를 예측하는 것은 의료 분야 및 바이오 기술 분야에서 매우 중요한 문제라고 할 수 있다.In particular, it has been reported that adult diseases are highly associated with high-risk diseases such as heart, brain, and vascular disease, which are the main causes of death. Therefore, predicting the high-risk prognosis of geriatric patients is an important issue in the medical and biotechnological fields.

고위험 예후 예측을 위해 연령, 성별, 현재 상태, 가족력 등의 정보를 이용한다거나, 바이오마커 유전자 발현량, CT 등의 의료 이미지, 혈액분석 등을 이용한 다양한 방법이 사용되고 있다.In order to predict the high-risk prognosis, various methods using age, sex, current status, family history, etc., biomarker gene expression amount, medical images such as CT, and blood analysis are used.

예컨대, 한국공개특허 제10-2014-0098561호(공개일 2014년 08월 08일)에는 분석 대상 질병에 관련된 단일염기다형성(single nucleotide polymorphism, SNP) 조합을 기초로 사용자의 질병 발생 위험도를 예측하는 기술이 개시되어 있다.For example, Korean Patent Laid-Open No. 10-2014-0098561 (published on Aug 08, 2014) discloses a method for predicting a user's risk of developing a disease based on the combination of single nucleotide polymorphism (SNP) Technology is disclosed.

고위험 예후 예측을 위한 기존 방법에서 사용되는 데이터들은 종류도 다양할 뿐 아니라 전처리 등의 데이터 처리 과정이 복잡하기 때문에 필요한 데이터를 확보하는데 많은 시간과 노력, 비용을 필요로 한다.The data used in the existing methods for predicting high-risk prognosis are not only diverse, but also require a lot of time, effort, and cost to acquire necessary data because the data processing process such as preprocessing is complicated.

딥 러닝(deep learning) 기법인 RNN(Recurrent Neural Networks) 등 신경망을 이용하여 성인병 환자의 진단 이력으로부터 고위험 예후를 예측할 수 있는 방법 및 시스템을 제공한다.We provide a method and system for predicting high-risk prognosis from the diagnostic history of adult patients using neural networks such as deep learning (Recurrent Neural Networks).

환자 분류, 진단 및 치료 코드 등을 단어 시퀀스(sequence) 형태의 피처(feature)로 표현하여 RNN을 이용한 학습을 통해 해당 환자의 고위험 예후를 분류 및 예측할 수 있는 방법 및 시스템을 제공한다.The present invention provides a method and system for classifying and predicting a high risk prognosis of a patient by expressing a patient classification, a diagnosis, and a treatment code as features of a word sequence in order to learn by using RNN.

컴퓨터로 구현되는 질병 예후 예측 방법에 있어서, 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하는 단계; 상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하는 단계; 및 상기 학습데이터를 이용하여 질병 예후를 예측하는 단계를 포함하는 질병 예후 예측 방법을 제공한다.A computer-implemented disease prognosis prediction method, comprising: generating sequence data by expressing a diagnostic classification code representing a diagnostic history of a patient in a word sequence; Generating learning data by word sequence learning using Recurrent Neural Networks (RNN) for the sequence data; And predicting a disease prognosis using the learning data.

일 측면에 따르면, 상기 학습데이터를 생성하는 단계는, 상기 시퀀스 데이터를 실수 벡터로 표현하여 상기 실수 벡터에 따른 질병 발생 확률을 계산하는 단계를 포함할 수 있다.According to an aspect of the present invention, the step of generating the learning data may include calculating the disease occurrence probability according to the real vector by expressing the sequence data as a real number vector.

다른 측면에 따르면, 상기 학습데이터를 생성하는 단계는, 상기 시퀀스 데이터를 상기 RNN의 입력으로 하여 상기 RNN에서 단어 시퀀스 학습을 통해 시퀀스 정보가 포함된 워드 벡터를 표현하는 단계; 및 상기 시퀀스 정보가 포함된 워드 벡터를 이용하여 질병 발생 확률을 계산하는 단계를 포함하는 질병 예후 예측 방법을 포함할 수 있다.According to another aspect of the present invention, the step of generating the learning data comprises: expressing a word vector including sequence information through word sequence learning in the RNN with the sequence data as an input of the RNN; And calculating a disease occurrence probability using the word vector including the sequence information.

또 다른 측면에 따르면, 상기 학습데이터를 생성하는 단계는, 단어 시퀀스에 대한 분산 표현(distributed representation)을 위한 임베딩 레이어(embedding layer)와, 시퀀스 모델링을 위한 회귀 레이어(recurrent layers), 및 질병 예후 분류를 위한 완전 연결 레이어(fully-connected layers)로 구성된 RNN을 이용할 수 있다.According to another aspect, the step of generating the learning data comprises the steps of: embedding a layer for a distributed representation of a word sequence; recurrent layers for sequence modeling; And fully-connected layers for the RNN.

또 다른 측면에 따르면, 상기 RNN의 학습은 상기 완전 연결 레이어, 상기 회귀 레이어, 상기 임베딩 레이어를 통해 입력 피처 레이어(input feature layer)로 예측 오차를 전파함으로써 E2E(end-to-end) 방식으로 진행될 수 있다.According to another aspect, the learning of the RNN is performed in an end-to-end manner by propagating a prediction error to the input feature layer through the full connection layer, the regression layer, and the embedding layer .

또 다른 측면에 따르면, 상기 시퀀스 데이터를 생성하는 단계는, 상기 진단 분류 코드 중 최근 마지막 일정 개수의 코드를 이용하여 상기 시퀀스 데이터를 생성할 수 있다.According to another aspect of the present invention, the step of generating the sequence data may generate the sequence data using a last last predetermined number of codes among the diagnostic classification codes.

또 다른 측면에 따르면, 상기 시퀀스 데이터를 생성하는 단계는, 상기 진단 분류 코드 중 주어진 질병에 해당되는 코드를 해당 질병의 레이블로 대체할 수 있다.According to another aspect, the step of generating the sequence data may replace a code corresponding to a given disease among the diagnostic classification codes with a label of the disease.

또 다른 측면에 따르면, 상기 시퀀스 데이터를 생성하는 단계는, 상기 진단 분류 코드 중 주어진 질병에 해당되는 코드가 복수 개인 경우 각 질병에 대한 시퀀스 데이터를 생성할 수 있다.According to another aspect, the step of generating the sequence data may generate sequence data for each disease when a plurality of codes corresponding to a given disease among the diagnostic classification codes are present.

또 다른 측면에 따르면, 상기 환자의 진단 시점의 시간 및 질병 기간, 치료 이력과 병리학적 측정 데이터 중 적어도 하나의 추가 임상 이력에 대한 시퀀스 데이터를 생성하는 단계를 더 포함하고, 상기 학습데이터를 생성하는 단계는, 상기 환자의 진단 이력과 상기 추가 임상 이력에 대해 해당 데이터의 특성에 따른 각각의 개별 신경망을 추가하여 학습하는 단계를 포함할 수 있다.According to another aspect, the method further comprises generating sequence data for at least one additional clinical history of the patient's time of diagnosis and disease duration, treatment history and pathological measurement data, Step may include learning each of the individual neural networks according to the characteristics of the data for the diagnostic history of the patient and the additional clinical history.

컴퓨터 시스템과 결합되어 질병 예후 예측 방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 있어서, 상기 질병 예후 예측 방법은, 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하는 단계; 상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하는 단계; 및 상기 학습데이터를 이용하여 질병 예후를 예측하는 단계를 포함하는, 컴퓨터 프로그램을 제공한다.A computer program recorded on a computer-readable recording medium for executing a disease prognosis prediction method in combination with a computer system, the disease prognosis prediction method comprising the steps of: generating a diagnostic classification code indicating a diagnosis history of a patient as a word sequence Generating sequence data by expressing the sequence data; Generating learning data by word sequence learning using Recurrent Neural Networks (RNN) for the sequence data; And predicting a disease prognosis using the learning data.

컴퓨터로 구현되는 질병 예후 예측 시스템에 있어서, 컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하고, 상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하고, 상기 학습데이터를 이용하여 질병 예후를 예측하는 것을 특징으로 하는 질병 예후 예측 시스템을 제공한다.CLAIMS What is claimed is: 1. A computer implemented disease prognosis prediction system, comprising: at least one processor configured to execute a computer-readable instruction, wherein the at least one processor is configured to generate a diagnostic classification code, ), Generating learning data by word sequence learning using RNN (Recurrent Neural Networks) for the sequence data, and predicting a disease prognosis using the learning data Provides a disease prognosis prediction system.

본 발명의 실시예들에 따르면, 진단 분류 코드를 단어 시퀀스 형태의 피처로 표현하고 RNN을 이용한 학습을 통해 해당 환자의 고위험 예후를 예측할 수 있다. 따라서, 코드로 표현된 간단한 진단 이력만으로 보다 빠르고 정확하게 고위험 예후를 예측할 수 있으며 고위험 예후에 대한 신속한 경고를 제공할 수 있다.According to embodiments of the present invention, the diagnosis classification code can be expressed as a feature in the form of a word sequence, and the high-risk prognosis of the patient can be predicted through learning using RNN. Therefore, a simple diagnostic history expressed in code can predict the high-risk prognosis faster and more accurately and provide a quick warning about the high-risk prognosis.

도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 질병 예후 예측 방법의 예를 도시한 순서도이다.
도 4는 본 발명의 일 실시예에 있어서 진단 분류 코드로부터 시퀀스 데이터를 생성하는 과정의 예를 도시한 것이다.
도 5는 본 발명의 일 실시예에 있어서 질병 예후 예측을 위한 RNN 모델 구조의 예를 도시한 것이다.
1 is a block diagram for explaining an example of the internal configuration of a computer system according to an embodiment of the present invention.
2 is a diagram illustrating an example of components that a processor of a computer system according to an embodiment of the present invention may include.
3 is a flowchart illustrating an example of a disease prognosis prediction method that can be performed by a computer system according to an embodiment of the present invention.
FIG. 4 shows an example of a process of generating sequence data from a diagnostic classification code in an embodiment of the present invention.
FIG. 5 shows an example of an RNN model structure for predicting disease prognosis in an embodiment of the present invention.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명의 실시예들은 질병 예후를 예측하는 기술에 관한 것이다.Embodiments of the invention relate to techniques for predicting disease prognosis.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 질병 예후 예측을 달성하고 이를 통해 효율성, 정확성, 신속성, 비용 절감 등의 측면에 있어서 상당한 장점들을 달성한다.Embodiments, including those specifically disclosed herein, achieve disease prognosis prediction and thereby achieve significant advantages in terms of efficiency, accuracy, agility, cost savings, and the like.

도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 질병 예후 예측 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 질병 예후 예측 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다.1 is a block diagram for explaining an example of the internal configuration of a computer system according to an embodiment of the present invention. For example, a disease prognosis prediction system in accordance with embodiments of the present invention may be implemented through the computer system 100 of FIG. 1, the computer system 100 includes a processor 110, a memory 120, a persistent storage 130, a bus 140, an input / output interface 150 and a network interface 160.

프로세서(110)는 환자들의 진단 이력으로부터 고위험 예후를 예측하기 위한 구성요소로서 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.The processor 110 may include or be part of any device capable of processing a sequence of instructions as a component for predicting a high risk prognosis from a patient ' s diagnostic history. The processor 110 may comprise, for example, a processor and / or a digital processor within a computer processor, a mobile device, or other electronic device. The processor 110 may be, for example, a server computing device, a server computer, a series of server computers, a server farm, a cloud computer, a content platform, and the like. The processor 110 may be connected to the memory 120 via a bus 140.

메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 다이내믹 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 질병 예후 예측을 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.The memory 120 may include volatile memory, permanent, virtual or other memory for storing information used by or output by the computer system 100. Memory 120 may include, for example, random access memory (RAM) and / or dynamic random access memory (DRAM). The memory 120 may be used to store any information, such as the state information of the computer system 100. Memory 120 may also be used to store instructions of computer system 100, including, for example, instructions for predicting a disease prognosis. Computer system 100 may include one or more processors 110 as needed or where appropriate.

버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.The bus 140 may comprise a communication infrastructure that enables interaction between the various components of the computer system 100. The bus 140 may, for example, carry data between components of the computer system 100, for example, between the processor 110 and the memory 120. The bus 140 may comprise a wireless and / or wired communication medium between the components of the computer system 100 and may include parallel, serial, or other topology arrangements.

영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.The persistent storage device 130 may be a component such as a memory or other persistent storage device as used by the computer system 100 to store data for a predetermined extended period of time (e.g., as compared to the memory 120) Lt; / RTI > The persistent storage device 130 may include non-volatile main memory as used by the processor 110 in the computer system 100. The persistent storage device 130 may include, for example, flash memory, hard disk, optical disk, or other computer readable medium.

입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 질병 예후 예측을 위한 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다.The input / output interface 150 may include a keyboard, a mouse, voice command inputs, displays, or interfaces to other input or output devices. Inputs for configuration instructions and / or disease prognosis prediction may be received via the input / output interface 150.

네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 질병 예후 예측을 위한 입력이 네트워크 인터페이스(160)를 통해 수신될 수 있다.The network interface 160 may include one or more interfaces to networks such as a local area network or the Internet. The network interface 160 may include interfaces for wired or wireless connections. Configuration commands and / or input for predicting the disease prognosis may be received via the network interface 160.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.Also, in other embodiments, the computer system 100 may include more components than the components of FIG. However, there is no need to clearly illustrate most prior art components. For example, the computer system 100 may be implemented to include at least some of the input / output devices connected to the input / output interface 150 described above, or may include a transceiver, a Global Positioning System (GPS) module, Databases, and the like.

본 발명에서는 딥 러닝 기법인 RNN을 이용하여 환자들의 진단 이력으로부터 고위험 예후를 예측하는 기술을 제공한다. 본 명세서에서는 고혈압, 당뇨, 고지혈증 등을 성인병의 대표적인 예로 정의하고, 심혈관 질병과 뇌혈관 질병을 고위험 질병의 대표적인 예로 정의하나, 이에 한정되는 것은 아니다.The present invention provides a technique for predicting a high-risk prognosis from the diagnostic history of patients using RNN as a deep-running technique. In the present specification, hypertension, diabetes and hyperlipidemia are defined as representative examples of adult diseases, and cardiovascular diseases and cerebrovascular diseases are defined as typical examples of high-risk diseases, but the present invention is not limited thereto.

도 2는 본 발명의 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 질병 예후 예측 방법의 예를 도시한 순서도이다.FIG. 2 illustrates an example of components that a processor of a computer system according to an embodiment of the present invention may include; and FIG. 3 illustrates an example of a computer system according to an embodiment of the present invention, A flowchart showing an example of a prediction method.

도 2에 도시된 바와 같이, 프로세서(110)는 시퀀스 생성부(210), 학습 처리부(220), 및 예후 예측부(230)를 포함할 수 있다. 이러한 프로세서(110)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(110)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(110)가 시퀀스 데이터를 생성하도록 컴퓨터 시스템(100)을 제어하기 위해 동작하는 기능적 표현으로서 시퀀스 생성부(210)가 사용될 수 있다. 프로세서(110) 및 프로세서(110)의 구성요소들은 도 3의 질병 예후 예측 방법이 포함하는 단계들(S310 내지 S340)을 수행할 수 있다. 예를 들어, 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(120)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 적어도 하나의 프로그램 코드는 질병 예후 예측 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.As shown in FIG. 2, the processor 110 may include a sequence generator 210, a learning processor 220, and a prognostic predictor 230. The components of such a processor 110 may be representations of different functions performed by the processor 110 in accordance with control commands provided by at least one program code. For example, the sequence generator 210 may be used as a functional representation that the processor 110 operates to control the computer system 100 to generate sequence data. The components of the processor 110 and the processor 110 may perform the steps S310 through S340 included in the disease prognosis prediction method of FIG. For example, the components of processor 110 and processor 110 may be implemented to execute instructions in accordance with the at least one program code described above and the code of the operating system that memory 120 contains. Here, at least one program code may correspond to a code of a program implemented to process a disease prognosis prediction method.

질병 예후 예측 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.The disease prognosis prediction method may not occur in the order shown, and some of the steps may be omitted or an additional process may be further included.

단계(S310)에서 프로세서(110)는 질병 예후 예측 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리(120)에 로딩할 수 있다. 예를 들어, 질병 예후 예측 방법을 위한 프로그램 파일은 도 1을 통해 설명한 영구 저장 장치(130)에 저장되어 있을 수 있고, 프로세서(110)는 버스를 통해 영구 저장 장치(130)에 저장된 프로그램 파일로부터 프로그램 코드가 메모리(120)에 로딩되도록 컴퓨터 시스템(110)을 제어할 수 있다. 이때, 프로세서(110) 및 프로세서(110)가 포함하는 시퀀스 생성부(210), 학습 처리부(220), 및 예후 예측부(230) 각각은 메모리(120)에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(S320 내지 S340)을 실행하기 위한 프로세서(110)의 서로 다른 기능적 표현들일 수 있다. 단계들(S320 내지 S340)의 실행을 위해, 프로세서(110) 및 프로세서(110)의 구성요소들은 직접 제어 명령에 따른 연산을 처리하거나 또는 컴퓨터 시스템(100)을 제어할 수 있다.In step S310, the processor 110 may load the program code stored in the program file for the disease prognosis prediction method into the memory 120. [ For example, a program file for a disease prognosis prediction method may be stored in the persistent storage 130 described with reference to FIG. 1, and the processor 110 may retrieve the program files stored in the persistent storage 130 The computer system 110 may be controlled such that the program code is loaded into the memory 120. [ At this time, the sequence generation unit 210, the learning processing unit 220, and the prognostic prediction unit 230 included in the processor 110 and the processor 110 respectively generate the program code of the corresponding part of the program code loaded into the memory 120 And may be different functional representations of the processor 110 for executing subsequent steps (S320 through S340). For the execution of steps S320 through S340, the processor 110 and the components of the processor 110 may process an operation according to a direct control command or control the computer system 100. [

단계(S320)에서 시퀀스 생성부(210)는 환자 각각에 대하여 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스 형태의 피처로 표현함으로써 해당 환자에 대한 시퀀스 데이터를 생성할 수 있다.In step S320, the sequence generation unit 210 may generate sequence data for the patient by expressing the diagnostic classification code indicating the patient's diagnosis history as a feature in the form of a word sequence, for each patient.

보다 구체적인 예로, 심혈관 질병과 뇌혈관 질병의 예후를 예측하기 위해 성인병 환자의 진단 데이터를 이용할 수 있다. 진단 데이터로는 환자의 질병과 증상 등을 분류하는 코드, 일례로 국제 통계 분류 10차 개정판인 ICD-10으로 표현된 진단 분류 코드를 이용할 수 있다.More specifically, diagnostic data from adult patients can be used to predict the prognosis of cardiovascular and cerebrovascular disease. The diagnostic data may include a code for classifying the patient's disease and symptoms, for example, a diagnostic classification code expressed as ICD-10, the 10th edition of the International Statistical Classification.

환자의 진단 데이터로 사용되는 ICD-10 코드는 총 6,667개이며, 이들 코드 전체를 사용하거나 혹은 환자들에게서 일정 횟수 이상 나타나는 일부 코드들, 예를 들어 50번 이상 나타나는 2,777개의 코드들을 선택적으로 이용할 수 있다. 혹은 예측 질병과 관련 없는 진단 코드들은 사용하지 않음으로써 학습 효율성을 향상시킬 수 있다.A total of 6,667 ICD-10 codes are used as the patient's diagnostic data, and some of these codes may be used or some codes appearing more than a certain number of times in patients, for example, 2,777 codes appearing more than 50 times have. Or by not using diagnostic codes that are not related to predictive illnesses.

ICD-10 코드 세트 x와 질병 세트 y가 주어지면 환자의 진단 이력이 ICD-10 코드의 시퀀스로 정의될 수 있다.Given an ICD-10 code set x and a disease set y, the patient's diagnostic history can be defined as a sequence of ICD-10 codes.

[수학식 1][Equation 1]

d={x, y}={(x1, x2, x3, …, xm), y} s.t. x∈X, y∈Yd = {x, y} = {(x 1, x 2, x 3, ..., x m), y} st x∈X, y∈Y

[수학식 2]&Quot; (2) "

dk={xk, y}={(x(m-n)-k+1, …, xm -n), y} d k = {x k, y } = {(x (mn) -k + 1, ..., x m -n), y}

여기서, m은 ICD-10 코드 시퀀스의 길이를 나타내고, xk는 x의 마지막 k-길이 시퀀스를 의미한다. 환자의 시퀀스 길이가 다양하고 최근 진단이 환자의 상태를 더 정확하게 특성화할 가능성이 있으므로 예후 예측에는 최근 마지막 k개의 ICD-10 코드(즉, k-길이 시퀀스)를 사용한다. 고위험군 질병 예후의 조기 예측을 위해 m-n (n>0) 까지의 코드를 이용하여 모델을 학습할 수도 있다.Where m represents the length of the ICD-10 code sequence, and x k represents the last k-length sequence of x. Because the patient sequence length is variable and recent diagnosis has the potential to more accurately characterize the patient's condition, the last k ICD-10 codes (ie, k-length sequence) are used for prognostic prediction. For early prediction of high-risk disease prognosis, models can be learned using codes up to mn (n> 0).

진단 분류 코드가 고위험 질병 세트의 원소(element)가 된다면 해당 환자를 고위험 환자로 분류할 수 있다.If the diagnostic classification code is an element of a high-risk disease set, the patient can be classified as a high-risk patient.

도 4는 환자의 진단 이력으로부터 ICD-10 시퀀스 데이터를 생성하는 과정의 예를 도시한 것이다.FIG. 4 shows an example of a process of generating ICD-10 sequence data from a diagnosis history of a patient.

심혈관 질병 세트 YH1 {I210, I211, I212}와 뇌혈관 질병 세트 YH2 {I610, I611, I615}가 주어지는 것으로 가정한다.It is assumed that the cardiovascular disease set Y H1 {I210, I211, I212} and the cerebrovascular disease set Y H2 {I610, I611, I615} are given.

시퀀스 생성부(210)는 ICD-10 코드로 표현된 환자 별 진단 이력을 이용할 수 있으며 각 환자의 진단 이력을 나타내는 ICD-10 코드 시퀀스를 만들 수 있다. 이때, 시퀀스 생성부(210)는 환자 별로 각 환자가 가지고 있는 질병에 따라 적어도 하나의 데이터 인스턴스를 생성할 수 있다.The sequence generation unit 210 can use the patient-specific diagnosis history expressed by the ICD-10 code, and can generate the ICD-10 code sequence indicating the diagnosis history of each patient. At this time, the sequence generation unit 210 may generate at least one data instance according to the disease of each patient for each patient.

시퀀스 생성부(210)는 각 환자의 시퀀스 데이터에 해당 환자가 가지고 있는 질병을 나타내는 레이블을 포함시킬 수 있다. 예를 들어, 고위험 질병이 없는 경우 H0, 심혈관 질병의 경우 H1, 뇌혈관 질병의 경우 H2를 적용한다.The sequence generation unit 210 may include a label indicating a disease that the patient has in the sequence data of each patient. For example, H0 for high-risk disease, H1 for cardiovascular disease, and H2 for cerebrovascular disease.

진단 이력으로 ICD-10 코드 세트 {I10, I100, M870, M870, End}를 가진 환자(401)의 경우 주어진 질병 세트(YH1, YH2)에 해당되는 코드가 없기 때문에 레이블 H0을 포함한 ICD-10 시퀀스 데이터를 생성할 수 있다.In the case of the patient 401 having the ICD-10 code set {I10, I100, M870, M870, End} as the diagnosis history, there is no code corresponding to the given disease set (Y H1 , Y H2 ) 10 sequence data can be generated.

진단 이력으로 ICD-10 코드 세트 {I10, I100, L659, K297, I210}를 가진 환자(402)의 경우 주어진 질병 세트(YH1, YH2) 중 심혈관 질병에 해당되는 코드 I210를 포함하고 있기 때문에 해당 코드 대신 심혈관 질병을 나타내는 레이블 H1로 대체한 ICD-10 시퀀스 데이터를 생성할 수 있다.In the case of the patient 402 having the ICD-10 code set {I10, I100, L659, K297, I210} as the diagnosis history, since it contains the code I210 corresponding to the cardiovascular disease among the given disease set (Y H1 , Y H2 ) It is possible to generate ICD-10 sequence data replacing the code with a label H1 indicating cardiovascular disease.

진단 이력으로 ICD-10 코드 세트 {I10, I212, E835, M480, I610}를 가진 환자(403)는 주어진 질병 세트(YH1, YH2) 중에서 심혈관 질병에 해당되는 코드 I212와 뇌혈관 질병에 해당되는 코드 I610을 포함하고 있다. 한 명의 환자가 두 가지 고위험 질병을 가지고 있다면 두 개의 데이터 인스턴스가 생성될 수 있다. 이 경우 심혈관 질병에 해당되는 코드 I212까지의 제1 코드 시퀀스, 뇌혈관 질병에 해당되는 코드 I610까지의 제2 코드 시퀀스를 생성하되, 제1 코드 시퀀스에서 코드 I212를 심혈관 질병을 나타내는 레이블 H1로 대체하고 제2 코드 시퀀스에서는 코드 I610를 뇌혈관 질병을 나타내는 레이블 H2로 대체할 수 있다.A patient 403 with the ICD-10 code set {I10, I212, E835, M480, I610} as a diagnostic history corresponds to a cardiovascular disease code I212 of a given disease set (Y H1 , Y H2 ) Code I610. ≪ / RTI > Two data instances can be created if one patient has two high-risk diseases. In this case, a first code sequence up to code I212 corresponding to cardiovascular disease, a second code sequence up to code I610 corresponding to cerebrovascular disease are generated, and in the first code sequence code I212 is replaced with label H1 indicating cardiovascular disease And in the second code sequence code I610 can be replaced with the label H2 representing the cerebrovascular disease.

다시 도 3에서, 단계(S330)에서 학습 처리부(220)는 단계(S320)에서 생성된 시퀀스 데이터에 대해 RNN을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성할 수 있다. 상세하게, 학습 처리부(220)는 RNN 모델을 이용하여 진단 분류 코드로 생성된 시퀀스 데이터를 실수 벡터로 표현할 수 있고 실수 벡터에 따른 질병 발생 확률을 계산할 수 있다. 이때, 학습 처리부(220)는 환자의 진단 이력을 나타내는 ICD-10 코드로부터 생성된 시퀀스 데이터를 RNN의 입력으로 하여 RNN에서 단어 시퀀스 학습을 통해 시퀀스 정보가 포함된 워드 벡터를 표현할 수 있으며 시퀀스 정보가 포함된 워드 벡터를 이용하여 고위험 질병 별 발생 확률을 계산할 수 있다.Referring back to FIG. 3, in step S330, the learning processing unit 220 can generate learning data through word sequence learning using the RNN with respect to the sequence data generated in step S320. In detail, the learning processing unit 220 can express the sequence data generated by the diagnostic classification code using the RNN model as a real number vector and calculate the disease occurrence probability according to the real number vector. At this time, the learning processing unit 220 can express the word vector including the sequence information through the word sequence learning in the RNN with the sequence data generated from the ICD-10 code indicating the diagnosis history of the patient as the input of the RNN, and the sequence information The probability of occurrence of each high-risk disease can be calculated using the included word vector.

시퀀스 데이터로 생성된 각 ICD-10 코드는 순차적으로 기 학습된 RNN의 입력으로 주어질 수 있으며, 이러한 순차 입력이 완료되면 RNN에서는 새로운 출력 실수 벡터 값이 생성되고 이에 따라 각 질병의 발생 확률이 산출되어 출력될 수 있다. 다시 말해, 학습 처리부(220)는 워드 벡터가 단어 시퀀스 정보를 표현할 수 있도록 RNN을 이용하여 ICD-10 코드로 표현된 환자의 진단 이력에 대한 시퀀스 학습을 먼저 진행한 후 RNN의 시퀀스 학습 결과를 이용하여 해당 환자의 고위험 질병 발생 확률을 계산할 수 있다.Each ICD-10 code generated by the sequence data can be given as an input of the learned RNN sequentially. When the sequential input is completed, a new output real vector value is generated in the RNN and the probability of occurrence of each disease is calculated Can be output. In other words, the learning processing unit 220 proceeds the sequence learning on the patient's diagnosis history represented by the ICD-10 code using the RNN so that the word vector can express the word sequence information, and then uses the sequence learning result of the RNN The probability of high-risk disease occurrence of the patient can be calculated.

단계(S340)에서 예후 예측부(230)는 환자의 진단 이력에 대하여 RNN 모델을 통해 출력된 질병 발생 확률에 기초하여 해당 환자의 질병 예후를 예측할 수 있다. 다시 말해, 예후 예측부(230)는 단계(S330)에서 생성된 학습데이터를 이용하여 환자의 질병 예후를 예측할 수 있다. 일례로, 예후 예측부(230)는 고위험 질병 별 발생 확률을 이용하여 해당 환자에 대하여 질병 별 예후 등급을 결정할 수 있다. 예를 들어, 각 환자의 질병을 발생 확률에 따른 등급 레이블로 정의할 수 있으며, 환자 A에 대하여 [성인병:0, 고위험군:1] 혹은 [심혈관 질병:1, 뇌혈관 질병:0] 등과 같이 발생 가능성이 있는 질병에 별도의 레이블을 부여할 수 있다. 다른 예로, 예후 예측부(230)는 고위험 질병 별 발생 확률을 이용하여 적어도 하나의 질병군으로 해당 환자를 분류할 수 있다. 또 다른 예로, 예후 예측부(230)는 고위험 질병 별 발생 확률에 따라 가장 높은 확률의 질병에 대한 알럿(alert)을 제공할 수 있다.In step S340, the prognosis prediction unit 230 can predict the disease prognosis of the patient based on the disease occurrence probability output through the RNN model with respect to the patient's diagnosis history. In other words, the prognosis prediction unit 230 can predict the disease prognosis of the patient using the learning data generated in step S330. For example, the prognosis prediction unit 230 can determine the prognosis grade for each patient by using the probability of occurrence of each high-risk disease. For example, each patient's disease can be defined as a grade label according to the probability of occurrence, and patient A can be defined as [adult disease: 0, high risk: 1] or [cardiovascular disease: 1, cerebrovascular disease: 0] You can assign a separate label to a potential disease. As another example, the prognosis prediction unit 230 can classify the patient into at least one disease group using the probability of occurrence of each high-risk disease. As another example, the prognosis prediction unit 230 may provide an alert for the disease with the highest probability according to the occurrence probability of each high-risk disease.

진단 이력을 나타내는 시퀀스 데이터로부터 예후를 예측하는 것은 단어 시퀀스로부터 텍스트를 분류하는 작업과 유사하다고 할 수 있다.Predicting the prognosis from the sequence data representing the diagnostic history is similar to the task of classifying text from a word sequence.

도 5는 본 발명의 일 실시예에 있어서 질병 예후 예측을 위한 RNN 모델 구조의 예를 도시한 것이다.FIG. 5 shows an example of an RNN model structure for predicting disease prognosis in an embodiment of the present invention.

도 5에 도시한 바와 같이, 본 발명의 예후 예측을 위한 RNN(이하, 'PP-RNN'라 칭함)은 분산 표현(distributed representation)을 위한 임베딩 레이어(embedding layer)(501), 시퀀스 모델링을 위한 멀티 회귀 레이어(multiple recurrent layers)(502), 예후 분류를 위한 완전 연결 레이어(fully-connected layers)(503)로 구성될 수 있다.5, an RNN (hereinafter referred to as PP-RNN) for prognosis prediction according to the present invention includes an embedding layer 501 for distributed representation, Multiple recurrent layers 502, and fully-connected layers 503 for prognostic classification.

RNN은 다른 신경망들과는 달리 시간 요인을 고려하여 시퀀스 데이터의 패턴을 명시적으로 학습하는 모델이다.Unlike other neural networks, RNN is a model that explicitly learns patterns of sequence data considering time factors.

임베딩 레이어(501)는 ICD-10 코드를 실수 벡터로 변환한다. 임베딩 레이어(501)는 단어들을 다차원 실수 벡터로 표현하고 단어 간의 의미/구조 유사성을 두 벡터 간의 거리로 표현함으로써 분산 표현이 가능하다. 이러한 분산 표현은 코드의 의미를 특성화하고 신경 언어 모델에서와 같이 코드가 연산 동작에 의해 계산될 수 있도록 수용한다.The embedding layer 501 converts the ICD-10 code into a real number vector. The embedding layer 501 can express a word by expressing it as a multi-dimensional real vector and expressing the semantic / structure similarity between words as a distance between two vectors. These distributed expressions characterize the semantics of the code and accommodate it so that the code can be computed by computational operations as in neural language models.

멀티 회귀 레이어(502)는 ICD-10 코드의 시퀀스 패턴을 모델링 할 수 있다. 멀티 회귀 레이어(502)는 시퀀스가 입력으로 주어지는 데이터로부터 패턴을 효과적으로 학습 가능한, 시간적 측면이 고려된 신경망 계층에 해당된다.The multiple regression layer 502 may model the sequence pattern of the ICD-10 code. The multi-regression layer 502 corresponds to a neural network layer considered in terms of temporal aspects, in which a sequence can effectively learn a pattern from data given as input.

완전 연결 레이어(503)는 ICD-10 코드의 시퀀스를 실수 벡터로서 표현하며, 이때 실수 벡터는 소프트맥스 함수를 통해 질병의 발병 가능성을 계산하는데 사용될 수 있다.The full connection layer 503 represents the sequence of ICD-10 codes as a real number vector, which can then be used to calculate the likelihood of disease outbreak through a soft max function.

[수학식 3]&Quot; (3) "

Figure 112016114089419-pat00001
Figure 112016114089419-pat00001

[수학식 4]&Quot; (4) "

Figure 112016114089419-pat00002
Figure 112016114089419-pat00002

여기서,

Figure 112018019488542-pat00003
는 k-길이 시퀀스와 질병에 대해 PP-RNN에 의해 계산된 스코어 함수이고,
Figure 112018019488542-pat00004
는 xk로부터 예측된 질병을 의미한다.here,
Figure 112018019488542-pat00003
Is a scoring function computed by PP-RNN for k-length sequences and disease,
Figure 112018019488542-pat00004
Means the disease predicted from x k .

그리고, PP-RNN의 학습은 완전 연결 레이어(503), 멀티 회귀 레이어(502), 임베딩 레이어(501)를 통해 입력 피처 레이어(input feature layer)(500)로 예측 오차를 전파함으로써 E2E(end-to-end) 방식으로 진행될 수 있다.The learning of the PP-RNN is performed by propagating the prediction error to the input feature layer 500 through the full connection layer 503, the multiple regression layer 502, and the embedding layer 501, to-end method.

본 발명에서는 시퀀스 학습에 적합한 RNN을 이용함으로써 진단 분류 코드를 워드 임베딩 방법을 기반으로 쉽게 벡터 값으로 표현할 수 있다.In the present invention, by using the RNN suitable for the sequence learning, the diagnostic classification code can be easily expressed as a vector value based on the word embedding method.

본 발명의 PP-RNN 모델은 코드 시퀀스를 워드 벡터로 표현하는 워드 임베딩뿐만 아니라 임베딩된 워드 벡터로부터 고위험 질병의 분류를 가능하게 한 E2E 형태의 질병 예후 예측 모델을 제공할 수 있다.The PP-RNN model of the present invention can provide a disease prognosis prediction model of E2E type that enables classification of high-risk diseases from embedded word vectors as well as word embedding expressing code sequences as word vectors.

PP-RNN은 둘 이상의 이종(heterogeneous) 데이터 피처들을 위해 다수의 RNN을 포함할 수 있으며, 긴 시퀀스에 의해 발생하는 배니싱 그라디언트 문제(vanishing gradient problem)를 방지하기 위해 RNN의 회귀 레이어(502)로 GRU(gated recurrent unit) , LSTM(long short-term memory) 등 변형된 RNN 모델들을 사용할 수 있다.The PP-RNN may include a plurality of RNNs for two or more heterogeneous data features and may be provided to the regression layer 502 of the RNN to prevent the vanishing gradient problem caused by the long sequence, a gated recurrent unit, and a long short-term memory (LSTM).

그리고, 본 발명에서는 다수의 RNN을 병합하기 위해 여러 방법을 적용할 수 있으며, 도 5에 도시한 바와 같이 회귀 레이어(502)의 출력 벡터들을 연결함으로써 이들을 병합할 수 있다.In the present invention, various methods can be applied to merge a plurality of RNNs. As shown in FIG. 5, the output vectors of the returning layer 502 can be connected to merge them.

본 발명에서는 진단 분류 코드의 시퀀스에 대해 오직 하나의 RNN 모델을 사용하는 것 이외에도, 추가적인 임상 이력의 시퀀스에 대해 다수의 RNN을 사용하는 것 또한 가능하다. 진단 이력과 관련된 진단 분류 코드를 포함하여 진단 시점의 시간이나 질병 기간, 치료 이력과 병리학적 측정 데이터 등을 추가적인 피처들로서 사용할 수 있으며, 각각의 피처에 대한 시퀀스를 각각의 개별 신경망을 이용하여 학습하고 이를 병합하여 질병 예후를 분류할 수 있다. 예를 들어, 진단 이력에 따른 진단 분류 코드 이외에 외래 환자, 입원 환자, 응급 환자의 세 개의 값으로 구분되는 환자의 유형을 추가적인 임상 피처로서 활용할 수 있다. 추가되는 피처 각각에 대하여 해당 데이터의 특성에 따라 RNN은 물론, FFNN(feedforward neural network)이나 CNN(convolutional neural network)과 같은 개별 신경망을 추가하여 학습할 수 있다.In addition to using only one RNN model for the sequence of diagnostic classification codes, it is also possible for the present invention to use multiple RNNs for a sequence of additional clinical histories. Diagnostic categorization codes associated with diagnostic history can be used as additional features such as time of diagnosis, disease duration, treatment history and pathological measurement data, and sequences for each feature can be learned using individual neural networks This can be combined to classify the disease prognosis. For example, in addition to the diagnostic classification code according to the diagnostic history, the type of patient can be utilized as an additional clinical feature, separated into three values: outpatient, inpatient, and emergency. For each additional feature, individual neural networks such as FFNN (feedforward neural network) or CNN (convolutional neural network) as well as RNN can be learned depending on the characteristics of the data.

본 발명에 따른 질병 예후 예측 시스템 및 방법에서 진단 이력과 관련된 진단 분류 코드와 함께 추가적인 다른 임상 피처를 이용하는 경우 질병 예후에 대한 보다 정확한 예측 결과를 제공할 수 있다.The use of additional clinical features in conjunction with diagnostic classification codes associated with diagnostic histories in the disease prognosis prediction system and method according to the present invention can provide more accurate predictions of disease prognosis.

이처럼 본 발명의 실시예들에 따르면, 진단 분류 코드를 단어 시퀀스 형태의 피처로 표현하고 RNN을 이용한 학습을 통해 고위험 예후를 예측할 수 있다. 따라서, 코드로 표현된 간단한 진단 이력만으로 보다 빠르고 정확하게 고위험 예후를 예측할 수 있으며 고위험 예후에 대한 신속한 경고를 제공할 수 있다.As described above, according to embodiments of the present invention, the diagnosis classification code can be expressed as a feature in the form of a word sequence, and high-risk prognosis can be predicted through learning using RNN. Therefore, a simple diagnostic history expressed in code can predict the high-risk prognosis faster and more accurately and provide a quick warning about the high-risk prognosis.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the apparatus and components described in the embodiments may be implemented as a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), a programmable logic unit, a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device , Or may be embodyed temporarily. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The medium may be one that continues to store computer executable programs, or temporarily store them for execution or download. Further, the medium may be a variety of recording means or storage means in the form of a combination of a single hardware or a plurality of hardware, but is not limited to a medium directly connected to any computer system, but may be dispersed on a network. Examples of the medium include a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, an optical recording medium such as CD-ROM and DVD, a magneto-optical medium such as a floptical disk, And program instructions including ROM, RAM, flash memory, and the like. As another example of the medium, a recording medium or a storage medium that is managed by a site or a server that supplies or distributes an application store or various other software is also enumerated.

매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Program instructions to be recorded on the medium may be those specially designed and constructed for the embodiments or may be available to those skilled in the art of computer software. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (17)

컴퓨터 시스템에서 수행되는 질병 예후 예측 방법에 있어서,
상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독 가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
상기 질병 예후 예측 방법을 수행하기 위한 구성요소로서 시퀀스 생성부, 학습 처리부, 예후 예측부를 포함하고,
상기 질병 예후 예측 방법은,
상기 시퀀스 생성부에서, 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하는 단계;
상기 학습 처리부에서, 상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하는 단계; 및
상기 예후 예측부에서, 상기 학습데이터를 이용하여 질병 예후를 예측하는 단계
를 포함하고,
상기 시퀀스 데이터를 생성하는 단계는,
상기 진단 분류 코드로부터 주어진 질병에 해당되는 적어도 하나의 시퀀스 데이터를 생성하고,
상기 질병 예후 예측 방법에서는,
상기 시퀀스 데이터에 대한 상기 RNN의 시퀀스 학습 결과를 이용하여 상기 주어진 질병 별로 상기 환자의 질병 발생 확률이 계산되는 것
을 특징으로 하는 질병 예후 예측 방법.
A method for predicting a disease prognosis performed in a computer system,
The computer system comprising at least one processor configured to execute computer-readable instructions contained in a memory,
Wherein the at least one processor comprises:
A sequence generation unit, a learning processing unit, and a prognosis prediction unit as elements for performing the disease prognosis prediction method,
The disease prognosis prediction method comprises:
Generating sequence data by expressing a diagnostic classification code indicating a diagnosis history of a patient in a word sequence form in the sequence generation unit;
Generating learning data by word sequence learning using RNN (Recurrent Neural Networks) on the sequence data in the learning processing unit; And
Wherein the prognosis prediction unit predicts a disease prognosis using the learning data
Lt; / RTI >
Wherein the step of generating the sequence data comprises:
Generating at least one sequence data corresponding to a given disease from the diagnosis classification code,
In the disease prognosis prediction method,
The probability of disease occurrence of the patient is calculated for each given disease using the sequence learning result of the RNN with respect to the sequence data
Wherein said disease prognosis prediction method comprises the steps of:
제1항에 있어서,
상기 질병 예후 예측 방법에서는,
상기 시퀀스 데이터가 실수 벡터로 표현되어 상기 실수 벡터에 따른 질병 발생 확률이 계산되는 것
을 특징으로 하는 질병 예후 예측 방법.
The method according to claim 1,
In the disease prognosis prediction method,
The sequence data is represented by a real number vector, and a disease occurrence probability according to the real number vector is calculated
Wherein said disease prognosis prediction method comprises the steps of:
제1항에 있어서,
상기 질병 예후 예측 방법에서는,
상기 시퀀스 데이터가 상기 RNN의 입력이 되어 상기 RNN에서 단어 시퀀스 학습을 통해 시퀀스 정보가 포함된 워드 벡터가 표현되고,
상기 시퀀스 정보가 포함된 워드 벡터를 이용하여 질병 발생 확률이 계산되는 것
을 특징으로 하는 질병 예후 예측 방법.
The method according to claim 1,
In the disease prognosis prediction method,
The sequence data is input to the RNN, word vectors including sequence information are represented through word sequence learning in the RNN,
The disease occurrence probability is calculated using the word vector including the sequence information
Wherein said disease prognosis prediction method comprises the steps of:
제1항에 있어서,
상기 학습데이터를 생성하는 단계는,
단어 시퀀스에 대한 분산 표현(distributed representation)을 위한 임베딩 레이어(embedding layer)와, 시퀀스 모델링을 위한 회귀 레이어(recurrent layers), 및 질병 예후 분류를 위한 완전 연결 레이어(fully-connected layers)로 구성된 RNN을 이용하는 것
을 특징으로 하는 질병 예후 예측 방법.
The method according to claim 1,
Wherein the step of generating the learning data comprises:
An RNN consisting of an embedding layer for distributed representation of word sequences, recurrent layers for sequence modeling, and fully-connected layers for disease prognosis classification Using
Wherein said disease prognosis prediction method comprises the steps of:
제4항에 있어서,
상기 RNN의 학습은 상기 완전 연결 레이어, 상기 회귀 레이어, 상기 임베딩 레이어를 통해 입력 피처 레이어(input feature layer)로 예측 오차를 전파함으로써 E2E(end-to-end) 방식으로 진행되는 것
을 특징으로 하는 질병 예후 예측 방법.
5. The method of claim 4,
Learning of the RNN is performed in an E2E (end-to-end) manner by propagating a prediction error to the input feature layer through the full connection layer, the regression layer, and the embedding layer
Wherein said disease prognosis prediction method comprises the steps of:
제1항에 있어서,
상기 시퀀스 데이터를 생성하는 단계는,
상기 진단 분류 코드 중 최근 마지막 일정 개수의 코드를 이용하여 상기 시퀀스 데이터를 생성하는 것
을 특징으로 하는 질병 예후 예측 방법.
The method according to claim 1,
Wherein the step of generating the sequence data comprises:
And generating the sequence data using the latest last predetermined number of codes among the diagnostic classification codes
Wherein said disease prognosis prediction method comprises the steps of:
제1항에 있어서,
상기 시퀀스 데이터를 생성하는 단계는,
상기 진단 분류 코드 중 상기 주어진 질병에 해당되는 코드를 해당 질병의 레이블로 대체하는 것
을 특징으로 하는 질병 예후 예측 방법.
The method according to claim 1,
Wherein the step of generating the sequence data comprises:
Replacing the code corresponding to the given disease among the diagnostic classification codes with the label of the disease
Wherein said disease prognosis prediction method comprises the steps of:
제1항에 있어서,
상기 시퀀스 데이터를 생성하는 단계는,
상기 진단 분류 코드 중 상기 주어진 질병에 해당되는 코드가 복수 개인 경우 각 질병에 대한 시퀀스 데이터를 생성하는 것
을 특징으로 하는 질병 예후 예측 방법.
The method according to claim 1,
Wherein the step of generating the sequence data comprises:
If there are a plurality of codes corresponding to the given disease among the diagnostic classification codes, generating sequence data for each disease
Wherein said disease prognosis prediction method comprises the steps of:
제1항에 있어서,
상기 질병 예후 예측 방법은,
상기 시퀀스 생성부에서, 상기 환자의 진단 시점의 시간 및 질병 기간, 치료 이력과 병리학적 측정 데이터 중 적어도 하나의 추가 임상 이력에 대한 시퀀스 데이터를 생성하는 단계
를 더 포함하고,
상기 학습데이터를 생성하는 단계는,
상기 환자의 진단 이력과 상기 추가 임상 이력에 대해 해당 데이터의 특성에 따른 각각의 개별 신경망을 추가하여 학습하는 단계
를 포함하는 질병 예후 예측 방법.
The method according to claim 1,
The disease prognosis prediction method comprises:
Generating sequence data on at least one additional clinical history of the time and disease duration of the patient, the treatment history and the pathological measurement data in the sequence generator,
Further comprising:
Wherein the step of generating the learning data comprises:
Adding each individual neural network to the diagnostic history of the patient and the additional clinical history according to the characteristics of the corresponding data
Wherein said disease prognosis prediction method comprises the steps of:
제1항 내지 제9항 중 어느 한 항의 질병 예후 예측 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터 판독 가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for causing a computer to execute a disease prognosis prediction method according to any one of claims 1 to 9. 컴퓨터로 구현되는 질병 예후 예측 시스템에 있어서,
메모리에 포함된 컴퓨터 판독 가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하는 시퀀스 생성부;
상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하는 학습 처리부; 및,
상기 학습데이터를 이용하여 질병 예후를 예측하는 예후 예측부
를 포함하고,
상기 시퀀스 생성부는,
상기 진단 분류 코드로부터 주어진 질병에 해당되는 적어도 하나의 시퀀스 데이터를 생성하고,
상기 적어도 하나의 프로세서에서는,
상기 시퀀스 데이터에 대한 상기 RNN의 시퀀스 학습 결과를 이용하여 상기 주어진 질병 별로 상기 환자의 질병 발생 확률이 계산되는 것
을 특징으로 하는 질병 예후 예측 시스템.
A computer-implemented disease prognosis prediction system comprising:
And at least one processor configured to execute computer-readable instructions contained in the memory,
Wherein the at least one processor comprises:
A sequence generator for generating sequence data by expressing a diagnostic classification code indicating a diagnosis history of a patient in a word sequence;
A learning processing unit for generating learning data through word sequence learning using Recurrent Neural Networks (RNN) for the sequence data; And
A prognostic prediction unit for predicting a disease prognosis using the learning data;
Lt; / RTI >
Wherein the sequence generator comprises:
Generating at least one sequence data corresponding to a given disease from the diagnosis classification code,
In the at least one processor,
The probability of disease occurrence of the patient is calculated for each given disease using the sequence learning result of the RNN with respect to the sequence data
Wherein said disease prognosis prediction system comprises:
제11항에 있어서,
상기 적어도 하나의 프로세서에서는,
상기 시퀀스 데이터가 상기 RNN의 입력이 되어 상기 RNN에서 단어 시퀀스 학습을 통해 시퀀스 정보가 포함된 워드 벡터가 표현되고,
상기 시퀀스 정보가 포함된 워드 벡터를 이용하여 질병 발생 확률이 계산되는 것
을 특징으로 하는 질병 예후 예측 시스템.
12. The method of claim 11,
In the at least one processor,
The sequence data is input to the RNN, word vectors including sequence information are represented through word sequence learning in the RNN,
The disease occurrence probability is calculated using the word vector including the sequence information
Wherein said disease prognosis prediction system comprises:
제11항에 있어서,
상기 학습 처리부는,
단어 시퀀스에 대한 분산 표현(distributed representation)을 위한 임베딩 레이어(embedding layer)와, 시퀀스 모델링을 위한 회귀 레이어(recurrent layers), 및 질병 예후 분류를 위한 완전 연결 레이어(fully-connected layers)로 구성된 RNN을 이용하는 것
을 특징으로 하는 질병 예후 예측 시스템.
12. The method of claim 11,
The learning processing unit,
An RNN consisting of an embedding layer for distributed representation of word sequences, recurrent layers for sequence modeling, and fully-connected layers for disease prognosis classification Using
Wherein said disease prognosis prediction system comprises:
제13항에 있어서,
상기 RNN의 학습은 상기 완전 연결 레이어, 상기 회귀 레이어, 상기 임베딩 레이어를 통해 입력 피처 레이어(input feature layer)로 예측 오차를 전파함으로써 E2E(end-to-end) 방식으로 진행되는 것
을 특징으로 하는 질병 예후 예측 시스템.
14. The method of claim 13,
Learning of the RNN is performed in an E2E (end-to-end) manner by propagating a prediction error to the input feature layer through the full connection layer, the regression layer, and the embedding layer
Wherein said disease prognosis prediction system comprises:
제11항에 있어서,
상기 시퀀스 생성부는,
상기 진단 분류 코드 중 최근 마지막 일정 개수의 코드를 이용하여 상기 시퀀스 데이터를 생성하는 것
을 특징으로 하는 질병 예후 예측 시스템.
12. The method of claim 11,
Wherein the sequence generator comprises:
And generating the sequence data using the latest last predetermined number of codes among the diagnostic classification codes
Wherein said disease prognosis prediction system comprises:
제11항에 있어서,
상기 시퀀스 생성부는,
상기 진단 분류 코드 중 상기 주어진 질병에 해당되는 코드가 복수 개인 경우 각 질병에 대한 시퀀스 데이터를 생성하는 것
을 특징으로 하는 질병 예후 예측 시스템.
12. The method of claim 11,
Wherein the sequence generator comprises:
If there are a plurality of codes corresponding to the given disease among the diagnostic classification codes, generating sequence data for each disease
Wherein said disease prognosis prediction system comprises:
제11항에 있어서,
상기 시퀀스 생성부는,
상기 환자의 진단 시점의 시간 및 질병 기간, 치료 이력과 병리학적 측정 데이터 중 적어도 하나의 추가 임상 이력에 대한 시퀀스 데이터를 생성하고,
상기 환자의 진단 이력과 상기 추가 임상 이력에 대해 해당 데이터의 특성에 따른 각각의 개별 신경망을 추가하여 학습하는 것
을 특징으로 하는 질병 예후 예측 시스템.
12. The method of claim 11,
Wherein the sequence generator comprises:
Generating sequence data for an additional clinical history of at least one of the time and the disease duration of the patient, the treatment history and the pathological measurement data of the patient,
Learning by adding each individual neural network according to the characteristic of the data on the diagnosis history of the patient and the additional clinical history
Wherein said disease prognosis prediction system comprises:
KR1020160155771A 2016-11-22 2016-11-22 Method and system for predicting prognosis from diagnostic histories using deep learning KR101869438B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160155771A KR101869438B1 (en) 2016-11-22 2016-11-22 Method and system for predicting prognosis from diagnostic histories using deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160155771A KR101869438B1 (en) 2016-11-22 2016-11-22 Method and system for predicting prognosis from diagnostic histories using deep learning

Publications (2)

Publication Number Publication Date
KR20180057300A KR20180057300A (en) 2018-05-30
KR101869438B1 true KR101869438B1 (en) 2018-06-20

Family

ID=62300499

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160155771A KR101869438B1 (en) 2016-11-22 2016-11-22 Method and system for predicting prognosis from diagnostic histories using deep learning

Country Status (1)

Country Link
KR (1) KR101869438B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200016666A (en) * 2018-08-07 2020-02-17 주식회사 딥바이오 System and method for generating result of medical diagnosis
KR20220111889A (en) 2021-02-03 2022-08-10 김종명 System for predicting rare disease through tracing history of symptom

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102162895B1 (en) * 2018-06-04 2020-10-07 주식회사 딥바이오 System and method for medical diagnosis supporting dual class
KR102223255B1 (en) * 2018-08-07 2021-03-05 한국과학기술원 Interpreting method for diagnostic decision of deep network using breast imaging-reporting and data system and the system thereof
KR20200027091A (en) 2018-08-31 2020-03-12 주식회사 비플컨설팅 A system that recommends diagnostic cases by deducing the degree of similarity using the artificial neural network technique for the patient's main symptom and diagnostic relationship
CN109326353B (en) * 2018-10-29 2020-11-27 南京医基云医疗数据研究院有限公司 Method and device for predicting disease endpoint event and electronic equipment
CN109599177B (en) * 2018-11-27 2023-04-11 华侨大学 Method for predicting medical treatment track through deep learning based on medical history
KR102338369B1 (en) * 2019-02-27 2021-12-13 울산과학기술원 System for Providing Efficient Detection of Disease Based on Data Association and its Operation Method
KR102009758B1 (en) * 2019-03-21 2019-10-21 한국과학기술정보연구원 System visualizing of signal generation and efective patten recognition
KR102088980B1 (en) * 2019-04-19 2020-03-13 이정의 System and Method for Providing personalized hospital information
KR102100698B1 (en) * 2019-05-29 2020-05-18 (주)제이엘케이 System for diagnosis auxiliary based on artificial intelligence using ensemble learning algorithm
KR102251693B1 (en) * 2019-08-05 2021-05-13 엔터씨스 주식회사 Study data analysis apparatus and method for supporting study using the apparatus
CN116368578A (en) * 2020-11-04 2023-06-30 昂泰克特健康有限公司 Method and apparatus for predicting disease occurrence
KR102435178B1 (en) 2021-09-16 2022-08-23 주식회사 온택트헬스 Method and apparatus for predicting occurance of diseases
CN112435745B (en) * 2020-12-18 2024-04-05 深圳赛安特技术服务有限公司 Method and device for recommending treatment strategy, electronic equipment and storage medium
CN113517046B (en) * 2021-04-15 2023-11-07 中南大学 Heterogeneous data feature fusion method in electronic medical record, fusion feature-based prediction method, fusion feature-based prediction system and readable storage medium
CN113628703B (en) * 2021-07-20 2024-03-29 慕贝尔汽车部件(太仓)有限公司 Professional health record management method, system and network measurement server

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005508556A (en) * 2001-11-02 2005-03-31 シーメンス メディカル ソリューションズ ユーエスエー インコーポレイテッド Patient data mining to diagnose and predict patient status
US20150220833A1 (en) * 2014-01-31 2015-08-06 Google Inc. Generating vector representations of documents
JP2016134169A (en) * 2015-01-19 2016-07-25 三星電子株式会社Samsung Electronics Co.,Ltd. Method and apparatus for training language model, and method and apparatus for recognizing language

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676379B2 (en) * 2004-04-27 2010-03-09 Humana Inc. System and method for automated extraction and display of past health care use to aid in predicting future health status

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005508556A (en) * 2001-11-02 2005-03-31 シーメンス メディカル ソリューションズ ユーエスエー インコーポレイテッド Patient data mining to diagnose and predict patient status
US20150220833A1 (en) * 2014-01-31 2015-08-06 Google Inc. Generating vector representations of documents
JP2016134169A (en) * 2015-01-19 2016-07-25 三星電子株式会社Samsung Electronics Co.,Ltd. Method and apparatus for training language model, and method and apparatus for recognizing language

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
일본 공표특허공보 특표2005-508556호(2005.03.31.) 1부. *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200016666A (en) * 2018-08-07 2020-02-17 주식회사 딥바이오 System and method for generating result of medical diagnosis
KR102215269B1 (en) 2018-08-07 2021-02-15 주식회사 딥바이오 System and method for generating result of medical diagnosis
KR20220111889A (en) 2021-02-03 2022-08-10 김종명 System for predicting rare disease through tracing history of symptom

Also Published As

Publication number Publication date
KR20180057300A (en) 2018-05-30

Similar Documents

Publication Publication Date Title
KR101869438B1 (en) Method and system for predicting prognosis from diagnostic histories using deep learning
KR102225894B1 (en) Method and system for predicting disease prognosis from patient medical history using deep attention network
US10032114B2 (en) Predicting application performance on hardware accelerators
KR20200063364A (en) Method and system for visualizing classification result of deep neural network for prediction of disease prognosis through time series medical data
US20190354810A1 (en) Active learning to reduce noise in labels
US20200027023A1 (en) Accurate temporal event predictive modeling
US11599800B2 (en) Systems and methods for enhanced user specific predictions using machine learning techniques
CN114008641A (en) Improving accuracy of automatic machine learning model selection using hyper-parametric predictors
US20130185231A1 (en) Predicting diagnosis of a patient
US11694109B2 (en) Data processing apparatus for accessing shared memory in processing structured data for modifying a parameter vector data structure
CN109326353B (en) Method and device for predicting disease endpoint event and electronic equipment
CN113196314B (en) Adapting a predictive model
KR20200029425A (en) Method and system for predicting disease prognosis from patient medical history using deep attention network
US20230042243A1 (en) System and method for early diagnostics and prognostics of mild cognitive impairment using hybrid machine learning
CN113646776A (en) Using hysteresis gradients in machine learning model training
US20210158909A1 (en) Precision cohort analytics for public health management
US20220122736A1 (en) Machine learning techniques for generating hybrid risk scores
US11699514B2 (en) Predictive dual machine translation
KR102561799B1 (en) Method and system for predicting latency of deep learning model in device
US20210090746A1 (en) Machine learning for amyloid and tau pathology prediction
Mishra et al. A decision support system in healthcare prediction
Rafiei et al. Meta-learning in healthcare: A survey
US20210174910A1 (en) Method and apparatus for generating new chemical structure using neural network
KR102289396B1 (en) Application of reinforcement learning for the advancement of forecasting item demand of repair parts of military equipment
JP7235246B2 (en) Information processing device, method, program, IC chip and trained model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right