KR101869438B1 - Method and system for predicting prognosis from diagnostic histories using deep learning - Google Patents

Method and system for predicting prognosis from diagnostic histories using deep learning Download PDF

Info

Publication number
KR101869438B1
KR101869438B1 KR1020160155771A KR20160155771A KR101869438B1 KR 101869438 B1 KR101869438 B1 KR 101869438B1 KR 1020160155771 A KR1020160155771 A KR 1020160155771A KR 20160155771 A KR20160155771 A KR 20160155771A KR 101869438 B1 KR101869438 B1 KR 101869438B1
Authority
KR
South Korea
Prior art keywords
sequence
disease
data
method
learning
Prior art date
Application number
KR1020160155771A
Other languages
Korean (ko)
Other versions
KR20180057300A (en
Inventor
하정우
김정희
민구
신재경
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020160155771A priority Critical patent/KR101869438B1/en
Publication of KR20180057300A publication Critical patent/KR20180057300A/en
Application granted granted Critical
Publication of KR101869438B1 publication Critical patent/KR101869438B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computer systems based on biological models
    • G06N3/02Computer systems based on biological models using neural network models
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Abstract

딥 러닝을 이용하여 환자의 진단 이력으로부터 질병 예후를 예측하는 방법 및 시스템이 개시된다. Using a deep learning is disclosed a method and system for predicting disease outcome from the diagnostic history of the patient. 질병 예후 예측 방법은, 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하는 단계; Disease prognosis prediction method comprising: generating a sequence of data by expressing the diagnostic classification code that indicates a diagnosis history of the patient in the form word sequence (sequence); 상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하는 단계; Generating a learning data through the learning using the word sequence (Recurrent Neural Networks) RNN on the sequence data; 및 상기 학습데이터를 이용하여 질병 예후를 예측하는 단계를 포함할 수 있다. And it may include the step of predicting disease outcome, using the training data.

Description

딥 러닝을 이용하여 환자의 진단 이력으로부터 질병 예후를 예측하는 방법 및 시스템{METHOD AND SYSTEM FOR PREDICTING PROGNOSIS FROM DIAGNOSTIC HISTORIES USING DEEP LEARNING} Method using a deep learning to predict disease prognosis from patients with a history of diagnostic and system {METHOD AND SYSTEM FOR PREDICTING PROGNOSIS FROM DIAGNOSTIC HISTORIES USING DEEP LEARNING}

아래의 설명은 질병 예후를 예측하는 기술에 관한 것이다. The following description relates to a technique for predicting disease outcome.

고혈압(HBP), 당뇨, 고지혈증 등과 같은 성인병들은 전세계적으로 중년들에게 매우 흔하게 나타나고 있는 질병 중 하나이다. Illnesses such as high blood pressure (HBP), diabetes, and hyperlipidemia are one of the former disease in the world appears very frequently to the Middle Ages. 비록 성인병 그 자체가 건강에 치명적이지는 않더라도 이는 심각한 합병증을 유발시킬 수 있다. Even if not fatal in itself, a geriatric health, which can lead to serious complications.

특히, 성인병은 사망의 주요 원인인 심장, 뇌, 혈관 질병과 같은 고위험 질병과 관련성이 매우 높다는 점이 지속적으로 보고되고 있다. In particular, these illnesses are problems with high-risk disease, relevance, such as the major cause of heart, brain and vascular disease mortality is very high and continues to see. 따라서, 성인병 환자의 고위험 예후를 예측하는 것은 의료 분야 및 바이오 기술 분야에서 매우 중요한 문제라고 할 수 있다. Therefore, to predict the outcome of the high-risk adult patients can be a very important issue in healthcare and biotechnology sectors.

고위험 예후 예측을 위해 연령, 성별, 현재 상태, 가족력 등의 정보를 이용한다거나, 바이오마커 유전자 발현량, CT 등의 의료 이미지, 혈액분석 등을 이용한 다양한 방법이 사용되고 있다. For high-risk prognostic handageona using information such as age, gender, current status, family history, there are a variety of methods used by the biomarker gene expression level, such as medical imaging, blood analysis, such as CT.

예컨대, 한국공개특허 제10-2014-0098561호(공개일 2014년 08월 08일)에는 분석 대상 질병에 관련된 단일염기다형성(single nucleotide polymorphism, SNP) 조합을 기초로 사용자의 질병 발생 위험도를 예측하는 기술이 개시되어 있다. For example, Korea Patent Publication No. 10-2014-0098561 No. (published on Aug. 08, 2014) is to estimate the SNP (single nucleotide polymorphism, SNP) user of disease based on the combined risk of disease associated with the analyte technology is disclosed.

고위험 예후 예측을 위한 기존 방법에서 사용되는 데이터들은 종류도 다양할 뿐 아니라 전처리 등의 데이터 처리 과정이 복잡하기 때문에 필요한 데이터를 확보하는데 많은 시간과 노력, 비용을 필요로 한다. The data used in existing methods for risk prognosis are the type also requires a lot of time, effort and money to obtain the necessary data because the data processing such as pre-treatment, as well as various complicated.

딥 러닝(deep learning) 기법인 RNN(Recurrent Neural Networks) 등 신경망을 이용하여 성인병 환자의 진단 이력으로부터 고위험 예후를 예측할 수 있는 방법 및 시스템을 제공한다. Using deep learning, etc. (deep learning) scheme is the RNN (Recurrent Neural Networks) neural network provides a method and system for predicting the prognosis risk from diagnostic history of the geriatric patient.

환자 분류, 진단 및 치료 코드 등을 단어 시퀀스(sequence) 형태의 피처(feature)로 표현하여 RNN을 이용한 학습을 통해 해당 환자의 고위험 예후를 분류 및 예측할 수 있는 방법 및 시스템을 제공한다. It provides a patient classification, diagnosis, and treatment, such as a code-word sequence (sequence) in the form of a high-risk category of the patient's prognosis and through learning represented by a feature (feature) with RNN and a method and system to predict.

컴퓨터로 구현되는 질병 예후 예측 방법에 있어서, 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하는 단계; In the disease prognosis prediction method implemented as a computer, the method comprising: generating a sequence of data by expressing the diagnostic classification code that indicates a diagnosis history of the patient in the form word sequence (sequence); 상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하는 단계; Generating a learning data through the learning using the word sequence (Recurrent Neural Networks) RNN on the sequence data; 및 상기 학습데이터를 이용하여 질병 예후를 예측하는 단계를 포함하는 질병 예후 예측 방법을 제공한다. And it provides a disease prognosis prediction method includes the step of predicting disease outcome, using the training data.

일 측면에 따르면, 상기 학습데이터를 생성하는 단계는, 상기 시퀀스 데이터를 실수 벡터로 표현하여 상기 실수 벡터에 따른 질병 발생 확률을 계산하는 단계를 포함할 수 있다. According to one aspect, the step of generating the training data may include calculating a probability of disease development in accordance with the real vector to express the sequence data in real vector.

다른 측면에 따르면, 상기 학습데이터를 생성하는 단계는, 상기 시퀀스 데이터를 상기 RNN의 입력으로 하여 상기 RNN에서 단어 시퀀스 학습을 통해 시퀀스 정보가 포함된 워드 벡터를 표현하는 단계; According to another aspect, the step of generating the training data, the method comprising: the sequence of data input to the RNN represent the word vector contains the sequence information in the word sequence in the learning RNN; 및 상기 시퀀스 정보가 포함된 워드 벡터를 이용하여 질병 발생 확률을 계산하는 단계를 포함하는 질병 예후 예측 방법을 포함할 수 있다. And it may include a disease prognosis prediction method comprising the steps of: calculating a probability of disease using a word vector including the sequence information.

또 다른 측면에 따르면, 상기 학습데이터를 생성하는 단계는, 단어 시퀀스에 대한 분산 표현(distributed representation)을 위한 임베딩 레이어(embedding layer)와, 시퀀스 모델링을 위한 회귀 레이어(recurrent layers), 및 질병 예후 분류를 위한 완전 연결 레이어(fully-connected layers)로 구성된 RNN을 이용할 수 있다. According to yet another aspect, the step of generating the training data, the word distributed representation of the sequence (distributed representation) an embedding layer (embedding layer), and a return layer (recurrent layers), and disease prognosis classification for the sequence model for RNN consists of a fully connected layers (fully-connected layers) for can be used.

또 다른 측면에 따르면, 상기 RNN의 학습은 상기 완전 연결 레이어, 상기 회귀 레이어, 상기 임베딩 레이어를 통해 입력 피처 레이어(input feature layer)로 예측 오차를 전파함으로써 E2E(end-to-end) 방식으로 진행될 수 있다. According to yet another aspect, the learning of the RNN is conducted with the complete connection layer, the return layer, said embedded layer by the propagation of prediction error as the input feature layer (input feature layer) via E2E (end-to-end) method can.

또 다른 측면에 따르면, 상기 시퀀스 데이터를 생성하는 단계는, 상기 진단 분류 코드 중 최근 마지막 일정 개수의 코드를 이용하여 상기 시퀀스 데이터를 생성할 수 있다. According to yet another aspect, the step of generating the sequence data may generate the sequence data using a code of a predetermined number of last recently, the diagnosis classification code.

또 다른 측면에 따르면, 상기 시퀀스 데이터를 생성하는 단계는, 상기 진단 분류 코드 중 주어진 질병에 해당되는 코드를 해당 질병의 레이블로 대체할 수 있다. According to yet another aspect, the step of generating the sequence data may be substituted for the code, corresponding to a given disease of the diagnostic classification code to the label of the disease.

또 다른 측면에 따르면, 상기 시퀀스 데이터를 생성하는 단계는, 상기 진단 분류 코드 중 주어진 질병에 해당되는 코드가 복수 개인 경우 각 질병에 대한 시퀀스 데이터를 생성할 수 있다. According to yet another aspect, the step of generating the sequence of data, if the code is available for the plurality of individuals of a given disease, the diagnosis classification code may generate a sequence of data for each disease.

또 다른 측면에 따르면, 상기 환자의 진단 시점의 시간 및 질병 기간, 치료 이력과 병리학적 측정 데이터 중 적어도 하나의 추가 임상 이력에 대한 시퀀스 데이터를 생성하는 단계를 더 포함하고, 상기 학습데이터를 생성하는 단계는, 상기 환자의 진단 이력과 상기 추가 임상 이력에 대해 해당 데이터의 특성에 따른 각각의 개별 신경망을 추가하여 학습하는 단계를 포함할 수 있다. According to yet another aspect, at least one or more of the time, and disease duration, treatment history and pathological measurement data of the diagnostic point of the subject for generating a sequence of data on the clinical history of more, generates the learning data step may include the step of learning by adding each individual neural network according to the characteristics of the data for the diagnosis history and the additional clinical history of the subject.

컴퓨터 시스템과 결합되어 질병 예후 예측 방법을 실행시키기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램에 있어서, 상기 질병 예후 예측 방법은, 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하는 단계; In the computer program recorded in a computer-readable recording medium to be combined with a computer system executing a disease prognosis prediction method, the disease prognosis prediction method, the diagnosis classification code that indicates a diagnosis history of the patient in the form word sequence (sequence) generating a data sequence expressed by; 상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하는 단계; Generating a learning data through the learning using the word sequence (Recurrent Neural Networks) RNN on the sequence data; 및 상기 학습데이터를 이용하여 질병 예후를 예측하는 단계를 포함하는, 컴퓨터 프로그램을 제공한다. And it provides a computer program comprising the step of predicting disease outcome, using the training data.

컴퓨터로 구현되는 질병 예후 예측 시스템에 있어서, 컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하고, 상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하고, 상기 학습데이터를 이용하여 질병 예후를 예측하는 것을 특징으로 하는 질병 예후 예측 시스템을 제공한다. In the disease prognosis prediction system is implemented in a computer, comprising at least one processor and the at least one processor, the computer is arranged to execute the executable instructions, the word sequence of the diagnostic classification code that indicates a diagnosis history of the patient (sequence ) by expressed in a form to generate a sequence of data, for said sequence of data generates a training data through the word sequence learning with Recurrent Neural Networks (RNN) and, by using the learning data, characterized in that to predict disease prognosis It provides disease prognosis system.

본 발명의 실시예들에 따르면, 진단 분류 코드를 단어 시퀀스 형태의 피처로 표현하고 RNN을 이용한 학습을 통해 해당 환자의 고위험 예후를 예측할 수 있다. According to embodiments of the present invention, representing a diagnostic classification codes to form the features of a word sequence, and can through learning using the RNN to predict high-risk prognosis of the patient. 따라서, 코드로 표현된 간단한 진단 이력만으로 보다 빠르고 정확하게 고위험 예후를 예측할 수 있으며 고위험 예후에 대한 신속한 경고를 제공할 수 있다. Thus, you can quickly and accurately than just a simple diagnostic history represented by the code to predict high-risk prognosis and may provide an early warning for risk prognosis.

도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. Figure 1 is a block diagram for explaining an example of the internal configuration of a computer system according to one embodiment of the invention.
도 2는 본 발명의 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다. Figure 2 is a diagram showing an example of a component that may include a processor of a computer system according to one embodiment of the invention.
도 3은 본 발명의 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 질병 예후 예측 방법의 예를 도시한 순서도이다. 3 is a flow chart showing an example of a disease prognosis prediction method for performing a computer system in accordance with one embodiment of the present invention.
도 4는 본 발명의 일 실시예에 있어서 진단 분류 코드로부터 시퀀스 데이터를 생성하는 과정의 예를 도시한 것이다. Figure 4 illustrates an example of a process of generating the sequence data from the diagnostic classification code according to an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 있어서 질병 예후 예측을 위한 RNN 모델 구조의 예를 도시한 것이다. Figure 5 shows an example of a structure RNN model for disease prognosis prediction according to one embodiment of the invention.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. With reference to the accompanying drawings, an embodiment of the present invention will be described in detail.

본 발명의 실시예들은 질병 예후를 예측하는 기술에 관한 것이다. Embodiments of the invention relate to techniques for predicting disease outcome.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 질병 예후 예측을 달성하고 이를 통해 효율성, 정확성, 신속성, 비용 절감 등의 측면에 있어서 상당한 장점들을 달성한다. Embodiments, including those specifically disclosed herein, examples achieves significant advantages in terms of achieving a disease prognosis prediction and This efficiency, accuracy, speed and cost reduction.

도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. Figure 1 is a block diagram for explaining an example of the internal configuration of a computer system according to one embodiment of the invention. 예를 들어, 본 발명의 실시예들에 따른 질병 예후 예측 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. For example, a disease prognosis prediction in accordance with embodiments of the present invention the system can be implemented also by means of computer system 100 of FIG. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 질병 예후 예측 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다. 1, the computer system 100 includes a processor 110, memory 120, persistent storage 130, a bus 140, an input-output interface as a component for executing the prediction method prognostic disease ( 150) and it may include a network interface 160.

프로세서(110)는 환자들의 진단 이력으로부터 고위험 예후를 예측하기 위한 구성요소로서 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. The processor 110 may include or be part of his any device that can process a sequence of instructions as a component to predict high-risk outcome from the diagnostic history of the patient. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. The processor 110 may include, for example, a computer processor, a mobile device or a processor and / or a digital processor in the other electronic device. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼 등에 포함될 수 있다. The processor 110 may be included, for example, the server computing device, a server computer, a set of server computers, server farms, and cloud computer, such as the content platform. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다. The processor 110 through the bus 140 may be connected to memory 120.

메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. Memory 120 may include volatile memory, permanent, or other virtual memory for storing information to be used by him or output by the computer system 100. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 다이내믹 RAM(DRAM: dynamic RAM)을 포함할 수 있다. Memory 120, for example, a random access memory may include:: (dynamic RAM DRAM) (RAM random access memory) and / or dynamic RAM. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. Memory 120 may be used to store any information, such as state information of the computer system 100. 메모리(120)는 예를 들어 질병 예후 예측을 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. Memory 120 may for example be used to store instructions of a computer system 100 that includes instructions for a disease prognosis prediction. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다. Computer system 100 may include a processor 110, one or more on or, if appropriate, if necessary.

버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. Bus 140 may include a communication infrastructure that enables the interaction between the various components of computer system 100. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. Bus 140, for example, between a computer system (100) components, for example can carry data between processor 110 and memory 120. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다. Bus 140 may include wireless and / or wired communication medium between the computer system 100 components may include parallel, serial, or other topology arrangement.

영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. A persistent storage device 130 (e. G., Compared to the memory 120) components, such as memory or other permanent storage device, as used by the computer system 100 for storing data for a predetermined extended period of time, It may contain. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. Persistent storage 130 may include a nonvolatile main memory as used by the processor 110 in the computer system 100. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다. Persistent storage 130 may include, for example, a flash memory, a hard disk, an optical disk or other computer readable media.

입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. Input and output interfaces 150 may include interfaces for a keyboard, a mouse, a voice command input, display, or other input or output devices. 구성 명령들 및/또는 질병 예후 예측을 위한 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다. Configuration, the commands and / or input for a disease prognosis prediction can be received via the input-output interface 150. The

네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. Network interface 160 may include one or more interfaces for networks such as a local area network or the Internet. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. Network interface 160 may include interfaces for wired or wireless connections. 구성 명령들 및/또는 질병 예후 예측을 위한 입력이 네트워크 인터페이스(160)를 통해 수신될 수 있다. Configuration, the commands and / or input for a disease prognosis prediction can be received via the network interface 160.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. In addition, the computer system 100 in other embodiments may include more components than the components of FIG. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. However, there is no need to clearly illustrate the most conventional technical components. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다. For example, computer system 100 may be implemented to include at least some of the input and output device which is connected to the aforementioned input-output interface 150 or the transceiver (transceiver), GPS (Global Positioning System) module, a camera, a variety of sensors, It may further include other components, such as databases.

본 발명에서는 딥 러닝 기법인 RNN을 이용하여 환자들의 진단 이력으로부터 고위험 예후를 예측하는 기술을 제공한다. In the present invention, by using a deep learning scheme it is the RNN provides a technique to predict high-risk outcome from the diagnostic history of the patient. 본 명세서에서는 고혈압, 당뇨, 고지혈증 등을 성인병의 대표적인 예로 정의하고, 심혈관 질병과 뇌혈관 질병을 고위험 질병의 대표적인 예로 정의하나, 이에 한정되는 것은 아니다. In this specification, but is not high blood pressure, diabetes, hyperlipidemia and so on define the typical example of adult diseases, and a definition of cardiovascular disease and cerebrovascular disease Representative examples of high-risk disease, and like.

도 2는 본 발명의 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 질병 예후 예측 방법의 예를 도시한 순서도이다. 2 is a diagram showing an example of a component that may include a processor of a computer system according to one embodiment of the invention, Figure 3 is a prognostic disease that can perform a computer system in accordance with one embodiment of the present invention a flow chart illustrating an example of the prediction method.

도 2에 도시된 바와 같이, 프로세서(110)는 시퀀스 생성부(210), 학습 처리부(220), 및 예후 예측부(230)를 포함할 수 있다. The processor 110, as shown in Figure 2 may include a sequence generator 210, the learning processing unit 220, and prognosis prediction unit 230. The 이러한 프로세서(110)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(110)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. These components of the processor 110 are may be a representation of each different function (different functions) performed by the processor 110 according to the control command provided by the at least one program code. 예를 들어, 프로세서(110)가 시퀀스 데이터를 생성하도록 컴퓨터 시스템(100)을 제어하기 위해 동작하는 기능적 표현으로서 시퀀스 생성부(210)가 사용될 수 있다. For example, the processor 110 may be used, the sequence generator 210 as a functional representation which operates to control the computer system 100 to generate a sequence of data. 프로세서(110) 및 프로세서(110)의 구성요소들은 도 3의 질병 예후 예측 방법이 포함하는 단계들(S310 내지 S340)을 수행할 수 있다. To the processor 110 and the processor 110 may perform steps (S310 to S340) comprising a disease prognosis prediction method of FIG. 예를 들어, 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(120)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. For example, the components of processor 110 and processor 110 may be implemented so as to execute a command (instruction) of the at least one program code described above and the operating system code that includes a memory 120. The 여기서, 적어도 하나의 프로그램 코드는 질병 예후 예측 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다. Here, at least one program code may correspond to the code of the program that is implemented to process a disease prognosis prediction method.

질병 예후 예측 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다. Disease prognosis prediction method can not occur in the order shown, some of the steps is omitted or there is an additional process be further included.

단계(S310)에서 프로세서(110)는 질병 예후 예측 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리(120)에 로딩할 수 있다. Processor at step (S310) (110) may load the program code stored in the program file for a disease prognosis prediction method in the memory 120. 예를 들어, 질병 예후 예측 방법을 위한 프로그램 파일은 도 1을 통해 설명한 영구 저장 장치(130)에 저장되어 있을 수 있고, 프로세서(110)는 버스를 통해 영구 저장 장치(130)에 저장된 프로그램 파일로부터 프로그램 코드가 메모리(120)에 로딩되도록 컴퓨터 시스템(110)을 제어할 수 있다. For example, from the program file stored in disease program file can be stored in the persistent storage device 130 described with reference to Figure 1 for the prognosis prediction, the processor 110 includes a persistent storage device 130 via bus program code may control the computer system 110 such that loading in the memory 120. 이때, 프로세서(110) 및 프로세서(110)가 포함하는 시퀀스 생성부(210), 학습 처리부(220), 및 예후 예측부(230) 각각은 메모리(120)에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(S320 내지 S340)을 실행하기 위한 프로세서(110)의 서로 다른 기능적 표현들일 수 있다. At this time, a portion of each processor 110 and processor sequence generator 210 including the unit 110, the learning processing unit 220, and prognosis prediction unit 230 is corresponding one of the program code loaded into the memory 120 It may be a different functional representation of a processor 110 for executing the subsequent step (S320 to S340) by executing the command. 단계들(S320 내지 S340)의 실행을 위해, 프로세서(110) 및 프로세서(110)의 구성요소들은 직접 제어 명령에 따른 연산을 처리하거나 또는 컴퓨터 시스템(100)을 제어할 수 있다. For execution of the steps (S320 to S340), to the processor 110 and the processor 110 may process or controls the computer system 100, the operation according to the control command directly.

단계(S320)에서 시퀀스 생성부(210)는 환자 각각에 대하여 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스 형태의 피처로 표현함으로써 해당 환자에 대한 시퀀스 데이터를 생성할 수 있다. Sequence generator in step (S320) (210) may generate a sequence of data for that patient by expressing the diagnostic classification code representing a history of the diagnostic features of the patient in the form of a word sequence with respect to the patient, respectively.

보다 구체적인 예로, 심혈관 질병과 뇌혈관 질병의 예후를 예측하기 위해 성인병 환자의 진단 데이터를 이용할 수 있다. A more specific example, the diagnostic data can be used in adult patients to predict the prognosis of cardiovascular disease and cerebrovascular disease. 진단 데이터로는 환자의 질병과 증상 등을 분류하는 코드, 일례로 국제 통계 분류 10차 개정판인 ICD-10으로 표현된 진단 분류 코드를 이용할 수 있다. Diagnostic data can be used as a diagnostic classification code represented by the code, for example to classify such diseases and symptoms in the ICD-10 International Statistical Classification 10th edition.

환자의 진단 데이터로 사용되는 ICD-10 코드는 총 6,667개이며, 이들 코드 전체를 사용하거나 혹은 환자들에게서 일정 횟수 이상 나타나는 일부 코드들, 예를 들어 50번 이상 나타나는 2,777개의 코드들을 선택적으로 이용할 수 있다. ICD-10 codes used by the diagnostic data of the patient is a total of 6667 pieces, and these codes using the entire, or part of the code may appear more than a predetermined number of times in patients, for example, it may selectively utilize the 2,777 codes appearing at least 50 times have. 혹은 예측 질병과 관련 없는 진단 코드들은 사용하지 않음으로써 학습 효율성을 향상시킬 수 있다. Or predicting disease and related diagnostic code that can improve learning efficiency by not using.

ICD-10 코드 세트 x와 질병 세트 y가 주어지면 환자의 진단 이력이 ICD-10 코드의 시퀀스로 정의될 수 있다. Given the ICD-10 codes the set of x and y is set disease is diagnosed history of a patient can be defined as a sequence of ICD-10 codes.

[수학식 1] Equation 1

d={x, y}={(x 1 , x 2 , x 3 , …, x m ), y} st x∈X, y∈Y d = {x, y} = {(x 1, x 2, x 3, ..., x m), y} st x∈X, y∈Y

[수학식 2] Equation (2)

d k ={x k , y}={(x (mn)-k+1 , …, x m -n ), y} d k = {x k, y } = {(x (mn) -k + 1, ..., x m -n), y}

여기서, m은 ICD-10 코드 시퀀스의 길이를 나타내고, x k 는 x의 마지막 k-길이 시퀀스를 의미한다. Here, m represents the length of the ICD-10 code sequences, x k denotes the last k- length sequence of x. 환자의 시퀀스 길이가 다양하고 최근 진단이 환자의 상태를 더 정확하게 특성화할 가능성이 있으므로 예후 예측에는 최근 마지막 k개의 ICD-10 코드(즉, k-길이 시퀀스)를 사용한다. There is a possibility that the sequence length of the patient to various recently diagnosed more accurately characterize the condition of the patient prognosis is to use the latest last k of ICD-10 codes (i.e., k- length sequence). 고위험군 질병 예후의 조기 예측을 위해 mn (n>0) 까지의 코드를 이용하여 모델을 학습할 수도 있다. You may use the code to mn (n> 0) for the early prediction of disease prognosis risk for learning model.

진단 분류 코드가 고위험 질병 세트의 원소(element)가 된다면 해당 환자를 고위험 환자로 분류할 수 있다. Diagnostic classification code, if the element (element) of the high-risk disease set may be classified for the patient to high risk patients.

도 4는 환자의 진단 이력으로부터 ICD-10 시퀀스 데이터를 생성하는 과정의 예를 도시한 것이다. Figure 4 illustrates an example of a process of generating a sequence of data from the ICD-10 diagnostic history of the patient.

심혈관 질병 세트 Y H1 {I210, I211, I212}와 뇌혈관 질병 세트 Y H2 {I610, I611, I615}가 주어지는 것으로 가정한다. It is assumed that given a set of cardiovascular disease Y H1 {I210, I211, I212 } and cerebrovascular diseases set Y H2 {I610, I611, I615 }.

시퀀스 생성부(210)는 ICD-10 코드로 표현된 환자 별 진단 이력을 이용할 수 있으며 각 환자의 진단 이력을 나타내는 ICD-10 코드 시퀀스를 만들 수 있다. Sequence generator 210 may be conducted by a patient-specific diagnosis history represented by the ICD-10 codes, and can make the ICD-10 code sequence indicating a diagnosis history of the patient. 이때, 시퀀스 생성부(210)는 환자 별로 각 환자가 가지고 있는 질병에 따라 적어도 하나의 데이터 인스턴스를 생성할 수 있다. In this case, the sequence generator 210 may generate at least one of the data instance according to the disease in each patient with each patient.

시퀀스 생성부(210)는 각 환자의 시퀀스 데이터에 해당 환자가 가지고 있는 질병을 나타내는 레이블을 포함시킬 수 있다. Sequence generator 210 may include a label indicating the disease that the patient has the sequence data of the patient. 예를 들어, 고위험 질병이 없는 경우 H0, 심혈관 질병의 경우 H1, 뇌혈관 질병의 경우 H2를 적용한다. For example, if you do not have high-risk disease should apply H0, cases of cardiovascular disease cases in H1, cerebrovascular disease H2.

진단 이력으로 ICD-10 코드 세트 {I10, I100, M870, M870, End}를 가진 환자(401)의 경우 주어진 질병 세트(Y H1 , Y H2 )에 해당되는 코드가 없기 때문에 레이블 H0을 포함한 ICD-10 시퀀스 데이터를 생성할 수 있다. Diagnostic history by ICD-10 code set, if a patient 401 having a {I10, I100, M870, M870 , End} ICD- including labeled H0 since there is no code corresponding to a given disease set (Y H1, Y H2) It may generate 10 data sequences.

진단 이력으로 ICD-10 코드 세트 {I10, I100, L659, K297, I210}를 가진 환자(402)의 경우 주어진 질병 세트(Y H1 , Y H2 ) 중 심혈관 질병에 해당되는 코드 I210를 포함하고 있기 때문에 해당 코드 대신 심혈관 질병을 나타내는 레이블 H1로 대체한 ICD-10 시퀀스 데이터를 생성할 수 있다. Diagnosis history because it contains code I210 corresponding to cardiovascular disease of the ICD-10 codes the set {I10, I100, L659, K297 , I210} given disease set if the patient 402 with a (Y H1, Y H2) instead, the code may generate a data sequence ICD-10 replaced by a label indicating the H1 cardiovascular disease.

진단 이력으로 ICD-10 코드 세트 {I10, I212, E835, M480, I610}를 가진 환자(403)는 주어진 질병 세트(Y H1 , Y H2 ) 중에서 심혈관 질병에 해당되는 코드 I212와 뇌혈관 질병에 해당되는 코드 I610을 포함하고 있다. Diagnosis history corresponds to the code I212 and cerebrovascular diseases which are available for the cardiovascular disease in ICD-10 code set {I10, I212, E835, M480 , I610} patient 403 is given disease set (Y H1, Y H2) with which includes a code I610. 한 명의 환자가 두 가지 고위험 질병을 가지고 있다면 두 개의 데이터 인스턴스가 생성될 수 있다. If a patient has two high-risk disease, there are two instances of data can be generated. 이 경우 심혈관 질병에 해당되는 코드 I212까지의 제1 코드 시퀀스, 뇌혈관 질병에 해당되는 코드 I610까지의 제2 코드 시퀀스를 생성하되, 제1 코드 시퀀스에서 코드 I212를 심혈관 질병을 나타내는 레이블 H1로 대체하고 제2 코드 시퀀스에서는 코드 I610를 뇌혈관 질병을 나타내는 레이블 H2로 대체할 수 있다. In this case, but generates the second code sequence to the code I610 corresponding to the first code sequence, cerebrovascular disease to code I212 corresponding to cardiovascular disease, the first substitution code I212 in the code sequence into label H1 represents the cardiovascular disease and the second code sequence may be replaced with the code I610 labeled H2 represents a cerebrovascular disease.

다시 도 3에서, 단계(S330)에서 학습 처리부(220)는 단계(S320)에서 생성된 시퀀스 데이터에 대해 RNN을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성할 수 있다. Again in Figure 3, the learning processing unit 220 at step (S330) may generate learning data through the learning using the RNN word sequence for the sequence data generated in step (S320). 상세하게, 학습 처리부(220)는 RNN 모델을 이용하여 진단 분류 코드로 생성된 시퀀스 데이터를 실수 벡터로 표현할 수 있고 실수 벡터에 따른 질병 발생 확률을 계산할 수 있다. Specifically, the learning processing unit 220 may express the sequence data generated by the diagnostic classification code using the RNN model in real vector, we can calculate the probability of disease occurrence according to the real vector. 이때, 학습 처리부(220)는 환자의 진단 이력을 나타내는 ICD-10 코드로부터 생성된 시퀀스 데이터를 RNN의 입력으로 하여 RNN에서 단어 시퀀스 학습을 통해 시퀀스 정보가 포함된 워드 벡터를 표현할 수 있으며 시퀀스 정보가 포함된 워드 벡터를 이용하여 고위험 질병 별 발생 확률을 계산할 수 있다. At this time, the learning processing unit 220 is subject to the sequence data generated from the ICD-10 codes, which represent the diagnostic history of the patient to the input of the RNN represent the word vectors that contain sequence information from the word sequence learning in RNN and sequence information use the included word vector can be calculated by the probability of occurrence of high-risk disease.

시퀀스 데이터로 생성된 각 ICD-10 코드는 순차적으로 기 학습된 RNN의 입력으로 주어질 수 있으며, 이러한 순차 입력이 완료되면 RNN에서는 새로운 출력 실수 벡터 값이 생성되고 이에 따라 각 질병의 발생 확률이 산출되어 출력될 수 있다. Each ICD-10 codes generated by the sequence data may be given to the input of the trained group sequentially RNN, when such a sequential input is completed, RNN in the calculation is the new output real vector values ​​are generated and thereby the probability generated for each disease It may be output. 다시 말해, 학습 처리부(220)는 워드 벡터가 단어 시퀀스 정보를 표현할 수 있도록 RNN을 이용하여 ICD-10 코드로 표현된 환자의 진단 이력에 대한 시퀀스 학습을 먼저 진행한 후 RNN의 시퀀스 학습 결과를 이용하여 해당 환자의 고위험 질병 발생 확률을 계산할 수 있다. In other words, the learning processing unit 220 is the word vectors are used by the sequence learning result of the then proceed with the sequence of learning the diagnostic history of the patient represented as ICD-10 codes first RNN the RNN to represent the word sequence information and it is possible to calculate the probability of high-risk disease of the patient.

단계(S340)에서 예후 예측부(230)는 환자의 진단 이력에 대하여 RNN 모델을 통해 출력된 질병 발생 확률에 기초하여 해당 환자의 질병 예후를 예측할 수 있다. Prognostic predictor in step (S340) (230) may be based on an occurrence probability output from the RNN disease model with respect to the diagnosis of the patient history to predict disease outcome in the patient. 다시 말해, 예후 예측부(230)는 단계(S330)에서 생성된 학습데이터를 이용하여 환자의 질병 예후를 예측할 수 있다. In other words, the prognosis prediction unit 230 by using the learning data generated in the step (S330) can predict disease prognosis. 일례로, 예후 예측부(230)는 고위험 질병 별 발생 확률을 이용하여 해당 환자에 대하여 질병 별 예후 등급을 결정할 수 있다. In one example, the prognosis prediction unit 230 may determine a specific disease outcome rates with respect to the patient by using the occurrence probability by high-risk disease. 예를 들어, 각 환자의 질병을 발생 확률에 따른 등급 레이블로 정의할 수 있으며, 환자 A에 대하여 [성인병:0, 고위험군:1] 혹은 [심혈관 질병:1, 뇌혈관 질병:0] 등과 같이 발생 가능성이 있는 질병에 별도의 레이블을 부여할 수 있다. For example, you could define a rating labels according to the disease of the patient to the probability, with respect to the patient A occurs, such as [0 cardiovascular disease: 1, cerebrovascular diseases [illnesses: 0, high-risk group 1] or there could possibly be given an extra label on diseases. 다른 예로, 예후 예측부(230)는 고위험 질병 별 발생 확률을 이용하여 적어도 하나의 질병군으로 해당 환자를 분류할 수 있다. As another example, the prognosis prediction unit 230 may classify the patient with at least one jilbyeonggun using a probability specific high-risk disease. 또 다른 예로, 예후 예측부(230)는 고위험 질병 별 발생 확률에 따라 가장 높은 확률의 질병에 대한 알럿(alert)을 제공할 수 있다. As another example, the prognosis prediction unit 230 may provide a alreot (alert) for the disease with the highest probability according to the probability of occurrence by high-risk disease.

진단 이력을 나타내는 시퀀스 데이터로부터 예후를 예측하는 것은 단어 시퀀스로부터 텍스트를 분류하는 작업과 유사하다고 할 수 있다. The prognosis from sequence data showing the diagnostic history can be said to be similar to the task of classifying the text from the word sequence.

도 5는 본 발명의 일 실시예에 있어서 질병 예후 예측을 위한 RNN 모델 구조의 예를 도시한 것이다. Figure 5 shows an example of a structure RNN model for disease prognosis prediction according to one embodiment of the invention.

도 5에 도시한 바와 같이, 본 발명의 예후 예측을 위한 RNN(이하, 'PP-RNN'라 칭함)은 분산 표현(distributed representation)을 위한 임베딩 레이어(embedding layer)(501), 시퀀스 모델링을 위한 멀티 회귀 레이어(multiple recurrent layers)(502), 예후 분류를 위한 완전 연결 레이어(fully-connected layers)(503)로 구성될 수 있다. As shown in Figure 5, RNN for prognostic prediction of the present invention (hereinafter, 'PP-RNN' hereinafter) are dispersed expression (distributed representation) a for embedding layer (embedding layer) (501), for sequence modeling multi-layer regression (multiple recurrent layers) (502), complete connection for the prognostic classification layer (fully-connected layers) may be composed of 503.

RNN은 다른 신경망들과는 달리 시간 요인을 고려하여 시퀀스 데이터의 패턴을 명시적으로 학습하는 모델이다. RNN is a model taking into account the time factor, unlike other neural networks to learn patterns of sequence data explicitly.

임베딩 레이어(501)는 ICD-10 코드를 실수 벡터로 변환한다. Embedding layer 501 converts the ICD-10 codes in real vector. 임베딩 레이어(501)는 단어들을 다차원 실수 벡터로 표현하고 단어 간의 의미/구조 유사성을 두 벡터 간의 거리로 표현함으로써 분산 표현이 가능하다. Embedding layer 501 is capable of dispersion expressed by representing the words in a multi-dimensional real vector to express sense / structural similarities between words in the distance between the two vectors. 이러한 분산 표현은 코드의 의미를 특성화하고 신경 언어 모델에서와 같이 코드가 연산 동작에 의해 계산될 수 있도록 수용한다. This expression distribution is acceptable, so the code can be calculated by the arithmetic operation as in the nervous and characterize the meaning of the code language model.

멀티 회귀 레이어(502)는 ICD-10 코드의 시퀀스 패턴을 모델링 할 수 있다. Multi-regression layer 502 may model the sequence pattern of the ICD-10 codes. 멀티 회귀 레이어(502)는 시퀀스가 입력으로 주어지는 데이터로부터 패턴을 효과적으로 학습 가능한, 시간적 측면이 고려된 신경망 계층에 해당된다. Multi-regression layer 502 is the layer in the neural network a sequence capable of effectively a pattern from the data given in the input learning, the temporal aspects are considered.

완전 연결 레이어(503)는 ICD-10 코드의 시퀀스를 실수 벡터로서 표현하며, 이때 실수 벡터는 소프트맥스 함수를 통해 질병의 발병 가능성을 계산하는데 사용될 수 있다. Full connection layer 503 is used to represent a sequence of ICD-10 code as a real vector, wherein the real number vector may be used to calculate the onset possibility of the disease through the Softmax function.

[수학식 3] [Equation 3]

Figure 112016114089419-pat00001

[수학식 4] [Equation 4]

Figure 112016114089419-pat00002

여기서, here,

Figure 112018019488542-pat00003
는 k-길이 시퀀스와 질병에 대해 PP-RNN에 의해 계산된 스코어 함수이고, Is the score function computed by the PP-RNN for k- length sequence by the disease,
Figure 112018019488542-pat00004
는 x k 로부터 예측된 질병을 의미한다. It means a disease predicted from x k.

그리고, PP-RNN의 학습은 완전 연결 레이어(503), 멀티 회귀 레이어(502), 임베딩 레이어(501)를 통해 입력 피처 레이어(input feature layer)(500)로 예측 오차를 전파함으로써 E2E(end-to-end) 방식으로 진행될 수 있다. And, PP-RNN's learning is spread by the prediction error to the full connection layer 503, multi-regression layer 502, an input feature layer via the embedded layers (501) (input feature layer) (500) E2E (end- It may proceed with to-end) system.

본 발명에서는 시퀀스 학습에 적합한 RNN을 이용함으로써 진단 분류 코드를 워드 임베딩 방법을 기반으로 쉽게 벡터 값으로 표현할 수 있다. In the present invention, it may represent the diagnostic classification code as easy vector value based on the word embedding method by using a suitable sequence RNN learning.

본 발명의 PP-RNN 모델은 코드 시퀀스를 워드 벡터로 표현하는 워드 임베딩뿐만 아니라 임베딩된 워드 벡터로부터 고위험 질병의 분류를 가능하게 한 E2E 형태의 질병 예후 예측 모델을 제공할 수 있다. PP-RNN model of the present invention can provide a code sequence the E2E form of the disease prognosis prediction model, enabling the classification of high-risk disease from the word vectors, as well as embedding embedding word represented in the vectors.

PP-RNN은 둘 이상의 이종(heterogeneous) 데이터 피처들을 위해 다수의 RNN을 포함할 수 있으며, 긴 시퀀스에 의해 발생하는 배니싱 그라디언트 문제(vanishing gradient problem)를 방지하기 위해 RNN의 회귀 레이어(502)로 GRU(gated recurrent unit) , LSTM(long short-term memory) 등 변형된 RNN 모델들을 사용할 수 있다. PP-RNN is GRU into two or more two kinds of (heterogeneous) a plurality of RNN can be included to the data features, and vanishing gradient problem (vanishing gradient problem) regression layer 502 of the RNN in order to avoid caused by long sequences It may use the modified RNN models (gated recurrent unit), LSTM (long short-term memory).

그리고, 본 발명에서는 다수의 RNN을 병합하기 위해 여러 방법을 적용할 수 있으며, 도 5에 도시한 바와 같이 회귀 레이어(502)의 출력 벡터들을 연결함으로써 이들을 병합할 수 있다. And, in the present invention can be applied in several ways to merge multiple RNN, and may incorporate them by connecting the output of the return layer 502. Vector As shown in Figure 5.

본 발명에서는 진단 분류 코드의 시퀀스에 대해 오직 하나의 RNN 모델을 사용하는 것 이외에도, 추가적인 임상 이력의 시퀀스에 대해 다수의 RNN을 사용하는 것 또한 가능하다. In the present invention, in addition to using only one of the RNN model for the sequence of the diagnostic classification code, it is also possible to use a plurality of RNN to the sequence of the additional clinical history. 진단 이력과 관련된 진단 분류 코드를 포함하여 진단 시점의 시간이나 질병 기간, 치료 이력과 병리학적 측정 데이터 등을 추가적인 피처들로서 사용할 수 있으며, 각각의 피처에 대한 시퀀스를 각각의 개별 신경망을 이용하여 학습하고 이를 병합하여 질병 예후를 분류할 수 있다. The diagnosis time or illness duration of the diagnosis time, including the classification code, the treatment history and pathological measurement data or the like related to the diagnostic history can be used as an additional feature, and the sequence for each of the feature learned by using each of the individual neural networks by merging it can classify the disease prognosis. 예를 들어, 진단 이력에 따른 진단 분류 코드 이외에 외래 환자, 입원 환자, 응급 환자의 세 개의 값으로 구분되는 환자의 유형을 추가적인 임상 피처로서 활용할 수 있다. For example, in addition to the diagnostic classification code in accordance with the diagnostic history it may take advantage of the types of patients that are separated by three values ​​of outpatient, inpatient, emergency patients as an additional clinical features. 추가되는 피처 각각에 대하여 해당 데이터의 특성에 따라 RNN은 물론, FFNN(feedforward neural network)이나 CNN(convolutional neural network)과 같은 개별 신경망을 추가하여 학습할 수 있다. Depending on the nature of the data for each additional feature that is RNN is, of course, it is possible to learn by adding the individual neural networks, such as FFNN (feedforward neural network) or CNN (convolutional neural network).

본 발명에 따른 질병 예후 예측 시스템 및 방법에서 진단 이력과 관련된 진단 분류 코드와 함께 추가적인 다른 임상 피처를 이용하는 경우 질병 예후에 대한 보다 정확한 예측 결과를 제공할 수 있다. When using the additional other clinical features with the diagnostic classification codes associated with the diagnostic history in disease prognosis prediction system and method according to the invention can provide accurate predictive results than for the disease prognosis.

이처럼 본 발명의 실시예들에 따르면, 진단 분류 코드를 단어 시퀀스 형태의 피처로 표현하고 RNN을 이용한 학습을 통해 고위험 예후를 예측할 수 있다. Thus, according to embodiments of the present invention, representing a diagnostic classification codes to form the features of a word sequence, through the learning using the RNN can predict high-risk outcome. 따라서, 코드로 표현된 간단한 진단 이력만으로 보다 빠르고 정확하게 고위험 예후를 예측할 수 있으며 고위험 예후에 대한 신속한 경고를 제공할 수 있다. Thus, you can quickly and accurately than just a simple diagnostic history represented by the code to predict high-risk prognosis and may provide an early warning for risk prognosis.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. The device described above may be implemented in a combination of hardware components, software components, and / or hardware components and software components. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. For example, the devices and components described in the embodiments, the processors, controllers, ALU (arithmetic logic unit), a digital signal processor (digital signal processor), a microcomputer, FPGA (field programmable gate array), PLU (programmable as in the logic unit), a microprocessor, or any other device capable of executing the command (instruction) and response, may be implemented using one or more general-purpose computer or special purpose computer. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. Processing unit may perform one or more software applications running on an operating system (OS) and the operating system. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. The processing apparatus may be in response to the execution of the software, access, storage, handling, processing and generating data. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. For convenience of understanding, the processing device is one of ordinary skill in the Figure, but if the said to be one that uses the art, the processing apparatus to which a plurality of processing elements (processing element) and / or processing elements in the plurality of types of it can be seen that can contain. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. For example, the processing device may comprise a plurality of processors or one processor and a controller. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다. Further, it is also possible, other processing configurations (processing configuration), such as a parallel processor (parallel processor).

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. Software is a computer program (computer program), code (code), a command (instruction), or may include one or more combinations of these, or in the associative configuration or independently of the processing device to operate as desired (collectively) treatment you can command the device. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. Software and / or data, for analysis by the processing device or to provide a command or data to a processing device, any type of machine, component (component), the physical devices, the virtual device (virtual equipment), computer storage media or device permanently, or it may be, temporarily materialized (embody). 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. Software may be executed split up on computer systems connected through a network, or stored in a distributed way. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다. Software and data may be stored in one or more computer-readable media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. The process according to the embodiment is implemented in program instruction form that can be executed by various computer it means to be recorded in computer-readable media. 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. Media can continue to save the executable program to a computer, or may be temporarily stored for a run or download. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. In addition, the medium may be one which is not limited to the medium that is directly connected to the recording device or may be a different storage means of a single or several hardware combined form, any computer system, there distributed to the network. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. By way of illustration of the media, magnetic media, CD-ROM and magnetic, such as an optical recording medium, flop tikeol disk (floptical disk) such as DVD, such as hard disks, floppy disks, and magnetic tape-optical medium (magneto-optical medium), and to may be configured to store program instructions that includes a ROM, RAM, flash memory, or the like. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. In addition, the media can be recorded to storage media management, etc. sites, a server supplier to distribute the App Store and various other software distribution applications, as examples of other media.

매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. Program instructions recorded on the media are specially designed and constructed for the embodiment of things or are known to the computer software, one of ordinary skill in the art may also be available. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. Examples of program instructions include both machine code, such as produced by a compiler, using an interpreter for a high-level language code that can be executed by a computer.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. Although embodiments have been described and specific examples as described above, those skilled in the art can be various modifications, additions and substitutions from the description above. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. For example, the described techniques may be performed in a way different from the order described, and / or described system, architecture, device, circuit, etc. of the components described the methods and or combined or in combination with other forms, other components, or it can be the appropriate result achieved even replaced or substituted by equivalents.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다. Therefore, other implementations, other embodiments and within the scope of the claims to be described later things by the claims and equivalents.

Claims (17)

  1. 컴퓨터 시스템에서 수행되는 질병 예후 예측 방법에 있어서, In the disease prognosis prediction method performed by the computer system,
    상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독 가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, The computer system includes at least one processor configured to execute the computer readable instructions contained in a memory,
    상기 적어도 하나의 프로세서는, Wherein the at least one processor,
    상기 질병 예후 예측 방법을 수행하기 위한 구성요소로서 시퀀스 생성부, 학습 처리부, 예후 예측부를 포함하고, The disease prognosis prediction method sequence as a component for performing a generator, the learning processing, and includes prognosis prediction unit,
    상기 질병 예후 예측 방법은, The disease prognosis prediction method,
    상기 시퀀스 생성부에서, 환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하는 단계; Generating a sequence of data by the sequence generator in the expression for diagnostic classification code that indicates a diagnosis history of the patient in the form word sequence (sequence);
    상기 학습 처리부에서, 상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하는 단계; Generating a learning data in the learning processing, from the word sequence using a learning RNN (Recurrent Neural Networks) for the data sequence; And
    상기 예후 예측부에서, 상기 학습데이터를 이용하여 질병 예후를 예측하는 단계 In the prognosis prediction unit, predicting the disease outcome, using the training data,
    를 포함하고, And including,
    상기 시퀀스 데이터를 생성하는 단계는, Generating the sequence data,
    상기 진단 분류 코드로부터 주어진 질병에 해당되는 적어도 하나의 시퀀스 데이터를 생성하고, From the diagnostic classification code and generating at least one data sequence corresponding to a given disease,
    상기 질병 예후 예측 방법에서는, In the disease prognosis prediction method,
    상기 시퀀스 데이터에 대한 상기 RNN의 시퀀스 학습 결과를 이용하여 상기 주어진 질병 별로 상기 환자의 질병 발생 확률이 계산되는 것 By the given disease, using a sequence of learning results of the RNN for the sequence of data will be the probability of occurrence of the disease the patient calculated
    을 특징으로 하는 질병 예후 예측 방법. Disease prognosis method of claim.
  2. 제1항에 있어서, According to claim 1,
    상기 질병 예후 예측 방법에서는, In the disease prognosis prediction method,
    상기 시퀀스 데이터가 실수 벡터로 표현되어 상기 실수 벡터에 따른 질병 발생 확률이 계산되는 것 In that the data sequence is expressed as a real vector that is the disease probability in accordance with the calculated real vector
    을 특징으로 하는 질병 예후 예측 방법. Disease prognosis method of claim.
  3. 제1항에 있어서, According to claim 1,
    상기 질병 예후 예측 방법에서는, In the disease prognosis prediction method,
    상기 시퀀스 데이터가 상기 RNN의 입력이 되어 상기 RNN에서 단어 시퀀스 학습을 통해 시퀀스 정보가 포함된 워드 벡터가 표현되고, The sequence data is the input to the RNN is a vector that contains the word sequence information with the word sequence represented by the learning RNN,
    상기 시퀀스 정보가 포함된 워드 벡터를 이용하여 질병 발생 확률이 계산되는 것 That by using the word vector containing the said sequence information to calculate probability of disease development
    을 특징으로 하는 질병 예후 예측 방법. Disease prognosis method of claim.
  4. 제1항에 있어서, According to claim 1,
    상기 학습데이터를 생성하는 단계는, Generating the learning data,
    단어 시퀀스에 대한 분산 표현(distributed representation)을 위한 임베딩 레이어(embedding layer)와, 시퀀스 모델링을 위한 회귀 레이어(recurrent layers), 및 질병 예후 분류를 위한 완전 연결 레이어(fully-connected layers)로 구성된 RNN을 이용하는 것 Embedding layer (embedding layer) for distributed representation of the word sequence (distributed representation) and, the RNN consists of fully connected layers (fully-connected layers) for the return layer (recurrent layers), and disease prognosis classification for the sequence modeling It will use
    을 특징으로 하는 질병 예후 예측 방법. Disease prognosis method of claim.
  5. 제4항에 있어서, 5. The method of claim 4,
    상기 RNN의 학습은 상기 완전 연결 레이어, 상기 회귀 레이어, 상기 임베딩 레이어를 통해 입력 피처 레이어(input feature layer)로 예측 오차를 전파함으로써 E2E(end-to-end) 방식으로 진행되는 것 Learning of the RNN which will proceed to the fully connected layers, and the return layer, said embedded layer by the propagation of prediction error as the input feature layer (input feature layer) via E2E (end-to-end) method
    을 특징으로 하는 질병 예후 예측 방법. Disease prognosis method of claim.
  6. 제1항에 있어서, According to claim 1,
    상기 시퀀스 데이터를 생성하는 단계는, Generating the sequence data,
    상기 진단 분류 코드 중 최근 마지막 일정 개수의 코드를 이용하여 상기 시퀀스 데이터를 생성하는 것 Recent diagnostic classification of the code by using the code of the last predetermined number to generate the sequence data
    을 특징으로 하는 질병 예후 예측 방법. Disease prognosis method of claim.
  7. 제1항에 있어서, According to claim 1,
    상기 시퀀스 데이터를 생성하는 단계는, Generating the sequence data,
    상기 진단 분류 코드 중 상기 주어진 질병에 해당되는 코드를 해당 질병의 레이블로 대체하는 것 Of the diagnostic classification code to replace the code that corresponds to a given disease to the label of the disease
    을 특징으로 하는 질병 예후 예측 방법. Disease prognosis method of claim.
  8. 제1항에 있어서, According to claim 1,
    상기 시퀀스 데이터를 생성하는 단계는, Generating the sequence data,
    상기 진단 분류 코드 중 상기 주어진 질병에 해당되는 코드가 복수 개인 경우 각 질병에 대한 시퀀스 데이터를 생성하는 것 If the code is a plurality of individual said diagnostic classification code corresponding to the given disease is to generate a sequence of data for each disease
    을 특징으로 하는 질병 예후 예측 방법. Disease prognosis method of claim.
  9. 제1항에 있어서, According to claim 1,
    상기 질병 예후 예측 방법은, The disease prognosis prediction method,
    상기 시퀀스 생성부에서, 상기 환자의 진단 시점의 시간 및 질병 기간, 치료 이력과 병리학적 측정 데이터 중 적어도 하나의 추가 임상 이력에 대한 시퀀스 데이터를 생성하는 단계 In the sequence generator, the method comprising at least one additional period of time, and diseases, treatment history, and the pathological diagnosis of the measured data point in the patient to produce a sequence of data on the clinical history
    를 더 포함하고, Including more and
    상기 학습데이터를 생성하는 단계는, Generating the learning data,
    상기 환자의 진단 이력과 상기 추가 임상 이력에 대해 해당 데이터의 특성에 따른 각각의 개별 신경망을 추가하여 학습하는 단계 The step of learning by adding each individual neural network according to the characteristics of the data for the diagnosis history and the additional clinical history of the patient
    를 포함하는 질병 예후 예측 방법. Disease prognosis prediction method that includes.
  10. 제1항 내지 제9항 중 어느 한 항의 질병 예후 예측 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터 판독 가능한 기록 매체. Claim 1 to claim 9, wherein in any one of the disease prognosis prediction method a computer-readable recording medium characterized in that the program is written to execute on a computer.
  11. 컴퓨터로 구현되는 질병 예후 예측 시스템에 있어서, In the disease prognosis prediction system is implemented in a computer,
    메모리에 포함된 컴퓨터 판독 가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, It includes at least one processor configured to execute computer-readable instructions contained in a memory, and
    상기 적어도 하나의 프로세서는, Wherein the at least one processor,
    환자의 진단 이력을 나타내는 진단 분류 코드를 단어 시퀀스(sequence) 형태로 표현함으로써 시퀀스 데이터를 생성하는 시퀀스 생성부; By expressing a diagnostic classification code that indicates a diagnosis history of the patient in the form word sequence (sequence) sequence generator for generating a data sequence;
    상기 시퀀스 데이터에 대해 RNN(Recurrent Neural Networks)을 이용한 단어 시퀀스 학습을 통해 학습데이터를 생성하는 학습 처리부; The learning processing for generating training data through learning using the word sequence (Recurrent Neural Networks) RNN on the sequence data; 및, And,
    상기 학습데이터를 이용하여 질병 예후를 예측하는 예후 예측부 Prognosis prediction unit for predicting disease outcome, using the training data,
    를 포함하고, And including,
    상기 시퀀스 생성부는, Said sequence generator comprises:
    상기 진단 분류 코드로부터 주어진 질병에 해당되는 적어도 하나의 시퀀스 데이터를 생성하고, From the diagnostic classification code and generating at least one data sequence corresponding to a given disease,
    상기 적어도 하나의 프로세서에서는, In the at least one processor,
    상기 시퀀스 데이터에 대한 상기 RNN의 시퀀스 학습 결과를 이용하여 상기 주어진 질병 별로 상기 환자의 질병 발생 확률이 계산되는 것 By the given disease, using a sequence of learning results of the RNN for the sequence of data will be the probability of occurrence of the disease the patient calculated
    을 특징으로 하는 질병 예후 예측 시스템. Disease prognosis prediction system features.
  12. 제11항에 있어서, 12. The method of claim 11,
    상기 적어도 하나의 프로세서에서는, In the at least one processor,
    상기 시퀀스 데이터가 상기 RNN의 입력이 되어 상기 RNN에서 단어 시퀀스 학습을 통해 시퀀스 정보가 포함된 워드 벡터가 표현되고, The sequence data is the input to the RNN is a vector that contains the word sequence information with the word sequence represented by the learning RNN,
    상기 시퀀스 정보가 포함된 워드 벡터를 이용하여 질병 발생 확률이 계산되는 것 That by using the word vector containing the said sequence information to calculate probability of disease development
    을 특징으로 하는 질병 예후 예측 시스템. Disease prognosis prediction system features.
  13. 제11항에 있어서, 12. The method of claim 11,
    상기 학습 처리부는, The learning processing section,
    단어 시퀀스에 대한 분산 표현(distributed representation)을 위한 임베딩 레이어(embedding layer)와, 시퀀스 모델링을 위한 회귀 레이어(recurrent layers), 및 질병 예후 분류를 위한 완전 연결 레이어(fully-connected layers)로 구성된 RNN을 이용하는 것 Embedding layer (embedding layer) for distributed representation of the word sequence (distributed representation) and, the RNN consists of fully connected layers (fully-connected layers) for the return layer (recurrent layers), and disease prognosis classification for the sequence modeling It will use
    을 특징으로 하는 질병 예후 예측 시스템. Disease prognosis prediction system features.
  14. 제13항에 있어서, 14. The method of claim 13,
    상기 RNN의 학습은 상기 완전 연결 레이어, 상기 회귀 레이어, 상기 임베딩 레이어를 통해 입력 피처 레이어(input feature layer)로 예측 오차를 전파함으로써 E2E(end-to-end) 방식으로 진행되는 것 Learning of the RNN which will proceed to the fully connected layers, and the return layer, said embedded layer by the propagation of prediction error as the input feature layer (input feature layer) via E2E (end-to-end) method
    을 특징으로 하는 질병 예후 예측 시스템. Disease prognosis prediction system features.
  15. 제11항에 있어서, 12. The method of claim 11,
    상기 시퀀스 생성부는, Said sequence generator comprises:
    상기 진단 분류 코드 중 최근 마지막 일정 개수의 코드를 이용하여 상기 시퀀스 데이터를 생성하는 것 Recent diagnostic classification of the code by using the code of the last predetermined number to generate the sequence data
    을 특징으로 하는 질병 예후 예측 시스템. Disease prognosis prediction system features.
  16. 제11항에 있어서, 12. The method of claim 11,
    상기 시퀀스 생성부는, Said sequence generator comprises:
    상기 진단 분류 코드 중 상기 주어진 질병에 해당되는 코드가 복수 개인 경우 각 질병에 대한 시퀀스 데이터를 생성하는 것 If the code is a plurality of individual said diagnostic classification code corresponding to the given disease is to generate a sequence of data for each disease
    을 특징으로 하는 질병 예후 예측 시스템. Disease prognosis prediction system features.
  17. 제11항에 있어서, 12. The method of claim 11,
    상기 시퀀스 생성부는, Said sequence generator comprises:
    상기 환자의 진단 시점의 시간 및 질병 기간, 치료 이력과 병리학적 측정 데이터 중 적어도 하나의 추가 임상 이력에 대한 시퀀스 데이터를 생성하고, At least one additional period of time, and diseases, treatment history, and the pathological diagnosis of the measured data point in the patient to produce a sequence of data on the clinical history, and
    상기 환자의 진단 이력과 상기 추가 임상 이력에 대해 해당 데이터의 특성에 따른 각각의 개별 신경망을 추가하여 학습하는 것 To learning by adding each individual neural network according to the characteristics of the data for the diagnosis history and the additional clinical history of the patient
    을 특징으로 하는 질병 예후 예측 시스템. Disease prognosis prediction system features.
KR1020160155771A 2016-11-22 2016-11-22 Method and system for predicting prognosis from diagnostic histories using deep learning KR101869438B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160155771A KR101869438B1 (en) 2016-11-22 2016-11-22 Method and system for predicting prognosis from diagnostic histories using deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160155771A KR101869438B1 (en) 2016-11-22 2016-11-22 Method and system for predicting prognosis from diagnostic histories using deep learning

Publications (2)

Publication Number Publication Date
KR20180057300A KR20180057300A (en) 2018-05-30
KR101869438B1 true KR101869438B1 (en) 2018-06-20

Family

ID=62300499

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160155771A KR101869438B1 (en) 2016-11-22 2016-11-22 Method and system for predicting prognosis from diagnostic histories using deep learning

Country Status (1)

Country Link
KR (1) KR101869438B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005508556A (en) * 2001-11-02 2005-03-31 シーメンス コーポレイト リサーチ インコーポレイテツド Patient data mining to predict and diagnose the condition of the patient
US20150220833A1 (en) * 2014-01-31 2015-08-06 Google Inc. Generating vector representations of documents
JP2016134169A (en) * 2015-01-19 2016-07-25 三星電子株式会社Samsung Electronics Co.,Ltd. Method and apparatus for training language model, and method and apparatus for recognizing language

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676379B2 (en) * 2004-04-27 2010-03-09 Humana Inc. System and method for automated extraction and display of past health care use to aid in predicting future health status

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005508556A (en) * 2001-11-02 2005-03-31 シーメンス コーポレイト リサーチ インコーポレイテツド Patient data mining to predict and diagnose the condition of the patient
US20150220833A1 (en) * 2014-01-31 2015-08-06 Google Inc. Generating vector representations of documents
JP2016134169A (en) * 2015-01-19 2016-07-25 三星電子株式会社Samsung Electronics Co.,Ltd. Method and apparatus for training language model, and method and apparatus for recognizing language

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
일본 공표특허공보 특표2005-508556호(2005.03.31.) 1부. *

Also Published As

Publication number Publication date
KR20180057300A (en) 2018-05-30

Similar Documents

Publication Publication Date Title
Khalilia et al. Predicting disease risks from highly imbalanced data using random forest
Rajkomar et al. Scalable and accurate deep learning with electronic health records
Krittanawong et al. Artificial intelligence in precision cardiovascular medicine
Shen et al. Using connectome-based predictive modeling to predict individual behavior from brain connectivity
Futoma et al. A comparison of models for predicting early hospital readmissions
Weng et al. Can machine-learning improve cardiovascular risk prediction using routine clinical data?
Graves et al. Hybrid computing using a neural network with dynamic external memory
Masethe et al. Prediction of heart disease using classification algorithms
Nguyen et al. $\mathtt {Deepr} $: a convolutional net for medical records
Bischl et al. Algorithm selection based on exploratory landscape analysis and cost-sensitive learning
US20110202486A1 (en) Healthcare Information Technology System for Predicting Development of Cardiovascular Conditions
Pham et al. Deepcare: A deep dynamic memory model for predictive medicine
Bayati et al. Data-driven decisions for reducing readmissions for heart failure: General methodology and case study
AU2012245343B2 (en) Predictive modeling
JP2017004509A (en) Advanced analytical infrastructure for machine learning
Baytas et al. Patient subtyping via time-aware LSTM networks
EP2985711A1 (en) System for automated analysis of clinical text for pharmacovigilance
US20130275352A1 (en) Identifying and Forecasting Shifts in the Mood of Social Media Users
Ma et al. Dipole: Diagnosis prediction in healthcare via attention-based bidirectional recurrent neural networks
Vila-Francés et al. Expert system for predicting unstable angina based on Bayesian networks
AlkıM et al. A fast and adaptive automated disease diagnosis method with an innovative neural network model
US8359281B2 (en) System and method for parallelizing and accelerating learning machine training and classification using a massively parallel accelerator
KR20120087795A (en) Patient enabled methods, apparatus, and systems for early health and preventive care using wearable sensors
Karabulut et al. Effective diagnosis of coronary artery disease using the rotation forest ensemble method
US20050278124A1 (en) Methods for molecular property modeling using virtual data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right