KR20210068713A - 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템 - Google Patents

딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템 Download PDF

Info

Publication number
KR20210068713A
KR20210068713A KR1020190158047A KR20190158047A KR20210068713A KR 20210068713 A KR20210068713 A KR 20210068713A KR 1020190158047 A KR1020190158047 A KR 1020190158047A KR 20190158047 A KR20190158047 A KR 20190158047A KR 20210068713 A KR20210068713 A KR 20210068713A
Authority
KR
South Korea
Prior art keywords
information
medical data
data
patient
deep learning
Prior art date
Application number
KR1020190158047A
Other languages
English (en)
Inventor
안광성
조성훈
Original Assignee
주식회사 피디젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 피디젠 filed Critical 주식회사 피디젠
Priority to KR1020190158047A priority Critical patent/KR20210068713A/ko
Publication of KR20210068713A publication Critical patent/KR20210068713A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예에 따른 딥러닝 기반 다중 의료데이터를 통한 질병의 진행 예측 분석 시스템은 환자의 병리 정보와 영상 정보를 포함한 다중 의료데이터를 수집하여 저장하는 데이터 수집부; 상기 다중 의료데이터를 손실값을 채우는 대체 과정과 상기 다중 의료데이터의 각 특성들의 스케일을 같게하는 정규화 과정을 수행하여 전처리하기 위한 데이터 전처리부; 상기 다중 의료데이터의 환자 병리 정보에 대한 기계학습을 진행하여 상기 다중 의료데이터에서 중요인자를 선별하는 머신러닝부; 및 상기 머신러닝부의 상기 중요인자와 상기 영상정보를 딥러닝 모델링하여 매칭시켜 질병의 진행을 예측하는 딥러닝 예측부;를 포함할 수 있다.

Description

딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템{System for predicting disease progression using multiple medical data based on deep learning}
본 발명은 질병의 진행 예측 분석 시스템에 관한 것으로, 더 구체적으로는 환자의 병리 정보와 영상 정보를 포함한 다중 의료데이터를 딥러닝 기반 분석하여 환자의 질병 진행 정도를 예측 분석하는 시스템에 관한 것이다.
현대 의학에서 효과적인 질병의 진단 및 환자의 치료를 위해 의료 영상은 매우 중요한 도구이다. 또한, 영상 기술 발달은 더욱 정교한 의료 영상 데이터를 획득 가능하게 하고 있다. 이러한 정교함의 대가로 데이터의 양은 점차 방대해지고 있어 의료 영상 데이터를 인간의 시각에 의존하여 분석하는 데 어려움이 많다. 이에, 최근 십여 년 동안 임상 의사 결정 지원 시스템 및 컴퓨터 보조 판독 시스템은 의료 영상 자동 분석에 있어서 필수적인 역할을 수행하여 왔다.
근래에 딥러닝(Deep learning)과 같은 기계 학습(Machine learning)을 기반으로 하는 인공지능(AI) 기술은 의료 영상을 이용하여 환자의 질병을 판독하는데 있어 비약적인 발전을 가져오는데 바탕이 되고 있다. 의료 영상에서의 딥러닝 기술은 질병을 포함하는 다수의 의료 영상과 해당 질병을 학습 데이터로 하여 기계 학습이 진행되어 기계 학습 모델(이하, '판독 모델'이라 함)이 생성되고, 판독 대상 의료 영상이 판독 모델에 입력되면 병변 여부를 진단하게 된다.
최근 IoT 기술 및 웨어러블 기기의 발전에 따라 환자 개인별 특화된 질병 진단 및 치료 서비스와 만성질환 관리 서비스 및 질병예방 서비스에 대한 연구가 활발히 진행되고 있으며, 이와 동시에 방대한 헬스케어 빅데이터가 수집되고 있다.
이에 따라, 사물인터넷 기술 등을 활용해 수집한 고혈압, 당뇨 등 만성질환자의 생활데이터, 진단·치료과정에서 발생된 의료데이터 등이 폭발적 증가하고 있으며 방대하게 수집된 개인 의료빅데이터를 토대로 의료 영상 정보와 유전자 분석 정보 등을 종합적으로 분석하여 환자의 질병 진행 정도를 예측 분석하는 기술이 요구되고 있다.
한국등록특허 제10-1932009호(출원일 : 2017.12.29)
본 발명은 환자의 병리 정보와 의료 영상 정보를 포함한 다중 의료데이터를 통해 질병의 진행 정도를 예측 분석하는 딥러닝 기반 다중 의료데이터를 통한 질병의 진행 예측 분석 시스템을 제공하는 것을 목적으로 한다.
본 발명의 실시예에 따른 딥러닝 기반 다중 의료데이터를 통한 질병의 진행 예측 분석 시스템은 환자의 병리 정보와 영상 정보를 포함한 다중 의료데이터를 수집하여 저장하는 데이터 수집부; 상기 다중 의료데이터를 손실값을 채우는 대체 과정과 상기 다중 의료데이터의 각 특성들의 스케일을 같게하는 정규화 과정을 수행하여 전처리하기 위한 데이터 전처리부; 상기 다중 의료데이터의 환자 병리 정보에 대한 기계학습을 진행하여 상기 다중 의료데이터에서 중요인자를 선별하는 머신러닝부; 및 상기 머신러닝부의 상기 중요인자와 상기 영상정보를 딥러닝 모델링하여 매칭시켜 질병의 진행을 예측하는 딥러닝 예측부;를 포함할 수 있다.
여기서, 상기 데이터 수집부는, 환자에게서 수신한 설문지, 환자의 영양상태, 투약하고 있는 약물 정보, 신체정보(신장/체중/혈압/혈당/과거 병리이력 등)를 포함하는 환자 정보; 혈액 정보 및 혈액의 분석으로부터 도출된 혈액 실험 정보를 포함하는 임상정보; 과거 병리 진단 결과 및 진단 결과를 기반으로 환자에게 투여된 약물 정보, 수술이나 진료 정보를 포함하는 진단정보; 환자로부터 채혈된 혈액의 유전체 분석 결과인 단일염기다형성(SNPs; Single nucleotide polymorphism) 정보와 전장유전체 관련 분석(GWAS; Genom-Wide Association Study) 정보를 포함하는 유전체 정보; 혈액, 소변, 대변 등의 샘플에서 유전자를 추출하고 그 유전자를 분석한 결과를 포함하는 메타게놈 정보 및 환자의 내시경 이미지, CT 및 MRI 이미지 등을 포함하는 영상 정보;를 포함할 수 있다.
또한, 상기 데이터 전처리부는, 상기 다중 의료데이터의 특성의 평균값으로 손실값을 채우는 Continuous feature나 새로운 카테고리를 만드는 Categorical feature 중 어느 하나의 방법을 수행하여 대체 과정을 수행할 수 있다.
또한, 상기 머신러닝부는, Logistic Regression 모델, SVM 모델, Random Forest 모델 및 Neural Network 모델을 활용하여 상기 다중 의료데이터를 기계학습한 후, 앙상블 모델을 사용하여 가장 정확도가 높은 학습 결과인 중요인자를 선별할 수 있다.
또한, 상기 딥러닝 예측부는, Logistic Classification 모델 및 CNN 모델(convolution neural network)로 상기 영상정보를 딥러닝 모델링할 수 있다.
본 발명의 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템에 따르면, 과거로부터 축적된 환자의 다중 의료데이터 및 의료 영상정보를 딥러닝 모델을 기반으로 종합적으로 분석하여 환자 질병의 발현 및 진행 정도를 예측할 수 있어 질병 진행 예측의 정확성을 향상시킬 수 있다.
도 1은 본 발명의 실시예에 따른 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템의 개략도이다.
도 2는 데이터 전처리 과정의 개략도이다.
도 3은 앙상블 모델의 개략도이다.
도 4는 Logistic Classification 모델의 개략도이다.
도 5는 CNN(convolution neural network) 모델의 개략도이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참고부호를 붙였다.
본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 층, 막, 영역, 판 등의 부분이 다른 부분 "위에" 있다고 할 경우, 이는 다른 부분 "바로 위에" 있는 경우뿐만 아니라 그 중간에 또 다른 부분이 있는 경우도 포함한다. 반대로 층, 막, 영역, 판 등의 부분이 다른 부분 "아래에" 있다고 할 경우, 이는 다른 부분 "바로 아래에" 있는 경우뿐만 아니라 그 중간에 또 다른 부분이 있는 경우도 포함한다.
딥러닝(Deep Learning)에 대한 이해를 위해 머신러닝(Machine Learning)의 이해가 필요하다. 머신러닝(Machine Learning)이란 인공지능(AI)의 한 분야로 데이터로부터 배울 수 있는 시스템을 개발하고 연구하는 것으로 예측분석(Predictive Analytics)을 지원한다. Arthur Samuel은 “머신러닝은 컴퓨터에게 배울 수 있는 능력, 즉 코드로 정의하지 않은 동작을 실행하는 능력에 대한 연구분야”라고 정의하였으며, Tom Mitchell은 “머신러닝이란 어떠한 태스크(T)에 대한 꾸준한 경험(E)을 통하여 그 태스크(T)에 대한 성능(P)를 높이는 컴퓨터프로그램(알고리즘)을 연구하는 것이다”라고 정의하였다.
많이 알려진 알파고는 실제적으로 딥러닝 알고리즘을 통해 수많은 기보를 학습하였으며, 많은 바둑프로그램과 프로기사들과 대국을 통해서 그 기량을 높여 나갈 수 있었다.
딥러닝(Deep Learning)이란 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 머신러닝 알고리즘의 집합으로 정의되며, 큰틀에서 사람의 사고방식을 컴퓨터에게 가르치는 머신러닝의 한 분야라고 이야기 할 수 있다. 즉, 딥러닝은 심층적(Deep) 머신러닝(Machine Learning)이라 할 수 있다.
딥러닝 알고리즘에는 심층 신경망 (Deep Neural Network, DNN), 합성곱 신경망(Convolutional Neural Network, CNN), 순환 신경망(Recurrent Neural Network, RNN), 제한 볼츠만 머신 (Restricted Boltzmann Machine, RBM), 심층 신뢰 신경망 (Deep Belief Network, DBN), 심층 Q-네트워크 (Deep Q-Networks) 등의 알고리즘들이 있으며 이미지/영상 인식, 음성인식, 자연어 처리 등에서 인상적인 성과를 내고 있다.
도 1에 도시한 바와 같이, 본 발명의 딥러닝 기반 다중 의료데이터를 통한 질병의 진행 예측 분석 시스템(100)은 데이터 수집부(110), 데이터 전처리부(120), 머신러닝부(130) 및 딥러닝 예측부(140)를 포함할 수 있다.
데이터 수집부(110)는 환자의 병리 정보와 영상 정보를 포함한 다중 의료데이터를 수집하여 저장하기 위한 것으로, 데이터 수집부(110)는 환자 정보, 임상정보, 진단정보, 유전체 정보, 메타게놈 정보 및 영상 정보를 포함할 수 있다.
환자 정보는 환자에게서 수신한 설문지, 환자의 영양상태, 투약하고 있는 약물 정보, 신체정보(신장/체중/혈압/혈당/과거 병리이력 등) 등을 포함할 수 있다. 환자 정보는 환자의 병리 경과 및 원인을 분석하기 위한 기초 자료로 활용되며, 특히 체중의 변화나 혈압의 변화는 질병 진행과 관련성이 있어 환자로부터 주기적으로 수집되어야 한다.
임상정보는 혈액 정보 및 혈액의 분석으로부터 도출된 혈액 실험 정보 등을 포함할 수 있다. 더불어 환자의 임상정보는 채혈시 환자의 체온이나 맥박, 심전도 등의 추가적인 정보도 수집하여 관리할 수 있다.
진단정보는 과거 병리 진단 결과 및 진단 결과를 기반으로 환자에게 투여된 약물 정보, 수술이나 진료 정보 등을 포함할 수 있다. 특히 암 환자의 경우 암의 진단 결과와 이 결과를 통해 투여된 항암제 정보가 수집되어 저장될 수 있다. 암 환자의 경우 항암제의 감수성에 대한 분석 정보도 포함되어야 한다.
유전체 정보는 환자로부터 채혈된 혈액의 유전체 분석 결과를 포함하며, 단일염기다형성(SNPs; Single nucleotide polymorphism) 정보와 전장유전체 관련 분석(GWAS; Genom-Wide Association Study) 정보를 포함할 수 있다. SNP는 사람의 염기서열 평균 200~300bp마다 하나씩 존재하는 단일염기서열의 다형성을 말하는 것으로, 단일염기다형성이 존재하여 개인적 차이와 질병에 대한 감수성의 차이를 보일 것이라는 가정하에 질병 감수성이나 치료 반응 차이의 원인을 규명하는 연구에 활용될 수 있다. SNP 연구는 대립 유전자의 빈도가 흔하고 유전적인 효과가 상대적으로 작은 질병 관련 유전자를 찾는데 활용되고, 전장유전체 SNP(Whole genome SNP) 검사는 DNA 염기서열 변이 중 이미 흔하게 변이가 일어나는 곳만을 선택하여 칩의 형태로 제작하고 질병과 관련성을 보는 것으로, 최근에는 약 100만개의 SNP를 질병관련 연구에 적용하는 전장유전체 관련분석이 보편화되고 있다.
메타게놈 정보는 혈액, 소변, 대변 등의 샘플에서 유전자를 추출하고 그 유전자를 분석한 결과로, 질병마다 다르게 나타나는 마이크로비옴(microbiome)의 분포를 통해 질병을 진단하는 데 활용된다. 메타게놈은 미생물의 순수 분리 및 배양 단계에 의존하지 않고 시료에서 직접 DNA를 추출하여 혼합된 DNA를 분석하는 메타게노믹스(metagenomics) 연구로부터 등장하였다. 미생물 유전자 분석은 최근 급속히 발달하고 있는 차세대 염기서열 분석(Next Generation Sequencing, NGS)에 힘입어 특정 미생물 군집 내에 존재하는 유전자들의 전체 염기서열에 대한 정보를 얻는 것이 가능해졌다.
영상 정보는 환자의 내시경 이미지, CT 및 MRI 이미지 등을 포함하며, 특히 재발 가능성이나 전이 가능성이 높은 암 병리 이력을 갖는 환자들은 주기적인 영상 정보를 수집하여 저장할 수 있다. 이와 같은 영상 정보는 촬영시 환자의 자세의 영향을 받을 수 있다. 즉, 주기적인 영상 정보 촬영 시 자세의 변화가 크게 발생하게 되면 환부의 이미지의 정밀도가 낮아질 수 있는 바, 재발/전이암 환자의 경우 영상 정보의 정확성을 높이기 위해 촬영시 자세 정보를 추가적으로 저장할 수도 있다.
도 2에 도시한 바와 같이, 데이터 전처리부(120)는 다중 의료데이터를 대체(imputation) 및 정규화(normalization)하여 전처리하기 위한 것이다.
다중 의료데이터에 기계학습을 적용하기 앞서 데이터의 전처리 과정은 필수적으로, 다중 의료데이터는 multi-layer perceptron과 같은 딥러닝(deep learning) 기법을 통해 전처리 과정이 진행된다. 다중 의료데이터의 전처리 과정은 크게 대체(imputation)와 정규화(normalization) 과정으로 나눌 수 있다.
대체(imputation)는 데이터의 missing value들을 메꾸어 주는 방법이다. 대부분의 데이터는 missing value(손실값)가 포함되어 있다. 하나의 특성(feature)에서 대부분의 값이 missing value라면 feature를 버리면 되지만, 그렇지 않다면 missing value를 채워 줌으로써 정보의 손실을 막을 수 있다.
정규화(normalization)는 기계학습을 적용하기 바로 직전에 해주는 전처리 단계이다. 기계학습에 적용되는 다중 의료데이터들은 적게는 수십에서 많게는 수만 가지의 특성(feature)들이 존재한다. 하지만 각각의 특성들은 스케일(scale)이 다 다를 수 있다(예를 들면 신장, 체중 등). 그러므로 특성 값들을 정규화하여 같은 스케일(scale)로 만들어 줄 필요가 있다. 또한 딥러닝 알고리즘들은 정규화를 하였을 때 최적화(optimization) 과정에서 함정(local minima)에 빠질 확률이 더 감소될 수 있다.
데이터 전처리부(120)는 다음의 단계를 통해 다중 의료데이터의 전처리를 진행한다.
우선, 다중 의료데이터에 대해 이상치 검출(Outlier Detection)을 수행한다.
이상치(Outlier)란 관측된 데이터의 범위에서 많이 벗어난 값으로, 주변의 다른 값에 비해 비정상적으로 높거나 낮아 데이터의 전체적인 본질을 흐리는 값을 말한다. 이러한 이상치는 데이터 분석 과정에서 가장 먼저 처리해야 하는 것으로, 이상치 제거 과정이 없으면 합리적인 결정경계를 도출해내는데 많은 문제가 생긴다. 이상치 제거는 의학적인 기준과, 통계학적인 방법 및 데이터 마이닝 방법론에 의해 수행된다. 의학적인 기준은 일반적인 신체 상태의 기준 범위를 벗어난 값들을 제거하는 것이고, 통계학적인 방법은 마하라노비스 거리(Mahalanobis Distance; 학습표본의 평균에서 지나치게 벗어난 값은 높은 마하라노비스 거리를 가짐)를 통해 이상치를 제거하는 것이고, 데이터 마이닝 방법론은 K-평균 군집화(K-means Clustering)을 통해 이상치를 제거한다.
다음으로, 다중 의료데이터의 특성(feature)에 대한 대체(imputation)를 수행한다. Imputation의 방법은 여러가지가 존재한다. 다음은 여러 imputation 방법 중 일부로서, 본 실시예에서는 특성(feature)의 평균값으로 missing value들을 메꾸는 Continuous feature나 새로운 카테고리를 만드는 Categorical feature 중 어느 하나 또는 양자 모두를 적용할 수 있다.
1)Continuous feature:
Feature의 평균값으로 채우기
다른 feature의 값을 이용하여 regression을 통한 값 채우기
다른 data로부터 random하게 selection하여 채우기
2)Categorical feature:
Feature의 mode로 채우기
Categorical feature내의 새로운 category 만들기
다음으로, 차원의 저주(Curse of Dimensionality)를 해결하기 위한 차원 축소(Dimensionality Reduction)를 실시한다. 데이터의 차원을 N이라고 한다면, N이 커질수록 데이터 공간의 크기가 기하급수적으로 증가하기 때문에 동일한 개수의 데이터의 밀도는 차원이 증가할수록 희박해진다. 따라서 차원이 증가할수록 모델의 추정에 필요한 instance의 개수가 기하급수적으로 증가하게 되어 차원의 저주에 빠지게 된다. 이를 해소하기 위해 다중 의료데이터에 대하여 차원 축소를 실시하게 된다. 다음은 여러 차원 축소 방법 중 일부로서, 본 실시예에서는
데이터의 분포를 가장 잘 표현하는 성분, 즉 데이터들의 분산이 가장 큰 방향 벡터를 찾는 주성분 분석(PCA), 데이터의 분포를 학습하여 분리를 최적화하는 결정경계를 만들어 데이터를 분류하는 선형 판별 분석(LDA), 비음수 행렬을 통계적으로 분석하는 비음수 행렬 인수분해 분석(NMF) 중 어느 하나 또는 모두를 적용할 수 있다.
이에 대한 기술로 차원 축소 방법에 대한 기술은 다음과 같다.
PCA(Principal Component Analysis) : 변수들의 전체 분산을 최대한 설명하는 소수의 주성분을 통해 분석한다. 고차원 데이터의 최대 분산 방향을 찾아 새로운 공간에 저차원으로 투영하며, 이때 데이터의 구조를 최대한 유지하며 서로 상관관계가 있는 변수들 사이의 복잡한 구조를 좀 더 간편하게 변환할 수 있다.
LDA(Latent Dirichlet allocation) : PCA가 최적 표현을 위해 최대 분산을 찾아 차원을 축소했다면, LDA는 최적 분류를 위해 분별 정보를 최대한 유지시키면서 차원을 축소하는 방법이다.
NMF(Non-negative Matrix Factorization) : 비지도학습 기반의 독립특성 추출을 위한 알고리즘으로, 전체 행렬이 음수가 아닌 특성과 가중치를 반환한다. 이러한 음수가 아닌 행렬들의 성질은 이 행렬을 더 쉽게 분해 또는 분석할 수 있게 한다.
다음으로, 상술한 정규화(normalization)를 실시하여 다중 의료데이터의 전처리가 완료되게 된다.
머신러닝부(130)는 기계학습을 이용하여 다중 의료데이터에서 중요인자를 선별하기 위한 것으로, 적어도 2개 이상의 기계학습 모델을 사용하여 다중 의료데이터에 대한 기계학습을 실시하고 앙상블 모델(ensemble learning)을 사용하여 가장 정확도가 높은 학습 결과인 중요인자를 선별한다. 본 실시예의 머신러닝부(130)는 다양한 기계학습 모델 중, Logistic Regression 모델, SVM 모델, Random Forest 모델 및 Neural Network 모델을 활용하여 다중 의료데이터를 기계학습할 수 있으며, 머신러닝부(130)에 적용되는 기계학습 모델은 다양하게 변형될 수 있다.
Logistic Regression은 머신러닝 분야에서 전통적으로 classification, regression 문제에 널리 사용되는 모델들 중 하나이다. Logistic Regression은 지금까지 암 및 질병 발생을 예측하는데 널리 쓰여왔으며 준수한 성능을 보여주고 있다. Logistic Regression에 사용될 Feature Selection를 고를 때는 변수들 간의 Multicollinearity를 바탕으로 했으며, test of interaction을 통해 p-value < 0.05 이하인 feature들은 제외한다.
SVM은 1979에 Vapnik에 의해 처음 고안된 이후, 여러 모델 이 사용되었는데, 본 실시예에서는 SVM 모델 가운데 Chang과 Lin이 소개한 LIBSVM을 사용하였다. PCA를 거쳐서 생성된 데이터를 SVM 모델에 입력한 뒤, 출력 값을 얻어 이를 특성 곡선(ROC커브)로 출력하였다. 특성 곡선(receiver operating curve, ROC) 분석을 시행하여 가장 정확하게 구별해 낼 수 있는 식별치(discriminating value)를 구하고, 각 모델별 민감도, 특이도, 정확도를 얻었다. 카이제곱검정(Chi square test)을 사용하여 1.5T와 3.0T의 민감도, 특이도, 정확도를 비교하였다. 통계적으로 p 값이 0.05 미만인 경우 임상적으로 유의한 차이가 있다고 보았다.
Random Forest는 Bagging 계열의 가장 대표적이고 예측력 좋은 알고리즘으로 예측결과의 정확성(Low Bias)은 개별 예측모형에 쓰이는 알고리즘(decision tree)의 평균값으로 유지되는 반면 낮은 안정성(High Variance)은 Central Limit Theorem에 의해 낮아진다(N개의 Decision Tree가 투표를 통해 결정하는 방식).
Neural Network는 단순히 연구자의 직관으로 뉴럴 네트워크의 Hidden node, Hidden layer의 크기를 결정하는 것은 굉장히 위험하므로, 스스로 학습에 최적화된 네트워크를 구성할 수 있도록 진화신경망을 사용하였다. 분류 문제를 위한 진화신경망의 파라미터는 돌연변이율을 0.1, 교차율을 0.3으로 하고, 결합에 사용한 개체의 수를 3으로 하였다. 진화는 최대 200세대까지 반복한 후 멈추었다. 신경망의 입력 노드 수는 특징의 수에 맞게 30이며, 출력 노드의 수는 2이며 암인지 아닌지를 출력한다. 은닉 노드의 수는 최대 5개로 설정하였다. 신경망의 부분학습과 완전학습을 위해 오차 역전화(BP; Back-Propagation)를 사용하였으며 BP의 학습률은 0.1로 설정하였다. 실험결과 비교적 단순한 방법인 출력값 평균 거리 측정과 가중치 평균 결합 방법을 진행하였다. 유전자 알고리즘은 적자생존의 생물학 원리에 바탕을 둔 최적화 기법중의 하나로 자연계의 생명체 중 환경에 잘 적응한 개체가 좀 더 많은 자손을 남길 수 있다는 자연 선택 과정과 유전자의 변화를 통해서 좋은 방향으로 발전해 나간다는 자연 진화의 과정인 자연계의 유전자 메커니즘에 바탕을 둔 탐색 알고리즘이다. 즉, 자연계의 유전과 진화 메커니즘을 공학적으로 모델화함으로써 잠재적인 해의 후보들을 모아 군집을 형성한 뒤 서로 간의 교배 혹은 변이를 통해서 최적 해를 찾는 계산 모델이다. 유전자 알고리즘은 목적함수에 따라 유전자와 군집의 크기를 결정하여 초기 유전자 집단을 생성한 후 적합도를 계산하고 이를 바탕으로 다음 세대를 결정한다. 재생산 과정은 선택(Selection), 교배(Crossover), 돌연변이 (Mutation) 연산자를 이용하여 해 집단의 다양성을 높이고 적합도가 큰 개체의 발생을 기대하며, 적합도가 기준 이상이 될 경우 선택을 하게 된다.
또한 머신러닝부(130)는 도 3을 참조로, 상술한 복수개의 기계학습 모델의 예측 결과들을 이용해 더 나은 값을 예측하기 위해, 즉 가장 정확도가 높은 중요인자를 선별하기 위해 앙상블 모델(ensemble learning)을 사용한다. 본 실시예의 앙상블 모델은 투표 기반 분류기 모델(Voting Classifier)이 사용될 수 있다. 투표 기반 분류기 모델은 학습 단계에서 복수의 기계학습 알고리즘 모델을 학습시킨 후 이러한 모델들을 이용해 새로운 데이터에 대해 각 모델의 예측값을 가지고 다수결 투표를 통해 최종 결과를 예측하는 방법을 말한다. 이러한 투표 기반 앙상블 모델을 사용함으로써 개별 기계학습 모델 중 가장 성능이 좋은 모델보다 정확도가 더 향상될 수 있다. 본 실시예에서는 투표 기반 앙상블 모델을 적용하였으나, 이와 달리 랜덤 포레스트(Random Forest)나 배깅(Bagging)이나 페이스팅(Pasting)을 활용한 앙상블 모델을 적용할 수도 있다.
딥러닝 예측부(140)는 머신러닝부(130)에서 도출된 중요인자와 의료영상정보를 딥러닝 모델을 활용하여 매칭시킴으로써 질병의 진행을 예측하기 위한 것으로, 의료영상정보를 학습하는 Logistic Classification 모델 및 CNN 모델을 포함한다.
도 4를 참조로, Logistic Classification은 의료영상(MRI,CT,X-ray)의 ROI값(Region Of Interest)을 추출한 데이터를 통해 logistic regression classification을 수행한다. 도 5를 참조로, 의료영상은 Logistic classification으로 잘 예측할 수 있지만, 모든 데이터를 예측하기에는 부족한 부분을 보안하기 위해 image classification에 특화된 CNN(convolution neural network)을 수행한다.
이와 같은 딥러닝 예측부(140)는 의료영상정보를 학습하는 딥러닝 모델과 머신러닝부(130)로부터 도출된 중요인자를 상호 매칭하여 질병의 진행 여부를 예측할 수 있다. 예를 들면 영상학습 딥러닝 모델을 사용하여 학습된 암 재발 또는 암 전이 특성과 머신러닝부(130)의 중요인자, 예를 들면 유전체 정보나 메타게놈 정보를 상호 매칭하여 암 재발이나 암 전이 가능성을 더 정확하게 예측할 수 있다.
또한, 딥러닝 예측부(140)는 전이학습 모델(Transfer learning)을 더 포함할 수 있다. 전이학습이란 딥러닝을 feature extractor로만 사용하고 그렇게 추출한 피처를 가지고 다른 모델을 학습하는 것을 말하며, 기존의 만들어진 모델을 사용하여 새로운 모델을 만들시 학습을 빠르게 하며 예측을 더 높이는 방법이다. 일반적으로 VGG,ResNet,gooGleNet등 이미 이러한 사전에 학습이 완료된 모델(Pre-Training Model)을 가지고 원하는 학습에 미세 조정 즉, 작은변화를 이용하여 학습시키는 방법이다. 본 실시예의 전이학습 모델은 CNN 알고리즘을 적용하여 만든 유명한 모델인 GoogleNet Inception v3 모델에 마지막 layer를 바꾼 후, 전이학습을 수행한다. 이미 1.28 million image들로 학습이 되어있으므로, image의 edge, curve등과 같은 feature를 detect 할 수 있게끔 학습이 되어 있으므로, data가 적을 경우 overfitting을 방지 하기 위하여 전이학습을 수행할 수도 있다.
또한, 딥러닝 예측부(140)는 예측 결과의 정확성을 높이기 위하여 CNN 및 Inception v3 transfer learning에서 overfitting을 방지하기 위해 image 당 10개의 augmented image를 생성하고, 이 augmented image들의 probability의 평균을 계산하여 정확도(Accuracy)를 측정한다.
상술한 바와 같은 본 발명의 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템(100)은 과거로부터 축적된 환자의 다중 의료데이터 및 의료 영상정보를 딥러닝 모델을 기반으로 종합적으로 분석하여 환자 질병의 발현 및 진행 정도를 예측할 수 있어 질병 진행 예측의 정확성을 향상시킬 수 있다.
100 : 질병 진행 예측 분석 시스템
110 : 데이터 수집부
120 : 데이터 전처리부
130 : 머신러닝부
140 : 딥러닝 예측부

Claims (5)

  1. 환자의 병리 정보와 영상 정보를 포함한 다중 의료데이터를 수집하여 저장하는 데이터 수집부;
    상기 다중 의료데이터를 손실값을 채우는 대체 과정과 상기 다중 의료데이터의 각 특성들의 스케일을 같게하는 정규화 과정을 수행하여 전처리하기 위한 데이터 전처리부;
    상기 다중 의료데이터의 환자 병리 정보에 대한 기계학습을 진행하여 상기 다중 의료데이터에서 중요인자를 선별하는 머신러닝부; 및
    상기 머신러닝부의 상기 중요인자와 상기 영상정보를 딥러닝 모델링하여 매칭시켜 질병의 진행을 예측하는 딥러닝 예측부;를 포함하는 딥러닝 기반 다중 의료데이터를 통한 질병의 진행 예측 분석 시스템.
  2. 청구항 1에 있어서,
    상기 데이터 수집부는,
    환자에게서 수신한 설문지, 환자의 영양상태, 투약하고 있는 약물 정보, 신체정보(신장/체중/혈압/혈당/과거 병리이력 등)를 포함하는 환자 정보; 혈액 정보 및 혈액의 분석으로부터 도출된 혈액 실험 정보를 포함하는 임상정보; 과거 병리 진단 결과 및 진단 결과를 기반으로 환자에게 투여된 약물 정보, 수술이나 진료 정보를 포함하는 진단정보; 환자로부터 채혈된 혈액의 유전체 분석 결과인 단일염기다형성(SNPs; Single nucleotide polymorphism) 정보와 전장유전체 관련 분석(GWAS; Genom-Wide Association Study) 정보를 포함하는 유전체 정보; 혈액, 소변, 대변 등의 샘플에서 유전자를 추출하고 그 유전자를 분석한 결과를 포함하는 메타게놈 정보 및 환자의 내시경 이미지, CT 및 MRI 이미지 등을 포함하는 영상 정보;를 포함하는 것을 특징으로 하는 딥러닝 기반 다중 의료데이터를 통한 질병의 진행 예측 분석 시스템.
  3. 청구항 2에 있어서,
    상기 데이터 전처리부는,
    상기 다중 의료데이터의 특성의 평균값으로 손실값을 채우는 Continuous feature나 새로운 카테고리를 만드는 Categorical feature 중 어느 하나의 방법을 수행하여 대체 과정을 수행하는 것을 특징으로 하는 딥러닝 기반 다중 의료데이터를 통한 질병의 진행 예측 분석 시스템.
  4. 청구항 3에 있어서,
    상기 머신러닝부는, Logistic Regression 모델, SVM 모델, Random Forest 모델 및 Neural Network 모델을 활용하여 상기 다중 의료데이터를 기계학습한 후, 앙상블 모델을 사용하여 가장 정확도가 높은 학습 결과인 중요인자를 선별하는 것을 특징으로 하는 딥러닝 기반 다중 의료데이터를 통한 질병의 진행 예측 분석 시스템.
  5. 청구항 4에 있어서,
    상기 딥러닝 예측부는,
    Logistic Classification 모델 및 CNN 모델(convolution neural network)로 상기 영상정보를 딥러닝 모델링하는 것을 특징으로 하는 딥러닝 기반 다중 의료데이터를 통한 질병의 진행 예측 분석 시스템.

KR1020190158047A 2019-12-02 2019-12-02 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템 KR20210068713A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190158047A KR20210068713A (ko) 2019-12-02 2019-12-02 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190158047A KR20210068713A (ko) 2019-12-02 2019-12-02 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템

Publications (1)

Publication Number Publication Date
KR20210068713A true KR20210068713A (ko) 2021-06-10

Family

ID=76377993

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190158047A KR20210068713A (ko) 2019-12-02 2019-12-02 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템

Country Status (1)

Country Link
KR (1) KR20210068713A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023008699A1 (ko) * 2021-07-30 2023-02-02 주식회사 루닛 환자에 대한 해석가능한 예측 결과를 생성하는 방법 및 시스템
KR20230021797A (ko) 2021-08-06 2023-02-14 고려대학교 산학협력단 딥러닝 기반 유전자형-표현형 데이터 분석 및 질병 진단 방법 및 장치
WO2023048437A1 (ko) * 2021-09-25 2023-03-30 주식회사 메디컬에이아이 의료 데이터를 기반으로 하는 딥러닝 모델의 학습 및 추론 방법, 프로그램 및 장치
WO2023149653A1 (ko) * 2022-02-07 2023-08-10 주식회사 히포티앤씨 다중지표 기반 인공지능을 이용한 자폐증 진단 시스템
WO2024096307A1 (ko) * 2022-11-01 2024-05-10 재단법인 아산사회복지재단 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101932009B1 (ko) 2017-12-29 2018-12-24 (주)제이엘케이인스펙션 다중 객체 검출을 위한 영상 처리 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101932009B1 (ko) 2017-12-29 2018-12-24 (주)제이엘케이인스펙션 다중 객체 검출을 위한 영상 처리 장치 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023008699A1 (ko) * 2021-07-30 2023-02-02 주식회사 루닛 환자에 대한 해석가능한 예측 결과를 생성하는 방법 및 시스템
KR20230021797A (ko) 2021-08-06 2023-02-14 고려대학교 산학협력단 딥러닝 기반 유전자형-표현형 데이터 분석 및 질병 진단 방법 및 장치
WO2023048437A1 (ko) * 2021-09-25 2023-03-30 주식회사 메디컬에이아이 의료 데이터를 기반으로 하는 딥러닝 모델의 학습 및 추론 방법, 프로그램 및 장치
WO2023149653A1 (ko) * 2022-02-07 2023-08-10 주식회사 히포티앤씨 다중지표 기반 인공지능을 이용한 자폐증 진단 시스템
WO2024096307A1 (ko) * 2022-11-01 2024-05-10 재단법인 아산사회복지재단 의료 인공지능 모델 동작 방법 및 이를 수행하는 전자 장치

Similar Documents

Publication Publication Date Title
Jayatilake et al. Involvement of machine learning tools in healthcare decision making
Chakraborty et al. Novel enhanced-grey wolf optimization hybrid machine learning technique for biomedical data computation
KR20210068713A (ko) 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템
Supriya et al. Machine learning approach on healthcare big data: a review
Zare et al. Scoring relevancy of features based on combinatorial analysis of Lasso with application to lymphoma diagnosis
Karthik et al. Predicting bipolar disorder and schizophrenia based on non-overlapping genetic phenotypes using deep neural network
Gupta et al. A comparative analysis of deep learning approaches for predicting breast cancer survivability
CN111612278A (zh) 生命状态预测方法、装置、电子设备及存储介质
Sekaran et al. Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning
Zafar et al. Reviewing methods of deep learning for intelligent healthcare systems in genomics and biomedicine
Bruno et al. Using heatmaps for deep learning based disease classification
Bhardwaj et al. Computational biology in the lens of CNN
Chandra et al. Comparative analysis of machine learning techniques with principal component analysis on kidney and heart disease
Mukherji et al. Recent landscape of deep learning intervention and consecutive clustering on biomedical diagnosis
Wassan et al. Machine learning in bioinformatics
Sujatha et al. Comparative study on dimensionality reduction for disease diagnosis using fuzzy classifier
Urgiriye et al. Review of machine learning algorithm on cancer data set
Ragunthar et al. Classification of gene expression data with optimized feature selection
Bilalović et al. Robust breast cancer classification based on GA optimized ANN and ANFIS-voting structures
Biswas et al. Multiclass classification models for Personalized Medicine prediction based on patients Genetic Variants
Muthalaly Using deep learning to predict the mortality of leukemia patients
Uma et al. A novel Swarm Optimized Clustering based genetic algorithm for medical decision support system
Choudhuri et al. A Review of Computational Learning and IoT Applications to High‐Throughput Array‐Based Sequencing and Medical Imaging Data in Drug Discovery and Other Health Care Systems
Madanan et al. Designing an artificial intelligence model using machine learning algorithms and applying it to hematology for the detection and classification of various stages of blood cancer
Coşkun et al. Evaluation of performance of classification algorithms in prediction of heart failure disease