KR102147847B1 - 질환 진단 보조를 위한 데이터 분석 방법 및 시스템 - Google Patents

질환 진단 보조를 위한 데이터 분석 방법 및 시스템 Download PDF

Info

Publication number
KR102147847B1
KR102147847B1 KR1020180150599A KR20180150599A KR102147847B1 KR 102147847 B1 KR102147847 B1 KR 102147847B1 KR 1020180150599 A KR1020180150599 A KR 1020180150599A KR 20180150599 A KR20180150599 A KR 20180150599A KR 102147847 B1 KR102147847 B1 KR 102147847B1
Authority
KR
South Korea
Prior art keywords
disease
data
similarity
probability
calculating
Prior art date
Application number
KR1020180150599A
Other languages
English (en)
Other versions
KR20200064453A (ko
Inventor
정성원
김소라
Original Assignee
가천대학교 산학협력단
(의료)길의료재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단, (의료)길의료재단 filed Critical 가천대학교 산학협력단
Priority to KR1020180150599A priority Critical patent/KR102147847B1/ko
Priority to PCT/KR2018/016983 priority patent/WO2020111378A1/ko
Priority to US16/879,584 priority patent/US20200286622A1/en
Publication of KR20200064453A publication Critical patent/KR20200064453A/ko
Application granted granted Critical
Publication of KR102147847B1 publication Critical patent/KR102147847B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves 
    • A61B5/055Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves  involving electronic [EMR] or nuclear [NMR] magnetic resonance, e.g. magnetic resonance imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Pure & Applied Mathematics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Genetics & Genomics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

본 발명은 질환 진단 보조를 위한 데이터 분석 방법 및 시스템에 관한 것으로, 더욱 상세하게는 질환 진단을 보조하기 위하여 임상, MRI 이미지, 유전체 데이터의 통합적 분석을 통한 분석 결과를 제공할 수 있는 기술 및 시스템에 관한 것으로 대상자의 의료 데이터를 입력받는 단계; 상기 의료 데이터를 이용해 질환 관련 데이터를 선별하는 단계; 및 선별된 상기 질환 관련 데이터에 따른 상기 질환 확률을 계산하는 단계;를 포함하고, 상기 의료 데이터는 임상 기록, 유전자 및 유전자 변이 및 MRI를 포함하는 구성을 개시한다.

Description

질환 진단 보조를 위한 데이터 분석 방법 및 시스템{DATA ANALYSIS METHODS AND SYSTEMS FOR DIAGNOSIS AIDS}
본 발명은 질환 진단 보조를 위한 데이터 분석 방법 및 시스템에 관한 것으로, 더욱 상세하게는 질환 진단을 보조하기 위하여 임상, MRI 이미지, 유전체 데이터의 통합적 분석을 통한 분석 결과를 제공할 수 있는 기술 및 시스템에 관한 것이다.
질환의 진단을 보조하기 위한 기존 시스템들은 임상데이터(Phenotypic data), 유전체 데이터(Genotypic data)를 필요로 하고,해당 데이터들을 분석 후 환자의 후보 질환명을 추천해주는 서비스를 제공한다. 해당 서비스를 제공하는 시스템들의 예로는 Phenomizer, GenIO, PhenoVar 등을 들 수 있다.
Phenomizer는 환자의 임상데이터와 공개된 질병 관련 데이터베이스(Database)에서 제공된 임상데이터와의 유사도를 계산하여 환자의 임상데이터와 높은 연관성을 보이는 후보 질환 리스트(Candidate disease list)를 보여주는 기능을 제공한다. 하지만 Phenomizer의 경우에는 환자의 임상데이터만을 활용하여 후보 질환 리스트를 예측하는 기능만을 제공하기 때문에, 실제 환자의 유전데이터 등을 함께 활용하기 위해서는 추가적인 도구나 시스템 이용이 필요한 단점이 있다.
GenIO는 희귀 유전적 질환 (rare genetic diseases)에 대한 진단 과정을 도와주기 위해 개발된 시스템으로 임상 데이터와 유전체 데이터 분석 후 환자의 질병 유발 변이(Disease-causing variant)를 찾아주는 서비스를 제공한다. GenIO는 해당 서비스를 제공하기 위해 Phenolyzer라는 프로그램을 사용하여 입력된 임상데이터와 연관성 있는 유전자 리스트(Candidate gene list)를 얻어 해당 정보를 기반으로 입력 환자의 유전체 데이터를 필터링(Filtering) 및 유전 방식(Mode of Inheritance), 병원성(Pathogenicity) 등에 따른 분류(Classification) 작업을 통해 환자의 질병의 원인이 되는 변이를 찾는다. 하지만, 해당 시스템의 경우에는 분석 및 사용 가능한 유전체 데이터 크기가 200MB로 제한적이고 데이터 분석을 하기 위해서는 임상 및 유전체 데이터를 모두를 필수적으로 요구한다. 또한, 분석 결과로 환자의 질병의 원인이 되는 변이의 리스트가 제공되기 때문에 실제 진단 시 활용하기 위해서는 변이(Variant)에 대한 정보를 찾아봐야 하는 추가적인 노력이 필요한 단점이 있다.
PhenoVar는 역시 의료계 종사자들이 환자의 진단 시 도움을 주려는 목적을 달성하기 위해 만들어진 시스템으로, 해당 시스템은 임상 및 유전체 데이터를 이용하여 실제 환자의 후보 질환을 예측해주는 서비스를 제공한다. PhenoVar는 임상 및 유전체 데이터별 특정 질환과의 연관성을 수치화하는 알고리즘(algorithm)을 사용하여 각 데이터 종류(Type)에 따라 특정 질환과의 연관성을 나타내는 가중치 값(Weight)을 계산하고, 계산된 가중치를 통합하여 계산된 최종적인 질환 별 진단 점수(Diagnostic score)를 기반으로 후보 질환 리스트를 제공한다. 하지만 PhenoVar는 몇 가지 단점이 존재한다. 환자의 임상데이터 입력 시 PhenoVar에서 제공하는 몇 개의 하위 카테고리에 속하는 정보만 입력할 수 있도록 설계되어 있어 사용 가능한 임상데이터가 제한적이다. 또한, 임상 데이터 분석 시 사용되는 로컬데이터베이스(Local database)는 대부분이 실제 환자 데이터 기반이 아닌 공개된 질병 관련 데이터베이스를 기반으로 가공된 환자의 임상데이터(Simulated patient's phenotypic data)라는 한계점을 가지고있다. 또한, 해당 시스템은 GenIO 시스템과 마찬가지로 임상 및 유전체 데이터를 필수적으로 요구하는 단점을 가지고 있다.
상술한 바와 같이, 기존 시스템들은 대부분 임상 및 유전체 데이터를 사용한 분석 방법을 기반으로 개발되어 있고 사용 가능한 입력 데이터 형식 또는 크기에 대한 제한이 존재한다. 그럴 뿐만 아니라, 대부분의 기존 시스템은 분석 시 필요한 특정 데이터 형식의 입력을 필수적으로 요구한다. 이러한 문제로 인해, 실제 임상 환경에서 임상 의사들이 해당 시스템을 환자 진단을 위한 보조적 도구로써 사용하기에 불편함을 느낀다. 예를 들어, 환자의 후보 질환 등에 대한 직접적인 증거가 아닌 간접적인 증거를 결과물로 제시하거나 기존 시스템이 지원하지 않는 다른 형태의 데이터를 추가로 고려하여 진단 시 활용하고자 할 때에는 해당 데이터를 처리하기 위한 추가적 노력과 도구의 활용이 필요하다. 또한, 시스템이 요구하는 데이터가 없는 경우 역시 해당 시스템이 제공하는 서비스를 이용할 수 없는 등의 문제가 있다.
따라서 환자의 정밀 진단을 보조를 위한 서비스를 제공하는 시스템은 입력 데이터 형식에 대한 특별한 제한이 없고 다양한 입력 데이터에 따른 통합 분석 방법을 포함하는 통합적 분석 방법을 포함하는 시스템이 필요하다.
삭제
한국 등록특허 10-1693504 한국 등록특허 10-1795662
따라서, 본 발명은 상기한 바와 같은 문제점을 해결하기 위한 것으로서, 질환 진단 보조를 위한 유전체, 임상, MRI 데이터를 통합할 수 있는 분석 방법을 포함하는 시스템을 개발 및 구축하는 것을 목적으로 한다.
상기한 문제를 해결하기 위한 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 방법은 대상자의 의료 데이터를 입력받는 단계; 상기 의료 데이터를 이용해 질환 관련 데이터를 선별하는 단계; 및 선별된 상기 질환 관련 데이터에 따른 상기 질환 확률을 계산하는 단계;를 포함하고, 상기 의료 데이터는 임상 기록, 유전자 및 유전자 변이 및 MRI를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 데이터 선별 단계는, 상기 대상자의 전체 유전자 및 유전자 변이 중 질환 연관 가능성이 있는 유전체 변이를 선별하는 단계;를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 확률 계산 단계는, 선별된 상기 유전자 및 유전자 변이가 질환 관련 정보일 확률을 계산하는 단계; 상기 확률 계산 단계는, 상기 확률에 따른 선별된 상기 유전자의 평균 순위를 계산하는 단계; 및 대상자의 질환 후보 유전자의 개수에 따른 질환 유전자 확률을 계산하는 단계; 를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 데이터 선별 단계는, 상기 MRI의 체적값, 백질 손상 체적값, 피질 및 피질 하 영역 T2 고신호 손상 체적 값 및 수초화 지표를 선별하고, 상기 확률 계산 단계는, 선별된 상기 데이터와 기 저장된 질환별 대상 케이스의 MRI의 데이터를 벡터 기반 유사도 백분위로 계산하는 단계; 및 상기 유사도 백분위의 평균 값을 계산하는 단계;를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 확률 계산 단계는, 상기 임상 정보의 페노타입(Phenotype) 기반 유사도를 평가하는 단계; 및 상기 유사도에 따른 질환 확률을 계산하는 단계;를 더 포함할 수 있다.
상기한 문제를 해결하기 위한 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 시스템은 대상자의 의료 데이터를 입력받는 입력부; 상기 의료 데이터를 이용해 질환 관련 데이터를 선별하는 선별부; 및 선별된 상기 질환 관련 데이터에 따른 상기 질환 확률을 계산하는 질환검출부;를 포함하고, 상기 의료 데이터는 임상 기록, 유전자 및 유전자 변이 및 MRI를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 선별부는, 상기 대상자의 전체 유전자 및 유전자 변이 중 질환 연관 가능성이 있는 유전체 변이를 선별할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 확률 계산 단계는, 선별된 상기 유전자 및 유전자 변이가 질환 관련 정보일 확률을 계산하는 단계; 상기 질환검출부는, 상기 확률에 따른 선별된 상기 유전자의 평균 순위를 계산하고, 상기 대상자의 질환 후보 유전자의 개수에 따른 질환 유전자 확률을 계산할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 선별부는, 상기 MRI의 체적값, 백질 손상 체적값, 피질 및 피질 하 영역 T2 고신호 손상 체적 값 및 수초화 지표를 선별하고, 상기 질환선별부는, 선별된 상기 데이터와 기 저장된 질환별 대상 케이스의 MRI의 데이터를 벡터 기반 유사도 백분위로 계산하고, 상기 유사도 백분위의 평균 값을 계산할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 질환검출부는, 상기 임상 정보를 페노타입(Phenotype) 기반 유사도를 평가하고, 상기 유사도에 따른 질환 확률을 계산할 수 있다.
본 발명에 따르면, 질환의 코호트의 데이터와 실제 기존 연구를 통해 만들어진 공개된 데이터베이스를 활용 가능한 통합 데이터베이스를 제공하고 이를 기반으로 다양한 형식의 환자 데이터 분석 시 활용할 수 있는 데이터를 얻을 수 있다.
또한, 실제 다양한 형식의 환자 데이터를 정량적으로 평가하는 방법을 포함하고 여러 형식의 환자 데이터를 선택적으로 결합하여 분석할 수 있는 분석 방법을 제공한다.
상기 기술된 데이터베이스와 분석 방법에 따라, 다양한 임상 환경에서 사용 가능 시스템을 제공할 수 있다. 또한, 해당 시스템은 다양한 환자 데이터를 기반으로 임상 의사들의 환자 진단 시간을 단축할 수 있는 서비스를 제공한다.
한편, 본 발명의 효과는 이상에서 언급한 효과들로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 효과들이 포함될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 시스템의 개념도이다.
도 2는 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 시스템의 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 유전체 데이터를 이용한 질환 확률 계산의 예이다.
도 4는 본 발명의 일 실시 예에 따른 임상 데이터를 이용한 질환 확률 계산의 예이다.
도 5는 본 발명의 일 실시 예에 따른 MRI데이터를 이용한 질환 확률 계산의 예이다.
도 6은 본 발명의 일 실시 예에 따른 페노타입(phenotype) 기반 유사도 분석에 결과의 예시다.
도 7은 본 발명의 일 실시 예에 따른 페노타입(phenotype) 기반 유사도 분석에 결과의 예시다.
도 8은 본 발명의 일 실시 예에 따른 페노타입(phenotype) 기반 유사도 분석에 결과의 예시다.
도 9는 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 방법의 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 '질환 진단 보조를 위한 데이터 분석 방법 및 시스템'을 상세하게 설명한다. 설명하는 실시 예들은 본 발명의 기술 사상을 당업자가 용이하게 이해할 수 있도록 제공되는 것으로 이에 의해 본 발명이 한정되지 않는다. 또한, 첨부된 도면에 표현된 사항들은 본 발명의 실시 예들을 쉽게 설명하기 위해 도식화된 도면으로 실제로 구현되는 형태와 상이할 수 있다.
한편, 이하에서 표현되는 각 구성부는 본 발명을 구현하기 위한 예일 뿐이다. 따라서, 본 발명의 다른 구현에서는 본 발명의 사상 및 범위를 벗어나지 않는 범위에서 다른 구성부가 사용될 수 있다.
또한, 각 구성부는 순전히 하드웨어 또는 소프트웨어의 구성만으로 구현될 수도 있지만, 동일 기능을 수행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합으로 구현될 수도 있다. 또한, 하나의 하드웨어 또는 소프트웨어에 의해 둘 이상의 구성부들이 함께 구현될 수도 있다.
또한, 어떤 구성요소들을 '포함'한다는 표현은, '개방형'의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.
도 1은 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 시스템의 개념도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 시스템은 뇌 신경계 발달장애 질환으로 진단된 실제 환자의 임상, 유전체, MRI 데이터와 발달장애와 관련된 정보를 제공하는 질병과 관련된 공개된 데이터베이스를 참조하여 생성한 별도의 데이터 베이스를 사용함으로써, 몇몇 기존 시스템이 가지는 분석 시 활용하는 데이터베이스의 한계점을 해결할 수 있다.
유전체, 임상, MRI 데이터의 독립적 분석 방법과 해당 과정에 의해서 나온 결과를 통합하여 분석하는 방법을 발명함으로써, 기존 시스템들이 가지는 제한된 입력 데이터 형식 문제를 해결할 수 있다.
해당 시스템은 기능은 뇌 신경계 발달장애 질환을 앓을 것으로 예상되는 환자의 정확인 진단 과정에 보조적 역할을 수행하기 위한 서비스를 제공하기 개발되었고, 해당 서비스를 위해 유전체, 임상, MRI 데이터 등을 분석하여 해당 환자의 후보 질환 리스트를 탐색하는 기능을 제공한다.
상기 기술된 시스템은 도 1과 같이 해당 기능을 수행하기 위한 데이터 분석 프로그램 및 기능 수행 시 필요한 데이터를 저장 및 관리하기 위한 자체적으로 만든 데이터베이스(Curated database)와 자체적으로 개발한 데이터 분석방법으로 구현된 프로그램을 포함할 수 있다.
상기 기술된 시스템의 데이터베이스는 환자의 후보 질환을 탐색 기능 수행 시 필요한 뇌 신경계 발달장애 질환과 연관된 질병의 임상 및 원인 유전자 등에 대한 증거(Evidence) 정보를 저장하기 위해 2종류 데이터가 포함되어 있다. 하나는 공개된 데이터베이스인 HPO (Human Phenotype Ontololgy), DDG2P(The Development Disorder Genotype - Phenotype Database)를 기반으로 만든 Evidence의 데이터를 저장하는 데이터와 실제 뇌 신경계 발달장애 진단 환자의 데이터인 임상, 유전체, MRI 데이터를 기반으로 만든 Evidence를 포함할 수 있다.
공개된 데이터베이스를 기반으로 만든 Evidence 정보에서 사용되는 HPO는 인간의 질병에서 발생하는 임상적 데이터 표준화를 위한 어휘를 제공하기 프로젝트로 해당 프로젝트의 일환으로 표준화된 임상 데이터, 임상 데이터와 연관된 질병에 관한 정보를 포함하는 데이터베이스를 제공하며, 상기 기술된 데이터 베이스에 포함된 HPO는 기본적인 표준화된 용어로 저장된 임상 데이터, 유전적 질병에 대한 정보를 포함하는 OMIM 기반으로 하는 뇌 신경계 발달장애 질환과 연관된 임상 및 유전자 정보를 포함한다. 그럴 뿐만 아니라, 임상 데이터의 차이를 정량적으로 보기 위해 ontology 기반 유사도 평가를 활용하기 위한 여러 정보를 함께 추가하여 저장한다. DDG2P는 영국의 발달장애 아동과 부모의 유전체 및 임상 데이터를 분석 및 연구를 하기 위한 DDD (Deciphering Developmental Disorders) 프로젝트의 일환으로 발달장애 질환 별 질환 유발 유전자 및 실제 진단 환자에서 관찰되는 HPO 용어로 표준화된 형태의 임상 데이터를 제공할 수 있다, 상기 기술된 데이터베이스는 DDG2P에서 제공되는 뇌 신경계 발달 질환에 대한 임상 데이터, 질환 유발 유전자, 유전 방식 등의 데이터를 포함할 수 있다.
상기 기술된 데이터베이스는 실제 뇌 신경계 질환 진단 환자의 임상, 유전체, MRI 데이터를 포함할 수 있다. 실제 환자의 임상 데이터는 진단명, 질병 원인 유전자, 변이 정보, HPO 용어로 작성된 환자의 관찰된 임상적 이상 증상 등을 포함할 수 있다. 실제 환자의 유전체 데이터는 환자의 질병의 원인이 되는 변이정보를 포함하고, 실제 환자의 MRI 데이터는 아주 특징적인 몇몇 경우를 제외하면 HPO로 서술하기에 정확하고 세부적인 설명을 할 수 없는 구조로 인해 데이터 처리 및 분석과정을 통해 도출된 뇌 구조 특징(feature)에 대한 정보를 저장할 수 있다.
상기 기술된 데이터베이스는 입력된 하나 이상의 데이터를 고려한 분석 결과를 기반으로 환자의 후보 질환을 탐색하기 위해 입력 가능한 데이터별 evidence 데이터와 환자의 분석결과를 저장하는 부분을 포함할 수 있다.
상기 기술된 시스템의 데이터 분석 프로그램은 임상 의사가 입력한 환자의 데이터를 분석 가능한 형태로 분석 및 저장하는 기능과 분석된 각 데이터의 결과를 결합하여 분석하기 위한 기능을 포함할 수 있다.
환자의 정밀진단을 보조하기 위한 기존 시스템들은 주로 사용하는 유전체 및 임상 데이터를 활용하여 분석하는 방법이 적용되어 있다. 또한, 해당 분석 방법을 사용하기 위해서는 시스템별 활용 데이터를 필수적으로 요구하거나 특정 데이터 입력 시 필수적으로 요구하는 제한점이 있는 등의 문제가 있다. 하지만, 상기 기술된 데이터 분석 프로그램은 기존 시스템이 사용하는 데이터 외 MRI 데이터를 추가로 활용할 수 있는 분석 방법과 이러한 분석결과를 결합하여 분석할 수 있는 기능을 포함하고 각 데이터 형식을 처리 및 분석하기 위한 기능들이 모듈화되어 있다. 이러한 분석 방법과 구조는 기존 시스템과 차별적인 장점이 있다. 상기 기술된 분석 방법 및 구조를 가진 데이터 분석 프로그램은 기존 시스템과 다르게 의료계 종사자들이 환자 진단 시 활용 가능한 데이터를 직접 선택할 수 있고, 선택된 데이터에 따른 데이터 처리 및 분석 방법을 제공함으로써, 상기 기술된 시스템은 다양한 임상 환경에서 사용될 수 있는 서비스를 제공할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 시스템의 블록도이다.
도 2를 참조하면, 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 시스템은 입력부(210), 선별부(220) 및 질환검출부(230)를 포함할 수 있다.
상기 입력부(210)는 검사 대상자의 의료 데이터를 입력 받을 수 있다. 상기 입력부(210)가 입력 받는 의료 데이터는 임상 기록, 유전자 및 유전자 변이 및 MRI를 포함할 수 있다. 상기 데이터는 컴퓨터로 판독할 수 있는 형태로 입력될 수 있다. 상기 입력부(210)는 상기 의료데이터를 상기 선별부(220) 또는 상기 질환검출부(230)에서 처리할 수 있는 형태로 전처리하여 전달할 수 있다.
상기 선별부(220)는 상기 입력부(210)에서 상기 의료 데이터를 입력 받을 수 있다. 상기 선별부(220)는 상기 의료 데이터를 이용해 질환 관련 데이터를 선별할 수 있다. 상기 의료 데이터에 포함된 정보를 선별할 수 있다.
상기 선별부(220)는 상기 대상자가 가진 전체 유전자 변이 중, 질환 연관 가능성이 있는 변이를 선별할 수 있다. 상기 선별부(220)는 MRI 데이터에서 상기 대상자의 뇌영역 체적값, 백질 손상 체적값, 피질 및 피질 하 영역 T2 고신호 손상 체적 값 및 수초화 지표를 선별할 수 있다.
상기 질환검출부(230)는 선별된 상기 질환 관련 데이터에 따른 상기 질환 확률을 계산할 수 있다. 상기 질환검출부(230)는 상기 질환 확률에 따른 예상 질환을 제공할 수 있다. 상기 질환검출부(230)는 복수의 선별된 상기 질환 관련 데이터의 종류에 따라 각각 질환 확률을 계산하고, 계산된 복수의 상기 질환 확률을 고려하여 질환 확률 또는 예상 질환을 결정할 수 있다.
상기 질환검출부(230)는 선별된 상기 유전체 변이들에 대하여, 변이 vj 가 pathogenic 변이일 확률을 pathogenicity 예측 도구들의 결과를 종합하여 P(vj = pathogenic 변이 | vj 의 pathogenicity 예측 결과)로 계산할 수 있다.
상기 질환검출부(230)는 유전자 gi 의 변이가 vj 가 여러개인 경우, 이 유전자 gi 의 질환 유전자 확률은 다음과 같이 각 변이들의 pathogenic 변이 확률의 최대값으로 구할 수 있다. P(gi = 질환 유전자) = max(P(vj = pathogenic 변이 | vj 의 pathogenicity 예측 결과))
상기 질환검출부(230)는 대상자가 가진 질환 후보 유전자들에 대하여, 각 유전자 gi 의 질환 유전자 확률 P(gi = 질환 유전자) 의 평균 순위 ri 를 구할 수 있다.
상기 질환검출부(230)는 대상자가 가진 질환 후보 유전자들이 N 개인 경우, 유전자 gi 의 정규화된 질환 유전자 확률 PN(gi = 질환 유전자) 를 다음 수학식 1과 같이 계산할 수 있다.
[수학식 1]
1 - (ri - 1)/max(ri)
상기 질환검출부(230)는 Evidence 에 명시된 질환 유전자가 gk 인 경우, 이 Evidence 의 질환 유전자는 gk 임이 명백하므로 정규화된 질환 유전자 확률은 1로 가정할 수 있다. 이 때 환자와 이 Evidence 사이의 유전자 변이 기반 유사도를 min(PN(gk = 질환 유전자)과 같이 결정할 수 있다. 1) 단 이것은 환자가 가진 유전자 gk 변이의 allelic status 및 유전 패턴이 Evidence 에 명시된 그것과 일치하는 경우이며, 그렇지 않은 경우 유사도는 0으로 결정할 수 있다. 만약 대상자와의 비교 대상이 질환 유전자가 확인되지 않은 다른 환자 B인 경우, 두 환자 사이의 gk 관점에서의 유전자 변이 유사도는 다음과 같이 결정할 수 있다. min(PN(gk = 질환 유전자), PN B(gk = 질환 유전자)).
상기 질환검출부(230)는 질환 연관 가능성이 있는 변이는 다음의 모든 기준을 만족시킬 수 있다. 1) Exonic 혹은 splicing 영역에 위치, 2) Synonymous 변이가 아니어야 함, 3) 알려진 모든 population cohort 에서 발견 빈도 0.5% 미만. OMIM 에 질환 유발 유전자로 등재되어 있어야 하며, 이 때 변이의 allelic status 는 해당 질환의 유전 패턴과 일관되어야 한다.
상기 질환검출부(230)는 각 변이의 pathogenic 확률을 계산하기 위하여, ClinVar 의 pathogenicity 정보 및 다음의 pathogenicity prediction 도구들의 예측 정보를 활용할 수 있다. SIFT, Polyphen2, LRT, MutationTaster, MutationAssessor, FATHMM, RadialSVM, LR
상기 질환검출부(230)는 변이 vj 가 pathogenic 변이일 확률 P(vj = pathogenic 변이 | vj 의 pathogenicity 예측 결과) 는 각 예측 도구 t 에 의해 구해진 Pt(vj = pathogenic 변이 | t 에 의한 vj 의 pathogenicity 예측 결과) 평균으로 구할 수 있다. 이 때 Pt(vj = pathogenic 변이 | t 에 의한 vj 의 pathogenicity 예측 결과) 는 Bayes 정리에 의하여 다음과 같이 계산할 수 있다. Pt(vj = pathogenic 변이 | t 에 의한 vj 의 pathogenicity 예측 결과) = Pt(t 에 의한 vj 의 pathogenicity 예측 결과 | vj = pathogenic 변이)xP(vj = pathogenic 변이)/P(t 에 의한 vj 의 pathogenicity 예측 결과)
상기 계산에 사용하기 위한 Pt(t 에 의한 vj 의 pathogenicity 예측 결과 | vj = pathogenic 변이) 는 서로 차이가 있는 ClinVar 의 두 버전 중 보다 오래 된 버전을 예측으로 가정하고 최근 버전을 실제 변이 정보로 가정하고 계산될 수 있다.
상기 P(vj = pathogenic 변이) 와 P(t 에 의한 vj 의 pathogenicity 예측 결과)는 기 저장된 총 127례의 환자 whole exome-sequencing 데이터에 존재하는 69,499,850 개의 유전자 변이로부터 추정될 수 있다.
상기 질환검출부(230)는 상기 임상 정보를 페노타입(phenotype) 기반 유사도 평가를 통해 유사도를 계산할 수 있다. 상기 질환검출부(230)는 상기 유사도를 이용해 질환 확률을 계산할 수 있다. 상기 질환검출부(230)는 상기 유사도 또는 질환 확률을 이용해 예상 질환을 제시할 수 있다.
상기 질환검출부(230)는 소프트웨어 라이브러리로 확보하고 있는 7가지의 phenotype 용어-to-용어 유사도 평가 기법 Resnick, Lin, Jiang-Conrath, relevance, information coefficient, graph IC, Wang 과, 용어집합-to-용어집합 유사도 계산에 사용 가능한 유사도 5가지의 유사도 결합 기법 Max, Mean, funSimMax, FunSimAvg, BMA 의 조합에 따라 총 35가지의 phenotype 용어리스트-to-용어리스트 유사도 계산 기법을 통해 유사도를 계산할 수 있다.
상기 질환검출부(230)는 35가지 유사도 평가 기법 중 최적의 기법을 발견하기 위하여, 환자 151례의 질환 정보 및 phenotype 을 바탕으로, leave-one-out cross-validation 방식으로 각 케이스의 다른 케이스들에 대한 phenotype 유사도를 계산하여 동일 질환의 순위를 평가할 수 있다.
상기 질환검출부(230)는 상기 대상자의 MRI 데이터와 비교 대상 케이스들의 MRI 데이터들로부터 선별된 상기 질환 관련 데이터 분류 각각의 벡터 기반 유사도의 백분위를 계산하고, 각 분류별로 계산된 유사도 백분위의 평균값을 구할 수 있다.
상기 질환검출부(230)는 계산된 유사도 백분위의 평균값을 기반으로 입력 케이스와 비교 대상 데이터들 사이의 유사도 평균순위 ri를 구하며, 이를 기반으로 정규화된 유사도 값 1 - (ri - 1)/max(ri)을 최종적으로 계산할 수 있다.
상기 질환검출부(230)는 상기 과정들을 통하여 각 데이터 타입별로 입력 환자 데이터와 플랫폼 내 참조 데이터(예를 들어, SNU cohort 혹은 DDD 프로젝트 데이터) 각각과의 정규화된 유사도 값을 계산 할 수 있다.
상기 질환검출부(230)는 각 데이터 타입별 유사도를 모두 혹은 일부를 선별하여 조합하고자 하는 경우, 해당 정규화된 유사도 값들의 평균으로 종합 유사도를 계산할 수 있다.
도 3은 본 발명의 일 실시 예에 따른 유전체 데이터를 이용한 질환 확률 계산의 예이다.
도 3을 참조하면, 시스템 분석 과정을 통해 환자의 유전체 데이터 분석을 진행할 수 있다. 상기 기술된 데이터 분석 프로그램은 대부분 기존 시스템과 마찬가지로 유전체 변이를 저장하기 위해 사용되는 표준 파일 형식인 VCF (Variant Call Format) 파일을 입력으로 사용할 수 있다.
상기 기술된 프로그램은 입력 VCF 파일을 사용하여 변이에 대한 정보를 추가하기 위한 Annotation 작업을 수행하며, 이때 ANNOVAR 프로그램을 사용하여 변이의 Gene, Population 수준의 Frequency, variant 영역, Pathogenic scores 등에 대한 정보를 포함하는 탭(Tab)으로 구분된 텍스트(TEXT) 형식의 결과 파일을 생산할 수 있다. 이후, Annotation 과정에 의해 생성된 결과 파일을 이용하여 추가적인 정보 annotation 작업과 filtering 작업을 수행할 수 있다. 상기 기술된 Filtering & Tiering 과정은 ANNOVAR 프로그램이 지원하지 않는 질환 유전자 관련 데이터베이스인 OMIM와 변이의 유전자형(Genotype)을 처리하기 위해 자체 개발된 다양한 논리식 및 논리식의 조합을 통한 유전자 변이 필터링과 VCF 형식이 아닌 텍스트 파일을 기반으로 Annotation 기능을 제공하는 소프트웨어 GVAF (Germline Variant Annotation Filtering)을 사용할 수 있고, 해당 소프트웨어를 이용하여 변이의 유전자 정보를 기반으로 질병 정보를 추가로 Annotation 할 수 있다. 질환 유발 변이를 찾기 위해 여러 Population 수준에서 데이터베이스의 Frequency 0.05% 미만으로 관찰된 변이, exon 혹은 splicing 영역에 존재하는 변이의 조건을 만족하는 변이를 필터링하여 추출할 수 있다.
필터링 과정에 의해 추출된 변이들은 직접적인 발병 원인이 될 수 있는 변이 인지, 기존 질병 유발 유전자의 변이 인지의 분류 조건에 따라 분류될 수 있다.
Expected pathogenic variants 과정은 Filtering & Tiering 과정에 의해 선별된 변이의 pathogenic score 계산 후, 질병의 원인이 될 수 있는 변이를 찾는다. Expected pathogenic variants의 과정에 의해서 나온 정보를 포함하여 다양한 변이 정보를 기반으로 상기 기술된 데이터베이스에 저장된 Evidence와의 유사도 계산함으로써, 입력 환자와 Evidence 사이의 유전체 데이터에 대한 정량적 평가를 수행할 수 있다.
도 4는 본 발명의 일 실시 예에 따른 임상 데이터를 이용한 질환 확률 계산의 예이다.
도 4를 참조하면, 상기 기술된 데이터 분석 프로그램에서 임상 데이터는 시스템 분석 과정을 통해 환자의 임상 데이터 분석을 진행하고, 이때 임상 데이터의 입력은 표준화된 임상 용어체계인 HPO에 속한 HPO Term name을 사용하여 입력할 수 있다.
상기 기술된 프로그램은 임상데이터를 온톨로지(Ontology) 기반 유사도 평가 방법을 사용하여 분석하고 있으며, 해당 유사도 평가 방법은 용어의 관계에 대한 정보를 활용하여 용어-용어의 유사도를 구할 수 있다. 이를 위해, 입력된 임상데이터를 분석하기 위한 전처리 과정을 수행한다. 전처리 과정은 실제 임상데이터의 정량적 평가를 위해 데이터 형태를 변경해주며, 해당 과정은 HPO Term name 형태로 입력된 데이터를 HPO Term ID형태로 변경하는 과정이다. 예를 들어 입력된 임상데이터가 “Focal seizures, Global developmental delay, Intellectual disability” 일 때, 전처리과정을 통해 변환되는 해당 HPO Term name에 해당하는 HPO Term ID인 “0007359, 0001263, 0001249”로 변경한다. HPO Term ID로 변경된 임상데이터는 자체 개발된 프로그램으로 사용하여 상기 기술된 데이터베이스에 저장된 Evidence의 임상데이터와의 유사도 계산함으로써, 입력 환자와 Evidence 사이의 임상데이터에 대한 정량적 평가를 수행한다.
도 5는 본 발명의 일 실시 예에 따른 MRI데이터를 이용한 질환 확률 계산의 예이다.
도 5를 참조하면, 상기 시스템에서 MRI 데이터 처리 및 분석을 진행하는 프로그램은 환자의 MRI 데이터와 데이터베이스에 저장된 Evidence와의 유사도를 정량적으로 평가하는 방법을 사용하여 분석할 수 있다. 이를 위해, 입력된 MRI 데이터를 분석하기 위한 전처리 과정을 수행한다. 일반적으로, MRI 데이터들은 임상현장의 여러 제약과 필요성에 의해 이러한 고해상도 영상이 아닌 비교적 저해상도인 2D 영상이 획득될 가능성이 크고, 이러한 2D 영상들은 2D 영상은 실제 뇌의 구조적 속성을 도출 시 얻을 수 있는 정보가 많지 않은 한계점이 있다. 이를 해결하기 위해, 전처리 과정은 기존 2D 영상을 고해상도의 3D 영상으로 변환해주는 전처리 과정을 수행할 수 있다.
전처리과정에 의해 얻은 영상데이터는 뇌 신경계 질환 및 뇌 기능적 손상과 관련된 직접적인 속성값을 도출하기 위한 소프트웨어를 사용하여 정상 회질 (gray matter) 및 백질(white matter)의 체적(volume), 손상 백질(white matter lesion)의 체적, 피질 두께 (cortical thickness), 피질 면적 및 곡률 (cortical area and curvature) 등의 데이터를 도출하고 이렇게 도출된 속성값을 상기 기술된 데이터베이스에 실제 환자의 MRI 데이터와의 유사도를 계산함으로써, 입력 환자와 Evidence 사이의 MRI 데이터에 대한 정량적 평가를 수행한다.
상기 분석 방법은 데이터 분석 과정에 의해 평가된 결과를 결합하는 방법을 포함하고 있으며, 해당 분석 방법을 활용하여 다양한 환자 데이터를 선택적으로 사용할 수 있다.
도 6은 본 발명의 일 실시 예에 따른 페노타입(phenotype) 기반 유사도 분석에 결과의 예시다.
도 6은 환자 151례의 정보를 기반으로 leave-one-out cross-validation 에 의한 35가지 phenotype 유사도 평가 방법의 정확도 평가 결과이다. 도 6에서 평가된 35가지 방법이 151례에 대하여 보인 동일 질환 순위 분포를 확인할 수 있다. Relevance 방법과 FunSimAvg 유사도 결합 기법을 조합 한 경우 가장 높은 순위 평균을 보이는 것을 알 수 있다. 이를 기반으로 개발된 플랫폼에서 입력 환자를 서울대병원 코호트와 비교하는 경우 Relevance 방법과 FunSimAvg 기법의 조합으로 phenotype 유사도를 평가하는 것으로 결정할 수 있다.
도 7은 본 발명의 일 실시 예에 따른 페노타입(phenotype) 기반 유사도 분석에 결과의 예시다.
도 7을 참조하면, 질환 계열별 비교 대상 케이스 수에 따른 phenotype 유사도 평가의 경향을 확인할 수 있다. 도 7은 Relevance 방법과 FunSimAvg 유사도 결합 기법을 조합 한 경우 동일 질환의 유사도 순위를 각 질환 계열별로 구분하여 평균을 구하고 계열별 질환에 존재했던 환자 데이터의 수를 나타낸 것이다. 상대적으로 많은 환자 케이스가 확보된 Rett syndrome, spastic paraplegia, epileptic encephalopathy, Leigh syndrome에서 보다 높은 순위를 보일 수 있다. 이를 통해 보다 많은 환자 사례를 참조 데이터로 확보하는 것이 질환 예측 성능 향상에 도움이 됨을 알 수 있다.
도 8은 본 발명의 일 실시 예에 따른 페노타입(phenotype) 기반 유사도 분석에 결과의 예시다.
도 8을 참조하면, 151례 환자의 phenotype을 Deciphering Developmental Disorders (DDD) 프로젝트에서 보고한 질환별 phenotype 과 비교하여 35가지 phenotype 유사도 기법을 평가한 결과이다.
도 8은 151례의 phenotype을 DDD 프로젝트에서 보고한 질환별 phenotype 정보와 비교하는 경우, 35가지 phenotype 유사도 평가 기법 각각이 동일 질환에 대하여 평가하는 순위의 분포를 나타낸 것이다. DDD 프로젝트에서 보고한 phenotype 정보와의 비교에서는 151례 사이에서의 leave-one-out cross-validation에서 우수하게 나타났던 relevance measure 와는 다른 Resnick 기법의 사용이 더 우수한 것으로 평가되었다. 151례 환자 데이터 각각에 동반된 phenotype 정보의 경우 각 환자가 보인 phenotype 만이 기록되어 있으나, DDD 프로젝트에서 보고한 질환별 phenotype 은 각 질환에 대하여 보고된 바 있는 phenotype을 망라하여 기록한 차이가 있으므로 적합한 평가 방법에 차이가 생길 수 있다. 상기한 결과를 바탕으로, 개발된 플랫폼에서 입력 환자의 phenotype을 DDD 프로젝트 데이터를 참조로 검색하는 경우 Resnick 기법과 FunSimAvg 방법의 조합을 phenotype 유사도 평가 기법으로 채용할 수 있다. 각 방법에 의해 계산된 유사도를 기반으로 입력 케이스와 비교 대상 데이터들 사이의 유사도 평균순위 ri를 구하며, 이를 기반으로 정규화된 유사도 값 1 - (ri - 1)/max(ri)을 최종적으로 계산할 수 있다. 는 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 방법 및 시스템은 기존의 기술인 Exomiser과 PhenoVar가 각각 56%, 89%의 정확도를 보일 때 95.6%의 정확도로 우월한 효과를 가지는 것을 확인했다.
도 9는 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 방법의 흐름도이다.
도 9를 참조하면, 본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 방법은 대상자의 의료 데이터를 입력받는 단계(S910)를 포함할 수 있다.
S910 단계에서, 상기 입력부(210)는 검사 대상자의 의료 데이터를 입력 받을 수 있다. 상기 입력부(210)가 입력 받는 의료 데이터는 임상 기록, 유전자 및 유전자 변이 및 MRI를 포함할 수 있다. 상기 데이터는 컴퓨터로 판독할 수 있는 형태로 입력될 수 있다. 상기 입력부(210)는 상기 의료데이터를 상기 선별부(220) 또는 상기 질환검출부(230)에서 처리할 수 있는 형태로 전처리하여 전달할 수 있다.
본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 방법은 상기 의료 데이터를 이용해 질환 관련 데이터를 선별하는 단계(S920)를 포함할 수 있다.
S920 단계에서, 상기 선별부(220)는 상기 입력부(210)에서 상기 의료 데이터를 입력 받을 수 있다. 상기 선별부(220)는 상기 의료 데이터를 이용해 질환 관련 데이터를 선별할 수 있다. 상기 의료 데이터에 포함된 정보를 선별할 수 있다.
상기 선별부(220)는 상기 대상자가 가진 전체 유전자 변이 중, 질환 연관 가능성이 있는 변이를 선별할 수 있다. 상기 선별부(220)는 MRI 데이터에서 상기 대상자의 뇌영역 체적값, 백질 손상 체적값, 피질 및 피질 하 영역 T2 고신호 손상 체적 값 및 수초화 지표를 선별할 수 있다.
본 발명의 일 실시 예에 따른 질환 진단 보조를 위한 데이터 분석 방법은 선별된 상기 질환 관련 데이터에 따른 상기 질환 확률을 계산하는 단계(S930)를 포함할 수 있다.
S930 단계에서, 상기 질환검출부(230)는 선별된 상기 질환 관련 데이터에 따른 상기 질환 확률을 계산할 수 있다. 상기 질환검출부(230)는 상기 질환 확률에 따른 예상 질환을 제공할 수 있다. 상기 질환검출부(230)는 복수의 선별된 상기 질환 관련 데이터의 종류에 따라 각각 질환 확률을 계산하고, 계산된 복수의 상기 질환 확률을 고려하여 질환 확률 또는 예상 질환을 결정할 수 있다.
상기 질환검출부(230)는 선별된 상기 유전체 변이들에 대하여, 변이 vj 가 pathogenic 변이일 확률을 pathogenicity 예측 도구들의 결과를 종합하여 P(vj = pathogenic 변이 | vj 의 pathogenicity 예측 결과)로 계산할 수 있다.
상기 질환검출부(230)는 유전자 gi 의 변이가 vj 가 여러개인 경우, 이 유전자 gi 의 질환 유전자 확률은 다음과 같이 각 변이들의 pathogenic 변이 확률의 최대값으로 구할 수 있다. P(gi = 질환 유전자) = max(P(vj = pathogenic 변이 | vj 의 pathogenicity 예측 결과))
상기 질환검출부(230)는 대상자가 가진 질환 후보 유전자들에 대하여, 각 유전자 gi 의 질환 유전자 확률 P(gi = 질환 유전자) 의 평균 순위 ri 를 구할 수 있다.
상기 질환검출부(230)는 대상자가 가진 질환 후보 유전자들이 N 개인 경우, 유전자 gi 의 정규화된 질환 유전자 확률 PN(gi = 질환 유전자) 를 다음 수학식 1과 같이 계산할 수 있다.
[수학식 1]
1 - (ri - 1)/max(ri)
상기 질환검출부(230)는 Evidence 에 명시된 질환 유전자가 gk 인 경우, 이 Evidence 의 질환 유전자는 gk 임이 명백하므로 정규화된 질환 유전자 확률은 1로 가정할 수 있다. 이 때 환자와 이 Evidence 사이의 유전자 변이 기반 유사도를 min(PN(gk = 질환 유전자)과 같이 결정할 수 있다. 1) 단 이것은 환자가 가진 유전자 gk 변이의 allelic status 및 유전 패턴이 Evidence 에 명시된 그것과 일치하는 경우이며, 그렇지 않은 경우 유사도는 0으로 결정할 수 있다. 만약 대상자와의 비교 대상이 질환 유전자가 확인되지 않은 다른 환자 B인 경우, 두 환자 사이의 gk 관점에서의 유전자 변이 유사도는 다음과 같이 결정할 수 있다. min(PN(gk = 질환 유전자), PN B(gk = 질환 유전자)).
상기 질환검출부(230)는 질환 연관 가능성이 있는 변이는 다음의 모든 기준을 만족시킬 수 있다. 1) Exonic 혹은 splicing 영역에 위치, 2) Synonymous 변이가 아니어야 함, 3) 알려진 모든 population cohort 에서 발견 빈도 0.5% 미만. OMIM 에 질환 유발 유전자로 등재되어 있어야 하며, 이 때 변이의 allelic status 는 해당 질환의 유전 패턴과 일관되어야 한다.
상기 질환검출부(230)는 각 변이의 pathogenic 확률을 계산하기 위하여, ClinVar 의 pathogenicity 정보 및 다음의 pathogenicity prediction 도구들의 예측 정보를 활용할 수 있다. SIFT, Polyphen2, LRT, MutationTaster, MutationAssessor, FATHMM, RadialSVM, LR
상기 질환검출부(230)는 변이 vj 가 pathogenic 변이일 확률 P(vj = pathogenic 변이 | vj 의 pathogenicity 예측 결과) 는 각 예측 도구 t 에 의해 구해진 Pt(vj = pathogenic 변이 | t 에 의한 vj 의 pathogenicity 예측 결과) 평균으로 구할 수 있다. 이 때 Pt(vj = pathogenic 변이 | t 에 의한 vj 의 pathogenicity 예측 결과) 는 Bayes 정리에 의하여 다음과 같이 계산할 수 있다. Pt(vj = pathogenic 변이 | t 에 의한 vj 의 pathogenicity 예측 결과) = Pt(t 에 의한 vj 의 pathogenicity 예측 결과 | vj = pathogenic 변이)xP(vj = pathogenic 변이)/P(t 에 의한 vj 의 pathogenicity 예측 결과)
상기 계산에 사용하기 위한 Pt(t 에 의한 vj 의 pathogenicity 예측 결과 | vj = pathogenic 변이) 는 서로 차이가 있는 ClinVar 의 두 버전 중 보다 오래 된 버전을 예측으로 가정하고 최근 버전을 실제 변이 정보로 가정하고 계산될 수 있다.
상기 P(vj = pathogenic 변이) 와 P(t 에 의한 vj 의 pathogenicity 예측 결과)는 기 저장된 총 127례의 환자 whole exome-sequencing 데이터에 존재하는 69,499,850 개의 유전자 변이로부터 추정될 수 있다.
상기 질환검출부(230)는 상기 임상 정보를 페노타입(phenotype) 기반 유사도 평가를 통해 유사도를 계산할 수 있다. 상기 질환검출부(230)는 상기 유사도를 이용해 질환 확률을 계산할 수 있다. 상기 질환검출부(230)는 상기 유사도 또는 질환 확률을 이용해 예상 질환을 제시할 수 있다.
상기 질환검출부(230)는 소프트웨어 라이브러리로 확보하고 있는 7가지의 phenotype 용어-to-용어 유사도 평가 기법 Resnick, Lin, Jiang-Conrath, relevance, information coefficient, graph IC, Wang 과, 용어집합-to-용어집합 유사도 계산에 사용 가능한 유사도 5가지의 유사도 결합 기법 Max, Mean, funSimMax, FunSimAvg, BMA 의 조합에 따라 총 35가지의 phenotype 용어리스트-to-용어리스트 유사도 계산 기법을 통해 유사도를 계산할 수 있다.
상기 질환검출부(230)는 35가지 유사도 평가 기법 중 최적의 기법을 발견하기 위하여, 환자 151례의 질환 정보 및 phenotype 을 바탕으로, leave-one-out cross-validation 방식으로 각 케이스의 다른 케이스들에 대한 phenotype 유사도를 계산하여 동일 질환의 순위를 평가할 수 있다.
상기 질환검출부(230)는 상기 대상자의 MRI 데이터와 비교 대상 케이스들의 MRI 데이터들로부터 선별된 상기 질환 관련 데이터 분류 각각의 벡터 기반 유사도의 백분위를 계산하고, 각 분류별로 계산된 유사도 백분위의 평균값을 구할 수 있다.
상기 질환검출부(230)는 계산된 유사도 백분위의 평균값을 기반으로 입력 케이스와 비교 대상 데이터들 사이의 유사도 평균순위 ri를 구하며, 이를 기반으로 정규화된 유사도 값 1 - (ri - 1)/max(ri)을 최종적으로 계산할 수 있다.
상기 질환검출부(230)는 상기 과정들을 통하여 각 데이터 타입별로 입력 환자 데이터와 플랫폼 내 참조 데이터(예를 들어, SNU cohort 혹은 DDD 프로젝트 데이터) 각각과의 정규화된 유사도 값을 계산 할 수 있다.
상기 질환검출부(230)는 각 데이터 타입별 유사도를 모두 혹은 일부를 선별하여 조합하고자 하는 경우, 해당 정규화된 유사도 값들의 평균으로 종합 유사도를 계산할 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통 상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (10)

  1. 컴퓨터의 프로세서가 대상자의 의료 데이터를 입력받는 단계;
    상기 프로세서가 상기 의료 데이터를 이용해 질환 관련 데이터를 선별하는 단계; 및
    상기 프로세서가 선별된 상기 질환 관련 데이터에 따른 질환 확률을 계산하는 단계;를 포함하고,
    상기 의료 데이터는 임상 기록, 유전자 및 유전자 변이 또는 MRI 중 적어도 2개 이상을 포함하며,

    상기 의료 데이터가 임상 기록인 경우,
    상기 확률 계산 단계는, 상기 프로세서가 상기 임상 기록의 페노타입(Phenotype) 기반 유사도를 평가하는 단계; 및 상기 프로세서가 상기 유사도에 따른 질환 확률을 계산하는 단계;를 더 포함하고,

    상기 의료 데이터가 유전자 및 유전자 변이인 경우,
    상기 데이터 선별 단계는, 상기 대상자의 전체 유전자 및 유전자 변이 중 질환 연관 가능성이 있는 유전체 변이를 선별하는 단계;를 포함하고
    상기 확률 계산 단계는, 상기 프로세서가 선별된 상기 유전자 및 유전자 변이가 질환 관련 정보일 확률을 계산하는 단계; 상기 프로세서가 상기 확률에 따른 선별된 상기 유전자의 평균 순위(ri_1)를 계산하는 단계; 상기 프로세서가 대상자의 질환 후보 유전자의 개수에 따른 질환 유전자 확률(P_1)을 계산하는 단계; 및 상기 질환 유전자 확률(P_1)의 정규화된 확률 (1 - (ri_1 - 1)/max(ri_1))을 계산하는 단계를 포함하고,

    상기 의료 데이터가 MRI 데이터인 경우,
    상기 데이터 선별 단계는, 상기 프로세서가 상기 MRI의 체적값, 백질 손상 체적값, 피질 및 피질 하 영역 T2 고신호 손상 체적 값 및 수초화 지표를 선별하고,
    상기 확률 계산 단계는, 상기 프로세서가 선별된 상기 데이터와 기 저장된 질환별 대상 케이스의 MRI의 데이터를 벡터 기반 유사도 백분위로 계산하는 단계; 상기 프로세서가 상기 유사도 백분위의 평균 값을 계산하는 단계; 및 상기 프로세서가 상기 유사도 백분위의 평균값을 기초로 입력 케이스와 비교 대상 데이터 사이의 유사도 평균순위 ri_2 및 정규화된 유사도 값 1 - (ri_2 - 1)/max(ri_2)을 계산하는 단계를 포함하는 질환 진단 보조를 위한 데이터 분석 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 대상자의 의료 데이터를 입력받는 입력부;
    상기 의료 데이터를 이용해 질환 관련 데이터를 선별하는 선별부; 및
    선별된 상기 질환 관련 데이터에 따른 질환 확률을 계산하는 질환 검출부;를 포함하고,
    상기 의료 데이터는 임상 기록, 유전자 및 유전자 변이, 또는 MRI 중 적어도 2개 이상을 포함하고,
    상기 의료 데이터가 임상 기록인 경우,
    상기 질환 검출부는, 상기 임상 기록의 페노타입(Phenotype) 기반 유사도를 평가하고, 상기 유사도에 따른 질환 확률을 계산하며,

    상기 의료 데이터가 유전자 및 유전자 변이인 경우,
    상기 선별부는, 상기 대상자의 전체 유전자 및 유전자 변이 중 질환 연관 가능성이 있는 유전체 변이를 선별하고,
    상기 질환 검출부는, 선별된 상기 유전자 및 유전자 변이가 질환 관련 정보일 확률을 계산하고, 상기 확률에 따른 선별된 상기 유전자의 평균 순위(ri_1))를 계산하고, 상기 대상자의 질환 후보 유전자의 개수에 따른 질환 유전자 확률(P_1)을 계산하며, 상기 질환 유전자 확률(P_1)의 정규화된 확률 (1 - (ri_1 - 1)/max(ri_1))을 계산하고,

    상기 의료 데이터가 MRI 데이터인 경우,
    상기 선별부는, 상기 MRI의 체적값, 백질 손상 체적값, 피질 및 피질 하 영역 T2 고신호 손상 체적 값 및 수초화 지표를 선별하고,
    상기 질환 검출부는, 선별된 상기 데이터와 기 저장된 질환별 대상 케이스의 MRI의 데이터를 벡터 기반 유사도 백분위로 계산하고, 상기 유사도 백분위의 평균 값을 계산하고, 상기 유사도 백분위의 평균값을 기초로 입력 케이스와 비교 대상 데이터 사이의 유사도 평균순위 ri_2 및 정규화된 유사도 값 1 - (ri_2 - 1)/max(ri_2)을 계산하는 것을 특징으로 하는 질환 진단 보조를 위한 데이터 분석 시스템.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020180150599A 2018-11-29 2018-11-29 질환 진단 보조를 위한 데이터 분석 방법 및 시스템 KR102147847B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020180150599A KR102147847B1 (ko) 2018-11-29 2018-11-29 질환 진단 보조를 위한 데이터 분석 방법 및 시스템
PCT/KR2018/016983 WO2020111378A1 (ko) 2018-11-29 2018-12-31 질환 진단 보조를 위한 데이터 분석 방법 및 시스템
US16/879,584 US20200286622A1 (en) 2018-11-29 2020-05-20 Data analysis methods and systems for diagnosis aids

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180150599A KR102147847B1 (ko) 2018-11-29 2018-11-29 질환 진단 보조를 위한 데이터 분석 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20200064453A KR20200064453A (ko) 2020-06-08
KR102147847B1 true KR102147847B1 (ko) 2020-08-25

Family

ID=70852526

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180150599A KR102147847B1 (ko) 2018-11-29 2018-11-29 질환 진단 보조를 위한 데이터 분석 방법 및 시스템

Country Status (3)

Country Link
US (1) US20200286622A1 (ko)
KR (1) KR102147847B1 (ko)
WO (1) WO2020111378A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230162281A (ko) 2022-05-20 2023-11-28 (주)미소정보기술 의료데이터 객체 인식을 통한 질환 진단 방법 및 질병진단 분산 구조 시스템

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785323A (zh) * 2020-07-07 2020-10-16 上海交通大学医学院附属第九人民医院 一种基于遗传疾病致病基因的分析系统及其应用
WO2023052441A1 (en) * 2021-09-28 2023-04-06 Seqone Method and device for clinical application of a genotypephenotype association atlas
CN114255869B (zh) * 2022-01-26 2022-10-28 深圳市拓普智造科技有限公司 一种医疗大数据云平台
CN115482926B (zh) * 2022-09-20 2024-04-09 浙江大学 知识驱动的罕见病可视化问答式辅助鉴别诊断系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310163A1 (en) * 2012-09-27 2015-10-29 The Children's Mercy Hospital System for genome analysis and genetic disease diagnosis
US20170018080A1 (en) * 2014-04-22 2017-01-19 Hitachi, Ltd. Medical image diagnosis assistance device, magnetic resonance imaging apparatus and medical image diagnosis assistance method
KR101884609B1 (ko) * 2017-05-08 2018-08-02 (주)헬스허브 모듈화된 강화학습을 통한 질병 진단 시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102508971B1 (ko) * 2015-07-22 2023-03-09 주식회사 케이티 질병 위험도 예측 방법 및 이를 수행하는 장치
KR101716039B1 (ko) * 2015-08-07 2017-03-13 원광대학교산학협력단 의료 영상 기반의 질환 진단 정보 산출 방법 및 장치
WO2017049214A1 (en) * 2015-09-18 2017-03-23 Omicia, Inc. Predicting disease burden from genome variants
KR101795662B1 (ko) 2015-11-19 2017-11-13 연세대학교 산학협력단 대사 이상 질환 진단 장치 및 그 방법
KR101693504B1 (ko) 2015-12-28 2017-01-17 (주)신테카바이오 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
US20210343414A1 (en) * 2018-10-22 2021-11-04 The Jackson Laboratory Methods and apparatus for phenotype-driven clinical genomics using a likelihood ratio paradigm

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310163A1 (en) * 2012-09-27 2015-10-29 The Children's Mercy Hospital System for genome analysis and genetic disease diagnosis
US20170018080A1 (en) * 2014-04-22 2017-01-19 Hitachi, Ltd. Medical image diagnosis assistance device, magnetic resonance imaging apparatus and medical image diagnosis assistance method
KR101884609B1 (ko) * 2017-05-08 2018-08-02 (주)헬스허브 모듈화된 강화학습을 통한 질병 진단 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230162281A (ko) 2022-05-20 2023-11-28 (주)미소정보기술 의료데이터 객체 인식을 통한 질환 진단 방법 및 질병진단 분산 구조 시스템

Also Published As

Publication number Publication date
US20200286622A1 (en) 2020-09-10
KR20200064453A (ko) 2020-06-08
WO2020111378A1 (ko) 2020-06-04

Similar Documents

Publication Publication Date Title
KR102147847B1 (ko) 질환 진단 보조를 위한 데이터 분석 방법 및 시스템
Miah et al. Performance comparison of machine learning techniques in identifying dementia from open access clinical datasets
Jin et al. Generalizable, reproducible, and neuroscientifically interpretable imaging biomarkers for Alzheimer's disease
Castro et al. Validation of electronic health record phenotyping of bipolar disorder cases and controls
Zhang et al. Recursive partitioning in the health sciences
US9613187B2 (en) Clinical information processing apparatus, method and program
JP2005276022A (ja) 診断支援システムおよび診断支援方法
Esper et al. Genomic epidemiology of SARS-CoV-2 infection during the initial pandemic wave and association with disease severity
KR101693510B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
Ding et al. Evaluating trajectories of episodic memory in normal cognition and mild cognitive impairment: Results from ADNI
US20210343414A1 (en) Methods and apparatus for phenotype-driven clinical genomics using a likelihood ratio paradigm
US20190147993A1 (en) Clinical report retrieval and/or comparison
Wu et al. Recurrence of idiopathic sudden sensorineural hearing loss: a retrospective cohort study
Dingemans et al. PhenoScore quantifies phenotypic variation for rare genetic diseases by combining facial analysis with other clinical features using a machine-learning framework
Plati et al. Multiple sclerosis severity estimation and progression prediction based on machine learning techniques
Vyas et al. Identifying the presence and severity of dementia by applying interpretable machine learning techniques on structured clinical records
Solomon et al. Perspectives on the future of dysmorphology
Martinez-Torteya et al. Magnetization-prepared rapid acquisition with gradient echo magnetic resonance imaging signal and texture features for the prediction of mild cognitive impairment to Alzheimer’s disease progression
Shahbandegan et al. Developing a machine learning model to predict patient need for computed tomography imaging in the emergency department
Walling et al. Dementia and electronic health record phenotypes: a scoping review of available phenotypes and opportunities for future research
Bae et al. Transfer learning for predicting conversion from mild cognitive impairment to Dementia of Alzheimer’s type based on 3D-convolutional neural network
AU2021102593A4 (en) A Method for Detection of a Disease
KR20160123151A (ko) 의료 정보 제공 시스템
Chin et al. The clinical variant analysis tool: analyzing the evidence supporting reported genomic variation in clinical practice
Orlichenko et al. ImageNomer: developing an fMRI and omics visualization tool to detect racial bias in functional connectivity

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant