KR101693510B1 - 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법 - Google Patents

개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법 Download PDF

Info

Publication number
KR101693510B1
KR101693510B1 KR1020150187556A KR20150187556A KR101693510B1 KR 101693510 B1 KR101693510 B1 KR 101693510B1 KR 1020150187556 A KR1020150187556 A KR 1020150187556A KR 20150187556 A KR20150187556 A KR 20150187556A KR 101693510 B1 KR101693510 B1 KR 101693510B1
Authority
KR
South Korea
Prior art keywords
information
gene
analysis data
genotype
mutation
Prior art date
Application number
KR1020150187556A
Other languages
English (en)
Inventor
정종선
Original Assignee
(주)신테카바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)신테카바이오 filed Critical (주)신테카바이오
Priority to KR1020150187556A priority Critical patent/KR101693510B1/ko
Priority to US16/065,982 priority patent/US20190087540A1/en
Priority to PCT/KR2016/015389 priority patent/WO2017116135A1/ko
Application granted granted Critical
Publication of KR101693510B1 publication Critical patent/KR101693510B1/ko

Links

Images

Classifications

    • G06F19/18
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • G06F19/20
    • G06F19/24
    • G06F19/28
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Abstract

본 발명은 게놈 프로젝트에 의해 구축된 다수 전장유전체 DB와 입력된 개인 전장 유전체 정보를 비교하여 개인 유전체로부터 유전형 정보를 분석하여 제공하는 시스템 및 방법에 관한 것으로, 본 발명은 (A) 분석데이터 입력부가 DNA Sequencying으로 구성된 분석데이터를 입력받는 단계와; (B) HaploScan 엔진이 상기 분석데이터의 특정 로커스 유전자와 동일 로커스 유전자에 대한 Haplo Frequency 정보를 대비하는 단계와; (C) 상기 제 (B) 단계의 대비 결과로부터 상기 분석데이터의 특정 로커스 유전자의 변이정보를 획득하는 단계; 그리고 (D) 상기 제(C)단계의 변이정보를 통해, 상기 유전자가 단일유전자 Haplo MAP 에 구분된 유전형 분류중 해당 유전형을 판별하는 단계를 포함하여 수행된다. 이와 같은 본 발명에 의하면, 대조군 데이터 베이스에 저장된 유전자 변이정보와 분석대상인 개인 유전체를 효과적으로 대비하여, 개인 유전체의 유전형 판단을 신속하고 효율적으로 수행할 수 있는 효과가 있다.

Description

개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법 { Genotype analysis system and methods using genetic variants data of individual whole genome }
본 발명은 게놈 프로젝트에 의해 구축된 다수 전장유전체 DB와 입력된 개인 전장 유전체 정보를 비교하여 개인 유전체로부터 유전형 정보를 분석하여 제공하는 시스템 및 방법에 관한 발명이다.
현재 IT시장의 추세는 구글(Google) 클라우드컴퓨팅 유비쿼터스(Ubiquitous) 순으로 변화하고 있고, 이와 동시에 바이오메디컬, 생물정보 및 유전체 영역도 바이오구글 시스템바이오 개인별 맞춤의학 순으로 새로운 트랜드에 맞춰 바뀌어 가고 있다. 특히 포스트 인간게놈프로젝는 차세대시퀀싱 기술이 급격하게 발전하여 개인별 맞춤의학을 현실화하기 위한 노력이 활발히 진행되고 있다.
현재 차세대기술은 인간 1명 (x30)의 유전체를 시퀀싱하는데 약 2주정도 소요가 되는 것으로 알려져 있다. 그리고, 현재 전 세계에 차세대 시퀀서가 20,000여대가 공급된 것으로 보고되었고, 제3세대 시퀀서 (Ion Torrent: 2.5세대, Pacific BioScience의 제3세대)의 주요 개발회사들에게 약 5천억원이 최근에 투자된 것으로 보고되었다.
그 이외에 전 세계적으로는 해당분야에 약 10조원 이상이 투자되었고 개발이 진행되고 있다. 이러한, 추세대로 진행이 되면 향후 2~3년 후에는 1명의 전체 시퀀싱 비용은 약 $1,000로 낮아질 것으로 예상된다. 위의 차세대기술기반의 가장 활용성이 높고 바로 실용화되는 기술은 임상유전체(clinical genomics), 약물유전체학(pharmaco-genomics) 및 중개 임상(translational medicine)으로 예상된다.
그러나 개인 유전자 분석을 통한 상업화된 맞춤의학 서비스를 제공하기 위하여는 다음과 같은 요구사항이 개선되어야 하는 문제점이 있다.
첫째는 대조군과 개인 유전체 사이의 분석 속도가 향상되어야 하는 과제가 있다. 이는 분석 정확도를 높이기 위하여 대조군의 양이 증가할수록 크게 요구되는 것으로 이를 해결하기 위하여는 분석 속도가 향상된 분석 시스템 및 분석 효율을 향상시킬 수 있는 데이터베이스 스키마가 적용된 분석 플랫폼의 제공이 요구된다.
둘째는 대조군과 개인 유전체 사이의 변이 마커를 검출하는 효율적인 방식 및 검출된 마커를 분석 목적에 따라 분류하여 분석 결과를 도출하는 효과적인 방식이 요구된다.
즉, 인간의 전장 유전체는 천문학적인 염기서열을 포함하고 있으며, 이에 대한 변이 마커 역시 방대한 양이 검출되는 것이 일반적이므로, 이를 이용하여 상용화된 맞춤 의학 서비스를 제공하기 위하여는, 검출된 변이 마커를 효율화된 분류 체계 및 검증 체계에 의해 분석 결과를 도출하는 것이 요구되는 것이다.
셋째는 맞춤의학 서비스의 질 향상을 위하여, 분석된 결과를 사용자가 가시적으로 용이하게 인식할 수 있도록, 분석 결과를 가시화하여 제공하는 리포팅 모듈이 요구된다.
즉, 정확성이 확보되면서도 빠르게 개인 유전체의 변이 마커를 검출한 경우라도, 방대한 양의 변이마커를 단순 나열한 결과를 사용자에게 제공한다면, 사용자는 해당 변이 마커의 의미 및 변이 정도를 파악할 수 없으므로, 사용자 인식을 용이하게 도울 수 있는 리포팅 모듈이 제공되어야 한다.
마지막으로, 더 정확하고 다양한 분석 결과를 제공하기 위하여는, 더 많은 변이에 대한 변이 특성 및 작용 기전 등의 정보가 수집되어 제공되어야 한다.
유전자 변이에 대한 연구는 각국의 대학, 연구기관 등에서 지속적으로 활발히 연구되고 있는 영역으로, 이미 상당량의 정확성이 검증된 정보가 수립되어 있을 뿐만 아니라 지속적으로 연구 결과가 확대되고 있다.
예를 들어, 생명윤리 및 안전에 관한 법률 등에는 유전자 변이에 따른 약 138개의 질병정보가 확정되어 있고, PheWAS-GWAS 및 eMEREG 등 해외 데이터 베이스에는 약 1700여 개의 유전자에 대한 표현형 정보가 수록되어 있으며, 약물은행 및 대사물은행에는 각각 6000여 개 및 12000여개의 유전자에 의해 발현되는 단백질과 약물 및 대사물의 저항성 및 감수성 정보가 수록되어 있다.
이와 같은, 유전자 변이 관련 정보는 매년 증가하고 있으며, 본 발명은 검증 데이터의 확장에 의해 분석 정확도 및 영역이 지속적으로 확대될 것이다.
한편, 본 출원인은 언급된 유전자 분석 분야의 기술적 요구사항을 개선하기 위해 지속적인 기술의 개발을 수행하고 있다.
이와 같은 노력의 결과, 유전체 분석 속도를 향상시키기 위한 분석 시스템 구축을 위하여 GPU 기반의 분석시스템을 개발하였고(특허등록: 10-0996443), 데이터의 비교 속도를 향상시키기 위한 기법으로 RVR 파일을 기반으로는 정보 검색 방법을 개발하였으며(특허등록: 10-0880531, 특허등록: 10-1035959, 특허등록: 10-1117603), 대조군과 개인 유전체 사이의 변이 정도를 효율적으로 판단하기 위하여 ADISCAN 방식을 개발하였다(특허등록: 10-1400717, 특허등록: 10-1460520, 특허출원: 10-2014-0020738, 특허출원: 10-2014-0020736).
(001) 대한민국 등록특허 제10-0996443호 (002) 대한민국 등록특허 제10-1035959호 (003) 대한민국 등록특허 제10-1117603호 (004) 대한민국 등록특허 제10-1400717호 (005) 대한민국 등록특허 제10-1460520호 (006) 대한민국 공개특허 제10-20120053623호 (007) 대한민국 공개특허 제10-20150024232호 (008) 대한민국 공개특허 제10-20150024231호
본 발명은 상기와 같은 상용화된 개인 유전자 맞춤의학을 실현하기 위한 요구사항을 개선하기 위해 안출된 것으로, 본 발명은 개인 유전체 내의 단일유전자의 유전형 및 다중유전자 기반의 표현형에 대한 유전체의 유전형 검출 속도 및 효율을 향상시킬 수 있는 데이터베이스 스키마가 적용된 유전형 분석 플랫폼을 제공하기 위한 것이다.
또한, 본 발명은 검출된 유전체의 유전형 정보를 사용자 인식이 용이하도록 형태로 제공하는 유전형 분석 플랫폼을 제공하기 위한 것이다.
상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 본 발명은 개인 유전체 정보를 포함하는 분석데이터를 입력받는 분석데이터 입력부와; 데이터베이스에 저장된 유전자 정보와 상기 분석데이터를 대비하여 각 유전자의 유전형 또는 표현형에 대한 유전형을 포함하는 분석 결과를 산출하여 상기 분석결과를 통해 결과리포트를 생성하는 검색제어부; 그리고 상기 분석데이터와 대비하기 위하여 대조군 유전자의 유전형 정보를 저장한 HaploScan DB를 포함하여 구성되는 저장부를 포함하여 구성되고: 상기 검색제어부는, 상기 분석데이터를 상기 하플로스캔(HaploScan) DB와 대비하여, 상기 분석데이터의 유전형을 판별하는 하플로스캔(HaploScan) 엔진을 포함하여 구성되며: 상기 하플로스캔(HaploScan) DB는, 단일유전자에 대한 유전형 정보를 저장하는 단일유전자정보데이터베이스와; 표현형별 다중 유전자의 유전형 정보를 저장하는 다중유전자정보 데이터베이스를 포함하여 구성되고: 상기 단일유전자정보데이터베이스는, 대조군의 단일 유전자에 대하여, 인종별 반수체 및 형질 빈도를 점유 비율별로 구분(군집)하여 저장한 단일유전자 하플로(Haplo) 맵과; 상기 단일 유전자 하플로(Haplo) 맵에 저장된 단일 유전자의 유전형을 구분하는 변이에 대한 변이정보를 저장하는 단일유전자 하플로 프리컨시 정보를 포함하여 구성되며: 상기 다중유전자정보 데이터베이스는, 표현형별 대조군의 다중 유전자에 대하여 유전형 연관 염기의 변이분포를 인종별로 구분(군집)하여 점유비율에 따라 저장한 다중유전자 하플로(Haplo) 맵과; 상기 다중유전자 하플로(Haplo) 맵에 저장된 상기 표현형에 대한 유전형을 구분하는 변이에 대한 변이정보를 저장하는 다중유전자 하플로 프리컨시 정보를 포함하여 구성되고: 상기 저장부는, 임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성되고: 상기 검색제어부는, 로지스틱 회귀분석(logistic regression)에 의해 산출된 산술식을 통해 질병원인 관계도(Πx)를 산출하여 질병원인 예측 결과를 도출하며: 상기 질병원인 관계도 산술식은,
Figure 112016063710705-pat00015

이고, 변수 β는 임상정보 DB에 저장된 피검사 대상자의 연령, 성별 또는 체질량(BMI)을 포함하는 건강기록정보(PHR, personal health records)에 따른 매개변수이고;
변수 χ는 상기 검색제어부가 산출한 분석데이터에 포함된 단일 유전자들의 유전형 또는 표현형별 다중 유전자의 유전형에 따른 매개변수이다.
이때, 상기 결과리포트는, 상기 분석데이터의 유전형이 속하는 구분영역(군집, class)과 유의성 정도를 나타내는 지표를 포함하여 구성될 수도 있다.
한편, 본 발명은 (A) 분석데이터 입력부가 DNA 시퀀싱(Sequencying)으로 구성된 분석데이터를 입력받는 단계와; (B) 하플로스캔(HaploScan) 엔진이 상기 분석데이터 유전자의 유전형을 판별하는 단계와; (C) 하플로스캔(HaploScan) 엔진이 상기 분석데이터 유전자의 변이정보를 획득하는 단계와; (D) 상기 제(B)단계 및 제(C)단계를 상기 분석데이터에 포함된 전체 유전자에 대하여 반복 수행하는 단계; 그리고 (E) 검색제어부가 로지스틱 회귀분석(logistic regression)에 의해 산출된 산술식을 통해 질병원인 관계도(Πx)를 산출하여 질병원인 예측 결과를 도출하는 단계를 포함하여 수행되고: 상기 제(B)단계의 유전형 판별은, 분석데이터를 구성하는 단일 유전자에 대하여, 단일유전자 하플로(Haplo) 맵에 구분된 유전형 분류중 해당 유전형을 판별하는 단계; 및 상기 분석데이터에 포함된 다중 유전자에 대하여, 다중유전자 하플로(Haplo) 맵에 구분된 유전형 분류중 해당하는 유전형을 판별하는 단계를 포함하여 수행되고: 상기 제(C)단계의 변이정보 획득은, 상기 분석데이터의 특정 로커스 유전자와 동일 로커스 유전자에 대한 단일유전자 하플로 프리컨시(Haplo Frequency) 정보를 대비하여 상기 분석데이터의 특정 로커스 유전자의 변이정보를 획득하는 단계; 및 상기 분석데이터의 다중 유전자와 특정 표현형에 대한 다중 유전자 하플로 프리컨시(Haplo Frequency) 정보를 대비하여 상기 분석데이터의 다중 유전자의 변이정보를 획득하는 단계를 포함하여 수행되며: 상기 단일유전자 하플로(Haplo) 맵은, 대조군의 단일 유전자에 대하여, 인종별 반수체 및 형질 빈도를 점유 비율별로 구분(군집)하여 저장한 것이고: 상기 단일유전자 하플로 프리컨시 정보는 상기 단일 유전자 하플로(Haplo) 맵에 저장된 단일 유전자의 유전형을 구분하는 변이에 대한 변이정보를 저장한 것이며: 상기 다중유전자 하플로(Haplo) 맵은, 표현형별 대조군의 다중 유전자 변이분포를 점유비율로 구분(군집)하여 저장한 것이고: 상기 다중유전자 하플로 프리컨시 정보는, 상기 표현형에 대한 유전형을 구분하는 변이에 대한 변이정보이며: 상기 질병원인 관계도 산술식은,
Figure 112016063710705-pat00016

이고, 변수 β는 피검사 대상자의 연령, 성별 또는 체질량(BMI)을 포함하는 건강기록정보(PHR, personal health records)에 따른 매개변수이고; 변수 χ는 상기 검색제어부가 산출한 분석데이터에 포함된 단일 유전자들의 유전형 또는 표현형별 다중 유전자의 유전형에 따른 매개변수인 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 방법을 포함한다.
이때, 본 발명은 (F) 검색제어부가 산출된 결과물을 통해 결과리포트를 생성하는 단계를 더 포함하여 수행될 수도 있다.
그리고 상기 결과리포트는, 상기 분석데이터의 유전형이 속하는 구분영역(군집, class)과 유의성 정도를 나타내는 지표를 포함하여 구성될 수도 있다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
위에서 살핀 바와 같은 본 발명에 의한 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템에서는, 대조군 데이터 베이스에 저장된 유전자 변이정보와 분석대상인 개인 유전체를 효과적으로 대비하여, 개인 유전체의 유전형 판단을 신속하고 효율적으로 수행할 수 있는 효과가 있다.
도 1은 본 발명이 적용된 유전자 분석 서비스 구성을 도시한 예시도.
도 2는 본 발명의 구체적인 실시예에 의한 유전형 분석 시스템의 주요 구성을 도시한 블록도.
도 3은 본 발명에 의한 질병원인 발굴 시스템을 구성하는 주요 데이터베이스의 구성을 도시한 예시도.
도 4은 본 발명의 구체적인 실시예를 구성하는 Haplo Map의 구성예를 도시한 개념도.
도 5는 본 발명의 구체적인 실시예를 구성하는 HaploScan DB의 구성예를 도시한 구성도.
도 6는 본 발명의 구체적인 실시예에 의한 유전형 분석 방법을 도시한 흐름도.
도 7은 본 발명의 구체적인 실시예에 의한 DNA Sequencing 데이터 생성방법의 일예를 도시한 예시도.
도 8은 본 발명의 구체적인 실시예에 의해 생성된 유전형 분석 결과의 일 예를 도시한 예시도.
도 9은 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 맨하탄 플롯의 일 예를 도시한 예시도.
도 10는 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 방사형 변이 유의성 차트의 일 예를 도시한 예시도.
도 11은 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 방사형 변이 유의성 차트의 다른 예를 도시한 예시도.
도 12은 본 발명의 구체적인 실시예에 의한 임상정보기반 질병원인 예측 산출예를 도시한 예시도.
이하에서는 첨부된 도면을 참조하여 본 발명의 구체적인 실시예에 의한 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법을 상세히 살펴보기로 한다.
먼저, 본 발명에 의한 유전형 분석 시스템이 적용되는 유전자 분석 서비스의 구성을 간단히 살펴보기로 한다.
도 1에 도시된 바와 같이, 유전자 분석 서비스는 병원 등의 개인 유전자 수집 기관으로부터 혈액 등의 샘플을 수집하여, 해당 샘플을 DNA 진단회사에 진단을 의뢰하게 된다.
그리고 상기 DNA 진단회사는 수집된 샘플로부터 DNA custom chip을 제작하거나 DNA sequencing(NGS, next generration sequencing)을 수행한다. 물론, 최근에는 기술적 발전에 따라 다양한 방법에 의해 DNA sequencing을 생성할 수 있으므로, 상기 DNA sequencing 생성 방법은 DNA 진단회사의 기술 수준에 따라 다양한 방법에 의해 수행될 수 있다.
이와 같이 생성된 DNA sequencing은 본 발명과 같은 유전형 분석 시스템을 통해 개인 유전체에 포함된 유전적 정보가 분석되고, 분석된 분석정보는 병원 등의 진단기관 또는 수요자에게 전달된다.
물론, 상기 DNA 진단회사로부터 DNA 더미 데이터가 제공되는 경우, 본 발명에 의한 유전형 분석 시스템은 이로부터 고집적 인덱싱 파일로 형성하여 빅데이터인 유전체 염기서열을 분석한다.
이에 대하여는 이후, 도 7을 설명함에 있어 다시 설명하기로 한다.
즉, 본 발명은 DNA sequencing 정보로부터 개인 유전체에 포함된 유전적 정보를 분석하는 유전형 분석 시스템에 관한 것으로, 이하에서 본 발명에 의한 유전형 분석 시스템에 대하여 상세히 살펴보기로 한다.
도 2는 본 발명의 구체적인 실시예에 의한 유전형 분석 시스템의 주요 구성을 도시한 블록도이고, 도 3은 본 발명에 의한 질병원인 발굴 시스템을 구성하는 주요 데이터베이스의 구성을 도시한 예시도이며, 도 4은 본 발명의 구체적인 실시예를 구성하는 Haplo Map의 구성예를 도시한 개념도이고, 도 5는 본 발명의 구체적인 실시예를 구성하는 HaploScan DB의 구성예를 도시한 구성도이다.
도 2에 도시된 바와 같이, 본 발명에 의한 유전형 분석 시스템은 분석데이터 입력부(100), 검색제어부(200), 결과 리포트 제공부(300), HaploScan DB(400) 및 레퍼런스 DB(800)를 포함하여 구성되고, ADISCAN DB(500), IDA DB(600) 및 생리활성 DB(700)를 더 포함하여 구성될 수 있다.
상기 분석데이터 입력부(100)는 개인 유전체 정보를 입력받는 부분으로, DNA sequencing 데이터를 입력받는다.
그리고 상기 검색제어부(200)는 입력된 DNA sequencing으로부터 각 유전자의 유전형 및 표현형에 대한 유전형을 검출하는 부분으로, 이를 위해 상기 검색제어부(200)는 HaploScan엔진(210)을 포함하여 구성된다.
또한, 상기 검색제어부(200)는 입력된 DNA sequencing으로부터 희귀변이, 질병변이 및 생리활성변이를 검출하기 위하여, ADISCAN 엔진(220), IDA 검색엔진(230) 및 생리활성변이 검색엔진(240)을 더 포함하여 구성될 수도 있다.
상기 HaploScan 엔진(210)은 상기 분석데이터(입력된 DNA Sequencying)을 후술할 HaploScan DB(400)에 저장된 Haplo MAP(414, 424)과 대비하여 유전형을 판별하는 역할을 수행한다.
상기 HaploScan DB(400)의 구조 및 상기 HaploScan 엔진(210)의 검색 방식은 이후 다시 상세히 설명하기로 한다.
그리고 상기 ADISCAN 엔진(220)은 입력된 분석데이터에 포함된 각 염기에 대하여 ADISCAN DB(500)과 ADISCAN 방식으로 대비하여, 집단대조군 대비 희귀성을 산출하는 역할을 수행한다.
또한, 상기 IDA 검색엔진(230)은 이미 알려진 유전자 관련 질병변이를 검출하는 것으로, 알려진 질병변이가 저장된 IDA DB(600)와 분석데이터를 비교하여 질병변이를 검출한다.
그리고 상기 생리활성변이 검색엔진(240)은, 단백질 대사관련 유전 변이를 검출하는 것으로, 크게 단백질-약물, 단백질-DNA 및 단백질-단백질 결합에 관여하는 아미노산에 대한 유전변이 여부를 판별한다.
이때, 상기 생리활성변이 검색엔진(240)은 BAV DB(700)와 분석데이터를 비교하여 상기 분석 데이터 중 상기 BAV DB(700)에 저장된 단백질 결합 관련한 아미노산에 대응하는 염기들의 변이 여부를 판별하게 된다.
한편, 상기 검색제어부(200)는 HaploScan 엔진(210)에 의해 판별된 유전형을 진단자(또는 사용자)가 가시적으로 용이하게 파악할 수 있도록 맨하탄 플롯 및 방사형 변이 유의성 차트를 이용하여 결과리포트를 생성한다.
그리고 생성된 상기 결과리포트는 결과리포트제공부(300)를 통해 사용자에게 제공된다.
이하에서는 본 발명에 의한 유전형 분석 시스템의 데이터베이스 구조를 설명하기로 한다.
본 발명에 의한 유전형 분석 시스템은 크게 HaploScan DB(400)와 ADISCAN DB(500), IDA DB(600), BAV DB(700) 그리고 Reference DB(800)를 포함하여 구성된다.
상기 HaploScan DB(400)는 도 3에 도시된 바와 같이, 분석 대상인 개인 유전체 정보로부터 유전형을 산출하기 위해 대조군 유전자의 유전형을 정리한 DB로, 상기 HaploScan DB(400)는 도 2에 도시된 바와 같이, 단일유전자정보데이터베이스(410)와, 다중유전자정보 데이터베이스(420)를 포함하여 구성된다.
HaploScan DB의 구성을 설명하기에 앞서, Haplo Map의 기본적인 구성을 설명하면, 도 4에 도시된 바와 같이, 상기 Haplo map은 세계 인종 5,000 명의 반수체 전장 유전체에서 각 유전자의 유전형 비율에 따른 군집을 구분한 것으로, 각 유전형의 대조군 내 점유 비율 및 차이 값을 포함한다.
따라서, 도 4에 도시된 바와 같이, 분석 데이터의 개인 유전체(배수체)에 있어, 쌍반수체를 상기 Haplo Map과 대비하여 유전형 기반의 환자특성을 처방자(의사)파악하고, 대상자(환자)의 진단 및 치료(예측)을 위한 학술정보를 제공할 수 있게 된다.
한편, 상기 HaploScan DB(400)는 도 5에 도시된 바와 같이, 단일유전자정보데이터베이스(410)와, 다중유전자정보 데이터베이스(420)를 포함하여 구성되고, 상기 단일유전자정보 데이터베이스(410)는 단일유전자에 대한 유전형들을 저장한 데이터 베이스로, 단일유전자 Haplo 맵(414)과 단일유전자 하플로 프리컨시 정보(412)를 포함하여 구성된다.
한편, 상기 단일유전자 Haplo 맵(414)은 전체 대조군의 동일 유전자에 대하여, 변이 분포를 점유 비율 별로 구분(군집)하여 저장한 것으로, 각 유전자를 활용한 세계 26개 인종의 반수체 (haplotype)계산 및 특정 형질의 빈도 및 각 서브-인종의 빈도를 계산하여 정리한 것이다.
그리고 상기 단일유전자 하플로 프리컨시 정보(412)는 상기 각각의 변이에 대한 정보를 저장한 것이다. 이때, 상기 단일유전자 하플로 프리컨시 정보(412)는 변이정보를 직접 저장한 데이터일 수도 있고, 후술할 Reperence DB(800)에 저장된 정보를 위치를 표시하는 식별인자로 구성될 수도 있다. 즉, 상기 단일유전자 하플로 프리컨시 정보(412)는 인간의 39,000개 유전자와 5 천명의 세계인종에서의 각 유전자에서 빈도 및 다양한 질병연관 주석정보를 제공한다.
또한, 상기 다중유전자정보 데이터베이스(420)는 다중유전자에 대한 변이 분포 및 정보를 제공하기 위한 데이터 베이스로, 다중유전자 Haplo 맵(424)과 다중유전자 하플로 프리컨시 정보(422)를 포함하여 구성된다.
이때, 상기 다중유전자 Haplo 맵(424)은 다중유전자에 의해 표현형이 특정되는 유전 특성에 있어, 각 표현형 별로 전체 대조군의 관련 염기에 대한 변이 분포를 점유 비율 별로 군집화하여 저장한 것으로, 표현형 (phenotype)의 원인 변이를 활용한 세계 26개 인종의 반수체(haplotype)계산 및 특정 형질의 빈도 및 각 서브-인종의 빈도를 계산하여 정리한 것이다.
그리고 상기 다중유전자 하플로 프리컨시 정보(422)는 상기 각각의 변이에 대한 정보를 저장한 것이다. 이때, 상기 다중유전자 하플로 프리컨시 정보(422) 역시 변이정보를 직접 저장한 데이터일 수도 있고, 후술할 Reperence DB(800)에 저장된 정보를 위치를 표시하는 식별인자로 구성될 수도 있다.
즉, 상기 다중유전자 하플로 프리컨시 정보(422)는 인간의 39,000개 유전자와 5천명의 세계인종에서의 표현형(phenotype) 연관 유전자 셋트 들의 빈도 및 다양한 질병연관 주석정보를 제공한다.
이를 도 4에 도시된 예를 통해 설명하면, HaploScan DB(400)의 X축은 30억 염기서열이고, 상기 염기서열에서 유전자는 39,000개가 있다. 이의 스키마에서 특정 유전자(i)에서 변이가 N(개) 발견이 되었다면, 상기 변이를 Y축: 5,000명에서 haplotype 및 genotype 모두를 사용하여 군집화를 할 수 있고, 군집화가 된 형태가 HaploMap이된다.
이때, 각 군집은 각 유전형을 의미하는데 이들의 내용을 살펴보면, 첫 번째 GP*47*0 는 그 유전형이 세계인에서 47%를 차지하고, 세계인의 평균과 비교해서 0 bit 다르고(동일하고), 두 번째 유전형 GP*25*1은 세계인에서 25%를 차지함을 의미하며, 세계인의 평균과 비교해서 1 bit 다르다는 것을 의미한다.
또한, 다중유전기반 HaploMap도 동일한 방식에 의해 분류 및 구분된다.
상기 ADISCAN DB(500)는 도 3에 도시된 바와 같이, 대조군 집단의 유전체 정보를 저장한 DB로, 구체적으로 집단유전체는 글로벌 게놈프로젝트 수행에 의해 공지된 유전체 정보가 활용될 수 있다.
한편, 상기 ADISCAN DB(500)는 도 5에 도시된 바와 같이, 대조군 집단의 전장 유전체 정보를 저장하되, 인종 등의 유전형의 군을 형성하는 구분기준에 따라 구분되어 저장될 수 있다.
이때, 상기 인종별 구분은 5개 대분류의 구분일 수도 있고, 26개 소분류의 구분일 수도 있는데, 이는 인종별 유전특성을 반영하여 변이 유전자 여부를 판별/검출하기 위함이다.
그리고 상기 IDA DB(600)는 도 3에 도시된 바와 같이, 이미 알려진 질병과 이에 관련된 유전 변이가 저장되는 곳으로, 다양한 질병별로 각 질병에 관련된 유전자 변이 정보 및 이들 변이 정보를 뒷받침하는 문헌 정보가 정리되어 저장될 수 있다.
또한, BAV DB(700)에는 다양한 단백질의 바인딩 위치의 아미노산 형태를 결정하는 유전자 정보가 저장될 수 있다.
구체적으로는, 단백질-약물, 단백질-DNA 및 단백질-단백질 간의 바인딩에 있어, 이들 결합에 영향을 미치는 아미노산과 해당 아미노산에 영향을 미치는 유전자 정보가 저장된다.
이에 따라, 특정 대사물의 바인딩을 관장하는 아미노산에 대한 염기들에 변이가 다수 발생한 경우, 해당 분석 데이터의 피검사자는 해당 대사물에 대하여 정상적인 체내 처리가 어려워질 가능성이 높아지게 된다.
상기 BAV DB(700)는 생리활성관련 유전자 정보를 저장하는 데이터 베이스로, 유전자와 약물, 대사물 및 음식물에 대한 저항성 및 감수성 관련정보가 저장된다. 이때, 상기 BAV DB(700) 또한, 공신력이 확보된 공지된 데이터를 연계하여 구축할 수 있고, 예를 들어, 약물은행에 공지된 6,000 여 개의 약물정보(상호작용 단백질과 바인딩 영역 정보 등), 대사물 은행에 공지된 12,000 여 개의 대사물 정보(상호작용 단백질과 바인딩 영역 정보 등) 및 DMET(drug metabolizing enzyme and transporter gene)에 있는 200여 개의 유전자의 약물 대사관련 변이 위치에 대한 정보를 활용할 수 있다.
한편, 상기 레퍼런스 DB(800)는 알려진 유전체의 변이에 대한 정보를 저장하는 DB로, 문헌정보 뿐만 아니라 공개된 정보 데이터베이스와 연계되어 구축될 수 있다.
예를 들어, PheWAS-GWAS(Genome wide association study) data 및 eMERGE (Electronic Medical Records and Genomics) data가 레퍼런스 DB에 적용될 수 있다.
한편, 도시되지는 않았으나, 상기 검색제어부(200)가 임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성될 수도 있다.
이때, 상기 임상정보 DB는 개인의 환경적 요인 결과물 데이터와 집단 평균 및 기준정보가 저장된다.
그리고 상기 개인의 환경적 요인 결과물 데이터는 개인의 종합검진 데이터 등의 임상정보 데이터일 수 있고, 상기 집단 평균 및 기준정보는 질병관리본부가 제공하는 지역사회 코호트 연구 결과를 활용할 수 있다.
이하에서는 본 발명에 의한 개인 전장 유전체를 이용한 유전정보 분석 방법을 첨부된 도면과 함께 상세히 살펴보기로 한다.
도 6는 본 발명의 구체적인 실시예에 의한 유전형 분석 방법을 도시한 흐름도이고, 도 7은 본 발명의 구체적인 실시예에 의한 DNA Sequencing 데이터 생성방법의 일예를 도시한 예시도이며, 도 8은 본 발명의 구체적인 실시예에 의해 생성된 유전형 분석 결과의 일 예를 도시한 예시도이고, 도 9은 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 맨하탄 플롯의 일 예를 도시한 예시도이며, 도 10는 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 방사형 변이 유의성 차트의 일 예를 도시한 예시도이고, 도 11은 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 방사형 변이 유의성 차트의 다른 예를 도시한 예시도이며, 도 12은 본 발명의 구체적인 실시예에 의한 임상정보기반 질병원인 예측 산출예를 도시한 예시도이다.
먼저, 도 6에 도시된 바와 같이, 본 발명에 의한 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 방법은 먼저, 분석데이터 입력부가 분석 대상이 되는 분석 데이터(DNA Sequencing)을 수신받는 것으로부터 시작된다(S100).
이때, 상기 분석 데이터가 DNA 조각들로 구성된 Dumy 형태로 제공될 수도 있는데, 이 경우 본 발명은 도 7에 도시된 바와 같이, 제공된 Dumy 데이터에 고집적 인덱싱을 통해 RVR 파일 형태로 DNA sequencing 을 생성하여 저장한다.
이후, 본 발명에 의한 유전형 분석 방법은 분석데이터의 유전형을 분석한다.
이때, 상기 유전형은 분석데이터의 개인유전체를 구성하는 각 유전자의 유전형을 분석하는 것과 표현형으로 나타나는 다중 유전자 조합에 대한 유전형을 포함한다.
[단일유전자의 유전형 판별]
상기 HaploScan 엔진(210)은 상기 DNA Sequencying의 i번째 유전자와 HaploScan DB(400)에 저장된 i번째 단일유전자 Haplo Frequency(412)를 대비한다(S211).
이를 통해 상기 DNA Sequencying의 i번째 유전자의 변이정보를 획득하여, 상기 i번째 유전자가 단일유전자 Haplo MAP(414)에 분류된 단일유전자 분류중 어느 군집에 포함되는지 여부를 판별한다(S213, S215).
이후, 상기 HaploScan 엔진(210)은 i=1 부터 마지막까지(약 i=39,000) 반복하여 분석데이터의 전체 유전자에 대한 유전형을 판별한다(S217, S219).
[다중유전자의 유전형 판별]
또한, 상기 HaploScan 엔진(210)은 상기 DNA sequencying을 상기 다중유전자 Haplo Frequency(422)와 대비한다(S221).
그리고 해당 표현형에 대한 분석 대상 유전체의 다중 유전자의 조합이 다중유전자 Haplo MAP(424)에 분류된 다중 유전자 조합의 분류중 어느 군집에 포함되는지 여부를 판별한다(S223, S225).
이후, 상기 HaploScan 엔진(210)은 다중유전자정보 데이터베이스(420)에 저장된 모든 표현형에 대하여 제221단계 내지 제225단계를 반복 수행하여 분석데이터의 다중유전자 조합에 의한 유전형을 판별한다(S227, S229).
이와 같은 HaploScaning 과정을 통해 분석 대상 유전체에 포함된 단일 유전자 변이 및 다중 유전자 변이에 따른 유전형을 정의할 수 있다.
도 8에는 전술한 바와 같은 과정을 통해 분석데이터의 유전형 판별 결과의 일예가 도시되어 있다. 이에 도시된 바와 같이, 판별 결과에는 해당 유전형이 속하는 군집(class)과, 해당 군집의 대립유전자 기반 유전형질의 반수체, 유의성 정도를 나타내는 지표 등을 포함하여 구성된다.
즉, 도 8에 도시된 바와 같이, 상기 HaploScaning 과정을 통해 검출된 개인 유전체의 유전자 변이 결과에 있어, 분석 대상의 유전형(ANH, 3*0*3 : 붉은색 표기)의 위치가 4번째에 해당하고, 4번째 라인의 통계용 유의성(p-value)은 0.05 미만이기 때문에 분석대상의 유전형은 특정한 의미를 가진 것으로 해석을 할 수 있다.
그리고, 상기 분석 대상의 변이 중에 알려진 유전특성(예를 들면, 질병변이)이 발견이 되면, 상기 유전특성의 감수성을 가지고 있다고 판정을 할 수 있다.
또한, “R|*S|*R”중 R은 암의 감수성 질병변이로 알려져 있는 경우로, 본 발명에 의한 분석 시스템에 의해 질병 감수성을 가진 유전자 변이를 계산한 예이다.
한편, 상기 검색제어부(200)는 판별된 분석데이터의 유전형을 통해 결과리포트를 생성할 수 있다.
상기 결과 리포트는, 산출물에 따라 각각 다소 차이는 있으나, 기본적으로 변이 유전자에 대한 가시화를 위해 매하탄 플롯 및 방사형 변이 차트를 활용한다.
도 9은 본 발명의 구체적인 실시예에 의해 생성된 맨하탄 플롯의 일 예를 도시한 예시도이다.
도 9에 도시된 바와 같이, 상기 맨하탄 플롯(Manhattan plot)은 39,000 개의 유전자에 대하여, 알려진 모든 SNP의 non-sym 변이들을 기준으로 게놈프로젝트의 표준 유전자를 유전형에 따라 분류하여 누적된 값을 점(point)으로 가시화 한 그래프를 의미한다.
이에 분석 대상 유전체의 유전자를 표시하면, 대조군 대비 분석 대상 유전자의 변이 특이성을 용이하게 인식할 수 있다.
이와 같은 맨하탄 플롯(Manhattan plot)은 변이 로커스를 손쉽게 파악할 수 있을 뿐만 아니라, 변이 정도도 용이하게 파악할 수 있다.
한편, 상기 맨하탄 플롯에 의해 표시된 유의성 변이들은 변이 정도 및 유전적 특성에 따라 도 10 및 도 11에 도시된 바와 같이, 방사형 변이 차트로 표시될 수 있다.
이때, 상기 분석 대상 유전체의 유전적 변이 정도와 대조군 평균을 함께 표시하여, 분석 대상 유전체의 변이 정도를 가시적으로 명확하게 표시할 수 있을 뿐만 아니라, 유전적 특성 정보를 추가적으로 포함시켜 결과리포트를 생성할 수도 있다.
전술한 바와 같은 방법으로 생성된 상기 결과리포트는 결과리포트 제공부를 통해 제공된다.
한편, 상기 검색제어부(200)는 피검사자의 임상정보가 제공된 경우 이를 바탕으로 임상정보 기반 질병원인을 산출하여 제공할 수 있다.
구체적으로, 질병의 원인을 예측하려면 현 상태의 환경적인 요인 결과물(종합검진데이터 및 임상정보)을 포함하는 PHR (personal health records)이 필요하다. 특히, 환경적인 요인에서 집단의 평균 및 기준정보가 필요하게 된다(본 발명에서 상기 기준정보는 질병관리본부에서 제공하는 제2기 지역사회 코호트 연구결과를 활용). 여기서, 이러한 환경적인 요인의 결과물과 유전형과 연계를 지은 것을 PHR-trait 이라고 부른다.
도 12에 도시된 바와 같이 질병원인 관계도(Π) 검출식은, logistic regression분석 방법을 활용한 것으로, 변수 β는 전술한 바와 같이 산출된 유전형에 따라 결정되는 값이고, 변수 χ는 상기 PHR로부터 결정되는 값이다.
즉, 상기 질병원인 관계도는 Gene, Disease 혹은 Drug의 유전형 (group or cluster of genotypes) vs. PHR (BMI, AGE, SEX, 등)의 연관성을 계산할 수 있게 된다.
따라서, 현재의 임상상태 (clinical condition: normal, disease, or phenotype)와 39,000유전자에서 계산한 Gene, Disease, Drug유전형과의 연관성을 계산하여 전체유전자기반 질병원인을 계산한다.
한편, 본 발명에 의한 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 방법은 희귀변이 산출(S300), 질병변이 산출(S400) 및 생리활성변이 산출(S500)과정을 포함하여 수행될 수 있다.
[희귀변이 산출]
희귀변이는 극히 이례적인 특정 유전 변이에 의해 유발되는 염기 변이로, 일반적으로 희귀질병과 관련된 경우가 많은 것으로, 특정 염기에 대한 변이 유무 또는 차이를 검출하여, 희귀질병 발병 가능성 등을 판단할 수 있다.
이를 위해 본 발명은 먼저, ADISCAN 엔진(220)이 대조군을 선별한다(S310).
이때 상기 대조군이란, 해당 변이에 대한 희귀성을 판단하게 될 대조 집단으로, 특정 인종을 한정하거나 특정 국가를 대상으로 한정할 수도 있다.
이후, 상기 ADISCAN 엔진(200)은 특정 로커스의 염기에 대하여 대조군 DB의 염기와 ADISCAN 방식으로 변이지수를 산출하고, 이와 같은 과정을 전체 유전체에 대하여(n=1 부터 n=약 30억) 수행한다(S320, S330, S340).
이에 따라 전체 염기서열에 대하여 염기들의 희귀성을 산출한다(S350).
한편, 상기 희귀변이 산출을 위한 ADISCAN(allelic depth and imbalance scanning)이란 정상과 이상 유전자의 차이를 주는 마커들을 스크리닝하는 기법으로, 대립유전자깊이곱탄젠트차이, 대립유전자제곱승차이, 대립유전자절대값차이, 기하학적대립유전자차이, 통계적대립유전자차이 또는 대립유전자불균형비율에 따라 판단된다.
[질병변이 산출]
상기 질병변이 검출은 IDA 검색엔진(230)이 분석데이터를 IDA DB(600)의 변이정보와 비교하여, 해당 질병의 위험도를 판단하게 된다(S410).
이와 같은 방법으로, 상기 IDA DB에 포함된 모든 질병에 대하여 상기 분석데이터를 검토한 후(S420), 유의미한 변이관련 질병들을 산출하게 된다(S430).
[생리활성변이 산출]
상기 생리활성변이 검출은 생리활성변이 검색엔진(240)이 생리활성 DB를 검색하여(S510), 단백질의 결합에 관여하는 아미노산에 정보를 검출한다(S520).
이때, 상기 단백질 결합은 단백질-약물, 단백질-DNA 및 단백질-단백질의 결합을 포함하고, 상기 아미노산 정보에는 상기 아미노산에 관련된 염기의 정보가 포함된다.
이후, 상기 생리활성변이 검색엔진(240)은 상기 아미노산 정보에 포함된 염기와 분석데이터를 대비하여 분석 데이터 상에 변이가 발생 된 아미노산 및 이에 관련된 대사물 정보 등을 검출한다(S530, S540).
그리고 상기 생리활성변이 검색엔진(240)은 전체 아미노산에 대하여 변이 검출을 반복수행하고, 검출된 정보를 통합하여 생리활성변이정보를 산출한다(S550, S560).
본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.
본 발명은 게놈 프로젝트에 의해 구축된 다수 전장유전체 DB와 입력된 개인 전장 유전체 정보를 비교하여 개인 유전체로부터 유전정보를 분석하여 제공하는 시스템에 관한 것으로, 본 발명에 의하면, 대조군 데이터 베이스를 하플로 스캔 맵이 적용된 데이터베이스 스키마를 적용하여 유전체 변이 대조 효율이 향상된 유전자 분석 플랫폼을 제공할 수 있는 효과가 있다.

Claims (16)

  1. 개인 유전체 정보를 포함하는 분석데이터를 입력받는 분석데이터 입력부와;
    데이터베이스에 저장된 유전자 정보와 상기 분석데이터를 대비하여 각 유전자의 유전형 또는 표현형에 대한 유전형을 포함하는 분석 결과를 산출하여 상기 분석결과를 통해 결과리포트를 생성하는 검색제어부; 그리고
    상기 분석데이터와 대비하기 위하여 대조군 유전자의 유전형 정보를 저장한 하플로스캔(HaploScan) DB를 포함하여 구성되는 저장부를 포함하여 구성되고:
    상기 검색제어부는,
    상기 분석데이터를 상기 하플로스캔(HaploScan) DB와 대비하여, 상기 분석데이터의 유전형을 판별하는 하플로스캔(HaploScan) 엔진을 포함하여 구성되며:
    상기 하플로스캔(HaploScan) DB는,
    단일유전자에 대한 유전형 정보를 저장하는 단일유전자정보데이터베이스와;
    표현형별 다중 유전자의 유전형 정보를 저장하는 다중유전자정보 데이터베이스를 포함하여 구성되고:
    상기 단일유전자정보데이터베이스는,
    대조군의 단일 유전자에 대하여, 인종별 반수체 및 형질 빈도를 점유 비율별로 구분(군집)하여 저장한 단일유전자 하플로(Haplo) 맵과;
    상기 단일 유전자 하플로(Haplo) 맵에 저장된 단일 유전자의 유전형을 구분하는 변이에 대한 변이정보를 저장하는 단일유전자 하플로 프리컨시 정보를 포함하여 구성되며:
    상기 다중유전자정보 데이터베이스는,
    표현형별 대조군의 다중 유전자에 대하여 유전형 연관 염기의 변이분포를 인종별로 구분(군집)하여 점유비율에 따라 저장한 다중유전자 하플로(Haplo) 맵과;
    상기 다중유전자 하플로(Haplo) 맵에 저장된 상기 표현형에 대한 유전형을 구분하는 변이에 대한 변이정보를 저장하는 다중유전자 하플로 프리컨시 정보를 포함하여 구성되고:
    상기 저장부는,
    임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성되고:
    상기 검색제어부는,
    로지스틱 회귀분석(logistic regression)에 의해 산출된 산술식을 통해 질병원인 관계도(Πx)를 산출하여 질병원인 예측 결과를 도출하며:
    상기 질병원인 관계도 산술식은,
    Figure 112016063710705-pat00017

    이고,
    변수 β는 임상정보 DB에 저장된 피검사 대상자의 연령, 성별 또는 체질량(BMI)을 포함하는 건강기록정보(PHR, personal health records)에 따른 매개변수이고;
    변수 χ는 상기 검색제어부가 산출한 분석데이터에 포함된 단일 유전자들의 유전형 또는 표현형별 다중 유전자의 유전형에 따른 매개변수임을 특징으로 하는 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제 1 항에 있어서,
    상기 결과리포트는,
    상기 분석데이터의 유전형이 속하는 구분영역(군집, class)과 유의성 정도를 나타내는 지표를 포함하여 구성됨을 특징으로 하는 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템.
  7. 삭제
  8. 삭제
  9. (A) 분석데이터 입력부가 DNA 시퀀싱(Sequencying)으로 구성된 분석데이터를 입력받는 단계와;
    (B) 하플로스캔(HaploScan) 엔진이 상기 분석데이터의 유전자 유전형을 판별하는 단계와;
    (C) 하플로스캔(HaploScan) 엔진이 상기 분석데이터의 유전자 변이정보를 획득하는 단계와;
    (D) 상기 제(B)단계 및 제(C)단계를 상기 분석데이터에 포함된 전체 유전자에 대하여 반복 수행하는 단계; 그리고
    (E) 검색제어부가 로지스틱 회귀분석(logistic regression)에 의해 산출된 산술식을 통해 질병원인 관계도(Πx)를 산출하여 질병원인 예측 결과를 도출하는 단계를 포함하여 수행되고:
    상기 제(B)단계의 유전형 판별은,
    분석데이터를 구성하는 단일 유전자에 대하여, 단일유전자 하플로(Haplo) 맵에 구분된 유전형 분류중 해당 유전형을 판별하는 단계; 및
    상기 분석데이터에 포함된 다중 유전자에 대하여, 다중유전자 하플로(Haplo) 맵에 구분된 유전형 분류중 해당하는 유전형을 판별하는 단계를 포함하여 수행되고:
    상기 제(C)단계의 변이정보 획득은,
    상기 분석데이터의 특정 로커스 유전자와 동일 로커스 유전자에 대한 단일유전자 하플로 프리컨시(Haplo Frequency) 정보를 대비하여 상기 분석데이터의 특정 로커스 유전자의 변이정보를 획득하는 단계; 및
    상기 분석데이터의 다중 유전자와 특정 표현형에 대한 다중 유전자 하플로 프리컨시(Haplo Frequency) 정보를 대비하여 상기 분석데이터의 다중 유전자의 변이정보를 획득하는 단계를 포함하여 수행되며:
    상기 단일유전자 하플로(Haplo) 맵은,
    대조군의 단일 유전자에 대하여, 인종별 반수체 및 형질 빈도를 점유 비율별로 구분(군집)하여 저장한 것이고:
    상기 단일유전자 하플로 프리컨시 정보는
    상기 단일 유전자 하플로(Haplo) 맵에 저장된 단일 유전자의 유전형을 구분하는 변이에 대한 변이정보를 저장한 것이며:
    상기 다중유전자 하플로(Haplo) 맵은,
    표현형별 대조군의 다중 유전자 변이분포를 점유비율로 구분(군집)하여 저장한 것이고:
    상기 다중유전자 하플로 프리컨시 정보는,
    상기 표현형에 대한 유전형을 구분하는 변이에 대한 변이정보이며:
    상기 질병원인 관계도 산술식은,
    Figure 112016063710705-pat00018

    이고,
    변수 β는 피검사 대상자의 연령, 성별 또는 체질량(BMI)을 포함하는 건강기록정보(PHR, personal health records)에 따른 매개변수이고;
    변수 χ는 상기 검색제어부가 산출한 분석데이터에 포함된 단일 유전자들의 유전형 또는 표현형별 다중 유전자의 유전형에 따른 매개변수임을 특징으로 하는 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 방법.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 제 9 항에 있어서,
    (F) 검색제어부가 산출된 결과물을 통해 결과리포트를 생성하는 단계를 더 포함하여 수행됨을 특징으로 하는 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 방법.
  16. 제 15 항에 있어서,
    상기 결과리포트는,
    상기 분석데이터의 유전형이 속하는 구분영역(군집, class)과 유의성 정도를 나타내는 지표를 포함하여 구성됨을 특징으로 하는 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 방법.
KR1020150187556A 2015-12-28 2015-12-28 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법 KR101693510B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020150187556A KR101693510B1 (ko) 2015-12-28 2015-12-28 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
US16/065,982 US20190087540A1 (en) 2015-12-28 2016-12-28 System and method for analyzing genotype using genetic variation information on individual's genome
PCT/KR2016/015389 WO2017116135A1 (ko) 2015-12-28 2016-12-28 개인 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150187556A KR101693510B1 (ko) 2015-12-28 2015-12-28 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR101693510B1 true KR101693510B1 (ko) 2017-01-17

Family

ID=57990569

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150187556A KR101693510B1 (ko) 2015-12-28 2015-12-28 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법

Country Status (3)

Country Link
US (1) US20190087540A1 (ko)
KR (1) KR101693510B1 (ko)
WO (1) WO2017116135A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102063781B1 (ko) * 2019-08-08 2020-01-08 주식회사 클리노믹스 유전적 구성비를 이용한 질병 또는 표현형의 위험도 예측 장치 및 방법
US10540324B2 (en) 2016-07-29 2020-01-21 Syntekabio Co., Ltd. Human haplotyping system and method
KR102087613B1 (ko) * 2019-08-08 2020-03-11 주식회사 클리노믹스 연관 표현형의 유전적 위험도를 결합한 질병의 위험도 예측 장치 및 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11521710B2 (en) * 2018-10-31 2022-12-06 Tempus Labs, Inc. User interface, system, and method for cohort analysis
CN111261230B (zh) * 2020-01-17 2023-09-15 中南大学湘雅三医院 基因组合确定方法和装置
CN112669906B (zh) * 2020-11-25 2021-09-28 深圳华大基因股份有限公司 用于衡量基因组不稳定性的检测方法、设备、终端设备和计算机可读存储介质
CN116205475A (zh) * 2022-12-01 2023-06-02 哈尔滨海吉雅科技有限公司 基于基因组算法的健康体检流程优化调度方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100996443B1 (ko) 2010-04-13 2010-11-24 (주)신테카바이오 고집적인덱스 데이터베이스 및 쿼리 데이터의 검색과 연산기능 분할에 의한 그래픽 프로세서 기반 병렬분산 처리 시스템 및 방법
KR101035959B1 (ko) 2010-11-18 2011-05-23 (주)신테카바이오 군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 방법 및 시스템
KR101117603B1 (ko) 2011-08-16 2012-03-07 (주)신테카바이오 상호 연계 가능한 다중 맵 생성을 통한 바이오메디컬 기능연관정보 제공 시스템 및 방법
KR20120053623A (ko) 2010-11-18 2012-05-29 (주)신테카바이오 군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 방법 및 시스템
KR101400717B1 (ko) 2012-12-28 2014-05-29 (주)신테카바이오 전체원자기반 고분자 복합체의 시뮬레이션 시스템 및 방법
KR101460520B1 (ko) 2012-11-12 2014-11-11 (주)신테카바이오 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
KR20150024231A (ko) 2014-02-21 2015-03-06 (주)신테카바이오 대립유전자의 바이오마커 발굴방법
KR20150024232A (ko) 2014-02-21 2015-03-06 (주)신테카바이오 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101295785B1 (ko) * 2011-10-31 2013-08-12 삼성에스디에스 주식회사 유전변이 데이터 베이스 구축 장치 및 방법
KR101332270B1 (ko) * 2012-04-09 2013-11-22 삼성에스디에스 주식회사 유전 정보 관리 장치 및 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100996443B1 (ko) 2010-04-13 2010-11-24 (주)신테카바이오 고집적인덱스 데이터베이스 및 쿼리 데이터의 검색과 연산기능 분할에 의한 그래픽 프로세서 기반 병렬분산 처리 시스템 및 방법
KR101035959B1 (ko) 2010-11-18 2011-05-23 (주)신테카바이오 군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 방법 및 시스템
KR20120053623A (ko) 2010-11-18 2012-05-29 (주)신테카바이오 군집 및 백본 데이터베이스 기반 바이오 메디컬 통합 정보 검색 방법 및 시스템
KR101117603B1 (ko) 2011-08-16 2012-03-07 (주)신테카바이오 상호 연계 가능한 다중 맵 생성을 통한 바이오메디컬 기능연관정보 제공 시스템 및 방법
KR101460520B1 (ko) 2012-11-12 2014-11-11 (주)신테카바이오 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
KR101400717B1 (ko) 2012-12-28 2014-05-29 (주)신테카바이오 전체원자기반 고분자 복합체의 시뮬레이션 시스템 및 방법
KR20150024231A (ko) 2014-02-21 2015-03-06 (주)신테카바이오 대립유전자의 바이오마커 발굴방법
KR20150024232A (ko) 2014-02-21 2015-03-06 (주)신테카바이오 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10540324B2 (en) 2016-07-29 2020-01-21 Syntekabio Co., Ltd. Human haplotyping system and method
KR102063781B1 (ko) * 2019-08-08 2020-01-08 주식회사 클리노믹스 유전적 구성비를 이용한 질병 또는 표현형의 위험도 예측 장치 및 방법
KR102087613B1 (ko) * 2019-08-08 2020-03-11 주식회사 클리노믹스 연관 표현형의 유전적 위험도를 결합한 질병의 위험도 예측 장치 및 방법
WO2021025218A1 (ko) * 2019-08-08 2021-02-11 주식회사 클리노믹스 연관 표현형의 유전적 위험도를 결합한 질병의 위험도 예측 장치 및 방법
WO2021025219A1 (ko) * 2019-08-08 2021-02-11 주식회사 클리노믹스 유전적 구성비를 이용한 질병 또는 표현형의 위험도 예측 장치 및 방법

Also Published As

Publication number Publication date
WO2017116135A1 (ko) 2017-07-06
US20190087540A1 (en) 2019-03-21

Similar Documents

Publication Publication Date Title
KR101693504B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
KR101693510B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
KR102194410B1 (ko) Snp를 이용한 질병 관련 유전체 분석 시스템 및 장치
US20200327956A1 (en) Methods of selection, reporting and analysis of genetic markers using broad-based genetic profiling applications
AU2002359549B2 (en) Methods for the identification of genetic features
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
WO2019169049A1 (en) Multimodal modeling systems and methods for predicting and managing dementia risk for individuals
KR101460520B1 (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
De et al. Bioinformatics challenges in genome-wide association studies (GWAS)
US20120310539A1 (en) Predicting gene variant pathogenicity
Sharo et al. StrVCTVRE: A supervised learning method to predict the pathogenicity of human genome structural variants
JP2005276022A (ja) 診断支援システムおよび診断支援方法
JP2003021630A (ja) 臨床診断サービスを提供するための方法
KR101693717B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 생리활성변이 분석 시스템
KR102382707B1 (ko) 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
CN112735599A (zh) 一种判断罕见遗传性疾病的评估方法
Favalli et al. Machine learning-based reclassification of germline variants of unknown significance: The RENOVO algorithm
US20050149271A1 (en) Methods and apparatus for complex gentics classification based on correspondence anlysis and linear/quadratic analysis
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
KR102085169B1 (ko) 개인 유전체 맵 기반 맞춤의학 분석 시스템 및 이를 이용한 분석 방법
Kulm et al. Benchmarking the accuracy of polygenic risk scores and their generative methods
KR102041504B1 (ko) 환자 계층화를 위한 맞춤의학 분석 플랫폼
Liu et al. Cross-generation and cross-laboratory predictions of Affymetrix microarrays by rank-based methods
Sabbagh et al. Clinico-biological refinement of BCL11B-related disorder and identification of an episignature: A series of 20 unreported individuals
KR102041497B1 (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법

Legal Events

Date Code Title Description
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191021

Year of fee payment: 4