WO2017116123A1

WO2017116123A1 - 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템

Info

Publication number: WO2017116123A1
Application number: PCT/KR2016/015355
Authority: WO
Inventors: 정종선
Original assignee: (주)신테카바이오
Priority date: 2015-12-28
Filing date: 2016-12-28
Publication date: 2017-07-06
Also published as: KR101693504B1

Abstract

본 발명은 게놈 프로젝트에 의해 구축된 다수 전장유전체 DB와 입력된 개인 유전체 정보를 비교하여 개인 유전체로부터 유전정보를 분석하여 질병원인을 발굴 제공하는 시스템에 관한 것으로, 본 발명은 개인 유전체 정보를 포함하는 분석데이터를 입력받는 분석데이터 입력부와; 데이터베이스에 저장된 유전자 정보와 상기 분석 대상 유전체 정보를 대비하여 각 유전자의 유전형, 표현형에 대한 유전형, 희귀변이, 질병변이 및 생리활성변이 중 어느 하나 이상을 포함하는 분석 결과를 산출하여 상기 분석결과를 통해 결과리포트를 생성하는 검색제어부; 그리고 상기 분석데이터와 대비하기 위한 대조군의 유전자 정보가 저장되는 저장부를 포함하여 구성된다. 이와 같은 본 발명에 의하면, 대조군 데이터 베이스에 저장된 유전자 변이정보와 분석대상인 개인 유전체를 효과적으로 대비하여, 개인 유전체의 유전형 판별 및 유의성 변이 검출 효율이 향상된 유전자 분석 플랫폼을 제공할 수 있는 효과가 있다.

Description

개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템

본 발명은 게놈 프로젝트에 의해 구축된 다수 전장유전체 DB와 입력된 개인 유전체 정보를 비교하여 개인 유전체로부터 유전정보를 분석하여 제공하는 시스템에 관한 발명이다.

현재 IT 시장의 추세는 구글(Google), 페이스북(fasebook), 아마존(amazon), 클라우드컴퓨팅 및 유비쿼터스(Ubiquitous) 순으로 변화하고 있고, 이와 동시에 바이오 메디컬, 생물정보 및 유전체 영역도 바이오 구글, 시스템 바이오, 개인별 맞춤의학 그리고 정밀의학 (precision medicine) 순으로 새로운 트랜드에 맞춰 바뀌어 가고 있다. 특히 포스트 인간게놈프로젝트는 차세대 시퀀싱 기술이 급격하게 발전하여 개인별 맞춤의학을 현실화하기 위한 노력이 활발히 진행되고 있다.

현재 차세대 시퀀싱 기술은 인간 1명 (x30)의 전장유전체를 시퀀싱(해독)하고 분석하는데 약 1주일 정도 소요가 되는 것으로 알려져 있다. 그리고 현재 전 세계에 차세대 시퀀서가 100,000여 대가 공급된 것으로 보고되었고, 제3세대 시퀀서 (Ion Torrent: 2.5세대, Pacific BioScience의 제3세대)의 주요 개발회사들에게 많은 자금이 투자된 것으로 보고되었다.

그 이외에 전 세계적으로는 해당분야는 모든 사업 중에서도 가장 빠르게 발전 및 개발이 되는 분야이다. 이러한, 추세대로 진행이 되면 향후 2~3년 후에는 1명의 전장 유전체 시퀀싱 및 분석이 약 $1,000이하로 낮아질 것으로 예상된다. 위의 차세대기술기반의 가장 활용성이 높고 바로 실용화되는 기술은 임상유전체(clinical genomics), 약물유전체학(pharmaco - genomics) 및 중개 임상 (translational medicine)있다, 그리고 최근에 이러한 임상유전체가 의학유전체(medical genomics)로 변신이 되고 있고, 이러한 의학유전체는 환자계층화(patient stratification)기술과 더불어 미국 오바마 대통령이 언급한 정밀의학 (precision medicine)이라는 새로운 학문 및 신 조어를 만들어 내게 되었다.

이와 같은, 유전체 변이 관련 정보는 매년 증가하고 있으며, 본 발명은 검증 데이터의 확장에 의해 분석 정확도 영역이 지속적으로 확대될 것이다.

한편, 본 출원인은 언급된 유전자 분석 분야의 기술적 요구사항을 개선하기 위해 지속적인 기술의 개발을 수행하고 있다.

이와 같은 노력의 결과, 정밀의학 (precision medicine)을 위한, 바이오 빅데이터와 관련된, 임상관련 정보, 단백체 및 유전체 정보, 그리고 이들의 분석 속도를 향상시키기 위한 분석 시스템 구축, 등을 위한 방법을 개발하였고, 특히, 분석속도를 위한 GPU(graphic process unit) 기반의 분석시스템을 개발하였고(특허등록: 10-0996443), 데이터의 비교 속도를 향상시키기 위한 기법인 RVR(records virtual rack)분석 툴의 특징은 파일을 기반으로는 정보 검색 방법(특허등록: 10-0880531, 특허등록: 10-1035959, 및 특허등록: 10-1117603)을 개발하였다.

또한, RVR 및 GPU(graphic process unit)에 기반하여 단백체에 적용시킨 (특허등록: 10-1400717), 변이의 정의(variant calling) 및 대조군과 개인 유전체 사이의 희귀변이 정도를 효율적으로 판단하기 위하여 대립유전자깊이기반 ADISCAN 분석 툴을 개발하였다 (특허등록: 10-1460520, 10-1542529, 및 10-2014-0020738).

그리고 유전체정보를 효율적으로 관리를 하기 위한 통합유전체 DB 생성, 질병원인을 위한 변이발굴 및 환자계층화를 위한 유전형 계산 방법 (특허등록: 10-2015-0187554, 10-2015-0187556, 및 10-2015-0187559) 및 유전체정보에서 휴먼하플로 타이핑을 계산하는 방법 (특허출원: 10-2016-0096996)을 개발하였다.

또한, 통합유전체 DB 같은 빅데이터를 위한 스토리지(storage) 운용에 특화된 미들웨어(middleware)는 한국전자통신연구원(ETRI)에서 개발한 병렬분산 환경에서 동시에 수천 개의 유전체 벌크 데이터 분석이 가능하게 만든 마하수퍼컴퓨팅 시스템 (특허등록 10-1460520, 10-1010219, 10-0956637, 10-093623, 10-2013-0005685, 10-2012-0146892 및 10-2013-0004519)이 개발되었다.

본 출원인은 한국전자통신연구원으로부터 마하시스템을 제공받아 임상환경에 적용을 위한 바이오 빅데이터를 활용한 최적화 환경을 갖추고, 정밀의학 구현을 위한 통합유전체분석 시스템과 연동된 국내 첫 수퍼컴퓨팅 시스템을 개발하였다.

특히, 마하-Fs (유전체와 같은 버크데이터용 초고속 I/O를 위한 스토리지 시스템)는 일반 클라우드컴퓨팅 환경에 맞추어 졌지만, 본 출원인은 재현성 및 정밀성 그리고 시스템의 한계를 명확하게 정의하여, 임상환경 즉 병원에서 진단용으로 사용가능한 마하-FsDx를 개발하였다. 그리고 아래 본 출원인의 선행툴원 (001) 내지 (019)는 개인 유전체 맵 기반 맞춤의학 분석 플랫폼을 위한 기술적 요소를 정리한 것이다.

[선행출원 특허 목록]

(특허문헌 1) (001) 대한민국 등록특허 제10-0880531호

(특허문헌 2) (002) 대한민국 등록특허 제10-0996443호

(특허문헌 3) (003) 대한민국 등록특허 제10-1035959호

(특허문헌 4) (004) 대한민국 등록특허 제10-1117603호

(특허문헌 5) (005) 대한민국 등록특허 제10-1400717호

(특허문헌 6) (006) 대한민국 등록특허 제10-1460520호

(특허문헌 7) (007) 대한민국 등록특허 제10-1542529호

(특허문헌 8) (008) 대한민국 특허출원 제10-2015-0187554호

(특허문헌 9) (009) 대한민국 특허출원 제10-2015-0187556호

(특허문헌 10) (010) 대한민국 특허출원 제10-2015-0187559호

(특허문헌 11) (011) 대한민국 특허출원 제10-2016-0096996호

(특허문헌 12) (012) 대한민국 등록특허 제10-0834574호

(특허문헌 13) (013) 대한민국 등록특허 제10-1010219호

(특허문헌 14) (014) 대한민국 등록특허 제10-0956637호

(특허문헌 15) (015) 대한민국 등록특허 제10-0936238호

(특허문헌 16) (016) 대한민국 특허출원 제10-2013-0005685호

(특허문헌 17) (017) 대한민국 특허출원 제10-2012-0146892호

(특허문헌 18) (018) 대한민국 특허출원 제10-2013-0004519호

(특허문헌 19) (019) 대한민국 특허출원 제10-2016-0172053호

본 발명은 상기와 같은 상용화된 “개인 유전체맵 기반 맞춤의학 분석 플랫폼”에 기반 하여 개인 유전체의 맞춤의학을 실현하기 위한 요구사항을 개선하기 위해 안출된 것으로, 개인의 유전체분석(다양한 유전형의 하플로 계층 ID, 개인의 프로파일) 및 병원임상정보(특정 표현형, 혹은 여러 표현형)기반 표준화 ID세트의 검출 속도 및 효율을 향상시킬 수 있는 데이터베이스 스키마가 적용된 유전자 분석 플랫폼을 제공하기 위한 것이다.

또한, 본 발명은 검출된 유전체의 유전형 (혹은, 개인프로파일) 정보를 사용자 인식이 용이하도록 형태로 제공하는 표준화 ID세트 생성 시스템 및 리포팅 모듈이 포함된 유전자 분석 플랫폼을 제공하기 위한 것이다.

질병 및 약물(혹은 음식물)반응 원인 계산 시스템은 집단의 유전정보 및 임상정보를 활용하여 다중 희귀분석 계수를 계산하고, 개인의 유전정보 및 임상정보를 변수로 하여 희귀함수의 결과인 관계지수(파이, π) 값을 계산한다. 여기서 관계지수(파이, π)는 개인의 유전체분석(유전형 마커ID) 및 병원임상정보(특정 표현형, 혹은 여러 표현형)기반 표준화 ID세트를 받게 되고 그 값들을 입력으로 하여 계산한다. 그리고 관계지수(파이, π)가 0.7 - 1 의 영역에 있으면, 그 개인의 특정 유전 마커 ID가 주어진 표현형의 직 (혹은 간접) 원인이 된다.

도 1에 도시된 바와 같이, 본 발명에 의한 질병 및 약물(음식물) 반응 원인 계산 시스템은 크게 개인유전체분석플랫폼, 통합유전체DB, 개인유전체 기반 질병(약물) 반응원인 산출부 및 질병(약물) 반응원인 계산 알고리즘을 포함하여 구성된다.

상기 개인유전체분석플랫폼은 도 1의 ① 내지 ⑤를 포함하는 구성으로, 이에 대하여 설명하면, 표준화 ID set 시스템은 유전형 (trait)계산 이라는 총칭을 사용한다. 학자마다 다른 의견을 가질 수 있지만, 본 특허에서의 유전형(trait) 정의는 표준화 ID 세트 및 유사한 방식으로 정한다.

즉, 상기 표준환 ID set에는 하플로계층화 기반 LD블럭 하플로계층, Exon 하플로계층, Gene마커 하플로계층, 다중gene마커 하플로계층, GWAS마커 하플로계층과, 본 특허에서의 생리활성 단일 변이 혹은 셋트 들의 BAV마커 ID 그리고 공용 독립 (혹은 개별) 바이오마커 DB에서의 마커들에 ID를 말하고 GWAS마커, Clinvar마커, eQTL마커, 단백체마커, STR마커, Fusion마커 등이 여기에 속한다.

또한, 병원 혹은 검진센터에서 보유하고 있는 전자의무기록(EMR: electronic medical record), 전자건강기록(EHR: electronic health record) 및 개인건강기록(PHR: personal health record)등과 같은 진단 표현형정보들이 여기에 포함한다.

그리고 약물 및 건강식품 (혹은 음식) 임상 (IIT: investigator initiative clinical trial, SIT: sponsor initiative clinical trial, PMS: post-market survey)의 약물 반응 결과물 (drug responder/non-responder)들과 같은 약물 임상 표현형정보 여기에 속한다.

그리고 상기 통합유전체DB는 도 1의 ⑥을 포함하는 구성으로, 통합유전체DB와 병원의료체계의 표준 표현형 질병정보를 사용하여 계수 값 계산을 위한 데이터베이스를 말한다. 여기서, 표현형 당 다른 다중 계수 값 들이 계산이 되고, 필요에 따라, 다중 표현형에 대한 다중 계수 값 들이 계산이 될 수 있다.

또한, 상기 개인유전체 기반 질병(약물) 반응원인 산출부는 도 1의 ⑧을 포함하는 구성으로, 개인 유전체 및 병원 표현형정보를 산출하는 역할을 수행한다.

이와 같이, 개인 유전체 및 병원 표현형정보가 주어지면, 상기 질병(약물) 반응원인 계산 알고리즘에 의해 관계지수(파이, π)를 산출한다.

관계지수(파이, π)는 다중 희귀함수(multiple logistic regression)의 결과물로, 상기 관계지수(파이)는 0 ~ 1까지의 확률 점수로 주어지고, 0.7 - 1에 가까우면 주어진 표현형을 가질 확률이 높고, 0 - 0.3 이면 주어진 표현형의 반대이다. 그리고, 0.4 - 0.6은 표현형(phenotype)이 중간 단계에 있다는 의미이다.

특히, 하플로타이핑(haplotyping)기반 하플로계층화의 대상은, LD(linkage disequilibrium)블럭 하플로계층, Exon 하플로계층, Gene마커 하플로계층, 다중gene마커 하플로계층, GWAS(genome wide association study)마커 하플로계층에서의 공통점은, 인간유전자들의 특정단위를 하프로타이핑을 수행하고, 그중에서 중요한 마커(예, GWAS마커)만 사용가능하고, 혹은 전체 서열(exon, gene, 혹은 LD플럭)을 사용 가능하다. 그리고, 이렇게 생성된 하플로 계층화 ID는 총칭인 유전형 (trait)으로 명명될 수 있다. 특히, 하플로타이핑(haplotyping)기반 하플로계층화도인간 표준화 ID세트로 사용될 수 있다.

한편, 본 발명은 개인 유전체 정보를 포함하는 분석데이터를 입력받는 분석데이터 입력부와; 데이터베이스에 저장된 유전자 정보와 상기 분석 대상 유전체 정보를 대비하여 희귀변이 또는 질병변이를 포함하는 분석 결과를 산출하여 상기 분석결과를 통해 결과리포트를 생성하는 검색제어부; 그리고 상기 분석데이터와 대비하기 위한 대조군의 유전자 정보가 저장되는 저장부를 포함하여 구성되는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템을 포함한다.

이때, 상기 저장부는, 대조군 집단의 전장 유전체 정보를 인종을 포함하는 구분기준에 따라 구분되어 저장되는 Allele depth DB를 포함하여 구성되며: 상기 검색제어부는, 상기 분석데이터에 포함된 각 염기를 상기 Allele depth DB와 대비하여, 집단대조군 대비 희귀성을 산출하는 ADISCAN 엔진을 포함하여 구성될 수 있다.

그리고 상기 저장부는, 복수의 질병 별로 각 질병에 관련하여 공지된 유전자 변이 정보를 저장하는 IDA DB를 포함하여 구성되고; 상기 검색제어부는, 상기 분석데이터를 상기 IDA DB와 대비하여 상기 분석데이터에 포함된 공지된 유전자 관련 질병변이를 검출하는 IDA 검색엔진을 포함하여 구성될 수도 있다.

또한, 상기 저장부는, 임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성될 수도 있다.

그리고 상기 검색제어부는, 로지스틱 회귀분석(logistic regression)에 의해 산출된 산술식을 통해 질병원인 관계도(Πx)를 산출하여 질병원인 예측 결과를 도출할 수도 있다.

이때, 상기 질병원인 관계도 산술식은,

이고, 여기서, π는 관계지수이고, 계수 β는 집단유전체 혹은 집단 임상정보 DB에 저장된 집단 대상자의 건강기록정보 EMR, EHR 및 PHR에 유전형 (표준화 IT 세트)기반 계산된 계수 (coefficients)이며; 변수 χ는 상기 검색제어부가 산출한 분석데이터에 포함된 유전형 (표준화 IT 세트)에 따른 매개변수일 수도 있다.

그리고 상기 저장부는, 상기 분석데이터와 대비하기 위하여 대조군 유전자의 유전형 정보를 저장한 하플로스캔(HaploScan) DB를 포함하여 구성되고; 상기 검색제어부는, 상기 분석데이터를 상기 하플로스캔(HaploScan) DB와 대비하여, 상기 분석데이터의 유전형을 판별하는 하플로스캔(HaploScan) 엔진을 포함하여 구성될 수도 있다.

이때, 상기 하플로스캔(HaploScan) DB는, 단일유전자에 대한 유전형 정보를 저장하는 단일유전자정보데이터베이스와; 표현형별 다중 유전자의 유전형 정보를 저장하는 다중유전자정보 데이터베이스를 포함하여 구성될 수도 있다.

그리고 상기 단일유전자정보데이터베이스는, 대조군의 단일 유전자에 대하여, 인종별 반수체 및 형질 빈도를 점유 비율별로 구분(군집)하여 저장한 단일유전자 하플로(Haplo) 맵과; 상기 단일 유전자 하플로(Haplo) 맵에 저장된 단일 유전자의 유전형을 구분하는 변이에 대한 변이정보를 저장하는 단일유전자 하플로 프리컨시 정보를 포함하여 구성될 수도 있다.

또한, 상기 다중유전자정보 데이터베이스는, 표현형별 대조군의 다중 유전자에 대하여 유전형 연관 염기의 변이분포를 인종별로 구분(군집)하여 점유비율에 따라 저장한 다중유전자 하플로(Haplo) 맵과; 상기 다중유전자 하플로(Haplo) 맵에 저장된 상기 표현형에 대한 유전형을 구분하는 변이에 대한 변이정보를 저장하는 다중유전자 하플로 프리컨시 정보를 포함하여 구성될 수도 있다.

그리고 상기 검색제어부는, 검출된 변이 유전자 특성을 전장 유전자에 대하여, 유전형에 따라 분류하여 누적된 값을 점(point)으로 가시화한 맨하탄 플롯(Manhattan plot) 상에 표시한 결과 리포트를 생성할 수도 있다.

한편, 상기 맨하탄 플롯은, 변이 유전자의 유의성 여부를 가이드하는 설정값(cut-off)이 표시될 수도 있다.

위에서 살핀 바와 같은 본 발명에 의한 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템에서는, 대조군 데이터 베이스에 저장된 유전자 변이정보와 분석대상인 개인 유전체를 효과적으로 대비하여, 개인 유전체의 유전형 판별 및 유의성 변이 검출 효율이 향상된 유전자 분석 플랫폼을 제공할 수 있는 효과가 있다.

도 1은 본 발명에 의한 질병 및 약물 반응 원인 계산 시스템의 개념적 구성을 도시한 개념도.

도 2는 본 발명이 적용된 유전자 분석 서비스 구성을 도시한 예시도.

도 3은 본 발명의 구체적인 실시예에 의한 질병원인 발굴 시스템의 주요 구성을 도시한 블록도.

도 4는 본 발명에 의한 질병원인 발굴 시스템을 구성하는 주요 데이터베이스의 구성을 도시한 예시도.

도 5는 본 발명의 구체적인 실시예를 구성하는 Haplotype DB의 구성예를 도시한 예시도.

도 6은 본 발명의 구체적인 실시예를 구성하는 Allele depth DB의 구성예를 도시한 예시도.

도 7은 본 발명의 구체적인 실시예에 의한 Haplotype ID 기반의 CPL 생성예를 도시한 예시도.

도 8은 본 발명의 구체적인 실시예에 의한 BAV/Biomarker DB의 구성 예를 도시한 예시도.

도 9는 본 발명의 구체적인 실시예에 의한 유전정보 분석 방법을 도시한 흐름도.

도 10은 본 발명의 구체적인 실시예에 의한 Haplotype DB 생성예를 도시한 예시도.

도 11은 본 발명에 의한 IDA 시스템의 기능 구성을 도시한 예시도.

도 12은 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 일예를 도시한 예시도.

도 13는 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 다른 예를 도시한 예시도.

도 14은 본 발명의 구체적인 실시예에 의한 생리활성변이 검증 예를 도시한 예시도.

도 15는 본 발명의 구체적인 실시예에 의한 임상정보기반 질병 및 약물(음식물) 반응 원인 계산 시스템 구성을 도시한 개념도.

이와 같은 본 발명은, 개인 유전체 정보를 포함하는 분석데이터를 입력받는 분석데이터 입력부와; 데이터베이스에 저장된 유전자 정보와 상기 분석 대상 유전체 정보를 대비하여 각 유전자의 희귀변이 및 질병변이에 대한 분석 결과를 산출하여 상기 분석결과를 통해 결과리포트를 생성하는 검색제어부; 그리고 상기 분석데이터와 대비하기 위한 대조군의 유전자 정보가 저장되는 저장부를 포함하여 구성된다.

이때, 상기 저장부는 대조군 집단의 전장 유전체 정보를 인종을 포함하는 구분기준에 따라 구분되어 저장되는 Allele depth DB를 포함하여 구성되며: 상기 검색제어부는, 상기 분석데이터에 포함된 각 염기를 상기 Allele depth DB와 대비하여, 집단대조군 대비 희귀성을 산출하는 ADISCAN 엔진을 포함하여 구성되는 것이 바람직하다.

그리고 상기 저장부는, 복수의 질병 별로 각 질병에 관련하여 공지된 유전자 변이 정보를 저장하는 IDA DB를 포함하여 구성되고; 상기 검색제어부는, 상기 분석데이터를 상기 IDA DB와 대비하여 상기 분석데이터에 포함된 공지된 유전자 관련 질병변이를 검출하는 IDA 검색엔진을 포함하여 구성되는 것이 바람직하다.

또한, 상기 저장부는, 임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성되고: 상기 검색제어부는, 로지스틱 회귀분석(logistic regression)에 의해 산출된 산술식을 통해 질병원인 관계도 관계지수(파이, π)를 산출하여 질병원인 예측 결과를 도출하되:

상기 질병원인 관계도 산술식은,

이고, 유전형 혹은, 개인 프로파일 (표준화 ID set)은 내지 에서 주어진 다양한 ID 생성 시스템을 활용하여, 집단유전체 및 그들의 병원의무기록, EMR(electronic medical record), EHR(electrical health record), 및 PHR(personal health record)을 통하여 계산을 하게 되고, 주어진 ID 체계를 사용하여 의 계수 변수 β들을 생성한다.

그리고 개인의 정보는 개인 유전체 및 그 개인의 병원기반 표현형 정보를 표준을 사용하여 개인 프로파일 (표준화 ID set)을 생성하고, 그 ID들은 변수 χ를 다중 로지스틱 회귀분석 산술식에 제공한다.

이하에서는 첨부된 도면을 참조하여 본 발명의 구체적인 실시예에 의한 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템을 상세히 살펴보기로 한다.

먼저 본 발명에 의한 질병원인 발굴 시스템이 적용되는 유전자 분석 서비스의 구성을 간단히 살펴보기로 한다.

도 2에 도시된 바와 같이, 유전자 분석 서비스는 병원 등의 개인 유전자 수집 기관으로부터 혈액 등의 샘플을 수집하여, 해당 샘플을 DNA 시퀀싱회사에 진단을 의뢰하게 된다.

그리고 상기 DNA 시퀀싱회사는 수집된 샘플로부터 DNA custom chip을 제작하거나 DNA sequencing(NGS, next generration sequencing)을 수행한다. 물론, 최근에는 기술적 발전에 따라 다양한 방법에 의해 DNA sequencing을 생성할 수 있으므로, 상기 DNA sequencing 생성 방법은 DNA 시퀀싱회사의 기술 수준에 따라 다양한 방법에 의해 수행될 수 있다.

이와 같이 생성된 DNA sequencing은 본 발명과 같은 유전정보분석시스템을 통해 개인 유전체에 포함된 유전적 정보가 분석된다.

이때, 본 발명에 의한 유전정보 분석 시스템은 개인유전체맵 플랫폼에 기반하여 유전정보를 분석한다.

그리고 분석된 분석정보는 병원 등의 진단기관 또는 수요자에게 전달된다.

물론, 상기 DNA 시퀀싱회사로부터 DNA 더미 데이터가 제공되는 경우, 본 발명에 의한 질병원인 발굴 시스템은 이로부터 고집적 인덱싱 파일로 형성하여 빅데이터인 유전체 염기서열을 분석한다.

이에 대하여는 이후에 도 10을 설명함에 있어 다시 설명하기로 한다.

즉, 본 발명은 DNA sequencing 정보로부터 개인 유전체에 포함된 유전적 정보를 분석하는 질병원인 발굴 시스템에 관한 것으로, 이하에서 본 발명에 의한 질병원인 발굴 시스템에 대하여 상세히 살펴보기로 한다.

도 3은 본 발명의 구체적인 실시예에 의한 질병원인 발굴 시스템의 주요 구성을 도시한 블록도이며, 도 4는 본 발명에 의한 질병원인 발굴 시스템을 구성하는 주요 데이터베이스의 구성을 도시한 예시도이고, 도 5는 본 발명의 구체적인 실시예를 구성하는 Haplotype DB의 구성예를 도시한 예시도이며, 도 6은 본 발명의 구체적인 실시예를 구성하는 Allele depth DB의 구성예를 도시한 예시도이고, 도 7은 본 발명의 구체적인 실시예에 의한 Haplotype ID 기반의 CPL 생성예를 도시한 예시도이며, 도 8은 본 발명의 구체적인 실시예에 의한 BAV/Biomarker DB의 구성 예를 도시한 예시도이다.

도 3에 도시된 바와 같이, 본 발명에 의한 질병원인 발굴 시스템은 분석데이터 입력부(100), 검색제어부(200), 결과 리포트 제공부(300), Haplotype DB(400), Allele depth DB(500), IDA DB(600), BAV/Biomarker DB(700), Information DB(800), 하플로 ID 생성부(810) 및 마커 ID 생성부(820)를 포함하여 구성된다.

상기 분석데이터 입력부(100)는 개인 유전체 정보를 입력받는 부분으로, DNA sequencing 데이터를 입력받는다.

그리고 상기 검색제어부(200)는 입력된 DNA sequencing으로부터 각 유전자의 유전형, 표현형에 대한 유전형, 희귀변이, 질병변이 및 생리활성변이를 검출하는 부분으로, 이를 위해 상기 검색제어부(200)는 HaploScan엔진(210), ADISCAN 엔진(220), IDA 검색엔진(230) 및 생리활성변이 검색엔진(240)을 포함하여 구성된다.

상기 HaploScan 엔진(210)은 상기 분석데이터(입력된 DNA Sequencying)를 후술할 Haplotype DB(400)에 저장된 Haplo MAP(414, 424)과 대비하여 유전형을 판별하는 역할을 수행한다.

상기 Haplotype DB(400)의 구조 및 상기 HaploScan 엔진(210)의 검색 방식은 이후 다시 상세히 설명하기로 한다.

그리고 상기 ADISCAN 엔진(220)은 입력된 분석데이터에 포함된 각 염기에 대하여 Allele depth DB(500)와 ADISCAN 방식으로 대비하여, 집단대조군 대비 희귀성을 산출하는 역할을 수행한다.

또한, 상기 IDA 검색엔진(230)은 이미 알려진 유전자 관련 질병변이를 검출하는 것으로, 알려진 질병변이가 저장된 IDA DB(600)와 분석데이터를 비교하여 질병변이를 검출한다.

그리고 상기 생리활성변이 검색엔진(240)은, 단백질 대사관련 유전 변이를 검출하는 것으로, 크게 단백질-약물, 단백질-DNA 및 단백질-단백질 결합에 관여하는 아미노산에 대한 유전변이 여부를 판별한다.

이때, 상기 생리활성변이 검색엔진(240)은 BAV/Biomarker DB(700)와 분석데이터를 비교하여 상기 분석 데이터 중 상기 BAV/Biomarker DB(700)에 저장된 단백질 결합 관련한 아미노산에 대응하는 염기들의 변이 여부를 판별하게 된다.

한편, 상기 결과리포트생성부(300)는 HaploScan 엔진(210) 및 ADISCAN 엔진(220)에 의해 판별된 유전형과 각 염기의 유의성(희귀성)을 진단자(또는 사용자)가 가시적으로 용이하게 파악할 수 있도록 맨하탄 플롯 및 방사형 변이 유의성 차트를 이용하여 결과리포트를 생성한다.

즉, 상기 검색제어부(200)는 상기 Haplotype DB(400)를 기반으로, 하플로 ID 생성부(810)를 통해 LD 블럭 하플로계층 ID, Exon 하플로계층 ID, Gene 마커 하플로계층 ID, 다중 Gene 마커 하플로계층 ID, GWAS 마커 하플로계층 ID 등의 하플로계층 ID들을 생성하고, 상기 마커 ID 생성부(820)를 통해 Bav 마커 ID, GWAS 마커 ID, Clinvar 마커 ID, eQTL 마커 ID, 단백체 마커 ID, STR 마커 ID, Fusion 마커 ID 등의 마커 ID를 생성한다.

이때, 결과물인 ID(바코드형태로 표현될 수 있음)들의 모음을 ‘표준화 ID 세트(개인 프로파일)’이라 한다.

그리고 최종 결과를 ID들에 대한 다양한 질병/약물반응 원인 및 감수성 결과 정보(관계지수 π)와 함께 제공한다.

그리고 생성된 상기 결과리포트는 결과리포트제공부(300)를 통해 사용자에게 제공된다.

이하에서는 본 발명에 의한 질병원인 발굴 시스템의 데이터베이스 구조를 설명하기로 한다.

본 발명에 의한 질병원인 발굴 시스템은 크게 Haplotype DB(400)와 Allele depth DB(500), IDA DB(600), BAV/Biomarker DB(700) 그리고 Information DB(800)를 포함하여 구성된다.

즉, 도 4에 도시된 본 발명에 의한 통합 유전체 DB는 Haplotype DB, allele depth DB 및 IDA DB를 포함하여 구성되는데, 상기 Haplotype DB는 전체염기의 포맷을 IUPAC포맷으로 생성한 DB이고, genotype & phenotype DB는 유전형질 및 표현형정보를 포함하여 질병연관성정보, 다양한 상관관계 및 QC를 가능하게 구성된 DB이며, allele depth DB는 변이의 희귀성 및 검증 계산을 위한 DB이다.

상기 Haplotype DB(400)는 분석 대상인 개인 유전체 정보로부터 유전형을 산출하기 위해 대조군 유전자의 유전형을 정리한 DB로, 상기 Haplotype DB(400)는 도 3에 도시된 바와 같이, 단일유전자정보데이터베이스(410)와, 다중유전자정보 데이터베이스(420)를 포함하여 구성된다.

그리고 상기 단일유전자정보 데이터베이스(410)는 단일유전자에 대한 유전형들을 저장한 데이터베이스로, 단일유전자 Haplo 맵(414)과 단일유전자 하플로 프리컨시 정보(412)를 포함하여 구성된다.

한편, 도 5에 도시된 바와 같이, 상기 단일유전자 Haplo 맵(414)은 전체 대조군의 동일 유전자에 대하여, 변이 분포를 점유 비율 별로 구분(군집)하여 저장한 것으로, 각 유전자를 활용한 세계 26개 인종의 반수체 (haplotype)계산 및 특정 형질의 빈도 및 각 서브-인종의 빈도를 계산하여 정리한 것이다.

그리고 상기 단일유전자 하플로 프리컨시 정보(412)는 상기 각각의 변이에 대한 정보를 저장한 것이다. 이때, 상기 단일유전자 하플로 프리컨시 정보(412)는 변이정보를 직접 저장한 데이터일 수도 있고, 후술할 Information DB(800)에 저장된 정보의 위치를 표시하는 식별인자로 구성될 수도 있다. 즉, 상기 단일유전자 하플로 프리컨시 정보(412)는 인간의 39,000개 유전자와 5 천명의 세계인종에서의 각 유전자에서 빈도 및 다양한 질병연관 주석정보를 제공한다.

또한, 상기 다중유전자정보 데이터베이스(420)는 다중유전자에 대한 변이 분포 및 정보를 제공하기 위한 데이터베이스로, 다중유전자 Haplo 맵(424)과 다중유전자 하플로 프리컨시 정보(422)를 포함하여 구성된다.

이때, 상기 다중유전자 Haplo 맵(424)은 다중유전자에 의해 표현형이 특정되는 유전 특성에 있어, 각 표현형 별로 전체 대조군의 관련 염기에 대한 변이 분포를 점유 비율 별로 군집화하여 저장한 것으로, 표현형 (phenotype)의 원인 변이를 활용한 세계 26개 인종의 반수체(haplotype)계산 및 특정 형질의 빈도 및 각 서브-인종의 빈도를 계산하여 정리한 것이다.

그리고 상기 다중유전자 하플로프리컨시 정보(422)는 상기 각각의 변이에 대한 정보를 저장한 것이다. 이때, 상기 다중유전자 하플로 프리컨시 정보(422) 역시 변이정보를 직접 저장한 데이터일 수도 있고, 후술할 Information DB(800)에 저장된 정보를 위치를 표시하는 식별인자로 구성될 수도 있다.

즉, 상기 다중유전자 하플로 프리컨시 정보(422)는 인간의 39,000개 유전자와 5천명의 세계인종에서의 표현형(phenotype) 연관 유전자 셋트 들의 빈도 및 다양한 질병연관 주석정보를 제공한다.

이를 도 5에 도시된 예를 통해 설명하면, Haplotype DB(400)의 X축은 30억 염기서열이고, 상기 염기서열에서 유전자는 39,000개가 있다. 이의 스키마에서 특정 유전자(i)에서 변이가 N(개) 발견이 되었다면, 상기 변이를 Y축: 5,000명에서 haplotype 및 genotype 모두를 사용하여 군집화를 할 수 있고, 군집화가 된 형태가 HaploMap이된다.

이때, 각 군집은 각 유전형을 의미하는데 이들의 내용을 살펴보면, 첫 번째 GP*47*0 는 그 유전형이 세계인에서 47%를 차지하고, 세계인의 평균과 비교해서 0 bit 다르고(동일하고), 두 번째 유전형 GP*25*1은 세계인에서 25%를 차지함을 의미하며, 세계인의 평균과 비교해서 1 bit 다르다는 것을 의미한다.

또한, 다중유전기반 HaploMap도 동일한 방식에 의해 분류 및 구분된다.

상기 Allele depth DB(500)는 대조군 집단의 유전체 정보를 저장한 DB로, 구체적으로 집단유전체는 글로벌 게놈프로젝트 수행에 의해 공지된 유전체 정보가 활용될 수 있다.

한편, 상기 Allele depth DB(500)는 도 4 및 도 6에 도시된 바와 같이, 대조군 집단의 전장 유전체 정보를 저장하되, 인종 등의 유전형의 군을 형성하는 구분기준에 따라 구분되어 저장될 수 있다.

이때, 상기 인종별 구분은 5개 대분류의 구분일 수도 있고, 26개 소분류의 구분일 수도 있는데, 이는 인종별 유전특성을 반영하여 변이 유전자 여부를 판별/검출하기 위함이다.

한편, 도 7에는 Haplotype ID 기반의 CPL 생성예가 도시되어 있다. 도 7에 도시된 바와 같이, Haplotype DB에서 Haplotype ID은 다양한 질병, 유전형질 마커 등으로 구성되는데, 유전자 단위의 유전형 (LD 블럭, exon단위, gene마커 등) 하플로계층 ID 및 다중 유전자 단위 (다중 gene마커, GWAS마커)로 구성될 수 있다.

또한, 도 7에서는 하플로계층 ID는 한 세트의 염색체 및 포지션 정보 (Chromosome position list: CPL)들의 묶음으로 정의를 될 수 있음을 도시하고 있다.

그리고 상기 IDA DB(600)는 이미 알려진 질병과 이에 관련된 유전 변이가 저장되는 곳으로, 다양한 질병별로 각 질병에 관련된 유전자 변이 정보 및 이들 변이 정보를 뒷받침하는 문헌 정보가 정리되어 저장된다.

또한, BAV/Biomarker DB(700)에는 다양한 단백질의 바인딩 위치의 아미노산 형태를 결정하는 유전자 정보가 저장된다.

구체적으로는, 단백질-약물, 단백질-DNA 및 단백질-단백질 간의 바인딩에 있어, 이들 결합에 영향을 미치는 아미노산과 해당 아미노산에 영향을 미치는 유전자 정보가 저장된다.

이에 따라, 특정 대사물의 바인딩을 관장하는 아미노산에 대한 염기들에 변이가 다수 발생한 경우, 해당 분석 데이터의 피검사자는 해당 대사물에 대하여 정상적인 체내 처리가 어려워질 가능성이 높아지게 된다.

즉, 도 8에 도시된 바와 같이, 상기 BAV/Biomarker DB(700)에는 알려진 질병변이를 포함하여 단백질의 약물 결합 위치, Promoter 위치 및 결합상태의 단백질 활성이 예측되는 변이들이 저장된다.

상기 BAV/Biomarker DB(700)는 생리활성관련 유전자 정보를 저장하는 데이터 베이스로, 유전자와 약물, 대사물 및 음식물에 대한 저항성 및 감수성 관련정보가 저장된다. 이때, 상기 BAV/Biomarker DB(700) 또한, 공신력이 확보된 공지된 데이터를 연계하여 구축할 수 있고, 예를 들어, 약물은행에 공지된 6,000 여 개의 약물정보(상호작용 단백질과 바인딩 영역 정보 등), 대사물 은행에 공지된 12,000 여 개의 대사물 정보(상호작용 단백질과 바인딩 영역 정보 등) 및 DMET(drug metabolizing enzyme and transporter gene)에 있는 200여 개의 유전자의 약물 대사관련 변이 위치에 대한 정보를 활용할 수 있다.

한편, 상기 Information DB(800)는 알려진 유전체의 변이에 대한 정보를 저장하는 DB로, 문헌정보 뿐만 아니라 공개된 정보 데이터베이스와 연계되어 구축될 수 있다.

예를 들어, PheWAS-GWAS(Genome wide association study) data 및 eMERGE (Electronic Medical Records and Genomics) data가 Information DB에 적용될 수 있다.

한편, 도시되지는 않았으나, 상기 검색제어부(200)가 임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성될 수도 있다.

이때, 상기 임상정보 DB는 개인의 환경적 요인 결과물 데이터와 집단 평균 및 기준정보가 저장된다.

그리고 상기 개인의 환경적 요인 결과물 데이터는 개인의 종합검진 데이터 등의 임상정보 데이터일 수 있고, 상기 집단 평균 및 기준정보는 질병관리본부가 제공하는 지역사회 코호트 연구 결과를 활용할 수 있다.

이하에서는 본 발명에 의한 개인 유전체를 이용한 유전정보 분석 방법을 첨부된 도면과 함께 상세히 살펴보기로 한다.

도 9는 본 발명의 구체적인 실시예에 의한 유전정보 분석 방법을 도시한 흐름도이고, 도 10은 본 발명의 구체적인 실시예에 의한 Haplotype DB 생성예를 도시한 예시도이며, 도 12은 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 일예를 도시한 예시도이고, 도 13는 본 발명의 구체적인 실시예에 의해 생성된 결과 리포트의 다른 예를 도시한 예시도이며, 도 14은 본 발명의 구체적인 실시예에 의한 생리활성변이 검증 예를 도시한 예시도이고 도 15는 본 발명의 구체적인 실시예에 의한 임상정보기반 질병 및 약물(음식물) 반응 원인 계산 시스템 구성을 도시한 개념도이다.

먼저, 도 9에 도시된 바와 같이, 본 발명에 의한 개인 유전체를 이용한 유전정보 분석 방법은 먼저, 분석데이터 입력부가 분석 대상이 되는 분석 데이터(DNA Sequencing)을 수신받는 것으로부터 시작된다(S100).

이때, 상기 분석 데이터가 DNA 조각들로 구성된 Dumy 형태로 제공될 수도 있는데, 이 경우 본 발명은 도 10에 도시된 바와 같이, 제공된 Dumy 데이터에 고집적 인덱싱을 통해 RVR 파일 형태로 DNA sequencing 을 생성하여 저장한다.

도 10에는 Haplotype DB 생성예가 도시되어 있는데, 이에는 Haplotype DB에서, 그 영역 포지션들에서 집단유전정보 및 파라미터를 추출하는 예가 도시되어 있다.

구체적으로, 먼저, 유전체정보에서 BAM (binary alignment map)파일로부터 ADISCAN을 통하여 genotype을 IUPAC 포맷으로 만든 파일을 생성한다. 그리고 다중정렬 (indexed multiple nucleotide alignments) 인덱싱 DB를 구성한 후, 주어진 하플로계층화 ID를 구성하는 한 염색체 및 포지션 세트(chromosome position list: CPL)를 사용하여 Haplotype DB에서 그 영역 포지션들에 대한 IUPAC정보, 집단유전정보 및 파라미터를 추출한다.

한편, 본 발명에 의한 개인 유전체를 이용한 유전정보 분석 방법은 분석 대상에 따라 크게 4가지 분석을 수행한다.

즉, 본 발명에 의한 개인 유전체를 이용한 유전정보 분석은 1) 유전형 판별(S200), 2) IDA DB로부터 염기단위의 마커 검출(S300), 3) Allete Depth DB로부터 염기단위의 마커 검출(S400) 및 4) 생리활성변이 산출(S500)의 4가지 분석을 수행하는 바, 이하에서는 각각에 대하여 상세히 살펴보기로 한다.

[유전형 판별]

본 발명에 의한 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템은 단일 유전자 및 다중 유전자 단위의 유전형을 판별한다.

상기 단일 유전자 단위의 유전형을 판별은 Haplotype DB에서 유전자 단위의 유전형(LD 블록, exon 단위, gene 마커 등) 하플로계층의 ID를 계산한다.

그리고 상기 다중 유전자 단위의 유전형을 판별은 Haplotype DB에서 다중 유전자 단위(다중 gene 마커, GWAS마커) 하플로계층의 ID를 계산한다.

먼저, 상기 단일 유전자 단위의 유전형 판별 방법을 살피면, 상기 HaploScan 엔진(210)은 상기 DNA Sequencying을 Haplotype DB(400)에 저장된 Haplo Frequency(412) 및 Haplo MAP(414)과 대비하여 단일 유전자 및 표현형에 대하여 유전형이 속하는 군집 및 이에 대한 정보를 검출한다.

구체적으로 상기 HaploScan 엔진(210)은 상기 DNA sequencying의 i번째 유전자에 대하여 상기 단일유전자 Haplo Frequency(412)의 i번째 유전자 정보와 대비하여(S211), 분석 대상인 개인 유전체의 i번째 유전자가 단일유전자 Haplo MAP(414)에 분류된 단일유전자 분류중 어느 군집에 포함되는지 여부를 판별한다(S213, S215).

이후, 상기 HaploScan 엔진(210)은 i=1 부터 마지막까지(약 i=39,000) 반복하여 분석데이터의 전체 유전자에 대한 유전형을 판별한다(S217, S219).

다음으로, 상기 다중 유전자 단위의 유전형 판별 방법을 살피면, 상기 HaploScan 엔진(210)은 상기 DNA sequencying을 상기 다중유전자 Haplo Frequency(422)와 대비하여(S221), 각 표현형에 대한 분석 대상 유전체의 다수 유전자의 조합이 다중유전자 Haplo MAP(424)에 분류된 다중 유전자 조합의 분류중 어느 군집에 포함되는지 여부를 판별한다(S223, S225).

이에서도 역시, 상기 HaploScan 엔진(210)은 다중유전자정보 데이터베이스(420)에 저장된 모든 표현형에 대하여 반복하여 분석데이터의 유전형을 판별한다(S227, S229).

이와 같은 HaploScaning 과정을 통해 분석 대상 유전체에 포함된 단일 유전자 변이 및 다중 유전자 변이에 따른 유전형을 정의할 수 있다.

[IDA DB의 염기단위 마커 검출]

IDA DB의 염기단위 마커 검출은 genotype 및 phenotype정보를 활용한 질병 및 약물반응을 계산하고 유의성 결과 정보를 검출하는 것으로, IDA DB의 염기단위 마커 검출은 IDA 검색엔진(230)이 분석데이터를 IDA DB(600)의 변이정보와 비교하여, 해당 질병의 위험도를 판단하게 된다(S310).

이와 같은 방법으로, 상기 IDA DB에 포함된 모든 질병에 대하여 상기 분석데이터를 검토한 후(S320), 유의미한 변이관련 질병들을 산출하게 된다(S330).

한편, 도 11에 도시된 와 같이, IDA DB 및 IDA 검색엔진을 포함하여 구성되는 IDA 시스템은 외부툴 지원, SubClone, RelationDB 및 의학통계 기능을 지원한다.

상기 외부툴 지원 기능은 plink, phase, Haploview, linkage 등의 외부 툴에 의한 입력파일을 생성할 수 있도록 하는 지원기능을 말하고, 상기 SubClone 기능은 전체 빅데이터에서 관심이 있는 영역의 작은 IDA DB를 생성하는 기능을 말하며, Relation DB 기능은 전체 빅데이터의 Phenotype, genotype, pedigree 등의 기능정보가 서로 데이터에 대한 Relation 형성 기능을 말하고, 의학통계 기능은 단일 vs 단일, 단일 vs 다수, 다수 vs 단일 및 다수 vs 다수의 유전형, 마커 또는 표현형 변수에 대한 다중 linear, 혹은 다중 logistic regression 결과를 제공하는 기능을 말한다.

[Allete Depth DB의 염기단위 마커 검출]

Allete Depth DB의 염기단위 마커 검출은 극히 이례적인 특정 유전 변이에 의해 유발되는 염기 변이로, 일반적으로 희귀질병과 관련된 경우가 많은 것으로, 특정 염기에 대한 변이 유무 또는 차이를 검출하여, 희귀질병 발병 가능성 등을 판단할 수 있다.

이를 위해 본 발명은 먼저, 도 9에 도시된 바와 같이, ADISCAN 엔진(220)이 대조군을 선별한다(S410).

이때 상기 대조군이란, 해당 변이에 대한 희귀성을 판단하게 될 대조 집단으로, 특정 인종을 한정하거나 특정 국가를 대상으로 한정할 수도 있다.

이후, 상기 ADISCAN 엔진(200)은 특정 로커스의 염기에 대하여 대조군 DB의 염기와 ADISCAN 방식으로 변이지수를 산출하고, 이와 같은 과정을 전체 유전체에 대하여(n=1 부터 n=약 30억) 수행한다(S420, S430).

이에 따라 전체 염기서열에 대하여 염기들의 희귀성을 산출한다(S440).

한편, 상기 희귀변이 산출을 위한 ADISCAN(allelic depth and imbalance scanning)이란 정상과 이상 유전자의 차이를 주는 마커들을 스크리닝하는 기법으로, 대립유전자깊이곱탄젠트차이, 대립유전자제곱승차이, 대립유전자절대값차이, 기하학적대립유전자차이, 통계적대립유전자차이 또는 대립유전자불균형비율에 따라 판단된다.

[생리활성변이 산출]

상기 생리활성변이 검출은 BAV/Biomarker DB 및 공용 마커와 대비한 다양한 마커의 유의성을 계산하는 것으로, 생리활성변이 검색엔진(240)이 BAV/Biomarker DB(생리활성변이 DB)를 검색하여(S510), 단백질의 결합에 관여하는 아미노산에 정보를 검출한다(S520).

이때, 상기 단백질 결합은 단백질-약물, 단백질-DNA 및 단백질-단백질의 결합을 포함하고, 상기 아미노산 정보에는 상기 아미노산에 관련된 염기의 정보가 포함된다.

이후, 상기 생리활성변이 검색엔진(240)은 상기 아미노산 정보에 포함된 염기와 분석데이터를 대비하여 분석 데이터 상에 변이가 발생 된 아미노산 및 이에 관련된 대사물 정보 등을 검출한다(S530, S540).

그리고 상기 생리활성변이 검색엔진(240)은 전체 아미노산에 대하여 변이 검출을 반복수행하고, 검출된 정보를 통합하여 생리활성변이정보를 산출한다(S550, S560).

도 14에는 검출된 단백질의 아미노산 변이가 대사 작용에 미치는 영향을 시뮬레이션을 통해 검증하는 예가 도시되어 있다.

이후 상기 검색제어부(200)는 판별 또는 산출된 유전형, 희귀변이, 질병변이 및 생리활성변이를 통합하여, 사용자에게 제공될 결과리포트를 생성한다(S600).

이때, 상기 검색제어부(200)는 피검사자의 임상정보가 제공된 경우 이를 바탕으로 임상정보 기반 질병원인을 산출하여 제공할 수 있다.

구체적으로, 질병의 원인을 예측하려면 현 상태의 환경적인 요인 결과물(종합검진데이터 및 임상정보)을 포함하는 PHR (personal health records)이 필요하다. 특히, 환경적인 요인에서 집단의 평균 및 기준정보가 필요하게 된다(본 발명에서 상기 기준정보는 질병관리본부에서 제공하는 제2기 지역사회 코호트 연구결과를 활용). 여기서, 이러한 환경적인 요인의 결과물과 유전형과 연계를 지은 것을 PHR-trait 이라고 부른다.

도 15에 도시된 바와 같이, 질병원인 관계도(Πx) 검출식은, logistic regression분석 방법을 활용한 것으로, 상기 질병원인 관계도(Πx)산술식은,

이고, 유전형 혹은, 개인 프로파일 (표준화 ID set)에서 주어진 다양한 ID 생성 시스템을 활용하여, 집단유전체 및 그들의 병원의무기록, EMR(electronic medical record), EHR(electrical health record), 및 PHR(personal health record)을 통하여 계산을 하게 되고, 주어진 ID 체계를 사용하여 의 계수 변수 β들을 생성한다. 그리고 개인의 정보는 개인 유전체 및 그 개인의 병원기반 표현형 정보를 표준을 사용하여 개인 프로파일 (표준화 ID set)을 생성하고, 그 ID들은 변수 χ를 다중 로지스틱 회귀분석 산술식에 제공한다.

즉, 상기 질병원인 관계도는 Gene, Disease 혹은 Drug의 유전형 (group or cluster of genotypes) vs. EMR, EHR, 혹은 PHR의 연관성을 계산할 수 있게 된다.

따라서, 현재의 임상상태 (clinical condition: normal, disease, or phenotype)와 39,000유전자에서 계산한 Gene, Disease, Drug유전형과의 연관성을 계산하여 전체유전자기반 질병원인을 계산한다.

한편, 본 발명에 의한 질병원인 발굴 시스템은 산출된 유전자 변이정보로부터 리포팅 데이터를 생성한다.

이때 산출되는 결과 리포트는, 산출물에 따라 각각 다소 차이는 있으나, 기본적으로 변이 유전자에 대한 가시화를 위해 매하탄 플롯 및 방사형 변이 차트를 활용한다.

도 12는 본 발명의 구체적인 실시예에 의해 생성된 맨하탄 플롯의 일 예를 도시한 예시도이다.

도 12에 도시된 바와 같이, 상기 맨하탄 플롯(Manhattan plot)은 39,000 개의 유전자에 대하여, 알려진 모든 SNP의 non-sym 변이들을 기준으로 게놈프로젝트의 표준 유전자를 유전형에 따라 분류하여 누적된 값을 점(point)으로 가시화 한 그래프를 의미한다.

이에 분석 대상 유전체의 유전자를 표시하면, 대조군 대비 분석 대상 유전자의 변이 특이성을 용이하게 인식할 수 있다.

이와 같은 맨하탄 플롯(Manhattan plot)은 변이 로커스를 손쉽게 파악할 수 있을 뿐만 아니라, 변이 정도도 용이하게 파악할 수 있다.

한편, 상기 맨하탄 플롯에 의해 표시된 유의성 변이들은 변이 정도 및 유전적 특성에 따라 도 13에 도시된 바와 같이, 방사형 변이 차트로 표시될 수 있다.

이때, 상기 분석 대상 유전체의 유전적 변이 정도와 대조군 평균을 함께 표시하여, 분석 대상 유전체의 변이정도를 가시적으로 명확하게 표시할 수 있을 뿐만 아니라, 유전적 특성 정보를 추가적으로 포함시켜 결과리포트를 생성할 수도 있다.

전술한 바와 같은 방법으로 생성된 상기 결과리포트는 결과리포트 제공부를 통해 제공된다.

본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.

본 발명은 게놈 프로젝트에 의해 구축된 다수 전장유전체 DB와 입력된 개인 유전체 정보를 비교하여 개인 유전체로부터 유전정보를 분석하여 제공하는 시스템에 관한 것으로, 본 발명에 의하면, 변이 유전체 검출 효율이 향상된 유전자 분석 플랫폼을 제공할 수 있는 효과가 있다.

Claims

개인 유전체 정보를 포함하는 분석데이터를 입력받는 분석데이터 입력부와;

데이터베이스에 저장된 유전자 정보와 상기 분석 대상 유전체 정보를 대비하여 희귀변이 또는 질병변이를 포함하는 분석 결과를 산출하여 상기 분석결과를 통해 결과리포트를 생성하는 검색제어부; 그리고

상기 분석데이터와 대비하기 위한 대조군의 유전자 정보가 저장되는 저장부를 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 1 항에 있어서,

상기 저장부는,

대조군 집단의 전장 유전체 정보를 인종을 포함하는 구분기준에 따라 구분되어 저장되는 Allele depth DB를 포함하여 구성되며:

상기 검색제어부는,

상기 분석데이터에 포함된 각 염기를 상기 Allele depth DB와 대비하여, 집단대조군 대비 희귀성을 산출하는 ADISCAN 엔진을 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 1 항에 있어서,

상기 저장부는,

복수의 질병 별로 각 질병에 관련하여 공지된 유전자 변이 정보를 저장하는 IDA DB를 포함하여 구성되고;

상기 검색제어부는,

상기 분석데이터를 상기 IDA DB와 대비하여 상기 분석데이터에 포함된 공지된 유전자 관련 질병변이를 검출하는 IDA 검색엔진을 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 저장부는,

임상정보 기반의 질병원인 예측 결과를 도출하기 위해 유전적 특성과 함께 고려되어야할 피검사 대상자의 환경적 소인 정보가 저장되는 임상정보 DB를 더 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 4 항에 있어서,

상기 검색제어부는,

로지스틱 회귀분석(logistic regression)에 의해 산출된 산술식을 통해 질병원인 관계도(Πx)를 산출하여 질병원인 예측 결과를 도출함을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 5 항에 있어서,

상기 질병원인 관계도 산술식은,

이고, 여기서,

π는 관계지수이고,

계수 β는 집단유전체 혹은 집단 임상정보 DB에 저장된 집단 대상자의 건강기록정보 EMR, EHR 및 PHR에 유전형 (표준화 IT 세트)기반 계산된 계수 (coefficients)이며;

변수 χ는 상기 검색제어부가 산출한 분석데이터에 포함된 유전형 (표준화 IT 세트)에 따른 매개변수임을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 5 항에 있어서,

상기 저장부는,

상기 분석데이터와 대비하기 위하여 대조군 유전자의 유전형 정보를 저장한 하플로스캔(HaploScan) DB를 포함하여 구성되고;

상기 검색제어부는,

상기 분석데이터를 상기 하플로스캔(HaploScan) DB와 대비하여, 상기 분석데이터의 유전형을 판별하는 하플로스캔(HaploScan) 엔진을 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 7 항에 있어서,

상기 하플로스캔(HaploScan) DB는,

단일유전자에 대한 유전형 정보를 저장하는 단일유전자정보데이터베이스와;

표현형별 다중 유전자의 유전형 정보를 저장하는 다중유전자정보 데이터베이스를 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 8 항에 있어서,

상기 단일유전자정보데이터베이스는,

대조군의 단일 유전자에 대하여, 인종별 반수체 및 형질 빈도를 점유 비율별로 구분(군집)하여 저장한 단일유전자 하플로(Haplo) 맵과;

상기 단일 유전자 하플로(Haplo) 맵에 저장된 단일 유전자의 유전형을 구분하는 변이에 대한 변이정보를 저장하는 단일유전자 하플로 프리컨시 정보를 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 8 항에 있어서,

상기 다중유전자정보 데이터베이스는,

표현형별 대조군의 다중 유전자에 대하여 유전형 연관 염기의 변이분포를 인종별로 구분(군집)하여 점유비율에 따라 저장한 다중유전자 하플로(Haplo) 맵과;

상기 다중유전자 하플로(Haplo) 맵에 저장된 상기 표현형에 대한 유전형을 구분하는 변이에 대한 변이정보를 저장하는 다중유전자 하플로 프리컨시 정보를 포함하여 구성됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 검색제어부는,

검출된 변이 유전자 특성을 전장 유전자에 대하여, 유전형에 따라 분류하여 누적된 값을 점(point)으로 가시화한 맨하탄 플롯(Manhattan plot) 상에 표시한 결과 리포트를 생성함을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.
제 11 항에 있어서,

상기 맨하탄 플롯은,

변이 유전자의 유의성 여부를 가이드하는 설정값(cut-off)이 표시됨을 특징으로 하는 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템.