KR20140061223A - 차세대 시퀀싱 데이터의 질병변이마커 검출 방법 - Google Patents

차세대 시퀀싱 데이터의 질병변이마커 검출 방법 Download PDF

Info

Publication number
KR20140061223A
KR20140061223A KR1020130100998A KR20130100998A KR20140061223A KR 20140061223 A KR20140061223 A KR 20140061223A KR 1020130100998 A KR1020130100998 A KR 1020130100998A KR 20130100998 A KR20130100998 A KR 20130100998A KR 20140061223 A KR20140061223 A KR 20140061223A
Authority
KR
South Korea
Prior art keywords
allele
genome
disease
difference
alleles
Prior art date
Application number
KR1020130100998A
Other languages
English (en)
Other versions
KR101460520B1 (ko
Inventor
정종선
Original Assignee
(주)신테카바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)신테카바이오 filed Critical (주)신테카바이오
Publication of KR20140061223A publication Critical patent/KR20140061223A/ko
Application granted granted Critical
Publication of KR101460520B1 publication Critical patent/KR101460520B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis

Abstract

본 발명은 바이오마커 검색 및 발굴 파워를 향상시키기 위하여 염기다형성 정의를 할 때 사용되는 연속변수 자체를 사용하여 비교분석 방법 (대립유전자제곱승차이, 대립유전자깊이탄젠트차이, 대립유전자절대값차이, 기하학적대립유전자차이, 통계적대립유전자차이, 대립유전자불균형비율) 및 로커스 기능에 대한 가중치 점수 등에 기반한 질병변이마커 선별 및 순위(rank)를 만들고 역 분류 (reverse classification)을 통하여 다양한 암, 암의 약물내성, 희귀질환, 만성질환, 정상인의 질병위험 및 표현형 등에 해당하는 유전체 바이오마커들을 발굴하는 감도(sensitivity)가 기존의 방법에 비하여 향상되는 것을 특징으로 한다.

Description

대립유전자깊이, 시그널강도, 및 질점수 기반의 역분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법 {System and Method for detecting disease markers by reverse classification using allelic depth, signal intensity and quality score of NGS and SNPchip}
본 발명은 NGS 데이터의 질병변이마커 검출 시스템 및 방법에 관한 것으로, NGS 데이터의 질병변이마커 검출에 있어 대립유전자깊이의 시그널강도 및 질점수를 사용하여 변이의 정의 및 중요도를 랭킹할 수 있도록 한 대립유전자깊이, 시그널강도 및 질점수 기반의 역분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법에 관한 발명이다.
현재 IT시장의 추세는 구글(Google) 클라우드컴퓨팅 유비쿼터스(Ubiquitous) 순으로 변화하고 있고, 이와 동시에 바이오메디컬, 생물정보 및 유전체 영역도 바이오구글 시스템바이오 개인별 맞춤의학 순으로 새로운 트랜드에 맞춰 바뀌어 가고 있다. 특히 포스트 인간게놈프로젝는 아래 표1 (포스트인간게놈 프로젝트 관련 발표 자료 목록)에 나타난 바와 같이, 이러한 추세에 따라 국가적으로 경쟁을 하고 있음을 보여주고, 최근의 차세대시퀀싱 기술(NGS)이 급격하게 발전하여 개인별 맞춤의학이 현실화되고 있다.
Post Human Genome Project Publications
1 Mapping and sequencing of structural variation from eight human genomes Nature, 453, 2008
2 A plan to capture Human Diversity in 1000 Genomes Nature, 319, 2008
3 The diploid genome sequence of an Asian individual, Nature, 456 2008
4 The first Korean genome sequence and analysis: full genome sequencing for a socio-ethic group Genome Research 2009
5 A highly annotated whole-genome sequence of a Korean individual Nature 2009
6 Ancient human genome sequence of an extinct Palaeo-Eskimo Nature, 463 2010,
7 The sequence and de novo assembly of the giant panda genome, Nature,463 2010,
8 A map of human genome variation from population-scale sequencing, Nature, 467 2010
차세대기술은 인간 1명 (x30)의 유전체를 시퀀싱하는데 약 2주정도 소요가 되는 것으로 알려져 있다. 그리고, 현재 전 세계에 차세대 시퀀서가 20,000여대가 공급된 것으로 보고되었고, 제3세대 시퀀서 (Ion Torrent: 2.5세대, Pacific BioScience의 제3세대)의 주요 개발회사들에게 약 5천억원이 최근에 투자된 것으로 보고되었다.
그 이외에 전 세계적으로는 해당분야에 약 10조원 이상이 투자되었고 개발이 진행되고 있다. 이러한, 추세대로 진행이 되면 향후 2 ~ 3년 후에는 1명의 전체 시퀀싱 비용은 약 $1,000로 낮아 질 것으로 예상된다. 위의 차세대기술기반의 가장 활용성이 높고 바로 실용화가 되는 기술은 임상유전체(clinical genomics), 약물유전체학(pharmaco-genomics) 및 중개임상(translational medicine)으로 예상된다.
상기 임상유전체는 NGS시퀀싱 정보인 유전체정보를 바로 진단에 활용이 가능하고, 약물동질성검사를 비롯한 약물대사관련 기술과 결합하면 바로 임상유전체 및 맞춤의학이 된다. 또한 유전체학은 높은 수준으로 표준화되어 가고 있고, 특히 한국의 약물유전체사업단은 지난 9년 간의 사업을 2011년 3월에 종료하면서 650 여편의 약물유전체관련 SCI논문 및 88편의 특허 등 많은 증거자료를 문서화하여 국제약물유전체학회에 기여를 하였다.
현재 한국은 도 1에 도시된 바와 같이, 이러한 NGS기술에 힘입어 2012년 현재 한국의 차세대맞춤의료유전체센터는 현재까지 약 3천명의 전장엑솜시퀀싱을 수행하고 있고, 서울대 아시안게놈센터도 100명 전장 시퀀싱을 수행하고 있다. 또한, 국제적으로는 1,000명에 대한 게놈시퀀싱이 2010년에 끝냈고, 현재까지 수행된 결과의 10배수 이상 늘어난 시퀀싱을 전 세계적으로 수행 중이다.
기술적인 측면에서는 현재 유전체 (염기다형성칩 혹은 차세대시퀀싱기술) 데이터 기반 바이오마커 검색 및 발굴은 염기다형성 (SNP, single nucleotide polymorphism) 방법을 사용한다. 그리고, 이러한 염기다형성을 계산하는 방법을 염기다형성 정의 (SNP calling) 이라고 부른다.
그리고, 도 2A 및 도 2B에 도시된 바와 같이, 염기다형성 계산은 대립형 유전자에 기반하여 통계를 적용하고 염기다형성 정의를 수행하여 염기다형성(SNP)을 계산한다.
따라서, 바이오마커 발굴 및 검출 기술들은 정상 및 환자군 들의 염기다형성정보를 이용한 질병연관성연구(association study) 및 질병 링키지연구(linkage study)에 사용된다.
한편, 차세대시퀀싱(NGS) 및 염기다형성(SNP)칩 데이터의 이미지 정보를 가공하면, 대립유전자차이, 시그널강도(signal intensity), 대립유전자불균형(imbalance) 및 질점수(quality score) 등의 정보가 산출된다. 이러한 연속변수 데이터에 기반하여 다양한 변이에 대한 정의(variant calling)를 수행한 후 분류한 정보(SNV, CNV, 대립유전자방향성 및 INDEL)를 가지고 정상과 질병 사이의 차이를 주는 마커를 선별한다.
여기서, 지노타입(genotype) 등으로 분류된 데이터는 비연속 변수인 범주형 변수에 해당한다. 이러한 범주형 변수는 연속변수에 비하여 많은 정보가 손실이 되기 때문에, 암, 희귀질환 및 만성질환과 같은 대립유전자(rare allele)에 기인한 질병연관성(disease association) 및 링키지(linkage study) 연구를 수행 할 때 바이오마커 검출 및 발굴 파워가 감소되는 경향이 있다.
일반적으로 염기다형성 정의(SNV calling)를 하려면 차세대시퀀싱(NGS) 혹은 염기다형성-칩(Chip)데이터의 경우, 올리고(oligo nucleotide: 작은 염기서열조각) chip에 대량으로 화학적 방법에 의해 적치하고, 시퀀싱이나 지노타이핑을 수행할 때 잘게 쪼개진 DNA조각을 Chip에 붙어 있는 DNA조각과 반응결합(hybridization)이 생기게 한 후 서로 잘 결합하고 있는지 여부를 나타내는 시그널 강도 값을 정량화하는 방법이 일반적이다. 염기다형성칩(SNPChip)데이터의 경우 정량화된 시그널강도 값은 염기 당 수백 내지 수천 개의 수치로 표현된다.
도 3에 도시된 바와 같이, 현재 일반적으로 사용하는 illumina 및 affymetrix 사의 SNP chip의 경우, 1백만 염기다형성을 한 번에 집적하도록 되어있다.
따라서, 1백만 개 대립유전자 위치에서 시그널 값(약 1천개)를 생산한다면 1M * 1,000값, 즉, 1명의 게놈 당 10억 개의 수치가 생기고 이러한 방법으로 10,000명을 처리하면 100조개의 수치가 생긴다. 그러므로 데이터 크기로 약 5-10TB 정도가 된다.
그리고, 바이오마커를 발굴하는 과학자들은 염기다형성 변이정의(SNV calling) 방법을 사용하여 프로세싱을 한 후에 계산된 염기다형성정보(SNV)만을 사용한다(약 10GB).
한편, 대한민국 특허등록 제10-0996443호에는 고집적 유전자 데이터베이스를 처리하는 방법이 개시되어 있다.
그러나 상기한 바와 같은 선행 기술에서는 다음과 같은 문제점이 있다.
즉, 염기다형성 정의를 이용하여 대립유전자의 질병변위마커 대상 후보군을 산출하는 경우, 질병 변위 마커 후보군의 데이터 량이 많아지고, 이들 사이의 검출 가능성에 대한 변별이 없으므로, 상기 후보군으로 부터 실제 질병 변위 마커를 찾아 내는 과정이 복잡해지는 문제점이 있다.
대한민국 특허등록 제10-0996443호
본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로, 본 발명은 대립유전자의 질병변위마커 대상 후보군을 산출함에 있어, 질병 변위 마커 후보군의 데이터들에 대하여 질병변위마커 검출 가능성에 따라 랭킹을 부여하는 대립유전자깊이, 시그널강도 및 질점수 기반의 역분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법을 제공하는 것이다.
상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 본 발명은 바이오 빅데이터에 특화되어 있고 대립유전자형 깊이, 불균형, 시그널 강도값, 질점수 및 알려진 기능정보를 이용하여 빠르게 계산을 위한 값들만 추출하고 원시데이터는 지우는 방식으로 대규모 데이터를 다루는 부담을 줄이고, 빅 데이터를 다루는 방법에 기반하여 고감도의 바이오마커를 발굴하는 방법을 제공한다.
도 4에는 종래 방법에 의해 질병변이마커를 발굴하고 활용하는 방법과 본 발명에 의해 질병변이를 발굴하고 진단하는 방법을 서로 비교한 모습이 도시되어 있다.
또한, 아래의 표2는 대립유전자형 깊이, 불균형, 시그널강도 값 및 질 점수을 사용한 SNP기반 마커 계산 예문과 대립유전자깊이에 기반한 간단한 예를 든 것으로, 희귀질환을 가지는 2명의 유전체와 정상인 3명의 유전체 사이에 만들어진 6 쌍의 유전체의 대립유전자들을 비교한 예문이다.
여기서, GATK는 Harvard/MIT의 브로드 인스티튜트(Broad Institute)에서 만든 염기다형성 변이정의(SNV calling)를 위한 툴이고, ADISCAN은 본 발명에 의한 개발 툴을 말한다.
대립유전자깊이, 시그널강도, 및 QS기반 분석 예시
쌍 유전체 GATK ADISCAN
Pair1(정상/질환) 202,421 44,852
Pair2(정상/질환) 208,598 32,657
Pair3(정상/질환) 197,496 24,793
Pair4(정상/질환) 225,225 65,536
Pair5(정상/질환) 239,990 48,878
Pair6(정상/질환) 224,691 38,038
6pair교집합 31,145 5,153
GATK 와 ADISCAN 공통 4,892 4,892
*False Positive Including 25,992 0
*True Positive Missing 291 0
*검증방법: manual inspection
6개 pair의 교집합을 구하면 GATK는 31,145인데 ADISCAN은 5,153개이다. 그리고, 31,145에는 31,145-5,153 = 25,992개의 거짓양성(false positive)이 포함되어 있고, 전체에서 291개의 정답(true positive) 손실을 포함된다. 따라서, 정확도(sensitivity) 및 정밀도(specificity) 모두 GATK 염기다형성 정의 (SNP calling)방법에 비하여 ADISCAN이 월등히 우수함을 볼 수 있다. 정확도 및 정밀도 모두 합치면 감도는 약 (25,992+291) 대 0, 즉 26,000배 정확하다. 여기에서 정확도는 실험적인 검증 이전에 컴퓨터상에서의 수치에 기반 한 정확도를 의미한다.
이처럼 바이오 빅 데이터의 취급상 어려움에도 불구하고 RVR엔진(대한민국 등록 특허 제10-0880531호)의 기술에 힘입어 대규모 대립유전자깊이 정보를 활용한 연구/예측용 유전체 데이터 및 진단검사 개인유전체에서 질병 대립유전자형질을 일관성 있고 고감도로 검색하는 방법 개발에 성공하였고 아래와 같이 2가지 다른 응용이 있다.
(1) 개인별 유전체의 알려진 질병 대립유전형질 변이 검색.
(2) 암, 희귀질환 및 만성질환 유전체의 새로운 질병대립유전형질 발굴 방법.
1. 개인별 유전체의 알려진 질병 대립유전형질 변이 검색
인간 유전체의 DNA는 30억 개의 염기서열로 되어 있다. 이중에서 단일 유전자의 변이에 기인한 질병(monogenic disease) 그리고, 다중 유전자들의 변이들에 기인한 질병(polygenic disease)로 구분되는데 이러한 단일 및 다중 유전자에 기인한 직접적인 주요 질병원인 변이(단일유전자 기반 질환)는 약 10,000개가 알려져 있다. 그리고, 질환과 간접적으로 연관이 있는 100,000개의 변이(복합성질환)들도 알려져 있다.
인간의 대부분의 DNA(미토콘드리아, Y염색체 제외)는 모든 염기위치에는 2개의 대립유전형질(A:B)을 가지고 있기 때문에 이러한 유전형질은 모두 대립유전형질 및 대립유전형질들의 그룹인 반수체(haploid)로 구성된 하플로그룹(haplogroup) 혹은 지노셋(genoset) 등으로 표현된다. 따라서, 30억 개의 유전형질 중에 특정 유전자의 특정 염기다형성정보 2개의 대립유전형질(A:B)중에 질병 형질이 무었인지를 아는 것이 중요하다.
현재까지 알려진 질병의 원인이 되는 유전형질 변이들은 다양한 인종에 근거하기 때문에 한국인 인종에서는 기존의 유전형질이 어디까지 적용이 되는지 모두 아는 것은 불가능하다. 또한, 암, 희귀질환과 같은 희귀대립유전자(rare allele)에 기인한 바이오마커 검출은 감도(sensitivity)가 중요한 척도가 된다.
따라서, 본 발병을 사용하면 기존의 알려진 염기다형성 및 돌연변이데이터를 현재의 한국인에서 알려진 인구집단에서, 2개의 대립 유전형질 중에 어느 것이 질병 유전형질이고 어느 것이 정상 유전형질인지를 계산하는 것이 용이해진다.
도 5는 개인에서 알려진 변이를 검출하고 검출된 변이중에서 유의성이 높은 것은 전체결과(상위의 유의성 그래프)그리고 개별결과(+)등에서 확인이 가능하다.
2. 암 및 희귀질환 유전체의 새로운 질병대립유전형질 발굴 방법
현재 알려진 희귀질환, 만성질환, 암의 원인 바이오마커는 약 10,000개가 알려져 있지만 그것들은 전체 바이오마커 풀(pool)에 100분의 1도 안되고 차세대 시퀀싱 기술의 도움으로 앞으로 수 없이 많은 새로운 바이오마커가 발굴이 될 수 있다. 그러나, 이러한 암, 희귀질환과 같은 희귀대립유전자(rare allele)에 기인한 바이오마커 발굴 역시 감도(sensitivity)가 가장 중요한 척도가 된다.
즉, 희귀질환의 경우 가족력이 알려져 있으면 대립유전자깊이 기반 바이오마커 검색을 적용하는 방법이 필요하다.
정상적인 SNP기반하여 마커를 발굴하면 1단계에서 200,000여개 검출 2단계는 30,000여개가 생성이 되고 생성된 30,000여개는 점수가 표시되지 않기 때문에 검출된 최종 결과물을 사용하기 위해서는 추가적인 많은 비용을 소비하여 많은 양의 시퀀싱을 수행하는 것이 필요하다.
즉, 암의 경우는 쌍으로 된 전장 유전체를 대립형 유전자 깊이기반으로 검색하는 것이 필요하다. 그리고, 암이 재발하거나 혹은 암의 내성이 생겼을 때도 이러한 대립형 유전자 깊이(allele depth) 기반하여 높은 감도를 가지고 측정할 수 있다.
도 6에서 Ⅰ-2 유전자는 알려진 유명한 바이오마커들이고 본 방법으로 정렬하면 상위에 7개가 검출되는 고감도 결과를 볼 수 있다. 정상적인 SNP기반하여 마커를 발굴하면 위와 같은 정렬된 결과를 주지 않고, 100~200배 많은 수의 유의성을 주는 변이를 가지게 된다. 그리고, 그것을 사용하여 많은 시간을 들여서 검증하는 절차가 추가로 필요하다. 그러나, 본 발명 방법을 사용하면 전체 결과가 점수화가 되기 때문에 위에서부터 검증을 수행할 수 있다. 또한, 본 발명을 사용하여 위의 희귀질환과 같이 암에 걸리지 않은 일반인의 대립유전자형깊이 DB를 사용하여 추가적인 검증 결과를 생성할 수 있다.
도 7에는 실제 다수 백혈병환자의 대립유전자마커에 대한 실행 예시가 도시되어 있다.
3. 차세대에서 제3세대 기술로 전환에 따른 기술의 사양 가능성
차세대 시퀀싱 기술의 특징은 Chip 혹은 비드(bead)기반 DNA 올리고(Oligo) 조각들의 화학적인 반응(hybridization)에 의한 검출되는 것이 주요한 기술이다. 그러나, DNA가 합성될 때 생기는 플로톤을 정량하는 2.5세대 및 DNA가 합성될 때의 미묘한 변화를 빛으로 감별하여 염기를 판독하는 제3세대 기술 및 기름 방울의 응집을 이용한 비춤(RainDanse) 기술 등은 앞으로 합프로이드(Haploid) 서열을 생성하는 단계로 발전이 되는데, 이러한 기술은 여전히 그 차체로서 유용하지만 여전히 차세대 시퀀싱 데이터의 시그널강도 값 등의 원인인 DNA의 조각개수차이변이(copy number variation) 및 단백질의 보존성에 기인한 시퀀싱의 잘되는 혹은 안되는 영역들의 정보를 이용한 질병마커발굴이라는 문제에 여전히 유용고 영원히 차세대기술 차체로 발전될 가능성이 높다.
또한, 본 특허의 응용으로 NGS의 다른 영역인, ChipSeq, RNAseq, 및 DNA METseq 등에 대한 검출법등도 모두 대립유전자 및 시그널강도값에 기인한 정상과 질환의 차이를 주는 질병마커를 검출할 수 있다.
위에서 살핀 바와 같은 본 발명에 의한 대립유전자깊이, 시그널강도 및 질점수 기반의 역분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법은 상기와 같은 종래의 문제점을 해결하기 위하여 안출된 것으로, 본 발명은 대립유전자의 질병변위마커 대상 후보군을 산출하는 경우, 질병 변위 마커 후보군의 데이터들에 대하여 질병변위마커 검출 가능성에 따라 랭킹을 부여하여, 상기 후보군으로부터 실제 질병변위마커를 검출할 수 있는 효과가 있다.
또한,본 특허 기술과 PMAP(개인별 게놈 맵) 기술 및 환자별 유전자형 계층화 기술 기반으로 개인별 맞춤의학 분야의 큰 기여를 할 수 있는 효과가 있다.
도 1은 최근 진행되고 있는 맞춤 의료 유전체 서비스를 도시한 계략도.
도 2A는 염기다형성 계산용 SNPchip 시그널강도 값을 도시한 예시도.
도 2B는 염기다형성 계산용 NGS 대립형 유전자 깊이를 도시한 예시도.
도 3은 인간유전체 질병 대립유전자 변이 발굴 및 검색 스키마를 도시한 예시도.
도 4는 종래기술과 본 발명에 의해 대립유전자변이를 발굴하는 과정을 비교하여 도시한 흐름도.
도 5는 본 발명에 의한 개인별 유전체의 알려진 질병대립형질 검색예를 도시한 예시도.
도 6은 본 발명에 의한 희귀질환에서 질병대립유전자 마커 발굴 일 예를 도시한 예시도.
도 7은 본 발명에 의한 다수 백혈병환자로부터 질병 대립유전자마커 발굴하는 예를 도시한 예시도.
도 8은 본 발명에 의한 대립유전자깊이탄젠트차이를 도시한 예시도.
도 9은 본 발명에 의한 기하학적대립유전자의 차이를 도시한 예시도.
도 10는 본 발명에 의해 개인유전체 질병 대립유전자마커를 검색하는 일 예를 도시한 예시도.
도 11은 본 발명에 의해 희귀질환 가족데이터 신규 질병 마커를 발굴하는 일 예를 도시한 예시도.
도 12은 본 발명에 의해 암 쌍-데이터 신규 질병 마커를 발굴하는 일 예를 도시한 예시도.
도 13는 본 발명에 의해 암-쌍 데이터 약물 내성 대립유전자를 발굴하는 일 예를 도시한 예시도.
도 14은 본 발명에 의해 만성질환 대립유전자 신규 마커를 발굴하는 일 예를 도시한 예시도.
이하에서는 첨부된 도면을 참조하여 본 발명의 구체적인 실시예에 의한 대립유전자깊이, 시그널강도 및 질점수 기반의 역분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법을 상세히 살펴보기로 한다.
먼저, 본 발명을 설명함에 있어, 사용되는 용어를 아래와 같이 정의하도록 한다.
- 염기다형성(SNP: single nucleotide polymorphism): 인구집단에서 2~5%의 서로 다른 대립유전자가 있을 수 있는 유전형질 정보를 말한다.
- NGS(next generation sequencing) : 칩(Chip)기반 그리고 PCR기반 페어드엔드(paired end)형식으로 전장유전체를 조각내고, 상기 조각을 화학적인 반응(hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다.
- WGS (whole genome sequencing) : 차세대시퀀싱방법(NGS)에 의한 전장유전체시퀀싱을 10X, 20X, 40X형식으로 여러 배수로 인간게놈을 읽는 방법을 의미한다.
- WES (whole exome sequencing) : 위의 WGS중에서 단백질 생성에 관여하는 유전자부위만 시퀸싱을 하는 것을 의미한다.
- TS (Target sequencing) : 위의 WGS중에서 표적단백질 생성에 관여하는 유전자부위만 시퀸싱을 하는 것을 의미한다. 따라서, WGS > WES > TS의 데이터크기가 생성된다. 그러나, 작은 부위이기 때문에 많은 샘플을 시퀀싱 할 수 있는 장점이 있다.
- METseq: 유전자의 DNA methylation 측정을 위한 시퀀싱 기술
- RNAseq: 유전자의 발현, 즉 DNA transcriptome을 위한 시퀀싱 기술
- Microarray: 유전자의 발현, DNA transcriptome을 위한 chip기반 기술로 RNAseq과 유사한 결과를 만들지만, 시퀀싱 기반이 아닌 전통적인 chip기반 기술을 의미함.
- SNPchip : Affymetrix 및 Illumina가 중심에 있고 현재는 하나의 칩-어레이에 100만개의 SNP정보를 집적할 수 있는 chip 기술을 의미한다.
- 세포 집단 (cell or tissue population) : 인간의 몸에는 수많은 다른 세포들이 존재하는데, 백혈구, 눈세포, 뇌세포, 간세포, 암세포 등과 같은 세포들은 대부분 개별적으로 분리가 되지만 시퀀싱을 수행할 때 서로 분리되지 않은 채로 DNA가 추출될 수 있다. 특히 암세포를 추출할 때 정상세포도 함께 추출되는데 이러한 현상을 표현하기 위해 각각 다른 세포들의 집단을 세포집단이라고 표현한다.
- 인구 집단 (human population) : 한국인, 일본인, 중국인, 흑인, 코케시안 등 일반 유전형질이 다른 일반 인구집단을 의미한다.
- 차세대시퀀싱 (next generation sequencing) : illumina, 로슈, 아이언토론토 등의 시퀀싱 기술을 의미하는 것으로, 넓은 의미로는 제3세대 기술인 Pacificbio, RainDance 등의 기술 및 제 4세대 기술을 포함한다.
이러한 기술의 차이는 Chip 혹은 Bead기반이 올리고의 화학적반응에 기초를 둔 것이 차세대 기술이고, DNA를 해독하는 방법에 있서 속도 및 시퀀싱기술이 획기적으로 개선되면 제 3세대 또는 제 4세대 등으로 구분된다.
- 대립유전자 깊이(allele depth): 시퀀싱을 수행하면 표준게놈에 시퀀싱이 된 DNA조각을 붙이는 작업을 수행한다. 이렇게 붙은 유전자를 들의 전체를 전체 Depth라고 부른다. 그리고 전체 depth안에는 대립유전자형 얼리일(allele)A과 상대 대립유전자형 얼리일(allele)B이 포함되는데 이러한 2개의 다른 대립유전자의 합을 depth라고 부르고 개별 얼리일을 표준, 상대 대립유전자형이라고 부른다.
- 시그널강도(signal intensity): 올리고(oligo)와 같은 DNA조각이 칩에 붙어있는 DNA조각에 결합된 형태를 스케너로 읽으면 결합 및 염기의 특징에 따라 색 및 강도가 측정되는 값을 말한다.
- 돌연변이(amino acid mutation) : 염기다형성의 결과로 Wild type 아미노산이 변형된 형태를 돌연변이라고 부른다.
- 시퀀싱 회수(sequencing folds) : 시퀀싱을 수행하는 회수를 의미하는 것으로 10x로 시퀀싱을 하는 것이 일반적이나, 20x를 하면 보통 정도의 결과가 나오고, 40x 배수로 시퀀싱을 수행하면 희기 대립유전자를 많이 안정적으로 확보가 가능하다.
- 로커스(Locus) : 염색체상의 하나의 염기 위치를 의미한다.
- 연관불균형(LD: linkage disequilibrium): 다중 염색체에서의 2개 로커스가 연관불균형이 생겼는지 테스트하는 방법.
- SV(structural variation): 변이중에서 insertion, inversion, translocation 등에 의하여 생기는 염색체의 큰 단위(dna segment)에서 생기는 변이를 의미함.
- 방향성 SNV: 2개의 대립유전자가 서로 다른 방향성을 가지는 경우이다. 한명의 정상 유전체의 로커스가 Homo인데 다른 유전체의 로커스를 alternative Homo가 되는 경우는 서로 다른 인종에서 보이는 특이한 경우이다. 그러나, 이러한 변이가 암세포나 혹은 특이 질환에서 발견될 경우 스크리닝 할 수 있다. 또한, hetero인데, 2개의 hetero가 다른 방향성을 보인 경우도 있는데 원인은 아직 밝혀지지 않았다.
- 로커스 상위성(epistasis): 특정 로커스의 변이가 근처의 유전자 혹은 멀리떨어진 (remote) 유전자의 조절에 관여하는 현상 (예, alternative splicing).
- 로커스 기능정보 (locus functional information): 각 염색체상의 로커스가 기능적으로 알려져 있다는 것을 의미 한다 (예 : CNV, INDEL, Alternative splicing, promoter 등)
-SAMTOOLS: 원시정렬정보 조작 및 변이정의 엔진
-mpileup: SAMTOOLS에서 사용하는 기능중의 하나로 여러개의 BAM파일을 x to y축을 y to x축으로 정렬하는 기능
-BAM: Binary sequencing Alignment Map file,
-SAM: Sequencing Alignment Map file,
이하에서는 상기한 바와 같은 본 발명에 의한 대립유전자깊이, 시그널강도 질점수 및 로커스기능정보 기반의 역 분류 방식에 의한 NGS 데이터의 질병변이마커 검출 시스템 및 방법을 첨부된 도면을 참고하여 상세하게 설명한다.
도 8은 본 발명에 의한 대립유전자깊이텐젠트 차이를 도시한 예시도이고, 도 9은 본 발명에 의한 기하학적대립유전자의 차이를 도시한 예시도이고, 도 10 는 본 발명에 의해 개인유전체 질병 대립유전자마커를 검색하는 일 예를 도시한 예시도이며, 도 11은 본 발명에 의해 희귀질환 가족데이터 신규 질병 마커를 발굴하는 일 예를 도시한 예시도이고, 도 12은 본 발명에 의해 암 쌍-데이터 신규 질병 마커를 발굴하는 일 예를 도시한 예시도이며, 도 13는 본 발명에 의해 암-쌍 데이터 약물 내성 대립유전자를 발굴하는 일 예를 도시한 예시도이고,도 14은 본 발명에 의해 만성질환 대립유전자 신규 마커를 발굴하는 일 예를 도시한 예시도이다.
먼저, 본 발명의 제1실시예를 살펴보도록 한다.
실시예 1 : 본 발명의 제1실시예는 쌍-유전체 특이 변이마커 스크리닝 방법이다.
본 발명에 의한 ADISCAN(allelic depth and imbalance scanning)는 7가지 분석방법의 독립적 혹은 가중치기반 혼용을 사용하여 정상과 질환 유전체의 모든 차이를 주는 마커들을 스크리닝 한다.
즉, ADISCAN 점수 = t*w1+ s*w2 +d*w3 + g*w4 + c*w5 + r*w6 + e 으로 정의되고, 각 알고리듬을 t, s, d, g, c, r 및 e의 방식을 사용한다.
여기서, t: 대립유전자깊이곱탄젠트차이, s: 대립유전자제곱승차이, d: 대립유전자절대값차이, g: 기하학적대립유전자차이, c: 통계적대립유전자차이 r: 대립유전자불균형비율 및 e: 로커스 기능정보를 의미한다. w1, w2, w3, w4, w5 및 w6 들은 경험적인 (혹은 사용자 조작가능) 가중치 값이다. 그리고, e는 각 유전체에서의 특정 로커스(locus)의 기능정보에 대한 가중치 값이다. 즉, 상위성(epistasis), 다중 유전체 깊이 연관불균형(LD: linkage disequilibrium) 및 알려진 기능 정보(known functional information)등의 테이블참고(table lookup)데이터를 의미한다.
이들 각각의 내용을 상세히 살피면, 아래와 같다.
1)대립유전자깊이탄젠트차이
전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 하고, 다중유전체의 경우는 정상과 질환의 A, B, C 및 D값은 평균값을 의미 한다고 하면, 두개의 대립유전자깊이(A, B) 혹은 (C, D)를 각 x = adi(A, B), y = adi(C, D). 여기서, adi()는 다양한 대립유전자(A, B) 혹은 상대(질환) 대립유전자(C, D)를 변형(transform)한 0에서 시작하는 상수 형태의 연속변수(=x) 및 0에서 시작하는 상수 형태의 연속변수(=y)이다. 2개의 유전체의 전체 로커스(locus) 위치에서의 A, B, C 혹은 D의 값 중에서 가장 큰 값을 max라고 정의한다. 단, max가 절대 값 E보다 크면, max 는 E라고 정의하고, 대립유전자깊이탄젠트차이는 다음과 같다.
t= 1/tan (y / x) * 1/tan (max - x / max - y)
여기서 t값은 x 및 y축의 아래 2차원 좌표체계에서 x 및 y의 3개의 점(t1, t2, t3)이 아래 그림과 같이 주어지면, 대립유전자깊이탄젠트차이(t)을 사용하여 높은 차순으로 정렬하면 t1이 랭크1, t3가 랭크2 그리고 t2가 랭크3이 계산되어 진다. 이러한 방법으로 2개의 정상과 질환 유전체 사이에 가장 큰 차이를 주는 로커스를 정렬 할 수 있다 (도 8).
2)대립유전자제곱승차이
전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 정의하고, 다중유전체의 경우는 정상과 질환의 A, B, C 및 D값은 평균값을 의미 한다고 하면, 대립유전자제곱승차이(s)는 2제곱, 3제곱, 4제곱, 5제곱, 6제곱,,,, 및 N차 제곱승 등의 다양한 제곱 승을 사용 가능하다. 이중에서 특히, 모델에 잘 맞는 제곱승은 6제곱 승이고, 다음과 같다. x = B^6/A, A>=B 및 A>=1, 그리고 y = D^6/C 이고 여기서, C>=D 및 D>=1 이다. 또한, 분모는 두 개의 대립유전자깊이 중에 큰 수로 하고, 분자는 작은 수로 정한다. 대립유전자깊이가 0인 경우 1로 정하기도 하고, 균형을 맞추기 위해 0의 상대 대립유전자깊이를 2배수를 하는 방법 등의 약간의 다른 방식이 적용이 가능하다.
s = | log(x) - log(y) |
본 알고리즘의 특징은 두 개의 다른 대립유전자의 6제곱승 차이를 로그단위로 표현한 것이 특징이고, 0에서 무한 값까의 스큐드(skewed)분포를 주는 것이 특징이다.
또한, 대립유전자제곱승차이(s)의 정의 및 다양한 제곱승의 로그값(log)을 활용하여 변이정이(variant calling)을 수행하는 방법으로, x1 = log(B^6/A), x2 = log(B/A^6), y1 = log(D^6/C), 및 y2 = log(D/C^6)로 공식을 변형(transform)을 할 수 있다. 그리고, 이러한 점수는 x1이 마이너스("-")가 되면 호모(homozygote)를 의미하고, x1이 플러스("+")이면 heterozygote을 의미한다. 같은 방법으로, y1이 마이너스("-")가 되면 호모(homozygote)를 의미하고, y1이 플러스("+")이면 heterozygote을 의미한다. 그리고, x1 및 y1이 플러스("+")이더라도 점수가 0에서 1사이이면 변이정의를 결정 할 수 없는 영역, 즉, 경계 존 (twilight zone) 혹은 부분(혹은 임시) 변이 정의(partially defined variant calling)로 만들어서 사용 되고, 다른 로커스 기능정보 및 연관불균형(LD)정보 혹은 샘플집단 빈도 정보를 사용하여 최종 판단을 하기도 한다. 또한, x2 및 y2는 최종 homo 및 hetero의 방향성 및 균형을 위한 가시화용 정보로 활용된다.
3)대립유전자절대값차이
전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 정의하고, 다중유전체의 경우는 정상과 질환의 A, B, C 및 D값은 평균값을 의미 한다고 하면, 대립유전자절대값차이(d)는 다음과 같다.
d = sqrt (|A-B| * |C-D| )
본 알고리즘의 특징은 대립유전자의 차이를 극대화 한 것이다. 또한, d값은 가장 단순한 수식을 포함하기 때문에 복잡한 수식에 의한 정렬에서 생기는 모순점을 검증하는 측면에서 유용하게 사용가능하다.
4)기하학적대립유전자차이 (g = geometry-based difference)
기하학적대립유전자차이는 도 9에 도시된 바와 같이, 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 하고, 다중유전체의 경우는 정상과 질환의 A, B, C 및 D값은 평균값을 의미 한다고 하면, 기하학적대립유전자차이 계산을 위한 변형을 하면 다음과 같다.
small = min(A, B, C, D);
A = A - small +1;
B = B - small +1;
C = C - small +1;
D = D - small +1;
x = (A+B+C+D)/4;
AB = sqrt((0-A)*(0-A)+(1*x-B)*(1*x-B)) ;
BC = sqrt((1*x-B)*(1*x-B)+(2*x-C)*(2*x-C));
CD = sqrt((2*x-B)*(2*x-B)+(3*x-C)*(3*x-C));
DA = sqrt((3*x-B)*(3*x-B)+(0-A)*(0-A));
a=AB; b=BC; c=CD; d=DA;
s=(a+b+c+d)/2 이다.
그리고 변형(transform)된 새로운 정보를 이용한 정상 및 질병의 기하학적인 면적의 차이(g)는 다음과 같다.
g = log(sqrt((s-a)*(s-b)*(s-c)*(s-d))) * 1/sqrt(small)
여기서 AB, BC, CD 및 DA는 2개의 대립유전자들의 거리를 의미한다. 최종적인 g(=geometry-based difference)는 4개의 선으로 연결된 4각형의 브라마구타(Brahmagupta) 면적을 의미한다. 그리고, 1/sqrt(small)은 각각의 대립유전자의 가장 작은 값으로 나누어서 표준화(normalization)을 하여 사용한다. 이는 표준화를 하지 않은 값으로 수행하는 경우, 정상 vs. 질환의 대립유전자 비율 값은 250:250 vs. 100:250과 250:250 vs. 1:250의 차이를 구분하는 것이 어렵다.
즉, 전자는 대립유전자깊이가 150이지만 후자는 대립유전자깊이가 250이 되지만, 기하학적인 차이 알고리즘은 250 대 250으로 계산되기 때문에 표준화가 필요하다. 또한, g값 또한, 2개의 대립유전자와 x 및 y축을 가지고 가장 단순한 면적을 위한 수식을 포함하기 때문에 복잡한 수식에 의한 정렬에서 생기는 모순점을 검증하는 측면에서 유용하게 사용가능하다.
5) 통계적대립유전자차이(c=2x2 contingency chi-square)
전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 하고, 다중유전체의 경우는 정상과 질환의 A, B, C 및 D값은 평균값을 의미 한다고 하면, 정상 유전체와 질병 유전체의 2x2 컨틴전시 카이스쿼어 통계 값(c)는 다음과 같다;
c = chi-square (A, B, C, D);
또한, c값은, 2개의 대립유전자의 샘플 오염도(contamination) 정도를 가장 이상적인(혹은 가상의) 대립유전자비율 대비하여 차이(deviation)를 주는 정도를 fisher exact test로 샘플 contamination을 측정하는 수단으로도 사용 가능하다.
6)대립유전자불균형값비율(r = log2 allele imbalance ratio)
전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 A와 B라고 하고 질병 유전체의 대립유전자를 C와 D라고 하면 정상과 질병의 대립유전자불균형값비율 (r)은 다음과 같다;
ratio = max(A+B, C+D) / min(A+B, C+D);
r = log2(ratio);
또한, r값은, 2개의 대립유전자의 증감정도를 감지할 수 있기 때문에 CNV(copy number variation) 및 LOH(loss of heterozygosity)를 측정하는 수단으로 사용된다.
7)로커스 기능 가중치(e)
전체 게놈의 특정 로커스(locus) 위치에서, e는 각 유전체에서의 특정 로커스(locus)의 기능정보에 대한 가중치 값이다. 즉, 상위성(epistasis), 연관불균형(LD: linkage disequilibrium) 및 알려진 기능 정보(known functional information)등의 테이블참고(table lookup)데이터를 의미한다.
다음으로, 본 발명의 제2실시예를 살펴보도록 한다.
실시예2 : 본 발명의 제2실시예는 대립유전자깊이기반 역(reverse) CNV(Copy number variation), SNV, INDEL, 방향성 SNV, 및 SV(structural variation) 방법에 의한 차이를 분석하는 방법이다.
전술한 바와 같은 실시예 1에서 정리한 방식으로 본 발명에 의한 ADISCAN을 적용하면 두 개의 로커스(Locus: 염색체상의 위치)의 차이가 대립유전자 깊이 및 강도의 차이가 점수 형태로 산출된다.
그리고, 점수는 7가지의 다른 의미를 가진다.
여기서, 첫 번째는 한 유전체 쪽이 homo, 다른 유전체 쪽이 hetero가 되는 경우에 가중치를 주는 방법이고, 두 번째는 염기다형성(혹은, 돌연변이차이), 세 번째는 CNV차이, 네 번째는 INDEL차이, 다섯 번째는 SV(structural variation) 차이, 그리고 여섯 번째는 방향성SNV를 가지는 모든 대립유전자를 검색하고 그리고 일곱 번째는 주어진 로커스 기능 가중치 (예 : 상위성, 연관성불균형(LD) 및 알려진 기능정보)등을 검색한 7가지 방법의 점수를 합한 내용 및 7가지 중에서 한가지 대표성을 가지는 점수의 형태로 표현이 된다.
따라서, 총 점수 안에는 7가지 다른 요소의 점수들이 혼합되어 있는데 정상과 질환 유전체의 차이를 주는 질병변이 마커를 추출하는 것이 첫 번째 목적이기 때문에 ⅰ)유전체 사이에 차이가 발생된 모든 유전자 및 로커스 부분을 추출하고, ⅱ)추출한 후에 역(reverse)으로 본래의 목적에 맞는 7가지 분류를 적용하면 미리 분류(SNV, CNV, INDEL, 방향성SNV 및 SV) 하는 과정에서 생기는 오류를 피하고 목적에 부합하는 최종 결과물을 선별할 수 있으며, ⅲ) 그 이후에 역(reverse)으로 본래의 목적에 맞도록 아래와 같이, 5가지 정보를 변이정의(variant calling)을 하는 방법이다.
1) 역(Reverse) 분류기반 염기다형성에 의한 질병변이마커 선별
ADISCAN의 결과는 2개의 대립유전자가 특이하게 다를 때, 높을 점수를 받는다. 따라서 선별된 대립유전들에 대하여 다시 염기다형성 정의(SNV calling)를 수행 하면 염기다형성(혹은, 돌연변이)차이를 계산할 수 있다. 이것을 가지고 2개의 지노타입이 다르다고 설명할 수 있다. 즉, 차이를 먼저 계산하고 의미가 있는 것을 대상으로 염기다형성 정의를 수행하는 방법이다.
2) 역(Reverse) 분류기반 CNV 의한 질병변이마커 선별
ADISCAN의 결과는 2개의 대립유전자가 서로 다르면 높은 점수를 받는데 여기서, 특히 시그널 강도 값이 높게 측정되면 이는 DNA조각의 수 변화 (CNV: copy number variation)차이가 원인이 된 것이다. 따라서 선별된 대립유전들에 대하여 CNV 정의(calling)을 수행 하면 CNV의 차이를 계산할 수 있다. 즉, 대립유전자 차이를 주는 마커를 먼저 계산하고 의미가 있는 것을 대상으로 CNV 정의를 수행하는 방법이다.
3) 역(Reverse) 분류기반 INDEL(Insertion-Deletion) 의한 질병변이마커 선별
ADISCAN의 결과는 2개의 대립유전자가 서로 다르면 높은 점수를 받는데 여기서, 특히, 대립유전자의 차이를 값이 높게 측정되면 이는 DNA조각의 첨가(insertion) 및 삭제(deletion)에 차이가 원인이 된 것이다. 따라서, 선별된 대립유전들에 대하여 INDEL 정의(calling)을 수행 하면 INDEL의 차이를 계산할 수 있다. 즉, 대립유전자 차이를 주는 마커를 먼저 계산하고 의미가 있는 것을 대상으로 INDEL 정의를 수행하는 방법이다.
4) 역 분류기반 대립유전자 SV를 사용한 질병변이마커 선별
ADISCAN의 결과는 2개의 대립유전자가 서로 다르면 높은 점수를 받는데 여기서, 특히, 대립유전자의 차이를 값이 높게 측정되면 이는 DNA조각의 긴 첨가(long insertion) 및 긴 조각 삭제(long deletion), 및 상호교차(translocation)에 차이가 원인이 된 것이다. 따라서, 선별된 대립유전들에 대하여 SV 정의(calling)을 수행 하면 SV의 차이를 계산할 수 있다. 즉, 대립유전자 차이를 주는 마커를 먼저 계산하고 의미가 있는 것을 대상으로 SV 정의를 수행하는 방법이다.
5) 역 분류기반 대립유전자 방향성 SNV을 사용한 질병변이마커 선별
서도 다른 방향성을 가진 2쌍의 대립유전자 정보는 많은 경우에 Hetero로 정의되서 질병 및 정상 사이에 다른 지노타입으로 잡히지 않는다. 특히, 한 쌍의 대립유전자를 사용하여 염기다형성을 계산하는데 Homo인지 Hetero인지를 명확하게 구분이 되지 않는 경우가 많다. 이러한 경우에도, 정상과 환자의 대조군은 뚜렷하게 다른 방향성을 주는 대립유전자를 계산할 수 가 있는데, 이런식으로 한쪽의 유전체만 가지고 있을 때 불명확한 정보를 2개의 유전체를 비교를 통하여 방향성에 기초한 2개의 대립유전자를 비교한 후 차이를 이용하여 선별하는 것이 먼저이고, 선별한 후에 Homo 및 Hetero로 정의하면 Homo인지 Hetero분간이 안되는 정상/질병사이의 차이를 주는 마커로서 발굴이 가능해진다.
다음으로 본 발명의 제3실시예를 살펴보도록 한다.
실시예 3 : 본 발명의 제3실시예는 검증용 정상인/환자 통합 DB를 생성하는 방법에 관한 것이다.
본 발명에 의한 제3실시예는 대규모 공용 DB에서 대립유전자 깊이(allelic depth), 시그널강도(signal intensity), 다중 샘플에서의 마커(chr_position) 질 점수(MCR: marker call rate), 염색체상에서 연관불균형 점수(LD: linkage disequilibrium), 및 질 점수(quality score)등을 추출하여 DB를 생성한다. 여기서 100샘플의 50만 로커스(locus)가 있다고 가정하면, DB는 다음과 같이 생성할 수 있다.
제 1 단계 : 대부분의 SNV calling 알고리즘 들은 SNV정보와 함께 VCF (variant call format)을 출력파일로 생성한다. 그러나 본 발병에 의한 제3실시예에서는 모든 파라미터를 "0"으로 셋팅하여 가장 낮은 단계의 모든 원시파일에서 대립유전자 쌍인 Allele A, 및 Allele B, 그리고, 그것의 질점수(Quality Score), LD, MCR, 및 QS (QS1: phred quality score, QS2: mapping quality score)를 추출할 수 있다. 또는 samtools(원시정렬정보 조작 및 변이정의 엔진)의 mpileup(여러개의 정렬 파일을 x 에서 y축으로, 그리고 y측 에서 x축으로 정렬하는 기능)함수와 같이 직접 변이계산을 위한 대립유전자깊이 원시정보를 계산 및 추출 할 수 있다.
제 2 단계 : 이렇게 추출된 값들을 샘플 당 6개의 값을 합쳐서 아래와 같이 정렬을 한다.
Chr_position, AlleleA[0], alleleB[0], QS1[0], QS2[0], LD[0], MCR[0], AlleleA[1], alleleB[1], QS1[1], QS2[1], LD[1], MCR[1], ... AlleleA[N], alleleB[N], QS1[N], QS2[N], LD[N], MCR[N] 으로 표현할 수 있다.
여기서 N은 100이다. 따라서, 총 6*100+1(Chr_Position) = 601 컬럼을 생성한다. 이런식으로 정리된 파일을 RVR (대한민국 특허등록 제10-0996443호 참조)파일로 모든 숫자에 대한 indexing을 수행하고 필요한 컬럼 및 라인정보를 자동으로 추출 할 수 있도록 한다. 위의 예문으로는 생성된 DB의 크기는 601 (컬럼) x 500,000 (라인)이 된다.
제 3 단계 : 제 1 단계 및 제 2 단계에 의하여 생성된 질병변이마커들이 X개로 정해지면 X개의 마커들이 제 1 단계 및 제 2 단계를 통하여 생성된 정상/혹은 질병 검증용 셋트의 X개를 전체 DB에서 추출하고 검증용 용도로 사용을 한다.
이런 방법으로 정상(normal control)의 검증용 DB 및 환자(case disease)를 위한 DB를 만들 수 있다.
다음으로 본 발명의 제4실시예를 살펴보도록 한다.
실시예 4 : 본 발명의 제4실시예는 개인유전체에서 질병대립유전형질 검색방법이다.
이때, 사용되는 용어를 아래와 같이 정의한다.
- 개인유전체 : 정상인지 질병인지 모르는 상태에서 단지 질병 혹은 표현형을 주는 유전자를 찾기 위한 대상 유전체를 말한다.
- AD : 대립유전자깊이(allele depth) 정보 (2개의 대립유전자 형)
- QS : 질점수 (quality score)
- N : 정상인 유전체의 AD 값의 개수
- D : 질병 유전체의 AD 값의 개수
- X : 정상 및 질병 AD에서 차이가 없음을 나타내는 기호
- Y : 정상 및 질병 AD에서 차이가 있음을 나타내는 기호
- ADISCAN : 정상과 질병 AD간의 차이를 판별하는 패키지 변이정보
ADISCAN기반 개인유전체의 질병 대립유전자 검색방법은 각 인종에 특화된 검증용 질병 대립유전자 DB들이 필요하다. 이는 기존에 알려진 약 10,000개의 직접적인 영향을 주는 변이정보는 모든 인종에 적용이 되지 않기 때문이다.
따라서, 개별 인종에 특화된 검증이 필요하고 검증된 바이오 마커를 사용하여 진단검사를 수행 해야 하는데, 본 실시예는 ADISCAN에 기반의 검증방법을 적용한다.
현재 1000G (1000명 게놈), KARE데이터 (10,000명 게놈) 및 차세대맞춤의료유전체사업단의 PGM21 통합데이터(3,000명 게놈)가 존재한다. 이러한 통합 인구집단 유전체 데이터와 같이 ADISCAN 결과를 검증하는 검증용 DB가 필요하다. 즉, 이는 1명의 개인의 NGS 기반 전장엑솜시퀀싱(WES)를 수행한다면 전체 엑솜의 길이는 50 MB정도 되고, 그 안에 알려진 변이를 찾고, 찾은 변이 위치에 질병 대립유전자의 타입을 예측하는 것을 의미한다.
예를 들면 건강한 사람이 위와 같은 테스트를 수행한다면 본인이 가지고 있는 변이중에 질병 원인이 되는 희귀변이(Mendelian)을 비롯한 특정 나이에 활성화가 되는 희귀질환 변이들을 검색할 수 있다.
이와 같은 본 발명의 제 4 실시예는 도 10에 도시된 바와 같이, 아래와 같은 단계를 통해 수행될 수 있다.
제 1 단계 : 한국인 및 한국인과 유사한 중국인 및 일본인을 포함하는 전장 유전체 집단유전체(1000genome, KARE, PGM21 등)에서 최소한 질병 대립유전자가 20%이하 (혹은 더 낮거나 높은 상태)로 계산된 부위에 맵핑이 된 모든 질병 대립유전자를 포함한 질병마커들을 계산한 DB를 구축한다.
만일 국제적인 서비스를 수행하면 각 나라별 질병 대립유전자를 위의 기준에 부합하는 부위를 선정하고 사전 계산 작업에 의한 방식의 DB를 사용한다.
제 2 단계 : 개인유전체를 WGS, WES, 혹은 TS방법을 사용하여 시퀀싱을 수행한다.
제 3 단계 : 시퀀싱한 유전체 데이터에서 질병 대립유전자를 포함하는 위치의 모든 대립유전자 깊이 정보를 추출한다.
제 4 단계 : ADISCAN을 사용하여 제2단계 및 제3단계 결과 값을 입력파일로하여 질병위험도 및 ADISCAN 점수계산을 수행한다.
제 5 단계 : 상기 제1단계의 DB정보를 활용하여 제 2 단계의 개인유전체와 비교대상 인구집단의 질병 대립유전자깊이 위치정보와의 차이를 계산하고 1 vs. N의 차이점 결과를 산출한다. 유의성을 주는 수(X)를 산출하고 산술 성공률을 계산하여 높은 것에서 낮은 순으로 정렬한다.
Rank1, Allele A, Allele B, X*100/N, Sum(ADISCAN(i)*X(i))
산술 성공률 = X*100/N;
산술 성공률 점수 합 = Sum(ADISCAN(i)*X(i));
위의 성공률 및 가중치에 의한 점수합을 사용하여 랭크화하고 정렬된 순으로 이용자(의사 또는 유전정보 전문가)가 읽고 평가를 할 수 있는 방식의 참고자료가 포함된 리포트 폼을 생성한다. 여기서, X는 랭크 점수를 의미하고, N은 샘플 수를 의미한다.
다음으로 본 발명의 제5실시예를 살펴보도록 한다.
실시예 5 : 본 발명의 제5실시예는 도 11에 도시된 바와 같이 희귀질환/암 쌍 유전체에서 새로운 질병 대립유전자를 발굴하는 방법에 관한 것이다.
ADISCAN기반 희귀질환 및 암 등의 신규 질병마커 대립유전자 발굴방법으로 희귀질환 및 암은 가족을 대상으로 수행이 가능하고 암과 같이 자신의 정상세포 및 암세포를 포함한 쌍-샘플을 사용하여 같은 방식의 계산이 가능하다.
이와 같은 새로운 질병 대립유전자의 발굴은 아래와 같은 단계를 통해 수행될 수 있다.
재 1 단계 : 정상 및 환자의 유전체를 WGS, WES 혹은 TS 방식으로 시퀀싱을 수행한다.
이때, 상기 환자 유전체는 희귀질환 환자의 유전체 또는 암세포의 유전체를 의미하고, 정상 유전체는 희귀질환 환자의 가족 중 상기 희귀질환이 발병하지 않은 사람의 유전체 또는 암환자의 정상세포 유전체(또는, 암이 발병하지 않은 암환자 가족의 유전체)일 수 있다.
제 2 단계 : 시퀀싱한 데이터에서, 정상 유전체와 질병유전체 쌍을 ADISCAN을 사용하여 유의성 변이 부분을 산출한다.
예를 들면, 정상(할머니) vs. 질병(아빠), 정상(할머니) vs. 질병(아들1), 정상(할머니) vs. 질병(아들2), 정상(고모) vs. 질병(아빠), 정상(고모) vs. 질병(아들1), 정상(고모) vs. 질병(아들2)의 6쌍을 ADISCAN을 사용하여 유의성을 주는 변이를 생성한다.
제 3 단계 : 모든 유의성 변이들이 겹치는 부위를 최종 선별한다. 이처럼 가족 데이터의 경우 아빠-아들1-아들2는 같은 질병 대립형질유전자에 기인했을 확률이 높기 때문에 6쌍이 모두 동시에 유의한 질병 대립형질유전자를 계산한다.
제 4 단계 : 개인유전체 질병대립유전형질 검색방법에서 셋팅 한 제1단계 및 제2단계의 검증된 인구별 질병대립유전형질 DB를 활용한다. 상기 제3단계를 거치면 5천 만개의 전체 데이터에서 4~5천개의 후보마커가 선별이 되고, 이러한 후보마커들을 ADISCAN을 사용하여 인구별 질병대립유전형질 DB와 비교하면 더 높은 정확도의 바이오마커 대상을 선별할 수 있다.
제 5 단계 : 상기 제4단계를 거치면 점수가 높은 것에서 낮은 순으로 최종 마커 후보가 결정이 되고 이중에서 점수가 높은 것부터 CNV(copy number variatrion), 바이오맵, 주석작업 및 단백질 시뮬레이션을 수행한다.
다음으로 본 발명의 제6실시예를 살펴보도록 한다.
실시예 6 : 본 발명의 제6실시예는 도 13에 도시된 바와 같이 암 내성 유전체에서 암 내성 원인 마커를 발굴하는 방법에 관한 것이다.
제 6 실시예는 제5실시예의 희귀질환/암 유전체에서 질병 대립유전자 발굴과 같은 방법으로 제 1 단계 내지 제 3 단계에 의해 수행된다.
이하에서는 백혈병에 대한 마커 발굴 방법을 예로 들어 설명한다.
샘플들 중 ID_G1, G2, G3, G4 (Total 4cases)는 백혈병(AML) 중에서도 APL 이라는 특수 아형을 가진다. 상기 환자들의 유전체는 t(15;17) 변환된위치(translocation)를 갖고 있고, 유전자로는 PML/RARA 유전자 교차 (gene rearrangement)를 갖고 있다. 즉 이들은 이미 호발성 암(oncogenic driver)이 알려져 있다.
따라서 상기 아형들은 PML/RARA 를 표적으로하는 표적치료제를 쓰게 되는데 대부분 잘 듣지만 일부에서 듣지를 않는다. G1 환자가 그에 해당하는 환자이다. G1에는 있고 나머지에는 없는 변이를 찾아야 한다. 그 변이가 표적치료제 불응성과 관련 있을 같다고 추측한다.
상기 아형들은 유사한(homogenous) 집단이기 때문에, 암변이(cancer mutation)들도 다양하지 않을 것이고 비교적 동일할 것으로 보고 있다. 따라서, G1 에는 있고, 나머지에는 없는 변이를 찾는다. 이 변이는 정상(germline)의 것이 아니고 암(somatic)의 것이다.
도 12에 도시된 바와 같이, 위의 경우 G1, G2, G3, G4까지 모두 쌍-샘플이다. 즉, G1는 정상 및 암 조직의 2개 (쌍) 유전체를 포함한다.
제 1 단계 : G1, G2, .. G4 각각의 쌍-유전체에서 ADISCAN을 수행하고 후보를 선별한다.
제 2 단계 : 모든 유의성을 주는 결과들 중에서 G1에만 특이적으로 있는 변이를 선별한다.
제 3 단계 : 단백질 시뮬레이션을 수행하여 변이가 G1의 약물내성에 원인이 되는지를 확인한다.
다음으로 본 발명의 제7실시예를 살펴보도록 한다.
실시예 7 : 본 발명의 제7실시예는 도 13에 도시된 바와 같이, 만성질환 유전체에서 마커발굴하는 방법에 관한 것이다.
정상군 AD정보, N(s)와 질병군 AD정보, D(s)를 교차적(Pairewise)으로 비교한다. N1 x D(s), N2 x D(s), .. Nn x D(s). 그리고, N1.Y, N2.Y, Nn.Y를 산출한다. 여기서, N(s).Y는 유의성을 주는 마커 리스트를 의미한다. 그리고, 모든 N(s).Y의 점수를 정렬하여 표시한다.
본 발명의 권리는 위에서 설명된 실시예에 한정되지 않고 청구범위에 기재된 바에 의해 정의되며, 본 발명의 분야에서 통상의 지식을 가진 자가 청구범위에 기재된 권리범위 내에서 다양한 변형과 개작을 할 수 있다는 것은 자명하다.
본 발명은 바이오마커 검색 및 발굴 파워를 향상시키기 위하여 염기다형성 정의를 할 때 사용되는 연속변수 자체를 사용하여 비교분석 방법에 대한 것으로 본 발명에 의하면, 유전체 바이오마커들을 발굴하는 감도(sensitivity)가 기존의 방법에 비하여 10~10,000배 향상되는 장점이 있다.

Claims (21)

  1. 정상 유전체와 질환 유전체의 차이를 나타내는 마커를 검출하는 방법에 있어서,
    상기 마커의 검출은 대립유전자깊이탄젠트차이, 대립유전자제곱승차이, 대립유전자절대값차이, 기하학적대립유전자차이, 통계적대립유전자차이, 대립유전자불균형비율 또는 로커스 기능 중 어느 하나 이상을 기준으로 질병 마커의 우선순위를 설정하는 단계를 포함하여 수행됨을 특징으로 하는 NGS 데이터의 변이마커 검출 방법.
  2. 제 1 항에 있어서,
    상기 우선순위는,
    변수 t, s, d, g, c, r 및 e의 가중치에 의한 합으로 산출되고:
    여기서, 상기 변수 t는 대립유전자깊이탄젠트차이에 의한 변수이며;
    상기 변수 s는 대립유전자제곱승차이를 나타내는 변수이고;
    상기 변수 d는 대립유전자절대값차이를 나타내는 변수이며;
    상기 변수 g는 기하학적대립유전자차이를 나타내는 변수이고;
    상기 변수 c는 통계적대립유전자차이를 나타내는 변수이며;
    상기 변수 r은 대립유전자불균형비율을 나타내는 변수이고;
    상기변수 e는 로커스 기능에 대한 가중치 점수임을 특징으로 하는 NGS 데이터의 변이마커 검출 방법.
  3. 제 2 항에 있어서,
    상기 변수 t는,
    t= [1/tan (y / x)] * [1/tan (max-x / max-y)] 에 의해 산출되고:
    여기서, adi()함수는 대립유전자를 다양한 방식의 상수로 변형(transform)하는 함수이고;
    x = adi(A,B) 및 y=adi(C,D) 이며;
    A와 B는 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 의미하고;
    C와 D는 전체 게놈의 특정 로커스(locus) 위치의 질병 유전체의 대립유전자를 의미하며;
    정상과 질환의 대립유전자가 homo와 hetero형식과 같이 반대되는 개념에 가중치를 주는 것임을 특징으로 하는 NGS 데이터의 변이마커 검출방법.
  4. 제 2 항에 있어서,
    대립유전자제곱승차이(s)는,
    s = |log(x) - log(y)| 에 의해 산출되는 것으로,
    상기변수(s)는 두 개의 다른 대립유전자깊이로부터 산출되는 x 및 y의 log단위 절대값차이를 점수로 하여 랭크화 하는 것을 특징으로 하는 NGS 데이터의 변이마커 검출방법.
  5. 제 4 항에 있어서,
    상기 변수 x 및 y 는,
    x = B^N/A (A>=B 및 A>=1) 과;
    y = D^N/C (C>=D 및 D>=1) 로부터 산출되고;
    A와 B 그리고 C와 D는 각각 서로 다른 대립유전자깊이를 나타내는 변수이며;
    N은 1이상의 정수임을 특징으로 하는 NGS 데이터의 변이마커 검출방법.
  6. 제 5 항에 있어서,
    상기 N은 6임을 특징으로 하는 NGS 데이터의 변이마커 검출방법.
  7. 제 4 항에 있어서,
    대립유전자제곱승차이(s)는,
    대립유전자의 로그값으로부터 생성되는 마이너스("-") 또는 플러스(+) 형태의 Homo 및 Hetero로 지노타입(homo, hetero)의 변이정의(variant calling)를 하는 것임을 특징으로 하는 NGS 데이터의 변이정의 방법.
  8. 제 7 항에 있어서,
    대립유전자제곱승차이(s)는,
    log(B^6/A) 또는 log(B/A^6)와 log(D^6/C) 또는 log(D/C^6)의 차이값으로 부터 산출됨을 특징으로 하는 NGS 데이터의 변이정의 방법.
  9. 제 2 항에 있어서,
    상기 변수 d는,
    d = sqrt (|A-B| * |C-D|) 의해 산출되고:
    여기서, A와 B는 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 의미하고;
    C와 D는 전체 게놈의 특정 로커스(locus) 위치의 질병 유전체의 대립유전자를 의미함을 특징으로 하는 NGS 데이터의 변이마커 검출 방법.
  10. 제 2 항에 있어서,
    상기 변수 g는,
    정상유전체 및 질병유전체의 기하학적인 면적의 차이를 반영한 변수로,
    g = log(sqrt((s-a)*(s-b)*(s-c)*(s-d))) * 1/sqrt(small) 으로부터 산출되고:
    여기서,
    small = min(A, B, C, D);
    A' = A - small +1;
    B' = B - small +1;
    C' = C - small +1;
    D' = D - small +1;
    x = (A+B+C+D)/4;
    AB = sqrt((0-A')*(0-A')+(1*x-B')*(1*x-B')) ;
    BC = sqrt((1*x-B')*(1*x-B')+(2*x-C')*(2*x-C'));
    CD = sqrt((2*x-B')*(2*x-B')+(3*x-C')*(3*x-C'));
    DA = sqrt((3*x-B')*(3*x-B')+(0-A')*(0-A'));
    a=AB; b=BC; c=CD; d=DA;
    s=(a+b+c+d)/2 이고:
    A 및 B는 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 의미하고, C 및 D는 전체 게놈의 특정 로커스(locus) 위치의 질병 유전체의 대립유전자를 의미하며, AB, BC, CD 및 DA는 각각 2개의 대립유전자들 사이의 거리를 의미함을 특징으로 하는 NGS 데이터의 변이마커 검출 방법.
  11. 제 2 항에 있어서,
    상기 변수 c는,
    정상 유전체의 대립유전자와 질병 유전체의 대립유전자간의 2x2 컨틴전시 카이스쿼어(contingency chi-square) 통계 값을 반영한 변수로,
    대립유전자 A 및 B는 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 의미하고, 대립유전자 C 및 D는 전체 게놈의 특정 로커스(locus) 위치의 질병 유전체의 대립유전자를 의미함을 특징으로 하는 샘플의 오염도(contamination) 검출을 포함한, NGS 데이터의 변이마커 검출 방법.
  12. 제 2 항에 있어서,
    상기 변수 r은,
    정상 유전체와 질병 유전체의 대립유전자불균형값비을 반영한 변수로,
    r = log2(ratio)에 의해 산출되고;
    여기서, ratio = max(A+B, C+D) / min(A+B, C+D)이고, A 및 B는 전체 게놈의 특정 로커스(locus) 위치의 정상 유전체의 대립유전자를 의미하고, C 및 D는 전체 게놈의 특정 로커스(locus) 위치의 질병 유전체의 대립유전자를 의미함을 특징으로 하는 NGS 데이터의 변이마커 검출 방법.
  13. (A) 두 유전체 사이의 차이가 발생된 부분을 추출하는 단계와;
    (B) 상기 차이 발생부분에 대하여 역(reverse)으로 염기다형성, CNV, INDEL 또는 대립유전자 방향성, 및 SV중 하나의 차이를 분류하는 단계; 그리고
    (C) 상기 제B단계의 분류기준으로 차이에 대한 변이정의(variant calling)하는 단계를 포함하여 수행됨을 특징으로 하는 NGS 데이터의 변이마커 검출 방법.
  14. (a) 기준값을 "0"으로 설정한 상태의 원시파일의 대립유전자 깊이(allele A, allele B) 및 질점수(Quality Score)를 추출하는 단계와;
    (b) 상기 추출 결과를 컬럼 별로 구분하여 샘플 순으로 각각의 대립유전자 깊이 및 질점수를 구분단위로 구분하여 정리 파일을 생성하는 단계와;
    (d) 상기 정리파일을 구분단위에 따라 인덱싱하여 인덱싱 파일을 생성하는 단계; 그리고
    (e) 상기 대립유전자의 깊이 값의 차이를 비교하여 변이마커들을 추출하는 단계를 포함하여 수행됨을 특징으로 하는 검증용 정상인 및 환자 통합 데이터베이스 생성 방법.
  15. (1) 분석대상 개인유전체를 WGS, TS 또는 WES 방법을 사용하여 시퀀싱을 수행하는 단계와;
    (2) 상기 시퀀싱한 유전체 데이터에서 질병 대립유전자를 포함하는 위치의 대립유전자 깊이 정보를 추출하는 단계와;
    (3) ADISCAN을 사용하여 상기 대립유전자 깊이정보에 대한 질병위험도 및 ADISCAN 점수를 산출하는 단계와;
    (4) 기준 데이터베이스의 저장 데이터를 이용하여 분석대상유전체의 대립유전자 깊이정보와 기준 유전체의 질병 대립유전자깊이 정보와의 차이를 계산하는 단계; 그리고
    (5) 상기 제4단계의 차이 값으로부터 유의성을 나타내는 수(X)를 산출하여 산술 성공률을 계산하고 상기 산술성공률을 순차적으로 정렬하는 단계를 포함하여 수행되고:
    상기 ADISCAN은,
    상기 마커의 검출은 대립유전자제곱승차이, 대립유전자깊이탄젠트차이, 대립유전자절대값차이, 기하학적대립유전자차이, 통계적대립유전자차이, 대립유전자불균형비율 및 대립유전자 기능 가중치, 중 어느 하나 이상을 기준으로 질병 마커의 우선순위를 설정하여 유전체 변이마커를 스크리닝하는 것이며:
    상기 기준 데이터베이스는,
    상기 분석 대상 유전체와 유전학적 동일 인종의 전장 집단유전체로부터 질병 대립유전자가 기준치 이하로 계산된 부위에 맵핑된 모든 질병 대립유전자를 포함한 질병마커들을 계산한 결과값이 저장되고:
    상기 산술 성공률은,
    산술 성공률 = X*100/N 로부터 산출되며,
    여기서 X는 분석대상유전체의 대립유전자 깊이정보와 기준 유전체의 질병 대립유전자깊이 정보와의 차이로부터 산출된 유의성을 나타내는 수이고, N은 전체 샘플의 개수 임을 특징으로 하는 유전체의 질병대립 유전 형질 검색방법.
  16. (가) 정상 및 질병(환자) 유전체를 WGS, WES, 및 TS 방식으로 시퀀싱을 수행하는 단계와;
    (나) 상기 시퀀싱 데이터로부터 정상 유전체와 질병 유전체 쌍을 ADISCAN을 사용하여 유의성 변이 부분을 산출하는 단계와;
    (다) 상기 유의성 변이들 중 중복된 부분을 선별하여 후보마커를 선별하는 단계와;
    (라) 상기 후보마커를 기준 데이터베이스에 저장된 인종별 질병대립유전형질 데이터베이스와 ADISCAN을 이용하여 비교하여 바이오마커 대상을 선별하는 단계; 그리고
    (마) 상기 바이오마커 대상을 점수별로 우선순위를 부여하여 정렬하는 단계를 포함하여 수행되고:
    상기 ADISCAN은,
    상기 마커의 검출은 대립유전자제곱승차이, 대립유전자깊이탄젠트차이, 대립유전자절대값차이, 기하학적대립유전자차이, 통계적대립유전자차이,대립유전자불균형비율 및 대립유전자기능 가중치 중 어느 하나 이상을 기준으로 질병 마커의 우선순위를 설정하여 유전체 변이마커를 스크리닝하는 것이고:
    상기 기준 데이터베이스는,
    상기 분석 대상 유전체와 유전학적 동일 인종의 전장 집단유전체로부터 질병 대립유전자가 기준치 이하로 계산된 부위에 맵핑된 모든 질병 대립유전자를 포함한 질병마커들을 계산한 결과 값이 저장됨을 특징으로 하는 질환 쌍 유전체로부터 신규 질병 대립유전자의 바이오마커 발굴방법.
  17. 제 16 항에 있어서,
    상기 질병이 암인 경우,
    상기 정상유전체 및 질병 유전체는 동일인의 정상세포 및 암세포로부터 각각 추출된 유전체임을 특징으로 하는 질환 쌍 유전체로부터 신규 질병 대립유전자의 바이오마커 발굴방법.
  18. 제 16 항에 있어서,
    (바) 바이오 마커 후보들을 우선순위에 따라 CNV(copy number variatrion), 바이오맵, 주석작업 및 단백질 시뮬레이션을 수행하는 단계를 더 포함하여 수행됨을 특징으로 하는 질환 쌍 유전체로부터 신규 질병 대립유전자의 바이오마커 발굴방법.
  19. (1) 제1그룹 및 제2그룹에 속한 각각의 세포로부터 각각의 쌍-유전체에 대하여 ADISCAN을 수행하여 후보를 선별하는 단계와;
    (2) 상기 ADISCAN 결과 유의성을 나타내는 결과들 중에서 제1그룹 유전체의 결과에는 포함되지만 제2그룹 유전체의 결과에는 포함되지 않는 바이오 마커를 선별하는 단계; 그리고
    (3) 단백질 시뮬레이션을 수행하여 상기 바이오 마커의 약물내성 원인 여부를 확인하는 단계를 포함하여 수행되고:
    상기 ADISCAN은,
    상기 마커의 검출은 대립유전자제곱승차이, 대립유전자깊이탄젠트차이, 대립유전자절대값차이, 기하학적대립유전자차이, 통계적대립유전자차이, 대립유전자불균형비율 및 대립유전자 기능 가중치, 중 어느 하나 이상을 기준으로 질병 마커의 우선순위를 설정하여 유전체 변이마커를 스크리닝하는 것이고:
    상기 제1그룹 및 제2그룹은 동일 질병 환자들의 세포들로 구성되되, 상기 제1그룹은 특정 치료법에 대하여 약물 내성을 지닌 환자들의 세포들로 구성되고, 상기 제2그룹 상기 특정 치료법에 대하여 치료효과가 나타난 환자들의 세포들로 구성됨을 특징으로 하는 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법.
  20. 제 19 항에 있어서,
    상기 질병은 암(cancer)임을 특징으로 하는 질병 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법.
  21. 제 19 항에 있어서,
    상기 질병은 비암(non-cancer)임을 특징으로 하는 질병 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법.
KR1020130100998A 2012-11-12 2013-08-26 차세대 시퀀싱 데이터의 질병변이마커 검출 방법 KR101460520B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120127195 2012-11-12
KR20120127195 2012-11-12

Related Child Applications (2)

Application Number Title Priority Date Filing Date
KR1020140020736A Division KR101542529B1 (ko) 2014-02-21 2014-02-21 대립유전자의 바이오마커 발굴방법
KR20140020738A Division KR20150024232A (ko) 2014-02-21 2014-02-21 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법

Publications (2)

Publication Number Publication Date
KR20140061223A true KR20140061223A (ko) 2014-05-21
KR101460520B1 KR101460520B1 (ko) 2014-11-11

Family

ID=50890317

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130100998A KR101460520B1 (ko) 2012-11-12 2013-08-26 차세대 시퀀싱 데이터의 질병변이마커 검출 방법

Country Status (1)

Country Link
KR (1) KR101460520B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160082715A (ko) * 2014-12-26 2016-07-11 연세대학교 산학협력단 차세대 염기서열 분석법을 기반으로 하는 결실 유전자군 검출 방법
US10443090B2 (en) 2014-11-25 2019-10-15 Electronics And Telecommunications Research Institute Method and apparatus for detecting translocation

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101693717B1 (ko) 2015-12-28 2017-01-06 (주)신테카바이오 개인 전장 유전체의 유전변이정보를 이용한 생리활성변이 분석 시스템
KR101693504B1 (ko) 2015-12-28 2017-01-17 (주)신테카바이오 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
KR101693510B1 (ko) 2015-12-28 2017-01-17 (주)신테카바이오 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
KR101882867B1 (ko) * 2016-05-04 2018-07-27 삼성전자주식회사 변이 검출 표지의 신뢰도 결정 방법 및 장치
KR101815529B1 (ko) 2016-07-29 2018-01-30 (주)신테카바이오 휴먼 하플로타이핑 시스템 및 방법
KR102085169B1 (ko) 2016-12-15 2020-03-04 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 시스템 및 이를 이용한 분석 방법
CN107194143A (zh) * 2017-03-31 2017-09-22 苏州艾隆信息技术有限公司 药品信息数据处理方法及系统
KR102041504B1 (ko) 2018-12-20 2019-11-27 (주)신테카바이오 환자 계층화를 위한 맞춤의학 분석 플랫폼
KR102078200B1 (ko) 2018-12-20 2020-02-17 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
KR102041497B1 (ko) 2018-12-20 2019-11-27 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100996443B1 (ko) 2010-04-13 2010-11-24 (주)신테카바이오 고집적인덱스 데이터베이스 및 쿼리 데이터의 검색과 연산기능 분할에 의한 그래픽 프로세서 기반 병렬분산 처리 시스템 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10443090B2 (en) 2014-11-25 2019-10-15 Electronics And Telecommunications Research Institute Method and apparatus for detecting translocation
KR20160082715A (ko) * 2014-12-26 2016-07-11 연세대학교 산학협력단 차세대 염기서열 분석법을 기반으로 하는 결실 유전자군 검출 방법

Also Published As

Publication number Publication date
KR101460520B1 (ko) 2014-11-11

Similar Documents

Publication Publication Date Title
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
KR101460520B1 (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
US7107155B2 (en) Methods for the identification of genetic features for complex genetics classifiers
KR101693504B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
JP2024016039A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
KR101693510B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
JP2005527904A (ja) 複雑性疾患を構成疾患に細分するコンピュータ・システムおよび方法
US20050149271A1 (en) Methods and apparatus for complex gentics classification based on correspondence anlysis and linear/quadratic analysis
Favalli et al. Machine learning-based reclassification of germline variants of unknown significance: The RENOVO algorithm
JP2009516241A (ja) 血液型同定されたレシピエントに対する交差試験による、血液型が同定された輸血ドナーの選択
KR102085169B1 (ko) 개인 유전체 맵 기반 맞춤의학 분석 시스템 및 이를 이용한 분석 방법
JP2015089364A (ja) 体細胞多重変異によるがん診断方法、がん医薬開発方法及びがん診断装置
KR101693717B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 생리활성변이 분석 시스템
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
Mueller et al. Pathogenicity prediction of non-synonymous single nucleotide variants in dilated cardiomyopathy
EP4031688A1 (en) In vitro method for determining the risk of developing breast cancer in a subject
Wang et al. DeepPerVar: a multi-modal deep learning framework for functional interpretation of genetic variants in personal genome
CN112102884A (zh) 多基因位点联合疾病风险分析评估平台及方法
KR102041504B1 (ko) 환자 계층화를 위한 맞춤의학 분석 플랫폼
CN111951893A (zh) 构建肿瘤突变负荷tmb面板的方法及其使用方法
US9672271B2 (en) Method for identifying and employing high risk genomic markers for the prediction of specific diseases
KR102041497B1 (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
Sun et al. A genetical genomics approach to genome scans increases power for QTL mapping
JP7064215B2 (ja) 落屑症候群又は落屑緑内障の発症リスクの判定方法

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E90F Notification of reason for final refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170828

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181008

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190923

Year of fee payment: 6