KR20150059153A - 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법 - Google Patents

지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법 Download PDF

Info

Publication number
KR20150059153A
KR20150059153A KR1020150062776A KR20150062776A KR20150059153A KR 20150059153 A KR20150059153 A KR 20150059153A KR 1020150062776 A KR1020150062776 A KR 1020150062776A KR 20150062776 A KR20150062776 A KR 20150062776A KR 20150059153 A KR20150059153 A KR 20150059153A
Authority
KR
South Korea
Prior art keywords
snp
cancer
variation
snps
present
Prior art date
Application number
KR1020150062776A
Other languages
English (en)
Other versions
KR101585190B1 (ko
Inventor
김성호
김민승
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of KR20150059153A publication Critical patent/KR20150059153A/ko
Application granted granted Critical
Publication of KR101585190B1 publication Critical patent/KR101585190B1/ko

Links

Images

Classifications

    • G06F19/22
    • G06F17/20
    • G06F19/10
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 발명은 유기체에서 발견되는 다양한 변이(예컨대, 유전적 변이)를 보다 정확하게 분석하여 임상적으로 의미 있는 예측 결과를 얻을 수 있는 신규한 변이 분석 프로토콜에 관한 것이다. 본 발명은 한 개체의 어떤 형질(traits)에 대한 민감성(susceptibility)을 정확하게 예측한다. 본 발명의 예측 정확도는 무작위 예측과 비교하여 몇 배 증가된 정확도를 나타내며, 이러한 예측의 정도는 개체 또는 파퓰레이션의 건강 상태를 결정할 수 있을 정도로서 매우 개선된 예측 정확도를 나타낸다.

Description

지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법{Computer Implemented Methods for Analyzing Genomic or Epigenomic Variations}
본 발명은 유기체의 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행(computer implemented) 방법, 이를 위한 컴퓨터-독해가능한(computer-readable) 저장 매체 및 시스템에 관한 것이다.
개인의 전체지놈(WG) 서열 정보는 인간 지놈에서의 체계적 특징화 지놈 변이에 대한 이해를 혁신적으로 개선하고 있다(E. S. Lander (2011). Initial impact of the sequencing of the human genome. Nature 470(7333):187-197). 인간 지놈들의 대부분 부위는 동일한 서열을 가지고 있는 것으로 알려져 있으며, 작은 부위만이 단일염기다형성(SNP), 다양한 길이의 삽입-결실, 카피수 변이, 다양한 길이의 반복 또는 역전 등과 같은 지놈 변이를 가지고 있다(M. Snyder, et al. (2010). Personal genome sequencing: current approaches and challenges. Genes Dev 24(5):423-431). 이들 중에서, 대부분의 변이는 SNP이고, 이 SNP는 5% 이상의 마이너 대립유전자 빈도로 3M 지놈 위치들에서 동정되어 있다(International HapMap Consortium (2005). Haplotype map of the human genome. Nature 437(7063):1299-1320; The International HapMap Consortium (2007). A second generation human haplotype map of over 3.1 million SNPs. Nature 449(7164):851-861).
비-지놈 요인과 함께 이러한 지놈 변이는 표현형 변이에 연결된다고 판단되고 있다. GWAS(genome-wide association study)에서의 연구목적 중 하나는, 암, 만성 질환, 신경성 질환 및 감염성 질환 등과 같은 질환에 대한 개체의 질환 민감성(disease susceptibility)에 대한 지놈 요인을 평가하는 것이다. SNP 유전형 및 암 표현형 사이의 연관성을 규명하기 위한 집중적인 연구에 의해, 16개 암에 대한 약 100개의 지놈 민감성 좌위가 밝혀졌고, 몇 몇의 암은 많은 좌위와 연관되었으며, 다른 암들은 단지 몇 개의 좌위와 연관되었으나(O. Fletcher & R. S. Houlston (2010). Architecture of inherited susceptibility to common cancer. Nat Rev Cancer 10(5):353-361), 특이적인 인과좌위(causal loci)는 거의 밝히지 못하였다(G. Gibson (2011). Rare and common variants: twenty arguments. Nat Rev Genet 13(2):135-145). 더욱이, 몇 명의 연구자들은 GWAS-규명된 좌위가 대부분의 암의 높은 가족성 위험을 설명하지 않았다고 비판하고 있다(T. A. Manolio, et al. (2009). Finding the missing heritability of complex diseases. Nature 461(7265):747-753). 따라서, 현재의 분석방법에 의해 얻은 결과와 질환민감성 예측을 위한 이들에 대한 해석은 너무 모호하여 개체 또는 파퓰레이션에 대한 임상적 유용성을 가지고 있지 않다.
본 명세서 전체에 걸쳐 다수의 논문 및 특허문헌이 참조되고 그 인용이 표시되어 있다. 인용된 논문 및 특허 문헌의 개시 내용은 그 전체로서 본 명세서에 참조로 삽입되어 본 발명이 속하는 기술 분야의 수준 및 본 발명의 내용이 보다 명확하게 설명된다.
본 발명자들은 상술한 종래 기술의 문제점을 해결하고자 노력하였다. 그 결과, 본 발명자들은 유기체에서 발견되는 다양한 변이(예컨대, 유전적 변이)를 보다 정확하게 분석하여 임상적으로 의미 있는 예측 결과를 얻을 수 있는 신규한 변이 분석 프로토콜을 개발하였다. 본 발명은 자연어 분석에서 “단어” 및 “단어 빈도 프로파일”과 유사한 접근 방식으로서, 두 개의 독특한 개념, 즉 변이 신택스(variation syntax: VAR-S; SNP에 적용하는 경우에는 SNP 신택스: SNP-S) 및 VAR-S의 특징 빈도 프로파일(Feature Frequency Profile: FFP)"를 이용하여 한 개체의 체계적(organizational) 특징들을 표현하고 분석하는 방법을 제시한다.
또한, 본 발명자들은 변이 분석 즉 개체의 형질 결정에 대한 정확도를 개선하기 위하여, 변이에 대한 최소 두 종류의 묘사자를 최소 두 종류의 클래스 예측 알고리즘 각각에 적용하고, 이러한 적용으로부터 나온 결과들을 적합한 추론 알고리즘에 적용하는, 또 다른 프로토콜을 개발하였다.
따라서, 본 발명의 목적은 유기체의 지놈 변이(genomic variation) 또는 후생학적 변이(epigenomic variation)를 분석하기 위한 컴퓨터 실행(computer implemented) 방법을 제공하는 데 있다.
본 발명의 다른 목적은 유기체의 지놈 변이(genomic variation) 또는 후생학적 변이(epigenomic variation)를 분석하기 위한 단계를 실시하도록 컴퓨터 프로세서를 지시하는 지시사항(instructions)이 포함된(embodied) 컴퓨터-독해가능한(computer-readable) 저장 매체를 제공하는 데 있다.
본 발명의 또 다른 목적은 유기체의 지놈 변이(genomic variation) 또는 후생학적 변이(epigenomic variation)를 분석하기 위한 시스템을 제공하는 데 있다.
본 발명의 다른 목적 및 이점은 하기의 발명의 상세한 설명, 청구범위 및 도면에 의해 보다 명확하게 된다.
본 발명의 제1발명인 변이 신택스(variation syntax: VAR-S)를 이용한 분석 방법은 다음과 같다:
본 발명의 일 양태(aspect)에 따르면, 본 발명은 다음 단계를 포함하는 유기체의 지놈 변이(genomic variation) 또는 후생학적 변이(epigenomic variation)를 분석하기 위한 컴퓨터 실행(computer implemented) 방법을 제공한다:
(a) 상기 변이들의 연계 스트링(linked string)을 구축하는 단계;
(b) 상기 연계 스트링의 전체 길이를 따라 특정 길이의 슬라이딩 윈도우를 적용하여 특정 길이의 변이 신택스(variation syntax: VAR-S)를 구축하는 단계;
(c) 상기 특정 길이의 변이 신택스에서 모든 가능한 특징들(features)을 카운트하고 특징 빈도 프로파일(feature frequency profiles: FFPs)로 어셈블링 하는 단계; 및
(d) 상기 FFPs 사이의 거리를 결정하거나 또는 FFPs를 분류(classify)하는 단계.
본 발명자들은 상술한 종래 기술의 문제점을 해결하고자 노력하였다. 그 결과, 본 발명자들은 유기체에서 발견되는 다양한 변이(예컨대, 유전적 변이)를 보다 정확하게 분석하여 임상적으로 의미 있는 예측 결과를 얻을 수 있는 신규한 변이 분석 프로토콜을 개발하였다. 본 발명은 자연어 분석에서 “단어” 및 “단어 빈도 프로파일”과 유사한 접근 방식으로서, 두 개의 독특한 개념, 즉 변이 신택스(variation syntax: VAR-S; SNP에 적용하는 경우에는 SNP 신택스: SNP-S) 및 VAR-S의 특징 빈도 프로파일(Feature Frequency Profile: FFP)"를 이용하여 한 개체의 체계적(organizational) 특징들을 표현하고 분석하는 방법을 제시한다.
보다 구체적으로, 본 발명의 SNP 및 암 민감성 예측에 대한 구현예에 따르면, 본 발명자들은 자연어 분석에서 “단어” 및 “단어 빈도 프로파일”(C. D. Manning & H. Schuetze (1999). Foundations of Statistical Natural Language Processing. The MIT Press,1 edn)과 유사한 방법으로, 두 개의 발명적 사상, “SNP 신택스(SNP syntax: SNP-S)" 및 ”SNP-S의 특징 빈도 프로파일(Feature Frequency Profile: FFP)"를 이용하여 한 개체의 WG SNPs의 체계적 특징들을 표현하는 신규한 방법을 최초로 제시하며, 이러한 사상에 대한 증명(proof of concept)으로서, TCGA(The Cancer Genome Altas) 데이터베이스로부터 얻을 수 있는 암 환자의 혈액 샘플의 WG SNP 유전자형으로부터 분석된 SNP-Ss의 FFPs를 비교하여, 8 종류의 암에 대한 정량적 유전 민감성을 예측한다.
개체 지놈 서열의 빠른 축적에 의해 새로운 유전적 특성의 발견이 예견되며, 이는 본 발명자들의 암 및 다른 질환들에 대한 모델을 계속적으로 개정하고, 확대하고, 다양화시킬 것이다. 질환에 대한 상기 계속적인 발전 모델에 대한 인식 하에서, 본 발명자들은 암 민감성에 대한 일반적이고 포괄적인 모델을 제시한다. 특히, 본 발명자들의 연구는 가능한 많은 대안에 대하여 개방적이며 이에 본 연구의 결과가 다음의 가정 또는 가설을 지지하는 증거를 규명할 것이다:
1. 암 그 자체에 대한 각각의 유전적 민감성 대립유전자는 마이너 해로운 표현형 결과를 가질 수 있으며, 마이너 유전성 위험을 부여할 수 있고, 다양한 표현율(variable penetrance)를 가지며, 그리고 파퓰레이션의 작은 부분에서 나타나고, 이에 일반적으로 “치명적인” 결과를 거의 초래하지 않는다. 따라서, 각각의 유전적 민감성 대립유전자는 파퓰레이션에서 마이너 빈도로 발생될 수 있고(E. T. Cirulli & D. B. Goldstein (2010). Uncovering the roles of rare variants in common disease through whole-genome sequencing. Nat Rev Genet 11(6):415-425);
*2. 하나의 특정 암 종류는 많은 서브타입을 가지고 한 개체에서 각각의 서브타입은 많은 유전자들에 의해 유발된다는 사실과 유사하게, 매우 복잡하고 다양한 방식으로 매우 다양한 효과 정도로(M. Gerlinger, et al. (2012). Intratumor Heterogeneity and Branched Evolution Revealed by Multiregion Sequencing. N Engl J Med 366(10):883-892), 다양한 유전적 변이에 의해 유발되는 멀티플 유전(유전암호 서열 및 비유전자암호 서열) 대립유전자의 세트는 한 개체를 암에 대하여 민감하도록 하며, 이들의 대부분은 한 개체의 지놈에서 마이너 대립유전자로 나타낼 수 있고;
3. 하나의 특정 암에서 상이한 암 서브타입들 및 심지어 단일 종양에서 상이한 암 서브타입들 중에서, 상이한 체세포 변이들을 갖는 암 세포의 비균질성이 있고(M. Gerlinger, et al. (2012). Intratumor Heterogeneity and Branched Evolution Revealed by Multiregion Sequencing. N Engl J Med 366(10):883-892); 그리고,
4. 유전적 민감성 대립유전자의 각각의 세트 자체 및/또는 비-유전적 이벤트(예컨대, 병원체, 방사선, 화합물, 환경적 요인 등에 의해 유발되는 이벤트)와 함께 암 발생을 촉발시킬 수 있으며 이어 드라이버 변이의 하나 또는 그 이상의 연속적 획득에 의존하는 클론 팽창의 하나 또는 그 이상의 연속적 웨이브가 후속된다(P. J. Stephens, et al. (2012). The landscape of cancer genes and mutational processes in breast cancer. Nature 486(7403):400-404). 따라서, 암 드라이버 대립유전자와 암 민감성 대립유전자의 상관성은 나타날 수 있거나, 직접적이거나 또는 강력하며, 또는 그렇지 않을 수도 있다.
본 발명에서의 분석 대상이 되는 지놈 변이는 유기체에서 발견되는 다양한 변이를 포함하며, 바람직하게는 뉴클레오타이드 서열에서의 SNP(single nucleotide polymorphism), 결손, 삽입 또는 반복 변이; 또는 후생학적 변이(epigenomic variation)이다. 후생학적 변이의 예는 DNA 메틸화 또는 히스톤 변형을 포함한다. 가장 바람직하게는, 본 발명에서 분석 대상이 되는 변이는 SNP이다.
본 발명에서 분석 대상이 되는 변이는 뉴클레오타이드 서열에 존재하는 변이이며, 상기 뉴클레오타이드 서열은 하나의 염색체 상의 서열, 복수의 염색체 상의 서열 또는 전체 지놈 서열이고, 보다 바람직하게는 전체 지놈 서열(whole genome: WG)이다.
가장 바람직하게는 본 발명에서 분석 대상이 되는 변이는 전체 지놈 서열에 있는 SNPs이다.
본 발명의 바람직한 구현예에 따르면, 단계 (a)는 변이들 각각에 코드를 부여하여 상기 코드의 연계 스트링을 구축하여 실시한다.
보다 바람직하게는, 단계 (a)는 SNP의 유전자형(genotype) 각각에 코드를 부여하여 상기 코드의 연계 스트링을 구축하여 실시한다. 예를 들어, 인간 지놈의 SNP를 분석하는 경우, 10개 가능한 SNP 유전자형이 있을 수 있으며, 각각의 SNP 유전자형에 알파벳으로 된 코드를 부여하여 SNP에 대한 연계 스트링을 구축할 수 있다(참조: 표 3).
본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상 변이들은 SNPs이고, 상기 SNPs는 (i) 5% 이하(보다 바람직하게는, 4% 이하, 보다 더 바람직하게는 3% 이하, 보다 더욱 더 바람직하게는 2% 이하, 가장 바람직하게는 1% 이하)의 대립유전자 빈도를 나타내는 SNPs의 제거, (ii) 하디 와인버그 평형 시험(Hardy Weinberg Equilibrium test) 및 (ii) 플레이트-효과 시험으로 구성된 군으로부터 선택되는 최소 1개의 방법에 의해 QC(Quality control)된 SNPs이다. 이러한, 샘플 QC는 본 발명의 분석 결과가 보다 정확하게 되도록 한다.
본 발명의 바람직한 구현예에 따르면, 본 발명의 방법은 단계 (b) 이전에 변이 신택스의 최적 길이를 결정하는 단계를 추가적으로 포함한다.
변이 신택스(예컨대, SNP-S)의 최적 길이의 결정은 다양한 방식으로 할 수 있다.
본 발명의 구현예에 따르면, 변이 신택스(예컨대, SNP-S)의 최적 길이의 결정은 유기체의 표현형(phenotype)에 대하여 가장 높은 정확도를 나타내는 길이로 경험적으로(empirically) 결정하여 실시한다. 이 경우, 상기 표현형은 바람직하게는 질환(예컨대, 암)이다.
택일적으로, 변이 신택스의 최적 길이의 결정은 RF(Robinson-Foulds) 거리를 이용하여 제작된 트리 토폴로지(tree topology)에서 수렴(convergence) 구간 내의 길이를 최적 길이로 선택하여 실시할 수 있다(참조: Gregory E. Sims, et al. (2009). Whole-genome phylogeny of mammals: Evolutionlay information in geneic and nongenic regions. PNAS USA 106(40):17077-17082).
변이 신택스(예컨대, SNP-S)의 최적 길이를 이미 알고 있거나 또는 최적 길이를 결정한 경우, 단계 (b)는 상기 결정된 최적 길이를 갖는 슬라이딩 윈도우를 이용하여 실시한다.
본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석 대상이 되는 변이는 SNP이고 최적 길이는 상기 SNP의 조밀도(density)는 1 백만 SNPs/지놈인 경우 6-14(보다 바람직하게는 8-12, 가장 바람직하게는 10)이다. 만일, SNP의 조밀도가 증가하면, 상기 최적 길이도 증가하게 된다.
본 발명의 바람직한 구현예에 따르면, 단계 (d)에서 길이가 결정되는 FFPs는 특정 길이의 희귀(rare) VAR-S(예컨대, SNP-S)에 대한 것으로 필터링-인(filtering-in)된 것으로서, 상기 특정 길이의 희귀 VAR-S(예컨대, SNP-S)는 분석 대상의 변이를 포함하는 파퓰레이션에서 20% 이하(보다 바람직하게는, 5% 이하, 보다 더 바람직하게는 3% 이하, 가장 바람직하게는 2% 이하)의 낮은 빈도로 필터링-인된 희귀 VAR-S(예컨대, SNP-S)이다.
본 발명의 바람직한 구현예에 따르면, 단계 (d)에서 FFPs 사이의 거리는 다양한 거리 함수(distance function)를 적용하여 얻을 수 있으며, 예컨대 JS (Jensen-Shannon) 발산, 유클리디안 거리(Euclidean distance) 함수, 코사인 거리(Cosine distance) 함수, 민코우스키 거리(Minkowski distance) 함수 및 피어슨 선형 연관(Pearson linear correlation)을 적용하여 얻을 수 있으며, 가장 바람직하게는 JS (Jensen-Shannon) 발산으로 FFPs 사이의 거리를 얻는다.
예를 들어, JS (Jensen-Shannon) 발산을 이용하여 두 FFPs(P l , Q l ) 사이의 거리는 다음의 수학식에 따라 계산된다:
Figure pat00001
상기 수학식에서, M l 은 P l 및 Q l 의 평균 FFP이고, RE는 상대적 엔트로피이다.
하기 실시예를 참조하여 본 발명의 구체적인 실시예를 설명하면, 어떤 한 개체의 SNP-Ss FFP와 가장 작은 JS (Jensen-Shannon) 발산을 갖는 다른 개체가 유방암 환자인 경우, 상기 개체는 유방암에 대한 민감성(susceptibility)이 높은 것으로 판정될 수 있다.
이렇게 하여 얻은 페어와이즈 올-어겐스트 올(pair-wise all-against-all) 거리들을 거리 매트릭스에 저장한다. 거리 매트릭스에서 동일한 대상들(identical objects)은 0의 거리를 가지며, 상이한 대상(dissimilar objects)은 큰 거리를 갖는다.
FFPs 사이의 거리 관계는 다양한 방식(예컨대, 최근접-이웃 연결 맵 또는 계통적 트리)으로 가시화 할 수 있다(참조: 도 3).
FFPs를 분류하는 방법은 클래스 예측 알고리즘(class prediction algorithm)을 이용하여 실시할 수 있으며, 예를 들어 SVM(support vector machine)으로 할 수 있다.
본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석 대상이 되는 유기체는 동물, 식물, 진균, 효모, 박테리아 또는 프로티스트(protist)이다.
본 발명에 의해 분석 가능한 동물은 포유동물, 곤충, 파충류 및 조류를 포함하나, 이에 한정되는 것은 아니다. 바람직하게는, 본 발명에 의해 분석되는 동물은 인간, 마우스, 래트, 소, 돼지, 말, 양, 토끼, 염소, 조류, 어류 및 곤충을 포함한다.
본 발명에 의해 분석 가능한 식물은 단자엽 식물, 쌍자엽 식물 및 앨지(algae)를 포함하나, 이에 한정되는 것은 아니다. 바람직하게는, 본 발명에 의해 분석되는 식물은 벼, 밀, 보리, 옥수수, 콩, 감자, 밀, 팥, 귀리 및 수수를 포함하는 식량 작물류; 아라비돕시스, 배추, 무, 고추, 딸기, 토마토, 수박, 오이, 양배추, 참외, 호박, 파, 양파 및 당근을 포함하는 채소 작물류; 인삼, 담배, 목화, 참깨, 사탕수수, 사탕무우, 들깨, 땅콩 및 유채를 포함하는 특용작물류; 사과나무, 배나무, 대추나무, 복숭아, 양다래, 포도, 감귤, 감, 자두, 살구 및 바나나를 포함하는 과수류; 장미, 글라디올러스, 거베라, 카네이션, 국화, 백합 및 튤립을 포함하는 화훼류; 및 라이그라스, 레드클로버, 오차드그라스, 알파알파, 톨페스큐 및 페레니얼라이그라스를 포함하는 사료작물류를 포함한다.
상기 박테리아의 예는 유박테리아 및 아키박테리아를 포함한다. 본 발명에 의해 분석 가능한 유박테리아의 예는 Escherichia coli , Thermus thermophilics , Bacillus subtilis , Bacillus stearothermophilus , Salmonella typhimurium , Pseudomonas, Streptomyces , Staphylococcus , Lactobacillus , Lactococcus Streptococcus를 포함하나, 이에 한정되는 것은 아니다. 본 발명에 의해 분석 가능한 아키박테리아의 예는 Methanococcus jannaschii ( Mj ), Methanosarcina mazei (Mm), Methanobacterium thermoautotrophicum ( Mt ), Methanococcus maripaludis , Methanopyrus kandleri , Halobacterium , Archaeoglobus fulgidus ( Af ), Pyrococcus horikoshii ( Ph ), Pyrobaculum aerophilum , Pyrococcus abyssi , Sulfolobus solfataricus ( Ss ), Sulfolobus tokodaii , Aeuropyrum pernix ( Ap ), Thermoplasma acidophilum 및 Thermoplasma volcanium를 포함하나, 이에 한정되는 것은 아니다.
본 발명에 의해 분석 가능한 프로티스트(protist)는 조류(algae), 플라스모듐(Plasmodium), 파이토프토라(Phytophthora), 슬라임 몰드(slime molds), 원충류(protozoans)를 포함하나, 이에 한정되는 것은 아니다.
본 발명의 바람직한 구현예에 따르면, 분석대상의 변이는 유기체의 형질(traits)과 연관된 변이이고 본 발명의 방법은 유기체의 형질(traits)에 대한 민감성을 예측하는데 이용된다.
본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상이 되는 형질은 나쁜 형질(adverse traits)로서, 질환(diseases), 질병(disorders), 상태(conditions) 또는 증상(symptoms)이다. 예를 들어, 상기 질환, 질병, 상태 또는 증상은 암, 종양, 만성질환, 감염성 질환, 신경 질환, 대사성 질환, 면역질환, 염증성 질환, 심혈관 질환, 호흡기 질환, 골 질환, 갑상선 질환, 이비인후과 질환, 안과 질환, 피부과 질환, 치과 질환, 내분비 질환, 위장과 질환, 유전성 질환, 근골격계 질환, 관절염, 비만 및 고지혈증을 포함하나, 이에 한정되는 것은 아니다.
보다 바람직하게는, 본 발명에서 분석대상이 되는 형질은 암 질환이다. 예를 들어, 한 객체의 암 질환에 민감성(susceptibility)을 본 발명에 의해 정량적으로 예측할 수 있다.
본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상이 되는 형질은 이점이 되는(advantegeous) 형질로서, 성장속도, 수율 또는 질(quality)이다.
본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상이 되는 변이는 유기체의 치료(therapy) 반응성(responsiveness)과 연관된 변이이고 상기 방법은 유기체의 치료 반응성을 예측하는데 이용된다. 치료 반응성의 대표적인 예는 약물 반응성(drug responsiveness)이다. 특정 약물에 대하여 반응성이 있는 사람(respondent), 반응성이 없는 사람(non-respondent) 및 역반응성이 있는 사람(adverse respondent)를 본 발명에 의해 판정할 수 있다.
본 발명의 일 구현예에 따르면, 본 발명에 의해 분석된 변이는 멀티클래스 암 분류(multiclass cancer classification)에 이용될 수 있다. 암 치료에 있어서 가장 중요한 것은, 환자의 암에 대한 정확한 진단 또는 정보이다. 이러한 정확한 진단을 위하여 멀티클래스 암 분류가 필요하다(참조: Ramaswamy S, et al. (2001). Multiclass cancer diagnosis using tumor gene expression signatures. PNAS USA 98(26):15149-54). 본 발명은 이러한 멀티클래스 암 분류에 이용될 수 있다.
본 발명의 다른 양태에 따르면, 본 발명은 하기의 단계를 실시하도록 컴퓨터 프로세서를 지시하는 지시사항(instructions)이 포함된(embodied) 컴퓨터-독해가능한(computer-readable) 저장 매체를 제공한다: (a) 상기 변이들의 연계 스트링(linked string)을 구축하는 단계; (b) 상기 연계 스트링의 전체 길이를 따라 특정 길이의 슬라이딩 윈도우를 적용하여 특정 길이의 변이 신택스(variation syntax: VAR-S)를 구축하는 단계; (c) 상기 특정 길이의 변이 신택스에서 모든 가능한 특징들(features)을 카운트하고 특징 빈도 프로파일(feature frequency profiles: FFPs)로 어셈블링 하는 단계; 및 (d) 상기 FFPs 사이의 거리를 결정하거나 또는 FFPs를 분류(classify)하는 단계.
본 발명의 또 다른 양태에 따르면, 본 발명은 다음을 포함하는 유기체의 지놈 변이(genomic variation) 또는 후생학적 변이(epigenomic variation)를 분석하기 위한 시스템을 제공한다:
(a) 컴퓨터 프로세서; 및
(b) 상기 프로세서와 커플링된 상기 본 발명의 컴퓨터-독해가능한(computer-readable) 저장 매체.
본 발명의 저장매체 및 시스템은 상술한 본 발명의 방법을 실시하기 위한 것으로서, 이 둘 사이에 공통된 내용은 본 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
본 발명의 저장 매체는 특별하게 제한되지 않으며, 당업계에 공지된 다양한 저장 매체, 예컨대, CD-R, CD-ROM, DVD, 케리어 웨이브에 내포된 데이터 시그널, 플래쉬 메모리, 플로피 디스크, 하드 드라이브, 마그네틱 테이프, MINIDISC, 비휘발성 메모리 카드, EEPROM, 광학 디스크, 광학 저장매체, RAM, ROM, 시스템 메모리 및 웹 서버를 포함하나, 이에 한정되는 것은 아니다.
본 발명의 시스템은 다양한 방식으로 구축될 수 있다. 예컨대, 본 발명의 시스템은 멀티-프로세서 컴퓨터 어레이, 웹 서버 및 멀티-유저/인터액티브 시스템 등으로 구축될 수 있다.
본 발명의 시스템은 다양한 요소(element)를 포함할 수 있으며, 예를 들어, 변이(예컨대, SNP) 정보 저장 데이터베이스, 변이들의 연계 스트링을 만드는 프로세서, 변이 신택스(예컨대, SNP-S)를 구축하는 프로세서, 변이 신택스(예컨대, SNP-S l )의 최적 길이를 결정하는 프로세서, FFP 생성기(generator), FFPs 사이의 거리 결정을 실행하는 프로세서, 거리 매트릭스를 작성하는 프로세서 및 거리 매트릭스를 가시화 하는 프로세서를 포함하도록 구축할 수 있다.
본 발명의 제2발명인 통합적 접근 방법에 대한 상세한 설명은 다음과 같다:
본 발명의 다른 양태에 따르면, 본 발명은 다음 단계를 포함하는 유기체의 지놈 변이(genomic variation) 또는 후생학적 변이(epigenomic variation)를 분석하기 위한 컴퓨터 실행(computer implemented) 방법을 제공한다:
(a) 상기 변이에 대한 최소 두 종류의 묘사자(descriptor)를 구축하는 단계;
(b) 최소 두 종류의 클래스 예측 알고리즘(class prediction algorithm)을 상기 최소 두 종류의 묘사자 각각에 적용시켜 상기 유기체의 지놈 변이 또는 후생학적 변이를 분석하여 최소 4 종류의 예측 결과를 얻는 단계; 및
(c) 상기 단계 (b)에서 얻은 최소 4 종류의 예측 결과를 추론 알고리즘(inference algorithm)에 적용하여 상기 유기체의 형질(trait)을 최종적으로 예측하는 단계.
본 발명의 기본적인 전략은 변이에 대한 최소 두 종류의 묘사자를 최소 두 종류의 클래스 예측 알고리즘(class prediction algorithm) 각각에 적용하고, 이러한 적용으로부터 나온 결과들을 적합한 추론 알고리즘에 적용함으로써, 특정 개체의 변이 분석(예컨대, 특정 형질에 대한 민감성)을 분석하는 것이다.
본 발명에서의 분석 대상이 되는 지놈 변이는 유기체에서 발견되는 다양한 변이를 포함하며, 바람직하게는 뉴클레오타이드 서열에서의 SNP(single nucleotide polymorphism), 결손, 삽입 또는 반복 변이; 또는 후생학적 변이(epigenomic variation)이다.
본 발명에서 분석 대상이 되는 변이는 뉴클레오타이드 서열에 존재하는 변이이며, 상기 뉴클레오타이드 서열은 하나의 염색체 상의 서열, 복수의 염색체 상의 서열 또는 전체 지놈 서열이고, 보다 바람직하게는 전체 지놈 서열(whole genome: WG)이다.
가장 바람직하게는 본 발명에서 분석 대상이 되는 변이는 전체 지놈 서열에 있는 SNPs이다.
본 발명에 따르면, 우선 변이에 대한 최소 두 종류의 묘사자(descriptor)를 구축한다. 바람직하게는, 상기 변이에 대한 최소 두 종류의 묘사자는 (i) 각각의 변이가 이웃의 변이에 대하여 독립적이라는 것이 가정된 변이들의 프로파일(예컨대, 정돈된 SNPs의 프로파일) 및 (ii) 특정 길이의 연계된 변이인 상술한 변이 신택스(VAR-S)(예컨대, SNP 신택스)의 프로파일을 포함한다. 두 가지 묘사자 중 하나로서 신택스(VAR-S)(예컨대, SNP 신택스)를 이용하는 것은, 각각의 변이(예컨대, SNP) 위치가 독립적이지 않고, 다양한 정도로 이웃과 연결되어 있다는 사실 때문이다.
본 발명의 바람직한 구현예에 따르면, 단계 (a)는 변이들 각각에 코드를 부여하여 상기 코드의 스트링을 구축하여 실시한다.
보다 바람직하게는, 단계 (a)는 SNP의 유전자형(genotype) 각각에 코드를 부여하여 상기 코드의 스트링을 구축하여 실시한다.
본 발명의 바람직한 구현예에 따르면, 분석대상의 변이들은 SNPs이고, 상기 SNPs는 (i) 5% 이하(보다 바람직하게는, 4% 이하, 보다 더 바람직하게는 3% 이하, 보다 더욱 더 바람직하게는 2% 이하, 가장 바람직하게는 1% 이하)의 대립유전자 빈도를 나타내는 SNPs의 제거, (ii) 하디 와인버그 평형 시험(Hardy Weinberg Equilibrium test) 및 (ii) 플레이트-효과 시험으로 구성된 군으로부터 선택되는 최소 1개의 방법에 의해 QC(Quality control)된 SNPs이다. 이러한, 샘플 QC는 본 발명의 분석 결과가 보다 정확하게 되도록 한다.
변이 신택스를 이용한 구체적인 분석 방법은 상술한 내용과 동일하기 때문에, 본 발명의 저장매체 및 시스템은 상술한 본 발명의 방법을 실시하기 위한 것으로서, 이 둘 사이에 공통된 내용은 본 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
본 발명의 단계 (b)에서 적용되는 클래스 예측 알고리즘(class prediction algorithm)은 당업계에서 공지된 다양한 알고리즘을 포함하며, 예컨대, k-최인접 이웃(k-nearest neighbor: kNN) 알고리즘(Bremner D, et al., (2005). "Output-sensitive algorithms for computing nearest-neighbor decision boundaries". Discrete and Computational Geometry 33 (4):593604), 서포트 벡터 머쉰(support vector machine: SVM) 알고리즘(Theodoridis S & Koutroumbas K (2009) Pattern recognition), 컴파운드 공변량 예측자(compound covariate predictor)(Emura T, et al., (2012) Survival Prediction Based on Compound Covariate under Cox Proportional Hazard Models. PLoS ONE 7(10):e47627), 선형 판별 분석(Linear Discriminant Analysis, LDA)(McLachlan, G. J. (2004). Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience) 및 대각선 선형 판별 분석(Diagonal Linear Discriminant Analysis)(McLachlan, G. J. (2004). Discriminant Analysis and Statistical Pattern Recognition. Wiley Interscience)을 포함한다.
본 발명의 바람직한 구현예에 따르면, 단계 (b)에서 적용되는 클래스 예측 알고리즘은 k-최인접 이웃(k-nearest neighbor: kNN) 알고리즘 및 서포트 벡터 머쉰(support vector machine: SVM) 알고리즘을 포함한다.
k-최인접 이웃(kNN) 분석 알고리즘은 시험 개체의 k 최인접 이웃을 서치한다. kNN 분석 알고리즘에 있어서, 한 개체의 묘사자와 모든 개체들 각각의 묘사자 사이에 모든 짝(pairwise) "거리들“을 계산한다. 이어, 시험 개체에 대한 kNNs를 선택하고, 개체가 kNNs 중에서 최공통 형질에 민감한지 여부를 예측한다.
서포트 벡터 머쉰(SVM) 알고리즘은 시험 개체가 속하는 것으로 판단되는 최가능성 클래스(most likely class)를 동정하는 분별 분류 방법이다. SVM 분석 알고리즘에 있어서, SVM을 훈련시켜 모든 이원적 형질들의 각각에서 하나의 개체의 타당한 형질(correct trait)을 인식하도록 한다. 최종적으로, SVM에 의한 모든 쌍 분류들의 최대 선출을 갖는 것을 최가능성 형질에 대한 시험 개체의 민감성을 예측한다.
본 발명의 일 구현예에 따르면, 상기 변이에 대한 묘사자는 VAR-S의 프로파일이고, 상기 클래스 예측 알고리즘은 k-최인접 이웃 알고리즘이며, 상기 단계 (b)는 (b-1) 파퓰레이션에서 20% 이하의 낮은 빈도로 발견되는 희귀 VAR-S를 선별하는 소단계; (b-2) 희귀 VAR-S의 총수로 정규화(normalization) 하는 소단계; (b-3) 희귀 VAR-S의 프로파일을 이용하여 JS(Jensen-Shannon) 발산 매트릭스를 구축하는 소단계; 및 (b-4) 상기 JS 발산 매트릭스를 이용하여 상기 유기체에 대한 k-최인접 이웃(kNN)을 선별하는 소단계를 포함한다. 이 구현예는 KNN/VAR-S(SNP에 적용되는 경우, KNN/SNP-S)로 약칭된다.
KNN/SNP-S를 보다 상세하게 설명하면 다음과 같다: 훈련 세트의 모든 멤버에 대한 SNP-Ss의 벡터를 얻은 다음, 특징 선별 단계를 진행한다. 이 단계에서, 파퓰레이션의 어떤 퍼센티지에 의해 공유되는 신택스를 제거(필터-아웃) 하고, 잔여분(필터-인)을 분석에 이용한다. 그런 다음, 개체의 희귀 SNP 신택스의 총 수로 정규화 한다. 최종적으로, 희귀 SNP 신택스를 이용하여 모든 멤버들 사이의 JS 발산 매트릭스를 구축한다. 묘사자의 거리를 측정하기 위하여 JS 발산을 선택한 이유는, 대립유전자 공유(allele sharing)와 같은 다른 통상적인 방법들보다 예측능이 우수하기 때문이다. 모든 개체, 각각의 개체에 대하여 짝 JS 거리를 측정한 다음, 상위 최근접 k 개체들 중에서 클래스들을 선출 또는 투표하고 가장 높은 카운트를 갖는 것을 선택한다. 훈련 데이터세트에 대한 형질(예컨대, 암 민감성) 추정의 최고 정확도를 위하여, SNP-S의 최적 길이, l , 저빈도 선택에 대한 f 파라미터, 파라미터 k 를 최적화 한다. 시험 단계에서, 동일한 l f 의 최적 파라미터를 이용한다. 이어, 개체 및 훈련 샘플 사이의 JS 거리 벡터를 측정하고, 최적 k 파라미터로 훈련 단계에서 동일한 선출 과정을 통해, 시험 개체들을 예측한다.
본 발명의 일 구현예에 따르면, 상기 변이에 대한 묘사자는 변이의 프로파일이고, 상기 클래스 예측 알고리즘은 서포트 벡터 머쉰(SVM) 알고리즘이며, 상기 단계 (b)는 (b-1) 10-2 내지 10-6의 낮은 p-값을 갖는 변이를 선별하는 소단계; (b-2) 모든 이원적 형질(binary traits) 각각에 대하여 SVM을 실시하는 소단계; 및 (iii) 최대-윈 선출(max-win voting) 방식에 따라 분류하는 소단계를 포함한다. 이 구현예는 SVM/VAR(SNP에 적용되는 경우, SVM/SNP)로 약칭된다.
SVM/SNP를 보다 상세하게 설명하면 다음과 같다: SVM은 다양한 방식으로 실시할 수 있으며, 예를 들어 One-Versus-One(OVO) 방식으로 실시한다. OVO 방법은 n 클래스들의 각각의 쌍에 대한 n(n-1)/2 분류자를 생성하고, 시험 샘플에 대한 n(n-1)/2 예측들로부터 가장 높은 선출을 갖는 클래스를 취한다. OVO SVM 방법을 실시하기 위하여, Chang et al의 LIBSVM을 이용한다(Chang CC & Lin CJ (2011) LIBSVM: A Library for Support Vector Machines. Acm T Intel Syst Tec 2(3)). 커널함수에 대하여 RBF(Radial Basis Function)을 선택한다. SNP 묘사자의 바이너리 분류자를 구축하기 위하여, 소정의 p-값 역치( p )에 대하여 SNPs를 필터링-아웃하여 두 개의 클래스 사이에 연관된 SNPs를 선별한다. 10-6 보다 작은 컷오프는 적용하지 않는 것이 바람직하며, 연관 시험에 의한 필터링 후 어떤 분류자는 SNPs를 남기지 않기 때문이다. 각각의 유전자형의 인코딩을 실시한다. 애매한 예측의 경우(즉, 멀티플 최고 선출인 경우), 동점이 깨질 때까지 최고 선출의 클래스들의 세트에서 폴을 반복한다. SVM을 훈련시켜 모든 이원적 형질들의 각각에서 하나의 개체의 타당한 형질(correct trait)을 인식하도록 한다. 최종적으로, SVM에 의한 모든 쌍 분류들의 최대 선출을 갖는 것을 시험 개체의 최가능성 형질(most likely trait)로 예측한다.
본 발명의 일 구현예에 따르면, 상기 변이에 대한 묘사자는 변이의 프로파일이고, 상기 클래스 예측 알고리즘은 k-최인접 이웃 알고리즘이며, 상기 단계 (b)는 (b-1) 파퓰레이션에서 20% 이하의 낮은 빈도로 발견되는 희귀 변이를 선별하는 소단계; (b-2) 희귀 변이의 총수로 정규화(normalization) 하는 소단계; (b-3) 상기 희귀 변이의 프로파일을 이용하여 JS 발산 매트릭스를 구축하는 소단계; 및 (b-4) 상기 JS 발산 매트릭스를 이용하여 상기 유기체에 대한 k-최인접 이웃(kNN)을 선별하는 소단계를 포함한다. 이 구현예는 KNN/VAR(SNP에 적용되는 경우, KNN/SNP)로 약칭된다. SNP-S 묘사자를 SNP로 대체하고 KNN/SNP-S와 동일한 과정을 실시하여, KNN/SNP를 실시한다.
본 발명의 일 구현예에 따르면, 상기 변이에 대한 묘사자는 VAR-S의 프로파일이고, 상기 클래스 예측 알고리즘은 서포트 벡터 머쉰(SVM) 알고리즘이며, 상기 단계 (b)는 (b-1) 10-2 내지 10-6의 낮은 p-값을 갖는 VAR-S를 선별하는 소단계; (b-2) 모든 이원적 형질(binary traits) 각각에 대하여 SVM을 실시하는 소단계; 및 (iii) 최대-윈 선출(max-win voting) 방식에 따라 분류하는 소단계를 포함한다. 이 구현예는 SVM/VAR-S(SNP에 적용되는 경우, SVM/SNP-S)로 약칭된다. SNP 대신에 SNP-S를 이용하여 SVM/SNP와 동일한 과정을 실시하여, SVM/VAR-S를 실시한다. SVM/VAR-S의 경우, SNP-S의 최적 길이에 대한 추가적인 파라미터가 이용된다.
본 발명에 따르면, 단계 (b)에서 얻은 최소 4 종류의 예측 결과를 추론 알고리즘(inference algorithm)에 적용하여 형질이 결정되지 않은 분석 대상의 유기체 또는 개체의 형질(trait)을 최종적으로 예측한다.
본 발명의 일 구현예에 따르면, 단계 (c)에서 이용되는 추론 알고리즘은 베이지언 추론(Bayesian inference) 알고리즘 및 보팅 스킴(voting scheme)을 포함하고, 가장 바람직하게는 베이지언 추론(Bayesian inference) 알고리즘이다.
베이지언 추론 알고리즘에 적용하는 단계에 대한 구체적인 예를 설명하면 다음과 같다: 9개 표현형(8종의 암 클래스 및 건강 형질) 중 하나로 개체들을 분류하기 위하여, 각각의 표현형을 각 형질의 전체 이니셜의 첫 번째 문자로 레이블링 한다. 상기 4가지 방법의 예측 결과의 베이지언 추론을 이용한다. 이러한 방법들은 다음의 약칭을 갖는다: KNN/SNP-S, KNN/SNP, SVM/SNP-S, SVM/SNP. 상기 방법들은 수학적으로 각각 m 1 , m 2 , m 3 , m 4 으로 표시된다. 각각의 시험 개체 i 에 대하여, 훈련방법으로부터 얻은 예측 결과에 대하여 조건화된 가장 높은 사후확률의 형질을 선택하며, 이는 P( s i | M 1 i , M 2 i , M 3 i , M 4 i ) 로 공식화 할 수 있다. 상기 식에서, s i 는 개체 i 의 예측 형질, M j i 는 방법 m j 에 의해 예측된 개체 i 의 형질을 나타낸다. 베이지언의 정리(Bayes theorem)에 의해, 다음과 같이 나타낼 수 있다:
Figure pat00002
분모 P( s i | M 1 i , M 2 i , M 3 i , M 4 i ) 는 정규화 상수이기 때문에, 분모는 빠지게 된다. 각 방법의 예측 결정은 서로 내재적으로 독립적이기 때문에, 체인규칙을 적용한다(Zhang H (2005) Exploring conditions for the optimality of Naive bayes. Int J Pattern Recogn 19(2):183-198):
Figure pat00003
상기 식에서, P( M j i | s i =t) P( s i =t) 는 4가지 방법 각각의 훈련기 동안 관찰된 사항으로부터 최대우도 추정에 의해 경험적으로 추론될 수 있다. 예를 들어, 훈련 세트에서 전체 BRCA 샘플들 중에서, kNN/SNP-S 방법에 의해 COAD로 추측된 진실된 BRAC 개체의 일부를 동정함으로써 P( M 1 i =C| s i =B) 를 추정할 수 있다. P( s i =t) 는 모든 훈련 개체들의 형질 t 의 샘플의 일부에 해당하는 것이며, 이는 9개 형질 각각에 대하여 동일하다(각각의 형질에 대하여 동일한 샘플 크기를 이용하기 때문이다).
이러한 추론 과정을 통하여, 형질이 결정되지 않은 개체가 어떠한 형질을 갖는 지를 결정(분류)한다.
본 발명의 일 구현예에 따르면, 상기 유기체의 형질은 질환(diseases), 질병(disorders), 상태(conditions), 증상(symptoms) 또는 치료(therapy) 반응성(responsiveness)이다.
보다 바람직하게는, 본 발명에서 분석대상이 되는 형질은 암 질환이다. 예를 들어, 한 객체의 암 질환에 민감성(susceptibility)을 본 발명에 의해 정량적으로 예측할 수 있다.
본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상이 되는 형질은 이점이 되는(advantegeous) 형질로서, 성장속도, 수율 또는 질(quality)이다.
본 발명의 바람직한 구현예에 따르면, 본 발명에서 분석대상이 되는 변이는 유기체의 치료(therapy) 반응성(responsiveness)과 연관된 변이이고 상기 방법은 유기체의 치료 반응성을 예측하는데 이용된다. 치료 반응성의 대표적인 예는 약물 반응성(drug responsiveness)이다. 특정 약물에 대하여 반응성이 있는 사람(respondent), 반응성이 없는 사람(non-respondent) 및 역반응성이 있는 사람(adverse respondent)를 본 발명에 의해 판정할 수 있다.
본 발명의 다른 양태에 따르면, 본 발명은 하기의 단계를 실시하도록 컴퓨터 프로세서를 지시하는 지시사항(instructions)이 포함된(embodied) 컴퓨터-독해가능한(computer-readable) 저장 매체를 제공한다: (a) 상기 변이에 대한 최소 두 종류의 묘사자(descriptor)를 구축하는 단계; (b) 최소 두 종류의 클래스 예측 알고리즘(class prediction algorithm)을 상기 최소 두 종류의 묘사자 각각에 적용시켜 상기 유기체의 지놈 변이 또는 후생학적 변이를 분석하여 최소 4 종류의 예측 결과를 얻는 단계; 및 (c) 상기 단계 (b)에서 얻은 최소 4 종류의 예측 결과를 추론 알고리즘(inference algorithm)에 적용하여 상기 유기체의 형질(trait)을 최종적으로 예측하는 단계.
본 발명의 다른 양태에 따르면, 본 발명은 다음을 포함하는 유기체의 지놈 변이(genomic variation) 또는 후생학적 변이(epigenomic variation)를 분석하기 위한 시스템을 제공한다: (a) 컴퓨터 프로세서; 및 (b) 상기 프로세서와 커플링된 상기 컴퓨터-독해가능한(computer-readable) 저장 매체.
본 발명의 특징 및 이점을 요약하면 다음과 같다:
*(a) 본 발명은 자연어의 단어를 갖는 두 텍스트를 비교하는 것과 유사하며, 이러한 방법을 통하여 한 개체에서 발견되는 다양한 변이(예컨대, SNP)에 대한 체계적 특징 빈도 프로파일(FFP)을 제공한다.
(b) 또한, 본 발명은 FFPs 사이의 거리를 결정하여, 한 개체의 어떤 형질(traits)에 대한 민감성(susceptibility)을 정확하게 예측한다.
(c) 본 발명에 따르면, 시료 크기가 작은 경우에도 47-76%의 정확도로 한 개체의 암 민감성을 예측할 수 있다. 그러나, 이 정확도는 SNP 유전자형 데이터의 규모가 커지면 증가될 수 있으며, 미리 classify 하면 더 증가될 수 있다.
(d) 제2발명의 예측 정확도는 무작위 예측과 비교하여 몇 배 증가된 정확도를 나타내며, 이러한 예측의 정도는 개체 또는 파퓰레이션의 건강 상태를 결정할 수 있을 정도로서 매우 개선된 예측 정확도를 나타낸다.
도 1은 8개 암 종류의 민감성을 평가하는 방법의 과정에 대한 다이아그램이다. 이 방법은 시료질 조절 스크리닝 및 유전자형 코딩과 같은 SNP 데이터 전처리, 공통 SNP 신택스의 필터링 및 SNP 신택스 빈도(SNP-Ss의 FFPs)의 프로파일링, 그리고 가장 작은 분기(“거리”)의 최근접 이웃(시스터)을 규명하기 위한 쌍 FFPs 사이의 거리 계산과 같은 여러 과정으로 나뉜다.
도 2는 SNP-S의 길이(l) 및 백분율 필터링-인에 대한 암 민감성의 정확도 평가를 보여주는 그래프이다. 멀티클래스 암에 대한 위험도 평가의 퍼포먼스를 길이(l)를 증가시키고 백분율 필터링-인을 감소시키면서 측정하였다. 예를 들어, 2% 필터링은 2% 이하의 파퓰레이션에서 발생되는 SNP-S l s를 유지하는 것을 의미한다. 이 과정은 2% 이하의 파퓰레이션에서 존재하는 오직 “희귀” SNP-S l s만을 유지한다. 회색선은 베이스라인 정확도를 나타내고 “No syntax"는 SNP-Ss의 FFP를 이용하지 않은, 즉 비-연관된 특성으로서 전체 SNPs의 비교에 의한 정확도 평가를 의미한다. 다른 l 값에 대한 부드러운 곡선들은 다른 색상의 선으로 나타나 있다. SNP-S 방법의 퍼포먼스와 비교할 대조군 곡선(암적색)에 대하여, 개별 마커들의 프로파일을 작성하였고, 이 경우 각각은 코딩 SNPs의 10개 특징을 가지고 동형접합인 경우 카운트 1, 이형접합인 경우 카운트 0.5, 다른 경우에는 카운트 0으로 하였다. 프로파일링 된 데이터를 가지고, 공통 특징 필터링으로부터 SNP 신택스 방법의 동일한 과정들을 적용하여 Jensen-Shannon 거리에서 최근접 이웃을 규명하였다.
도 3은 최근접-이웃 연결 맵이다. 594 개체(8종류의 암 각각에서 66 개체 및 대조군 66 개체)의 최근접 이웃을 동정하였다. 각 개체는 희귀 SNP-S10s의 FFP로 나타내며(2% 필터링-인), 한 개체의 최근접 이웃은 FFP가 첫 번째로부터 가장 작은 Jensen-Shannon 발산(거리)을 갖는 다른 개체로 규정된다. 암 종류는 외측 원의 외측에 기재되어 있고, 내측원에서 서로 다른 색상으로 표시되어 있으며, 원의 각 커브의 내부는 최근접-이웃(“시스터”) 상관성이 있는 두 개체를 연결한다. 곡선의 색상은 검색 멤버에 의한 최근접-이웃 파운드의 암 종류와 동일하다(또한 외측원에서 작은 셀의 색상과 동일함). 최근접 이웃 파운드는 동일 암 종류일 수 있거가(“진실한” 시스터) 또는 아닐 수 있다(“오류” 시스터). 검색 및 파운트 개체가 상호 교환가능한 경우, 곡선은 두꺼운 선으로 표시된다. 이들 중에서, 모든 오류 시스터 상관성에 대한 곡선은 암회색으로 표시된다. 색상 스킴은 다음과 같다: CEU, 적색; BRCA, 오렌지색; COAD, 밝은 오렌지색; HNSC, 노란색; KIRC, 녹색; LGG, 밝은 청색; OV, 청색; READ, 암청색; UCEC, 보라색. 이 맵은 circos v0 .56을 이용하여 제작되었다.
도 4는 3번 염색체에서 민감성 마커 대립유전자의 지놈 맵핑이다. 민감성 마커 대립유전자의 밀도는 각각의 암 종류에 대하여 색상이 있는 원 트랙 상에 히트-맵으로 표시되며(내측에서부터 외측으로, CEU, 적색; BRCA, 오렌지색; COAD, 밝은 오렌지색; HNSC, 노란색; KIRC, 녹색; LGG, 밝은 청색; OV, 청색; READ, 암청색; UCEC, 보라색), 고밀도 부위는 어두운 색상으로 표시되어 있다. 가장 바깥쪽의 트랙은 3번 염색체의 사이토밴드를 보여주며, 레이블이 있는 밝은 청색 틱 마커는 공지의 암 유전자의 위치를 나타낸다. 사이토밴드 트랙 청색의 짧은 아치는 코카시안 파퓰레이션에서 공지 암의 하나 이상의 GWAS 히트를 갖는 개별 사이토밴드를 나타낸다. 그 다음의 안쪽 트랙 상의 녹색의 짧은 막대는 유전암호 부위를 나타내고 그 다음의 안쪽 원은 발표된 SNPs의 밀도를 보여준다. 이 맵은 circos v0.56을 이용하여 제작되었다.
도 5는 공지의 두 암 유전자(BRCA2 및 TP53)의 유전좌위 근처에 있는 민감성 마커 대립유전자를 맵핑한 것이다. 각각의 마커 대립유전자는 암 종류의 색상으로 원의 클러스터(특정 SNP-S10 대립유전자를 구성하는 SNPs)로 표시되어 있다. X-축은 TP53 및 BRCA2가 각각 발견되는 17번 또는 13번 염색체의 물리적 위치를 나타내며, Y-축은 서로 다른 암 종류들에 대한 다른 마커 대립유전자들을 나눈다: CEU, 적색; BRCA, 오렌지색; COAD, 밝은 오렌지색; HNSC, 노란색; KIRC, 녹색; LGG, 밝은 청색; OV, 청색; READ, 암청색; UCEC, 보라색. 민감성 마커 대립유전자들은 TP53 또는 BRCA2(각각은 점선의 수직선으로 표시됨)와 오버랩핑 되지 않는다. 재조합 비율은 청색의 스파이크로 표시되어 있고 상기 두 유전자 주변의 다른 유전자들은 각 그림의 하부 상자에 표시되어 있다. 이 그림은 LocusZoom v1.1.을 이용하여 제작되었다.
도 6은 QC(Quality Control) 결과를 보여준다. 그래프는 필터링 역치의 함수로서 서로 다른 QC 기준으로부터 서로 다른 데이터세트의 전체적인 정확도를 보여준다(좌측: HapMap 대조군이 있는 데이터세트, 우측: HapMap 대조군이 없는 데이터세트). 두 필터 즉 HWE 및 플레이트 효과가 있는 THM1(본 연구에서 이용된 데이터세트), TCGA 및 MAF > 0.05의 HapMap 데이터; THM5, MAF > 0.05인 것을 제외하고 THM1과 동일; THM0, MAF 필터링이 없는 것을 제외하고 THM1과 동일; THM0R, HWE 및 플레이트 효과 시험이 없는 것을 제외하고 THM0과 동일; TM5, 두 필터 즉 HWE 및 플레이트 효과가 있는 MAF > 0.05의 TCGA 데이터; TM1, MAF > 0.01인 것을 제외하고 TM5와 동일; TM0, MAF 필터가 없는 것을 제외하고 TM1과 동일; TM0R, 두 필터 즉 HWE 및 플레이트 효과가 없는 것을 제외하고 TM0과 동일.
도 7은 정확도 vs. 샘플 크기와 특성 수를 보여준다. (좌측) 민감성 평가의 정확도는 특성 샘플 크기가 증가할수록 증가한다. BRCA, OV, 및 UCEC가 분석을 위해 선택되었고 제한된 샘플 크기 때문에 다른 특성들을 제외하였다. (우측) 특성의 개수를 3, 6 및 9(BRCA, COAD 및 CEU는 3개 특성; BRCA, COAD, HNSC, KIRC, OV 및 CEU는 6개 특성, 그리고 BRCA, COAD, HNSC, HNSC, KIRC, OV, REDA, UCEC 및 CEU는 9개 특성)로 증가시키면 정확도는 감소한다. 각 특성 데이터세트 크기는 66개체로 고정시켰다.
도 8은 시스터-특이적 특징으로 커버되는 지놈 부위를 특정한다. 암 유전자와 SNP-S10s 사이의 거리 역치를 증가시키면서 각 암에 대한 민감성 마커 SNP-S10s에 근접한 공지의 암 유전자들의 개수를 카운팅 한다. BRCA 및 COAD 각 암에 대하여, OMIM으로부터 공지의 암 유전자들을 다운로딩 하였다. 각 암에 대하여 OMIM에 있는 공지 암 유전자의 총 개수는 브라운색(BRCA) 및 녹색(COAD)의 점선으로 표시되어 있다. OMIM, Online Mendelian Inheritance in Man.
도 9는 8종의 주요 암 및 건강 형질에 대한 지놈 민감성을 평가하는 본 발명의 방법에 대한 개략도이다. 본 발명의 방법은, 시료질 조절 스크리닝 및 유전자형 인코딩을 포함하는 SNP 데이터 전처리과정, 낮은 p-값의 SNPs와 저빈도의 SNP 신택스의 선택, 두 개의 상이한 분석 알고리즘의 적용 및 상기 4가지 방법으로 결과를 통합하는 최종 예측 단계를 포함한다.
도 10a는 SNP-신택스의 프로파일에 k-최인접 이웃 알고리즘을 적용하는 과정에서 이용되는 파라미터의 최적화를 보여준다.
도 10b는 SNPs의 프로파일에 k-최인접 이웃 알고리즘을 적용하는 과정에서 이용되는 파라미터의 최적화를 보여준다.
도 10c는 SNPs의 프로파일에 SVM 알고리즘을 적용하는 과정에서 이용되는 파라미터의 최적화를 보여준다.
도 10d는 SNP-Ss의 프로파일에 SVM 알고리즘을 적용하는 과정에서 이용되는 파라미터의 최적화를 보여준다.
도 11a-11c는 3종의 암 클래스, BRCA(도 11a), OV(도 11b) 및 UCEC(도 11c) 각각에 대한 시험 세트의 9-클래스 예측 결과를 보여준다. 3종의 암 클래스 각각에 대한 50 시험 개체에 대한 4개의 방법 및 베이지언 추론의 예측 결과들이 나타나 있다. 점선의 수평선은 무작위 예측을 나타내고, 각각의 막대 위의 틱 마크는 50 시험 개체를 10회 리샘플링 하여 측정된 예측 결과에 대한 표준오차를 나타낸다.
도 12는 개체의 예측에 대한 확실성(confidence)을 나타낸다. 평균 정확도 vs. 사후확률 역치.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.
실시예
I. 제1발명: SNP - 신택스를 이용한 방법
연구 재료 및 방법
데이터베이스 및 샘플링
총 2192개의 SNP 어레이 결과 및 관련 임상정보를 NCBI dbGap의 일반 연구 사용 승인을 얻고 2012년 4월 2일부터 2012년 4월 4일까지 NIH(National Institute of Health)의 TCGA로부터 다운로드 받았다. Broad Institute에서 테스트한 이들 환자의 혈액에 대한 SNP 유전자형 데이터를 다운로드 하였다. 환자들은 대부분 백인이었다(다른 조상으로부터 유래된 몇 몇의 아웃라이어는 시료질조정 단계에서 제거함). 모든 마커를 Affymetrix 6.0 SNP 칩 상에서 타이핑 하였다. 이들의 암에 대한 대조군으로서, HapMap 프로젝트의 CEU(Caucasians from Utah, 미국) 파퓰레이션 데이터를 사용하였는데, 이는 상기 데이터가 현재까지 전체 백인 개체들의 가장 대표적인 데이터로 여겨지고 있기 때문이다. 서로 다른 마커 세트를 갖는 두 개의 데이터세트를 통합하는 과정에서 SNP 정보의 소실을 감소시키기 위하여, HapMap ftp 웹사이트로부터 CEU의 165개 SNP 어레이 결과(Affymetrix 6.0 SNP로 타이핑된 것)를 다운로드 하였다. 디폴트 파라미터 세팅이 있는 Affymetrix Power Tools를 이용하여 상기 데이터를 지노타이핑 하고, 웹사이트로부터 낮은 시료질을 갖는 것으로 보고된 샘플을 버렸다(참조: 표 1).
Affymetrix 6.0 SNP 유전자형 데이터의 시료질 조절(QC)(2012년 4월 4일 현재 시료 QC
연구 특성/코호트 QC 전 QC 후
남성/여성 총합 남성/여성 총합
TCGA BRCA 6/694 700 5/511 516
COAD 179/159 338 101/86 187
HNSC 106/38 144 95/34 129
KIRC 47/30 77 43/25 68
LGG 38/36 74 34/32 66
OV 0/427 427 22/379 401
READ 72/59 131 54/41 95
UCEC 0/301 301 0/237 237
HapMap CEU 80/85 165 31/38 69
총합 528/1829 2357 385/1383 1768
TCGA(The Cancer Genome Atlas project initiated by the National Institute of Health (NIH)); BRCA(Breast Invasive Carcinoma); COAD(Colon Adenocarcinoma); HNSC(Head and Neck Squamous Cell Carcinoma); KIRC(Kidney Renal Clear Cell Carcinoma); LGG(Brain Lower grade glioma); OV( Ovarian Serous Cystadenocarcinoma); READ(Rectum Adenocarcinoma); UCEC(Uterine Corpus Endometrioid Carcinoma); HapMap(Haplotype Map Project); CEU(Caucasians from Utah, USA); EA( European-American); PI_HAT, 두 개체가 관련된 경우 결정되는 PLINK 파라미터; EA 개체에 대한 시료질 조절 + 유전적 연관성 시험 (PI_HAT < 0.2) + 자기-발표된 패밀의 제거.
시료질 조절
시료질(Quality control: QC))이 전체 시험에 어떠한 영향을 미치는지를 연구하기 위하여, 관대성(lenient)으로부터 엄격성(stringent)까지의 서로 다른 QC를 적용하고 시험하였다(표 1 및 2, 도 1). PLINK(참조: S. Purcell, et al. (2007). PLINK: A Tool Set for Whole-Genome Association and Population-Based Linkage Analyses. Am J Hum Genet 81(3):559-575)를 이용하여, 다음의 조건으로 데이터세트로부터 초기 결과를 얻었으며; 1% 이하의 마이너 대립유전자 빈도를 갖는 SNPs는 제거하고 Hardy Weinberg Equilibrium 시험을 CEU 개체에서 각각의 마커에 적용하였다(p > 1 x 10-6). 암 특성 내에서 모든 플레이트에 대한 하나의 플레이트 및 다른 플레이트들(30개 이상의 시료를 가짐) 사이의 연관성 시험(p > 1 x 10-8)을 실시하여, 플레이트-효과 시험을 적용하였다(참조: D. G. Clayton, et al. (2005). Population structure, differential bias and genomic control in a large-scale, case-control association study. Nat Genet 37(11):1243-1246). QC를 통과한 SNPs에 대하여, TCGA 데이터에서 미국내 자기-발표 백인 개체를 추출하고 유전 관련성 시험(S. Ripke, et al. (2011). Genome-wide association study identifies five new schizophrenia loci. Nat Genet 43(10):969-976)을 실시하였다(PI_HAT < 0.2). 또한, 페디그리 정보를 이용하여 CEU에서 모든 관련 개체들을 제거하였다. 예를 들어, 트리오에서 두 개체를 듀오에서 한 개체를 제거하였다. 최종적으로, 샘플을 통합하고 post-QC 특성 데이터세트에 대하여 SNPs를 조인트하여, 1768 개체에 대한 상염색체의 비반복성 714649개 SNPs에 대한 유전자형을 얻었다(참조: 표 1 및 2).
SNP QC
데이터세트
명칭
연구 QC 기준 QC 후
MAF HWE
(> 1E-07)
플레이트 효과
(> 1E-08)
공통 SNPs
TM0R TCGA X X X 867266
TM0 TCGA X X O 845025
TM1 TCGA 0.01 X O 732705
TM5 TCGA 0.05 X O 625702
THM0R TCGA X X X 867087
HapMap X O X
THM0 TCGA X X O 844889
HapMap X O X
THM1 TCGA 0.01 X O 714649
HapMap 0.01 O X
THM5 TCGA 0.05 X O 616722
HapMap 0.05 O X
SNP(Single Nucleotide Polymorphism; QC(Quality Control); MAF(Minor Allele Frequency); HWE( Hardy-Weinberg Equilibrium); TCGA(The Cancer Genome Atlas project initiated by the National Institute of Health (NIH)); HapMap(Haplotype Map project of worldwide human populations); CEU(Caucasians from Utah, USA); THM1(본 연구에 이용된 데이터세트), TCGA 및 HapMap data of MAF > 0.01 with two filters of HWE and plate effect; THM5, MAF > 0.05인 것을 제외하고 THM1과 동일함; THM0, MAF 필터링이 없는 것을 제외하고 THM1과 동일함; THM0R, HWE 및 플레이트 효과 시험을 하지 않는 것을 제외하고 THM0과 동일함; TM5, HWE 및 플레이트 효과의 두 필터가 있고 MAF > 0.05의 TCGA 데이터; TM1, MAF > 0.01인 것을 제외하고 TM5와 동일함; TM0, MAF 필터링이 없는 것을 제외하고 TM1과 동일함; TM0R, HWE 및 플레이트 효과의 두 필터가 없는 것을 제외하고 TM0와 동일함; X는 데이터세트가 관련 QC를 하지 않았음을 나타내고, O는 그 반대이다.
*SNP 코드 전환
작은 샘플 크기를 이용하여 컴퓨터 페이징 방법으로부터 발생될 수 있는 인위적 오류를 피하기 위하여, 컴퓨터로 얻은 하플로타입(haplotype) 정보가 아닌, 실험적으로 얻은 유전형 정보만을 이용하였다. 10개 가능한 SNP 유전자형 각각을 표 3에 기재된 10개 알파벳 중 하나로 전환시켰다.
유전자형 AA CC GG TT AC/CA AG/GA AT/TA CG/GC CT/TC GT/TG
유전자형 코드 A B C D E F G H I J
SNP 신택스(SNP-S)의 특징 빈도 프로파일링
전환된 지놈-와이드 SNP 유전자형 데이터로부터, 특징 카운트의 벡터를 구축하였으며 상기 특징은 연구 대상의 개체에서 고정된 길이의 모든 가능한 연속적(연계된) SNPs, SNP 신택스(SNP-Ss)이다. 한 개체에 대한 벡터, 특징 빈도 프로파일(feature frequency profile: FFP)는 그 개체의 WG SNPs의 체계적 특징을 나타내며, 이는 개체 지놈의 SNP 스트링의 전체 길이를 따라 고정된 길이의 윈도우를 슬라이딩하고 모든 가능한 특징들(이 경우에는 SNP-Ss)의 발생을 카운팅하여 구축된다(이 방법의 상세한 설명은, G. E. Sims, et al. (2009). Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc Natl Acad Sci USA 106(8):2677-2682에 개시되어 있다). 프로파일링을 위한 최적의 특징 길이는, 암 민감성을 계산하는데 가장 높은 정확도를 나타내는 길이로 결정된다. 한 개체의 SNP-Ss에서, 최적 길이는 10이었다(도 2). 각각의 SNP는 그의 정확한 염색체 대립유전자(하플로타입) 오더(order)가 없는 유전자형 정보를 가지고 있기 때문에, SNP 신택스에서 이형접합체의 수는 다형성 컨텍스트에서 하플로타입 정보의 존재의 가능성을 결정한다. 따라서, 각각의 하플로타입은 신택스에서 동일한 발생 가능성을 갖는다는 전제 하에서, SNP-S의 발생의 “카운트”는 SNP-S로 표현되는 가능한 하플로타입의 개수에 반비례한다. 비록 연구 데이터세트는 결측(missing) 유전자형을 포함하고 있지 않지만, 이러한 경우가 존재하는 경우, 타이핑되지 않은 마커에서의 가능한 유전자형의 조합으로부터 발생되는 모든 특징들을 포함시키고 이들의 카운트를 결측에 의해 확장되는 SNP-Ss의 총 개수로 나눔으로써, 용이하게 처리할 수 있다. 다음의 수학식은 모든 경우에서의 카운트를 나타낸다:
수학식 1
Figure pat00004
상기 수학식에서, x는 SNP-S의 카운트(분획에서의 카운트), i는 SNP-S에서 이형접합체의 개수, 및 j는 SNP-S에서 결측 마커의 개수이다(참조: 표 4).
SNP 위치 타입 1 2 3 4 5 6
사례 1 유전자형 CC AA CG CC GG AA
유전자형
코드
B A H B C A
SNP-S6/카운트 BAHBCA/1
사례 2 유전자형 CA AT CC CC GG AT
유전자형
코드
E G B B C G
SNP-S6/카운트 EGBBCG/0.25
사례 3 유전자형 CC ? CC AA GT AA
유전자형
코드
B A/G/D B A J A
SNP-S6/카운트 BABAJA/0.333, BGBAJA/0.166, BDBAJA/0.333
백분율 필터링 -인, 정규화 및 Jensen - Shannon 발산 매트릭스
모든 멤버들의 SNP-S10 카운트의 FFPs를 얻은 다음, 이 파퓰레이션의 몇 퍼센트에 의해 공유되는 신택스를 제거(필터-아웃) 하고 나머지를 분석을 위하여 보관한다. 이어, 각각의 잔여 희귀(rare) 신택스의 카운트를 위하여 희귀 SNP 신택스의 총 개수에 의해 정규화 한다. 최종적으로, 백분율 필터링-인에 의해 생성된 희귀 SNP 신택스를 이용하여 모든 멤버들 사이의 Jensen-Shannon(JS) 발산 매트릭스를 구축하였다.
최근접 이웃(“ 시스터 ”)의 동정 및 민감성의 정확도
모든 개체에 대하여 짝(pairwise) JS 거리를 측정한 후, 가장 짧은 JS 거리를 갖는 각각의 멤버의 “시스터”를 동정하고, 시스터 페어가 동일한 암 종류에 해당되는 지 여부를 체크한다. 정확한 할당(동일 암 종류)의 개수를 카운팅 하고 이를 모든 멤버의 개수로 나누어, 전체 정확도를 측정하였으며, 이와 유사하게 암 종류-특이적 정확도를, 특정 하나의 암 종류로 정확하게 할당된 개수를 이 암 종류에 있는 멤버들의 총 개수로 나누어 측정하였다.
시스터 -특이적 마커 대립유전자 및 암-특이적 마커 대립유전자
하나의 특정 암 그룹에 있는 진정한 시스터 페어에 대하여, 다른 암 종류의 멤버들에서는 발견되지 않으면서 상기 시스터 페어의 두 시스터 멤버 사이의 공통된 모든 희귀 SNP-S10s를 선별하였다. 이렇게 선별된 대립유전자를 시스터 페어에 대한 시스터-특이적 마커 대립유전자로 명명하였다. 이와 유사하게, 상기 암-특이적 마커 대립유전자를 상기 암 종류에서 모든 진실한 시스터들의 비반복적 시스터-특이적 마커 대립유전자들의 합으로 명명하였다. 따라서, 각각의 시스터-특이적 마커 대립유전자는 암-특이적 마커 대립유전자로부터 “분류된”것으로 여겨질 수 있다(멀티플 분류 모델)
연구 결과
본 연구의 결과는 크게 5개의 섹션으로 나눌 수 있다: 섹션 I은 두 개의 발명 사상 즉, SNP-S 및 FFP를 제시하며, 한 개체의 지놈의 WG SNPs의 전체 체계적 특징들이 SNP-Ss의 FFP에 의해 어떻게 나타내어질 수 있는지를 설명하고; 섹션 II는 본 발명의 방법을 최고로 실시하기 위한 SNP-Ss의 최적 길이와 “희귀” SNP-Ss를 밝히는 최적의 필터링 레벨을 경험적으로 규명하는 과정을 보여주며; 섹션 III은 민감성 예측에 대하여 상세히 설명하며; 섹션 IV는 본 발명의 접근 방식에 대한 검증 결과를 요약하며; 그리고 섹션 V는 공지의 암 유전자, 최근 GWASs로부터 동정된 암 관련 SNPs 및 다른 유전적 특성에 대한 민감성 SNP-S 대립유전자의 유전적 위치를 보여준다.
I. WG SNPs 의 체계적 특징의 대표로서 SNP 신택스의 빈도 프로파일
어떤 두 개체의 WG SNPs의 체계적 특징을 비교하는 본 발명의 방법은 4개의 단계를 포함한다:
(1) 연계 WG SNP 스트링: 본 발명은 한 개체의 WG SNPs의 체계적 특징의 가장 일반적인 서술로부터 출발하며, 이는 자연어 책자의 서술과 유사하지만(C. D. Manning & H. Schuetze (1999). Foundations of Statistical Natural Language Processing. The MIT Press,1 edn), 매우 중요한 차이점이 있으며 이는 연계 WG SNPs가 단어 사이의 스페이스 없이 자연어 텍스트로 취급된다는 것이다. 따라서, 한 개체의 WG SNPs는 이 개체의 지놈에서 정돈된 SNPs의 단일 연계 스트링으로 나타내며, 각각의 SNP 유전자형은 유전자형의 양대립유전자성의 가정 하에서 SNP의 10개의 가능한 유전자형을 나타내는 10개의 알파벳 코드 중 하나로 나타낸다(참조: 표 3).
(2) SNP 신택스: SNP 신택스(SNP-S)는 주어진 특정 길이의 SNPs의 짧은 정돈된 스트링으로 정의 내려지며, 이는 자연어 텍스트에서 특정 길이의 “단어”와 유사한 역할을 한다. 하나의 지놈에 대한 주어진 특정 길이(l)의 모든 가능한 SNP-S는, 지놈의 SNP 스트링의 총 길이를 따라 l 길이의 윈도우를 슬라이딩 하여 얻는다. 따라서, SNP-S는 다양한 유전 변이에 의해 유발되는 SNPs의 체계적 특징뿐만 아니라, 연관불평형과 같은 WG SNPs에 존재하는 것으로 알려진 특징을 파악한다: SNPs의 연관불평형 연구는 각각의 SNP 위치에 있는 변이가 그의 이웃들의 변이와 다양한 정도로 연관되어 있음을 보여준다(International HapMap Consortium (2005). Haplotype map of the human genome. Nature 437(7063):1299-1320; The International HapMap Consortium (2007). A second generation human haplotype map of over 3.1 million SNPs. Nature 449(7164):851-861). 따라서, WG SNPs를 기재하는 방식에 있어서, 각각의 SNP-S는 유전적 대립유전자로 나타낼 수 있다.
모든 가능한 길이의 SNP-S의 개수는 매우 거대하고(106 위치의 길이의 하나의 SNP 스트링에 대하여 약 1012개), 이러한 크기의 비교에 필요한 수학적 계산이 힘들기 때문에, 본 발명자는 “최적” 길이의 SNP-S만을 이용하였다. 컴퓨터 부담을 크게 덜어주기 위하여 최적 길이를 이용하는 것은 본 발명자들의 종전 논문에 기재되어 있다(G. E. Sims, et al. (2009). Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc Natl Acad Sci USA 106(8):2677-2682). 6개 이상의 길이를 갖는 대부분의 SNP-Ss는 하나의 지놈에서 독특하며, 지놈들의 파퓰레이션에서 드문 빈도로 발생된다.
(3) SNP-Ss의 특징 빈도 프로파일(FFP, G. E. Sims, et al. (2009). Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc Natl Acad Sci USA 106(8):2677-2682): 한 개체의 하나의 지놈에서 SNPs의 체계적 특징의 모든 측면들을 모든 가능한 특징들의 빈도로 구성된 FFP 벡터로 나타내며, 여기에서 상기 특징은 SNP-S이다. “알파벳”의 스트링의 체계적 측면을 나타내는 이러한 방식은, FFP 방법에 의해 서로 다른 유기체의 WG(또는 전체 프로테움) 서열의 얼라인먼트-결여 비교에서 실시하는 유기체의 WG 서열의 그 것과 유사하다(G. E. Sims, et al. (2009). Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions. Proc Natl Acad Sci USA 106(8):2677-2682; SR. Jun, et al.(2010). Whole-proteome phylogeny of prokaryotes by feature frequency profiles: An alignment-free method with optimal feature resolution. Proc Natl Acad Sci USA 107(1):133-138).
(4) Jensen-Shannon 발산: 얼라인먼트-결여 비교에서와 같이, 어떤 두 개의 FFPs 사이의 “거리”는 Jensen-Shannon 발산으로 나타내며(J. Lin (1991). Divergence measures based on the Shannon entropy. IEEE Trans Inf Theory 37(1):145-151), 0와 1 사이의 한계값으로 경계를 만든다.
II . 암 민감성 예측에 대한 “희귀” SNP - Ss 의 최적 파라미터
WG SNPs의 전체 체계적 특징을 나타내는 데에는, SNP-Ss의 FFP가 적합하다. 그러나, 앞에서 언급한 바와 같이, 질환-특이적 체계적 특징에 대해서는 “희귀” SNP-Ss의 FFP가 보다 더 적합하다. 따라서, 암 민감성 연구를 위한 최적 길이의 희귀 SNP-Ss에 대한 경험적 서치에 있어서 유용한 기준으로서 다음과 같은 두 가지 가정을 이용하였다:
1. 암 민감성과 연관된 각각의 SNP-S(민감성 대립유전자)은 그러한 암 종류의 파퓰레이션에서 희귀하에 나타나고; 그리고
2. 하나의 특정 암 종류에 대한 지놈 민감성 대립유전자의 세트의 개수는 다수일수 있지만, 본 발명자들은 이를 제한적인 것으로 취급한다. 따라서, 각각의 암 종류에 대한 충분한 샘플 크기가 주어진다면, 하나의 암 개체의 희귀 SNP-Ss의 FFP에 대하여, 다른 암 종류 또는 대조군의 파퓰레이션보다 동일한 암 종류의 파퓰레이션에서 매우 유사한(“시스터”) FFP(s)를 갖는 하나 또는 그 이상의 다른 개체가 있을 것이다(이 가정은 후술하는 연구에서 정확함이 입증됨).
간단하게는, 최적 길이의 “희귀” SNP-Ss를 발견하는 본 발명자들의 경험적 접근방식은 다음의 단계로 구성되어 있다(참조: 도 1):
1. TCGA 데이터베이스 및 HpaMap 데이터베이스로부터 8 종류의 암 각각 및 비-암 개체(대조군)의 WG SNPs(개체의 혈액시료로부터 유래됨)의 동일 개수(66)로부터 어셈블링된 데이터세트를 구축하고(참조: 표 1); 각각의 데이터베이스에 있을 수 있는 인위적 오류 그리고 서로 다른 데이터 세트를 통합하면서 발생되는 인위적 오류를 최소화 하기 위하여, 샘플질 조절을 실시한다(J. T. Leek, et al. (2010). Tackling the widespread and critical impact of batch effects in high-throughput data. Nat Rev Genet 11(10):733-739).
2. SNP-S 신택스의 특정 길이에 대하여 각각의 개체에 대한 모든 가능한 SNP-Ss의 빈도로 구성된 FFP 벡터를 구축하고, 여러 길이의 신택스에 대하여 이러한 과정을 반복한다.
3. 파퓰레이션의 특정 %와 동일하거나 큰 모든 공통 SNP-Ss(및 이의 빈도)를 제거(필터-아웃)하고, % 필터-인 레벨 범위에 대하여 이러한 과정을 반복한다.
4. 모든 “시스터”를 발견한다(멤버의 시스터는 이들 사이에 가장 작은 Jensen-Shannon 발산을 갖는 다른 멤버로 정의됨). 만일 시스터 페어의 두 멤버가 동일한 암 종류에 해당되면, 이들은 “진실한” 시스터 페어를 형성하며, 다른 암 종류에 해당되면, 이들은 “거짓” 시스터 페어를 형성한다.
5. 모든 시스터 페어 중에서 모든 암 종류에서의 모든 진실한 시스터 페어의 %로 정확도를 계산한다.
6. 정확도(%) 대. SNP-S 길이 및 % 필터링-인에 대한 그래프를 작성하여 최적의 “희귀: SNP-Ss를 위하여 경험적으로 최적 길이를 발견하고 % 필터링-인 레벨을 결정한다. 8 종의 암의 민감성 평가에서 최적으로 실시될 수 있는, 희귀 SNP-Ss 필터-인 레벨을 2% 레벨로 결정하고 신택스 길이 10 SNP-S10을 경험적으로 결정하였다(도 2). 이러한 희귀 SNP-S10s는 모든 샘플의 2% 이하이었다. 그러나, 상기 필터링은, 각각 66 멤버의 9개 그룹에 대한 FFP 프로파일링에 대하여, SNP-S10s의 14% 이하만을 제거하였고 약 44 밀리언 SNP-S10s 대립유전자를 남겼다.
7. 10의 최적 특징 길이 및 2% 필터링-인을 발견하는데 사용되는 데이터세트에서 선택되지 않은 개체들의 SNPs를 이용하여 “검증” 시험을 실시한다.
III . 최적 희귀 SNP - Ss 를 이용한 분석
표 5는 본 발명의 방법에 의해 결정된 유전적 민감성에 대한 예측 정확도를 정리한 것이다.
예측 특성
BRCA COAD HNSC KIRC LGG OV READ UCEC CEU 샘플 크기 정확도 (%)
실제 특성 BRCA 35 4 8 2 4 2 2 7 2 66 53.0% (55.6%)
COAD 3 38 4 11 2 2 2 4 0 66 57.6%
HNSC 7 2 47 3 2 0 3 2 0 66 71.2%
KIRC 1 7 3 38 1 3 5 6 2 66 57.6%
LGG 4 4 4 3 40 4 1 6 0 66 60.6%
OV 6 5 3 3 4 31 3 6 5 66 47.0% (43%)
READ 6 1 2 3 3 0 50 1 0 66 75.8%
UCEC 3 3 3 4 7 4 6 35 1 66 53.0% (66.5%)
CEU 0 0 0 0 0 0 0 0 66 66 100%
총합594 전체 63.97%
BRCA(Breast Invasive Carcinoma); COAD(Colon Adenocarcinoma); HNSC(Head and Neck Squamous Cell Carcinoma); KIRC(Kidney Renal Clear Cell Carcinoma); LGG(Brain Lower grade glioma); OV(Ovarian Serous Cystadenocarcinoma); READ(Rectum Adenocarcinoma); UCEC(Uterine Corpus Endometrioid Carcinoma); HapMap(Haplotype Map Project); CEU(Caucasians from Utah, USA); THM1(dataset of TCGA 8 cancer types and HapMap CEU individuals with QC and minor allele frequency of 1%). 괄호 내의 정확도는 10번의 검증 실험에 대한 평균 정확도이다.
민감성 예측은 암 종류에 따라 약 47% 내지 76%의 범위를 나타내며, 전체 평균 예측 정확도는 64%이다. 대조군에서는 위양성 결과가 발견되지 않았고; 대조군에서의 시스터 멤버가 발견되는 몇 몇의 암 개체가 있었으나, 암 그룹에서의 시스터가 발견되는 대조군 개체는 없었다.
도 3은 결과를 보여주는 다른 방식으로서, 각 개체는 외측 원형 밴드 상의 선으로 나타나 있고 각각의 곡선은 시스터 서치의 출발점 및 종결점을 연결한다. 시스텀 페어의 대부분은 동일 암 종류(진실한 시스터)에서 발견되었지만, 어떠한 것은 다른 암 종류 또는 대조군(거짓 시스터)에서 발견되었다. 본 발명의 방법은 각 암 종류 샘플의 크기와 암 종류의 개수에 의존적이기 때문에, 예측 정확도에 미치는 샘플 크기 및 암 종류의 개수의 영향을 시험하였다. 그 결과, 도 7에서 볼 수 있듯이, 기대한 바와 같이, 샘플 크기는 예측 정확도를 증가시켰지만, 암 종류의 개수는 예측 정확도를 감소시켰다.
동일 유전자형 대표 및 필터링 전략에 의한 멀티-클래스 민감성을 예측하는 데 있어서, SNP 신택스 vs. 개별 SNPs의 중요도를 평가하기 위하여, SNP-S의 FFP를 이용하는 본 발명의 방법과 개별 SNP 프로파일링 접근방법을 비교하였으며; 각각의 SNP 유전자형은 10개 특징 중 하나로서 나타내었고(본 발명의 방법과 유사하게), 동형접합 SNP는 1, 이형접합 SNP는 0.5, 다른 경우는 0으로 카운팅 하였다. 필터링-인 역치의 넓은 범위에서 (100%, 50%, 20%, 10%, 5%, 2%, 1% 및 0.5%) 공통 특징을 필터링-아웃 하여, 방법들의 정확도를 측정하였다. 도 2에서 볼 수 있듯이, SNP 신택스를 이용하는 본 발명의 방법은 개별 SNPs보다 우수하였고, 특히 2% 필터링-인 및 l = 10에서 희귀 SNP-S l 를 이용하는 경우 매우 우수한 결과가 나왔다.
IV . 본 발명 방법의 검증
본 발명의 방법에서, 8종의 암 종류 및 대조군 각각 66개 샘플의 데이터세트를 이용하여, 두 개의 파라미터 즉 SNP-Ss의 길이 및 퍼센트 필터링-인(2%)를 최적화 하였다. 공공의 데이터베이스에서 얻을 수 있는 SNP 데이터가 적기 때문에, 본 발명자들은 3종의 암(BRCA, OV 및 UCEC)을 선택하였고, 이들은 데이터가 조금 더 많은 것이다. 3종의 암 각각에서, 최적화 과정에서 사용된 데이터세트에 포함되지 않은 66개의 새로운 샘플을 무작위적으로 선택하고, 두 개의 파라미터를 이용하여 암 종류에 대한 민감성 정확도를 계산하였다. 이러한 과정을 3종의 암 각각에 대하여 10회 반복하고 정확도의 평균을 계산하였다. 본 검증 시험에서 평균 정확도는 BRCA, OV 및 UCEC 각각에 대하여 55.6%(43.93-71.21%), 43.0%(34.84-48.48%) 및 66.5%(57.57-78.78%)이었다. 이 값들은 최초 샘플에서의 값과 꽤 유사한 것이다.
V. 민감성 대립유전자의 지놈 위치의 동정
하나의 암 종류에 대한 SNP-S10의 민감성 대립유전자에 의해 커버되는 지놈 부위를 위치화 시키기 위하여, 그 암 종류의 멤버 중에서만 나타나고 하나 또는 그 이상의 진실-시스터 페어 사이에 공통되지만 다른 암 종류에서 발견되지 않는 SNP-S10(“민감성 SNP-S 마커 대립유전자” 또는 이하 “민감성 마커 대립유전자”이라 함)을 동정하였다. 이어, 3 레벨에서 이들을 분석하였다: (1) 전체 지놈에서 모든 마커 대립유전자의 총체적 관찰, (2) 하나의 염색체에서 마커 대립유전자의 위치의 중간적 레벨 관찰, 및 (3) 몇 개의 공지 암 유전자에 대한 마커 대립유전자의 위치의 근접 관찰.
표 6은 전체 지놈에 대한 4분위수로 나타낸 마커 대립유전자의 내용을 보여준다.
타입 4분위수(Quartile)
Q0 Q1 Q2 Q3 Q4
시스터-특이적 마커 대립유전자 1136 1394 1603 2152 11160
비-오버랩핑 SNPs 엑손 내 26 55 69 96 476
인트론 내 23 59 76 102 503
기타 다른 부위 내 4321 6793 7967 10693.5 56458
총합 4374 6911.5 8098 10898 57437
커버되는
유전자
비-암 질환 19 39 48 65.5 278
0 4 5 7 27
기타 275 501.5 597 825.5 3719
Total 298 546.5 650 895 4018
첫 번째 열에서, 각각의 시스터에 대한 시스터 SNP-S10의 개수에 대한 사분위수를 분석하였다. 각각의 시스터의 SNP-S10의 세트에 대하여, 비-오버랩핑 SNPs의 개수를 측정하였고, 이들을 엑손, 인트론 및 전사체가 없는 다른 부위 3개의 카테고리로 분류하였다. 각각의 시스터에 대한 시스터 SNP-S10의 한 세트에 의해 커버되는 유전자의 개수는 마지막 열에 기재되어 있고, 유전자들은 전사체 개시/종결의 업스트림/다운스트림 5 kb에 걸친 부위로 정하였다. 인간 지놈 빌드 19 상의 UCSC 테이블 브라우저의 Gene Track으로부터 유전자 주석 데이터를 다운로드 하였고, 질환 유전자는 UCSC 테이블 브라우저의 GAD(Genetic Association Studies of Complex Diseases and Disorders) 트랙으로부터 다운로드 하였으며, 암 유전자는 Wellcome Trust Sanger Institute의 Cancer Gene Census으로부터 주석을 달았다.
표 6은 다음을 나타낸다:
(1) 민감성 마커 대립유전자의 대부분은 유전암호 부위와 오버랩 되어 있지 않다. 오버랩 된 경우에도, 이러한 경우의 모든 대립유전자가 공지의 암 유전자와 오버랩 되어 있지는 않다.
(2) 시스터-페어 당 많은 마커 대립유전자가 있으며, 평균 약 1,600이다.
도 4는 3번 염색체(많은 암 유전자가 동정됨) 상에서 8종 암의 민감성 마커 대립유전자를 3번 염색체에서 공지된 다양한 특징(예컨대, 공지 암 유전자의 위치, SNP 밀도, 유전암호 부위 및 암 민감성에 대한 GWAS 히트가 발견되는 사이토밴드)에 상대적으로 맵핑한 결과를 보여준다. 다음과 같은 일반적 관찰이 이루어졌다:
(3) 각각의 암 종류에 대한 많은 민감성 마커 대립유전자들이 있지만, 이들은 매우 오버래핑 되고 구별된 클러스터를 형성하며, 이와 같은 사실은 민감성 마커 대립유전자들이 무작위 “노이즈”가 아님을 보여주는 것이고;
(4) 상기 (1)번의 관찰 결과와 일치되게, 암 유전자와 마커 대립유전자 사이의 유의적인 상관성이 없으며;
(5) 마커 대립유전자의 위치 및 GWASs에서 얻은 암 민감성 SNP 히트와 관련된 사이토밴드 사이에 강한 상관성이 관찰되지 않는다.
민감성 마커 대립유전자의 대부분은 지놈의 비-유전암호 부위에서 발견되지만, 도 5는 암 유전자로 잘 알려진 (a) TP53 및 (b) BRCA2 유전자 근처에 마커 대립유전자가 맵핑되어 있는 유전암호 부위의 두 구역에 대한 예를 보여준다. 대부분의 암 유전자들이 OMIM 데이터베이스에 기록되어 있는 두 암(BRCA 및 COAD)의 모든 마커 대립유전자를 조사하였다. 다음과 같은 실험 결과를 얻었다:
(6) 상기 두 암 종류에 대한 민감성 마커 대립유전자들은 상기 두 유전자 위치와 오버랩핑 되지 않는다. 민감성 마커 대립유전자들은 다른 근처 유전자들과 오버랩핑 되고;
(7) 그러나, 상기 두 암 종류에 대하여 알려진 모든 암 유전자의 약 50%는 BRCA 및 COAD 각각의 마커 대립유전자의 SNP 위치와 오버래핑 되거나 또는 BRCA 및 COAD 각각의 마커 대립유전자의 SNP 위치의 20 kb 및 50 kb 범위에서 발견되고(참조: 도 8);
(8) 상기 두 암 종류(BRCA 및 COAD)에 대한 GWASs에 의해 규명된 공지의 연관 SNPs에 상대적인 마커 대립유전자의 위치를 분석하였다. 분석 결과에 따르면, 13개의 BRCA-연관 SNPs 중에서 8개는 각각의 마커 대립유전자로부터 5 kb의 거리 내에 있고, 6개의 COAD-연관 SNPs 중에서 3개는 각각의 마커 대립유전자로부터 20 kb의 거리 내에 있다. 상기 두 암 종류 모두에서, 모든 연관 SNPs는 500 kb 내에서 발견된다.
요약 및 논의 사항
요약
본 발명자들은 SNP 신택스(SNP-S) 및 이 신택스의 특징 빈도 프로파일 개념을 도입하여 한 개체의 WG SNPs의 체계적 특징을 분석하는 방법을 제공한다. 이어, 각 개체의 희귀 SNP-Ss의 FFP를 대조군 개체 및 8 종류의 주 암을 갖는 개체들의 FFP와 비교하여 멀티클래스 암 민감성을 평가하였다. 현재 TCGA 데이터베이스에서 이용가능한 SNP 데이터의 양이 비록 적지만, 본 발명은 암 종류에 따라 약 47-76%의 범위의 정확도로 8 종의 주요 암에 대한 유전적 민감성을 예측한다. 이 정확도는 각각의 암 종류에 대한 샘플의 크기가 증가함에 따라 증가할 것이며, 샘플 크기의 증가는 현재의 시퀀싱 기술에 의해 쉽게 얻을 수 있을 것이다.
본 발명의 연구 결과는 암 민감성에 대한 “멀티플 분류 모델”(Multiple assortment model)을 뒷받침한다:
1. 암에 대한 개체의 민감성은 지놈의 비-유전암호 부위에 존재하는 많은 희귀 SNP 신택스(시스터 특이적 마커 대립유전자)의 세트와 연관성이 있고(표 6);
2. 하나의 파퓰레이션에서 암 민감성에 대한 이러한 많은 세트가 있으며(평균 약 34개의 시스터 페어), 하나의 시스터 페어의 마커 대립유전자들의 대부분은 동일 암 종류에서 다른 시스터 페어의 마커 대립유전자와 다르며;
3. 하나의 암 종류에 있어서, 시스터 특이적 마커 대립유전자의 각각의 세트는 암 특이적 마커 대립유전자로부터 “분류”된 것으로 판단될 수 있고, 이는 하나의 암 종류에 대하여 독특한 모든 시스터 특이적 마커 대립유전자들의 집합이다.
논의 사항
샘플 크기 vs . 정확도
암 종류의 개수가 증가하면 본 발명의 퍼포먼스가 저하되지만, 각각의 암 종류에 대한 데이터세트의 크기가 증가하면 본 발명의 퍼포먼스는 개선된다(도 7). 샘플 크기의 실질적인 증가는, 암 종류 개수의 증가에 따른 퍼포먼스 저하를 보상한다. 또한, 각각의 암 서브타입의 샘플 크기가 상당히 크면, 본 발명은 하나의 암 종류의 개별적 서브타입에 대한 민감성을 예측하는 데 이용될 수 있다.
민감성 예측의 정확도 한계
본 발명은 암 종류에 따라 약 47-76%의 범위의 정확도로 8 종의 주요 암에 대한 유전적 민감성을 예측한다. 비록 하나의 암 종류에 대한 샘플 크기가 증가하면 정확도는 증가하지만(도 7), 100%에 도달하지는 않는다. 하나의 암 종류에 대한 모든 유전적 민감성이 암을 촉발하지는 않으며, 대부분의 경우, 암의 발생은 비-유전암호적인 하나 또는 그 이상의 촉발 이벤트를 필요로 한다.
“오류” 시스터
오류 시스터는 다음과 같은 여러 요인에 의해 잘못 분류될 수 있다: 1) 작은 샘플 크기 때문에, 진실한 시스터가 데이터세트에서 발견되지 않을 수 있으며 이는 장차 샘플 크기가 증가하면 발견될 것이고, 2) 유전적인 민감도는 유사하나 비유전적인 요인에 의해 다른 암 유형과 시스터를 구성하게 했을 수도 있고, 3) 오류 시스터는 동일하지 않지만 유사한 암 표현형에 대한 유전자형 시스터일 수 있고, 4) 부정확한 유전자형 콜(실험적 또는 컴퓨터적인 편향에 의해 초래된)에 의한 시스템적인 오류, 5) 파퓰레이션 층화(stratification)은 고려되지 않았고, 6) 제한된 샘플을 이용한 “최적” 필터링 역치의 선택에 의해 초래된 어떤 마커 대립유전자의 손실. 샘플 크기가 실질적으로 증가하면 어떤 오류 시스터는 진실한 시스터로 밝혀질 수도 있다. 또는, 시스터를 찾는 대신에 다른 방법으로 VAR-synthax를 분류하는 방법도 있다. 예를 들면, SVM을 적용할 수 있다.
전체 지놈 서열 vs . SNP vs . 태깅 공통 SNPs
이용가능한 SNP 밀도는 본 발명의 정확도를 제한할 수 있기 때문에, 본 연구에 이용된 고속 플랫폼의 태깅 공통 SNPs 보다 WG 서열에서 불러온 모든 SNPs를 이용하여 SNPs의 수를 증가시키는 것이 본 발명의 민감도 예측을 실질적으로 개선할 수 있다. SNPs 또는 태깅 공통 SNPs가 아닌 WG 서열을 이용하면, 본 발명의 퍼포먼스를 더욱 개선할 것이다.
민감성 마커 대립유전자의 수
민감성 마커 대립유전자의 매우 많은 수(암 종류에 따라 약 40,000-118,000)가 암 종류 당 평균 약 34개 시스터 페어로 분류되었고, 각각의 시스터 페어는 약 1,600개 민감성 마커 대립유전자를 가지며, 이는 본 연구에서 한 개체의 모든 SNP-S10s의 약 0.05%에 해당되는 것이다. 대립유전자들의 대부분은 매우 오버랩핑 되어 있고 클러스터링 되어 있으며, 이는 대립유전자들이 “노이즈”가 아님을 나타내는 것이다. 예컨대, 도 4는 3번 염색체에서 암 종류 당 약 21개(5-33개의 범위)의 클러스터가 있음을 보여준다.
파퓰레이션 층화 및 다른 요인
본 발명자들은 종족 정보를 갖는 미국 내 유럽 조상을 갖는 개체로 연구 대상을 한정하였지만, 본 연구의 샘플에서 잠재적인 파퓰레이션 서브구조가 있을 수 있으며(A. L. Price, et al. (2008). Discerning the Ancestry of European Americans in Genetic Association Studies. PLoSGenet4(1):e236), 이는 동일한 스브-파퓰레이션에서의 편향된 시스터를 제공할 가능성이 있다. 이와 유사하게, 시스템적으로 본 발명의 결과에 영향을 줄 수 있는 다른 숨어있는 변수들이 있을 수 있다.
지놈-와이드 데이터의 “강제된 콜”, 후성유전학적 정보의 부재, 인간 레퍼런스 지놈 서열에서의 오류(International Human Genome Sequencing Consortium (2004). Finishing the euchromatic sequence of the human genome. Nature 431(7011):931-945) 및 유전자형 콜 오류(N. Rabbee & T. P. Speed (2006). A genotype calling algorithm for Affymetrix SNP arrays. Bioinformatics 22(1):7-12)와 같이 예측 정확도에 영향을 미치는 다수의 다른 요인들이 있을 수 있다. 이들 요인들 모두에서의 개선은 본 발명의 예측 정확도를 향상시킬 것이다. 다른 암 표현형, 실험 배치 및 다른 시스템적 편향(S. Turner, et al. (2011). Quality control procedures for genome-wide association studies. Curr Protoc Hum Genet Chapter1; D. G. Clayton, et al. (2005). Population structure, differential bias and genomic control in a large-scale, case-control association study. Nat Genet 37(11):1243-1246)에 대하여 얻는 SNP 유전자형에 대하여 요구되는 추가적인 질 조절은 예측 정확도를 향상시킬 수 있을 것이다.
다른 가능한 응용
파퓰레이션 수준 또는 개인적 수준에서, 본 발명은 실질적인 정보를 제공할 수 있다: 암에 대한 높은 유전적 민감성을 갖는 파퓰레이션의 크기를 정량적으로 예측하는 것은 암 예방 정책 및 비용 관리 전략을 수립하는 데 있어서 매우 유용한 정보이다. 이와 유사하게, 한 개체의 유전적 민감성을 예측하는 것은 예방에 대한 동기 및 사전적 초기 진단에 대한 동기를 제공한다. 본 발명이 적용될 수 있는 다른 응용분야는 만성 질환, 감염성 질환 및 신경 질환 등과 같은 다른 질환류에 대한 유전적 민감성의 연구를 포함한다. 또한, 충분한 샘플에 대한 지놈 데이터가 있으면, 본 발명은 특정 치료에 대한 환자의 민감성과 치료학적 이득 또는 효능의 가능성을 증가시키고 부작용 위험을 감소시킬 수 있는 임상 시험에 대한 환자의 민감성을 평가하는 데 적용될 수 있다.
II . 제2발명: 통합적 접근 방법
연구 방법
시료 및 지노타이핑
상술한 제1발명에 기재된 “데이터베이스 및 샘플링”과 동일하게 샘플링 및 지노타이핑을 실시하였다.
시료질 조절
비-유럽 조상의 몇 몇 개체들은 TCGA로부터 제거하여 층화(stratification) 오류가 발생되지 않도록 하였다. 모든 마커들을 Affymetrix 6.0 SNP 칩으로 타이핑 하였다. 본 연구에서 사용된 데이터세트를 다음과 같은 조건으로 PLINK를 이용하여 얻었다: 본 발명자들이 사용한 플랫폼이 타입 하이 다형질성 위치에 적합하도록 디자인된 것을 고려하여, 1% 이하의 마이너 대립유전자 빈도를 갖는 SNPs는 노이즈로 간주하여 제거하였고, Hardy Weinberg Equilibrium 시험을 CEU 개체에서 각각의 마커에 적용하였다(p > 10-6). 또한, 암 특성 내에서 모든 플레이트에 대한 하나의 플레이트 및 다른 플레이트들(30개 이상의 시료를 가짐) 사이의 연관성 시험(p > 1 x 10-8)을 실시하여, 플레이트-효과 시험을 적용하였다. QC를 통과한 SNPs에 대하여, TCGA 데이터에서 미국내 자기-발표 코카시안 개체를 추출하고 유전 관련성 시험을 실시하였다(PI_HAT < 0.2). 또한, 페디그리 정보를 이용하여 CEU에서 모든 관련 개체들을 제거하였다. 최종적으로, 샘플을 통합하고 post-QC 특성 데이터세트에 대하여 SNPs를 조인트하여, 1741 개체에 대한 상염색체의 비반복성 714649개 SNPs에 대한 유전자형을 얻었다(표 7).
Figure pat00005
묘사자 요소들의 인코딩
두 가지 인코딩을 이용하였다: (i) 분류 퍼포먼스를 증가시키기 위하여, 각각의 SNP 유전자형을, 그 유전자형에서의 마이너 대립유전자의 수에 따라 0, 1 또는 2의 수로 전환하였고; (ii) SNP-Ss의 효과적인 프로파일링을 위하여, SNP-S 묘사자의 각각의 SNP를 10개의 알파벳 중 하나로 전환하였다(참조: 표 3).
SNP - Ss 의 최적 길이
모든 가능한 길이의 SNP-Ss의 개수는 너무 많기 때문에(106 위치의 길이의 하나의 SNP 스트링에 대하여 약 1012개), 이러한 크기의 FSPs 비교에 필요한 수학적 계산이 힘들기 때문에, 본 발명자는 “최적” 길이의 SNP-S만을 이용하였다. 컴퓨터 부담을 크게 덜어주기 위하여 최적 길이를 이용하는 것은 본 발명자들의 종전 논문에 기재되어 있다.
4가지 방법
본 발명자들에 의해 제시된 4가지 방법은 도 9에 요약되어 있다. 그 상세는 다음과 같다:
1) kNN / SNP -S 방법: SNP 신택스(SNP-Ss)에 대한 k-최인접 이웃( kNN ) 알고리
훈련 세트의 모든 멤버에 대한 SNP-Ss의 벡터를 얻은 다음, 특징 선별 단계를 진행하였다. 이 단계에서, 파퓰레이션의 어떤 퍼센티지에 의해 공유되는 신택스를 제거(필터-아웃) 하고, 잔여분(필터-인)을 분석에 이용하였다. 그런 다음, 개체의 희귀 SNP 신택스의 총 수로 정규화 하였다. 최종적으로, 희귀 SNP 신택스를 이용하여 모든 멤버들 사이의 Jensen-Shannon(JS) 발산 매트릭스를 구축하였다. 묘사자(descriptor)의 거리를 측정하기 위하여 JS 발산을 선택한 이유는, 대립유전자 공유(allele sharing)과 같은 다른 통상적인 방법들보다 예측능이 우수하기 때문이다. 모든 개체, 각각의 개체에 대하여 짝 JS 거리를 측정한 다음, 상위 최근접 k 개체들 중에서 9 클래스를 선출(vote)하고 가장 높은 카운트를 갖는 것을 선택하였다. 동등한 경우, 상위 k 에서 클래스 개체들 중에서 타겟 개체에 가장 짧은 평균거리를 갖는 클래스를 선택하였다. 모든 멤버에 대한 올바른 추측 할당을 이용하여, 정확도를 측정하였다. 훈련 데이터세트에 대한 암 민감성 추정의 최고 정확도를 위하여, SNP-S의 최적 길이, l , 저빈도 선택에 대한 f 파라미터, 파라미터 k 를 최적화 하였다. 최적 파라미터 값은 l , f , 및 k 에 대하여 각각 8, 1 및 40 이었다(도 10a, 표 8). 시험 단계에서, 동일한 l f 의 최적 파라미터를 이용하였다. 이어, 개체 및 훈련 샘플 사이의 JS 거리 벡터를 측정하였다. 최적 k 파라미터로 훈련 단계에서 동일한 선출 과정을 통해, 시험 개체들을 예측하였다.
2) kNN / SNP 방법: SNPs 에 대한 k-최인접 이웃( kNN ) 알고리즘
SNP-S 묘사자를 SNP로 대체하고 상기 1)과 동일하게, KNN을 리모델링 하였다. SNP-S와는 상이하게, 각각의 SNP를 0, 1 및 2의 숫자 형태로 전환하였으며, 이는 유전자형에서의 마이너 대립유전자의 카운트에 따라 결정된다. SNP의 kNN에서, fk 파라미터(참조: 도 10b, 표 9)를 훈련시켰다. fk 파라미터에 대한 최적 값은 각각 15% 및 200이었다.
3) SVM / SNP 방법: SNPs 에 대한 서포트 벡터 머쉰( SVM )
SVM은 감독 분류 방법이며, 최초에 빌딩 이진수 분류자를 위하여 고안된 것이고, 후에 다양한 방식으로 멀티플 분류자를 구축하는데 이용되고 있다. 본 발명자들은 One-Versus-One(OVO) 스킴을 이용하였으며, 이는 경험적으로 다른 방식들보다 우수한 것으로 알려져 있기 때문이다(Duan KB & Keerthi SS (2005) Which is the best multiclass SVM method? An empirical study. Lect Notes Comput Sc 3541:278-285). OVO 방법은 n 클래스들의 각각의 쌍에 대한 n(n-1)/2 분류자를 생성하고, 시험 샘플에 대한 n(n-1)/2 예측들로부터 가장 높은 선출을 갖는 클래스를 취한다. OVO SVM 방법을 실시하기 위하여, Chang et al의 LIBSVM을 이용하였다(Chang CC & Lin CJ (2011) LIBSVM: A Library for Support Vector Machines. Acm T Intel Syst Tec 2(3)). 커널함수에 대하여 RBF(Radial Basis Function)을 선택하였으며, 이는 다른 함수들보다 우수한 것으로 알려져 있기 때문이다. SNP 묘사자의 바이너리 분류자를 구축하기 위하여, 소정의 p-값 역치( p )에 대하여 SNPs를 필터링-아웃하여 두 개의 클래스 사이에 연관된 SNPs를 선별하였다(참조: 도 10c). 최적 컷오프를 규명하기 위하여, 범위를 10- 3 으로부터 10- 6 으로 하였다(Wei Z, et al. (2009) From Disease Association to Risk Assessment: An Optimistic View from Genome-Wide Association Studies on Type 1 Diabetes. Plos Genet 5(10)). 10-6 보다 작은 컷오프는 적용하지 않았으며, 연관 시험에 의한 필터링 후 어떤 분류자는 SNPs를 남기지 않기 때문이다. 훈련기 동안, 각각의 암에 대한 66개 시료의 데이터세트(총 594 개체)에서 리브-원-아웃(leave-one-out) 교차 검증을 통하여 OVO SVM 예측의 퍼포먼스를 평가하였다. 이를 위하여, 리브-원-아웃 교차-검증에 의한 데이터세트의 나머지로부터 훈련된 파라미터에 기초하여, 본 방법의 예측 퍼포먼스를 무작위 시료에 대하여 평가하였다. 상기 과정을 모든 케이스에 대하여 반복하고, 클래스(암 종류) 할당의 결과를 수집한 다음 불확실성 매트릭스(contingency matrix)에 표로 만들었다(참조: 표 10). 애매한 예측의 경우(즉, 멀티플 최고 선출인 경우), 동점이 깨질 때까지 최고 선출의 클래스들의 세트에서 폴을 반복하였다. OVO SVM에 의한 예측 결과는 p-값 커오프 값이 1 X 10-5인 경우에 가장 우수하였다(참조: 도 10c).
4) SVM / SNP -S 방법: SNP - Ss 서포트 벡터 머쉰( SVM )
SNP 대신에 SNP-S를 이용하여 SVM을 이용하여 또 다른 예측 모델을 구축하였다(참조: 도 10d, 표 11). SNP-S의 최적 길이에 대한 추가적인 파라미터(훈련기 동안 탐구되고 최적화 됨)가 포함되는 것을 제외하고는, 본 방법의 전체적인 파이프라인은 상기 3)번과 동일하다. p-값 커오프 값에 대한 최적 값 및 SNP-S에 대한 최적 길이는 각각 10-5 및 2이다.
멀티플 예측 알고리즘의 Bayesian 추론
T={B,C,H,K,O,L,R,U,N} 에 의해 표시되는 9개 표현형 중 하나로 개체들을 분류하기 위하여, 각각의 표현형을 각 형질의 전체 이니셜의 첫 번째 문자로 레이블링 하였다. 상기 4가지 방법의 예측 결과의 베이지언(Bayesian) 추론을 이용하였다. 이러한 방법들은 다음의 약칭을 갖는다: KNN / SNP -S , KNN / SNP , SVM / SNP -S , SVM/SNP . 상기 방법들은 수학적으로 각각 m 1 , m 2 , m 3 , m 4 으로 표시된다. 각각의 시험 개체 i 에 대하여, 훈련방법으로부터 얻은 예측 결과에 대하여 조건화된 가장 높은 사후확률의 형질을 선택하였으며, 이는 P( s i | M 1 i , M 2 i , M 3 i , M 4 i ) 로 공식화 할 수 있다. 상기 식에서, s i 는 개체 i 의 예측 형질, M j i 는 방법 m j 에 의해 예측된 개체 i 의 형질을 나타낸다. 베이지언의 정리(Bayes theorem)에 의해, 다음과 같이 나타낼 수 있다:
Figure pat00006
분모 P( s i | M 1 i , M 2 i , M 3 i , M 4 i ) 는 정규화 상수이다. 각 방법의 예측 결정은 서로 내재적으로 독립적이기 때문에, 체인규칙을 적용한다(Zhang H (2005) Exploring conditions for the optimality of Naive bayes. Int J Pattern Recogn 19(2):183-198):
Figure pat00007
상기 식에서, P( M j i | s i =t) P( s i =t) 는 4가지 방법 각각의 훈련기 동안 관찰된 사항으로부터 최대우도 추정에 의해 경험적으로 추론될 수 있다. 예를 들어, 훈련 세트에서 전체 BRCA 샘플들 중에서, kNN/SNP-S 방법에 의해 COAD로 추측된 진실된 BRAC 개체의 일부를 동정함으로써 P( M 1 i =C| s i =B) 를 추정할 수 있다. P( s i =t) 는 모든 훈련 개체들의 형질 t 의 샘플의 일부에 해당하는 것이며, 이는 9개 형질 각각에 대하여 동일하다(각각의 형질에 대하여 동일한 샘플 크기를 이용하기 때문이다).
남성의 멀티-클래스 암 예측
본 발명의 방법들은 개체들을 3종의 여성-특이적 암 및 3종의 일반적 암을 포함하는 멀티플 암 종류로 분류한다. 남성이 여성 암 중 하나로 예측되는 것을 방지하기 위하여, 남성 개체에 대해서는 유방암, 난소암 및 자궁 내막암이 제외된 5종의 일반적 암으로 분류하였다.
연구 결과
지놈과 같은 복잡 시스템과 관련하여 이 시스템의 특정 양태(예컨대, 암 민감성)를 규명함에 있어서는, 두 가지 결정을 요구한다: 다수의 방법들 중에서, 어떠한 방법이 이 시스템의 적합한 묘사 방법인가, 그리고 어떤 분석 방법이 묘사자에 적용되어 상기 양태에 대한 유용한 정보를 제공할 수 있는가. 본 발명자들은 개체 지놈의 두 가지 상이한 묘사자에 적용되는 두 가지 분석 알고리즘, 즉 4가지 방법을 이용하였다. 개체 지놈의 두 가지 묘사자는 다음과 같다: (i) 정돈된 SNPs의 프로파일(각각의 SNP는 이웃과 독립적으로 가정됨), 그리고 (ii) SNP 신택스의 프로파일(SNP-S는 특정 길이의 연결, 정돈된 SNPs로 정의된다). 두 가지 묘사자 중 하나로서 SNP-S를 이용하는 것은, 각각의 SNP 위치가 독립적이지 않고, 다양한 정도로 이웃과 연결되어 있다는 관찰결과를 반영한 것이다. 컴퓨터 추론된 하플로타입 대신에 실험적으로 얻은 유전자형을 이용한 것은, 하플로타입이 신뢰도가 없다는 사실, 특히 본 발명의 방법들이 구축되는 비연관의 개체들의 희귀 빈도 SNPs에 대하여 신뢰도가 없다는 사실 때문이다(Fan HC, Wang J, Potanina A, & Quake SR (2011) Whole-genome molecular haplotyping of single cells. Nature biotechnology 29(1):51-57). 개체 지놈의 SNP-Ss는 총 지놈 SNPs의 전체 길이를 따라 특정 길이의 윈도위를 슬라이딩 하여 생성한다. 또한, 묘사자 요소들(본 연구에서는, SNP 또는 SNP-S)에 대하여, 서로 다른 암 종류의 민감도를 증가시키는 요소들을 선별한다: 사용된 분석 알고리즘에 따라 “매우 낮은 p-값” 또는 “희귀 빈도”를 갖는 SNPs 또는 SNP-Ss.
사용된 두 개의 공통 분석 알고리즘은 다음과 같다: (i) k-최인접 이웃(kNN) 분석 알고리즘 및 (ii) 서포트 벡터 머쉰(SVM) 분석(Theodoridis S & Koutroumbas K (2009) Pattern recognition). 전자는 시험 개체의 k 최인접 이웃을 서치하고, 후자는 시험 개체가 속하는 것으로 판단되는 최가능성 클래스(most likely class)를 동정하는 분별 분류 방법이다. kNN 분석 알고리즘에 있어서, 한 개체의 묘사자와 모든 개체들 각각의 묘사자 사이에 모든 짝(pairwise) "거리들“을 계산한다. 이어, 시험 개체에 대한 kNNs를 선택하고, 개체가 kNNs 중에서 최공통 형질에 민감한지 여부를 예측한다(최가능성 형질이 둘 이상인 경우에는, 상술한 방법 참조). SVM 분석 알고리즘에 있어서, SVM을 훈련시켜 모든 이원적 형질들의 각각에서 하나의 개체의 타당한 형질(correct trait)을 인식하도록 한다. 최종적으로, SVM에 의한 모든 쌍 분류들의 최대 선출을 갖는 것을 최가능성 형질에 대한 시험 개체의 민감성을 예측한다. 시험 개체의 민감성에 대한 최종 예측은, 상기 4가지 예측 결과로부터 베이지언 추론을 기초하여 추정한다. 여성 개체의 경우, 멀티클래스 민감성은 9개 클래스(8개 공동 암 클래스 및 하나의 건강 형질)에 대하여 추측하였고, 남성 개체의 경우 예측은 3개의 여성-특이적 암 클래스를 제외한 6개 클래스에 대하여 실시하였다.
본 연구에 사용된 모든 데이터는 공공 데이터베이스(The Cancer Genome Atlas(TCGA) 및 HapMap)로부터 얻은 것이다. 데이터 선택의 상세한 내용, 샘플링 방법, 시료질 조절 과정 및 다른 상세한 내용들은 위의 실험 방법에 기재되어 있으며, 시료질 조절 전 및 후의 숫자는 표 7에 기재되어 있다. 데이터세트를 두 개의 그룹으로 분할하였다: 각각의 방법에 대한 파라미터들의 최적화를 위한 훈련 세트 및 본 방법들에 대한 독립적 검증을 위한 시험 세트. 훈련 세트에서 각 형질에 대한 샘플의 최대 크기는 TCGA의 한 형질의 최소 샘플 크기(66)로 제한하였다.
각 형질에 대한 부적합한 샘플 크기로부터 발생되는 인위적 편향된 예측(skewed prediction)을 방지하기 위하여, 각 형질 그룹으로부터 무작위적으로 66 개체를 동등하게 추출하였다. TCGA의 부족 샘플 때문에, 모든 9개 표현형질에 대한 시험 세트의 구축은 할 수 없었다. 대신에, 3개의 형질(BRCA, OV 및 UCEC) 각각에 대하여는 50 개체(훈련 세트에서 이용되지 않은 개체)를 시험하고, 상기 과정을 10회 반복하였다. 도 9는 상기 4가지 방법의 워크플로우이다. 각각의 방법에 대한 최적화 파라미터를 가지고, 훈련 세트(표 8 내지 11)에 대한 퍼포먼스 및 시험 세트(도 11a-11c)에 대한 퍼포먼스를 실시하였다.
각각의 형질에 대한 민감성 예측의 통계적 정확성을 평가하기 위하여, 각각의 시험 개체를 594 연습 파퓰레이션으로부터 취하였다. 표 8는 kNN/SNP-S의 결과이고, 나머지 3가지 방법의 결과는 표 9-11에 기재되어 있다.
Figure pat00008
Figure pat00009
Figure pat00010
Figure pat00011
민감성 예측 정확도에 대한 상기 4개의 표의 요약은 다음 표 12에 기재되어 있다.
Figure pat00012
상기 표로부터 알 수 있는 것은, (i) 4가지 방법 각각에서, 표 8-11의 큰 수의 대각선 요소들에 명확하게 알 수 있듯이, 개체들의 가장 큰 수에 대하여 정확한 형질을 예측하였고; (ii) 4가지 방법 모두에서, 정확한 예측은 무작위 예측보다 상당히 높은 정확도로 이루어졌고(예컨대, 표 8의 kNN/SNP-S 방법에서, 양성율(true positive rate)은 66%이고, 위양성율은 33%이다); (iii) 4가지 방법 중에서 단독의 방법은 모든 형질들의 민감성을 예측하는 데 최고의 퍼포먼스는 나타내지 않으며; (iv) 건강한 형질에 대해서는 위양성 결과가 없었고, 건강한 군에 속하는 것으로 분류된 몇 몇의 암 개체가 있었으나, 건강한 군의 개체는 어떠한 암 군에서도 발견되지 않았다.
TCGA로부터의 얻을 수 있는 데이터세트에서 어떤 암의 작은 시료 크기 때문에, 모든 9개 형질에 대한 시험 세트의 구축은 할 수 없었다. 따라서, 본 발명자들은 BRCA(Breast Invasive Carcinoma), OV(Ovarian Serous Cystadenocarcinoma) 및 UCEC(Uterine Corpus Endometrioid Carcinoma), 3개의 군으로부터 100개의 새로운 시료를 무작위적으로 선택하였다. 각각의 방법에서 훈련 세트에서 최적화된 파라미터를 이용하여 시험 개체에 대한 멀티클래스 정확도를 계산하였다. 상기 3종의 암 클래스 각각에 대하여 50 개체(100 시험 시료에서 무작위적으로 선택된)의 재샘플링을 10회 반복하였다. 도 11a-도 11c는 멀티플 샘플링으로부터 통계적 스프래딩을 갖는 상기 4가지 방법의 결과를 보여준다. 시험 세트의 결과는, 다음과 같이 요약될 수 있다; (i) 각각의 암 클래스에 대하여, 4가지 방법 중에서 3가지는 무작위 예측보다 상당히 우수한 정확도로 시험 세트에 대한 예측을 하였고; (ii) BRCA 및 OV의 개체 지놈 변이들(엄격하게 표현하면, SNPs 또는 SNP-Ss의 묘사자)은 다른 나머지 암 종류들보다 서로 연관되어 있으며, (iii) 조금 덜 하지만, OV 및 UCEC의 묘사자들 사이의 유사한 관련성이 있었다.
각각의 시험 개체 대하여, 상기 예측의 확실성을 베이지언 추론의 사후확률로 추정하였다(도 12). 상기 3가지 클래스에 대한 결과는 0.3 이하의 최대 사후확률에 의한 예측은 없음을 보여 준다. BRCA의 경우, 시험 개체들의 30%가 0.9 이상의 최대 사후확률을 갖는 시험개체로 정의되는 고확실성 콜을 나타내었고, 이는 83.3%의 정확도를 나타내었으며, 전체적인 정확도에서는 25.3%의 증가를 나타내었다. 종합하면, (i) 4가지 방법의 조합에 기초한 암 민감성에 대한 예측의 멀티클래스 정확도는 무작위 예측의 정확도인 11%보다 몇 배 높았고; (ii) 개체 또는 파퓰레이션에 대한 건강-결정을 할 수 있을 정도의 예측의 질을 나타내었으며, 이는 향후 보다 많은 데이터가 확보되면 개선될 수 있으며; (iii) 두 가지 암, BRCA 및 OV의 묘사자들은 다른 형질들보다 서로 유사하였다. OV 및 UCEC도 유사성을 나타내었으나, BRCA 및 OV보다는 덜 하였다.
이상으로 본 발명의 특정한 부분을 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적인 기술은 단지 바람직한 구현 예일 뿐이며, 이에 본 발명의 범위가 제한되는 것이 아닌 점은 명백하다. 따라서 본 발명의 실질적인 범위는 첨부된 청구항과 그의 등가물에 의하여 정의된다고 할 것이다.

Claims (16)

  1. 다음 단계를 포함하는 유기체의 지놈 변이(genomic variation) 또는 후생학적 변이(epigenomic variation)를 분석하기 위한 컴퓨터 실행(computer implemented) 방법:
    (a) 상기 변이에 대한 최소 두 종류의 묘사자(descriptor)를 구축하는 단계;
    (b) 최소 두 종류의 클래스 예측 알고리즘(class prediction algorithm)을 상기 최소 두 종류의 묘사자 각각에 적용시켜 상기 유기체의 지놈 변이 또는 후생학적 변이를 분석하여 최소 4 종류의 예측 결과를 얻는 단계; 및
    (c) 상기 단계 (b)에서 얻은 최소 4 종류의 예측 결과를 추론 알고리즘(inference algorithm)에 적용하여 상기 유기체의 형질(trait)을 최종적으로 예측하는 단계.
  2. 제 1 항에 있어서, 상기 지놈 변이는 뉴클레오타이드 서열에서의 SNP(single nucleotide polymorphism), 결손, 삽입 또는 반복 변이인 것을 특징으로 하는 방법.
  3. 제 2 항에 있어서, 상기 변이는 SNP인 것을 특징으로 하는 방법.
  4. 제 1 항에 있어서, 상기 변이에 대한 최소 두 종류의 묘사자는 (i) 각각의 변이가 이웃의 변이에 대하여 독립적이라는 것이 가정된 변이들의 프로파일 및 (ii) 특정 길이의 연계된 변이인 상기 청구항 제 1 항의 변이 신택스(VAR-S)의 프로파일을 포함하는 것을 특징으로 하는 방법.
  5. 제 1 항에 있어서, 상기 변이들은 SNPs이고, 상기 SNPs는 (i) 5% 이하의 대립유전자 빈도를 나타내는 SNPs의 제거, (ii) 하디 와인버그 평형 시험(Hardy Weinberg Equilibrium test) 및 (iii) 플레이트-효과 시험으로 구성된 군으로부터 선택되는 최소 1개의 방법에 의해 QC(Quality control)된 SNPs인 것을 특징으로 하는 방법.
  6. 제 1 항에 있어서, 상기 최소 두 종류의 클래스 예측 알고리즘은 k-최인접 이웃(k-nearest neighbor: kNN) 알고리즘 및 서포트 벡터 머쉰(support vector machine: SVM) 알고리즘을 포함하는 것을 특징으로 하는 방법.
  7. 제 1 항에 있어서, 상기 변이에 대한 묘사자 중 적어도 하나는 VAR-S의 프로파일이고, 상기 클래스 예측 알고리즘 중 적어도 하나는 k-최인접 이웃 알고리즘이며, 상기 단계 (b)는 (b-1) 파퓰레이션에서 20% 이하의 낮은 빈도로 발견되는 희귀 VAR-S를 선별하는 소단계; (b-2) 희귀 VAR-S의 총수로 정규화(normalization) 하는 소단계; (b-3) 희귀 VAR-S의 프로파일을 이용하여 JS(Jensen-Shannon) 발산 매트릭스를 구축하는 소단계; 및 (b-4) 상기 JS 발산 매트릭스를 이용하여 상기 유기체에 대한 k-최인접 이웃(kNN)을 선별하는 소단계를 포함하는 것을 특징으로 하는 방법.
  8. 제 1 항에 있어서, 상기 변이에 대한 묘사자 중 적어도 하나는 VAR-S의 프로파일이고, 상기 클래스 예측 알고리즘 중 적어도 하나는 서포트 벡터 머쉰(SVM) 알고리즘이며, 상기 단계 (b)는 (b-1) 10-2 내지 10-6의 낮은 p-값을 갖는 VAR-S를 선별하는 소단계; (b-2) 모든 이원적 형질(binary traits) 각각에 대하여 SVM을 실시하는 소단계; 및 (iii) 최대-윈 선출(max-win voting) 방식에 따라 분류하는 소단계를 포함하는 것을 특징으로 하는 방법.
  9. 제 1 항에 있어서, 상기 변이에 대한 묘사자 중 적어도 하나는 변이의 프로파일이고, 상기 클래스 예측 알고리즘 중 적어도 하나는 k-최인접 이웃 알고리즘이며, 상기 단계 (b)는 (b-1) 파퓰레이션에서 20% 이하의 낮은 빈도로 발견되는 희귀 변이를 선별하는 소단계; (b-2) 희귀 변이의 총수로 정규화(normalization) 하는 소단계; (b-3) 상기 희귀 변이의 프로파일을 이용하여 JS 발산 매트릭스를 구축하는 소단계; 및 (b-4) 상기 JS 발산 매트릭스를 이용하여 상기 유기체에 대한 k-최인접 이웃(kNN)을 선별하는 소단계를 포함하는 것을 특징으로 하는 방법.
  10. 제 1 항에 있어서, 상기 변이에 대한 묘사자 중 적어도 하나는 변이의 프로파일이고, 상기 클래스 예측 알고리즘 중 적어도 하나는 서포트 벡터 머쉰(SVM) 알고리즘이며, 상기 단계 (b)는 (b-1) 10-2 내지 10-6의 낮은 p-값을 갖는 변이를 선별하는 소단계; (b-2) 모든 이원적 형질(binary traits) 각각에 대하여 SVM을 실시하는 소단계; 및 (iii) 최대-윈 선출(max-win voting) 방식에 따라 분류하는 소단계를 포함하는 것을 특징으로 하는 방법.
  11. 제 1 항에 있어서, 상기 추론 알고리즘은 베이지언 추론(Bayesian inference) 알고리즘인 것을 특징으로 하는 방법.
  12. 제 1 항에 있어서, 상기 유기체의 형질은 질환(diseases), 질병(disorders), 상태(conditions), 증상(symptoms) 또는 치료(therapy) 반응성(responsiveness)인 것을 특징으로 하는 방법.
  13. 제 12 항에 있어서, 상기 형질은 암 질환인 것을 특징으로 하는 방법.
  14. 제 1 항에 있어서, 상기 형질은 성장속도, 수율 또는 질(quality)인 것을 특징으로 하는 방법.
  15. 하기의 단계를 실시하도록 컴퓨터 프로세서를 지시하는 지시사항(instructions)이 포함된(embodied) 컴퓨터-독해가능한(computer-readable) 저장 매체: (a) 유기체의 지놈 변이 또는 후생학적 변이에 대한 최소 두 종류의 묘사자(descriptor)를 구축하는 단계; (b) 최소 두 종류의 클래스 예측 알고리즘(class prediction algorithm)을 상기 최소 두 종류의 묘사자 각각에 적용시켜 상기 유기체의 지놈 변이 또는 후생학적 변이를 분석하여 최소 4 종류의 예측 결과를 얻는 단계; 및 (c) 상기 단계 (b)에서 얻은 최소 4 종류의 예측 결과를 추론 알고리즘(inference algorithm)에 적용하여 상기 유기체의 형질(trait)을 최종적으로 예측하는 단계.
  16. 다음을 포함하는 유기체의 지놈 변이(genomic variation) 또는 후생학적 변이(epigenomic variation)를 분석하기 위한 시스템:
    (a) 컴퓨터 프로세서; 및
    (b) 상기 프로세서와 커플링된 상기 제 15 항의 컴퓨터-독해가능한(computer-readable) 저장 매체.
KR1020150062776A 2012-12-18 2015-05-04 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법 KR101585190B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20120148533 2012-12-18
KR1020120148533 2012-12-18

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020130115261A Division KR101538692B1 (ko) 2012-12-18 2013-09-27 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법

Publications (2)

Publication Number Publication Date
KR20150059153A true KR20150059153A (ko) 2015-05-29
KR101585190B1 KR101585190B1 (ko) 2016-01-15

Family

ID=51738147

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020130115261A KR101538692B1 (ko) 2012-12-18 2013-09-27 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법
KR1020150062776A KR101585190B1 (ko) 2012-12-18 2015-05-04 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020130115261A KR101538692B1 (ko) 2012-12-18 2013-09-27 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법

Country Status (1)

Country Link
KR (2) KR101538692B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101864986B1 (ko) * 2017-02-27 2018-06-05 한국과학기술원 유전체 정보 기반 질병 예측 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110020815A1 (en) * 2001-03-30 2011-01-27 Nila Patil Methods for genomic analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110020815A1 (en) * 2001-03-30 2011-01-27 Nila Patil Methods for genomic analysis

Also Published As

Publication number Publication date
KR20140090544A (ko) 2014-07-17
KR101538692B1 (ko) 2015-07-27
KR101585190B1 (ko) 2016-01-15

Similar Documents

Publication Publication Date Title
Taliun et al. Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program
US20230326547A1 (en) Variant annotation, analysis and selection tool
JP7487163B2 (ja) がんの進化の検出および診断
van den Berg et al. Imputation to whole-genome sequence using multiple pig populations and its use in genome-wide association studies
Zhu et al. A genome-wide comparison of the functional properties of rare and common genetic variants in humans
Kruppa et al. Risk estimation and risk prediction using machine-learning methods
CN108475300B (zh) 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统
Isildak et al. Distinguishing between recent balancing selection and incomplete sweep using deep neural networks
US11302417B2 (en) Systems and methods for SNP characterization and identifying off target variants
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
JP2023535962A (ja) 低カバレッジ次世代シーケンシングデータにおける相同修復欠損などの染色体空間不安定性を同定する方法
US20190228836A1 (en) Systems and methods for predicting genetic diseases
EP1766043A2 (en) Computer systems and methods for constructing biological classifiers and uses thereof
Pal et al. CAGI4 Crohn's exome challenge: Marker SNP versus exome variant models for assigning risk of Crohn disease
CN111724911A (zh) 目标药物敏感度预测方法、装置、终端设备及存储介质
Kafaie et al. A network approach to prioritizing susceptibility genes for genome‐wide association studies
US20240029827A1 (en) Method for determining the pathogenicity/benignity of a genomic variant in connection with a given disease
KR101585190B1 (ko) 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법
WO2014098479A1 (ko) 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법
US20220293214A1 (en) Methods of analyzing genetic variants based on genetic material
Witte Rare genetic variants and treatment response: sample size and analysis issues
Yang et al. A systematic comparison of normalization methods for eQTL analysis
McCallum et al. Empirical Bayes scan statistics for detecting clusters of disease risk variants in genetic studies
Kurosawa et al. PDIVAS: Pathogenicity predictor for deep-intronic variants causing aberrant splicing
Magi et al. AUDACITY: A comprehensive approach for the detection and classification of Runs of Homozygosity in medical and population genomics

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190107

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200305

Year of fee payment: 5