KR20170133420A - 원형화된 메이트-쌍 라이브러리와 샷건 시퀀싱을 이용한 게놈 변이 검출 방법 - Google Patents

원형화된 메이트-쌍 라이브러리와 샷건 시퀀싱을 이용한 게놈 변이 검출 방법 Download PDF

Info

Publication number
KR20170133420A
KR20170133420A KR1020177031113A KR20177031113A KR20170133420A KR 20170133420 A KR20170133420 A KR 20170133420A KR 1020177031113 A KR1020177031113 A KR 1020177031113A KR 20177031113 A KR20177031113 A KR 20177031113A KR 20170133420 A KR20170133420 A KR 20170133420A
Authority
KR
South Korea
Prior art keywords
sequencing
fragment
genomic
fragments
dna
Prior art date
Application number
KR1020177031113A
Other languages
English (en)
Inventor
이준 루안
Original Assignee
더 잭슨 래보라토리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 잭슨 래보라토리 filed Critical 더 잭슨 래보라토리
Publication of KR20170133420A publication Critical patent/KR20170133420A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/501Ligase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/30Characterised by physical treatment
    • C12Q2523/301Sonication
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/30Characterised by physical treatment
    • C12Q2523/303Applying a physical force on a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은, 단일 분석에서, 단일염기다형성(single nucleotide polymorphisms; SNPs); 작은 삽입 및 결실(small insertions and deletions; Indels)); 탠덤 염기 돌연변이(tandem base mutations; TBM); 복제수 변이(copy number variations; CNVs); 구조적 변이(structural variations; SVs) 및 이들의 조합을 하나 또는 그 이상 포함하는 광범위한 범위의 게놈 변이의 검출을 가능하게 하는 종합적인 게놈 분석 방법 및 시스템을 제공한다. 상기 방법은 결찰된 태그 서열을 가지는 게놈 DNA 단편을 원형화하고(선택적으로 전위효소로 타그멘테이션함); 샷건 단편화에 의해 단편화하고 메이트-쌍 단편 및 샷건 단편을 시퀀싱하고; 샷건 및 메이트-쌍 단편 모두를 토대로 하여 게놈 변이를 결정하는 단계를 포함한다. 본 발명은 질병 및 상태에 있어서 복잡한 근본적인 유전적 결함들, 예를 들면, 자폐증(자폐 스펙트럼 장애(autism spectrum disorder(ASD)), 암, 알츠하이머 질환(Alzheimers disease) 및 기타 신경 장애(neurological disorders)를 분석하는 데 사용될 수 있다.

Description

원형화된 메이트-쌍 라이브러리와 샷건 시퀀싱을 이용한 게놈 변이 검출 방법
본 발명은 원형화된 메이트-쌍 라이브러리와 샷건 시퀀싱을 이용한 게놈 변이 검출 방법에 관한 것이다.
본 국제 출원은 2015년 4월 2일에 출원된 미국 가출원 62/142,088호를 우선권 주장의 기초로 하며, 상기 미국 가출원은 그 전체가 본 출원에 참고로 포함된다.
유전적 변이는 단일 뉴클레오티드 치환으로부터 대규모 구조적 변이에 이르기까지 모든 수준의 인구집단에서 발생하는 것으로 알려져 있다. 많은 게놈 변이(genomic variations)는 다양한 인간 특성의 정상적 표현형 변이를 나타내는 반면 일부 변이는 질병과 연관되어 있다. 그러나, 질병 관련 유전적 변이를 검출하고 특성화하는 것은 기술적으로 상당히 어려운 것이며 자폐증 같은 복잡한 질병인 경우에는 특히 더욱 그러하다.
자폐 스펙트럼 장애(autism spectrum disorders(ASD), 이하 'ASD')는 의사소통이나 사회적 교류의 어려움 또는 결핍으로 특징되는 신경발달 질환이다. 질병 관리 센터에 따르면, ASD 진단률은 2000년 이후 어린이 150명 당 1명에서 2014년에는 68명 당 1명으로 급격히 증가하였다. 진단 기준은 행동 장애 및 중증도를 포함하여 광범위한 증상을 망라하며, 환자들은 종종 간질과 같은 기타 신경 정신 장애로 진단되기도 한다. 최근까지도 ASD의 거의 모든 경우는 그 근본적인 질병 경로가 알려진 바가 없다.
최근 연구에 따르면, ASD 및 관련 장애가 커다란 염색체 변경이나 단일 뉴클레오티드 변이체(single nucleotide variants(SNV))의 형태를 가지는 신규(de novo) 또는 드문 유전 변이와 관련될 수 있음을 밝힌 바 있다(Carter and Scherer, Clin. Gen., 83:399-407, 2013; Jiang et al., Am. J. Hum. Gen., 93:249-263, 2013; Pinto et al., Am. J. Hum. Gen. 94:677-694, 2014; Rosti et al., Dev. Med. and Child Neurol., 56:12-18, 2014). 현재 진단 도구로는 환자의 DNA에서 염색체 결실 및 복제와 같은 복제수 변이를 동정하는 정렬비교유전자교합법(array Comparative Genome Hybridization; aCGH)를 들 수 있다. 보다 최근에는, ASD(유전자 패널 테스트)와 관련된 약 50 개의 상이한 유전자에 있는 구체적인 단일 뉴클레오티드 변이(SNV) 및 작은 삽입 및 결실(small insertions and deletions; indels))을 동정할 수 있는 분석법들이 개발되었다.
그러나, aCGH 및 유전자 패널 검사는 상이하고 양립할 수 없는(incompatible) 기술을 사용하여 별도로 실행해야 한다(예, DNA 혼성화 vs. DNA 시퀀싱). 또한, 기존의 유전자 패널 테스트는 특정 유전자 및 관심 질병 또는 증상(예, ASD) 사이의 공지되거나 잠재적인 관련성에 의해 제한되며, 관심 질병 또는 증상에 대한 공지 또는 아직 미공지의 모든 관련 유전자들에 있어서 이러한 작은 돌연변이들을 동정할 수 있는 종합적이고도 편향되지 않은 접근법을 꼭 대표한다고 할 수는 없다.
예를 들면, 최근 ASD 및 대두증(macrocephaly)을 가진 어린이들이 PTEN 유전자에 돌연변이를 가질 수 있음이 밝혀졌다. 또한, PTEN의 돌연변이는 갑상선암, 유방암, 및 피부암을 포함하여 수많은 유형의 암 발생의 위험을 상당히 증가시킨다. 따라서, 신속한 종양의 동정이 예후 개선에 필수적이라는 점을 고려할 때, PTEN의 돌연변이를 보유하고 있는 어린이들은 이른 유년기에 암 스크리닝을 받아야 한다. POLG과 같은 다른 자폐증 위험 유전자의 돌연변이는 발프로산 같은 의약품의 독성의 위험을 야기할 수 있다. 실제로, 이러한 위험 요소들의 동정은 이들 어린이 집단에서 부작용을 최소화하는 데 있어 아주 중요하다.
더욱이, 최근 들어 훨씬 더 많은 유전자가 ASD와 관련이 있는 것으로 밝혀졌으나 이들 유전자는 아직 유전자 시퀀싱 패널들에게 제공되지는 않은 상태다. 예를 들면, 최근 KCNQ2(Jiang et al., 2013)의 돌연변이가 자폐증과 관련이 있음이 밝혀졌으나 이는 궁극적으로 미래에 개인적 치료방법을 위한 하나의 목표가 될 수 있으며, 이는 Kv7 채널 오프너가 장차 궁극적으로 자폐증의 개인적 치료를 위한 하나의 목표가 될 수 있음을 제시한다(Rundfeldt and Netzer, 2000). 이 유전자는 그러나 현재 유전자 패널 테스트에서는 유용가능하지 않다.
최근의 고속 DNA 시퀀싱 기술의 발달로 인해 ASD 및 기타 환자들의 전체 게놈 분석이 가능해졌다. 가능한 전략 중 하나는, 모든 SNP를 동정하기 위하여 전체 게놈 샷건 또는 엑솜(exome) 시퀀싱을 수행하고, 환자 게놈의 모든 SV를 동정하기 위하여 긴 단편 쌍-말단-태그(paired-end-tag) 시퀀싱을 수행하는 것이다. 이러한 접근법들을 조합하면 모든 게놈 변이들을 동정할 수 있을 것으로 생각된다. 그러나, 이를 위해서는 수많은 실험과 분석 파이프라인이 필요하며 이는 많은 시간과 자원을 필요로 한다.
이상적인 전략은 하나의 환자로부터 단일 DNA 라이브러리를 구축하여 단일 시퀀싱을 수행함으로써 하나의 데이터 분석 파이프라인에서 유전자 SNP 호출(genic SNP calls; 현재 유전자 패널 시퀀싱으로 수행), CNV(현재 aCGH로 수행) 및 SVs(현재 큰 단편 PET 시퀀싱으로 수행)를 위한 필요한 데이터를 생성하는 것이다.
따라서, aCGH 또는 시퀀싱에 의해 CNV를 동정하는 능력을 제한적이고 목표로 하는 시퀀싱 플랫폼과 조합하여 보다 효율적이고(시간과 비용면) 종합적인 단일 분석법으로 만드는 기술은 ASD 분자 진단의 새로운 표준 진료가 될 수 있을 것이다.
본 발명은 원형화된 메이트-쌍 라이브러리와 샷건 시퀀싱을 이용한 게놈 변이 검출 방법을 제공하기 위한 것이다.
이하 기재된 본 발명의 방법들 및 시약들은 단일 분석에서(인간 ASD 환자들을 포함하나 이에 국한되지 않음) 숙주 게놈에서 광범위한 범위의 게놈 변이의 검출을 가능케 하는 전체 게놈 분석 기술을 제공한다.
본 발명의 방법들은 단일 뉴클레오티드 변이(SNV), 마이크로 인델(micro-indels), 복제수 변이(copy number variations; CNVs) 및 탠덤 복제(tandem duplication), 전위(transversions) 및 전좌(translocations)와 같은 대규모 구조적 변이들(structural variations; SVs)을 포함하는 크고 작은 게놈 변이를 모두 하나의 통일된 분석법으로 동정한다. 이들은 기타 노동 집약적인 전통적 세포 유전 분염법(cytogenetic bainding techniques)을 통해서도 탐색할 수 있지만, 이들 중 많은 변이들은 aCGH 또는 타겟된 시퀀싱 패널로는 동정할 수 없다.
본원에 기재된 본 발명의 임상적 유용성은 전통적인 aCGH 및 유전자 패널 테스트를 대체하고, ASD와 암 및 많은 유전적 유전장애와 같은 유전병의 분자학적 진단에 대한 새로운 표준의 출현을 촉진시킬 수 있는 잠재력에 있다. 또한, 본 발명의 방법들은 중개 연구(translational research) 뿐 아니라 환자들을 위한 활용성 측면에서도 훨씬 풍부한 데이터를 제공할 수 있다.
예를 들면, 상기 방법들을 이용하여 얻은 임상 및 유전적 데이터들은 위험한 상태에 있는 유아를 동정하고, 임상적 결과를 예측하며, ASD 및 암과 같은 질병들과 상태들에 대한 치료 요법들을 개발하는 데 사용할 수 있다. 본 발명의 방법들로부터 얻은 데이터들 및 임상적 환자 데이터들은 관련 임상 및 유전 정보의 통합적이고 종합적이며 조사가능한 저장소로서 역할을 할 수 있는 전자적 및/또는 온라인 데이터베이스에 저장할 수 있다. 이러한 데이터베이스는 인구통계(demographics), 환자 및 가족력, 동반질환(co-morbidities)의 유무 및 특이 형태(dysmorphic features) 등을 포함한 환자에 대한 적절한 이학적 소견들(pertinent physical findings)을 포함한, 그러나 이에 국한되지 않는, 환자 기초 정보(baseline information)를 포함할 수 있다. 마이크로 어레이 및 기타 다른 유전적 또는 대사 검사 데이터의 결과를, 유용가능/응용가능한 기능 및 행동 평가와 MRI 및 EEG 결과와 더불어 상기 데이터베이스에 추가할 수도 있다. 고유 환자 동정자는 외부 분석 결과를 상기 연구 데이터베이스에 포함시킬 수 있도록 매칭 기준으로 사용될 수 있다.
데이터베이스를 위한 데이터 관리는 자동화된 생물 정보학 작업 흐름을 론칭하는 능력 뿐 아니라 샘플 및 관련 품질관리(QC)를 추적하는 HIPAA에 따르는 액세스 데이터베이스 및 명확성 LIMS(Clarity LIMS)에 의해 촉진될 수 있다.
따라서, 한 양태에서 본 발명은 (1) 복수의 게놈 DNA 단편을 만들기 위해 유기체의 게놈 DNA를 단편화하고; (2) 상기 게놈 DNA 단편의 말단을 태그 서열로 태그하고; (3) 결찰된 태그 서열을 가지는 복수의 원형화된 게놈 DNA 단편을 만들기 위해 블런트_말단 분자내 결찰을 촉진하는 조건 하에서 상기 게놈 DNA 단편의 태그된 말단을 결찰하고; (4) 복수의 원형화된 게놈 DNA 단편을 샷건 단편화에 의해 단편화하여, (a) 각각이 플랭킹 게놈 DNA에 의해 플랭크된 결찰된 태그 서열을 포함하는, 복수의 메이트-쌍 (MP) 단편; 및 (b) 복수의 샷건 (SG) 단편을 만들고; (5) 상기 MP 단편 및 상기 SG 단편의 서열들을 결정하고; 및 (6) 상기 SG 단편의 서열들과 상기 MP 단편의 서열들을 토대로 상기 유기체의 게놈에서 상기 게놈 변이를 동정해 내는 단계를 포함하는, 유기체의 게놈에서 게놈 변이를 검출하는 방법을 제공한다.
특정 구현예에 있어서, 상기 게놈 변이는 단일 뉴클레오티드 다형성(single nucleotide polymorphisms; SNPs); 작은 삽입 및 결실(small insertions and deletions; indels); 탠덤 염기 돌연변이(tandem base mutations; TBM); 복제수 변이(copy number variations; CNVs); 구조적 변이(structural variations; SVs) 및 이들의 조합을 하나 또는 그 이상 포함할 수 있다.
특정 구현예에 있어서, 상기 (1) 단계와 (2) 단계는 동시에 수행될 수 있다.
특정 구현예에 있어서, 상기 (1) 단계와 (2) 단계는 트랜스포존-매개된 타그멘테이션(tagmentation)에 의해 영향받을 수 있다. 예를 들면, 상기 트랜스포존-매개된 타그멘테이션는 Tn5 전위효소를 사용하여 수행할 수 있다.
특정 구현예에 있어서, 상기 복수의 게놈 DNA 단편은 (3) 단계 이전에 크기가 선택될(size-selected) 수 있다. 특정 구현예에 있어서, 약 4 내지 10 kb 또는 약 6 내지 8 kb 크기의 게놈 DNA 단편이 선택될 수 있다.
특정 구현예에 있어서, 비원형화되거나 또는 선형 게놈 DNA 단편은(4) 단계 내지 (6) 단계 이전에 DNA 엑소뉴클레아제 절단에 의해 제거될 수 있다.
특정 구현예에 있어서, 상기 MP 단편과 상기 SG 단편의 서열들은 별도로 결정되거나 동시에 결정될 수 있다.
특정 구현예에 있어서, 상기 SG 단편은 평균 약 400 bp, 450 bp, 또는 500 bp일 수 있다. 특정 구현예에 있어서, 상기 MP 단편은 평균 약 400 bp, 450 bp, 또는 500 bp일 수 있다.
특정 구현예에 있어서, 상기 MP 단편과 상기 SG 단편은 (5) 단계 이전에 서로 단리될 수 있다.
특정 구현예에 있어서, 상기 MP 단편과 상기 SG 단편은 (5) 단계 이전에 서로 단리되지 않을 수 있다.
특정 구현예에 있어서, 상기 게놈 DNA 단편의 태그된 말단은 (3) 단계 이전에 블런트 말단 결찰을 촉진하기 위하여 복구될 수 있다.
특정 구현예에 있어서, 상기 (6) 단계는 상기 플랭킹 게놈 DNA의 서열과 상기 샷건 단편의 서열을 상기 유기체의 게놈 서열에 매핑하는 것을 포함할 수 있다.
특정 구현예에 있어서, 상기 게놈 DNA의 서열은 고속(high-throughput) 시퀀싱에 의해 결정될 수 있다. 예를 들면, 상기 고속(high-throughput) 시퀀싱은 단일 분자 실시간 시퀀싱; 이온 반도체(이온 토렌트) 시퀀싱; 파이로시퀀싱(454); 합성에 의한 시퀀싱(Illumina); 결찰에 의한 시퀀싱(SOLiD sequencing); 폴로니 시퀀싱(polony sequencing); 대규모 병렬 시그니처 시퀀싱(parallel signature sequencing)(MPSS); DNA 나노볼 시퀀싱(nanoball sequencing); 단일 분자 나노기공
시퀀서(single molecule nanopore sequencer) 및 헬리스콥 단일 분자 시퀀싱(Heliscope single molecule sequencing)로 구성된 그룹에서 선택된 방법일 수 있다.
특정 구현예에 있어서, 상기 고속(high-throughput) 시퀀싱은 상기 플랭킹 게놈 DNA 및/또는 상기 샷건 단편의 30-, 40-, 50-, 60-, 70-, 80-, 90-, 100- 또는 그 이상의 배수 범위(fold of coverage)를 포함할 수 있다.
특정 구현예에 있어서, 상기 유기체는 인간, 비인간 영장류, 포유류, 설치류(쥐, 생쥐, 햄스터, 토끼), 가축(소, 돼지, 말, 양, 염소), 조류(닭), 파충류, 양서류(제노퍼스(Xenopus)), 어류(제브라피시(zebrafish(다니오 레리오(Danio rerio)), 복어(puffer fish)), 곤충류(초파리(Drosophila), 모기), 선충, 기생충, 진균(맥주 효모(S. cerevisae) 또는 분열 효모(S. pombe)와 같은 효모), 식물, 박테리아, 또는 바이러스일 수 있다.
특정 구현예에 있어서, 상기 유기체는 자폐증(자폐 스펙트럼 장애(autism spectrum disorder; ASD)), 암, 또는 유전병(hereditary disease)으로 구성된 군에서 선택되는 질병이나 상태를 가진 인간일 수 있다.
이하 실시예 부분에 기재되었거나 또는 본 발명의 일 양태 하에서만 기재된 것을 포함하여, 본 발명에 기재된 모든 구현예들은 특별히 부인되거나 달리 부적절한 것이 아니라면 임의의 하나 이상의 다른 구현예와 결합될 수 있는 것으로 이해하여야 한다.
도 1a 및 도 1b는 본 발명의 방법들을 사용하여 SNP 및 작은 Indel을 검출하는 대표적 결과를 보여준다.
도 2는 본 발명의 방법들을 사용하여 환자 샘플 P46107에서 동형접합성 결실(homozygous deletion)(CNV)을 검출하는 대표적 결과를 보여준다.
도 3은 본 발명의 방법들을 사용하여 환자 샘플 P46107에서 이형접합성 결실(heterozygous deletion)(CNV)을 검출하는 대표적 결과를 보여준다.
도 4는 본 발명의 방법들을 사용하여 역위(inversion) 및 염색체내 직접 정방향 삽입(intra-chromosomal direct forward insertion; 양 SVs)의 검출을 나타내는 개략도이다.
도 5는 본 발명의 방법들을 사용하여 오직 MP 서열 데이터에 의하여 역위(SV)를 검출하는 대표적인 결과를 보여준다.
도 6은 본 발명의 방법들을 사용하여 염색체내 전좌(translocation; SV)를 검출하는 대표적인 결과를 보여준다.
도 7은 본 발명의 방법들을 사용하여 염색체간 전좌(inter-chromosomal translocation; SV)를 검출하는 대표적인 결과를 보여준다.
도 8a 내지 도 8c는 염색체 번호 17(Ch. 17) 상의 복잡한 부위(complex region)에서 SV 검출을 보여준다.
1. 개요
이하 기재된 본 발명은 고유하게 제작된 게놈 DNA 라이브러리의 시퀀싱을 통하여 하나의 DNA 샘플로부터 모든 유형의 유전적 변이를 신속하고 효율적으로 확인하는 수단을 제공한다.
따라서, 한 양태에서, 발명은 (1) 복수의 게놈 DNA 단편을 만들기 위해 유기체의 게놈 DNA를 단편화하고; (2) 상기 게놈 DNA 단편의 말단을 태그 서열로 태그하고; (3) 결찰된 태그 서열을 가지는 복수의 원형화된 게놈 DNA 단편을 만들기 위해 블런트_말단 분자내 결찰을 촉진하는 조건 하에서 상기 게놈 DNA 단편의 태그된 말단을 결찰하고; (4) 복수의 원형화된 게놈 DNA 단편을 샷건 단편화에 의해 단편화하여, (a) 각각이 플랭킹 게놈 DNA에 의해 플랭크된 결찰된 태그 서열을 포함하는, 복수의 메이트-쌍 (MP) 단편; 및 (b) 복수의 샷건 (SG) 단편을 만들고; (5) 상기 MP 단편 및 상기 SG 단편의 서열들을 결정하고; 및 (6) 상기 SG 단편의 서열들과 상기 MP 단편의 서열들을 토대로 상기 유기체의 게놈에서 상기 게놈 변이를 동정해내는 단계를 포함하는 유기체의 게놈에서 게놈 변이를 검출하는 방법을 제공한다.
상기 언급된 단계는 위에 나열된 순서 그대로 수행할 필요는 없다. 그 대신, 예를 들면, 단계 (1)과 (2)는 동시에 한 단계로 수행할 수 있다.
본 발명의 방법은 임의의 유기체, 바람직하기로는 수많은 고세균(archaeal) 또는 진정 세균(eubacterial), 진균 (예, 맥주 효모(S. cerevisiae) 또는 분열 효모(S. pombe)), 식물, 동물 게놈들을 포함하는 완전하거나 실질적으로 완전한 게놈 서열을 가지는 유기체에서 유전적 변이를 검출할 수 있다. 예를 들면, 인간, 생쥐 및 무수한 기타 포유류 및 비포유류 종들의 게놈 서열들은 현재 공공 도메인에서 용이하게 사용가능하다 (참조, 예; Venter et al., The Sequence of the Human Genome, Science, 291(5507): 1304-1351, 2001.) 기타 비제한적 공지 게놈으로서는 무수한 비인간 영장류, 포유류, 설치류(쥐, 생쥐, 햄스터, 토끼 등), 가축(소, 돼지, 말, 양, 염소), 조류(닭), 파충류, 양서류(제노퍼스(Xenopus)), 어류(제브라피시(zebrafish(다니오 레리오(Danio rerio)), 복어(puffer fish)), 곤충류(초파리(Drosophila), 모기), 선충, 기생충, 진균(맥주 효모(S. cerevisae) 또는 분열 효모(S. pombe)와 같은 효모), 다양한 식물, 바이러스(숙주 게놈에 통합된 것) 등을 포함할 수 있다.
특정 구현예에 있어서, 상기 유기체는 자폐증(자폐 스펙트럼 장애(autism spectrum disorder(ASD)), 암, 알츠하이머 질환(Alzheimers disease), 기타 신경학적 장애, 또는 유전병(hereditary disease)으로 구성된 군에서 선택되는 질병이나 상태를 가진 인간일 수 있다.
본 발명의 방법은 단일 뉴클레오티드 다형성(single nucleotide polymorphisms; SNPs); 작은 삽입 및 결실(small insertions and deletions; Indels); 탠덤 염기 돌연변이(tandem base mutations; TBM); 복제수 변이(copy number variations; CNVs); 구조적 변이(structural variations; SVs) 및 이들의 조합을 포함하는, 그러나 이에 국한되지 않는, 무수한 유형의 유전적 변이를 검출하는 데 사용될 수 있다.
이러한 유전적 변이는 하나 이상의 상이한 기술을 사용하여 확인하여야 하며, 상이한 검출 방법들을 여러 번 수행하기 위해서 거의 예외없이 환자의 복수 개의 샘플 또는 대형 샘플을 필요로 한다.
본 명세서에서 사용되는 용어 "단일 뉴클레오티드 다형성(single nucleotide polymorphisms; SNPs)"은 게놈(또는 기타 공유된 서열)에서 단일 뉴클레오티드 - A, T, C, 또는 G-가 생물학 종(species) 또는 쌍으로 된 염색체들 사이에 차이가 있는 군집(population) 내에서 공통적으로 발생하는 DNA 서열 변이를 의미한다.
특정 구현예에 있어서, 상기 SNP는 유전자의 비-암호화 부위(예; 전사 인핸서, 서프레서, 프로모터)에 있을 수 있다. 또 다른 구현예에 있어서, 상기 SNP는 유전자의 암호화 부위(예; 오픈 리딩 프레임(open reading frame))에 있을 수 있다. 또 다른 구현예에 있어서, 상기 SNP는 두 인접한 유전자 사이의 유전자간 부위일 수 있다. 특정 구현예에 있어서, 상기 SNP는 엑손(exon)에 위치할 수 있다. 특정 구현예에 있어서, 상기 SNP는 인트론(intron)에 위치할 수 있다. 특정 구현예에 있어서, 상기 SNP는 암호화 부위에 위치하며 암호화된 아미노산(동의(synonymous) SNP)를 변경하지 않는 잠재성 돌연변이(silent mutation)일 수 있다. 관련 구현예에 있어서, 상기 SNP는 암호화 부위에 위치하며 과오 돌연변이(missense mutation) 또는 넌센스 돌연변이(nonsense mutation; 비동의(nonsynonymous) SNP))일 수 있다. 특정 구현예에 있어서, 상기 SNP는 어느 한 종(species, 예, 특정 인종, 종족(ethnic group), 인간 종교 또는 신앙 집단 또는 특정 지리적 위치에 한정된 집단의 선택된 군집에서 발생할 수 있다. 특정 구현예에 있어서, 상기 SNP는 특정 질환이나 상태(예; 겸상 적혈구 빈혈증(Sickle-cell anemia), 지중해 빈혈(Thalassemia), 알츠하이머 질환(Alzheimer disease), 암, 하악골의 이형성증(mandibuloacral dysplasia), 전립성 증후군(progeria syndrome) 또는 낭포성 섬유증(cystic fibrosis)와 관련되거나, 또는 질환이나 상태와 관련한 고위험 요인을 나타낼 수 있다. 특정 구현예에 있어서, 상기 SNP는 상이한 약물의 대사와 관련될 수 있다. 특정 구현예에 있어서, 상기 SNP는 단백질 암호화 부위에 위치하지 않으며 유전자 스플라이싱(gene splicing), 전사인자 결합, 메신저 RNA 분해, 또는 비-암호화 RNA(ncRNA)의 서열에 영향을 미칠 수 있다. 상기 SNP는 상기 영향받은 유전자의 상부 또는 하부에 위치할 수 있다. 특정 구현예에 있어서, 상기 SNP는 이대립유전자(biallelic)일 수 있다. 특정 구현예에 있어서, 상기 SNP는 3 개 또는 그 이상의 대립유전자 변이를 가지는 다수 대립유전자(multi-allelic)일 수 있다. 특정 구현예에 있어서, 상기 SNP는 NCBIs dbSNP(2014년 10월 현재 1억 1천 2백만 인간 SNPs 보유)에 열거된 SNPs 중 임의의 하나일 수 있다. 특정 구현예에 있어서, 상기 SNP는 주어진 군집(예; 전체 인구 집단, 한 국가 또는 지리적 위치의 인간 집단, 또는 인종, 종족 등)의 50%, 40%, 30%, 20%, 10%, 5%, 2%, 1%, 0.5%, 0.2%, 0.1%, 0.05%, 0.01% 이내에서 발생할 수 있다.
본 명세서에서 사용되는 용어 '인델(indel)'은 어느 한 유기체의 DNA에서 염기의 삽입 및/또는 결실, 특히 단지 몇 개의 염기(예; .g., 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 25, 30, 35, 40, 45, 50 등)의 삽입 및/또는 결실을 의미할 수 있다. 특정 구현예에 있어서, 상기 Indel은 암호화 부위에서의 틀이동 돌연변이(frame-shift mutation)를 발생시키지는 않는다. 특정 구현예에 있어서, 상기 Indel은 틀이동 돌연변이(frame-shift mutation) 또는 조기종료 코돈(pre-mature stop codon)을 발생시키지 않거나 또는 자연적 정지 코돈을 제거할 수 있다.
본 명세서에서 사용되는 용어 "탠덤 염기 돌연변이(tandem base mutations; TBM)"는 인접한 두 뉴클레오티드 또는 인접한 세 뉴클레오티드 등과 같이 인접 뉴클레오티드에서의 치환을 의미한다.
본 명세서에서 사용되는 용어 "복제수 변이(copy number variations; CNVs)"는 대체적으로 DNA의 하나 이상의 섹션의 복제수에 있어서 비정상적 또는, 특정 유전자에 있어서, 정상적 변이를 야기하는 게놈의 DNA의 구조적 변이 형태를 의미한다. "CNV"는 특정 염색체에서 결실(정상 수 보다 적음)되거나 복제되거나(duplicated)/다복제된(multiplicated, 예; 정상 복제수 2보다 큼) 게놈의 비교적 큰 부위에 해당한다. 특정 구현예에 있어서, 상기 CNV는 유전자의 복제수를 증가시킬 수 있다. 또 다른 구현예에 있어서, 상기 CNV는 유전자의 복제수를 감소시킬 수 있다. 특정 구현예에 있어서, 상기 CNV에 관여하는 게놈 부위는 최소한 약 1 kb, 2 kb, 5 kb, 10 kb, 20 kb, 50 kb, 100 kb, 200 kb, 500 kb, 750 kb, 1 mb, 2 mb, 5 mb 또는 그 이상일 수 있다. 특정 구현예에 있어서, 상기 CNV는 유전된 유전적 결함일 수 있다. 또 다른 구현예에 있어서, 상기 CNV는 한 개체에 있어서 신규로 제조되는 것(de novo)일 수 있다. 특정 구현예에 있어서, 상기 CNV는 형광 인 시투 교합법(fluorescent in situ hybridization), 비교유전자교합법(comparative genomic hybridization), 정렬비교유전자교합법(array comparative genomic hybridization(aCGH)) 및 SNP 정렬을 포함하는 염색체분석(karyotyping)과 같은 세포 유전학적 기술에 의해 검출될 수 있다. 특정 구현예에 있어서, 상기 CNV는 단일 유전자에 영향을 미칠 수 있다. 또 다른 구현예에 있어서, 상기 CNV는 둘 또는 그 이상의 유전자에 영향을 미칠 수 있다. 특정 구현예에 있어서, 상기 CNV는 질병 또는 상태(예; 원발성 폐암(NSCL cancer)과 같은 암, 전신 홍반 루푸스(SLE), 류마티스 관절염(rheumatoid arthritis), 감염성 자가면역 질환(inflammatory autoimmune disorder), 자폐증(autism), 조현병(schizophrenia) 또는 특발성 학습 장애( idiopathic learning disability)에 감수성 또는 저항성을 가지는 것으로 알려져 있다.
본 명세서에서 사용되는 용어 "구조적 변이(structural variation; SV 또는 게놈 구조 변이(structural variations; SVs))"는 유기체의 염색체의 구조에 있어서의 변이를 의미한다. 넓은 의미에 있어서, SV는 한 가지 종(species)의 게놈에서 많은 종류의 변이로 구성되어 있으며, 대체로 결실, 복제(탠덤 복제 등), 복제수 변이, 삽입(신규 서열의 삽입 및 이동성 요소 삽입(mobile element insertions(MEIs)), 역위(inversions), 홀역위(unpaired inversions) 및 전좌(translocations, 예; 단리 전좌 vs. 균형된 전좌))와 같은 현미경적 또는 초현미경적 유형을 포함한다. 특정 구현예에 있어서, SV는 CNV를 포함하지 않거나 또는 복제수 중립(copy number neutral)일 수 있다. 특정 구현예에 있어서, SV는 역위, 삽입(염색체간 직접 삽입, 염색체간 역위 삽입; 염색체내 직접 정방향 삽입; 염색체내 직접 역방향 삽입; 염색체내 역위 정방향 삽입; 염색체간 역위 역방향 삽입 등), 전좌, 염색체 재정렬, 링 염색체, 등 또는 이들의 조합(예; 결실 + 염색체내 직접 정방향 삽입; 결실 + 염색체내 역위 정방향 삽입)을 포함할 수 있다.
특정 구현예에 있어서, 상기 SV는 약 1 kb 내지 3 Mb 길이의 서열에 영향을 미치며, 이 길이는 SNP 보다는 크고 염색체 비정상보다는 작은 것이다. 구조적 변이의 정의는 빈도 또는 표현형적 결과에 대한 것을 내포하는 것이 아님에 유의해야 한다. 특정 구현예에 있어서, 상기 구조적 변이는 유전적 질환 또는 상태와 관련된 것일 수 있다. 다른 구현예에 있어서, 상기 구조적 변이는 공지의 유전적 질환 또는 상태와 관련되지 않을 수 있다. 특정 구현예에 있어서, 상기 SV는 이수성(aneuploidies), 마커 염색체(marker chromosome), 전체 재정렬(gross rearrangements) 및 염색체 크기의 변이와 같이 광학 현미경으로 검출될 수 있다. 특정 구현예에 있어서, 상기 SV는 역위, 불명확한 전좌(cryptic translocation), 또는 분절성 편친 이염색체성(segmental uniparental disomy)일 수 있다. 특정 구현예에 있어서, 상기 SV는 게놈 또는 생물정보 데이터베이스 목록에 게재되어 있을 수 있다.
특정 구현예에 있어서, 상기 게놈 변이는 반복 서열 상에, 이의 인접 부위에 또는 반복서열이 풍부한 부위에 위치할 수 있다.
특정 구현예에 있어서, 상기 타겟 DNA는 세포나 유기체의 전체 게놈을 포함하거나 이로 구성될 수 있다. 일부 구현예에 있어서, 상기 타겟 DNA는 게놈 및/또는 환경 샘플에 존재하는 복수 유기체(multiple organisms, 예; 동종의 복수 유기체 또는 상기 유기체들의 대표적 콜렉션(collection)의 이중가닥 cDNA를 포함하거나 이로 구성될 수 있다. 일부 구현예에 있어서, 상기 타겟 DNA는 게놈 및/또는 특정 조직이나 기관(예; 질환이나 장애 상태에 있는 것)으로부터의 이중가닥 cDNA를 포함하거나 이로 구성될 수 있다.
특정 구현예에 있어서, (1) 단계와 (2) 단계는 동시에 수행될 수 있다. 예를 들면, 게놈 DNA는 많은 통상적 기술 중 하나를 이용하여 (1) 단계에서 단편화될 수 있다. 일 구현예에 있어서, DNA 단편화는 음향 전단(acoustic shearing), 초음파처리, 또는 유체 역학 전단(hydrodynamic shearing)와 같은 물리적 수단을 사용하여 성취할 수 있다. 이후, 임의의 원하는 태그 서열을 상기 단편의 말단에 결찰시킬 수 있다. 선택적으로, 상기 단편의 말단은 블런트 말단 결찰에 적합한 블런트 말단을 만들기 위해 NA 폴리머라제 및/또는 엑소뉴클레아제를 우선 사용하여 복구될 수 있다.
본 명세서에서 사용되는 용어 "태그(tag)" 또는 "태그 서열(tag sequence)"은 핵산 단편을 이가 연결(join)되는 곳에 지정하는(addressing) 수단을 제공하는 비-타겟 핵산, 일반적으로 DNA를 의미한다. 예를 들면, 일부 구현예에 있어서, 하나의 태그는 상기 태그가 부착(예; DNA 폴리머라제에 의한 연장을 위한 프라이머와 같은 올리고뉴클레오티드 또는 포획(capture) 또는 결찰 반응을 위한 올리고뉴클레오티드의 어닐링 사이트를 제공함으로써)되는 DNA의 동정, 인식, 및/또는 분자적 또는 생화학적 조작을 허용하는 염기 서열을 포함할 수 있다. 상기 태그를 상기 DNA 분자에 연결되는 과정은 이하에서 종종 태깅(tagging)을 의미하며 태깅을 거치거나 태그를 포함하는 DNA는 태그된 것(예; 태그된 DNA)을 의미한다.
음향 전단 및 초음파처리는 DNA를 전단하는 데 사용되는 주요한 물리적 방법들이며 상업적으로 사용가능한 도구들을 이용하여 수행될 수 있다. 예를 들면, Covaris 도구(Woburn, MA)는 DNA를 100 bp - 5 kb 크기 범위의 단편으로 만들 수 있는 음향 기기이다. Covaris는 또한 대상(subject) 메이트-쌍 라이브러리용 6-20 kb의 샘플의 처리에 사용되는 튜브(gTubes)들을 제조한다. Bioruptor(Denville, NJ)는 게놈 단편들을 최대 1 kb의 길이로 만들기 위해 염색질 및 DNA를 전잔하는 데 적합한 초음파처리 기기이다. Digilab(Marlborough, MA)의 Hydroshear는 DNA의 전단을 위해 유체력(hydrodynamic forces)을 사용한다. 또한, 압축 공기를 사용하여 원자화하기 위해 분무기(Nebulizers; Life Tech, Grand Island, NY)를 사용할 수도 있으며, 이를 통해 DNA를 수 초 내에 100 bp - 3 kb 단편으로 전단할 수 있다.
특정 구현예에 있어서, 게놈 DNA 단편화는 DNase I 또는 기타 제한효소 또는 비특이성 뉴클레아제 또는 전위효소와 같은 효소적 수단을 사용하여 성취할 수 있다. DNA를 전단하여 작은 조각으로 만드는 효소적 방법들로는 DNAse I, 말토스 결합 단백질(MBP)-T7 Endo I와 비특이성 뉴클레아제 비브리오 불니피쿠스(Vibrio vulnificus; Vvn), NEBs(Ipswich, MA)의 조합, NEBs(Ipswich, MA) 프라그멘타제(Fragmentase) 및 Nextera 타그멘테이션 기술(Illumina, San Diego, CA)을 들 수 있다. 비특이성 뉴클레아제와 T7 Endo의 조합은 닉 부위(nick site)로부터 8개 또는 그 이하의 뉴클레오티드를 분리시키는(dissoicate) 비특이적 닉(nicks)과 카운터 닉(counter nicks)의 상승적 제조 효과를 야기한다.
반면에, 타그멘테이션는 이전된(transferred) 가닥들(예; 태그 서열 또는 어댑터)을 포함하는 트랜스포존 단부들이나 트랜스포존 조성물들을 전위효소를 사용하여 단편화함과 동시에 게놈 DNA와 같은 이중가닥 DNA에 삽입함으로써 단일 단계로서 상기 방법들의 (1)단계와 (2)단계를 동시에 수행할 수 있다(참조, 예; WO2010-048605A1, 전체 내용이 참조로 인용됨).
본 명세서에서 사용되는 용어 "전위효소(transposase)"는 트랜스포존 단부를 포함하는 조성물(예; 트랜스포존, 트랜스포존 단부, 트랜스포존 단부 조성물)을 가지는 기능적 복합체를 형성하고 상기 트랜스포존 단부를 포함하는 조성물을 이와 함께 인 비트로 전치 반응에서 배양되는 상기 이중가닥 타겟 DNA로 삽입 또는 전치(transposition)에 대한 촉매작용할 수 있는 효소이다.
"트랜스포존 단부(transposon end)"는 인 비트로 전치 반응에서 기능을 보이는 전위효소 또는 인테그라제(integrase) 효소를 가지는 복합체를 형성하는 데 필요한 염기서열들(상기 트랜스포존 단부 서열들)만을 나타내는 이중가닥 DNA를 의미한다. 트랜스포존 단부는 트랜스포존 단부를 인식하고 이에 결합하는 전위효소 또는 인테그라제와 "접합(synaptic) 복합체" 또는 "트랜스포좀(transposome) 복합체" 또는 "트랜스포좀 조성물"을 형성하며, 이들 복합체는 상기 트랜스포존 단부를 이와 함께 인 비트로 전치 반응에서 배양되는 상기 타겟 DNA로 삽입하거나 전치할 수 있다. 트랜스포존 단부는 "이전된 트랜스포존 단부 서열" 또는 "이전된 가닥" 및 "비-이전된 트랜스포존 단부 서열" 또는 "비-이전된 가닥"으로 구성되는 2 개의 상보적 서열을 나타낸다. 예를 들면, 인 비트로 전치 반응에서 활성을 가지는 고활성 Tn5 전위효소(예; EZ-Tn5 전위효소, EPICENTRE Biotechnologies, Madison, WI, USA)와 복합체를 형성하는 하나의 트랜스포존 단부는 이전된 트랜스포존 단부 서열(참조; 이하 참조로 인용된 WO2010048605의 서열 번호 1)과 비-이전된 트랜스포존 단부 서열을 나타내는 비-이전된 가닥(참조; 이하 참조로 인용된 WO2010048605의 서열 번호 2)을 나타내는 이전된 가닥을 포함한다.
이전된 가닥의 3'-말단은 인 비트로 전치 반응에서 타겟 DNA에 연결되거나 이전된다. 상기 이전된 트랜스포존 단부 서열에 상보적인 상기 비-이전된 가닥은 인 비트로 전치 반응에서 상기 타겟 DNA에 연결되거나 이전되지 않는다.
일부 구현예에 있어서, 상기 이전된 가닥과 비-이전된 가닥은 공유적으로 연결된다. 예를 들면, 일부 구현예에 있어서, 상기 이전된 가닥 서열과 비-이전된 가닥 서열은 단일 올리고뉴클레오티드(예; 머리핀 배열)에 제공된다. 이와 같이, 상기 비-이전된 가닥의 자유 말단은 상기 전치 반응에 의하여 상기 타겟 DNA에 직접 연결되지는 않지만, 비-이전된 가닥이 머리핀 구조의 고리에 의해 상기 이전된 가닥에 연결되므로, 상기 비-이전된 가닥은 상기 DNA 단편에 간접적으로 부착하게 된다.
"트랜스포존 단부 조성물(transposon end composition)"은 트랜스포존 단부(즉, 전치 반응을 수행할 수 있는 전위효소와 반응할 수 있는 최소한의 이중가닥 DNA 세그멘트)로서, 선택적으로 추가 서열이나 서열들을 포함하는 조성물을 의미한다. 상기 이전된 트랜스포존 단부 서열의 5'-말단 및/또는 상기 비-이전된 트랜스포존 단부 서열의 3'-말단. 예를 들면, 태그에 부착된 트랜스포존은 "트랜스포존 단부 조성물"이다. 일부 구현예에 있어서, 상기 트랜스포존 단부 조성물은 상기 "이전된 트랜스포존 단부 올리고뉴클레오티드" 또는 "이전된 가닥" 및 상기 "비-이전된 가닥 단부 올리고뉴클레오티드" 또는 "이전된 가닥"으로 구성된 2 개의 트랜스포존 단부 올리고뉴클레오티드를 포함하거나 또는 이들로 구성되며, 이들은 조합함으로써 상기 트랜스포존 단부의 서열들을 나타내며, 또한 이들 중 하나 또는 두 가닥 모두는 추가의 서열을 포함할 수 있다.
상기 용어들 "이전된 트랜스포존 단부 올리고뉴클레오티드" 및 "이전된 가닥"은 상호 교환적으로 사용될 수 있으며, "트랜스포존 단부들" 및 "트랜스포존 단부 조성물들" 모두의 상기 이전된 부분(즉, 상기 트랜스포존 단부가 태그 또는 기타 부분(moiety)에 부착여부와 무관함)을 의미한다. 마찬가지로, 상기 용어들 "비-이전된 트랜스포존 단부 올리고뉴클레오티드" 및 "비-이전된 가닥"은 상호 교환적으로 사용될 수 있으며, "트랜스포존 단부들" 및 "트랜스포존 단부 조성물들" 모두의 상기 이전된 부분을 의미한다.
일부 구현예에 있어서, 상기 트랜스포좀은 Tn5 전위효소, MuA 전위효소, Sleeping Beauty 전위효소, Mariner 전위효소, Tn7 전위효소, Tn10 전위효소, Ty1 전위효소 및 Tn552 전위효소로 구성된 군에서 선택된 야생형 또는 고활성 돌연변이형 전위효소와, 전치 반응에서 활성을 가지는 복합체를 형성하는 상기 전위효소와 복합체를 형성하는 트랜스포존 단부로 구성된 복합체일 수 있다.
일부 구현예에 있어서, 상기 전위효소는 Mu 트랜스포존 단부들(예; HYPERMU MuA 전위효소, EPICENTRE Biotechnologies, Madison, WI)을 포함하는 트랜스포존 단부들을 활용하는 Mu 전위효소일 수 있다. 일부 구현예에 있어서, 상기 이전된 가닥들의 3' 부분들은 Mu 트랜스포존 단부의 서열을 포함할 수 있고, 여기서 상기 이전된 가닥들의 5' 부분들은 Mu 트랜스포존의 것이 아닐 수 있다.
일부 구현예에 있어서, 상기 전위효소는 Tn5 트랜스포존 단부들(예; 야생형 또는 돌연변이 Tn5 전위효소, 예; EZ-Tn5 전위효소, EPICENTRE Biotechnologies, Madison, WI)을 포함하는 트랜스포존 단부들을 활용하는 Mu 전위효소일 수 있다. 일부 구현예에 있어서, 상기 이전된 가닥들의 3' 부분들은 Tn5 트랜스포존 단부의 서열을 포함할 수 있고, 여기서 상기 이전된 가닥들의 5' 부분들은 Tn5 트랜스포존의 것이 아닐 수 있다.
타그멘테이션(tagmentation)은 복수의 타겟 이중 가닥 DNA 단편들 및 이들 복수의 타겟 이중 가닥 DNA 단편들 각각의 5' 부분에 연결된 상기 트랜스포존의 이전된 가닥이나 트랜스포존 단부 조성물을 만들기 위해 상기 타겟 이중 가닥 DNA를 단편화하여 복수의 5'태그된 타겟 DNA 단편들을 제조할 수 있도록, 트랜스포좀이 작은 자유 DNA 단부들(5' 부분에 태그 영역을 가지는 이전된 가닥을 포함하는 트랜스포존 단부들 또는 트랜스포존 단부들)을 무작위로 타겟 이중 가닥 DNA(예; 게놈 DNA)에 삽입한다는 사실을 이용하는 변형된 전치 반응이다. 특정 구현예에 있어서, 상기 방법들은 핵산 변형 효소를 가지는 상기 5' 태그된 타겟 DNA 단편을, 3' 태그가 상기 5' 태그된 타겟 DNA 단편의 3' 말단에 연결된 조건 하에서 배양하는 단계를 추가로 포함하여, 이중 태그된(di-tagged) 타겟 DNA 단편을 제조하는 것일 수 있다. 상기 방법들은 임의의 핵산 변형 효소를 사용하는 것에 제한되지 않는다. 예를 들면, 핵산 변형 효소들은 폴리머라제, 뉴클레아제, 리가제 등을 포함할 수 있다. 일부 구현예에 있어서, 상기 핵산 변형 효소는 DNA 폴리머라제를 포함하고, 상기 3' 태그는 상기 5' 태그된 타겟 DNA 단편의 3' 말단을 확장함으로써 형성될 수 있다.
다시 말하면, 타그멘테이션는 예를 들어 PCR 프라이머 사이트, 시퀀싱 프라이머 사이트 및/또는 기타 상기 태그된 게놈 DNA의 단리 또는 정제를 용이하게 할 수 있는 부분들(moieities)을 포함하는 태그/어댑터/링커 서열을 추가하면서 동시에 상기 타겟 이중 가닥 DNA를 효과적으로 단편화한다.
일부 구현예에 있어서, 상기 태그 서열은 하나 또는 그 이상의 제한 부위 영역, 캡쳐 태그 영역, 시퀀싱 태그 영역, 증폭 태그 영역, 검출 태그 영역, 주소 태그 영역 및/또는 전사 프로모터 영역을 포함할 수 있다.
본 명세서에서 사용되는 용어 "캡처 태그 영역(capture tag domain)" 또는 "캡처 태그(capture tag)"는 상기 태그 영역이 연결된 DNA 단편의 캡처를 용이하게 할 목적의 서열을 나타내는 태그 영역(예; 비드 또는 기타 표면(예; 비드 또는 마이크로 칩 또는 마이크로 어레이 또는 시퀀싱 비드 상의 프로브와 같은 표면에 있는 특정 서열에 어닐링함으로써 상기 태그 영역 서열의 어닐링 사이트가 캡처를 허용함) 상에 상기 태그된 DNA 단편들을 캡쳐하기 위한 어닐링 사이트 또는 친화성(affinity) 태그를 제공함)을 의미한다. 일부 구현예에 있어서, 상기 캡처 태그 영역은 친화성 결합 분자(예; 상기 이전된 가닥의 5' 부분이 상기 태그된 DNA 단편들의 캡처를 표면 상에 허용하는 바이오틴, 스트렙타비딘(streptavidin), 항원, 또는 항원에 결합하는 항체와 같은 제 1 친화성 결합 분자에 연결되는 상기 이전된 가닥을 포함하거나 이로 구성되며, 상기 제 1 친화성 결합 분자와 특정 결합 쌍을 형성하는 제 2 친화성 결합 분자가 부착됨)를 포함하거나 이로 구성되는 화학 그룹이나 부분(moiety)에 연결되는 상기 이전된 가닥의 5' 부분을 포함할 수 있다.
예를 들면, 트렌스포좀에 의해 사용되는 상기 태그 서열은 상기 태그된 게놈 단편들을 스트렙타비딘 비드를 이용하여 단리할 수 있도록 바이오틴화된 접합 어댑터(junction adaptor)를 포함할 수 있다.
본 명세서에서 사용되는 용어 "시퀀싱 태그 영역(sequencing tag domain)" 또는 "시퀀싱 태그(sequencing tag)"는 상기 태그가 연결되는 DNA 단편의 시퀀싱을 용이하게 할 목적(예; 합성에 의한 시퀀싱을 위한 프라이밍 사이트를 제공하거나 또는 결찰에 의한 시퀀싱을 위한 어닐링 사이트를 제공하거나 또는 혼성화에 의한 시퀀싱을 위한 어닐링 사이트를 제공함)의 서열을 나타내는 태그 영역을 의미한다.
일부 구현예에 있어서, 상기 시퀀싱 태그 영역은 Roche 454A 및 454B 시퀀싱 태그들, ILLUMINA SOLEXA 시퀀싱 태그들, Applied Biosystems SOLID 시퀀싱 태그들, the Pacific Biosciences SMRT 시퀀싱 태그들, Pollonator 폴로니 시퀀싱(polony sequencing) 태그들, 또는 the Complete Genomics 시퀀싱 태그들로부터 선택된 시퀀싱 태그들을 포함하거나 이들로 구성될 수 있다.
본 명세서에서 사용되는 용어 "증폭 태그 영역(amplification tag domain)"은 상기 태그가 추가되는 핵산의 증폭을 용이하게 할 목적의 서열을 나타내는 태그 영역을 의미한다. 예를 들면, 일부 구현예에 있어서, 상기 증폭 태그 영역은 DNA 폴리머라제를 사용하여 핵산 증폭 반응(예; PCR 증폭 반응 또는 가닥 변위(strand-displacement) 증폭 반응 또는 롤링써클(rolling circle) 증폭 반응)을 위한 프라이밍 사이트 또는 핵산 증폭 반응(예; 결찰 연쇄 반응(ligation chain reaction))에서 주형-의존성 리가제를 사용하여 프로브의 결찰을 위한 결찰 주형을 제공할 수 있다.
일부 구현예에 있어서, 상기 방법들은 하나 또는 그 이상의 태그된 타겟 DNA 단편들 및/또는 이중 태그된(di-tagged) 타겟 DNA 단편들을 추가로 포함할 수 있다. 일부 구현예에 있어서, 상기 증폭은 하나 또는 그 이상의 PCR 증폭 반응, 가닥 변위(strand-displacement) 증폭 반응, 롤링써클(rolling circle) 증폭 반응), 결찰 연쇄 반응(ligation chain reaction), 전사-매개(transcription-mediated) 증폭 반응, 또는 루프-매개(loop-mediated) 증폭 반응을 사용할 수 있다. 특정 구현예에 있어서, 증폭은 DNA 단편 라이브러리의 태그된 타겟 DNA 단편들이나 또는 DNA 단편 라이브러리의 이중 태그된(di-tagged) 타겟 DNA 단편들을 비선택적으로 증폭하는 것을 포함할 수 있다.
본 명세서에서 사용되는 용어 "주소 태그 영역(address tag domain)" 또는 "주소 태그(address tag)"는 특정 샘플(예; 상기 이전된 가닥이 각 샘플에 대하여 상이한 서열을 나타내는 상이한 주소 태그 영역을 가짐)의 동정을 허용하는 서열을 나타내는 태그 영역을 의미한다.
두 트랜스포좀은 동 몰비에서 혼합할 수 있으며, 각각은 PCR / 시퀀싱 사이트들을 포함하는 2 개의 작은 자유 DNA 단부 중 하나를 가진다. 즉, 일부 구현예에 있어서, 상기 방법은 상기 타겟 DNA를 제 1 전위효소와 제 1 트랜스포존 단부 올리고뉴클레오티드 및 제 2 전위효소와 제 2 트랜스포존 단부 올리고뉴클레오티드를 동일한 반응 혼합물에서 동시에 배양하는 것을 포함할 수 있다. 또 다른 구현예에서, 상기 방법은 상기 제 1 전위효소와 제 1 트랜스포존 단부 올리고뉴클레오티드를 우선 배양한 후 이의 반응 생산물들을 상기 제 2 전위효소 및 제 2 트랜스포존 단부 올리고뉴클레오티드와 배양하여 순차적으로 수행하는 것일 수 있다. 상기 방법을 순차적으로 수행하는 일부 구현예에 있어서, 상기 타겟 DNA와 상기 제 1 전위효소 및 제 1 트랜스포존 단부 올리고뉴클레오티드의 반응 생산물들은 상기 제 2 전위효소 및 제 2 트랜스포존 단부 올리고뉴클레오티드와 배양하기 전에 정제할 수 있다.
일부 구현예에 있어서, 단편 또는 라이브러리를 태킹하는 데 사용되는 상기 트랜스포존 조성물은 핵산 서열에서 최소한 하나 이상의 차이가 있는 복수의 이전된 가닥들을 포함할 수 있으며, 상기 증폭은 5' 말단 태그들이나 태그 영역들의 핵산 서열들을 토대로 하여 이중 태그된(di-tagged) DNA 단편들을 선택적으로 증폭할 수 있다. 다른 구현예에 있어서, 상기 증폭은 이중 태그된(di-tagged) 타겟 DNA 단편들의 3' 태그들에 상보적인 단일 올리고뉴클레오티드 프라이머를 사용하여 PCR을 수행하는 것을 포함할 수 있다.
일부 구현예에 있어서, 상기 증폭은 단일 올리고뉴클레오티드 프라이머를 사용하여 가닥 변위(strand-displacement) 증폭 반응을 하는 것을 포함할 수 있으며, 여기서 상기 올리고뉴클레오티드는 단지 퓨린 리보뉴클레오티드 및 단지 피리미딘 2-F-2-디옥시리보뉴클레오티드로만 구성되고, 상기 가닥 변위 증폭 반응은 가닥 변위 DNA 폴리머라제 및 리보뉴클레아제 H를 포함할 수 있다.
일부 구현예에 있어서, 상기 증폭은 각각 3' 말단 부분을 포함하는 제 1 및 제 2 올리고뉴클레오티드 프라이머를 이용하여 폴리머라제 연쇄 반응(PCR)을 수행하는 것을 포함할 수 있으며, 제 1 PCR 프라이머의 상기 3' 말단은 최소한 이중 태그된(di-tagged) 타겟 DNA 단편들의 3' 태그에 상보적이고, 제 2 PCR 프라이머의 상기 3' 말단은 최소한 이중 태그된(di-tagged) 타겟 DNA 단편들의 5' 태그 또는 5' 태그 영역의 서열을 나타낼 수 있다. 특정 구현예에 있어서, 상기 제 1 또는 제 2 올리고뉴클레오티드 프라이머는 5' 말단 부분을 포함할 수 있으며, 여기서 최소한 상기 제 1 프라이머의 5' 말단 부분은 상기 이중 태그된(di-tagged) 타겟 DNA 단편들의 3' 태그에 상보적이지 않거나 또는 상기 제 2 프라이머의 5' 부분은 상기 이중 태그된(di-tagged) 타겟 DNA 단편들의 최소한 5' 태그 또는 태그 영역의 서열을 나타내지 않을 수 있다. 특정 구현예에 있어서, 상기 제 1 및 제 2 올리고뉴클레오티드 프라이머는 각각 5' 말단 부분을 포함할 수 있으며, 여기서 최소한 상기 제 1 PCR 프라이머의 5' 말단 부분은 상기 이중 태그된(di-tagged) 타겟 DNA 단편들의 3' 태그에 상보적이지 않을 수 있거나 및/또는 상기 제 2 PCR 프라이머의 5' 말단 부분은 상기 이중 태그된(di-tagged) 타겟 DNA 단편들의 최소한 5' 태그 영역의 부분의 서열을 나타내지 않을 수 있다.
일부 구현예에 있어서, 본 발명의 상기 단편들과 라이브러리들을 증폭하는 것은 유용할 수 있다. 따라서, 일부 구현예에 있어서, 상기 증폭은 각각 상기 태그된 DNA 단편들 또는 상기 이중 태그된(di-tagged) 타겟 DNA 단편들에 있는 상기 이전된 가닥의 최소한 하나의 서열의 일부에 상보적인 3' 말단 부분을 포함하는, 제 1 및 제 2 올리고뉴클레오티드 프라이머를 이용하여 폴리머라제 연쇄 반응(PCR)을 수행하는 것을 포함할 수 있다.
각 트랜스포좀은 타그멘트(tagment)를 단지 한 번만 수행할 수 있으므로, 단편들의 평균 크기는 주로 트랜스포좀에 대한 입력 게놈 DNA의 비율로 결정된다.
따라서, 특정 구현예에 있어서, 입력 게놈 DNA의 양은, 예를 들면, 샘플 내의 이중가닥 DNA의 양을 계량하는 방법이나 샘플 내의 불순물(contaminating) RNA, 단일 가닥 DNA, 또는 분해된 DNA의 검출을 피할 수 있는 방법을 이용하여 구체적으로 정확하게 결정될 수 있다. Qubit® 분석(Life Technologies,Thermo Fisher Scientific,Inc.)과 같은 상업적 제품들을 이러한 목적에 사용할 수 있으며 그 결과는 Qubit® Fluorometer를 사용하여 판독할 수 있다.
특정 구현예에 있어서, 상기 타그멘트된(tagmented) 게놈 DNA의 평균 크기는 약 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, or 15 kb일 수 있다. 특정 구현예에 있어서, 상기 타그멘트된 게놈 DNA의 평균 크기는 약 4-10 kb 이거나 약 6-8 kb일 수 있다.
특정 구현예에 있어서, 상기 단편화되고 태그된 DNA 단편들의 말단들은 다음 단계를 수행하기 전에 충진되거나 복구된 단일 가닥 부위들을 가질 수 있다. 즉, 특정 구현예에 있어서, 상기 게놈 DNA 단편들의 태그된 말단들은 (3) 단계 이전에 블런트 말단 결찰의 촉진을 위해 복구될 수 있다. 상기 타그멘테이션 단계는 타그멘트된 DNA 내에 짧은 단일 가닥 서열 갭을 남기기 때문에, 상기 복구는 트랜스포좀-매개된 타그멘테이션을 사용하여 생긴 단편에 필요할 수 있다. 이러한 경우, 모든 단편들이 다 나타날 수 있도록(all fragments are flush) 폴리머라제-매개된 가닥 변위 반응을 사용하여 타그멘테이션 단계에 의해 생긴 상기 갭을 충진할 수 있다.
일부 구현예에 있어서, 상기 충진 및 결찰 단계들은 상기 태그된 DNA 단편들을 하나 또는 그 이상의 크기의 무작위 서열 올리고뉴클레오티드들과 상기 주형-의존적 리가제를 상기 무작위 서열 올리고뉴클레오티드들이 어닐되고 단일 가닥 갭들을 충진하며 서로 결찰되거나 또는 태그된 DNA 단편들의 인접 말단들에 결찰되는 조건들 하에서 배양하는 것을 포함할 수 있다.
특정 구현예에 있어서, 상기 단편화되거나 타그멘트된 DNA는 (3) 단계 이전에 크기가 선택될 수 있다. 특정 구현예에 있어서, 단편화되거나 타그멘트된 DNA의 하나의 선결정된 크기는 후속 단계(예; 크기가 선택된 DNA의 원형화)에 사용될 수 있도록 크기가 선택될 수 있다. 특정 구현예에 있어서, 단편화되거나 타그멘트된 DNA의 둘 또는 그 이상의 상이한 선결정된 크기는 크기가 선택될 수 있으며, 각 크기의 선택된 DNA는 추가 샷건 단편화 단계에서 원형화되고 함께 사용될 수 있다. 하나 이상의 크기가 선택되는 경우에는, 각 크기는 예를 들어 말단-태그된 게놈 DNA 단편들을 제조하기 위해 사용되는 상이한 태그 서열들을 통하여 다른 크기로 부터 구별될 수 있다.
DNA 크기 선택은 당업계에서 인정된 많은 방법 중에서 임의의 방법을 선택하여 수행할 수 있다. 일 구현예에 있어서, 크기 선택은 폴리에틸렌 글리콜(PEG)-매개된 DNA 침전을 통해 수행할 수 있다(참조, 예; Lis and Schleif, Size Fractionation of Double-Stranded DNA by Precipitation with Polyethylene Glycol, Nuc. Acid Res., 2(3):383-389(1975)). 그 전체 내용이 참조로 인용됨). 특히, 낮은 PEG 농도에서, 큰 크기의 이중 가닥 DNA는 작은 크기의 이중 가닥 DNA에 비하여 더 잘 침전한다(예; <1500 bp). 이 방법을 사용하여, 크기가 약 150 bp - 50 kb인 DNA에 대하여 크기별 분류를 할 수 있음이 보고되었다. 특정 구현예에 있어서, PEG-매개 크기 선택은 PEG 농도, DNA 농도, NaCl 농도, pH, 2가 이온들, 침전 시간 및/또는 원심력을 달리함으로써 조절할 수 있다.
Agencourt AMPure XP 비드(bead; BD, 참조, 예; 항목 번호 A63880) 또는 SPRIselect 비드(BD, 참조, 예; 항목 번호 B23317)와 같은 PEG 침전을 기초로 한 크기 선택을 용이하게 하는 상용 제품을 쉽게 이용할 수 있다. 비교적 큰 DNA 단편들은 이들 비드에 결합되어 있는 반면 작은 단편들(예; <1500 bp)은 용액에 잔류되어 쉽게 제거된다.
또 다른 구현예에서, 크기 선택을 아가로스 겔 전기영동에 의해 수행할 수 있다. 예를 들면, Pippin DNA 크기 선택 시스템(Sage Science)은 DNA 샘플의 특정 크기 범위를 선택할 수 있는 자동화된 분취 아가로스 겔 전기영동 시스템이다. BLUEPIPPINTM 시스템은 제조업자에 따라 90bp 내지 50kb의 범위에서 좁은 분포 크기 내에서 DNA를 수집하는 데 사용될 수 있다. 유사한 방법으로, BLUEPIPPINTM 시스템은 90bp 내지 8kb의 범위에서 DNA를 수집하는 데 사용될 수 있다. 특정 구현예에 있어서, 6-8 kb 또는 4-10 kb와 같이 1-50 kb 사이의 평균 크기를 가지는 DNA 단편은 BLUEPIPPINTM 유형 시스템에서 약 0.75% 아가로스를 사용하여 크기를 선택할 수 있다. 특정 구현예에 있어서, 2-8 kb의 평균 크기를 가지는 DNA 단편은 PIPPINPREPTM 유형 시스템에서 약 0.75% 아가로스를 사용하여 크기를 선택할 수 있다. 특정 구현예에 있어서, 상기 수집된 DNA는 ± 3 kb, 2 kb, 1 kb, 또는 0.5 kb의 좁은 크기 범위를 가질 수 있다.
특정 구현예에 있어서, 표준 아가로스 겔 전기영동은, 특히 한 번 수행 시 여러 크기 범위가 선택되어야 할 경우, Pippin DNA 크기 선택 시스템없이도 사용될 수 있다. 상기 크기 선택된 DNA 단편들은 당업계에서 인정되는 임의의 방법들을 이용하여 겔에서 회수 또는 정제될 수 있다. 일 구현예에 있어서, 상기 DNA는 상용성 ZYMOCLEANTM 대형 단편 DNA 회수 키트(Zymo Research)와 같은 스핀 칼럼을 기초로한 DNA 회수 시약들을 사용하여 회수할 수 있다.
특정 구현예에 있어서, 하나 또는 그 이상의 상기 크기 선택 방법들은 PEG 침전을 기초로 한 크기 선택 후 아가로스 겔 전기영동을 기초로 한 크기 선택을 수행함과 같이 조합하여 사용할 수 있다.
일단 상기 태그된 DNA 단편이,바람직하기로는 미리 결정된 크기 범위 내에서, 수득되면, 상기 단편의 말단들은 복수의 원형화된 게놈 DNA 단편들을 만들기 위해 블런트_말단 분자내 결찰을 촉진하거나 선호하는 조건 하에서 결찰된다. 특정 구현예에 있어서, 상기 조건은 6-8 kb의 크기 선택된 DNA를 05-0.2 ng/mL(예; 약 0.1 ng/mL), or 1.5-3 ng/mL(예; 약 2 ng/mL)와 같이 비교적 큰 부피 및 낮은 농도에서 DNA 단편들을 결찰하는 것일 수 있다. 상기 결찰은 DNA 리가제 (예; 30˚C)의 최적 온도에서 밤새도록 (예; 12-16 시간) 수행될 수 있다.
일부 구현예에 있어서, 상기 방법은 추가로, 타겟 DNA에 연결되지 않은 선형 DNA, 비결찰 무작위 서열 올리고뉴클레오티드들 및/또는 트랜스포존 단부 조성물로부터 태그된 원형 DNA 단편들을 분리하는 것을 포함할 수 있다.
특정 구현예에 있어서, 비결찰 선형 DNA는 DNA 엑소뉴클레아제에 의해 제거될 수 있다. 예를 들면, 일부 구현예에 있어서, 상기 태그된 원형 DNA 단편들을 포함하는 반응 혼합물은 비결찰 단편들 및 무작위 서열 올리고뉴클레오티드들을 제거하기 위하여 T5 엑소뉴클레아제로 처리할 수 있다.
특정 구현예에 있어서, 상기 원형화된 게놈 DNA 단편들은 일반적으로 시퀀싱에 적합한 크기 범위를 가지는 복수의 비교적 작은 단편들을 만들기 위하여 샷건 단편화에 의해 다시 단편화될 수 있다. 예를 들면, 약 300-1000 bp(예; 400, 450, 또는 500 bp)의 단편들을 무수한 차세대 시퀀싱(NGS) 방법들 중 하나와 같이 당업계에서 인정받는 임의의 방법용으로 준비할 수 있다.
샷건 단편화를 위해서 동일한 음향 전단 및 초음파처리 방법을 사용할 수 있다. 예를 들면, COVARIS® 도구(Woburn, MA)를 사용하여 약 300-1000 bp(예; 400, 450, 또는 500 bp)의 DNA 단편들을 만들 수 있다. 또는, 또 다른 구현예에 있어서, 분무기(nebulizer)를 사용하여 샷건 단편화를 수행함으로써 약 300-1000 bp의 DNA 단편들을 만들 수 있다.
특정 구현예에 있어서, 상기 게놈 DNA는 트랜스포좀-매개된 타그멘테이션을 사용하여 단편화 및 태그될 수 있고, 상기 타그멘테이션에 사용되는 태그 서열은 상기 태그 서열의 단리 또는 정제를 용이하게 하는 부분(moiety)를 포함할 수 있다. 예를 들면, 상기 태그 서열은 SA-비즈로 단리할 수 있는 바이오틴화된 접합 어댑터(junction adaptor)일 수 있다. 상기 SA-비즈에 부착된 단편들은, 짧은 게놈 DNA 단편들이 최소한 하나 이상(보통 둘)의 상기 태그 서열을 포함하는 메이트-쌍(MP) 단편 라이브러리를 형성한다. 즉, 상기 짧은 게놈 DNA 단편들의 대부분은 게놈에서 (메이트-쌍 라이브러리의 평균 크기에 좌우되는) 큰(many) kbs에 의해 분리된 두 게놈 DNA 단편들에 의해 플랭크된 두 개의 링크된 접합 어댑터(junction adaptor)이다. 상기 MP 단편 라이브러리의 각 단편들의 서열들은 상기 MP 단편 시퀀싱 데이터를 만들기 위해 하기에 기재된 무수한 차세대 시퀀싱(NGS) 방법 중 하나와 같은 당업계에서 인정된 임의의 시퀀싱 방법을 사용하여 결정할 수 있다.
샷건 단편화에 의해 제조되고, 버려지지 않고, 상기 SA-비즈에 연결되지 않은 상기 단편들은 예를 들면 차세대 시퀀싱(NGS) 방법에 의해 상기 샷건 단편 시퀀싱 데이터를 만들기 위해 유사한 방법으로 수집 및 시퀀싱할 수 있다. 상기 태그 서열이 없는 이러한 단편들은 샷건(SG) 단편이라 부른다. 특정 구현예에 있어서, 상기 SG 단편들은 또한 대개 상기 단편들의 어느 한 단부에 있는 부분 태그 서열들을 포함한다.
특정 구현예에 있어서, 상기 MP 단편들과 SG 단편들은 추가 처리 이전에 분리될 수 있다. 분리는 현재 상기 MP 단편들에는 있으나 상기 SG 단편들에는 없는 상기 태그 서열에서의 친화성 태그를 사용하여 성취할 수 있다.
특정 구현예에 있어서, 상기 MP 단편들과 SG 단편들은 함께 시퀀싱되는 것을 포함하여 함께 처리될 수 있다. 상기 MP 단편들의 서열 데이터는 상기 MP 단편들에 있는 상기 태그 서열 존재(vs. 부재(absence))에 의해 상기 SG 단편들로부터 구별될 수 있다. 이 구현예에서, 상기 MP 단편들과 SG 단편들의 분리를 용이하게 하기 위하여 태그 서열들을 사용할 필요는 없다.
상기 MP 단편들과 SG 단편들 모두는 블런트 말단들을 만들기 위해 샷건 단편화의 결과물인 5' 또는 3' 돌출부들(overhangs)를 채워 넣거나 제거함으로써 선택적으로 복구할 수 있다. 예를 들면, 3' 에서 5' 방향의 엑소뉴클레아제 활성을 이용하여 3' 돌출부를 제거하고 폴리머라제 활성으로 5' 돌출부를 채워 넣을 수 있다.
특정 구현예에 있어서, 단일 아데닌 염기를 상기 블러트 단편들에 추가함으로써 향후 어댑터 결찰 반응 시 이들 단편이 서로 결찰되는 것을 방지할 수 있다. 상기 어댑터의 3' 말단에 있는 해당 단일 티미딘 염기는 상기 단편에 상기 어댑터를 결찰하기 위한 상보적 돌출부를 제공한다. 이러한 전략을 통하여 낮은 키메라(연접 주형(concatenated template)) 형성을 확실시 할 수 있다.
특정 구현예에 있어서, 어댑터 결찰은 상기 DNA 단편들의 블런트 말단들에 임의의 원하는 어댑터들을 결찰하기 위하여 수행되며 이로써 이들을(예를 들면 향후 PCR 증폭) 예비한다.
상기 SG 및 MP DNA 단편들은 시퀀싱을 수행하기 전에 DNA 시퀀싱 방법들(차세대 시퀀싱(NGS) 방법) 또는 증폭 반응에서 주형으로 사용할 수 있다. 일부 구현예에 있어서, 본 발명의 방법들은 (예; 하나 또는 그 이상의 PCR 증폭 반응, 가닥 변위(strand-displacement) 증폭 반응, 롤링써클(rolling circle) 증폭 반응, 리가제 연쇄 반응, 전사-매개 증폭 반응, 또는 루프-매개 증폭 반응)을 사용함으로써)상기 SG 및 MP DNA 단편들을 증폭하는 것을 포함한다. 일부 구현예에 있어서, 상기 증폭은 각각 3' 말단 부분들을 가지는 제 1 및 제 2 올리고뉴클레오티드 프라이머를 사용하여 PCR을 수행할 수 있으며, 여기서 제 1 올리고뉴클레오티드 PCR 프라이머의 최소한 3' 말단 부분은 상기 태그 영역의 최소한 일 부분에 상보적이며, 상기 제 2 올리고뉴클레오티드 PCR 프라이머의 최소한 3' 말단 부분은 상기 태그 영역의 최소한 일 부분의 서열을 나타낸다. 일부 구현예에 있어서, 상기 제 1 및 제 2 올리고뉴클레오티드 프라이머들은 각각 5' 말단 부분을 가지며, 여기서 상기 제 1 PCR 프라이머의 5' 말단 부분은 상기 태그 서열에 상보적이지 않을 수 있으며, 상기 제 2 PCR 프라이머의 5' 말단 부분은 상기 태그 영역의 서열을 나타내지 않을 수 있다.
상기 기재한 임의의 PCR 증폭에 대한 바람직한 구현예들로서 상기 제 1 및 제 2 PCR 프라이머의 5' 말단 부분이 태그 영역을 나타내는 증폭을 포함할 수 있다. 또 다른 구현예로서, 상기 태그 영역들은 하나 또는 그 이상의 제한 부위 영역, 캡처 태그 영역, 시퀀싱 태그 영역, 증폭 태그 영역, 검출 태그 영역, 주소 태그 영역 및 전사 프로모터 영역을 포함할 수 있다.
일부 구현예에 있어서, 상기 태그 영역들은 Roche 454A 및 454B 시퀀싱 태그들, ILLUMINATM SOLEXATM 시퀀싱 태그들, Applied Biosystems SOLIDTM 시퀀싱 태그들, the Pacific Biosciences SMRTTM 시퀀싱 태그들, Pollonator 폴로니 시퀀싱(polony sequencing) 태그들 또는 the Complete Genomics 시퀀싱 태그들로부터 선택된 시퀀싱 태그들을 포함하거나 이들로 구성된 시퀀싱 태그 영역들일 수 있다.
PCR 조건들은 특정 니즈에 따라 조율할 수 있다. 유전자 증폭기(thermal cycler)에서의 전형적인 PCR 조건은:98˚C에서 30초 후, 98˚C에서 10초, 60˚C에서 30초, 72˚C에서 30초 및 72˚C에서 5분 처리하는 과정을 10 내지 15 사이클 반복 후 4˚C에서 유지하는 것을 포함할 수 있다.
특정 구현예에 있어서, 상기 게놈 DNA의 서열들은 고속 (high-throughput) 시퀀싱에 의해 결정될 수 있다. "시퀀싱(Sequencing)"이란 생체 고분자(여기서, 핵산)에서 구성 성분들의 순서를 결정하는 것을 의미한다.
본 발명에서 사용할 수 있는 시퀀싱 기술로서는 대규모 병렬 시그니처 시퀀싱(parallel signature sequencing)(또는 Lynx Therapeutics/Solexa/Illumina의 MPSS), 폴로니 시퀀싱(polony sequencing)(Life Technologies), 파이로시퀀싱 또는 "454 시퀀싱(454 sequencing)"(454 Life Sciences/Roche Diagnostics), 결찰에 의한 시퀀싱(Applied Biosystems/Life Technologies의 SOLiD 시퀀싱), 합성에 의한 시퀀싱(Solexa/Illumina), DNA 나노볼 시퀀싱(nanoball sequencing), 헬리스콥 시퀀싱(Helicos Biosciences), 이온 반도체 또는 Ion Torrent 시퀀싱(Ion Torrent Systems Inc./Life Technologies), 및 단일 분자 실시간(SMRT) 시퀀싱(Pacific Bio) 등과 같은 무수한 상용 자원들로부터 사용 가능한 소위 차세대 고속(high throughput) 시퀀싱(NGS)뿐 아니라 전통적 Sanger 연쇄 종료법(chain termination Sanger method)을 들 수 있다. 나노기공 DNA 시퀀싱, 혼성화 시퀀싱, 질량분석법을 포함하는 시퀀싱, 미세유체 Sanger 시퀀싱, 투과전자현미경 DNA 시퀀싱, RNAP 시퀀싱 및 인 비트로 바이러스 고속 시퀀싱 등을 포함하는 무수한 기타 고속 시퀀싱 방법들이 현재 개발 중이거나 완성되었으며, 본 발명의 상기 MP 또는 SG 단편들을 시퀀싱하는 데 사용될 수 있다.
특정 구현예에 있어서, 상기 고속 시퀀싱은 단일 분자 실시간 시퀀싱; 이온 반도체(이온 토렌트) 시퀀싱; 파이로시퀀싱(454); 합성에 의한 시퀀싱(Illumina); 결찰에 의한 시퀀싱(SOLiD sequencing); 폴로니 시퀀싱(polony sequencing); 대규모 병렬 시그니처 시퀀싱(parallel signature sequencing)(MPSS); DNA 나노볼 시퀀싱(nanoball sequencing); 단일 분자 나노기공 시퀀서(single molecule nanopore sequencer); 및 헬리스콥 단일 분자 시퀀싱(Heliscope single molecule sequencing)로 이루어진 군에서 선택된 것일 수 있다.
특정 구현예에 있어서, 상기 고속 시퀀싱은 플랭킹 게놈 DNA 및/또는 상기 샷건 단편들에 대한 10-, 15-, 20-, 25-, 30-, 40-, 50-, 60-, 70-, 80-, 90-, 100 또는 그 이상의 배수의 범위를 포함할 수 있다.
특정 구현예에 있어서, 상기 시퀀싱 방법은 상기 해당 태그된 게놈 DNA 단편들의 양말단으로부터 태그 서열들을 시퀀싱할 수 있으므로 쌍을 이룬 말단 태그 정보를 제공할 수 있다. 특정 구현예에 있어서, 상기 시퀀싱 방법은 변경가능한 길이의 긴 DNA 단편들의 염기판독을 수행할 수 있다.
따라서, 상기 MP 단편들의 시퀀싱 데이터 및 SG 단편들의 시퀀싱 데이터 모두는 하기 설명된 바와 같은 모든 유전적 변이를 결정하는 본 발명의 방법들에 사용될 수 있다. 특정 구현예에 있어서, 모든 시퀀싱 데이터는 매칭 참조 게놈에 매핑된다. 본 발명에 있어서, 매핑(하나의 게놈에 대한 하나의 서열)은 게놈 상의 서열의 유전적 위치를 동정하는 것을 포함할 수 있다.
즉, 본 발명의 방법들은 (상기 두 말단 사이의 서열들을 나타내는) 상기 태그 서열이 없는 (각각의 긴 게놈 DNA 단편의 두 말단의 서열을 나타내는) 상기 MP단편들 및 상기 SG 단편들 모두의 시퀀싱 데이터에 의존하며, 여기서 상기 MP단편들 및 상기 샷건 단편들은 복수의 원형화된 게놈 DNA 단편들의 동일 라이브러리로부터 유래한 것이다.
예를 들면, 약 10 kb 크기의 원형화된 게놈 DNA를 만일 상기 샷건 단편화에 의해 약 500 bp 크기의 단편들로 만든다면, 이들 500 bp 단편들 중 하나는 그 각각이 상기 10 kb 단편의 각 말단으로부터 유래한 두 개의 약 200 bp 서열들에 의해 플랭킹된 상기 서열을 포함하는 상기 메이트-쌍 단편일 것으로 예상된다. 한편, 상기 500 bp 단편들 중 19개는 상기 태그 서열이 없는 샷건 단편들로 예상되며, 이들은 상기 두 말단 사이의 9.5 kb 크기의 서열들을 나타낸다. 따라서, 평균적으로, 상기 MP 단편으로부터 한 개의 시퀀싱 판독은 상기 샷건 단편 판독 19 개의 시퀀싱 판독에 해당한다. 이러한 1:19의 예상 비율은 부분적으로는 상기 원형화된 게놈 DNA 단편(예; 10 kb)의 평균 크기에 의존하며, 부분적으로는 샷건 단편화에 의해 생긴 상기 MP 및 SG 단편들(예; 500 bp)의 평균 크기에 의존한다.
유사한 방법으로, CNV 유형의 게놈 변이에 대하여, 게놈 상에 동형접합성 결실이 있는 경우, 상기 MP 단편 시퀀싱 데이터 및 상기 SG 단편 시퀀싱 데이터 모두는 모든 서열 판독을 상기 유기체의 게놈에 매핑할 경우 상기 서열을 포함하는 맵 상에 갭(gap)을 나타낼 수 있다.
반면에, 게놈 상에 동형접합성 결실이 있는 경우, 상기 MP 단편 시퀀싱 데이터 및 상기 SG 단편 시퀀싱 데이터 모두는, 결실이 없는 게놈의 기타 부위에 비해서 결실 부위의 양이 약 반 정도로 나타날 것이다.
위에서 일반적으로 기술된 발명에 대하여, 본 발명의 특정 구체적 양태들을 이하에서 추가 설명된다.
본 발명의 임의의 구현예들은 부적적하거나, 적용불가하거나, 또는 구체적으로 부인되는 경우를 제외하고 본 발명의 하나 또는 그 이상의 다른 구현예들과 결합할 수 있는 것으로 고려되어야 한다.
2. 차세대 시퀀싱(Next Generation Sequencing;NGS)
상기 MP 단편들 및/또는 SG 단편들의 시퀀싱은 당업계에서 인정된 임의의 방법을 이용하여 수행할 수 있다. 특정 구현예에 있어서, 시퀀싱은 소위 차세대 시퀀싱(NGS)이라 불리우는 고속 시퀀싱을 사용하여 수행할 수 있다.
본 발명의 방법들과 같이 사용할 수 있는 차세대 시퀀싱 플랫폼은 Intelligent Biosystems 및 Pacific Biosystems와 같은 회사에 의해 개발 중인 기타 플랫폼들 뿐 아니라 454 FLX™ 또는 454 TITANIUM™(Roche), SOLEXA™ Genome Analyzer(Illumina), HELISCOPE™ 단일 분자 시퀀서(Helicos Biosciences) 및 SOLID™ DNA Sequencer(Life Technologies/Applied Biosystems) instruments)를 포함하지만 이에 국한되지는 않는다.
서열 정보가 생성되는 화학적 성질은 상이한 차세대 시퀀싱 플랫폼에 따라 차이가 있지만, 이들 모두는 매우 많은 수의 시퀀스 데이터를 생성하는 일반적인 기능을 공유하며, 이들에 대해 시퀀싱 반응이 동시에 실행된다. 일반적으로, 이들 모든 시퀀싱 반응의 데이터는 스캐너를 사용하여 수집되며, 이후 컴퓨터 및 강력한 생물 정보학 프로그램들을 이용하여 조립 및 분석된다. 시퀀싱 반응은 수행, 판독및 조립되고, "대량 병렬(massively parallel)" 또는 "다중(multiplex)" 방식으로 분석된다. 이들 도구의 대량 병렬 특성은 이들 강력한 도구들로부터 어떤 유형의 시퀀싱 주형들이 필요하고 가능한한 최대의 시퀀싱 데이터를 얻기 위하여 이들을 어떤 순서로 생성해야 하는 지에 대한 변화를 가져왔다.
특히, 상기 NGS 시퀀싱 방법은 인 비트로에서 생성된 DNA 단편 라이브러리를 이용하고, 샘플의 타겟 DNA로부터 생성된 DNA 단편들의 수집(collection) 또는 군집(population)을 포함하며, 여기서 이들 수집 또는 군집에서 모든 DNA 단편들의 조합은 이들 DNA 단편들이 생성된 타겟 DNA의 정성적 및/또는 정량적 대표 타겟 DNA 서열인 서열들을 나타낸다. 실질적으로, 서열 분석되는 각 단편의 자원의 동정을 허용하기 위하여 각각이 상이한 주소 태그 또는 바코드(예; 상기 태그 서열 또는 접합 어댑터(junction adaptor)를 가지거가 가지지 않는)로 표지된 상기 MP 단편 라이브러리와 SG 단편 라이브러리 같은 복수의 게놈 DNA 단편 라이브러리들로 구성된다.
일반적으로, 이들 NGS 방법은 게놈 DNA를 더 작은 단일 가닥 DNA 단편들로의 단편화를 필요로하며, 태그 서열들(또는 약칭하여 "태그들(tags)")을 상기 단일 가닥 DNA 단편들의 최소한 하나의 가닥 또는 바람직하기로는 두 가닥 모두에 추가하는 것을 필요로 한다. 몇몇 방법에 있어서, 이들 태그들은 DNA 폴리머라제를 사용하는 DNA 시퀀싱용 프라이밍 사이트들을 제공한다. 몇몇 방법에 있어서, 또한, 이들 태그들은 비드(예; 이들 중 몇몇 방법에 있어서는 에멀전 PCR 증폭 이전; 예; 미국 특허 번호 제 7,323,305호에 기재된 방법을 이용)와 같은 표면에 상기 단편들을 캡처하는 사이트들을 제공한다. 대부분의 경우에 있어서, NGS용 주형으로 사용되는 상기 DNA단편 라이브러리들은 5'- 및 3'-태그된 DNA 단편들 또는 "이중 태그된(di- tagged) DNA 단편들"을 포함한다. 일반적으로, NGS용 DNA단편 라이브러리 생성을 위한 기존의 방법들은 초음파 분쇄기, 분무기(nebulizer), 또는 뉴클레아제를 사용하여 시퀀싱을 하고자 하는 타겟 DNA(예; 게놈 DNA를 포함하는 타겟 DNA)를 단편화하는 것과, 어댑터나 태그들로 구성된 올리고뉴클레오티드들을 상기 단편들의 5' 및 3' 말단에 연결시키는 것을 포함한다.
상기 NGS 방법들의 일부는 시퀀싱 과정에서 원형 단일 가닥 DNA 기질을 사용한다. 예를 들면, Drmanac et al.에 의한 미국 특허출원 번호 제 2009-0011943호; 미국 특허출원 번호 제 2009-0005252호; 미국 특허출원 번호 제 2008-0318796호; 미국 특허출원 번호 제 2008-0234136호; 미국 특허출원 번호 제 2008-0213771호; 미국 특허출원 번호 제 2007-0099208호; 및 미국 특허출원 번호 제2007-0072208 호를 포함하며, 이들 각각은 참조로 본원에 포함되고, 대량 병렬 시퀀싱용 원형 단일 가닥 DNA 주형들의 생성을 개시하고 있다. Gunderson 및 Steemers의 미국 특허출원 번호 제 2008-0242560호는 디지털 DNA 볼(balls)의 제작(참조, 예; 미국 특허출원 번호 제 2008-0242560호의 도 8); 및/또는 게놈 DNA와 같은 유전자 좌-특이적 절단(locus-specific cleavage) 및, 증폭으로서 다중 변위 증폭(multiple displacement amplification) 또는 전체 게놈 증폭(whole genome amplification)(예; 미국 특허출원 번호 제 2008-0242560호의 도 17) 또는 증폭된 핵산 어레이(nucleic acid arrays)((예; ILLUMINA BeadArrays; ILLUMINA, San Diego CA, USA)를 위한 과다 분기된(hyperbranched ) RCA(예; 미국 특허출원 번호 제 2008-0242560호의 도 18) 를 포함한다.
전체 게놈 증폭과 같은 증폭을 포함하는 추가 NGS 방법들은 또한 게놈 DNA의 단편화 및 태깅을 필요로 한다. 이들 방법 중 일부는 hole Genome Amplification, ed. by S. Hughs and R. Lasken, 2005, Scion Publishing Ltd.(게재된 웹사이트; www://scionpublishing.com)에 리뷰되어 있으며 본원에 참조로서 인용된다. 이들 NGS 방법들은 또한 본 발명의 방법에서 사용될 수 있다.
3. 게놈 변이의 시퀀싱 데이터 분석 및 검출
일단 상기 SG 단편들과 MP 단편들로부터 서열 정보가 수득되면 (예를 들어, 무수한 적용가능한 NGS 방법들 중 임의의 방법을 사용하여 고속 시퀀싱을 하는 경우), 해당 게놈에서의 다양한 게놈 변이를 결정할 수 있도록 서열 데이터 분석을 제공하게 된다.
일 구현예에 있어서, 상기 SG 단편들과 MP 단편들의 서열들은 상기 샷건 단편화의 결과물들을 NGS를 토대로 동시에 얻을 수 있다. 일반적으로, 상기 MP 단편들에 속하는 서열들은 게놈 DNA들에 의해 플랭크된 결찰된 태그 서열들(예; 타그멘테이션에서 사용되는 19-염기쌍 태그 서열의 2 결찰된 탠덤 반복들)의 유무에 따라 상기 SG 단편들로부터 구분될 수 있다. 상기 태그 서열들은 상기 MP 단편들에서 오직 게놈 서열들만을 보존하고자 비가공 데이터에서 제거할\ 수 있다. 또한, 상기 MP 단편들의 게놈 서열들은 상기 SG 단편들을 위한 데이터 베이스로부터 데이터 파일용으로 별도의 데이터베이스에 별도로 저장, 보관, 또는 조종할 수 있다.
그 후, 상기 SG 단편들과 MP 단편들의 서열들은 매칭 참조 게놈에 매핑될 수 있다. 예를 들면, 특징이 잘 밝혀진 인간 게놈 서열은 인간 피험자의 임의의 샘플에 대한 참조용 게놈으로 사용될 수 있다. 기타 모델 유기체 참조 게놈들은 당업계에서 쉽게 구할 수 있다.
일 구현예에서, 본 발명의 방법들과 같이 사용하기 위하여, 상기 SG 단편 서열들은 제 1 매핑 파일을 생성하기 위해 상기 매칭 참조 게놈에 매핑되고 상기 MP 단편 서열들은 제 2 매핑 파일을 생성하기 위해 동일한 매칭 참조 게놈에 매핑된다. 이들 매핑 파일들은 Broad Institute의 Heng Li (참조, Henry Li, Aligning New-sequencing Reads by BWA (2010), 전체내용이 본원에 참조로 인용됨)가 개발한 Burrows-Wheeler Aligner(BWA)와 같이 당업계에서 인정되고 대중적으로 이용 가능한 임의의 매핑 소프트웨어를 사용하여 생성할 수 있다.
일반적으로, 이러한 서열 정렬 소프트웨어는 서열 반복들 및 서열 류들로 인해 야기되는 효율 및 모호성과 같은 난제를 극복하는 한편, 변이 발견용 기존 공지의 참조 서열에 대비하여 시퀀싱 판독들(예; 상기 NGS 방법들로부터의 판독들)을 정렬한다. LAT, SSAHA2 및 BWA-SW을 포함하여 긴 서열 판독(예; 약 200 bp를 초과하는 판독)용 서열 정렬기들이 많이 있다. Bfast, BioScope, Bowtie, BWA, CLC bio, CloudBurst, Eland/Eland2, GenomeMapper, GnuMap, Karma, MAQ, MOM, Mosaik, MrFAST/MrsFAST, NovoAlign, PASS, PerM, RazerS, RMAP, SSAHA2, Segemehl, SeqMap, SHRiMP, Slider/SliderII, SOAP/SOAP2, Srprism, Stampy, vmatch, 및 ZOOM 등을 포함하는 수많은 짧은 판독(약 100 bp 또는 그 이하의 서열용) 정렬기들도 있으나 이에 국한되지 않는다. 이러한 방법들은 정렬 속도, 메모리 요구 사항 및 전반적인 정확도와 같이 성능이 크게 다를 수 있으며 BWA는 성능과 정확성 사이의 균형을 잘 맞출 수 있도록 설계되었다.
BWA 정렬 알고리즘은 신속 정확한 서열 매칭이 가능한 FM 인덱스 (Burrows-Wheeler Transform + 보조 데이터 구조)를 기반으로 하여 수행된다. 이의 짧은 판독 알고리즘은 판독할 서열을 참조용과 정확히 매칭하도록 판독 서열을 변경하도록 디자인되어 있다. 이의 긴 판독 알고리즘(BWA-SW)은 샘플 참조용 서열들을 택하여 서브 서열들(subsequences)과 상기 판독 사이에 Smith-Waterman 정렬을 수행한다. BWA는 Illumina 및 SOLiD 단일-말단(SE) 및 쌍-말단(PE) 판독용으로 작동하며; WA-SW는 454/Sanger SE 판독용으로 작동한다. 그 결과, BWA는 빠르지만 적당한 메모리 양(memory footprint; 일반적으로 4 GB 미만)만 필요로 하고; 기본적으로 SAM 출력을 사용하며; SE 및 PE 판독들 모두에 대한 정렬에 틈(gap)을 내고; 효과적인 짝짓기(준최적 히트들(suboptimal hits)을 짝짓기에서도 고려함)를 이용하여 고도의 정렬 정확성을 성취한다. 비고유 판독에 대하여 매핑 품질을 0으로 하여 처리하고, 모든 히트는 간결한 포맷으로 출력할 수 있다. 비록 대부분의 짧은 판독들(심지어 길이가 30 뉴클레오티드인 것도)도 인간 게놈에 고유하게 배치될 수 있으며(참조, Rozowsky et al., Biotechnol., 27:66-75, 2009), 반복적 부위들이나 부분적 중복(segmental duplication) 부위들 기원의 판독들은 판독 배치가 어려울 수도 있다. 이들 판독은 동일한(또는 거의 동일한) 점수가 없이도 게놈 상에 복수로 정렬될 수 있다. 이러한 매핑불가(unmappable) 게놈 부위들을 고려 대상에서 단순히 제외하는 대신에, BWA는 이러한 판독을 유사한 점수(매핑 품질 0)를 가지는 판독 정렬 여러 위치 중 임의의 위치에 배치한다.
BWA는 또한 종자 부위(seed region;기본적으로 처음 32 bp)에서 k-차이를 확실히 발견할 수 있다. BWA의 기본 구성은 대부분의 전형적인 서열 입력에 대해 작용한다. 또한, 이는 판독 길이 및 오류율을 토대로 매개변수들을 자동으로 조정하고 삽입 크기 분포를 즉시 추정한다.
BWA 정렬기의 작동은 하기와 같이 간략히 요약될 수 있다. 첫째, ref.fa, read1.fq.gz, read2.fq.gz, 또는 long-read.fq.gz 의 포맷을 프로그램에 입력한다. 이후, 1 단계: 참조 게놈을 색인처리한다 (예; 인간 게놈을 색인 처리하는 데 약 3 CPU가 요구됨). 단계 2a는 이어서 후미 배열 좌표에서 정렬을 생성한다. 판독들의 3'-말단 품질이 안 좋은 경우에는, 이를 개선하기 위해 옵션 -q15를 선택할 수 있다. 이후 단계 3a는 SAM 포맷에서 정렬을 생성한다. 마지막으로, 단계 4a에서 복수의 히트를 수득한다. 대체안으로서, 단계 2b는 긴 판독용 BWA-SW를 사용한다.
BWA 매핑 파일의 출력은 일반적으로 공지된 bam 파일로서, 다양한 게놈 변이를 동정하기 위하여 하기에 기재된 기타 시퀀싱 분석 소프트웨어와 함께 사용될 수 있다.
일단 상기 SG 단편 서열들 및 MP 단편서열들을 위한 bam 파일들이 별도로 생성되면, 본 발명의 방법은 다양한 게놈 변이를 동정하기 위하여 이들 bam 파일들(예; SG bam 파일 및MP bam파일)을 다양한 소프트웨어 패키지와 같이 활용할 수 있다.
예를 들면, SNP 및 Indel과 같이 작은 유전적 변이들을 우선적으로 동정하는 방법에서 사용할 수 있는 하나의 소프트웨어 패키지는 Broad Institute에 의해서 개발된 대중이 이용가능한 Genome Analysis Tool Kit( 또는 GATK) 패키지이다 (참조, McKenna et al., The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data, Genome Res., 20:1297-1303, 2010; DePristo et al., A framework for variation discovery and genotyping using next-generation DNA sequencing data,
Nat. Gen., 43:491-498, 2011; and Van der Auwera et al., From FastQ Data to High-Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline, Curr. Prot. Bioinfo., 43:11.10.1-11.10.33, 2013 (모두 본원에 참조로 인용됨).
GATK는 고속 시퀀싱 데이터를 분석하는 데 유용한 매우 다양한 도구들을 제공한다. 공통적 구성(architecture) 및 강력한 엔진을 이용하여, 이들 도구들은 간단한 "결과 판독(reads-to-results)" 분석부터 복잡한 "결과 판독(reads-to-results)" 분석까지 스크립트된 작업흐름들로 묶여질 수 있다.
GATK의 주요 관점은 데이터 품질 확신에 강력히 중점을 둔 변종 발견과 유전형 분석(genotyping)이다. 2010년 이후, 큰 영향력을 가진 과학 저널들에 공개된 150개 이상의 연구 논문들은 다양한 연구 관련 질문들을 해결하기 위하여 GATK를 성공적으로 활용하였다. GATK는 하부 군집(subpopulation)에 특이적인 돌연변이들을 동정하기 위한 산업적 표준이 되었다. 상기 소프트웨어 패키지는 판독용 BWA의 bam 파일, 품질 점수, 정렬 및 메타데이터(metadata)(예; 시퀀싱 레인, 기원의 중심, 샘플명 등)을 포함하는 다양하고 상이한 시퀀싱 기술들로 생성되는 데이터를 이용할 수 있다. GATK는 또한 임의의 유기체 (사람 포함)에서 수득한 임의의 수준의 다배수성(ploidy)(복수의 배수성(multiploidy)을 가지는 식물 게놈과 같은) 게놈 데이터를 처리할 수 있다.
일 구현예에서, 본 발명의 방법은 상기 SG 단편 bam 파일 또는 상기 MP 단편 bam 파일과 같은 입력 bam 파일의 SNP 및 Indel을 동정하기 위하여 변이 발견용 GATK 도구 중 하나인 HaplotypeCaller를 사용한다. 일 구현예에서, 상기 input bam 파일은 최소한 20-30 배의 서열(예; 0-배, 25-배, 30-배, 35-배, 40-배, 45-배, 또는 약 50-배)을 포함할 수 있는 SG 단편 bam 파일일 수 있다. 특정 구현예에 있어서, SNP 및 Indel을 동정하기 위하여 단지 SG bam 파일만이 사용될 수 있다. 특정 구현예에 있어서, SNP 및 Indel을 동정하기 위하여 단지 MP bam 파일만이 사용될 수 있다. 특정 구현예에 있어서, SNP 및 Indel을 동정하기 위하여 SG bam 파일 및 MP bam 파일을 모두 사용할 수 있다.
상기 HaplotypeCaller 도구는 활성 부위에서 반수체(haplotypes)의 국부 조립을 통하여 SNP 및 Indel을 동시에 호출(call)한다. 이는 상기 호출을 하는 입력 bam 파일(들)을 활용하고 비가공, 비여과 상태의 SNP 및 Indel 호출을 포함하는 출력 VCF 파일을 생성한다. 이들은 이후 하부(downstream) 분석에서 사용하기 전에 변이 재측정(recalibration; 최상(best))이나 하드-필터링(hard-filtering)에 의하여 여과될 수 있다. 상기 HaplotypeCaller의 기본 작동은 하기와 같이 진행된다:
1. 활성 부위의 정의
상기 프로그램은 변이의 중요한 증거의 유무를 토대로 하여 게놈의 어떤 부위에 작동할 것인지를 결정한다.
2. 활성 부위의 재조립에 의한 반수체 결정
각 활성 부위에 대하여, 상기 프로그램은 이 활성 부위를 재조립하기 위하여 De Bruijn-유사 그래프를 만들고 데이터 상에 존재하는 가능한 반수체들을 동정한다. 상기 프로그램은 잠재적 변이 사이트들을 동정하기 위하여 Smith-Waterman 알고리즘을 이용하여 각 반수체를 참조용 반수체에 대하여 재정렬한다.
3. 주어진 판독 데이터에서 반수체의 가능성 결정
각 활성 부위에 대하여, 상기 프로그램은 PairHMM 알고리즘을 이용하여 각 반수체에 대하여 간 판독을 쌍을 이루어 정렬을 수행한다. 이렇게 함으로써 주어진 상기 판독 데이터의 반수체 가능성에 대한 매트릭스를 생성한다. 이들 가능성은 상기 주어진 상기 판독 데이터에서 각 잠재적 변이 사이트에 대한 대립유전자들의 가능성을 수득하기 위하여 소외시킨다(marginalized).
4. 샘플 유전자 형질의 지정
각 잠재적 변이 사이트에 대하여, 상기 프로그램은 주어진 샘플에 대하여 관찰된 상기 주어진 판독 데이터 하에서 샘플 당 각 유전자 형질의 가능성을 계산하기 위하여 상기 주어진 판독 데이터 하에서의 대립유전자들의 가능성을 사용하여 Bayes rule(법칙)을 적용한다. 이후, 가장 가능성있는 유전자 형질을 상기 샘플에 지정한다.
관련 일 구현예에 있어서, 본 발명의 방법은 상기 SG 단편 bam 파일 또는 상기 MP 단편 bam 파일과 같은 입력 bam 파일의 SNP 및 Indel을 동정하기 위하여 변이 발견용 GATK 도구 중 하나인 UnifiedGenotyper를 사용한다. 일 구현예에서, 상기 input bam 파일은 최소한 약 0-배, 25-배, 30-배, 35-배, 40-배, 45-배 또는 약 50-배를 포함할 수 있는 SG 단편 bam 파일일 수 있다. 특정 구현예에 있어서, SNP 및 Indel을 동정하기 위하여 단지 SG bam 파일만이 사용될 수 있다. 특정 구현예에 있어서, SNP 및 Indel을 동정하기 위하여 단지 MP bam 파일만이 사용될 수 있다. 특정 구현예에 있어서, SNP 및 Indel을 동정하기 위하여 SG bam 파일 및 MP bam 파일을 모두 사용할 수 있다.
상기 UnifiedGenotyper는 여러 개의 이질적 호출자(disparate caller)의 접근을 통일하는 변이 호출자들(callers)로서 단일 샘플 및 복수의 샘플에 대해 작용한다. 상기 데이터 입력은 기타 다른 입력 중에서 bam 파일일 수 있다. 상기 출력은 상기 VCF 포맷에서 비정제, 비여과, 고민감성 호출세트(callset)이다. 특정 구현예에 있어서, 위양성(false positive) 호출을 제거하기 위하여 후호출(post-calling) 여과(예; 변이 품질 점수 재측정(Variant Quality Score Recalibration))를 사용할 수 있다. 특정 구현예에 있어서, 비-2배수체(non-diploid ) 또는 집단 샘플(pooled samples)을 처리하기 위하여 상기 일반화된 다배수체(ploidy) 모델을 사용할 수 있다.
특정 구현예에 있어서, 상기 UnifiedGenotyper는 SNP를 동정하는 데 사용할 수 있다. 특정 구현예에 있어서, 상기 HaplotypeCaller는 Indel을 동정하는 데 사용할 수 있다.
SNP와 같이 비교적 작은 게놈 변이와 비교하여, SV/CNV의 정확한 검출, 유전자 형질 및 이해는 SV/CNV의 검출 및 분석과 관련한 훨씬 많은 분석상 어려움 때문에 뒤쳐져 있는 상태이다. SV와 CNV는 고속 시퀀싱 데이터 및 예일 대학에서 개발된 것과 같은 다른 분석적 접근을 통하여 분석 및 검출할 수 있다. 예를 들면, vcf2diploid는 참조용 게놈 상의 개인 변이들을 포함하여 개인의 이배수체 게놈을 제작하는 데 사용될 수 있는 개인 게놈 제작체(personal genome constructor)이다 (참조, Rozowsky et al., AlleleSeq: analysis of allele-specific expression and binding in a network framework, Mol. Syst. Biol., 7:522. doi: 10.1038/msb.2011.54(2011, 참조로 인용됨). CNVnator는 분석 매핑의 깊이에서 CNV를 발견하고 유전자 형질을 지정하는 도구이다 (참조, Mills et al., Mapping copy number variation by population-scale genome sequencing, Nature, 470(7332):59-65. doi: 10.1038/nature09708(2011); and Abyzov et al., CNVnator: an approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing, Genome Res., 21(6):974-84. doi: 10.1101/gr.114876.110(2011) (모두 참조로 인용됨). AGE는 SV를 포함하는 서열들의 최적 정렬을 위한 알고리즘을 실행하는 도구이다 (참조; byzov and Gerstein, AGE: defining breakpoints of genomic structural variants at single-nucleotide resolution, through optimal alignments with gap excision, Bioinformatics, 27(5):595-603. doi:10.1093/bioinformatics/ btq713(2011) (참조로 인용됨). BreakSeq는 단일 염기 해상도(single nucleotide resolution)에서 SV의 주석, 분류 및 분석에 대한 파이프라인(pipeline)이다 (참조; Lam et al, Nucleotide-resolution analysis of structural variants using BreakSeq and a breakpoint library, Nat. Biotechnol., 28(1):47-55. doi: 10.1038/nbt.1600 (2010) (참조로 인용됨). PEMer는 쌍-말단 판독 매핑(paired-end read mapping)에 의하여 SV를 발견하는 계산 및 시뮬레이션 골격이다 (참조; Korbel et al., PEMer: a computational framework with simulation-based error models for inferring genomic structural variants from massive paired-end sequencing data, Genome Biol., 10(2):R23. doi: 10.1186/gb-2009-10-2-r23(2009); and Korbel et al., Paired-end mapping reveals extensive structural variation in the human genome, Science, 318(5849):420-6(2007) (모두 참조로 인용됨).
특정 구현예에 있어서, CNV는 차세대 시퀀싱 플랫폼들로부터 짧은 판독의 매핑 밀도의 통계적 분석(즉, 판독-깊이 분석(RD))으로부터 CNV를 검출하는 대중에게 제공되어 있는 CNVnator 패키지(http column double slash sv dot gersteinlab dot org slash cnvnator slash 에 무료로 제공되며 다양한 인간 및 비인간 게놈에 적용될 수 있음)를 사용하여 상기 SG 및/또는 MP bam 파일을 사용하여 동정할 수 있다. 상기에서 언급한 RD를 기초로 한 접근들(오직 낮은 중단점 해상도(breakpoint resolution)를 가지는 대형 CNV만을 발견하는 게놈의 고유 부위들에 한정됨)과 비교하여, CNVnator는 수 백 염기 내지 메가 염기에 이르는 길이를 가지는 광범위한 크기의 염기 범위의 전체 게놈에서 CNV를 발견할 수 있다. 더욱 구체적으로, 상기 RD 신호의 계산을 위하여, CNVnator는 전체 게놈을 동일 크기의 비중복적 상자(bins)로 나눈 후 각 상자(bin) 내의 매핑된 판독 카운트를 RD 신호로 사용한다. 이후, 상기 일반화된 신호를 상이한 기본 복제 수를 가질 것으로 예상되는 세그멘트로 분할한다. 추정 CNV는 통계적 유의성을 상기 세크멘트들에 적용함으로써 예측된다. 상기 분할은 원래 이미지 프로세싱용으로 컴퓨터 공학에서 개발된 평균 이동 기술(mean-shift technique)을 기초로 한다.
구체적으로, 상기 SG 및/또는 MP 단편들의 시퀀싱 데이터는 Illumina/Solexa, Roche/454 및 Life Technologies/SOLiD 시퀀싱 기술 플랫폼들을 포함하나 이에 국한되지 않는 NGS 방법들 중 임의의 방법과 같은 임의의 적합한 시퀀싱 방법을 사용하여 얻을 수 있다. 이러한 시퀀싱 데이터는 SG/MP bam 파일들을 생성하는 데 사용된다. 이후, 상기 CNVnator 소프트웨어 패키지는 상기 SG bam 파일, MP bam 파일 또는 모두를 기초로 하여 CNV를 호출/동정하는데 사용된다.
상기 SV(복제 수 중립(non-CNV) SV 포함)는 문헌 (Yao et al., Long Span DNA Paired-End-Tag(DNA-PET) Sequencing Strategy for the Interrogation of Genomic Structural Mutations and Fusion-Point-Guided Reconstruction of Amplicons, PLOS One, 7(9):e46152(2012) (참조로 인용됨))에 기재된 것과 실질적으로 동일한 방법을 사용하여 상기 SG 및/또는 MP bam 파일들을 사용하여 이러한 게놈 변이를 호출함으로써 본 발명의 방법들을 사용하여 동정할 수 있다. 상기 방법은 DNA 단편들에 대한 엄격한(tight) 크기 선정 및 작은 염색체내 재배열에 대한 고민감성과 관려된 작은 삽입 크기를 가지는 라이브러리(예; kilobase 이내의 범위)를 가지는 SV를 동정할 수 있다. 상기 방법은 또한 중단점(breakpoint) 부위들의 정밀도가 떨어지는 위치화(localization) 상의 단점을 가질 수 있는 더 넓은 물리적 게놈 범위와 관련된 더 큰 삽입 크기의 라이브러리들(예; 수 kilobase 내지 수십 kilobase 범위)을 동정할 수도 있다. 즉, 삽입 크기가 클수록 더 큰 물리적 포함 범위와 반복적 부위를 포함할 수 있으므로, 시퀀싱 수고를 줄일 수 있는 한편 클론 적용범위(clonal coverage)를 최대화하고 가능한한 많은 재배열 중간점을 검출할 수 있다. 반면에, 비교적 작은 삽입 크기는 더 나은 위치화 정보를 제공하며 5 kb 미만 영역의 결실(deletions)을 동정하는 데 유리하며, 더욱 정교한 삽입 크기로 인해 더 많은 수의 결실을 동정하게 되며 따라서 삽입 크기 분포와 관련하여 평균 오차 범위를 더 줄일 수 있다. 더우기, 여러 개의 삽입 크기가 조합된 라이브러리를 함께 사용할 경우, 상기 조합된 라이브러리를 가지는 중단점을 검출할 수 있는 확률은 상기 라이브러리 내의 삽입 크기의 한 가지 유형만을 사용할 경우에 비하여 훨씬 크다.
비록 큰 삽입 사이즈 라이브러리와 작은 삽입 사이즈 라이브러리가 중단점들을 발견하는 데 있어서 상호 견줄만한 정확도를 가지고 있긴 하지만, 큰 삽입 사이즈를 가지는 것이 융합-지점-안내-연접(fusion-point-guided-concatenation) 알고리즘을 토대로 반복적 서열들 내에서 SV를 더욱 잘 동정할 수 있다.
따라서, 일 구현예에서, 크기 선택은 비교적 작은 크기(예; 1, 2, 3, 4, 5 kb 등)의 원형 게놈 단편들을 제작하는 데 사용될 수 있다. 다른 구현예에 있어서, 크기 선택은 비교적 큰 크기(예; 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50 또는 그 이상의 kb 등)의 원형 게놈 단편들을 제작하는 데 사용될 수 있다. 특정 구현예에 있어서, 상이한/복수의 크기 범위를 가지는 원형 게놈 단편들이 사용하여 본 발명의 방법들을 수행한다.
상기 기재된 방법들을 사용하여, 상기 SV 및 MP 단편들용 서열 데이터들을 SG 및 MP bam 파일들에 컴파일링하여 하기 기재한 SV 검출에 사용한다.
특정 구현예에 있어서, 상기 MP bam 파일은 SV를 검출하는 본 발명의 방법에 사용된다. 상기 태그 서열을 플랭킹하는 상기 게놈 DNA 서열들은 쌍-말단 태그(paired-end tags; PETs)로도 칭한다. 서열 판독들의 매핑 패턴을 기초로 하여, 상기 PET는 일치 PET(cPET) 및 불일치 PET(dPET)로 칭한다. 상기 cPET는 두 태그가 모두 올바른 5' 에서 3'의 동일 염색체, 동일 가닥에 매핑되고 예상 포함 범위(span range) (예; 1 kb 라이브러리에 대하여 3 kb, 10 kb 라이브러리에 대하여 20 kb 및 20 kb 라이브러리에 대하여 40 kb 등) 내에 있는 경우의 PET로 정의된다. cPET 기준에 거절되는 PET는 dPET로 구분된다. 키메라 dPET는 라이브러리 제작 과정에서 결찰 오류로 생성될 수 있다. 이런 문제를 해결하고자, 동일한 융점을 포함하는 dPET는 클러스터를 형성할 것이 요구된다. 융점 주위에 클러스터링을 함께 형성하는 dPET의 수는 클러스터 크기 또는 클러스터 카운트로 표시된다. 어느 한 클러스터의 5' 태그에 의해 포함되는 게놈 부위는 5' 앵커(anchor)로 정의되고 어느 한 클러스터의 3' 태그에 의해 포함되는 게놈 부위는 3' 앵커(anchor)로 정의된다. SV를 동정하기 위해 단일 재정렬 지점(rearrangement point)을 가진 SV가 결실단일 dPET 클러스터로 동정된다; 예를 들어 5' 매핑 앵커 부위가 3' 매핑 앵커 부위로부터 멀리 떨어진 경우에는 결실로; 매핑 순서가 정상적인 5'에서 3'의 순서가 아니라 3'에서 5'의 순서인 경우에는 탠덤 복제로; 매핑 오리엔테이션이 역으로 된 경우(다른 가닥 상으로 매핑) 홀 역위(unpaired inversion)로; 그리고 5' 및 3' 앵커가 상이한 염색체들에 매핑될 경우에는 단리된 전좌(translocation)로 동정된다. 역위, 삽입 및 균형된 전좌들은 두 개의 근접 위치한 dPET 클러스터에 의해 동정된다.
복잡한 지역들에서 중단점들을 격리되고 덜 복잡한 SV들로부터 분리하기 위하여, 중단점을 토대로 한 상호 연결 네트워크를 구축할 수 있다. 각 dPET 클러스터 앵커 부위의 시작점과 끝점으로부터의 확장은 중단점 부근을 결정하는 검색창으로서 상기 라이브러리의 최대 삽입 크기만큼 생성된다. 상기 dPET 클러스터들은 인접 클러스터들의 창과 중첩되는 경우에는 수퍼 클러스터로서 분류된다. 수퍼 클러스터로 함께 결합될 수있는 dPET 클러스터의 수는 수퍼 클러스터 크기 또는 수퍼 클러스터 카운트로 표시된다.
특정 구현예에 있어서, 상이한 크기가 선택된 삽입 크기들이 사용된다. 이러한 구현예들에 있어서, 상이한 삽입 크기 라이브러리를 포함하는 dPET 클러스터들은 개개 라이브러리 삽입 크기에 의하여 확장된 5' 및 3' 앵커 부위의 중첩을 토대로 수행될 수 있다. 예를 들면, 10 kb와 20 kb의 삽입 크기 라이브러리를 포함하는 dPET 클러스터들을 비교하기 위하여, 상기 클러스터의 5' 및 3' 앵커 부위들을 중단점들을 향하여 상기 라이브러리의 최대 길이만큼 확장하여 검색창을 생성한다. 동일한 SV유형에 속하는 다른 삽입 크기 라이브러리들로부터 dPET 클러스터의 5' 및 3' 앵커 부위들이 상기 검색창에 속하게 되면, 상기 클러스터들은 공통(common) SV 그룹으로 분리된다. 상기 검색창에서 다른 어떤 클러스터도 발견되지 않는 경우에느, 상기 클러스터는 상기 삽입 크기 라이브러리에 특이한 SV 그룹으로 분류된다.
특정 구현예에 있어서, 본 발명의 방법은 세포유전학적 문맥(context)에서 상기 동정된 SV들을 입증하거나 또는 상기 SV들을 위치시키기 위하여 형광 인 시투 혼성화(fluorescence in situ hybridization; FISH)의 이용을 추가로 포함할 수 있다.
특정 구현예에 있어서, 본 발명의 방법은 상기 동정된 중단점들을 입증하는 방법들(예; 게놈 PCR 및 Sanger 시퀀싱)을 추가로 포함할 수 있다.
특정 구현예에 있어서, 본 발명의 방법은 융합-지점-안내-연접(fusion-point-guided-concatenation) 알고리즘을 사용하여 상기 동정된 중단점들의 전체 게놈 재정렬을 재건축하는 방법을 추가로 포함할 수 있다. 특히, 상기 참조 게놈을 콘티그(contigs)로 분할하는 것은 dPET 클러스터들로 동정된 중단점들 및 물리적인 cPET 포함 범위(coverage)없이 추가 중단점들을 동정하는 것을 기반으로 하여 조립된다. 상기 참조 게놈에서 연속적인 콘티그(contigs)는 연결용 cPET의 존재 하에 기준 에지(reference edge)에 의해 연결된다. 따라서, dPET 클러스터로 연결된 콘티그는 dPET 에지로 표시되는데, 여기에서 에지는 클러스터의 크기에 의해 가중치가 부여된다. 이후, 국부적으로 증폭된 부위들은 다음과 같은 방법으로 동정된다: 첫째, 가장 큰 무게를 가지는 dPET 에지가 선택되고 이 에지의 인접 contigs는 앰플리콘(amplicon) 그래프에 추가된다. 이후, 상기 그래프의 각 콘티그에 대해, 그 주변 부위들 또한 이들이 증폭된 것으로 고려되는한(2보다 큰 cPET 추정 복제수) 참조 및 dPET 링크들을 사용하여 추가된다. 앰플리콘 그래프는 더 이상 contigs가 추가 될 수 없을 때까지 이런 식으로 성장한다. 이후, 상기 프로세스는 사용되지 않는 dPET 에지에서 아무 것도 남지 않을 때까지 반복되어 그 결과 일련의 (a set of) 앰플리콘 그래프들을 얻게 되며 두 개 이상의 콘티그를 가지는 그래프들만 추가로 고려된다.
4. 질병 및 장애에서 게놈 변이의 검출
본 발명의 방법들은 임의의 유기체로부터 단일 분석으로 모든 유형의 게놈 변이를 검출하는 데 사용된다. 본 발명의 방법들은 복잡한 근본적 게놈 결함이 있는 것으로 알려진 인간 질병이나 장애에서 이들 게놈 변이들을 동정하는 데 특히 유용하다.
특정 구현예에 있어서, 본 발명의 방법들은 자폐 스펙트럼 장애 (ASD) 환자 또는 ASD를 가진 것으로 의심되거나 ASD의 발병 가능성이 높은 환자들에서 게놈 변이를 검출하는 데 사용할 수 있다.
ASD는 사회적 상호 관계 및 의사 소통의 이상, 제한된 관심사 및 반복적인 행동들의 특징으로 인해 점차 링크된 발달 장애의 집합으로 진단되고 있다. 전통적 자폐증이나 자폐 장애에 더불어, 제5판 정신의학회(American Psychiatric Association's(APA))의 정신 장애 진단 및 통계 편람(Diagnostic and Statistical Manual of Mental Disorders(DSM-5))에 따르면, 구체적으로 달리 언급되지 않는 한(PDD- NOS), 아스퍼거 증후군 (Asperger syndrome), 아동기 붕괴 장애 및 퍼베이시브 발달 장애(Childhood Disintegrative Disorder) 및 전반적 발달 장애(Pervasive Developmental Disorder)을 ASD로 인식하고 있다.
정신 분열증과 마찬가지로, 100 개가 넘는 다른 유전자좌의 돌연변이가 ASD에서 발견되었으며, 따라서 임의의 ASD 개인 환자에 있어서 복잡한 근본적 유전적 결함을 밝히는데 본 발명의 방법들이 특히 적합함이 밝혀졌다.
ASD는 신경 발달 장애(NDD)의 한 유형이며, 신경 발달 장애는 또한 취약 X 증후군(Fragile X Syndrome; FXS), 안젤만 증후군 (Angelman Syndrome), 결절성 경화증(Tuberous Sclerosis Complex), 펠란 맥더미드 증후군(Phelan McDermid Syndrome), 레트 증후군(Rett Syndrome), CDKL5 돌연변이들(레트 증후군 및 X-연관 유아 경련 장애와도 관련됨) 및 기타 장애를 포함한다. 대다수 NDD가 유전적 돌연변이에 의해 유발되지만 모든 NDD가 유전적 돌연변이에 의해 유발되는 것은 아니다. 일부 NDD 환자는 자폐증의 행동과 증상을 보인다. 따라서, 본 발명의 방법들은 이들 NDD 질병에도 사용될 수 있다.
특정 구현예에 있어서, 본 발명의 방법들은 다중 유전자(multiple genes) 간 및 유전자들과 환경 간의 상호 작용으로 발생하는 다른 복잡한 질병에서 게놈 변이를 탐지하는 데 사용할 수 있다. 이러한 복잡한 질병들은 알츠하이머 질환(Alzheimers disease), 천식(asthma), 파킨슨 질환(Parkinsons disease), 당뇨(diabetes), 비만(obesity), 심장질환(heart conditions), 암(cancers), 고혈압(high blood pressure), 기타 유사 심장순환계 질환(other familiar diseases of the heart and circulatory system), 정신분열증 및 우울증과 같은 정신 질환(psychiatric illness such as schizophrenia and depression), 관절염 및 크론병(Crohns disease)과 같은 감염성 자가 면역 질환(inflammatory autoimmune diseases), 다발성 경화증(multiple sclerosis) 등을 포함할 수 있으나 이에 국한되지는 않는다.
실시예
실시예 1
본 발명의 방법들을 사용하여 자폐증 환자 P46107에서 다양한 게놈 변이를 동정하였고 특성이 파악된 게놈 변이들은 크기를 기준으로 표로 만들어 하기 표에 도시되어 있다. "DNA-PET"는 MP 시퀀싱 데이터를 나타낸다.
구체적으로, 상기 환자 샘플은 병원에서 얻었고 해당 샘플은 시퀀싱 및 분석 전에 익명 처리되었다. 제조사의 지침에 따라 AllPrep DNA/RNA Mini키트(Qiagen)를 이용하여 샘플로부터 게놈 DNA를 추출 하였다. 상기 DNA 시퀀싱 라이브러리는 상기 본 발명의 방법들을 사용하여 제조하였다. 요약하면, 상기 게놈 DNA 샘플은 Illumina 배합 메이트 쌍 트랜스포좀(formulated mate pair transposome)을 이용하여 접합 어댑터로 동시에 단편화 및 태그되었다. 상기 타그멘테이션(tagmentation) 이후, 타그멘트된 DNA에서 짧은 단일 가닥 배열 갭을 폴리머라제를 사용하여 가닥 변위 반응에 의해 채워 넣었다. 6 내지 8 kb의 게놈 DNA 단편들을 Sage Pippin Prep에 의해 선택하였다. 상기 크기 선택된 단편들을 말단이 블런트화된 분자간 결찰에 의해 원형 분자들 형성할 수 있는 단편의 수를 최대화하기 위하여 밤새도록 배양하여 원형화하였다. 이후, 상기 원형화된 DNA 단편들을 물리적으로 전단하여 평균 크기 약 400-500 bp의 단편으로 만들었다. Illumina TruSeq 어댑터들을 상기 단편화된 DNA에 결찰하기 전에, 상기 전단된 단편들에 대하여 말단 복구 및 A 거미반응(A-tailing reaction)을 수행하였다. 상기 단편화된 DNA를 제조사의 제안에 따라 Illumina Hi-Seq 2500을 사용하여 2150 bp씩 시퀀싱하였다.
상기 서열 상의 접합 어댑터(junction adaptor)를 사용하여, 상기 MP 및 SG 단편 서열들을 서열 분석을 토대로 별도로 분류하였다. 상기 MP 및 SG 단편 서열들을 각각 참조용 인간 게놈에 매핑하여 2개의 bam 파일을 생성하였다. 상기 매핑된 SG 및/또는 MP bam 파일들은 하기한 바와 같이 모든 유전적 변이의 검출을 위해 사용하였다. 상기 샘플에서 검출된 게놈 변이들은 그룹별로 분리 후 하기 표에 요약하였다.
Del 크기
DNA-PET에 의한 검출 SG에 의한 검출 DNA-PET 및 SG에 의한 검출
비율(%) 비율(%) 비율(%)
<1kb 0 0 1782 65.9 0 0
1-5kb 0 0 614 22.7 0 0
5-10kb 61 31.8 140 5.2 44 42.7
10-20kb 96 50 42 1.6 37 35.9
20-100kb 28 14.6 64 2.4 21 20.4
>100kb 7 3.6 64 2.4 1 1.0
합계 192 100 2706 100 103 100
MP 시퀀싱 데이터는 보다 큰 크기의 결실(예, 5kb 및 그 이상)의 경우에 가장 적합한 반면, SG 시퀀싱 데이터는 보다 작은 크기의 결실(예, 5kb 또는 그 이하)의 경우에 더 적합하다. 일부 변이는 SG 및 MP 시퀀싱 데이터 모두에 의해 검출될 수 있다. 이는 모든 유형의 게놈 변이 (규모 면에서 큰 것과 작은 것 모두)가 한 명의 환자 샘플로부터 단일 시퀀싱 수행을 통하여 본 발명의 방법을 사용하여 효율적으로 검출할 수 있음을 의미한다.
실시예 2
본 발명의 방법들을 사용하여 5명의 자폐증 환자에서 다양한 게놈 변이를 동정하였고 그 결과를 정렬 CGH(array CGH; aCGH) 및 엑손 시퀀싱을 토대로 현재 표준 분석법을 사용하여 동일 환자들로부터 동정된 것들과 비교하였다.
상기 비교 결과, 상기 전통적 aCGH 분석에 의해 동정된 각 CNV 구조 변이에 대하여, 본 발명의 방법들에 의하여 동정된 완전한 매치가 확인되었다. 그러나, 본 발명의 방법들은 aCGH에 의해 동정되지 않은 훨씬 많은 게놈 변이들을 동정하였고, 따라서 본 발명의 방법들을 사용할 경우 보다 많은 신규 변이들을 동정할 기회를 가질 수 있음이 확인되었다.
예를 들면, 환자 DBS0005(자폐 스펙트럼 장애)에 대하여, 트랜스 게놈성 산후 직후 고밀도 SNB 정렬(Transgenomic Postnatal High Density SNP Array) 시험 결과, 유전자 LYRM7 및 HINT1를 포함하는 염색체 부위 5q23.3에 383.4 kb 결실이 있음이 확인되었다. 본 발명의 방법들을 사용하여, 상기 동일 염색체 부분(Chr5: 130140673-130520365)에 383.591 bp 결실이 있음이 확인되었다.
또 다른 구현예에 있어서, 환자 DBS0010(언어 지연 증상을 가진 자폐증)와 관련하여, 전체 게놈에 대한 aCGH 및 SNP 분석에 대한 GeneDX GenomeDx 보고서에 따르면, 상기 환자는 세포유전학적 밴드 12q24.33 내의 최소한 302 kb의 부위의 복제부분을 가지고 있으며, 이 복제 부분은 7개의 공지된 유전자를 포함하는 것으로 확인되었다. 본 발명의 방법을 사용하여 동일 염색체(chr.12 부위; 133091631-133393167))에서 312 bp 및717 bp의 탠덤 복제가 동정되었다.
또한, 본 발명의 방법들은 전통적 방법인 aCGH에 의해 동정되지 않은 하기 환자의 특이 결실을 동정하였다. 본 발명의 방법이 훨씬 더 많은 게놈 변이들을 동정할 수 있는 이유는 aCGH 방법은 중대한 해상도 제한이 있어서 단지 200 kb 보다 큰 결실들만을 신뢰성있게 검출할 수 있는 반면, 본 발명의 방법들은 수 백 염기쌍 내지 수백 kb까지 포함하여 훨씬 더 높은 해상도로 결실을 검출할 수 있기 때문이다.
Figure pct00001
* 환자 1-5는 각각 DBS0005, 0007, 0008, 0010 및 0011이다.
>10 kb 크기의 결실은 273개였고; >20 kb 크기의 결실은 29개였다.
유사하게, SNP에 대해서도, 전통적 방법인 엑손 시퀀싱에 의해 분석된 51개 중 49개가 또한 본 발명의 방법들에 의해 동정되었다 (96% 매치). 사실상, 상기 2 SNP의 차이에 대하여는, 이들이 엑손 시퀀싱 방법에 따른 위양성(false positive) 동정이었는지 또는 본 발명의 방법들에 의한 위음성(false negative)에 의한 것이었는지는 확실하지 않다.
구체적으로, Courtagen 유전자 패널 SNP 데이터는 본 발명의 방법들에 의해 동정된 SNP 데이터를 비교하였고 상기 5 환자에서의 결과를 하기 표에 요약하였다.


Courtagen 지원자(Applicant) 매치(%)
DBS0005 7 7 100
DBS0007 6 6 100
DBS0008 3 3 100
DBS0010 4 3 75
DBS0011 4 3 75
더욱 구체적으로, 환자 DBS0005에서, 하기 유전자들에서 하기 SNP들을 Courtagen 및 본 발명의 방법들에 의하여 동정하였다:
유전자 Courtagen 지원자(Applicant) 매치
CREBBP G/A G/A Yes
HOXA1 T/C T/C Yes
MAP2K2 G/A G/A Yes
MET T/C T/C Yes
NHS C/T C/T Yes
RELN C/T C/T Yes
TSC1 G/A G/A Yes
환자 DBS0007에서, 하기 유전자들에서 하기 SNP들을 Courtagen 및 본 발명의 방법들에 의하여 동정하였다:
유전자 Courtagen
지원자(Applicant) 매치
KIAA2022 G/A G/A Yes
MBD5 G/A G/A Yes
MED12 C/T C/T Yes
MKKS C/T C/T Yes
NIPBL G/A G/A Yes
VPS13B C/T C/T Yes
환자 DBS0008에서, 하기 유전자들에서 하기 SNP들을 Courtagen 및 본 발명의 방법들에 의하여 동정하였다:
유전자 Courtagen 지원자(Applicant) 매치
MED12 G/A G/A Yes
MED23 TTC/T TTC/T Yes
RAF1 C/T C/T Yes
환자 DBS0010에서, 하기 유전자들에서 하기 SNP들을 Courtagen 및 본 발명의 방법들에 의하여 동정하였다:
유전자 Courtagen 지원자(Applicant) 매치
NRXN1 G/A G/A Yes
SGSH G/C G/C Yes
TRAPPC9 C/T C/T Yes
TSC2 T/C NONE NO
환자 DBS0011에서, 하기 유전자들에서 하기 SNP들을 Courtagen 및 본 발명의 방법들에 의하여 동정하였다:
유전자 Courtagen 지원자(Applicant) 매치
GRIN2B G/C G/C Yes
NAGLU C/T C/T Yes
SCN1A C/T NONE Yes
TSC2 A/G A/G NO
요약하면, 이들 5 환자의 데이터 세트를 토대로, 본 발명의 방법들은 매우 잘 적용되었고 또한 모든 게놈 변이들을 동정하는 새로운 기준으로서 복수의 기존 표준 분석법들을 대체할 큰 잠재력을 가지고 있음을 입증하였다.

Claims (20)

  1. 유기체의 게놈에서 게놈 변이를 검출하는 방법에 있어서, 상기 방법은:
    (1) 복수의 게놈 DNA 단편을 만들기 위해 유기체의 게놈 DNA를 단편화하고;
    (2) 상기 게놈 DNA 단편의 말단을 태그 서열로 태그하고;
    (3) 결찰된 태그 서열을 가지는 복수의 원형화된 게놈 DNA 단편을 만들기 위해 블런트_말단 분자내 결찰을 촉진하는 조건 하에서 상기 게놈 DNA 단편의 태그된 말단을 결찰하고;
    (4) 복수의 원형화된 게놈 DNA 단편을 샷건 단편화에 의해 단편화하여,
    (a) 각각이 플랭킹 게놈 DNA에 의해 플랭크된 결찰된 태그 서열을 포함하는, 복수의 메이트-쌍(MP) 단편; 및
    (b) 복수의 샷건(SG) 단편을 만들고;
    (5) 상기 MP 단편 및 상기 SG 단편의 서열들을 결정하고; 및
    (6) 상기 SG 단편의 서열들과 상기 MP 단편의 서열들을 토대로 상기 유기체의 게놈에서 상기 게놈 변이를 동정해내는 단계;를 포함하는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  2. 제 1항에 있어서, 상기 게놈 변이는 단일염기다형성(single nucleotide polymorphisms; SNPs); 작은 삽입 및 결실(small insertions and deletions; Indels; 탠덤 염기 돌연변이(tandem base mutations; TBM); 복제수 변이(copy number variations; CNVs); 구조적 변이(structural variations; SVs) 및 이들의 조합을 하나 또는 그 이상 포함하는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  3. 제 1항에 있어서, 상기(1) 단계와 (2) 단계는 동시에 수행되는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  4. 제 3항에 있어서, 상기 (1) 단계와 (2) 단계는 트랜스포존-매개된 타그멘테이션(tagmentation)에 의해 영향을 받는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  5. 제 4항에 있어서, 상기 트랜스포존-매개된 타그멘테이션는 Tn5 전위효소(transposase)에 의해 수행되는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  6. 제 1항에 있어서, 상기 복수의 게놈 DNA 단편은 (3) 단계 이전에 크기가 선택되는(size-selected) 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  7. 제 6항에 있어서, 약 4 내지 10 kb 또는 약 6 내지 8 kb 크기의 게놈 DNA 단편이 선택되는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  8. 제 1항에 있어서, 비원형화되거나 또는 선형 게놈 DNA 단편은 (4) 단계 내지(6) 단계 이전에 DNA 엑소뉴클레아제 절단에 의해 제거되는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  9. 제 1항에 있어서, 상기 MP 단편과 상기 SG 단편의 서열들은 별도로 결정되거나 또는 동시에 결정되는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  10. 제 1항에 있어서, 상기 SG 단편은 평균 약 400 bp, 450 bp, 또는 500 bp인 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  11. 제 1항에 있어서, 상기 MP 단편은 평균 약 400 bp, 450 bp, 또는 500 bp인 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  12. 제 1항에 있어서, 상기 MP 단편과 상기 SG 단편은 (5) 단계 이전에 서로 단리되는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  13. 제 1항에 있어서, 상기 MP 단편과 상기 SG 단편은 (5) 단계 이전에 서로 단리되지 않는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  14. 제 1항에 있어서, 상기 게놈 DNA 단편의 태그된 말단은 (3) 단계 이전에 블런트 말단 결찰을 촉진하기 위하여 복구되는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  15. 제 1항에 있어서, 상기(6) 단계는 상기 플랭킹 게놈 DNA의 서열과 상기 샷건 단편의 서열을 상기 유기체의 게놈 서열에 매핑하는 것을 포함하는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  16. 제 1항에 있어서, 상기 게놈 DNA의 서열은 고속(high-throughput) 시퀀싱에 의해 결정되는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  17. 제 16항에 있어서, 상기 고속(high-throughput) 시퀀싱은 단일 분자 실시간 시퀀싱; 이온 반도체(이온 토렌트) 시퀀싱; 파이로시퀀싱(454); 합성에 의한 시퀀싱(Illumina); 결찰에 의한 시퀀싱(SOLiD sequencing); 폴로니 시퀀싱(polony sequencing); 대규모 병렬 시그니처 시퀀싱(parallel signature sequencing)(MPSS); DNA 나노볼 시퀀싱(nanoball sequencing); 단일 분자 나노기공 시퀀서(single molecule nanopore sequencer); 및 헬리스콥 단일 분자 시퀀싱(Heliscope single molecule sequencing)로 구성된 그룹에서 선택된 방법인 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  18. 제 16항에 있어서, 상기 고속(high-throughput) 시퀀싱은 상기 플랭킹 게놈 DNA 및/또는 상기 샷건 단편의 30-, 40-, 50-, 60-, 70-, 80-, 90-, 100- 또는 그 이상의 배수 범위(fold of coverage)를 포함하는 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  19. 제 1항에 있어서, 상기 유기체는 인간, 비인간 영장류, 포유류, 설치류(쥐, 생쥐, 햄스터, 토끼), 가축(소, 돼지, 말, 양, 염소), 조류(닭), 파충류, 양서류(제노퍼스(Xenopus)), 어류(제브라피시(zebrafish(다니오 레리오(Danio rerio)), 복어(puffer fish)), 곤충류(초파리(Drosophila), 모기), 선충, 기생충, 진균(맥주 효모(S. cerevisae) 또는 분열 효모(S. pombe)와 같은 효모), 식물, 박테리아, 또는 바이러스인 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
  20. 제 1항에 있어서, 상기 유기체는 자폐증(자폐 스펙트럼 장애(autism spectrum disorder(ASD)), 암, 또는 유전병(hereditary disease)으로 구성된 군에서 선택되는 질병이나 상태를 가진 인간인 것인, 유기체의 게놈에서 게놈 변이를 검출하는 방법.
KR1020177031113A 2015-04-02 2016-04-01 원형화된 메이트-쌍 라이브러리와 샷건 시퀀싱을 이용한 게놈 변이 검출 방법 KR20170133420A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562142088P 2015-04-02 2015-04-02
US62/142,088 2015-04-02
PCT/US2016/025475 WO2016161236A1 (en) 2015-04-02 2016-04-01 Method for detecting genomic variations using circularised mate-pair library and shotgun sequencing

Publications (1)

Publication Number Publication Date
KR20170133420A true KR20170133420A (ko) 2017-12-05

Family

ID=55795182

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177031113A KR20170133420A (ko) 2015-04-02 2016-04-01 원형화된 메이트-쌍 라이브러리와 샷건 시퀀싱을 이용한 게놈 변이 검출 방법

Country Status (11)

Country Link
US (1) US20180135120A1 (ko)
EP (1) EP3277840A1 (ko)
JP (1) JP2018509928A (ko)
KR (1) KR20170133420A (ko)
CN (1) CN107889508A (ko)
AU (1) AU2016242953A1 (ko)
CA (1) CA2980769A1 (ko)
HK (1) HK1250171A1 (ko)
IL (1) IL254713A0 (ko)
SG (2) SG10201909182WA (ko)
WO (1) WO2016161236A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110964795B (zh) * 2018-12-13 2020-09-18 北京先声医学检验实验室有限公司 基于纳米孔测序平台的肺泡灌洗液样本建库方法、鉴定方法及试剂盒
JP6883600B2 (ja) * 2019-03-07 2021-06-09 シスメックス株式会社 医療関係者による遺伝子情報の解釈を支援する方法、情報管理システム、統合データ管理装置
CN110349635B (zh) * 2019-06-11 2021-06-11 华南理工大学 一种基因测序数据质量分数的并行压缩方法
CN113724788B (zh) * 2021-07-29 2023-09-12 哈尔滨医科大学 一种鉴定肿瘤细胞的染色体外环状dna组成基因的方法
US20230121442A1 (en) 2021-10-06 2023-04-20 Johnson & Johnson Consumer Inc. Method of Quantifying Product Impact on Human Microbiome
CN114438182B (zh) * 2022-02-18 2024-04-05 杭州柏熠科技有限公司 基于纳米孔测序的进境植物检疫性病毒鉴定方法及应用
CN114743598B (zh) * 2022-06-14 2022-09-02 湖南大学 一种基于信息论检测新冠病毒谱系间重组的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE437945T1 (de) 2003-01-29 2009-08-15 454 Corp Verfahren zur amplifikation und sequenzierung von nukleinsäuren
JP2011510669A (ja) * 2008-02-05 2011-04-07 エフ.ホフマン−ラ ロシュ アーゲー ペアエンド配列決定の方法
US8383345B2 (en) * 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
WO2012061832A1 (en) * 2010-11-05 2012-05-10 Illumina, Inc. Linking sequence reads using paired code tags
AU2012212148B8 (en) * 2011-02-02 2017-07-06 University Of Washington Through Its Center For Commercialization Massively parallel contiguity mapping
DK2970951T3 (da) * 2013-03-13 2019-05-13 Illumina Inc Fremgangsmåder til nukleinsyresekventering

Also Published As

Publication number Publication date
AU2016242953A1 (en) 2017-10-12
HK1250171A1 (zh) 2018-11-30
SG10201909182WA (en) 2019-11-28
EP3277840A1 (en) 2018-02-07
SG11201707909YA (en) 2017-10-30
IL254713A0 (en) 2017-11-30
CN107889508A (zh) 2018-04-06
US20180135120A1 (en) 2018-05-17
CA2980769A1 (en) 2016-10-06
JP2018509928A (ja) 2018-04-12
WO2016161236A1 (en) 2016-10-06

Similar Documents

Publication Publication Date Title
US20190002969A1 (en) Multiple tagging of long dna fragments
AU2016202139B2 (en) Sequencing small amounts of complex nucleic acids
US20180135120A1 (en) Comprehensive methods for detecting genomic variations
Medvedev et al. Computational methods for discovering structural variation with next-generation sequencing
AU2012242525B2 (en) Processing and analysis of complex nucleic acid sequence data
US11149311B2 (en) Whole-genome haplotype reconstruction
JP2018134083A (ja) 腫瘍試料の多重遺伝子分析の最適化
Hård et al. Long-read whole-genome analysis of human single cells
KR20190037201A (ko) 보존된 샘플로부터의 장범위 링키지 정보의 회수
Jiang et al. The Bioinformatic Applications of Hi-C and Linked Reads