KR20220002929A - 유전학적 분석을 위한 방법 및 시스템 - Google Patents

유전학적 분석을 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20220002929A
KR20220002929A KR1020217035011A KR20217035011A KR20220002929A KR 20220002929 A KR20220002929 A KR 20220002929A KR 1020217035011 A KR1020217035011 A KR 1020217035011A KR 20217035011 A KR20217035011 A KR 20217035011A KR 20220002929 A KR20220002929 A KR 20220002929A
Authority
KR
South Korea
Prior art keywords
sample
dna
microhaplotypes
region
snps
Prior art date
Application number
KR1020217035011A
Other languages
English (en)
Inventor
존 에프. 톰슨
브렛 위티
Original Assignee
퍼스널 게놈 다이아그노스틱스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퍼스널 게놈 다이아그노스틱스 인코포레이티드 filed Critical 퍼스널 게놈 다이아그노스틱스 인코포레이티드
Publication of KR20220002929A publication Critical patent/KR20220002929A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Physiology (AREA)
  • Immunology (AREA)
  • Ecology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 개시는 유전학적 분석을 위한 계산적 방법 뿐만 아니라 그와 같은 분석을 실행하기 위한 시스템을 제공한다. 본 개시는 삽입 또는 결실 SNP보다 우선적인 단일 염기쌍 치환(SBS)인 SNP와 연관된 마이크로하플로타입을 활용하는 유전학적 분석의 방법을 제공한다. 이와 같은 마이크로하플로타입의 분석은, 다른 어떤 응용 중에서도, 법의학적 유전 활용, 시료 오염 분석 및 질병 분석에 유용하다.

Description

유전학적 분석을 위한 방법 및 시스템
관련 출원에 대한 상호 참조
본 출원은 2019년 4월 22일 출원된 미국 연속출원(Serial) 제62/837,034호의 35 U.S.C. §119(e) 하에서 우선권의 혜택을 주장하되, 상기의 전체 내용은 본원에 전체가 참조로 편입되었다.
기술분야
본 발명은 일반적으로 유전학적 분석에 관한 것이고, 좀 더 구체적으로는 복합 DNA 혼합물에서 유전적 정체성을 결정하기 위한 마이크로하플로타입의 분석 방법 및 시스템에 관한 것이다.
인간 유전체 중 서열 변이는 인간의 식별 및 법의학적 적용에 초석이다. 유전 핑거프린트법은 개인의 유전 정보(예를 들면, RNA, DNA)의 특징으로 개인을 식별하기 위해 사용되는 법의학적 기법이다. 유전 지문은 모든 관련이 없는 개인에게서 상이할 가능성이 큰, 그래서 지문만큼이나 개인에게 고유할 수 있는, 하나 이상의 핵산 변이의 작은 집합이다.
서열 변이는 생물학적 시료의 오염의 검출, 법의학적 분석, 질병 발견 및 집단 유전학(population genetics) 등 수많은 응용을 위한 유전학적 분석에 유용하다. 단일 뉴클레오타이드 다형성(SNP)이 오랫동안 그와 같은 응용을 위한 유전학적 분석에 사용되어져 왔다.
생물학적 시료의 DNA 오염은 만연한 문제이다. 오염은 시료 수집/처리의 거의 모든 단계에서 발생할 수 있다. 예를 들면, 슬라이드가 절단 중에 오염될 수 있고, 액체가 시험관에서 다른 시험관으로 부주의하게 옮겨질 수 있고, 라이브러리가 섞일 수 있고, 그리고 시료 바코드가 불순하거나 또는 품질이 불량한 서열을 가질 수 있다. 오염은 수율이 낮고 및/또는 DNA 품질이 불량한 시료에서 좀 더 눈에 띌 수 있다.
SNPCheckTM 은 SNP의 존재 여부에 대한 일괄 검사를 수행하기 위한 도구로, 시료에서 DNA 오염의 존재를 확인하기 위해 활용될 수 있다. 정상적인 조직 또는 cfDNA와 같이 '잘 거동하는(well-behaved)' DNA의 경우, 소수 대립유전자 빈도(MAF)가 거의 모두 약 0 또는 0.5이기 때문에 SNPCheckTM 은 합리적인 결과를 제공할 수 있다. 하지만, 상당히 높은 오염 수준은 상기 MAF가 너무 높고 0.5에 접근할 수 있기 때문에 누락된다. 종양 DNA는, 극단적인 복제 개수 변이가 0.02 내지 0.98의 범위의 MAF를 초래할 수 있기 때문에, '잘 거동하지' 않는다. 이것은 오염에 대한 MAF와 실제 변이에 대한 MAF가 유의미하게 겹칠 수 있음을 의미한다.
DNA 오염을 검출하고 더 나아가 정확한 방법으로 오염의 양을 수량화할 수 있기 위해서는 MAF와 독립적인 또는 거의 독립적인 검출 방법이 필요하다.
발명의 요약
본 개시는 삽입 또는 결실 SNP보다 우선적인 단일 염기쌍 치환(SBS)인 SNP와 연관된 마이크로하플로타입을 활용하는 유전학적 분석의 방법을 제공한다. 이와 같은 마이크로하플로타입의 분석은, 다른 어떤 응용 중에서도, 법의학적 유전 활용, 시료 오염 분석 및 질병 분석에 유용하다.
일 구현예에서, 본 개시는 유전학적 분석을 위한 방법을 제공하되, 상기 방법은 a) 시료에서 마이크로하플로타입이 적어도 3개가 있는 SNP 집합을 식별하는 단계 및 b) 마이크로하플로타입이 2개보다 많은 SNP 집합 내에서 하플로타입의 빈도를 수량화하는 단계를 포함한다.
또 다른 구현예에서, 본 개시는 유전학적 분석을 위한 방법을 제공하되, 상기 방법은 a) 시료에서 마이크로하플로타입이 적어도 3개가 있는 SNP 집합을 식별하는 단계 및 b) 마이크로하플로타입이 2개보다 많은 SNP 집합 내에서 하플로타입의 빈도를 수량화하여 상기 시료에 DNA 오염의 존재 또는 부재를 결정하는 단계를 포함한다.
그 밖의 또 다른 구현예에서, 상기 개시는 유전학적 분석을 위한 방법을 제공하되, 상기 방법은 a) 시료에서 마이크로하플로타입이 적어도 3개가 있는 SNP 집합을 식별하는 단계; 및 b) 마이크로하플로타입이 2개보다 많은 SNP 집합 내에서 하플로타입의 빈도를 수량화하여 질병 또는 장애를 나타내는 유전 마커의 존재 또는 부재를 결정하는 단계를 포함한다.
여전히 또 다른 구현예에서, 상기 개시는 유전체에서 마이크로하플로타입을 식별하는 방법을 제공한다. 상기 방법은 a) 상기 유전체의 관심대상 영역을 식별하는 단계; b) 상기 관심대상 영역 내에서 SBS를 검출함으로써, 다중 서열 변이 집합을 생성하는 단계; c) 후보 마이크로하플로타입을 식별하기 위해 연관 비평형에 대해 각각의 변이 집합을 분석하는 단계; 및 d) 후보 마이크로하플로타입을 식별하는 단계를 포함한다.
또 다른 구현예에서, 본 개시는 시료에 존재하는 여러 개체로부터 유래된 마이크로하플로타입이 적어도 3개가 있는 SNP 집합을 검출하기 위한 방법을 제공한다. 상기 방법은 a) 상기 시료에서 유전체 중 마이크로하플로타입을 식별하는 단계; b) 상기 시료에서 마이크로하플로타입이 적어도 3개가 있는 SNP 집합의 개수를 결정하는 단계; 및 c) 마이크로하플로타입이 2개보다 많은 SNP 집합 내의 하플로타입의 빈도를 수량화하여 상기 시료에 있는 여러 개체로부터 유래된 DNA의 존재 여부를 결정함으로써, 상기 시료에 있는 여러 개체로부터 유래된 DNA를 검출하는 단계를 포함한다. 일 구현예에서, 식별 단계는 i) 상기 유전체의 관심대상 영역을 식별하는 단계; ii) 상기 관심대상 영역 내에서 SBS를 검출함으로써, 다중 서열 변이 집합을 생성하는 단계; 및 iii) LD에 대해 각각의 변이 집합을 분석하여 마이크로하플로타입을 식별하는 단계를 포함한다.
일 구현예에서, 본 개시는 시료에 존재하는 여러 개체로부터 유래된 마이크로하플로타입이 적어도 2개 있는 SNP 집합을 검출하는 방법을 제공한다. 상기 방법은 a) 상기 시료에서 마이크로하플로타입이 2개보다 많은 SNP 집합의 존재 또는 부재를 결정하되, 상기 SNP 집합이 여러 개의 다중 단일 염기쌍 치환을 포함하고 표 5, 6 및 7에 제시된 유전체 영역에 해당하는, 단계, 및 b) 상기 SNP 집합 내의 하플로타입의 빈도를 수량화하여 상기 시료 중 다중 개체에서 유래된 DNA의 존재 여부를 결정함으로써, 상기 시료에서 다중 개체에서 유래된 마이크로하플로타입이 2개보다 많은 SNP 집합을 검출하는 단계를 포함한다.
일 구현예에서, 상기 개시는 올리고뉴클레오타이드 패널을 제공한다. 상기 패널은 표 5, 6 및 7에 제시된 하나 이상의 유전체 영역에 해당하는 유전체의 영역을 증폭시키거나 또는 혼성 포획(hybrid capture)하기 위한 올리고뉴클레오타이드를 포함한다.
또 다른 구현예에서, 상기 개시는 a) 시료에 존재하는 유전체의 영역을 증폭시킴으로써, 증폭산물을 생성하되, 상기 영역이 표 5, 6 및 7에 제시된 유전체 영역에 해당하는, 단계; 및 b) 상기 증폭산물을 시퀀싱하여 상기 증폭산물의 핵산 서열을 결정하는 단계를 포함하는 유전학적 분석의 방법을 제공한다.
추가적인 구현예에서, 본 개시는 개체에서 질병 또는 장애를 발견하기 위한 방법을 제공한다. 상기 방법은 a) 상기 개체에서 시료를 획득하는 단계; b) 시료에 존재하는 DNA 분자 중 마이크로하플로타입을 식별하는 단계; c) 상기 시료에서 마이크로하플로타입이 2개보다 많은 SNP 집합의 존재 또는 부재를 결정하는 단계, 및 d) SNP 집합 내 하플로타입의 빈도를 수량화하여 상기 질병 질병 또는 장애를 나타내는 유전 마커의 존재 또는 부재를 결정함으로써, 상기 질병 또는 장애를 발견하는 단계를 포함한다. 일 구현예에서, 식별 단계는 i) 관심대상 영역을 식별하는 단계로, 상기 관심대상 영역이 상기 질병 또는 장애와 연관이 있는 것인 단계; ii) 상기 관심대상 영역 내에서 SBS를 검출함으로써 다중 서열 변이 집합을 생성하는 단계; 및 iii) LD에 대한 각각의 변이 집합을 분석하여 마이크로하플로타입을 식별하는 단계를 포함한다.
일 구현예에서, 본 개시는 유전학적 분석 시스템을 제공한다. 상기 시스템은 a) 메모리에 작동 가능하게 연결된 적어도 하나의 프로세서; b) DNA 시료에서 DNA의 PCR 증폭에 의해 생성된 마이크로하플로타입 서열을 비롯한 DNA 분석 정보를 수신하도록 구성된 수신기 구성요소; 및 c) 상기 적어도 하나의 프로세서에 의해 실행되며, i) 단일 염기쌍 치환의 존재에 근거하여 상기 시료에서 마이크로하플로타입을 식별하고; ii) 상기 DNA 시료에서 마이크로하플로타입에 대한 SNP 집합의 개수의 존재를 확인하고; iii) 상기 DNA 시료에서 마이크로하플로타입이 2개보다 많은 SNP 집합 내에서 유전형의 빈도를 수량화하도록 구성된, 분석 구성요소를 포함한다.
관련 구현예에서, 본 개시는 본 개시의 방법을 수행하도록 구성된 유전학적 분석 시스템을 제공한다. 상기 시스템은 a) 메모리에 작동 가능하게 연결된 적어도 하나의 프로세서; b) DNA 시료에서 DNA의 PCR 증폭에 의해 생성된 마이크로하플로타입 서열을 비롯한 DNA 분석 정보를 수신하도록 구성된 수신기 구성요소, 및 c) 상기 적어도 하나의 프로세서에 의해 실행되며, 본 개시의 방법을 수행하도록 구성된 분석 구성요소를 포함한다.
여전히 또 다른 구현예에서, 본 발명은 컴퓨터 프로그램으로 암호화된 비일시적 컴퓨터 판독가능 저장매체를 제공한다. 상기 프로그램은 하나 이상의 프로세서에 의해 실행되었을 때, 상기 하나 이상의 프로세서가 본 개시의 방법을 이행하는 작업을 수행하게 하는 명령어를 포함한다.
그 밖의 또 다른 구현예에서, 본 발명은 컴퓨팅 시스템을 제공한다. 상기 시스템은 메모리, 상기 메모리에 체결된 하나 이상의 프로세서를 포함하는데, 상기 하나 이상의 프로세서는 본 개시의 방법을 이행하는 작업을 수행하도록 구성된다.
도 1은 본 발명의 일 구현예에서 본 개시의 방법을 사용하여 생성된 데이터를 보여주는 그래프이다.
도 2는 본 발명의 일 구현예에서 본 개시의 방법을 사용하여 생성된 데이터를 보여주는 그래프이다.
3은 본 발명의 구현예에서 오염의 존재 하에 마이크로하플로타입 빈도를 나타내는 이미지이다.
본 발명은 마이크로하플로타입의 유전학적 분석을 위한 혁신적인 방법 및 시스템에 기반한다. 본 발명의 조성물 및 방법이 기술되기 전에, 본 발명이 기술된 특정 방법 및 실험 조건에 제한되지 않으며, 그와 같은 조성물, 방법 및 조건이 달라질 수 있음이 이해되어야 한다. 또한, 본 발명의 범위는 첨부된 청구항에서만 제한될 것이기 때문에, 본원에 사용되는 용어는 특정 구현예를 기술하기 위한 것일 뿐, 제한하려는 의도가 아님이 이해되어야 한다.
본 명세서 및 첨부된 청구항에 사용된 바와 같이, 단수 형태에는 문맥에서 명확하게 달리 밝히지 않는 한, 복수의 지시물이 포함된다. 따라서, 예를 들면, '상기 방법'이라 언급했다면 하나 이상의 방법, 및/또는 본 개시를 읽을 때 당해기술의 숙련가에게 명백해질 유형의 단계들이 포함된다.
달리 정의되지 않는 한, 본원에 사용되는 모든 기술적 및 과학적 용어는 본 발명이 속한 기술 분야의 통상의 숙련가에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 본원에 기술된 것과 유사하거나 또는 동등한 임의의 방법 및 물질이 본 발명의 시행 또는 검사에 사용될 수 있으나, 선호되는 방법 및 물질은 하기에 기술된다.
본 개시는 마이크로하플로타입을 활용한 유전학적 분석을 위한 혁신적인 방법 및 시스템을 제공한다. 상기 방법은 SBS SNP를 활용하고, 구현예에서 SBS는 낮은 오류 유전체 영역에서 달라진다. 이것으로 DNA 오염의 검출, 법의학적 분석 뿐만 아니라 질병의 발견에서 정확성의 증가가 가능해진다. 본원에 개시된 방법은 STR 또는 삽입/결실 SNP 대신에 SBS를 사용하는데, 그 이유는 전자가 시료에서의 낮은 오염 수준의 검출에 영향을 미치는 허용될 수 없는 높은 오류율을 갖기 때문이다. 본 개시의 방법들 모두 SNP 변이에 초점을 맞추는데, 상기 변이 사이의 유전적 거리가 짧아서 이들은 이상적으로는 단일 서열 판독 상에 존재할 수 있다. 긴 판독 기술은 SNP 변이가 단일 판독 상에 있는 한 더 긴 거리도 허용한다. 더 긴 거리가 사용될 수 있는 반면, 쌍을 이룬 판독의 사용은 더 높은 오류율을 야기하고 커버리지(coverage)는 변이보다 훨씬 더 낮아진다. 더 나아가, 본 개시의 특정 방법은 유리하게도 2단계 분석을 활용하는데, 제1 단계는 오염을 검출하고, 이어서 그것을 수량화한다. 본원에 개시된 방법을 통한 DNA 오염의 검출은 각각의 SNP 집합에 대한 마이크로하플로타입의 개수 및/또는 제 3/제 4 하플로타입의 빈도에 의존하고, 개별 SNP의 MAF에는 의존하지는 않는다.
앞서 연구는 집단 관계에 대한 인류학에서 여러 개의 밀접하게 연결된 SNP-기반 마커의 유용성 및 이들 마커가 최근 인간 변이의 양상에 대한 타당한 설명을 제공하는 능력을 보여줘왔다. 이와 더불어, 다중-대립유전자 SNP가 가족/부족, 혈통 추론 및 개인 식별과 같은 관련 법의학적 질문을 해소하기 위한 적합한 마커로서 촉진되어 왔다. 법의학 및 집단 유전학을 위한 현 DNA 타이핑 도구(typing tool)를 보완하는 것을 목표로, Kidd 실험실은 마이크로하플로타입(예를 들면, "마이크로햅" 또는 MH)이라 명명한 신규한 유형의 유전 마커를 제안하였다. 이것은 DNA의 짧은 단편(< 300개 뉴클레오타이드, 따라서 "마이크로"가 붙음)으로, 집단 내에서 3개 이상의 대립유전자 조합(즉, "하플로타입")을 제공하는 밀접하게 연결된 둘 이상의 SNP의 존재를 특징으로 한다. SNP 사이의 짧은 거리는 그들 사이의 상당히 낮은 재조합율을 암시한다. 상기 마이크로하플로타입의 이형 접합성의 수준은 상이한 요인들, 예컨대 상기 표적화된 영역 내의 상이한 위치에서 대립유전자 변이의 역사적 축적, 희귀한 교차 이벤트의 발생, 무작위 유전자 표류의 발생 및/또는 선택에 의존한다. 마이크로하플로타입은 다중-SNP 하플로타입이기 때문에, 이것은 유전자좌별로, 단독 SNP 마커보다 더 큰 정보 조립체를 제공할 수 있다.
더 나아가, 변이들이 상기 유전체 상에서 서로 가까이 있는 경우, 이들은 상관관계가 있는 경향이 있다. 단일 염색체 대립유전자 상의 SNP의 각각의 상이한 집합이 하플로타입(언제나 함께 발생하는 경향이 있는(즉, 통계적으로 연합된) 연결된 SNP 대립유전자의 집합)이라 불린다. 각각의 개인이 자신의 유전체의 복제본 2개를 가지고 있기 때문에, 개인은 각각 상염색체 염색체 영역에 하플로타입 2개를 가진다. 이들 하플로타입은 상이할 수도 있고(heterozygous) 동일할 수도 있다(homozygous). 앞서 논의된 바와 같이, 마이크로하플로타입은 약 300개 이하의 뉴클레오타이드이거나 긴 판독을 위한 더 긴 거리인 짧은 하플로타입이다. 본원에 기술된 방법을 위해, 마이크로하플로타입은 상기 변이가 동일한 시퀀싱 판독 상에 존재함으로써 분명하게 단계 구분될 수 있을 정도로 충분히 길이가 짧다. 2개 및 단 2개의 마이크로하플로타입만이 집단에서 발견되기 때문에, 마이크로하플로타입은 대부분 유전학적 분석에서 특히 유용하지 않다. 하지만, 본 발명의 방법은 상이한 개인들 사이에서 발견되는 상이한 하플로타입이 3개, 4개, 5개 또는 그 이상일 수 있는 경우(그러나 한 개인의 경우 2개 이하임)의 마이크로하플로타입과 같이 통계적으로 유용한 정보를 제공할 수 있는 마이크로하플로타입의 식별을 허용한다.
본원에 사용되는 "SNP"는 유전체에서 특정 위치 또는 특정 유전자좌에서 하나의 염기(예를 들면, 사이토신, 타이민, 우라실, 아데닌 또는 구아닌)를 다른 염기로 치환하는 단일-뉴클레오타이드 치환으로, 여기서 상기 치환은 집단에서 주목할 만한 정도(예를 들면, 상기 집단의 1% 초과)로 존재한다.
특정 구현예에서, 본 개시의 방법은 DNA 시료에 DNA 오염의 존재 여부를 결정하고 그것의 수량화에 관한 것이다.
관련 구현예에서, 본 구현예의 방법은 시료에 여러 개인에서 유래된 DNA의 복잡한 혼합물이 포함되는지 여부를 결정하는 것에 관한 것이다. 그와 같은 개인은 엄마와 자녀일 수도 있고, 친척이거나 또는 아무런 관련이 없는 개인일 수 있다.
종래의 법의학적 분석은 독특하게도 짧은 연쇄 반복(STR)의 추출 및/또는 미토콘드리아 DNA(mtDNA) 서열의 결정을 통해 개별 DNA 시료를 식별한다. 모세관 전기 영동법이 STR 길이 및 mtDNA 서열을 정량화하는 데 종종 사용된다. 이와 같은 방법은 개인 프로파일 식별에 대해 정확한 것으로 입증된 바 있다.
본 개시의 방법에서 의미가 있는 점은 복합 DNA 혼합물을 구성요소 프로파일로 분리하는 상기 방법의 능력이 상기 구성요소의 임의의 사전 지식을 요구하지 않는다는 점이다. 예를 들면, 본원에 기술된 방법은 복합 DNA 혼합물을 유전 마커에 대한 어떤 지식도 없이 구성요소 프로파일로 또는 임의의 개인에게 속한 DNA 서열로 또는 상기 복합 DNA 혼합물 중 어느 하나에 기여한 구성요소로 분리하는 데 효과적이다. 따라서, 본 개시의 방법의 뛰어난 특성들 중 하나는 상기 방법이 복합 DNA 혼합물의 개인 프로필, 기여자 또는 구성요소와 관련하여 임의의 사전 지식 또는 데이터를 요구하지 않는다는 점이다.
일부 양태에서, 본원에 기재된 기술은 생물학적 시료에 존재하는 DNA와 연관된 개인의 인종을 결정하는 데 사용될 수 있다.
구현예에서, 본 개시는 유전체에서 마이크로하플로타입을 식별하는 방법을 제공한다. 상기 마이크로하플로타입은 본원에 개시된 임의의 방법, 예를 들면, 시료 오염의 검출, 질병 분석 및/또는 복잡한 시료의 분리(deconvolution)에 사용하는 경우 유용하다.
이에 따라, 본 개시는 유전체에서 마이크로하플로타입을 식별하는 방법을 제공한다. 상기 방법은 a) 상기 유전체의 관심대상 영역을 식별하는 단계; b) 상기 관심대상 영역 내의 SBS를 검출함으로써, 다중 서열 변이 집합을 생성하는 단계; c) LD에 대한 각각의 변이 집합을 분석하여 후보 마이크로하플로타입을 식별하는 단계; 및 d) 후보 마이크로하플로타입을 식별하는 단계를 포함한다.
또한 a) 시료에서 마이크로하플로타입이 적어도 3개가 있는 SNP 집합을 식별하는 단계; 및 b) 마이크로하플로타입이 2개보다 많은 SNP 집합 내의 하플로타입의 빈도를 수량화하는 단계를 포함하는 방법이 제공된다.
추가적으로, 본 개시는 또한 a) 시료에서 마이크로하플로타입이 적어도 3개가 있는 SNP 집합을 식별하는 단계; 및 b) 마이크로하플로타입이 2개를 초과하는 SNP 집합 내의 하플로타입의 빈도를 수량화하여 상기 시료에서 DNA 오염의 존재 또는 부재를 결정하는 단계를 포함하는 방법을 제공한다.
또한, a) 시료에서 마이크로하플로타입이 적어도 3개가 있는 SNP 집합을 식별하는 단계; 및 b) 마이크로하플로타입이 2개보다 많은 SNP 집합 내의 하플로타입의 빈도를 수량화하여 상기 질병 또는 장애를 나타내는 유전 마커의 존재 또는 부재의 여부를 결정하는 단계를 포함하는 유전학적 분석을 위한 방법이 제공된다.
다양한 구현예에서, 상기 방법은 상기 시료에서 마이크로하플로타입이 적어도 3개, 4개, 5개, 6개 또는 그 이상이 있는 SNP 집합의 빈도를 수량화하는 단계를 추가로 포함할 수 있다. 이것은 상기 시료에서 DNA 오염의 양을 결정하기 위해 수행될 수 있다. 구현예에서, 실시예 1에서 논의된 바와 같이, 상기 방법은 후보 마이크로하플로타입에 대한 절사값을 보정하는 단계를 추가로 포함한다. 마이크로하플로타입이 적어도 3개, 4개, 5개, 6개, 7개, 8개 또는 그 이상이 있는 SNP 집합을 가진 후보 마이크로하플로타입의 빈도에 대해 결정된 절사값을 활용하여, 시료 오염이 평가될 수 있다.
본 발명의 마이크로하플로타입은 상이한 SNP 집합을 사용할 수 있으나, 이들을 선택하는 원칙은 동일하다. 본원에서 논의된 바와 같이, 상기 원칙은 후보 SNP를 고르는 경우 gnomADTM(엑손의 경우, 유럽인 ~52%, 동아시아인 7%, 아프리카인 6%), LD를 평가하는 경우 1000 GenomesTM 데이터베이스(유럽인 ~20%, 동아시아인 20%, 아프리카인 26%)와 같은 데이터베이스의 사용; 제 3/제 4 하플로타입의 1000 Genomes 빈도(또는 유사한 데이터베이스)를 기반으로 한 SNP의 최종 집합을 선택하여 혈통에 걸친 변이를 균일화하고(상기 gnomAD 데이터베이스의 사용이 유럽인 사이에서 약간 더 높은 변이를 야기함); 변이가 동일한 서열 판독 상에 있도록 충분히 가까이 있어야 하고; 단일 염기 치환을 사용하고, 반복 서열/삽입-결실을 피함으로써 오류율을 최소화하고; 동족중합체 및 낮은 신뢰 서열 영역을 피하고; 제 3/ 제 4 하플로타입의 빈도가 높도록 낮은 LD에서 SNP를 선택하고; 정보가 독립적이 되도록 SNP 집합 사이의 거리를 최대화하고; 및 실제 시료에 대해 후보 SNP 집합의 시험으로 순수한 시료에서 제3 /제 4 하플로타입의 높은 적용범위 커버리지, 다양한 유전형 및 낮은 비율을 확보하는 것을 포함한다.
본 개시의 방법은 실시예 1에서 논의되는 바와 같이 분석을 위한 후보 변이 집합의 식별을 포함할 수 있다.
이것은 상기 유전체의 관심대상 영역을 식별하는 단계 및 분석 시 사용하기 위해 상기 영역의 뉴클레오타이드 서열을 결정하는 단계를 포함할 수 있다. 상기 관심대상 영역은 SBS의 존재 여부에 대해 검토된다. 구현예에서, 적합한 유전체 데이터베이스, 예를 들면 gnomADTM 데이터베이스(gnomad.broadinstitute.org/)를 사용하여 결정될 수 있는 상기 SBS 빈도는 전형적으로 약 5~95%이다.
구현예에서, 활용된 상기 관심대상 영역은 선택적으로 빈도가 또한 약 5~95%인 것으로 결정된 SBS의 존재 여부에 대해 검토된 측부 영역을 포함한다. 다양한 구현예에서, 상기 관심대상 영역의 측부 영역은 약 50개 미만, 100개 미만, 150개 미만, 180개 미만 또는 200개 미만의 뉴클레오타이드 염기쌍을 포함한다. 다양한 구현예에서, 상기 관심대상 영역의 총 길이는, 선택적으로 측부 영역을 포함하여, 약 500개 미만, 450개 미만, 400개 미만, 350개 미만, 300개 미만, 250개 미만, 200개 미만, 150개 미만, 100개 미만, 90개 미만, 80개 미만, 70개 미만, 60개 미만, 50개 미만, 40개 미만, 30개 미만, 20개 미만, 10개 미만의 염기쌍이다.
구현예에서, 식별되는 상기 후보 변이 쌍은 이어서 LD에 대해 검토된다. 이는 1000 GenomesTM 데이터베이스(ldlink.nci.nih.gov/?tab=ldhap)를 사용하여 수행될 수 있다.
하플로타입이 적어도 3개가 있고 제 3 및 그 이상의 하플로타입의 총 빈도가 >1%인 두짝, 세짝, 네짝 등이 이어서 사용을 위한 후보로서 간주된다. 다양한 구현예에서, 삽입/결실을 피하도록 마이크로하플로타입 변이 집합이 선택되었는데, 이는 이와 같은 변이에서 본질적인 시퀀싱 오류율이 더 높고 노이즈를 생성할 가능성이 더 높기 때문이다. 일부 구현예에서, 변이가 상기 1000 GenomesTM 데이터베이스에서 발견되지 못할 수 있고, 따라서 LD에 대해 손쉽게 평가될 수 없다. 하지만, 상기 gnomADTM 데이터베이스에서 관찰된 MAF가 이것이 적절하다고 제안하는 경우, 이와 같은 변이가 활용될 수 있다.
상기 관심대상 영역이 유전자, 인트론 및/또는 엑손 내에 또는 유전자 사이에 존재할 수 있음이 이해될 것이다. 대안적으로, 상기 관심대상 영역이 엑솜 내에 존재할 수 있다. 구현예에서, 상기 관심대상 영역이 질병과 연관된 유전 마커를 포함할 수 있다. 구현예에서, 상기 관심대상 영역이 특정 인종과 연관된 유전 마커를 포함할 수 있다.
이와 같은 접근방법을 활용하면, 본 개시의 방법을 사용하여 식별되는 마이크로하플로타입을 포함하는 특정 영역을 증폭시키거나 또는 혼성 포획하기 위한 올리고뉴클레오타이드 패널이 생성될 수 있다. 일 구현예에서, 상기 올리고뉴클레오타이드 패널은 표 5에 제시된 하나 이상의 유전체 영역에 해당하는 유전체의 한 영역을 증폭시키거나 또는 혼성 포획하기 위한 올리고뉴클레오타이드를 포함한다. 또 다른 구현예에서, 상기 올리고뉴클레오타이드 패널은 표 6 또는 7에 제시된 하나 이상의 유전체 영역에 해당하는 유전체의 한 영역을 증폭시키거나 또는 혼성 포획하기 위한 올리고뉴클레오타이드를 포함한다.
이와 마찬가지로, 본 개시는 또한 a) 시료에 존재하는 유전체의 영역을 증폭시킴으로써, 증폭산물을 생성하되, 상기 영역이 표 5, 6 및 7에 제시된 유전체 영역에 해당하는, 단계; 및 b) 상기 증폭산물을 시퀀싱하여 상기 증폭산물의 핵산 서열을 결정하는 단계를 포함하는 유전학적 분석의 방법을 제공한다.
본원에 논의되는 바와 같이, 본 개시의 방법에 의해 식별된 상기 마이크로하플로타입은 다양한 응용, 예컨대, 비제한적으로, DNA 오염 검출, 질병 분석 및 시료 분리(즉, 단일 시료에서 여러 개체 또는 세포 유형에서 유래된 DNA의 검출)를 위해 활용될 수 있다.
일 구현예에서, 본 개시는 시료에 존재하는 여러 개체로부터 유래된 마이크로하플로타입이 적어도 3개가 있는 SNP 집합을 검출하기 위한 방법을 제공한다. 상기 방법은 a) 상기 시료의 유전체에서 마이크로하플로타입을 식별하는 단계, b) 상기 시료에서 마이크로하플로타입이 적어도 3개가 있는 SNP 집합의 개수를 결정하는 단계, 및 c) 상기 시료에 있는 여러 개체로부터 유래된 DNA의 존재 여부를 결정하기 위해 마이크로하플로타입이 2개보다 많은 SNP 집합의 빈도를 수량화함으로써, 상기 시료에 있는 여러 개체로부터 유래된 DNA를 검출하는 단계를 포함한다. 일 구현예에서, 상기 식별 단계는 i) 상기 유전체의 관심대상 영역을 식별하는 단계; ii) 상기 관심대상 영역 내의 SBS를 검출함으로써, 다중 서열 변이 집합을 생성하는 단계; 및 iii) LD에 대해 각각의 변이 집합을 분석하여 마이크로하플로타입을 식별하는 단계를 포함한다.
또 다른 구현예에서, 본 개시는 시료에 존재하는 여러 개체로부터 유래된 마이크로하플로타입이 적어도 3개가 있는 SNP 집합을 검출하는 방법을 제공한다. 상기 방법은 a) 상기 시료에서 마이크로하플로타입이 적어도 3개가 있는 SNP 집합의 존재 또는 부재를 결정하되, 상기 SNP 집합이 여러 단일 염기쌍 치환을 포함하고 표 5, 6 및 7에 제시된 유전체 영역에 해당하는 단계; 및 b) 상기 시료에 있는 여러 개체로부터 유래된 DNA의 존재 여부를 결정하기 위해 SNP 집합의 빈도를 수량화함으로써, 상기 시료에 있는 여러 개체로부터 유래된 마이크로하플로타입이 적어도 3개가 있는 SNP 집합을 검출하는 단계를 포함한다.
이에 따라, 복합 DNA 혼합물의 구성요소의 분리 또는 분해에 대한 본 개시의 방법이 단일 복합 DNA 혼합물을 분석함으로써 수행될 수 있다. 복합 DNA 혼합물에서 구성요소의 분리 또는 분해를 위한 본 개시의 방법의 특정 구현예에서, 상기 방법은 둘 이상의 복합 DNA 혼합물을 분석할 수 있다. SNP 유전자좌의 개수가 사용된 패널에서 증가하면서, 이와 같은 방법을 사용한 DNA 프로파일의 분해(resolution)가 증가한다. 본원에 사용되는 용어 복합 DNA 혼합물은 2명 이상의 기여자에서 유래된 DNA로 구성된 DNA 혼합물을 가리킨다. 바람직하게는, 본원에 기술된 방법의 복합 DNA 혼합물은 적어도 2명, 3명, 4명, 5명, 6명, 7명, 8명, 9명, 10명, 11명, 12명, 13명, 14명, 15명, 16명, 17명, 18명, 19명, 20명 또는 그 이상의 기여자에게서 유래된 DNA를 포함한다.
본 개시의 방법은 DNA 프로파일을 분리하는 기존의 방법보다 훨씬 뛰어나다. 주목할 만한 점은 본원에 기술된 방법에 대한 응용이 법의학적 분석 또는 DNA 오염 검출의 맥락에 국한되지 않는다는 점이다. 예를 들면, 본 개시의 방법은 의학적 진단 및/또는 예후를 위해 사용될 수 있다. 질병을 발견하기 위해, 상기 관심대상 영역이 질병 또는 질병 상태, 예컨대 암 또는 태아 장애와 연관된 유전 마커를 포함하도록 선택될 수 있다. 이와 같은 방식으로, 상기 관심대상 영역은, 예를 들면, 다운 증후군으로도 알려진 21번 삼중염색체의 진단을 가능하게 하는 21번 염색체 상에 존재할 수 있다. 만약 시료가 엄마와 태아에서 유래된 것으로 결정되고, 제 3 마이크로하플로타입 빈도가 다른 염색체에 비해 21번 염색체 상에서 상이하다면, 이것은 유전자 복제 돌연변이, 예를 들면, 21번 삼중염색체를 나타낸다. chr13 및 chr18 삼중염색체를 포함하는 기타 삼중염색체는 이와 유사하게 검출될 수 있다.
이처럼, 본원에 기술된 방법은 질병, 예컨대 암 및 태아 장애를 예측하고, 진단하며 및/또는 모니터링하기 위해 다양한 방식으로 사용될 수 있다. 추가로, 상기 방법은 다양한 세포 유형을 서로 구별하기 위해 활용될 수 있다.
암의 분야에서, 생검 시료는 종종 여러 세포 유형을 함유하는데, 이들 중 작은 비율이 종양의 임의의 부분을 형성할 수 있다. 결과적으로, 종양 생검에서 획득된 DNA는 복합 DNA 혼합물의 또 다른 형태이고, 특정 DNA 분자 상에서 일어나는 체세포 변이를 함유할 수 있다. 체세포 변이의 경우, 상기 체세포 변이가 달리 피할 수 있는 삽입-결실 또는 기타 변형일 수 있기 때문에, SBS에 대한 제약이 완화될 수 있다. 게다가, 종양 내에서, 다수의 세포가, 예를 들면, 혈관 신생 및/또는 전이를 나타내거나 또는 용이하게 하는 인자의 발현과 관련하여, 분자 차원에서 구별될 수 있다. 종양 시료에서 획득된 DNA 혼합물은 또한 본 개시의 복합 DNA 혼합물을 형성할 수 있다. 이와 같은 비제한적인 2개의 실시예에서, 본 개시의 방법은 복합 DNA 혼합물에 기여하는 각 세포 또는 세포유형에 대한 개인 프로파일을 구성하기 위해 사용될 수 있다. 게다가, 본 개시의 방법은 복합 DNA 혼합물에 대한 기여자를 분리하기 위해 사용될 수 있다. 예를 들어, 유방암 종양 생검에서 획득된 복합 DNA 혼합물은 악성 세포의 개인 프로파일을 구성하기 위해 사용될 수 있다. 동일한 환자의 유방암 종양 생검에서, 예를 들어, 상기 개체의 악성 유방암 세포가 뇌로 전이되어 2차 종양을 형성하였는지 여부를 결정하기 위해 상기 유방암 종양 생검에서 획득된 복합 DNA 혼합물에 상기 기여자를 분리하기 위해 이와 같인 개인 프로파일이 사용될 수 있다. 이와 같은 방법은 상기 종양이 독립적으로 생성되었는지, 또는 반대로, 상기 종양들이 관련이 있는지에 대한 질문을 해소해줄 것이다.
이에 따라, 상기 개시는 한 개체에서 질병 또는 장애를 발견하기 위한 방법을 제공한다. 상기 방법은 a) 상기 개체에서 시료를 획득하는 단계, b) 시료에 존재하는 DNA 분자에서 마이크로하플로타입을 식별하는 단계, c) 상기 시료에서 마이크로하플로타입이 2개보다 많은 SNP 집합의 존재 또는 부재를 결정하는 단계, 및 d) 상기 질병 또는 장애를 나타내는 유전 마커의 존재 또는 부재를 결정하기 위해 SNP 집합 내의 하플로타입의 빈도를 수량화함으로써, 상기 질병 또는 장애를 발견하는 단계를 포함한다. 일 구현예에서, 상기 식별 단계는 i) 관심대상 영역을 식별하는 단계로, 상기 관심대상 영역이 상기 질병 또는 장애와 연관된 것인 단계; ii) 상기 관심대상 영역 내의 SBS를 검출함으로써, 다중 서열 변이 집합을 생성하는 단계; 및 iii) LD에 대해 각각의 변이 집합을 분석하여 마이크로하플로타입을 식별하는 단계를 포함한다.
다양한 구현예에서, 유전체가 개체에서 취한 생물학적 시료에 존재한다. 상기 생물학적 시료는 사실상 모든 유형의 생물학적 시료일 수 있고, 특히 DNA를 함유한 시료일 수 있다. 상기 생물학적 시료는 생식세포계열, 줄기 세포, 재프로그램된 세포, 배양된 세포 또는, 1000개 내지 약 10,000,000개 세포를 함유한 조직 시료 또는, 순환하는 DNA가 있는 체액일 수 있다. 구현예에서, 상기 시료는 종양 또는 액체 생검, 예컨대, 비제한적으로, 양수, 안방수(aqueous humour), 유리체, 혈액, 전혈, 분획 혈액, 혈장, 혈청, 모유, 뇌척수액(CSF), 귀지(귓밥), 유미, 차임(chime), 내림프액, 외림프액, 대변, 숨, 위산, 위액, 림프, 점액(코 배액 및 가래 포함), 심낭액, 복막액, 흉수, 고름, 점막 분비물, 침, 날숨 응축물, 피지, 정액, 담, 땀, 관절액, 눈물, 토사물, 전립선액, 수유관액(nipple aspirate fluid), 누액, 발한, 뺨 면봉 채취물, 세포 용해물, 위장관액, 생검 조직 및 소변 또는 기타 생물학적 체액에서 유래되는 DNA를 포함한다. 일 구현예에서, 상기 시료는 순환하는 종양 세포의 DAN를 포함한다. PCR와 같은 증폭 포로토콜을 활용하는 구현예에서, 수많은 세포, 심지어 단일 세포를 함유하는 시료를 획득하는 것이 가능하다. 상기 시료는 상기 유전체의 하나 이상의 영역의 유전학적 분석을 수행하기 위한 충분한 생물학적 물질(예를 들면, DNA)을 함유하는 한, 임의의 온전한 세포를 함유할 필요가 없다.
일부 구현예에서, 생물학적 또는 조직 시료는 DNA가 있는 세포 또는 순환하는 DNA가 있는 체액을 포함하는 임의의 조직에서 채취될 수 있다. 생물학적 또는 조직 시료는 수술, 생검, 면봉 채취물, 대변 또는 기타 채집 방법에 의해 획득될 수 있다. 일부 구현예에서, 상기 시료는 혈액, 혈장, 혈청, 림프, 신경세포 함유 조직, 뇌척수액, 생검 물질, 종양 조직, 골수, 신경조직, 피부, 머리카락, 눈물, 소변, 태아 물질, 양수천자 물질, 자궁 조직, 침, 대변 또는 정자에서 유래된다. 전혈에서 PBL을 단리하는 방법이 당해기술에 잘 알려져 있다.
앞서 개시된 바와 같이, 상기 생물학적 시료는 혈액 시료일 수 있다. 상기 혈액 시료는 당해 기술에 알려진 방법, 예컨대 손가락 채혈 또는 정맥절개술을 사용하여 확보할 수 있다. 적합하기로는, 상기 혈액 시료가 대략 0.1 내지 20 ml이고, 또는 대안적으로 대략 1 내지 15 ml이며, 혈액 부피는 대략 10 ml이다. 혈액 중 순환하는 유리 DNA 뿐만 아니라 더 적은 양 또한 사용될 수 있다. 바늘 생검, 카테터, DNA를 함유한 체액의 분비 또는 생산에 의한 마이크로샘플링 및 샘플링은 또한 잠재적인 생물학적 시료 공급원이다.
본 발명에서, 상기 개체는 전형적으로 인간이지만, 또한 비제한적으로, 개, 고양이, 토끼, 소, 새, 래트, 말, 돼지 또는 원숭이와 같은 모든 종일 수 있다.
본 개시의 방법은 핵산 서열 정보를 활용하는데, 따라서 핵산 증폭, 중합효소 연쇄반응(PCR), 나노포어 시퀀싱, 454 시퀀싱, 삽입 태깅된 시퀀싱과 같은 핵산 시퀀싱을 수행하는 모든 방법을 포함할 수 있다. 구현예에서, 본 개시의 방법은 Illumina, Inc에서 제공하는 시스템(예컨대, 비제한적으로, HiSeqTM X10, HiSeqTM 1000, HiSeqTM 2000, HiSeqTM 2500, Genome AnalyzersTM, MiSeqTM, NextSeq, NovaSeq 시스템), Applied Biosystems Life Technologies에서 제공하는 시스템(SOLiDTM 시스템, Ion PGMTM Sequencer, ion ProtonTM Sequencer) 또는 Genapsys 또는 BGI MGI 및 기타 시스템과 같은 시스템을 활용한다. 핵산 분석은 또한 Oxford Nanopore Technologies에서 제공하는 시스템(GridiONTM, MiniONTM) 또는 Pacific Biosciences에서 제공하는 시스템(PacbioTM RS II 또는 Sequel I 또는 II)에 의해 수행될 수 있다. 중요한 점은, 구현예에서, 시퀀싱이 본원에 기술된 임의의 방법을 사용하여 수행될 수 있다는 것이다. PacBioTM 또는 Oxford NanoporeTM 과 같은 긴 판독 기술이 사용될 때, 상기 DNA에 대한 길이 제한이 느슨해지고, 길어진 판독 길이와 일치되게 SNP가 더 멀리 떨어져있을 수 있다.
본 발명은 상기 개시된 방법의 단계들을 수행하는 시스템을 포함하고, 부분적으로 기능적 구성요소 및 다양한 처리 단계의 관점에서 기술되었다. 이와 같은 기능적 구성요소 및 처리 단계는 상기 명시된 기능을 수행하고 상기 다양한 결과를 달성하도록 구성된 임의의 수의 구성요소, 작업 및 기법에 의해 실현될 수 있다. 예를 들면, 본 발명은 다양한 생물학적 시료, 생체마커, 요소, 물질, 컴퓨터, 데이터소스, 저장시스템 및 매체, 정보 수집 기법 및 절차, 데이터 처리 기준, 통계적 분석, 회귀 분석 등을 활용할 수 있는데, 이들은 다양한 기능을 수행할 수 있다.
본 발명의 다양한 양태에 따른 유전학적 분석을 위한 방법은 임의의 적합한 방식, 예를 들면 상기 컴퓨터 시스템 상에서 컴퓨터 프로그램 운영을 사용하여, 이행될 수 있다. 본 발명의 다양한 양태에 따른, 예시적인 유전학적 분석 시스템은 컴퓨터 시스템, 예를 들면 프로세서 및 랜덤 액세스 메모리를 포함하는 종래의 컴퓨터 시스템, 예컨대, 원격접근가능 응용프로그램 서버, 네트워크 서버, 개인 컴퓨터 또는 워크스테이션과 함께 시행될 수 있다. 상기 컴퓨터 시스템은 또한 적합하게 추가적인 메모리 장치 또는 정보 저장 시스템, 예컨대 대량 저장 시스템 및 사용자 인터페이스, 예를 들면, 종래의 모니터, 키보드 및 추적 장치를 포함한다. 상기 컴퓨터 시스템은, 하지만, 임의의 적합한 컴퓨터 시스템 및 연관된 장비를 포함할 수 있고, 임의의 적합한 방식으로 구성될 수도 있다. 일 구현예에서, 상기 컴퓨터 시스템은 단독 시스템을 포함한다. 또 다른 구현예에서, 상기 컴퓨터 시스템은 서버 및 데이터베이스를 포함하는 컴퓨터의 네트워크의 일부이다.
유전 정보를 수신하고, 처리하며 분석하기 위해 필요한 소프트웨어는 단일 장치에서 시행될 수도 있고, 또는 다수의 장치에서 시행될 수도 있다. 상기 소프트웨어는 정보의 저장 및 처리가 사용자와 관련하여 원격으로 일어나도록 네트워크를 통해 접속가능할 수 있다. 본 발명의 다양한 양태에 따른 상기 유전학적 분석 시스템과 이것의 다양한 요소는 유전학적 분석, 예컨대 데이터 수집, 처리, 분석, 보고 및/또는 진단을 용이하게 하기 위한 기능 및 작업을 제공한다. 예를 들면, 본 발명의 구현예에서, 인간 유전체 또는 이것의 영역에 관한 정보를 수신하고, 저장하며, 검색하고, 분석하여 보고할 수 있는 상기 컴퓨터 시스템은 상기 컴퓨터 프로그램을 실행한다. 상기 컴퓨터 프로그램은 다양한 기능 또는 작업을 수행하는 다중 모듈, 에컨대 미처리 데이터를 처리하고 보충 데이터를 생성하기 위한 처리 모듈과 미처리 데이터 및 보충 데이터를 분석하여 오염 또는 질병 상태 모형 및/또는 진단 정보의 정량적 평가를 생성하기 위한 분석 모듈을 포함할 수 있다.
상기 유전학적 분석 시스템에 의해 수행되는 절차는 유전학적 분석 및/또는 질병 진단을 용이하게 하기 위한 임의의 적합한 과정을 포함할 수 있다. 일 구현예에서, 상기 유전학적 분석 시스템은 질병 상태 모형을 구축하고 및/또는 환자에게서 질병 상태를 결정하도록 구성된다. 질병 상태를 결정하거나 또는 식별하는 단계는 상기 질병과 관련하여 상기 환자의 질환과 관련된 임의의 유용한 정보를 생성하는 단계, 예컨대, 진단을 수행하는 단계, 진단에 도움이 되는 정보를 제공하는 단계, 질병의 단계 또는 진행을 평가하는 단계, 상기 질병에 대한 민감성을 나타낼 수 있는 조건을 식별하는 단계, 추가적인 시험이 권장될 수 있는지 여부를 식별하는 단계, 하나 이상의 치료 프로그램의 효능을 예측하고 및/또는 평가하는 단계, 또는 그렇지 않으면, 상기 질병 상태, 질병의 가능성 또는 상기 환자의 기타 건강 측면을 평가하는 단계를 포함할 수 있다.
상기 유전학적 분석 시스템은 적합하게 질병 상태 모형을 생성하고 및/또는 상기 개체와 관련하여 유전 데이터 및/또는 추가적인 개체 데이터를 기반으로 환자에 대한 진단을 제공한다. 상기 유전 데이터는 유전 정보를 저장한 데이터베이스 뿐만 아니라, 임의의 적합한 생물학적 시료에서 획득될 수 있다.
하기 실시예는 본 발명의 이점 및 특징을 추가로 묘사하기 위해 제공되지만, 본 발명의 범위를 제한하려는 것은 아니다. 본 실시예가 사용될 수 있는 것들에 전형인 반면, 당해 기술의 숙련가에게 알려진 다른 절차, 방법 또는 기법이 대안적으로 사용될 수 있다.
실시예
실시예 1
시료 오염의 검출
본 실시예에서, 시료 오염을 검출하기 위해 본 개시의 방법을 활용하였다. 하기는 검출을 위해 사용되는 방법 및 공정의 심도 있는 논의를 제공한다.
후보 변이 집합의 식별.
각각의 관심대상 영역의 경우, gnomADTM 데이터베이스(gnomad.broadinstitute.org/)에 따라 빈도가 10~90%인 SBS에 대해, 추가적인 경계 영역(최대 100 bp)과 함께, 시퀀싱하기 위해 표적화된 영역을 검토하였다. 일단 저신뢰 영역에 존재하지 않는 변이가 발견되면, 빈도가 5~95%인 추가적인 SBS에 대해 양쪽 방향으로 이웃한 180 bp를 검토하였다. 이와 같은 절단은 다양한 패널의 경우 분석될 시료의 유형 및 필요한 SNP 집합의 개수에 따라 달라질 수 있다. 1000 Genomes 데이터(ldlink.nci.nih.gov/?tab=ldhap)를 사용하여 LD에 대해 이와 같은 변이 쌍을 모두 검토하였다. 하플로타입이 적어도 3개 있는 두짝, 세짝 등과 총 빈도가 >1%인 제3 및 그 이상의 하플로타입을 사용하기 위한 후보로 간주하였다. 이러한 절단(cutoff)은 필요한 경우 추가적인 변이 집합을 포함하도록 확대되거나 또는 가장 유익한 변이 집합만을 보유하여 노이즈를 최소화하기 위해 수축될 수 있다. 예를 들면, 삽입/결실을 피하기 위해 변이 집합을 선택하였는데, 이는 그와 같은 변이에서 본래의 시퀀싱 오류율이 더 높고 노이즈를 생성할 가능성이 더 높기 때문이다. 이와 유사하게, 다른 서열 맥락이 오류율을 기반으로 선호될 수 있다. 더 나아가, 일부 변이는 상기 1000 GenomesTM 데이터베이스에서 발견되지 않았기 때문에, LD에 대해 평가될 수 없었으나, gnomADTM 에서 관찰된 MAF가 그것이 적절할 수 있다고 제안된 경우, 후보를 검사하기 위해 진전되었다. SNP가 이론상으로 쌍을 이룬 판독 파트너만큼 멀리 떨어져 존재할 수 있었지만, 분석을 단순화하기 위해 서로 더 밀접하게 위치하고 단일 판독에 의해 다뤄지는 SNP를 선택하였다.
후보 변이 집합의 특징 규명.
실제 시료에서 상기 후보 변이 집합을 추가로 평가하여 단계별(phased) 하플로타입이 생성될 수 있도록 상기 판독 상에 2개/모든 변이에 대해 충분한 판독이 존재하도록 하였다. 모든 또는 거의 모든 SNP 집합이 각각의 비교에 포함될 수 있도록 각각의 SBS에 대한 100x 중앙 커버리지의 절단을 사용하였다. 높은 커버리지는 상기 분석의 민감도를 극대화하는 데 필요하다. 다른 패널의 경우, 사용된 SBS의 정확한 집합은 조사될 패널에 따라 달라질 것이다. 더 나아가, 일부 서열 맥락은 다른 것보다 오류율이 더 높고, 그와 같은 변이의 사용이 추가적이고 인위적인 마이크로하플로타입을 야기할 수 있다. 순수하다고 알려진 시료에서 너무 많은 제 3/ 제 4 마이크로하플로타입이 있을 수 있는 변이 집합은 신호 대비 높은 수준의 노이즈를 생성할 수 있기 때문에, 사용에서 제외시켰다.
높은 커버리지 및 낮은 배경 노이즈 수준을 기반으로 한 507 유전자 패널(표 5)의 경우 사용을 위해 106개 변이의 집합을 선택하였다. SBS 집합 사이의 거리를 가능한 정도로 극대화하여 중복되는 정보를 최소화하였다. 상기 표에서 SBS에 대해 열거된 MAF는 1000 GenomesTM 데이터베이스의 "모든 집단"에서 획득하였는데, gnomADTM에서 획득된 본래 MAF와는 상이하다.
오염 수치 추산.
모든 시료가, 이론적으로는, 오염될 수 있기 때문에, 상기 공정이 순수한 시료로 시작될 수 있도록 보정하기 위해 사용하기 전에 시료를 특징규명하는 것이 필요하였다. 더 나아가, 상기 변이 및 마이크로하플로타입 빈도가 인종에 걸쳐 유의미하게 달라질 수 있어서, 주어진 SBS 집합이 모든 시료 및 오염원에서 통하도록 상이한 인종의 시료에 대한 특징을 규명하는 것이 유용하다. 상기 데이터 집합의 경우, 적어도 105/106개 변이 집합의 커버리지와 마이크로하플로타입이 2개보다 더 많은 변이 집합 2개 이하를 기준으로 하여, 아프리카인 5명, 아시아인 5명 및 유럽인 6명(모두 스스로 확인해 줌)을 선택하였다. 이들 시료와 이것의 특징을 표 1에 나타내었다. 상기 유럽인 시료는 무의미하게 더 낮은 수의 단일 마이크로하플로타입 SBS를 가진다.
[표 1]
Figure pct00001
가상 환경에서 오염을 모사하기 위해, 인공적으로 '오염된' 시료의 생성을 위해 순수한 시료에서 유래된 필터링안 된 fastQTM 판독을 다른 시료와 컴퓨터에서 혼합하였다. X%라는 표적화된 오염을 위해, 상기 원칙 시료에서 유래된 100~X%의 판독을 '오염원'에서 유래된 판독의 X%와 혼합하였다. 이와 같이 혼합된 시료는 이어서 관을 통해 흘려 보내고, 우리의 표준 방법을 사용하여 나란히 세워놓고 이름을 붙였다. 각각의 SBS 집합에서의 하플로타입의 개수 및 이들의 빈도를 계수하여 각 시료에 대해 표를 만들었다. 각각의 SBS 집합에 대한 제3 하플로타입의 빈도는, 존재하는 경우, 이어서 각 시료에 대해 검토하였고, 제 3 하플로타입 빈도의 각 집합에 대해 최대값, 최소값, 중간값 및 평균값을 계산하였다. 이어서 이와 같은 매개변수에 의해 오염이 얼마나 잘 예측될 수 있는지를 알아보기 위해 상기 혼합체를 검토하였다.
결과를 자세히 검토하기 전에, 여러 기술적 및 생물학적 교란 변수가 결과에 어떻게 영향을 미칠지에 대해 고려하였다. 심지어 '순수한' 시료에서도 관찰된 바와 같이, 적은 수의 제 3/제 4 하플로타입으로 야기되는 기술적 노이즈가 있다. 오염 검출를 방해하는 이와 같은 노이즈를 피하기 위해, 제 3/제 4 하플로타입의 최소의 수만 설정하였다. 오염 검출의 원하는 수준은 제 3/제 4 하플로타입의 최소한의 수가 5~10의 범위에 속하도록 선택한 1~2%의 수준이다. 이로써 오염으로 미할당되는 낮은 수준의 기술적 노이즈를 갖는 문제를 피하게 된다.
[표 2]
Figure pct00002
마이크로하플로타입이 2개보다 많은 SNP의 백분율은 시료가 오염되었는지 여부를 결정하지만, 이것은 오염도에는 상대적으로 민감하지 않다. 2개보다 많은 마이크로하플로타입의 백분율 값이 빠르게 최대값을 달성하기 때문에, 오직 상기 매개변수만을 볼 때 2% 대 5% 대 20%의 오염이 매우 유사하게 보인다. 이와 같은 문제를 피하기 위해, 우리는 오염 수준의 수량화를 위해 제 3 하플로타입에 대한 MAF를 사용하여 오염 주순을 수량화하였다. 이와 같은 값은 기술적 인공물 때문에 낮은 오염에서 오해의 소지가 있을 수 있다. 이것은 상기 오염시키는 DNA가 제 3 하플로타입의 복제 2개를 제공할 수 있어서, 오염이 실제보다 2배 더 높게 보이도록 만들수 있는 가능성 때문에 이례적으로 높아 보인다(도 3). 종양 시료에 종종 존재하는 변이의 극심한 복제 개수가 또한 어떤 하플로타입이 과도하게 많은지에 따라 어느 쪽으로든 명백한 오염에 영향을 미칠 수 있다. 이것은 정상적인 DNA에서의 전형적인 문제가 아니지만, 종양 DNA의 경우 심각할 수 있다. 이러한 문제를 피하기 위해, 우리는 제 3 하플로타입에 대한 MAF 중간값을 사용하여 비정상적으로 높거나 낮은 MAF의 기여를 최소화한다. 제2 및 제 4 마이크로하플로타입에 대한 대립유전자 빈도에서 발견되는 추가적인 정보가 있으나, 상기 데이터는 계산을 위해 사용하지 않았다. 검토할 수 있는 충분한 집합이 존재할 경우, 하플로타입 빈도의 좀 더 복잡한 분석이 사용될 수 있다.
정해진 수 이상의 제 3/제 4 하플로타입이 있는 시료의 경우, 다양한 인자가 정확한 빈도 결정을 방해할 수 있다. 연속 보정에서, 한 가지 기술적 문제는 명목 오염 수준이 사실상 정확한지 여부이다. 추가된 판독의 수가 정밀하게 제어될 수 있지만, 오염의 기능적 수준에 영향을 미칠 수 있는 DNA 품질의 측면에서 각 시료는 상이한 특성을 갖는다. 상이한 DNA 품질 때문에 DNA 길이가 발산하거나 또는 상이한 포획 효율 때문에 정확한 판독의 상이한 부분이 있는 시료는 동일한 판독 상에 나타난 SNP 집합의 빈도가 상기 길이에 의존하기 때문에 오염의 상이한 기능적 수준을 가질 것이다. 이것은 1% 추가된 판독이 기능적으로 0.5% 또는 2%와 등가이거나 또는 이들 사이의 어딘가와 등가일 수 있음을 의미한다. 이와 같은 이유로, 각각의 시료 및 이것의 오염원은 병렬적으로 교환되었다. 따라서, 이것은 품질 차이를 어느 정도로 정규화하고, 오염의 기능적 수준의 더 나은 추정치를 제공한다. 이들 방법이 실제 시료에 적용될 경우, 부정확한 변이 요구가 이루어질 수 있다는 가능성을 고려할 때, 화학량론적이기보다 기능적인 오염이 보다 중요하다.
수량화 문제에 대해서 또한 생물학적 이유가 존재한다. 순수한 시료는 각각의 SBS 집합에 마이크로하플로타입 1개 또는 2개를 가질 수 있고, 들어오는 오염원인 마이크로하플로타입 1개 또는 2개는 1차 시료의 마이크로하플로타입 1개, 2개 또는 0개와 일치할 수 있다. 오염이 낮고 신호가 겨우 드러나는 경우, 새로운 제 3 하플로타입이 우선적으로 상기 시료의 마이크로하플로타입과 일치하지 않는 이중 기여로 이루어지는 반면, 더 높은 오염 수준에서 단일/이중 기여의 혼합이 존재할 것이다. 따라서, 오염의 수준과 다양한 하플로타입의 빈도 사이에 단순한 선형 관계를 기대해서는 안 된다. 이러한 어려움에 더해, 하플로타입 빈도에 주요한 영향을 미칠 수 있는 종양 시료들 속에서 광범위한 복제 개수 변이의 발생이라는 문제가 추가된다. 이러한 문제 때문에, 누군가가 단순히 제 3하플로타입 빈도를 볼 때, 낮은 오염 수준이 과대평가되고 높은 오염이 과소평가되기 때문에 실험을 근거로 한 오염의 추정치를 사용하였다. 매우 높은 커버리지 수준에서 훨씬 더 많은 변이 집합이 있을 경우, 빈도 데이터를 피팅(fitting)하여 기능적 오염을 좀 더 잘 추정하는 것이 가능할 것이다. 표 3에 나타낸 바와 같이, 이와 같은 SNP 집합과 커버리지 조건의 경우, 상기 과대계수(overcounting) 및 과소계수(undercounting)가 균형을 잡아 상대적으로 정확한 오염 추정치를 산출하는 영역은 ~2%이다. 이것이 우리가 민감도를 설정하고자 하는 수준 정도이기 때문에, 제3 하플로타입의 빈도 중간값이 오염 수준의 근사치로 사용될 것이고, 이로써 2%에서 멀어지는 것은 정확성의 문제를 야기할 수도 있음을 알려준다. 다른 오염 수준의 정확한 추정을 위해, 다른 SBS 집합에 한 것처럼 더 많은 혼합체를 검토할 필요가 있을 것이다.
[표 3]
Figure pct00003
실제 시료에 대한 적용.
가상의 오염원 혼합체에 사용되는 시료를 이것의 높은 품질을 기준으로 하여 선택하였다. 불행하게도, 실제 시료에 훨씬 더 큰 변이가 있기 때문에 어떤 시료가 분석될 수 있는지 그리고 그와 같은 분석이 어떻게 이루어져야 하는지에 대해 기준을 세우는 것이 필요하다. 이상적으로는, 모든 시료가 106개의 SBS 집합 모두에서 >100x 커버리지를 가질 테지만, 이것은 실제로 종종 그렇지 못하다. SBS 집합을 제외시키는 것이 일관되지 못한 비교를 야기하고, 특정 SBS에서 낮은 커버리지가 극도로 과대평가되거나 또는 모자란 제 3 하플로타입 빈도를 야기할 수 있다. 따라서, 표준 파이프라인을 통해 1000개 시료를 통과시켜서 마이크로하플로타입 데이터를 검토하였다. 이들 1000개의 시료 중 151개의 시료는 표준 품질관리 계량적 분석에서 불합격하여, 마이크로하플로타입 분석을 위해 849개의 시료만이 남았다. SBS가 계수되도록 하기 위해, 우리는 최소 커버리지로 20을 요구하였다. 시료의 방대한 대다수(709개)가 106개의 SBS 집합 모두에 대한 데이터를 가진다. 하지만, 최소 기준을 충족시키는 SBS 집합이 유의미하게 적은 시료가 존재한다. 더 많은 시료가 다른 품질 관리 계량적 분석에 합격하기보다 불합격하는 지점은 100 SBS 호출(call)이다. 따라서, 하기 분석을 위해, SBS 호출이 >100인 825개의 합격 시료만이 사용된다. 825개의 시료 중에 24개가 시료 오염을 모니터링하기 위한 앞서 사용된 SNPCheckTM 방법에서 불합격하였다.
표 4는 이들 825개 시료에 대한 오염 검출에 대한 절단(cutoff) 변경의 영향을 보여준다. 시료는 마이크로하플로타입이 2개보다 많은 SBS 집합의 절단 개수(cutoff number)보다 더 적은 수를 가지거나 또는 설정된 임계치보다 낮은 제3 마이크로하플로타입 MAF 중간값을 가짐으로써 합격한다. 앞서 가상 실험을 근거로, 마이크로하플로타입이 2개보다 많은 SBS 집합의 개수는 이들 마이크로하플로타입과 함께 5~10의 범위 내에 속해야 한다. 추가적으로, 마이크로하플로타입의 절단 개수보다 더 많이 존재하더라도, 제 3 하플로타입 빈도의 중간값이 <1.5%인 시료는 또한 합격한 것으로 간주된다. 이와 같은 절단(cutoff)을 사용하면, SNPCheckTM에서 불합격한 18~19개의 시료를 포함한 804~811개의 시료가 합격한다. 상기 제3 하플로타입 빈도가 2~4%인 경우, 오염의 수준이 관찰된 체세포 돌연변이 빈도를 기준으로 문제를 일으킬 것인지 여부를 확인하기 위해 상기 시료를 검사하는 것은 선택사항이다. 이와 같은 11~18개 시료 중 4~5개는 SNPCheckTM에서 불합격되었다. 제 3 마이크로하플로타입 빈도가 >4%인 시료는 불합격할 것이다. 모든 경우에, 이것은 시료 3개일 터인데, 이들 중 1개 시료는 SNPCheckTM에서 불합격되었다. 앞서 기술된 825개의 합격 시행과 더불어, 다른 QC 계량적 분석에서 불합격하거나 또는 본 개시의 마이크로하플로타입 방법에서 호출된 SBS가 너무 적은 시료에 대해 SNPCheckTM을 시행한 바 있다. QC 및 SNPCheckTM-에서 불합격한 4개의 시료중 3개는 오염이 >10%로 마이크로하플로타입 방법에서 불합격되었다. 101개보다 적은 SBS가 호출된 마이크로하플로타입에 의해 일반적으로 평가되지 않는 SNPCheckTM에서 불합격한 7개 시료 중에서 4개가 또한 절단와 상관 없이 마이크로하플로타입 방법에서 불합격된 반면, 또다른 시료는 일부 절단으로 불합격했을 것이다.
[표 4]
Figure pct00004
본 발명의 방법과 SNPCheckTM 사이의 완벽한 일치가 예상되지 않았다. SNPCheckTM 은 순수한 시료를 오염되었다고 부름으로써 매우 높은 복제 개수 변이를 가진 일부 종양 시료를 불합격시키고, 이로써 거짓 양성을 야기한다. 거짓 음성 또한 오염의 수준이 매우 높을 때, 그리고 변이가 생식계열 변이로 오해될 때 일어나는 것으로 알려졌다.
엑솜에서 오염 검출.
507개 유전자 패널에 사용된 SBS 중 다수가 엑솜 분석에서 어떤 값도 나타내지 않으면서, 비암호화 영역에 존재한다. 따라서, 엑솜의 검토를 위해 새로운 SBS 집합을 선택하였다. 엑솜 커버리지가 ROI 당 기준으로 더 낮기 때문에, 가능한 상당한 커버리지를 갖는 변이를 포획하는 것이 훨씬 더 중요하다. 따라서, 더 짧은 변이간 거리두기를 가지고 상기 507 유전자 패널에서보다 상기 엑손에 더 가까이 위치된 SBS 집합을 선택하였다. 더 많은 ROI가 존재하기 때문에, 더 유익한 SBS를 포함시키기 위해 그리고 평균 커버리지보다 더 높은 ROI에서 선택되도록 애를 썼다. 이들은 이어서 엑솜 데이터 집합과, 커버리지 중간값이 >80이고 상기 패널에서 사용하기 위해 선택한 다양한 하플로타입이 있는 SBS에서 검토하였다. 이들 SBS 집합을 표 6에 열거하였다. 앞서 기술된 방법과 유사한 방법을 사용하여, 오염된 것으로 의심되는 엑솜 2개를 검토하고, 이와 같은 SBS 집합을 사용하여 >15% 오염되었음을 밝혀내었다.
507-유전자 패널을 위해 사용된 마이크로하플로타입의 초기 집합으로, 상이한 혈통군 사이의 민감도에서 차이가 관찰되었다. 이와 같은 문제는 마이크로하플로타입 집합을 선택하기 위해 사용된 데이터베이스에서의 편향 때문만이 아니라 상이한 혈통 사이의 이형 접합성 비율의 차이에 의해서도 유발될 가능성이 있었다. 이것을 교정하기 위해, 1000 Genomes 프로젝트에서 유래된 집단 하플로타입 빈도를 사용하여 제 3/제 4 하플로타입 빈도의 균형을 맞춤으로써, 이들은 모든 혈통을 통틀어 대략 동등하였다. SNP 집합 중 제 3/제 4 하플로타입의 빈도를 합산하였고, 과도하게 표현된 혈통에서 과한 빈도에 기여한 SNP 집합은 제외시켰다. 이로써 제 3/제 4 하플로타입의 기대 평균 수가 동아시아인, 아프리카인 및 유럽인 혈통에서의 수와 동일하도록 마이크로하플로타입의 집합을 생성할 수 있었다. 기타 2개의 1000 유전체 혈통인 혼합된 아메리카인 및 남아시아인에 대해 동일한 빈도를 동시에 생성하는 것은 불가능하였다. 이들 두 혈통은 다른 세 혈통보다 더 높은 제 3/제 4 마이크로하플로타입 빈도를 가졌고, 따라서 다른 혈통과 동일한 임계치를 사용하여 오염이 쉽게 검출되어야 한다.
성능 특징을 추가로 개선하기 위해, 순수한 시료 중에서 높은 커버리지와 낮은 노이즈를 가진 마이크로하플로타입 집합만을 선택하려고 애썼다. SNP 집합에 대한 최소 평균 커버리지를 100에서 250으로 상향조정하였다. 하지만 높은 커버리지는 양날의 검이다. 이것은 민감도를 키우고 정확성을 높일 수 있지만, 또한 0.1%의 수준에서 전형적인 본질적 시퀀싱 오류에 의해 유발되는 인위적인 제 3 하플로타입을 생성할 수도 있다. 이와 같은 기술적 오류의 영향을 최소화하기 위해, 낮은 빈도 하플로타입이 고려대상에서 제거될 수 있다. 이것이 설정되어야 하는 수준은 커버리지와 시퀀싱 품질을 기준으로 최적화될 수 있다. 이와 같은 실험을 위해, 임계치를 0.2% 미만의 빈도를 가진 모든 하플로타입이 진짜로 간주되지 않는 0.2%로 설정하였다. 다른 임계치는 서열 품질 및 기타 요인에 따라 사용될 수 있다.
추가로, 신호를 증진지키고 오염 추정에 정밀도를 향상시킬 수 있도록 더 많은 SNP 집합을 사용하였다. 이와 같은 고려사항을 근거로, 이러한 모든 기준을 충족시키는 제2 마이크로하플로타입 패널을 위해 164개 SNP 집합을 선택하였다. 이들 SNP 집합 중 51개는 또한 제1 패널에 존재하였는데, 양쪽 집합 모두 제 3/제 4 하플로타입의 위치, dbSNP 개수 및 1000 Genomes 빈도와 함께 표 7에 열거하였다.
앞서 논의된 바와 같이, 정밀한 오염 수준의 시료를 생성하는 것은 상당히 어려운 과제이다. 시료의 가장 조합은 정확한 오염 수준을 가진 혼합된 시료를 제공하지만, 기능적 영향은 반드시 정밀하지 않다. 마이크로하플로타입의 검출이 시퀀싱된 분자의 길이에 달려있기 때문에, 동알힌 분획 구성요소를 가지고 있으나 DNA 품질이 다른 시료는 마이크로하플로타입 빈도에 차별적인 영향을 미칠 것이다. 이와 같은 영향을 최소화하기 위해, 두짝으로, "시료"와 "오염원"을 바꿔가면서 시료를 분석하였고, 각 짝 내에서 결과를 평균내었다. 오염 수준의 인자로서 제 3/제 4 마이크로하플로타입의 개수에 대해, 각 범주(아프리카인, 동아시아인, 유럽인 및 혼합인)에 대해 15개 쌍을 이어서 분석하였다. 도 1에 나타낸 바와 같이, 동아시아인 및 유럽인 혈통의 개인에 대한 제 3/제 4 MH 개수는 거의 겹쳐질 수 있었다. 아프리카-아메리카 혈통 및 혼합된 혈통의 개인에 대한 제 3/제 4 MH 개수는 동아시아인/유럽인보다 더 높았지만, 서로는 유사하였다. 아프리카-아메리카인의 차이는 아프리카인으로 이루어진 하위 그룹 5개와 아프리카-아메리카인으로 이루어진 하위 그룹 2개를 포함하는 1000 Genomes 아프리카인 패널의 조성 때문일 가능성이 있다. 이들 두 하위그룹이 어느 정도 혼합되어 다른 그룹보다 더 높은 수를 생성한다. 더 많은 제 3/제 4 마이크로하플로타입 빈도의 조합 및 검사된 더 많은 수의 마이크로하플로타입 집합이 오염된 시료에 대한 더 강력한 식별을 가능하게 할 것이다.
제 3/제 4 마이크로하플로타입의 수가 상이한 혈통 사이에서 약간 달라지지만, 오염 수준의 인자로서 제 3 마이크로하플로타입 빈도 중간값은 상이한 혈통으로 혼합된 시료를 비롯하여, 이들 혈통들 사이에서 거의 동일하다(도 2). 이와 같은 관계는 약 1%에서 출반하는 선형이다. 1% 미만의 오염 수준은 의도된 것 이상의 추가적인 오염원인 DNA의 존재 가능성 뿐안 아니라 시퀀싱 인위물에 의해 상당한 영향을 받는다. 1% 보다 높이 관찰된 빈도 중간값은 대략 오염 수준의 절반이다. 이것은 도 3에 나타낸 바와 같이, 제3 MH가 생성된 방식에 근거하여 예상된다. 가장 높은 오염 수준에서, 이것은 상기 제 3 마이크로하플로타입이 사실상 오염원이 아닌 시료에서 유래되었을 가능성을 비롯한 여러 요인 때문에 떨어지기 시작한다.
오염 수준 = 2 x 제3 마이크로하플로타입 수준 중간값이라는 관계를 사용하여, 각 혈통에 대한 상이한 수준에서 오염 수준의 검출이 표 8에 나타나 있다. 이와 같은 패턴은, 상기 예측된 오염 수준이 제 3 마이크로하플로타입 수준의 2배일 경우, 더 높은 오염 수준에서 검출되는 시료의 감소되는 부분과 유사하다. 상기 표는 주어진 수준에서 오염의 100% 검출을 달성하기 위해 설정되어야 할 임계치에 대한 가이드를 제공한다. 예를 들면, 2%로 오염된 거의 모든 시료를 검출하고자 원한다면, 제 3 마이크로하플로타입의 절사값을 0.75%로 설정하면 2%로 오염된 시료의 97%를 검출하는 반면, 1.5%로 오염된 시료는 82%를, 1%로 오염된 시료는 겨우 15%를, 그리고 0.5%로 오염된 시료는 0%를 검출한다. 임계치의 선택은 거짓 양성 및 거짓 음성의 상대적 수준을 기준으로 이루어질 수 있다.
실시예 2
염색체 비정상의 NIPT 검출을 위한 마이크로하플로타입 사용
염색체 비정상 검출을 위한 비침습적 출산전 검사(NIPT)는 모체에서 혈액 시료를 취해 모체 DNA의 큰 배경 분획의 존재 하에 순환하는 태아 DNA에 대해 시료를 평가함으로써만 수행된다. 일반적으로, 서열 판독은 간단하게 나열되고, 각 염색체에 나란히 배열된 수가 계수된다. 삼중염색체(보통 chr13, chr18 및 chr21)에 가장 민감한 염색체에 나란히 배열된 판독이 과도한 경우, 양성 진단이 이루어진다. 이 검사는 모체 혈액 중 태아 DNA의 양이 검사 정확성을 위해 충분해지는 10주 또는 그 후에 이루어진다. 마이크로하플로타입의 사용으로 더 낮은 DNA 농도에서 좀 더 정확한 수량화가 가능하고, 해석 오류를 야기할 수 있는 모체에 기존에 존재하는 양성 복제 개수 변이와 무관하기 때문에, 좀 더 정확한 결과를 제공하기 때문에 검사가 좀 더 일찍 이루어질 수 있다.
NIPT 시료의 거동이 2가지 이유 때문에 종양 시료의 경우보다 좀 더 직설적일 것이다. 첫번째는, 광범위한 복제 개수 변이의 복잡성이 큰 문제가 되지 않을 것이다. 두번째로, 태아 하플로타입 중 하나가 이미 모체에 존재할 것이고, 부체에서 유래된 들어오는 제 3 하플로타입은 단일 복제일 것이기 때문에 낮은 수준에서 과대계수되지 않는다. 따라서, 빈도의 좀 더 예측가능한 증가가 기대될 것이다.
대부분의 21번 삼중염색체의 경우에, 추가적 염색체가 모계에게서 발생하여, 상기 염색체에 대한 새로운 부계 하플로타입의 기여를 감소시킨다. 따라서, 영향을 받지 않은 염색체 상에서 부계 하플로타입 빈도가 결정될 것이고, 잠재적으로 영향을 받은 염색체 상에서의 부계 하플로타입 빈도와 비교될 것이다. 여러 SBS 집합이 사용을 위해 입수가능하기 때문에, 모범적으로 거동하는 SBS의 목록을 생성하는 것은 어렵지 않을 것이다. 이것은 표적 포획 또는 PCR 증폭을 통해 향상될 수 있고, 그 덕분에 현재보다 더 빠른 조기 검출이 가능해진다. 전형적인 NIPT에 대한 DNA의 비편향 PCR 증폭은, 약간의 비선형성이 수량화에 영향을 미칠 수 있기 때문에, 어려운 과제이다. 상기 마이크로하플로타입 방법은 판독의 개수를 세는 것일 뿐만 아니라, 마이크로하플로타입의 비를 관찰하는 것이기 때문에, 증폭 편향에 덜 민감하다. 시퀀싱 오류가 잘 생기지 않는 SBS 집합을 선택하거나 또는 모계 마이크로하플로타입에서 부계 마이크로하플로타입으로 이동하는 2개 이상의 서열 변화를 생성하는 다중-SBS 집합을 선택함으로써 정확도가 추가로 증진될 수 있다. 게다가, DNA의 태아 부분이 마이크로하플로타입이 3개 있는 SNP 집합에서 유전형의 빈도를 검토함으로써 쉽게 결정될 수 있다. 상기 태아 부분은 제 3 마이크로하플로타입 빈도의 2배가 될 것이다. 태아 부분 및 이것의 변이에 대한 지식이 검사 결과가 유효한지 또는 모호한지에 대해 좀 더 정확한 결정을 제공할 것이다.
삼중염색체 또는 기타 DNA 복제 개수 비정상을 결정하기 위해, 상이한 영역에서의 제 3 마이크로하플로타입 빈도가 비교된다. 만약 임의의 큰 유전체 영역(부분 또는 전체 염색체)의 제 3 마이크로하플로타입 빈도가 다른 유전체 영역의 빈도와 다르다면, 이것은 삼중염색체 또는 기타 증폭(제 3 마이크로하플로타입 빈도의 증가) 또는 결실(제 3 마이크로하플로타입의 부재)를 의미할 것이다.
[표 5]
Figure pct00005
Figure pct00006
Figure pct00007
Figure pct00008
Figure pct00009
Figure pct00010
Figure pct00011
Figure pct00012
[표 6]
Figure pct00013
Figure pct00014
Figure pct00015
Figure pct00016
Figure pct00017
Figure pct00018
Figure pct00019
[표 7]
Figure pct00020
Figure pct00021
Figure pct00022
Figure pct00023
Figure pct00024
Figure pct00025
Figure pct00026
Figure pct00027
Figure pct00028
Figure pct00029
Figure pct00030
Figure pct00031
Figure pct00032
Figure pct00033
Figure pct00034
Figure pct00035
Figure pct00036
[표 8]
Figure pct00037
Figure pct00038
본 발명은 상기 실시예를 참조하여 기재되었지만, 본 발명의 취지 및 범주 내에서 변형 및 변경이 포함됨이 이해될 것이다. 따라서, 본 발명은 하기 청구범위에 의해서만 제한된다.

Claims (90)

  1. 하기를 포함하는, 유전체에서 마이크로하플로타입을 식별하는 방법:
    a) 상기 유전체 중 관심대상 영역을 식별하는 단계;
    b) 상기 관심대상 영역 내 단일 염기쌍 치환(SBS)을 검출함으로써, 다중 서열 변이 집합을 생성하는 단계;
    c) 마이크로하플로타입을 식별하기 위한 연관 비평형(linkage disequilibrium)에 대한 각각의 변이 집합을 분석하는 단계; 및
    d) 후보 마이크로하플로타입을 식별하는 단계.
  2. 청구항 1에 있어서, 상기 관심대상 영역의 측부 영역에서 SBS를 검출하는 단계를 추가로 포함하는, 방법.
  3. 청구항 2에 있어서, 상기 관심대상 영역의 측부 영역이 짧은 판독 시퀀서에 의해 시퀀싱될 수 있는 약 50개 미만, 100개 미만, 150개 미만, 180개 미만 또는 200개 미만의 뉴클레오타이드 염기쌍을 포함하는, 방법.
  4. 청구항 2에 있어서, 상기 관심대상 영역의 측부 영역이 긴 판독 시퀀서에 시퀀싱될 수 있는 약 10,000개 미만의 뉴클레오타이드 염기쌍을 포함하는, 방법.
  5. 청구항 1에 있어서, 단계 a)의 상기 관심대상 영역이 약 10~90%의 빈도로 SBS를 가지는, 방법.
  6. 청구항 2에 있어서, 상기 관심대상 영역의 측부 영역이 약 5~95%의 빈도로 SBS를 가지는, 방법.
  7. 청구항 1에 있어서, 시료의 오염을 평가하기 위해 후보 마이크로하플로타입에 대한 절사값을 보정하는 단계를 추가로 포함하는, 방법.
  8. 청구항 6에 있어서, 상기 후보 마이크로하플로타입을 겹치게 하는 유일한 DNA 서열 판독이 오염 검출에 대한 임계치 및 오염도를 계산하기 위해 사용되는, 방법.
  9. 청구항 8에 있어서, 오염 검출 및 오염도에 대한 임계치를 보정하기 위해 사용되는 상기 DNA 서열이 가상 환경에서 두 짝으로 혼합되되, 교대로 각각의 DNA 서열을 1차 시료 및 오염원으로 사용하는 방법.
  10. 청구항 8 또는 9에 있어서, 마이크로하플로타입이 1개 및/또는 2개 있는 SNP 집합의 개수 및 유전형이 정체성 또는 오염을 평가하기 위해 상이한 개인 간에 비교되는, 방법.
  11. 청구항 7에 있어서, 마이크로하플로타입이 적어도 3개가 있는 단일 뉴클레오타이드 다형성(SNP)을 가진 후보 마이크로하플로타입의 빈도에 대해 결정된 절사값을 활용하는 시료 오염을 평가하는 단계를 추가로 포함하는, 방법.
  12. 청구항 11에 있어서, 마이크로하플로타입이 적어도 4개 또는 그 이상 있는 SNP 집합을 가진 후보 마이크로하플로타입의 빈도에 대해 결정된 절사값을 활용하여 시료 오염을 평가하는 단계를 추가로 포함하는 방법.
  13. 청구항 1에 있어서, 상기 후보 마이크로하플로타입이 표 5, 6 또는 7에 제시된 것에서 선택되는 하나 이상의 유전체 영역에 상응하는, 방법.
  14. 청구항 7에 있어서, 상기 시료가 종양 또는 액체 생검의 DNA를 포함하는, 방법.
  15. 청구항 7에 있어서, 상기 시료가 포르말린으로 고정되고 파라핀에 포매된 블록, 슬라이드 또는 컬링(curls)에서 추출된 DNA를 포함하는, 방법.
  16. 청구항 14에 있어서, 상기 액체 생검이 양수, 안방수, 유리체, 혈액, 전혈, 분획 혈액, 혈장, 혈청, 모유, 뇌척수액(CSF), 귀지(귓밥), 유미, 차임(chime), 내림프액, 외림프액, 대변, 숨, 위산, 위액, 림프액, 점액(코 배액 및 가래 포함), 심낭액, 복막액, 흉수, 고름, 점막 분비물, 침, 날숨 응축물, 피지, 정액, 담, 땀, 관절액, 눈물, 토사물, 전립선액, 수유관액(nipple aspirate fluid), 누액, 발한, 뺨 면봉 채취물, 세포 용해물, 위장관액, 생검 조직 및 소변 또는 기타 생물학적 체액에서 유래되는, 방법.
  17. 청구항 14에 있어서, 상기 시료가 순환하는 종양 세포에서 유래되는, 방법.
  18. 청구항 7에 있어서, 보정 단계가 상이한 인종의 인간에게서 획득된 여러 시료 중 후보 마이크로하플로타입의 분석을 포함하는, 방법.
  19. 청구항 1에 있어서, 상기 후보 마이크로하플로타입이 SNP 서열 변이의 적어도 3개, 4개 또는 그 이상의 집합을 갖는 SNP집합을 포함하는, 방법.
  20. 청구항 1에 있어서, 상기 관심대상 영역이 유전자, 인트론 및/또는 엑손 내에 또는 유전자 사이에 존재하는, 방법.
  21. 청구항 1에 있어서, 상기 관심대상 영역이 엑솜 내에 존재하는, 방법.
  22. 청구항 1에 있어서, 상기 후보 마이크로하플로타입을 포함하는 DNA를 단리하는 단계를 추가로 포함하는, 방법.
  23. 청구항 1에 있어서, 상기 유전체가 인간에게서 유래되는, 방법.
  24. 청구항 1에 있어서, 마이크로하플로타입이 적어도 3개 또는 4개 있는 SNP 집합 내에서 하플로타입의 마이크로하플로타입 빈도의 중간값, 평균값 또는 기타 측정치를 분석함으로써 시료 오염을 평가하는 단계를 추가로 포함하는, 방법.
  25. 청구항 1 내지 24 중 어느 한 항에 있어서, 상기 시료 및 상기 오염원의 공급원과 공통되거나 또는 이것에 특이적인 마이크로하플로타입을 식별함으로써 시료 오염의 공급원을 결정하는 단계를 추가로 포함하는, 방법.
  26. 청구항 25에 있어서, 하나의 DNA 시료가 동일한 개인에게서 유래했는지 또는 상이한 개인에게서 유래했는지 여부를 식별하기 위해, 마이크로하플로타입 정보가 새롭게/동시에 시퀀싱된 개인과의 비교용으로 데이터베이스에 저장되는, 방법.
  27. 청구항 25에 있어서, 하나의 특정 DNA 시료가 또 다른 시료를 오염시키는지 여부를 식별하기 위해 마이크로하플로타입 정보가 새롭게/동시에 시퀀싱된 개인과 비교용으로 데이터베이스에 저장되는, 방법.
  28. 청구항 26 또는 27에 있어서, 정체성 또는 오염을 평가하기 위해 상이한 개인 사이에서 상기 마이크로하플로타입이 1개 및/또는 2개 있는 SNP 집합의 개수 및 유전형이 비교되는, 방법.
  29. 청구항 1 내지 28 중 어느 한 항에 있어서, 상기 시료 및 상기 오염원의 인종을 결정하는 단계를 추가로 포함하는, 방법.
  30. 청구항 1에 있어서, 본 방법에 사용될 집단에서 발견된 공통 유전형 만을 사용하여 계산되는, 방법.
  31. 청구항 30에 있어서, 상기 공통 유전형이 1000 GenomesTM 또는 기타 데이터베이스에 1% 초과하여 존재하는, 방법.
  32. 시료를 준비하거나 또는 시퀀싱하는 특정 공급원 또는 제공업체 또는 기술자에서 유래된 시료의 품질을 평가하기 위한 청구항 1에 따른 방법의 용도.
  33. 시료에 존재하는, 다중 개체에서 유래된 마이크로하플로타입이 적어도 3개 있는 단일 뉴클레오타이드 다형성(SNP) 집합을 검출하기 위한 것이되, 하기를 포함하는 방법:
    a) 상기 시료 중 유전체에서 마이크로하플로타입을 식별하되, 상기 식별 단계가 하기를 포함하는, 단계:
    i) 상기 유전체의 관심대상 영역을 식별하는 단계;
    ii) 상기 관심대상 영역 내에서 단일 염기쌍 치환(SBS)을 검출함으로써, 다중 서열 변이 집합을 생성하는 단계; 및
    iii) 마이크로하플로타입을 식별하기 위해 연관 비평형에 대한 각각의 변이 집합을 분석하는 단계;
    b) 상기 시료 중 마이크로하플로타입이 적어도 3개 있는 SNP 집합의 개수를 결정하는 단계; 및
    c) 상기 시료에 여러 개체의 DNA의 존재 여부를 결정하기 위해 마이크로하플로타입이 2개보다 많은 SNP 집합의 빈도를 수량화함으로써, 상기 시료에서 여러 개체의 DNA를 검출하는 단계.
  34. 청구항 33에 있어서, 상기 시료에서 마이크로하플로타입을 포함하는 DNA를 단리하는 단계를 추가로 포함하는 방법.
  35. 청구항 33에 있어서, 상기 관심대상 영역 옆에 있는 상기 유전체의 영역에서 SBS를 검출하는 단계를 추가로 포함하는, 방법.
  36. 청구항 35에 있어서, 상기 관심대상 영역의 측부 영역이 짧은 판독 시퀀서에 의해 시퀀싱될 수 있는 약 50개 미만, 100개 미만, 150개 미만, 180개 미만 또는 200개 미만의 뉴클레오타이드 염기쌍을 포함하는, 방법.
  37. 청구항 35에 있어서, 상기 관심대상 영역의 측부 영역이 긴 판독 시퀀서에 의해 시퀀싱될 수 있는 약 10,000개 미만의 뉴클레오타이드 염기쌍을 포함하는, 방법.
  38. 청구항 33에 있어서, 단계 i)의 관심대상 영역이 약 10~90%의 빈도로 유전형을 갖는 SBS를 가지는, 방법.
  39. 청구항 35에 있어서, 상기 관심대상 영역의 측부 영역이 약 5~95%의 빈도로 유전형을 갖는 SBS를 가지는, 방법.
  40. 청구항 33에 있어서, 상기 시료에서 여러 개체의 DNA의 존재 여부를 평가하기 위해 마이크로하플로타입이 2개, 3개, 4개 또는 그 이상 있는 SNP 집합에 대한 절사값을 보정하는 단계를 추가로 포함하는 방법.
  41. 청구항 33에 있어서, 상기 시료가 종양 또는 액체 생검에서 유래된 DNA를 포함하는, 방법.
  42. 청구항 41에 있어서, 상기 액체 생검이 양수, 안방수, 유리체, 혈액, 전혈, 분획 혈액, 혈장, 혈청, 모유, 뇌척수액(CSF), 귀지(귓밥), 유미, 차임, 내림프액, 외림프액, 대변, 숨, 위산, 위액, 림프, 점액(코 배액 및 가래 포함), 심낭액, 복막액, 흉수, 고름, 점막 분비물, 침, 날숨 응축물, 피지, 정액, 담, 땀, 관절액, 눈물, 토사물, 전립선액, 수유관액(nipple aspirate fluid), 누액, 발한, 뺨 면봉 채취물, 세포 용해물, 위장관액, 생검 조직 및 소변 또는 기타 생물학적 체액에서 유래되는, 방법.
  43. 청구항 41에 있어서, 상기 시료가 순환하는 종양 세포에서 유래되는, 방법.
  44. 청구항 33에 있어서, 둘 이상의 개체에서 유래된 마이크로하플로타입이 2개보다 많이 있 SNP 집합이 검출되는, 방법.
  45. 청구항 33에 있어서, 상기 시료가 모계 DNA 및 태아 DNA를 포함하는 방법.
  46. 청구항 45에 있어서, 상기 태아 DNA를 상기 모계 DNA와 구별짓는 단계를 추가로 포함하는 방법.
  47. 청구항 46에 있어서, 상기 모계 DNA 및 상기 태아 DNA 이외의 DNA의 존재 여부를 평가하는 단계를 추가로 포함하는 방법.
  48. 청구항 33에 있어서, 상기 개체가 인간인, 방법.
  49. 하기를 포함하는, 시료에 존재하는 여러 개체로부터 유래된 마이크로하플로타입이 적어도 3개 있는 단일 뉴클레오타이드 다형성(SNP) 집합을 검출하는 방법:
    a) 상기 시료에서 마이크로하플로타입이 2개보다 많은 SNP 집합의 존재 또는 부재를 결정하되, 상기 SNP 집합이 여러 단일 염기쌍 치환을 포함하고, 표 5, 6 및 7에 제시된 영역에서 선택된 유전체 영역에 해당하는, 단계; 및
    b) 상기 SNP 집합의 빈도를 수량화하여 상기 시료에 있는 여러 개체로부터 유래된 DNA의 존재 여부를 결정함으로써, 상기 시료에 있는 여러 개체로부터 유래된 마이크로하플로타입이 적어도 3개 있는 SNP 집합을 검출하는 단계.
  50. 청구항 1 내지 6 중 어느 한 항에서 식별된 바와 같이 SBS 집합을 함유한 하나 이상의 유전체 영역에 상응하는 유전체의 영역을 증폭시키거나 또는 혼성 포획하기 위한 올리고뉴클레오타이드를 포함하는 올리고뉴클레오타이드 패널.
  51. 표 5, 6, 및 7에 제시된 영역에서 선택되는 하나 이상의 유전체 영역에 상응하는 유전체의 영역을 증폭시키거나 또는 혼성 포획하기 위한 올리고뉴클레오타이드를 포함하는 올리고뉴클레오타이드 패널.
  52. 하기를 포함하는 방법:
    a) 시료에 존재하는 유전체의 영역을 증폭시킴으로써, 증폭산물을 생성하되, 상기 영역이 청구항 50, 표 5 또는 6 또는 7에 제시된 영역에서 선택된 유전체 영역에 상응하는, 단계; 및
    b) 상기 증폭산물을 시퀀싱하여 상기 증폭산물의 핵산 서열을 결정하는 단계.
  53. 청구항 52에 있어서, 상기 시료에 존재하는 마이크로하플로타입이 2개보다 많은 SNP 집합의 개수를 수량화하는 단계를 추가로 포함하는, 방법.
  54. 청구항 53에 있어서, 상기 시료에 존재하는 마이크로하플로타입이 3개보다 많은 SNP 집합의 개수를 수량화하는 단계를 추가로 포함하는, 방법.
  55. 청구항 54에 있어서, 상기 시료에 존재하는 마이크로하플로타입이 4개보다 많은 SNP 집합의 개수를 수량화하는 단계를 추가로 포함하는, 방법.
  56. 하기를 포함하는, 개체에서 질병 또는 장애를 발견하는 방법:
    a) 상기 개체에서 시료를 획득하는 단계;
    b) 시료에 존재하는 DNA 분자에서 마이크로하플로타입을 식별하되, 상기 식별 단계가
    i) 상기 관심대상 영역이 상기 질병 또는 장애와 연관이 있는, 관심대상 영역을 식별하는 단계;
    ii) 상기 관심대상 영역 내의 단일 염기쌍 치환(SBS)을 검출함으로써, 다중 서열 변이 집합을 생성하는 단계; 및
    iii) 마이크로하플로타입을 식별하기 위해 연관 비평형에 대해 각각의 변이 집합을 분석하는 단계를 포함하는, 단계;
    c) 상기 시료에서 마이크로하플로타입이 2개보다 많은 단일 뉴클레오타이드 다형성(SNP) 집합의 존재 또는 부재를 결정하는 단계; 및
    d) SNP 집합의 빈도를 수량화하여 상기 질병 또는 장애를 나타내는 유전 마커의 존재 또는 부재를 결정함으로써, 상기 질병 또는 장애를 발견하는 단계.
  57. 청구항 56에 있어서, 상기 질병 또는 장애가 13번, 18번 또는 21번 삼중염색체인, 방법.
  58. 청구항 56에 있어서, 상기 질병 또는 장애가 유전자 복제 개수 돌연변이인, 방법.
  59. 청구항 56에 있어서, 상기 질병 또는 장애가 태아 장애인, 방법.
  60. 청구항 56 내지 59 중 어느 한 항에 있어서, 특정 염색체 또는 염색체 영역 상의 제 3 마이크로하플로타입의 빈도가 상기 유전체의 다른 위치의 제 3 마이크로하플로타입과 비교되는, 방법.
  61. 하기를 포함하는, 유전학적 분석 시스템:
    a) 메모리에 작동 가능하게 연결된 적어도 하나의 프로세서;
    b) DNA 시료에서 DNA의 PCR 증폭에 의해 생성된 마이크로하플로타입 서열을 비롯한 DNA 분석 정보를 수신하도록 구성된 수신기 구성요소; 및
    c) 상기의 적어도 하나의 프로세서에 의해 실행되고,
    i) 단일 염기쌍 치환의 존재를 근거로 상기 시료에서 마이크로하플로타입을 식별하고;
    ii) 상기 DNA 시료에서 마이크로하플로타입에 대한 SNP 집합의 개수의 존재를 확인하고; 및
    iii) 상기 DNA 시료에서 마이크로하플로타입이 2개보다 많은 SNP 집합 내의 유전형의 빈도를 수량화하도록 구성된, 분석 구성요소.
  62. 청구항 61에 있어서, 상기 분석 구성요소가 상기 시료에서 DNA 오염원의 존재 가능성을 결정하도록 추가로 구성되는, 시스템.
  63. 청구항 61에 있어서, 상기 분석 구성요소가 유전자 돌연변이의 존재 또는 부재를 결정하도록 추가로 구성되는, 시스템.
  64. 청구항 63에 있어서, 상기 유전자 돌연변이가 질병 또는 장애와 연관이 있는, 시스템.
  65. 청구항 64에 있어서, 상기 질병 또는 장애가 유전자 복제 개수 돌연변이와 연관이 있는, 시스템.
  66. 청구항 65에 있어서, 상기 질병 또는 장애가 13번, 18번 또는 21번 삼중염색체인, 시스템.
  67. 하기를 포함하는 유전학적 분석 시스템:
    a) 메모리에 작동 가능하게 연결된 적어도 하나의 프로세서;
    b) DNA 시료에서 DNA의 PCR 증폭에 의해 생성된 마이크로하플로타입 서열을 비롯한 DNA 분석 정보를 수신하도록 구성된 수신기 구성요소; 및
    c) 상기의 적어도 하나의 프로세서에 의해 실행되고, 청구항 1에 따른 단계(a)~(d)를 수행하도록 구성되는, 분석 구성요소 .
  68. 하기를 포함하는, 유전학적 분석 시스템:
    a) 메모리에 작동 가능하게 연결된 적어도 하나의 프로세서;
    b) DNA 시료에서 DNA의 PCR 증폭에 의해 생성된 마이크로하플로타입 서열을 비롯한 DNA 분석 정보를 수신하도록 구성된 수신기 구성요소; 및
    c) 상기의 적어도 하나의 프로세서에 의해 실행되고, 청구항 33에 따른 단계(a)~(c)를 수행하도록 구성되는, 분석 구성요소.
  69. 하기를 포함하는, 유전학적 분석 시스템:
    a) 메모리에 작동 가능하게 연결된 적어도 하나의 프로세서;
    b) DNA 시료에서 DNA의 PCR 증폭에 의해 생성된 마이크로하플로타입 서열을 비롯한 DNA 분석 정보를 수신하도록 구성된 수신기 구성요소; 및
    c) 상기의 적어도 하나의 프로세서에 의해 실행되고, 청구항 49 또는 52에 따른 방법을 수행하도록 구성되는, 분석 구성요소.
  70. 하기를 포함하는, 유전학적 분석 시스템:
    a) 메모리에 작동 가능하게 연결된 적어도 하나의 프로세서;
    b) DNA 시료에서 DNA의 PCR 증폭에 의해 생성된 마이크로하플로타입 서열을 비롯한 DNA 분석 정보를 수신하도록 구성된 수신기 구성요소; 및
    c) 상기의 적어도 하나의 프로세서에 의해 실행되고, 청구항 56에 따른 단계(b)~(d)를 수행하도록 구성되는, 분석 구성요소.
  71. 하기를 포함하는 방법:
    a) 시료에 마이크로하플로타입이 적어도 3개 있는 단일 뉴클레오타이드 다형성(SNP) 집합을 식별하는 단계; 및
    b) 마이크로하플로타입이 2개보다 많은 SNP 집합 내의 하플로타입의 빈도를 수량화하여 상기 시료에서 DNA 오염의 존재 또는 부재를 결정하는 단계.
  72. 청구항 71에 있어서, 상기 시료에 마이크로하플로타입이 적어도 3개 또는 4개 있는 SNP 집합 내의 하플로타입의 빈도를 수량화하여 상기 시료에서 DNA 오염의 양을 결정하는 단계를 추가로 포함하는, 방법.
  73. 청구항 71에 있어서, 상기 시료가 종양 또는 액체 생검에서 유래된 DNA를 포함하는, 방법.
  74. 청구항 73에 있어서, 상기 액체 생검이 양수, 안방수, 유리체, 혈액, 전혈, 분획 혈액, 혈장, 혈청, 모유, 뇌척수액(CSF), 귀지(귓밥), 유미, 차임, 내림프액, 외림프액, 대변, 숨, 위산, 위액, 림프, 점액(코 배액 및 가래), 심낭액, 복막액, 흉수, 고름, 점막 분비물, 침, 날숨 응축물, 피지, 정액, 담, 땀, 관절액, 눈물, 토사물, 전립선액, 수유관액(nipple aspirate fluid), 누액, 발한, 뺨 면봉 채취물, 세포 용해물, 위장관액, 생검 조직 및 소변 또는 기타 생물학적 체액에서 유래되는, 방법.
  75. 청구항 71에 있어서, 상기 시료가 순환하는 종양 세포에서 유래되는, 방법.
  76. 청구항 71에 있어서, 상기 SNP 집합이 단일 염기쌍 치환을 가진 서열 변이를 포함하는, 방법.
  77. 하기를 포함하는 방법:
    a) 시료에 마이크로하플로타입이 적어도 3개 있는 단일 뉴클레오타이드 다형성(SNP) 집합을 식별하는 단계; 및
    b) 마이크로하플로타입이 2개보다 많은 SNP 집합 내의 하플로타입의 빈도를 수량화하여 질병 또는 장애를 나타내는 유전 마커의 존재 또는 부재를 결정하는 단계.
  78. 청구항 77에 있어서, 상기 시료에 마이크로하플로타입이 적어도 3개 또는 4개 있는 SNP 집합 내의 하플로타입의 빈도를 수량화하는 단계를 추가로 포함하는, 방법.
  79. 청구항 77에 있어서, 상기 질병 또는 장애 가 유전자 복제 개수 돌연변이인, 방법.
  80. 청구항 79에 있어서, 상기 질병 또는 장애가 13번, 18번 또는 21번 삼중염색체인, 방법.
  81. 청구항 77에 있어서, 상기 질병 또는 장애가 태아 장애인, 방법.
  82. 청구항 77 내지 81 중 어느 한 항에 있어서, 특정 염색체 상의 SNP 집합의 개수가 증가됨으로써, 삼중염색체의 식별을 향상시키는, 방법.
  83. 청구항 82에 있어서, 상기 특이적 염색체가 13번, 18번 및 /또는 21번 염색체 중 하나 이상인, 방법.
  84. 청구항 77 내지 83 중 어느 한 항에 있어서, 상기 방법이 종래의 방법의 사용과 비교하여, 임신한 여성에서 좀 더 일찍 수행되는, 방법.
  85. 청구항 77 내지 84 중 어느 한 항에 있어서, 모계 복제 개수 유도 오류에 대한 민감성 감소 덕분에 특이성이 개선되는, 방법.
  86. 하기를 포함하는 방법:
    a) 시료에 마이크로하플로타입이 적어도 3개 있는 단일 뉴클레오타이드 다형성(SNP) 집합을 식별하는 단계; 및
    b) 마이크로하플로타입이 2개보다 많은 SNP 집합 내의 하플로타입의 빈도를 수량화하여, DNA의 모계 공급원 중 DNA의 태아 부분을 결정하는 단계.
  87. 청구항 86에 있어서, 상기 DNA의 모계 공급원이 생물학적 체액에서 유래되는, 방법.
  88. 청구항 86에 있어서, 상기 DNA의 모계 공급원이 양수, 안방수, 유리체, 혈액, 전혈, 분획 혈액, 혈장, 혈청, 모유, 뇌척수액(CSF), 귀지(귓밥), 유미, ㅊ차차임, 내림프액, 외림프액, 대변, 숨, 위산, 위액, 림프, 점액(코 배액 및 가래 포함), 심낭액, 복막액, 흉수, 고름, 점막 분비물, 침, 날숨 응축물, 피지, 정액, 담, 땀, 관절액, 눈물, 토사물, 전립선액, 수유관액(nipple aspirate fluid), 누액, 발한, 뺨 면봉 채취물, 세포 용해물, 위장관액, 생검 조직 및 소변 또는 기타 생물학적 체액에서 유래되는, 방법.
  89. 상기 프로그램이 하나 이상의 프로세서에 의해 실행될 경우, 상기 하나 이상의 프로세서가 청구항 1 내지 31, 33 내지 49, 52 내지 60 또는 77 내지 88 중 어느 하나에 따른 방법을 수행하기 위한 작업을 수행하도록 지시하는 명령어를 포함하는, 컴퓨터 프로그램으로 암호화된 비일시적 컴퓨터 판독가능 저장매체.
  90. 메모리 및 상기 메모리에 체결된 하나 이상의 프로세서를 포함하되, 상기 하나 이상의 프로세서가 청구항 1 내지 31, 33 내지 49, 52 내지 60 또는 77 내지 88 중 어느 한 항에 따른 방법을 수행하기 위해 작업을 수행하도록 구성되는, 컴퓨팅 시스템.
KR1020217035011A 2019-04-22 2020-04-21 유전학적 분석을 위한 방법 및 시스템 KR20220002929A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962837034P 2019-04-22 2019-04-22
US62/837,034 2019-04-22
PCT/US2020/029113 WO2020219444A1 (en) 2019-04-22 2020-04-21 Methods and systems for genetic analysis

Publications (1)

Publication Number Publication Date
KR20220002929A true KR20220002929A (ko) 2022-01-07

Family

ID=72941744

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217035011A KR20220002929A (ko) 2019-04-22 2020-04-21 유전학적 분석을 위한 방법 및 시스템

Country Status (9)

Country Link
US (1) US20220180967A1 (ko)
EP (1) EP3959332A4 (ko)
JP (1) JP2022530393A (ko)
KR (1) KR20220002929A (ko)
CN (1) CN113692448A (ko)
AU (1) AU2020262082A1 (ko)
BR (1) BR112021020684A2 (ko)
CA (1) CA3137130A1 (ko)
WO (1) WO2020219444A1 (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10083273B2 (en) * 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
DK2496717T3 (en) * 2009-11-05 2017-07-24 Univ Hong Kong Chinese ANALYSIS OF BORN THROUGH FROM A MATERNAL BIOLOGICAL TEST
EP3460074B1 (en) * 2010-02-05 2020-10-07 Quest Diagnostics Investments Incorporated Method to detect repeat sequence motifs in nucleic acid
US20140065621A1 (en) * 2012-09-04 2014-03-06 Natera, Inc. Methods for increasing fetal fraction in maternal blood
WO2015048740A1 (en) * 2013-09-30 2015-04-02 The Scripps Research Institute Genotypic and phenotypic analysis of circulating tumor cells to monitor tumor evolution in prostate cancer patients
WO2019010410A1 (en) * 2017-07-07 2019-01-10 Massachusetts Institute Of Technology SYSTEMS AND METHODS OF GENETIC IDENTIFICATION AND ANALYSIS

Also Published As

Publication number Publication date
AU2020262082A1 (en) 2021-11-25
CN113692448A (zh) 2021-11-23
JP2022530393A (ja) 2022-06-29
CA3137130A1 (en) 2020-10-29
BR112021020684A2 (pt) 2021-12-07
US20220180967A1 (en) 2022-06-09
EP3959332A1 (en) 2022-03-02
EP3959332A4 (en) 2023-09-20
WO2020219444A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
JP6621802B6 (ja) 遺伝的多様体を検出する方法
JP6560465B1 (ja) 無細胞核酸の多重解像度分析のための方法
TR201904345T4 (tr) Genetik Varyasyonları Non-İnvazif Değerlendirme Yöntemi
Plevova et al. STRC deletion is a frequent cause of slight to moderate congenital hearing impairment in the Czech Republic
KR20220011140A (ko) 종양 분획 평가를 위한 시스템 및 방법
US20190338350A1 (en) Method, device and kit for detecting fetal genetic mutation
US20210090687A1 (en) Methods of quality control using single-nucleotide polymorphisms in pre-implantation genetic screening
Sun et al. Panel-based NGS reveals disease-causing mutations in hearing loss patients using BGISEQ-500 platform
US20240018599A1 (en) Methods and systems for detecting residual disease
JP7333838B2 (ja) 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法
EP2971126B1 (en) Determining fetal genomes for multiple fetus pregnancies
CA3167633A1 (en) Systems and methods for calling variants using methylation sequencing data
KR20220002929A (ko) 유전학적 분석을 위한 방법 및 시스템
JP7446343B2 (ja) ゲノム倍数性を判定するためのシステム、コンピュータプログラム及び方法
JP2020517304A (ja) Dna分析のためのオフターゲット配列の使用
EP4234720A1 (en) Epigenetic biomarkers for the diagnosis of thyroid cancer
WO2024038396A1 (en) Method of detecting cancer dna in a sample
Buckley Incorporating Germline Variants into Cancer Analyses: What Lies Beneath
WO2023220602A1 (en) Detecting degradation based on strand bias
Vattathil Utilizing Haplotypes for Sensitive SNP Array-based Discovery of Somatic Chromosomal Mutations