KR20210071983A - 임산부로부터 분리된 순환 페탈 세포가 현재 또는 과거의 임신의 것인지 확인하는 방법 - Google Patents

임산부로부터 분리된 순환 페탈 세포가 현재 또는 과거의 임신의 것인지 확인하는 방법 Download PDF

Info

Publication number
KR20210071983A
KR20210071983A KR1020217010027A KR20217010027A KR20210071983A KR 20210071983 A KR20210071983 A KR 20210071983A KR 1020217010027 A KR1020217010027 A KR 1020217010027A KR 20217010027 A KR20217010027 A KR 20217010027A KR 20210071983 A KR20210071983 A KR 20210071983A
Authority
KR
South Korea
Prior art keywords
fetus
pregnant
fetal
genetic
cell dna
Prior art date
Application number
KR1020217010027A
Other languages
English (en)
Inventor
앤드류 크레이그
피오나 케이퍼
Original Assignee
일루미나, 인코포레이티드
일루미나 케임브리지 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드, 일루미나 케임브리지 리미티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20210071983A publication Critical patent/KR20210071983A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Organic Chemistry (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Physiology (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)

Abstract

현재 임신중인 태아를 가진 임산부로부터 얻은 태아 세포 DNA의 유전적 기원을 결정하는 방법이 개시된다. 태아 세포 DNA 및 태아 세포 없는 DNA(cfDNA)를 사용하여 복제 수 변이와 같은 태아 유전 상태를 결정하는 방법도 개시된다. 개시된 방법은 태아 세포 DNA의 정보 유전 마커에서 관찰된 대립 유전자에 기초하여 태아 세포 DNA 기원을 결정하기 위해 확률 모델을 사용한다. 방법을 수행하기 위한 시스템 및 컴퓨터 프로그램 제품도 개시된다.

Description

임산부로부터 분리된 순환 페탈 세포가 현재 또는 과거의 임신의 것인지 확인하는 방법
참조에 의한 통합
본 출원의 일부로서 본 명세서와 동시에 PCT 리퀘스트 양식이 제출된다. 본 출원이 동시에 제출된 PCT 요청 양식에서 식별된 바와 같이 혜택 또는 우선권을 주장하는 각 출원은 그 전체가 모든 목적을 위해 여기에 참조로 통합된다.
태아의 복제 수 변이와 같은 유전적 조건의 결정은 중요한 진단적 가치가 있다. 이전에는 복제 수, 복제 수 변이(CNV), 접합성 및 기타 태아의 유전 상태에 대한 대부분의 정보는 구조적 이상을 인식할 수 있는 세포 유전학적 분석을 통해 제공되었다. 유전자 스크리닝 및 생물학적 선량 측정을 위한 기존 절차는 핵형 분석을 위한 태아 세포를 얻기 위해 양수 천자, 코도 천자 또는 융모막 융모 샘플링(CVS)과 같은 침습적 절차를 활용했다. 세포 배양이 필요없는 보다 신속한 검사 방법의 필요성을 인식하면서, FISH(fluorescence in situ hybridization), QF-PCR(quantitative fluorescence PCR) 및 array-Compare Genomic Hybridization(array-CGH)이 복제 수 변이 분석을 위한 분자 세포 유전학적 방법으로 개발되었다. 비교적 짧은 시간에 전체 게놈을 시퀀싱할 수 있는 기술의 출현과 임산부의 혈액에서 모체 및 태아 DNA를 모두 포함하는 순환 무 세포 DNA(cfDNA)의 발견으로, 침습적 샘플링 방법과 관련된 위험없이 태아 유전 물질을 분석할 수 있는 기회가 제공되어, 다양한 종류의 복제 수 변이(CNV) 및 관심있는 유전자 서열의 기타 특성을 진단하는 도구를 제공한다.
일부 응용에서 cfDNA를 사용하여 태아 유전적 상태를 진단하는 것은 높은 기술적인 문제를 수반한다. 일반적으로 태아 cfDNA는 모체 cfDNA에 비해 낮은 비율로 존재하며 일반적으로 20 % 미만이다. 모가 열성 유전 질환의 보균자일 때, 부도 보인자이면 태아는 유전 질환에 걸릴 확률이 25 %이다. 이 경우, 어머니는 질병 관련 유전자의 이형 접합이며, 하나의 질병을 일으키는 대립 유전자와 하나의 정상 대립 유전자를 가지고 있고, 태아는 질병 관련 유전자의 동형 접합이며, 질병을 일으키는 대립 유전자의 두 사본을 가지고 있다. 태아가 모체 혈장 cfDNA를 사용하여 비 침습적 방식으로 부모 모두로부터 유전 질환을 유발하는 돌연변이 대립 유전자를 유전 받았는지 확인하는 것이 바람직하다. 그러나 두 시나리오는 바이알레릭(biallelic) 유전자에 대한 두 대립 유전자에 매핑되는 유사한 서열 태그를 가지고 있기 때문에, 산모가 이형 접합인 경우, 비 침습적 산전 진단(NIPD)의 기존 방법을 사용하여 태아가 동형 접합인지 이형 접합인지 구별하기가 어렵다. 이러한 과제는 다양한 임상 환경에서 복제 수를 안정적으로 진단할 수 있는 비 침습적 방법에 대한 지속적인 필요성의 기초가된다.
비 침습적 산전 검사(NIPT)에 cfDNA를 사용하는 데 기술적인 어려움으로 인해 cfDNA 기반 검사의 감도, 선택성 또는 신호 대 잡음비를 높이기 위한 다양한 기술과 프로세스가 개발되었다. 검사를 개선하는 한 가지 방법은 태아 cfDNA와 태아 세포 DNA의 정보를 결합하여 검사를 개선하는 것이다. NIPT에서, 태아 세포 DNA는 순환하는 태아 세포(cFC)에서 얻을 수 있고, 이는 태아에서 유래하고 태아를 안고있는 임산부에서 순환하는 태아 세포이다. 일반적으로 cFC는 말초 혈액, 자궁 경부 검체, 타액, 가래 등과 같은 모체 체액에서 순환한다. 태아 세포 DNA를 얻은 후, 태아 cfDNA와 결합하여 태아의 유전적 상태를 확인할 수 있다.
그러나, 태아 세포는 임신이 끝난 후 장기간 동안 모체 혈액 및 기타 체액에 남아있을 수 있다. 이는 임산부로부터 분리된 태아 세포가 현재 임신에서 유래된 것으로 안전하게 가정할 수 없음을 의미한다. 태아기 검사 결과가 과거 임신에서 유래한 세포를 기반으로 한 경우, 심각한 오진으로 이어질 수 있다.
본원에 개시된 실시 양태는 상기 요구 중 일부를 충족시키고, 특히 태아 세포 DNA 또는 cFC의 유전적 기원을 결정하는 수단을 제공한다. 유전적 기원이 알려진 상태에서, 태아 세포 DNA를 cfDNA와 결합하여 비 침습적 산전 진단에 적용할 수 있는 신뢰할 수 있는 방법을 제공할 수 있다.
일부 실시 양태에서, 현재 임신에서 태아를 갖고 있는 임산부으로부터 얻은 태아 세포 DNA의 유전적 기원을 결정하기 위한 방법 및 시스템이 제공된다. 방법은 하나 이상의 프로세서와 시스템 메모리를 포함하는 컴퓨터 시스템에서 구현된다.
본 개시 내용의 일 측면은 현재 임신 중에 태아를 갖고 있는 임산부으로부터 수득된 태아 세포 DNA의 유전적 기원을 결정하는 방법에 관한 것이다. 이 방법은 다음을 포함한다: (a) 현재 임신중인 태아의 유전자형을 받는 단계 - 현재 임신중인 태아의 유전자형은 복수의 유전 마커의 각 유전 마커에 대한 하나 이상의 대립 유전자를 포함하며, 각 유전 마커는 고유한 게놈 유전자좌에서의 다형성(예를 들어, 참조 게놈상의 고유한 유전자좌)를 나타냄; (b) 임산부의 유전자형을 받는 단계 - 임산부의 유전자형은 복수의 유전 마커의 각 유전 마커에 대한 하나 이상의 대립 유전자를 포함함; (c) 임산부의 유전자형과 현재 임신 중인 태아의 유전자형으로부터 정보 유전 마커 세트를 확인하는 단계 - 정보 유전 마커 세트의 각 정보 유전 마커는 임산부 여성에서 동형 접합이고 현재 임신 중인 태아의 이형 접합체임; (d) 임산부로부터 얻은 태아 세포 DNA의 경우, 정보 유전 마커 세트의 각 정보 유전 마커에서 하나 이상의 대립 유전자를 결정하는 단계 - 태아 세포 DNA는 현재 임신중인 태아 또는 과거 임신 태아로부터 발원함; (e) 임산부으로부터 얻은 태아 세포 DNA의 각 정보 유전 마커에서 하나 이상의 대립 유전자를 확률 모델에 입력으로 제공하는 단계; (f) 다음 세 가지 시나리오의 확률을 확률 모델의 산출물로 획득하는 단계: 임산부로부터 얻은 태아 세포 DNA가 (1) 현재 임신 중인 태아,(2) 과거 임신 태아 및 현재 임신 중인 태아와 동일한 아버지가 있는 태아; (3) 과거 임신 태아 및 현재 임신 중 태아와 다른 아버지를 가진 태아로부터 발원함; 및 (g) 확률 모델의 출력으로부터, 태아 세포 DNA가 (1) 현재 임신의 태아로부터 유래되었는지 여부를 결정하는 단계. 적어도 (e) 및 (f)는 프로세서와 메모리를 포함하는 컴퓨터에 의해 수행된다.
일부 구현에서, (f)는 다음의 3개의 시나리오의 확률을 확률 모델의 출력으로 획득하는 단계를 포함한다:
임산부로부터 얻은 태아 세포 DNA가
(1) 현재 임신 중인 태아의 것,
(2) 과거 임신 태아의 것으로서, 현재 임신 중인 태아와 동일한 아버지의 태아의 것, 및
(3) 과거 임신 태아의 것으로서, 현재 임신 중 태아와 다른 아버지의 태아의 것.
일부 구현예에서, (g)는 태아 세포 DNA가 다음에 해당하는지 여부를 결정하는 단계를 포함한다:
(1) 현재 임신 중인 태아의 것
(2) 과거 임신 태아의 것으로서 현재 임신 중인 태아와 동일한 아버지의 태아의 것, 또는
(3) 과거 임신 태아의 것으로서 현재 임신 중인 태아와 상이한 아버지의 태아의 것.
일부 구현예에서, (e)는 다수의 공유 유전 마커를 확률 모델에 입력으로서 제공하는 단계를 포함하고, 공유 유전 마커는 현재 임신 중인 태아 및 임산부로부터 얻은 태아 세포 DNA가 동일한 대립 유전자를 가지는 경우의 정보 유전 마커들의 유전 마커이다.
일부 구현예에서, 확률 모델은 3 개의 시나리오가 주어진 경우 공유 유전 마커의 수의 확률에 기초하여 공유 유전 마커의 수를 고려하여 3 개의 시나리오의 확률을 계산한다.
일부 구현예에서, 상기 확률 모델은 공유 유전 마커의 수를 고려하여 3개의 시나리오의 확률을 다음과 같이 계산한다:
Figure pct00001
Figure pct00002
는 공유 유전 마커의 수 k가 주어졌을 때 시나리오 i 또는 si의 확률;
Figure pct00003
는 시나리오 i가 주어졌을 때 공유 유전 마커의 수의 확률;
Figure pct00004
는 시나리오 i의 전체 확률; 그리고
Figure pct00005
는 공유 유전 마커의 수의 전체 확률이다.
일부 구현예에서, 각각의 시나리오에 대하여, 확률 모델은 시나리오 i가 주어졌을 때 공유 유전 마커의 수
Figure pct00006
를 베타-이항 분포에서 도출된 랜덤 변수로 시뮬레이션한다.
일부 구현예에서, 확률 모델은 시나리오 i가 주어졌을 때 공유 유전 마커의 수
Figure pct00007
를 성공률이
Figure pct00008
인 이항 분포에서 도출된 랜덤 변수로 시뮬레이션하고,
Figure pct00009
는 하이퍼 파라미터 ai 및 bi의 베타 분포로부터 도출된 랜덤 변수, 즉,
Figure pct00010
Figure pct00011
이며, n은 정보 유전 마커 세트 내 정보 유전 마커의 수이다.
일부 구현예에서, 시나리오 i가 주어진 공유 유전 마커의 수의 확률이 다음 우도 함수로부터 계산된다:
Figure pct00012
n은 정보 유전 마커의 수;
k는 공유 유전 마커의 수;
β()는 베타 함수;
ai 및 bi는 시나리오 i에 대한 베타 분포의 하이퍼 파라미터.
일부 구현예에서,
Figure pct00013
Figure pct00014
w는 의사 카운트 또는 관찰의 수를 나타내는 파라미터이다.
일부 구현예에서,
Figure pct00015
는 시나리오 i에서 정보 유전 마커 세트 중 공유 유전 마커의 예상 비율에 대응하도록 설정된다.
일부 구현예에서, 상기 확률 모델이 시나리오(1)에 대한 공유 유전 마커의 예상 비율 인
Figure pct00016
을 다음과 같이 계산한다:
Figure pct00017
n은 정보 유전 마커의 수다.
일부 구현예에서, 상기 확률 모델은 시나리오(2)에 대한 공유 유전 마커의 예상 비율 인
Figure pct00018
를 다음과 같이 계산한다:
Figure pct00019
pj는 j 번째 마커에서 이종-대립 유전자의 모집단 빈도이고, 이종-대립 유전자는 임산부에게는 없으나 현재 임신 중인 태아에서 발견되는 정보 유전 마커에서의 대립 유전자이다.
일부 구현예에서, 확률 모델이 시나리오(3)에 대한 공유 유전 마커의 예상 비율인
Figure pct00020
를 다음과 같이 계산한다:
Figure pct00021
pj는 j 번째 마커에서 이종 대립 유전자의 모집단 빈도이다.
일부 구현예에서, 방법은 3개의 시나리오의 사전 확률을 확률 모델에 제공하는 단계를 더 포함하고, 상기 확률 모델은 상기 3개의 시나리오의 사전 확률 및 상기 하나 이상의 마커에서의 대립 유전자에 기초하여 3개의 시나리오의 사후 확률을 제공한다.
일부 구현예에서, 방법은
임산부으로부터 무 세포 DNA("cfDNA")를 획득하는 단계; 및
(i) 현재 임신중인 태아의 유전자형 및 (ii) 임산부의 유전자형을 생성하기 위해 임산부로부터 cfDNA를 유전자형화(genotyping)하는 단계를 더 포함한다.
일부 구현예에서, 방법은,
임산부의 적어도 하나의 세포를 획득하는 단계;
임산부의 유전자형을 생성하기 위해 임산부의 적어도 하나의 세포로부터 얻은 세포 DNA를 유전자형화하는 단계;
임산부로부터 cfDNA를 획득하는 단계; 및
현재 임신 중인 태아의 유전자형을 생성하도록 임산부로부터 cfDNA를 유전자형화하는 단계를 더 포함한다.
일부 구현예에서, 태아 세포 DNA가 임산부에서 순환하는 순환 태아 세포("cFC")로부터 유래된 것이다.
일부 구현예에서, 방법은 cFC의 유전적 기원을 결정하는 단계를 추가로 포함한다.
일부 구현예에서, 태아 세포 DNA가 현재 임신중인 태아로부터 유래된 것으로 결정되고, 상기 방법은 현재 임신중인 태아가 유전적 이상(genetic abnormality)을 갖는지 여부를 결정하기 위해 태아 세포 DNA를 분석하는 단계를 추가로 포함한다.
일부 구현예에서, 상기 유전적 이상이 이수성(aneuploidy)이다.
일부 구현예에서, 태아 세포 DNA를 분석하는 단계는, 현재 임신 중인 태아가 유전적 이상을 갖는지 여부를 결정하기 위해 현재 임신 중인 임산부로부터 얻은 태아 cfDNA로부터의 정보와 태아 세포 DNA로부터의 정보를 모두 이용하는 단계를 포함한다.
일부 구현예에서, 각각의 정보 유전 마커가 이중 대립 유전자이다.
다른 양태는, 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 현재 임신 중인 태아를 가진 임산부로부터 얻은 태아 세포 DNA의 유전적 기원을 결정하기 위한 방법을 컴퓨터 시스템으로 하여금 구현하게 하는 프로그램 코드를 저장하는 비일시적 기계 판독가능 매체를 포함하는 컴퓨터 프로그램 제품에 관한 것이다. 상기 프로그램 코드는,
(a) 임산부로부터 얻은 태아 세포 DNA에 대해, 정보 유전 마커 세트의 각 정보 유전 마커에서 하나 이상의 대립 유전자를 결정하기 위한 코드;
각각의 정보 유전 마커는 고유 게놈 유전자좌에서의 다형성을 나타내고,
각각의 정보 유전 마커는 임산부에서 동형 접합이고 현재 임신 태아에서 이형 접합이며,
태아 세포 DNA는 현재 임신중인 태아 또는 과거 임신 태아에서 유래함
(b) 임산부로부터 얻은 태아 세포 DNA의 각각의 정보 유전 마커에서 하나 이상의 대립 유전자를 확률 모델에 입력으로 제공하기 위한 코드;
(c) 3개의 시나리오의 확률을 확률 모델의 출력으로 다음을 얻기 위한 코드:
임산부로부터 얻은 태아 세포 DNA가
(1) 현재 임신의 태아의 것,
(2) 현재 임신 태아와 동일한 아버지를 가진 과거 임신의 태아의 것, 및
(3) 현재 임신 태아와 상이한 아버지를 가진 과거 임신의 태아의 것임.
(d) 태아 세포 DNA가 (1) 현재 임신의 태아로부터 유래된 것인지 여부를 확률 모델의 출력으로부터 결정하기 위한 코드를 포함한다.
추가의 양태는 컴퓨터 시스템에 관한 것으로서,
하나 이상의 프로세서와,
시스템 메모리와,
상기 하나 이상의 프로세서에 의해 실행될 때, 현재 임신 중인 태아를 가진 임산부로부터 얻은 태아 세포 DNA의 유전적 기원을 결정하기 위한 방법을 컴퓨터 시스템으로 하여금 구현하게 하는 컴퓨터-실행가능 명령어를 저장한 하나 이상의 컴퓨터 판독가능 저장 매체를 포함한다. 상기 방법은,
(a) 임산부로부터 얻은 태아 세포 DNA에 대해, 정보 유전 마커 세트의 각 정보 유전 마커에서 하나 이상의 대립 유전자를 결정하기 위한 단계;
각각의 정보 유전 마커는 고유 게놈 유전자좌에서의 다형성을 나타내고,
각각의 정보 유전 마커는 임산부에서 동형 접합이고 현재 임신 태아에서 이형 접합이며,
태아 세포 DNA는 현재 임신중인 태아 또는 과거 임신 태아에서 유래함
(b) 임산부로부터 얻은 태아 세포 DNA의 각각의 정보 유전 마커에서 하나 이상의 대립 유전자를 확률 모델에 입력으로 제공하기 위한 단계;
(c) 3개의 시나리오의 확률을 확률 모델의 출력으로 다음을 획득하기 위한 단계:
임산부로부터 얻은 태아 세포 DNA가
(1) 현재 임신의 태아의 것,
(2) 현재 임신 태아와 동일한 아버지를 가진 과거 임신의 태아의 것, 및
(3) 현재 임신 태아와 상이한 아버지를 가진 과거 임신의 태아의 것임.
(d) 태아 세포 DNA가 (1) 현재 임신의 태아로부터 유래된 것인지 여부를 확률 모델의 출력으로부터 결정하기 위한 단계를 포함한다.
본 개시의 다른 양태는 확률 모델링 및 컴퓨터 시뮬레이션을 사용하여 문자열 쌍을 일치시키는 방법에 관한 것으로서, 임의 쌍의 두 문자열이 동일한 수의 문자를 가지며, 상기 방법은:
(a) 제 1 문자열 쌍을 수신하는 단계;
(b) 제 5 문자열 쌍을 수신하는 단계;
(c) 제 1 문자열 쌍 및 제 5 문자열 쌍 모두에서 정보 문자 위치 세트를 식별하는 단계 - 정보 문자 위치 세트 중 각각의 정보 문자 위치는 (i) 각 문자열에서 고유 위치를 나타내고, (ii) 임의의 문자열 쌍에서 두 개의 상이한 문자 중 하나 또는 둘 모두를 가지며, (iii)제 5 문자열 쌍의 상기 2개의 상이한 문자 중 일 문자만을 가지고, (iv) 상기 제 1 문자열 쌍의 상기 2개의 상이한 문자 중 두 문자 모두를 가짐;
(d) 제 4 문자열 쌍에 대해 정보 문자 위치 세트에서 문자를 결정하는 단계;
(e) 문자 스트링 쌍을 포함하는 훈련 데이터세트를 수신하고, 훈련 데이터세트를 이용하여 확률 모델을 훈련시키는 단계;
(f) 확률 모델에 대한 입력으로서, 제 4 문자열 쌍의 정보 문자 위치 세트에 있는 문자를 제공하는 단계; 및
(g) 확률 모델의 출력으로서, 제 4 문자열 쌍이 제 1, 제 2, 제 3 문자열 쌍과 일치할 확률을 획득하는 단계 - 각 문자열 쌍의 두 개의 상이한 문자열은 길이가 동일하고, 각 정보 문자 위치는 각 문자열 상에 대응하는 위치를 가지며, 제 1 문자열 쌍은 제 5 문자열 쌍을 제 6 쌍 문자열 쌍과 재결합함으로써 획득 가능하고, 제 2 문자열 쌍은 제 5 문자열 쌍을 제 6 문자열 쌍과 재결합함으로써 획득가능하며, 제 3 문자열 쌍은 제 5 문자열 쌍을 제 7 문자열 쌍과 재결합함으로써 획득가능함;
(h) 확률 모델의 출력으로부터, 제 4 문자열 쌍이 제 1, 제 2, 또는 제 3 문자열 쌍과 일치하는지 여부를 결정하는 단계를 포함한다. 적어도 (e) 및 (f)는 프로세서 및 메모리를 포함하는 컴퓨터 시스템에 의해 수행된다.
일부 구현예에서, (f)는 3개의 시나리오의 확률을 획득하는 단계를 포함하고, 3개의 시나리오는 제 4 문자열 쌍이 제 1, 2, 3 문자열 쌍과 일치하는 경우이며, 상기 제 2 문자열 쌍은 제 5 문자열 쌍을 제 6 문자열 쌍과 재결합하여 획득가능하고, 제 3 문자열 쌍은 제 5 문자열 쌍을 제 7 문자열 쌍과 재결합함으로써 획득가능하다.
일부 구현예에서, (g)는 상기 확률 모델의 출력으로부터, 상기 제 4 문자열 쌍이 상기 제 1, 제 2 또는 제 3 문자열 쌍과 일치하는지 여부를 결정하는 단계를 포함한다.
일부 구현예에서, 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템은 전술한 방법들 중 임의의 방법을 수행하도록 구성된다.
본 개시의 추가적 양태는 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 위 방법들 중 임의의 방법을 컴퓨터 시스템으로 하여금 구현하게 하는 컴퓨터-실행가능 명령어를 저장한 하나 이상의 컴퓨터-판독가능 비일시적 저장 매체를 포함하는 컴퓨터 프로그램 제품에 관한 것이다.
본원의 예는 인간에 관한 것이고 언어는 주로 인간의 관심에 관한 것이지만, 본원에 기술된 개념은 임의의 식물 또는 동물의 게놈에 적용 가능하다. 본 개시 내용의 이들 및 다른 목적 및 특징은 다음의 설명 및 첨부된 청구 범위로부터 보다 완전히 명백해질 것이며, 이하에 설명되는 바와 같이 개시 내용의 실행에 의해 학습될 수 있다.
참조에 의한 통합
본 명세서에 언급된 모든 특허, 특허 출원 및 기타 공보(본원에서 언급된 모든 서열 포함)는 각각의 개별 공보, 특허 또는 특허 출원이 구체적이고 개별적으로 참고 자료로 포함된다고 표시된 것과 동일한 정도로 본원에 참고로 명시적으로 포함된다. 인용된 모든 문서는 관련 부분에서 그 인용문의 문맥에 의해 표시된 목적을 위해 전체가 참조로 여기에 통합된다. 그러나, 어떤 문서의 인용도 본 개시와 관련하여 선행 기술임을 인정하는 것으로 해석되어서는 안된다.
도 1은 순환 태아 세포의 공급원을 결정하기 위한 프로세스를 보여준다.
도 2는 태아 세포 DNA의 공급원을 결정하는 과정을 보여준다.
도 3은 현재 임신중인 태아로부터 유래된 태아 세포 DNA 및 상기 태아로부터 유래된 태아 cfDNA를 사용하여 복제 수 변이를 결정하는 프로세스를 예시한다.
도 4는 확률 모델의 구성 요소를 예시한다.
도 5는 확률 모델링 및 컴퓨터 시뮬레이션을 사용하여 문자열 쌍을 매칭하는 프로세스를 도시한다.
도 6은 태아의 관심 서열을 결정하기 위한 방법의 프로세스 흐름을 보여준다.
도 7은 임산부로부터 얻은 고정된 전혈 샘플을 사용하여 모태 cfDNA 및 태아 세포 DNA를 얻는 과정의 흐름도를 묘사한다.
도 8은 모체 세포로부터 분리된 태아 NRBC로부터 태아 세포 DNA를 얻기 위한 예시적인 프로세스를 예시한다.
도 9는 모체 혈액 샘플에서 태아 NRBC를 분리하는 과정의 흐름도를 보여준다.
도 10은 특정 실시예에 따른 계산 장치의 역할을 할 수 있는 전형적인 컴퓨터 시스템을 도시한다.
도 11은 테스트 샘플로부터 호출 또는 진단을 생성하기 위한 분산 시스템의 한 구현을 보여준다.
도 12는 본 개시의 일부 구현에 따라 별개의 위치에서 다양한 동작을 수행하기 위한 옵션을 도시한다.
도 13은 3 개의 상이한 시나리오에 대한 공유 유전 마커(μ)의 예상 부분의 베타 분포를 예시한다.
도 14는 공유/매칭된 유전 마커의 수의 함수로서 로그 확률을 예시한다.
정의
달리 명시되지 않는 한, 본원에 개시된 방법 및 시스템의 실행은 분자 생물학, 미생물학, 단백질 정제, 단백질 공학, 단백질 및 DNA 시퀀싱 및 재조합 DNA 분야에서 일반적으로 사용되는 통상적 인 기술 및 장치를 포함하며, 이는 당 분야의 기술 범위 내에 있다. 이러한 기술 및 장치는 당업자에게 알려져 있으며 수많은 텍스트 및 참고 문헌에 설명되어 있다(예를 들어, Sambrook et al., "Molecular Cloning: A Laboratory Manual," Third Edition (Cold Spring Harbor), [2001]); 및 Ausubel et al., "Current Protocols in Molecular Biology" [1987]).
숫자 범위는 범위를 정의하는 숫자를 포함한다. 본 명세서 전반에 걸쳐 주어진 모든 최대 수치 제한은 마치 그러한 더 낮은 수치 제한이 여기에 명시적으로 쓰여진 것처럼 모든 더 낮은 수치 제한을 포함하는 것으로 의도된다. 본 명세서 전반에 걸쳐 주어진 모든 최소 수치 제한은 마치 그러한 더 높은 수치 제한이 여기에 명시적으로 쓰여진 것처럼 모든 더 높은 수치 제한을 포함할 것이다. 본 명세서 전반에 걸쳐 주어진 모든 수치 범위는 마치 그러한 더 좁은 수치 범위가 모두 본 명세서에 명시적으로 쓰여진 것처럼 그러한 더 넓은 수치 범위 내에 속하는 모든 더 좁은 수치 범위를 포함할 것이다.
용어 "약"이 수량을 수정하기 위해 사용되는 경우, 수량-10 %에서 수량 + 10 %까지의 범위를 의미한다.
여기에 제공된 표제는 본 개시 내용을 제한하려는 것이 아니다.
본 명세서에서 달리 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어는 당업자가 일반적으로 이해하는 것과 동일한 의미를 갖는다. 여기에 포함된 용어를 포함하는 다양한 과학 사전은 잘 알려져 있고 당업자에게 이용 가능하다. 본 명세서에 기재된 것과 유사하거나 동등한 임의의 방법 및 물질이 본 명세서에 개시된 실시 양태의 실시 또는 시험에 사용되지만, 일부 방법 및 물질이 기재되어있다.
바로 아래에 정의된 용어는 명세서 전체를 참조하여 보다 완전하게 설명된다. 본 개시 내용은 기술된 특정 방법론, 프로토콜 및 시약에 제한되지 않는 것으로 이해되어야하며, 이는 당업자가 사용하는 맥락에 따라 달라질 수 있기 때문이다. 본 명세서에서 사용된 바와 같이, 단수 용어 "a", "an" 및 "the"는 문맥이 달리 명확하게 나타내지 않는한 복수 참조를 포함한다. 달리 표시되지 않는 한, 핵산은 5'에서 3' 방향으로 왼쪽에서 오른쪽으로 작성되고 아미노산 서열은 각각 아미노에서 카르복시 방향으로 왼쪽에서 오른쪽으로 작성된다.
순환 무 세포 DNA 또는 단순 무 세포 DNA(cfDNA)는 세포 내에 국한되지 않고 혈류 또는 기타 체액에서 자유롭게 순환하는 DNA 단편이다. cfDNA는 다른 기원을 가지고 있으며, 어떤 경우에는 수행자의 혈액에서 순환하는 기증자 조직 DNA에서, 어떤 경우에는 종양 세포 또는 종양 영향을 받은 세포에서, 다른 경우에는 모체 혈액에서 순환하는 태아 DNA에서 유래한 것으로 알려져 있다. 일반적으로 cfDNA는 단편화되고 게놈의 작은 부분만 포함하며, 이는 cfDNA를 얻은 개인의 게놈과 다를 수 있다.
용어 비순환 게놈 DNA(gDNA) 또는 세포 DNA는 세포에 갇혀 있고 종종 완전한 게놈을 포함하는 DNA 분자를 지칭하기 위해 사용된다.
일반적인 수준에서 명사 "유전자형"은 유기체 또는 세포의 유전적 구성을 의미한다. 보다 구체적으로, 유전자형은 관심있는 하나 이상의 유전 마커에 대한 대립 유전자를 지칭할 수 있다. 예를 들어, 관심 표현형에 대한 유전자형에는 여러 유전자의 대립 유전자 또는 유전 마커가 포함될 수 있다. 유전자형은 단일 유전자 또는 단일 유전 마커의 대립 유전자를 나타낼 수도 있다. 예를 들어, 유전자는 AA, aa 및 aA의 세 가지 다른 유전자형을 가질 수 있다. 동사로서, "유전형 분석"은 유기체, 세포 또는 하나 이상의 유전 마커의 유전적 구성을 결정하는 행위 또는 과정을 의미한다.
베타 분포는 예를 들어 α와 β(또는 a와 b)로 표시되는 두 개의 양의 모양 파라미터에 의해 파라미터화된 구간 [0, 1]에 정의된 연속 확률 분포의 집합으로, 랜덤 변수를 사용하고 분포의 모양을 제어한다. 베타 분포는 다양한 분야에서 유한 길이의 간격으로 제한된 랜덤 변수의 동작을 모델링하기 위해 적용되었다. 베이지안 추론에서 베타 분포는 Bernoulli, 이항, 음 이항 및 기하 분포에 대한 켤레 사전 확률 분포이다. 예를 들어 베타 분포는 성공 확률에 관한 초기 지식을 설명하기 위해 베이지안 분석에서 사용할 수 있다. 랜덤 변수 X가 베타 분포를 따르는 경우 랜덤 변수 X는 X ~ Beta(α, β) 또는 X ~ β(a, b)로 표시될 수 있다.
이항 분포는 n 개의 독립적인 실험의 시퀀스에서 성공 횟수의 불연속적인 확률 분포로서, 각각 예-아니요 질문을 하고, 각각 고유한 부울 값 결과를 가진다: 단일 비트 정보를 포함하는 랜덤 변수: 양수(확률 p) 또는 음수(확률 q = 1 - p). 단일 시행, 즉 n = 1의 경우, 이항 분포는 Bernoulli 분포이다. 이항 분포는 크기 N의 모집단에서 대체하여 추출한 크기 n 표본의 성공 횟수를 모형화하는 데 자주 사용된다. 임의 변수 X가 파라미터 n ∈ N 및 p ∈ [0,1]을 사용하여 이항 분포를 따르는 경우, 랜덤 변수 X는 X ~ B(n, p) 또는 X ~ BN(n, p)로 표시될 수 있다. 다시 말해, X는 총 n 번의 시행 중 성공한 시행 횟수를 나타내고, p는 각 시행이 성공적인 결과를 산출할 확률이다.
베타-이항 분포는 성공률 p가 베타 분포 베타(a, b)로부터의 랜덤 변수 인 이항 분포 BN(n, p)이다. 랜덤 변수 X는 X ~ BB(n, a, b)로 표시할 수 있다.
다형성 및 유전적 다형성은 하나의 게놈 유전자좌에서 동일한 집단에서 2 개 이상의 대립 유전자가 발생하는 것을 지칭하기 위해 본원에서 상호 교환적으로 사용되며, 각각은 상당한 빈도를 갖는다.
다형성 부위(Polymorphism site) 및 다형성의 부위(polymorphic site)는 2 개 이상의 대립 유전자가 존재하는 게놈상의 유전자좌를 지칭하기 위해 본원에서 상호 교환적으로 사용된다. 일부 구현에서, 이것은 서로 다른 염기의 두 대립 유전자를 갖는 단일 뉴클레오타이드 변이를 지칭하는 데 사용된다.
용어 "대립 유전자 수"(allele count)는 특정 대립 유전자의 서열 판독 계수 또는 수를 의미한다. 일부 구현에서, 이는 판독을 참조 게놈의 위치에 매핑하고 대립 유전자 서열을 포함하고 참조 게놈에 매핑된 판독을 계수함으로써 결정될 수 있다.
대립 유전자 빈도 또는 유전자 빈도는 유전자의 다른 대립 유전자에 비해 유전자의 대립 유전자(또는 유전자의 변이체)의 빈도이며, 분수 또는 백분율로 표현될 수 있다. 유전자가 종종 하나 이상의 유전자좌에 위치하기 때문에 대립 유전자 빈도는 종종 특정 게놈 유전자좌와 연관된다. 그러나, 본원에 사용된 대립 유전자 빈도는 또한 DNA 단편의 크기 기반 빈과 연관될 수 있다. 이런 의미에서 대립 유전자를 포함하는 cfDNA와 같은 DNA 단편은 다른 크기 기반 빈에 할당된다. 다른 대립 유전자의 빈도와 비교하여 크기 기반 빈에서 대립 유전자의 빈도는 대립 유전자 빈도이다.
용어 "판독"은 핵산 샘플의 일부로부터 얻은 서열을 의미한다. 반드시 그런 것은 아니지만 일반적으로 판독은 샘플에서 연속된 염기 쌍의 짧은 시퀀스를 나타낸다. 판독 값은 샘플 부분의 염기쌍 서열(A, T, C 또는 G)로 상징적으로 표시될 수 있다. 이는 메모리 장치에 저장되고 참조 서열과 일치하는지 또는 다른 기준을 충족하는지 여부를 결정하기 위해 적절하게 처리될 수 있다. 판독은 시퀀싱 장치에서 직접 또는 샘플에 관한 저장된 시퀀스 정보에서 간접적으로 얻을 수 있다. 일부 경우에, 리드는 더 큰 서열 또는 영역을 확인하는 데 사용될 수 있는 충분한 길이(예: 적어도 약 25bp)의 DNA 서열이며, 예를 들어 염색체 또는 게놈 영역 또는 게놈에 정렬되고 특이적으로 할당될 수 있다.
용어 "게놈 판독"은 개인의 전체 게놈에서 임의의 세그먼트의 판독과 관련하여 사용된다.
본 명세서에서 사용되는 용어 "파라미터"는 그 값 또는 다른 특성이 복제 수 변이와 같은 관련 조건에 영향을 미치는 물리적 특징을 나타낸다. 경우에 따라 파라미터라는 용어는 수학적 관계 또는 모델의 출력에 영향을 주는 변수를 참조하여 사용된다. 이 변수는 독립 변수(즉, 모델에 대한 입력) 또는 하나 이상의 독립 변수에 기초한 중간 변수일 수 있다. 모델의 범위에 따라 한 모델의 출력이 다른 모델의 입력이되어 다른 모델의 파라미터가 될 수 있다.
본원에서 용어 "복제 수 변이"는 참조 샘플에 존재하는 핵산 서열의 복제 수와 비교하여 테스트 샘플에 존재하는 핵산 서열의 복제 수의 변이를 지칭한다. 특정 구현 예에서, 핵산 서열은 1kb 이상이다. 일부 경우에, 핵산 서열은 전체 염색체 또는 이의 상당 부분이다. "복제 수 변이체"는 테스트 샘플에서 관심있는 핵산 서열을 관심있는 핵산 서열의 예상 수준과 비교함으로써 발견되는 복제 수 차이가있는 핵산의 서열을 의미한다. 예를 들어, 테스트 샘플에서 관심있는 핵산 서열의 수준을 적격 샘플에 있는 것과 비교한다. 복제 수 변이/변형에는 미세 결실을 포함한 삭제, 미세 삽입, 중복, 곱셈 및 전좌를 포함한 삽입이 포함된다. CNV는 염색체 이수성 및 부분 이수성을 포함한다.
본원에서 용어 "무이성"(aneuploidy)은 전체 염색체 또는 염색체의 일부의 손실 또는 획득으로 인한 유전 물질의 불균형을 의미한다.
본 명세서에서 용어 "염색체 이수성" 및 "완전한 염색체 이수성"은 전체 염색체의 손실 또는 획득에 의해 야기되는 유전 물질의 불균형을 지칭하고, 생식선 이수성 및 모자이크 이수성을 포함한다.
용어 "복수"는 하나보다 많은 요소를 지칭한다. 예를 들어, 용어는 본원에 개시된 방법을 사용하여 시험 샘플 및 적격 샘플에서 복제 수 변이의 유의한 차이를 확인하기에 충분한 다수의 핵산 분자 또는 서열 태그와 관련하여 본원에서 사용된다. 일부 실시 양태에서, 약 20 내지 40bp의 적어도 약 3 x 106 서열 태그가 각 시험 샘플에 대해 수득된다. 일부 실시 양태에서, 각 테스트 샘플은 적어도 약 5 x 106, 8 x 106, 10 x 106, 15 x 106, 20 x 106, 30 x 106, 40 x 106, 또는 50 x 106 시퀀스 태그에 대한 데이터를 제공한다. 각각의 시퀀스 태그는 약 20 내지 40bp를 포함한다.
용어 "쌍 말단 판독"(paired end reads)은 핵산 단편의 각 말단으로부터 하나의 판독을 얻는 쌍 말단 서열 분석으로부터 판독을 지칭한다. 쌍을 이루는 말단 시퀀싱은 폴리 뉴클레오타이드 가닥을 삽입물이라고하는 짧은 서열로 단편화하는 것을 포함할 수 있다. 단편화는 무 세포 DNA 분자와 같은 비교적 짧은 폴리 뉴클레오타이드의 경우 선택 사항이거나 불필요하다.
용어 "폴리 뉴클레오타이드", "핵산" 및 "핵산 분자"는 상호 교환적으로 사용되며, 공유 결합된 뉴클레오타이드 서열(즉, RNA의 경우 리보뉴클레오타이드 및 DNA의 경우 데옥시리보뉴클레오타이드)을 지칭하며, 일 뉴클레오타이드의 5탄당의 3 '위치가 포스포디에스테르 그룹에 의해 다음 뉴클레이타이드의 5 탄당의 5 '위치에 연결된다. 뉴클레오타이드는 RNA 및 cfDNA 분자와 같은 DNA 분자를 포함하나 이에 제한되지 않는 임의 형태의 핵산 서열을 포함한다. 용어 "폴리 뉴클레오타이드"는 제한없이 단일 가닥 및 이중 가닥 폴리 뉴클레오타이드를 포함한다.
본원에서 용어 "시험 샘플"은 전형적으로 생물학적 유체, 세포, 조직, 기관 또는 유기체로부터 유래된 샘플을 지칭하며, 복제 수 변이에 대해 스크리닝될 핵산 또는 하나 이상의 핵산 서열을 포함하는 핵산 혼합물을 포함한다. 특정 구현 예에서 샘플은 카피 번호가 변이를 겪은 것으로 의심되는 적어도 하나의 핵산 서열을 포함한다. 이러한 샘플에는 가래/경구 액, 양수, 혈액, 혈액 분획 또는 미세 바늘 생검 샘플(예: 수술 생검, 미세 바늘 생검 등), 소변, 복막 액, 흉막액, 등. 샘플은 종종 인간 피험자(예: 환자)로부터 채취되지만, 분석법은 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하나 이에 국한되지 않는 포유 동물의 샘플에서 수 변이(CNV)를 복사하는 데 사용할 수 있다. 시료는 생물학적 공급원에서 얻은 그대로 또는 시료의 특성을 수정하기 위한 전처리 후에 직접 사용할 수 있다. 예를 들어, 그러한 전처리는 혈액으로부터 혈장을 준비하는 것, 점성 액체를 희석하는 것 등을 포함할 수 있다. 전처리 방법은 또한 여과, 침전, 희석, 증류, 혼합, 원심 분리, 동결, 동결 건조, 농축, 증폭, 핵산 단편화, 간섭 성분의 불 활성화, 시약 첨가, 용해 등을 포함할 수 있지만 이에 제한되지는 않는다. 샘플에 대해 이러한 전처리 방법이 사용되는 경우, 이러한 전처리 방법은 일반적으로 관심 핵산(들)이 테스트 샘플에 남아 있도록, 때로는 미처리 테스트 샘플(예: 즉, 그러한 전처리 방법(들)이 적용되지 않은 샘플)의 농도에 비례하는 농도로, 남도록 이루어진다. 이러한 "처리된" 또는 "처방된" 샘플은 본원에 기재된 방법과 관련하여 여전히 생물학적 "시험" 샘플로 간주된다.
본원에서 "훈련 세트"라는 용어는 영향을 받은 및/또는 영향을 받지 않은 샘플을 포함할 수 있고 테스트 샘플을 분석하기 위한 모델을 개발하는 데 사용되는 훈련 샘플 세트를 의미한다. 일부 실시예에서, 훈련 세트는 영향을 받지 않은 샘플을 포함한다. 이들 실시 양태에서, CNV를 결정하기 위한 임계 값은 관심 복제 수 변이에 영향을 받지 않는 샘플의 훈련 세트를 사용하여 설정된다. 훈련 세트의 영향을 받지 않은 샘플은 정규화 시퀀스(예: 정규화 염색체)를 식별하기 위한 적격 샘플로 사용될 수 있으며, 영향을 받지 않은 샘플의 염색체 용량은 관심있는 각 시퀀스(예: 염색체)에 대한 임계 값을 설정하는 데 사용된다. 일부 실시예에서, 훈련 세트는 영향을 받은 샘플을 포함한다. 학습 세트의 영향을 받는 샘플을 사용하여 영향을 받는 테스트 샘플을 영향을 받지 않은 샘플과 쉽게 구별할 수 있는지 확인할 수 있다.
훈련 세트는 또한 관심 집단의 통계 샘플이며, 통계 샘플은 생물학적 샘플과 혼동되지 않아야한다. 통계 샘플은 종종 여러 개인으로 구성되며, 데이터는 개인이 모집단에 일반화할 수 있는 하나 이상의 관심 정량적 값을 결정하는 데 사용된다. 통계 샘플은 관심 모집단에 있는 개인의 하위 집합이다. 개인은 사람, 동물, 조직, 세포, 기타 생물학적 샘플(즉, 통계적 샘플은 여러 생물학적 샘플을 포함할 수 있음) 및 통계 분석을 위한 데이터 포인트를 제공하는 기타 개별 엔티티 일 수 있다.
일반적으로, 훈련 세트는 검증 세트와 함께 사용된다. 용어 "검증 세트"는 통계 샘플에서 개인 세트를 지칭하는 데 사용되며, 개인이 훈련 세트를 사용하여 결정된 관심의 양적 값을 검증하거나 평가하는 데 사용되는 데이터이다. 일부 실시예에서, 예를 들어, 훈련 세트는 참조 시퀀스에 대한 마스크를 계산하기 위한 데이터를 제공하는 반면, 검증 세트는 마스크의 유효성 또는 효과를 평가하기 위한 데이터를 제공한다.
"복제 수의 평가"는 서열의 복제 수와 관련된 유전적 서열의 상태의 통계적 평가와 관련하여 본원에서 사용된다. 예를 들어, 일부 실시 양태에서, 평가는 유전자 서열의 존재 또는 부재의 결정을 포함한다. 일부 실시 양태에서, 평가는 유전자 서열의 부분적 또는 완전한 이수성의 결정을 포함한다. 다른 실시예에서, 평가는 유전자 서열의 복제 수에 기초하여 둘 이상의 샘플 사이의 구별을 포함한다. 일부 실시 양태에서, 평가는 유전 서열의 복제 수에 기초한 통계 분석, 예를 들어 정규화 및 비교를 포함한다.
본원에서 용어 "관심 서열"또는 "관심 핵산 서열"은 건강한 개체와 질병에 걸린 개체 사이의 서열 표현의 차이와 관련된 핵산 서열을 지칭한다. 관심 서열은 질병 또는 유전적 상태에서 잘못 표현 된, 즉 과다 또는 과소 표현된 염색체상의 서열 일 수 있다. 관심있는 서열은 염색체의 일부, 즉 염색체 세그먼트 또는 전체 염색체 일 수 있다. 예를 들어, 관심있는 서열은 이수성 상태에서 과도하게 표현되는 염색체이거나 암에서 과소 표현되는 종양 억제자를 암호화하는 유전자 일 수 있다. 관심있는 서열은 전체 집단에서 과다 또는 과소 표현되는 서열, 또는 피험자의 세포 하위 집단을 포함한다. "적격 관심 서열"은 적격 샘플에서 관심 서열이다. "관심 테스트 시퀀스"는 테스트 샘플에서 관심 시퀀스이다.
본원에서 용어 "정규화 서열"은 정규화 서열과 관련된 관심 서열에 매핑된 서열 태그의 수를 정규화하는 데 사용되는 서열을 지칭한다. 일부 실시 양태에서, 정규화 서열은 강건한 염색체를 포함한다. "강건한 염색체"는 이수성일 가능성이 낮은 염색체이다. 인간 염색체를 포함하는 일부 경우에 강건한 염색체는 X 염색체, Y 염색체, 13 번 염색체, 18 번 염색체 및 21 번 염색체 이외의 임의의 염색체이다. 일부 실시 양태에서, 정규화 서열은 다음과 같은 서열 태그의 수에 가변성을 나타낸다. 정규화 파라미터로 사용되는 관심 시퀀스의 가변성을 근사하는 샘플 및 시퀀싱 실행간에 매핑된다. 정규화 시퀀스는 영향을 받은 샘플을 하나 이상의 영향을 받지 않은 샘플과 구별할 수 있다. 일부 구현에서, 정규화 서열은 다른 염색체와 같은 다른 잠재적 인 정규화 서열과 비교할 때 영향을 받은 샘플을 하나 이상의 영향을 받지 않은 샘플로부터 가장 잘 또는 효과적으로 구별한다. 일부 실시 양태에서, 정규화 서열의 가변성은 샘플 및 시퀀싱 실행에 걸쳐 관심 서열에 대한 염색체 용량의 가변성으로서 계산된다. 일부 실시 양태에서, 정규화 서열은 영향을 받지 않은 샘플 세트에서 확인된다.
"정규화 염색체", "정규화 분모 염색체"또는 "정규화 염색체 서열"은 "정규화 서열"의 예이다. "정규화 염색체 서열"은 단일 염색체 또는 염색체 그룹으로 구성될 수 있다. 일부 실시 양태에서, 정규화 서열은 2 개 이상의 강건한 염색체를 포함한다. 특정 실시 양태에서, 강건한 염색체는 염색체 X, Y, 13, 18 및 21 이외의 모두 상 염색체 염색체이다. "정규화 세그먼트"는 "정규화 서열"의 또 다른 예이다. "정규화 세그먼트 서열"은 염색체의 단일 세그먼트로 구성될 수 있거나 동일하거나 상이한 염색체의 둘 이상의 세그먼트로 구성될 수 있다. 특정 실시 양태에서, 정규화 서열은 프로세스 관련, 염색체 간(실행 내) 및 시퀀싱 간(실행 간) 가변성과 같은 가변성에 대해 정규화하도록 의도된다.
용어 "커버리지"는 정의된 서열에 매핑된 풍부한 서열 태그를 지칭한다. 커버리지는 시퀀스 태그 밀도(또는 시퀀스 태그 수), 시퀀스 태그 밀도 비율, 정규화된 커버리지 양, 조정된 커버리지 값 등에 의해 정량적으로 표시될 수 있다.
본원에서 용어 "차세대 서열 분석(NGS)"은 클론 증폭된 분자 및 단일 핵산 분자의 대량 병렬 서열 분석을 허용하는 서열 분석 방법을 의미한다. NGS의 비 제한적인 예는 가역 염료 종결자를 사용한 합성 별 시퀀싱 및 결찰 별 시퀀싱을 포함한다.
본원에서 용어 "파라미터"는 시스템의 특성을 특징 짓는 숫자 값을 지칭한다. 종종 파라미터는 정량적 데이터 세트 및/또는 정량적 데이터 세트 간의 수치 관계를 수치적으로 특성화한다. 예를 들어, 염색체에 매핑된 시퀀스 태그 수와 태그가 매핑된 염색체 길이 사이의 비율(또는 비율의 함수)이 파라미터이다.
본 명세서에서 "임계 값"(threshold value) 및 "적격 임계 값"(qualified threshold value)이라는 용어는 의학적 상태가 의심되는 유기체의 핵산을 포함하는 테스트 샘플과 같은 샘플을 특성화하기 위해 컷오프로 사용되는 임의의 숫자를 의미한다. 임계 값을 파라미터 값과 비교하여 그러한 파라미터 값을 발생시키는 샘플이 유기체가 의학적 상태를 가지고 있음을 시사하는지 여부를 결정할 수 있다. 특정 실시 양태에서, 적격 임계 값은 적격 데이터 세트를 사용하여 계산되고 유기체에서 복제 수 변이, 예를 들어, 이배 수성의 진단 한계로 작용한다. 임계 값이 본원에 개시된 방법에서 얻은 결과에 의해 초과되는 경우, 대상체는 복제 수 변이, 예를 들어 삼 염색체성 21로 진단될 수 있다. 본원에 기재된 방법에 대한 적절한 임계 값은 정규화된 값(예: 염색체 용량, NCV)을 분석하여 식별할 수 있다. 또는 NSV) 학습 샘플 세트에 대해 계산된다. 임계 값은 검증된(즉, 영향을 받지 않은) 샘플과 영향을 받은 샘플을 모두 포함하는 훈련 세트에서 검증된(즉, 영향을 받지 않은) 샘플을 사용하여 식별할 수 있다. 염색체 이수성(즉, 영향을 받은 샘플)을 갖는 것으로 알려진 훈련 세트의 샘플을 사용하여 선택된 임계 값이 테스트 세트의 영향을 받지 않은 샘플과 영향을 받은 것을 구별하는 데 유용하다는 것을 확인할 수 있다(본원의 실시예 참조). 임계 값의 선택은 사용자가 분류를 수행하기를 원하는 신뢰 수준에 따라 다르다. 일부 실시 양태에서, 적절한 임계 값을 식별하기 위해 사용되는 훈련 세트는 적어도 10, 적어도 20, 적어도 30, 적어도 40, 적어도 50, 적어도 60, 적어도 70, 적어도 80, 적어도 90, 최소 100, 최소 200, 최소 300, 최소 400, 최소 500, 최소 600, 최소 700, 최소 800, 최소 900, 최소 1000, 최소 2000, 최소 3000, 최소 4000 개 이상의 적격 샘플을 포함한다. 임계 값의 진단 유틸리티를 개선하기 위해 더 큰 세트의 적격 샘플을 사용하는 것이 유리할 수 있다.
용어 "빈"은 서열의 세그먼트 또는 게놈의 세그먼트를 지칭한다. 일부 실시 양태에서, 빈은 게놈 또는 염색체 내에서 서로 인접 해있다. 각 빈은 참조 게놈과 같은 참조 서열에서 뉴클레오타이드의 서열을 정의할 수 있다. 빈의 크기는 특정 응용 프로그램 및 시퀀스 태그 밀도에 필요한 분석에 따라 1kb, 100kb, 1Mb 등이될 수 있다. 참조 시퀀스 내의 위치 외에도 빈은 샘플 커버리지와 같은 다른 특성 및 G-C 분획과 같은 시퀀스 구조 특성을 가질 수 있다.
용어 "판독"은 핵산 샘플의 일부로부터 얻은 서열을 의미한다. 반드시 그런 것은 아니지만 일반적으로 판독은 샘플에서 연속된 염기 쌍의 짧은 시퀀스를 나타낸다. 판독 값은 샘플 부분의 염기쌍 시퀀스(A, T, C 또는 G)로 상징적으로 표시될 수 있다. 이는 메모리 장치에 저장되고 참조 시퀀스와 일치하는지 또는 다른 기준을 충족하는지 여부를 결정하기 위해 적절하게 처리될 수 있다. 판독은 시퀀싱 장치에서 직접 또는 샘플에 관한 저장된 시퀀스 정보에서 간접적으로 얻을 수 있다. 일부 경우에, 판독은 더 큰 서열 또는 영역을 확인하는 데 사용될 수 있는 충분한 길이(예: 적어도 약 25bp)의 DNA 서열이며, 예를 들어 염색체 또는 게놈 영역 또는 유전자에 정렬되고 특이적으로 할당될 수 있다.
용어 "게놈 판독"은 개인의 전체 게놈에서 임의의 세그먼트의 판독과 관련하여 사용된다.
용어 "서열 태그"는 정렬에 의해 더 큰 서열, 예를 들어 참조 게놈에 특이적으로 할당 된, 즉 매핑된 서열 판독을 지칭하기 위해 용어 "매핑된 서열 태그"와 상호 교환적으로 사용된다. 매핑된 서열 태그는 참조 게놈에 고유하게 매핑된다. 즉, 참조 게놈의 단일 위치에 할당된다. 달리 지정하지 않는 한, 참조 시퀀스의 동일한 시퀀스에 매핑되는 태그는한 번 계산된다. 태그는 데이터 구조 또는 기타 데이터 집합으로 제공될 수 있다. 특정 실시 양태에서, 태그는 게놈에서의 서열 위치, 예를 들어 염색체상의 위치와 같은 판독에 대한 판독 서열 및 관련 정보를 포함한다. 특정 실시 양태에서, 위치는 포지티브 가닥 배향에 대해 특정된다. 태그는 참조 게놈에 대한 정렬에서 제한된 양의 불일치를 허용하도록 정의될 수 있다. 일부 실시 양태에서, 참조 게놈상의 하나 이상의 위치에 매핑될 수 있는 태그, 즉 고유하게 매핑되지 않는 태그는 분석에 포함되지 않을 수 있다.
용어 "부위"는 참조 게놈상의 고유한 위치(즉, 염색체 ID, 염색체 위치 및 배향)를 의미한다. 일부 실시 양태에서, 부위는 서열상의 잔기, 서열 태그 또는 세그먼트에 대한 위치를 제공할 수 있다.
본원에 사용된 용어 "정렬", "정렬"또는 "정렬"은 판독 또는 태그를 참조 서열과 비교하여 참조 서열이 판독 서열을 포함하는지 여부를 결정하는 프로세스를 지칭한다. 참조 서열이 리드를 포함하는 경우, 리드는 참조 서열에 또는 특정 실시 양태에서 참조 서열의 특정 위치에 매핑될 수 있다. 일부 경우에 정렬은 단순히 판독이 특정 참조 서열의 구성원인지 여부(즉, 판독이 참조 서열에 있는지 여부)를 알려준다. 예를 들어, 인간 염색체 13에 대한 참조 서열에 대한 판독 값의 정렬은 판독이 13 번 염색체에 대한 참조 서열에 존재하는지 여부를 알려줄 것이다.이 정보를 제공하는 도구를 세트 멤버십 테스터라고할 수 있다. 경우에 따라 정렬은 판독 또는 태그가 매핑되는 참조 시퀀스의 위치를 추가로 나타낸다. 예를 들어, 참조 서열이 전체 인간 게놈 서열 인 경우, 정렬은 판독이 염색체 13에 존재 함을 나타낼 수 있으며, 판독이 염색체 13의 특정 가닥 및/또는 부위에 있음을 추가로 나타낼 수 있다.
정렬된 판독 또는 태그는 핵산 분자의 순서가 참조 게놈의 알려진 서열과 일치하는 것으로 확인된 하나 이상의 서열이다. 정렬은 일반적으로 컴퓨터 알고리즘에 의해 구현되지만 여기에 개시된 방법을 구현하기 위한 합리적인 시간 기간에 판독을 정렬하는 것이 불가능하기 때문에 수동으로 수행될 수 있다. 배열 정렬 알고리즘의한 예는 Illumina Genomics Analysis 파이프 라인의 일부로 배포된 ELAND(Efficient Local Alignment of Nucleotide Data) 컴퓨터 프로그램이다. 대안적으로, 블룸 필터 또는 유사한 세트 멤버십 테스터를 사용하여 판독을 참조 게놈에 정렬할 수 있다. 2011 년 10 월 27 일에 출원된 미국 특허 출원 번호 61/552,374호를 참조할 수 있고, 그 전문이 본 발명에 포함된다. 정렬에서 읽은 시퀀스의 일치는 100 % 시퀀스 일치 또는 100 % 미만(비 완전 일치) 일 수 있다.
본원에 사용된 용어 "매핑"은 정렬에 의해 더 큰 서열, 예를 들어 참조 게놈에 판독된 서열을 특이적으로 할당하는 것을 지칭한다.
본원에서 핵산 또는 핵산 혼합물의 맥락에서 사용될 때 "유래된"이라는 용어는 핵산(들)이 유래된 공급원으로부터 수득되는 수단을 의미한다. 예를 들어,한 실시 양태에서, 2 개의 상이한 게놈으로부터 유래된 핵산의 혼합물은 핵산, 예를 들어 cfDNA가 괴사 또는 아폽토시스와 같은 자연 발생 과정을 통해 세포에 의해 자연적으로 방출되었음을 의미한다. 또 다른 실시예에서, 2 개의 상이한 게놈으로부터 유래된 핵산의 혼합물은 핵산이 대상체로부터 2 개의 상이한 유형의 세포로부터 추출되었음을 의미한다.
본 명세서에서 특정 정량적 값을 획득하는 맥락에서 사용될 때 "기반"이라는 용어는 특정 정량적 값을 출력으로 계산하기 위해 다른 수량을 입력으로 사용하는 것을 의미한다.
본원에서 용어 "환자 샘플"은 환자, 즉 의학적 치료, 치료 또는 치료를 받는 수령자로부터 얻은 생물학적 샘플을 의미한다. 환자 샘플은 여기에 설명된 임의의 샘플 일 수 있다. 특정 실시 양태에서, 환자 샘플은 비 침습적 절차, 예를 들어 말초 혈액 샘플 또는 대변 샘플에 의해 수득된다. 본원에 기술된 방법은 인간으로 제한될 필요는 없다. 따라서, 환자 샘플이 비인간 포유 동물(예를 들어, 고양이, 돼지, 말, 소 등)의 샘플 일 수 있는 경우에 다양한 수의학적 적용이 고려된다.
본원에서 용어 "혼합된 샘플"은 상이한 게놈으로부터 유래된 핵산의 혼합물을 함유하는 샘플을 지칭한다.
본원에서 용어 "모체 샘플"은 임신한 피험자, 예를 들어 여성으로부터 얻은 생물학적 샘플을 의미한다.
본원에서 용어 "생물학적 유체"는 생물학적 공급원으로부터 취한 액체를 지칭하며, 예를 들어 혈액, 혈청, 혈장, 가래, 세척액, 뇌척수액, 소변, 정액, 땀, 눈물, 타액, 등을 포함한다. 본원에 사용된 용어 "혈액", "혈장" 및 "혈청"은 이의 분획 또는 처리된 부분을 명시적으로 포함한다. 유사하게, 샘플이 생검, 면봉, 도말 등에서 채취되는 경우, "샘플"은 생검, 면봉, 도말 등에서 파생된 가공된 부분 또는 부분을 명시적으로 포함한다.
본원에서 용어 "모체 핵산" 및 "태아 핵산"은 각각 임산부 피험자의 핵산 및 임산부에 의해 운반되는 태아의 핵산을 의미한다.
본원에 사용된 용어 "태아 분획"은 태아 및 모체 핵산을 포함하는 샘플에 존재하는 태아 핵산의 분획을 의미한다. 태아 분획은 종종 산모의 혈액에서 cfDNA를 특성화하는 데 사용된다.
본원에 사용된 용어 "염색체"는 DNA 및 단백질 성분(특히 히스톤)을 포함하는 염색질 가닥으로부터 유래된 살아있는 세포의 유전-보유 유전자 운반체를 지칭한다. 종래의 국제적으로 인정된 개별 인간 게놈 염색체 번호 시스템이 본원에서 사용된다.
본 명세서에서 사용되는 용어 "민감도"는 관심 조건이 존재할 때 검사 결과가 양성일 확률을 의미한다. 참 양성 수를 참 양성 및 거짓 음성의 합으로 나눈 값으로 계산할 수 있다.
본원에서 사용되는 용어 "특이성"은 관심 조건이 없을 때 검사 결과가 음성 일 확률을 의미한다. 참 음성 수를 참음 성과 거짓 양성의 합으로 나눈 값으로 계산할 수 있다.
도입 및 컨텍스트
임산부의 혈액은 순환하는 무 세포 DNA를 포함하며, 일부는 산모가 낳은 태아에서 유래하고 일부는 산모에서 유래한다. NITP의 경우 임산부의 말초 혈 혈장에서 모체 및 태아 DNA를 포함한 cfDNA를 추출할 수 있다. 그런 다음 cfDNA를 사용하여 복제 수 변이(CNV)와 같은 태아의 유전적 상태를 결정할 수 있다.
모체 혈장 샘플은 모체 및 태아 cfDNA의 혼합물을 나타내며, 태아 cfDNA는 모체 cfDNA보다 낮은 분획을 가진다. 태아 상태를 감지하기 위해 주어진 NIPT 방법의 성공 여부는 저 태아 분획 샘플의 변화를 감지하는 민감도에 달려 있다. 계산 기반 방법의 경우 민감도는(a) 시퀀싱 깊이 및 (b) 데이터 정규화 기능으로 기술 분산을 줄이는 능력에 의해 결정된다. 본 개시 내용은 NIPT의 분석 감도를 개선하기 위해 태아 cfDNA 및 태아 세포 DNA를 조합함으로써 NIPT 및 기타 적용을 위한 방법을 제공한다. 개선된 분석 감도는 감소된 적용 범위(예: 감소된 시퀀싱 깊이)에서 NIPT 방법을 적용할 수 있는 능력을 제공하여 평균 위험 임신에 대한 저비용 테스트를 위한 기술을 사용할 수 있다.
NIPT에 cfDNA를 사용하는 데 있어 기술적 어려움 때문에, cfDNA 기반 테스트의 감도, 선택성 또는 신호 대 잡음비를 증가시키기 위해 다양한 기술과 프로세스가 개발되었다. 검사를 개선하는 한 가지 방법은 태아 cfDNA와 태아 세포 DNA의 정보를 결합하여 검사를 개선하는 것이다. NIPT에서 태아 세포 DNA는 순환 태아 세포(cFC)에서 얻을 수 있다. 이는 태아에서 유래하고 모체 혈액에서 순환하는 태아 세포이다. 순환하는 태아 세포로부터 태아 세포 DNA를 얻기 위해 사용될 수 있는 예시적인 기술은 이후에 설명된다. 태아 세포 DNA를 얻은 후 태아 cfDNA와 결합하여 태아의 유전적 상태를 결정할 수 있다. 예를 들어, 미국 특허 출원 번호 14/802,873은 NIPT의 감도, 선택성 또는 정확도를 개선하기 위해 태아 cfDNA와 태아 세포 DNA를 결합하는 다양한 기술을 설명한다.
일반적으로, 태아 유핵 적혈구(태아 NRBC)와 같은 cFC는 매우 낮은 농도로 모체 혈액에 존재한다. 따라서 cFC에서 얻은 태아 세포 DNA는 신뢰할 수 있는 NIPT 테스트 결과를 제공하기 위해 태아 cfDNA와 결합되어야한다. 미국 특허 출원 공개 번호 2013/0122492에서 추정된 바와 같이, 1 밀리리터의 모체 혈액에는 약 1 ~ 2 개의 태아 NRBC가 있다. cFC 농도가 낮기 때문에 모체 말초 혈액에서 cFC를 얻거나 분리하는 것이 어렵다. 때때로 모체 말초 혈액 검체에서 단일 세포 또는 소수의 세포 만 분리할 수 있다.
문제를 더욱 복잡하게하기 위해, 임신 후 산모의 말초 혈액에서 빠르게 제거되는 태아 cfDNA와 달리, 태아 세포는 임신이 끝난 후에도 장기간 산모의 혈액에 남아있을 수 있다. 이는 임산부로부터 분리된 태아 세포가 현재 임신에서 유래된 것으로 안전하게 가정할 수 없음을 의미한다. 태아기 검사 결과가 과거 임신에서 유래한 세포를 기반으로한 경우 심각한 오진으로 이어질 수 있다.
cFC와는 달리, 태아 cfDNA는 혈장 반감기가 매우 짧고 임신 출산 후 산모 순환에서 빠르게 제거된다. 따라서 모체 말초 혈액 샘플에서 얻은 cfDNA는 임신중인 산모 또는 임신중인 태아의 원인 일 수 있다.
본 개시 내용의 일부 구현은 임산부의 말초 혈액으로부터 수득된 cFC(또는 태아 세포 DNA)가 현재 임신의 태아로부터 유래하는지 또는 과거 임신의 태아로부터 유래되는지를 높은 신뢰도로 결정하는 방법을 제공한다. 이 방법은 태아 세포 DNA에서 얻은 유전 정보와 태아 cfDNA에서 얻은 유전 정보를 비교하는 것이다. 이 방법은 또한 모체 DNA(모체 cfDNA 또는 모체 세포 DNA)를 사용한다.
일부 구현은 cfDNA를 사용하여 정보성 유전자좌, 즉 어머니가 동형 접합이고 태아가 이형 접합 인 위치에서 임산부 및 현재 태아의 유전자형을 결정하는 것을 포함한다. 일부 구현에서, 정보 유전자좌는 이중 대립 유전자좌를 포함한다. 일부 구현에서, 정보 유전자좌는 SNP 유전자좌를 포함한다. 이 방법은 또한 태아 cfDNA와 태아 세포 DNA가 모두 이형 접합이고 동일한 대립 유전자를 공유하는 정보 유전자좌의 수를 계산하는 것을 포함한다. 이러한 유전자좌는 공유 유전자좌 또는 일치 유전자좌라고하며, 이러한 유전자좌의 유전 마커는 공유 유전 마커 또는 일치 유전 마커라고한다. 공유 유전 마커(또는 공유 유전자좌)의 수는 베이지안 프레임 워크의 확률 모델에 제공된다. 이 모델은 베타-이항 분포에서 추출한 무작위 샘플로 공유 유전 마커(또는 공유 유전자좌)의 수를 시뮬레이션한다. 이 모델은 태아 세포 DNA의 다양한 기원에 대한 다양한 시나리오의 출력 확률을 제공한다. 확률에 따라 태아 세포 DNA의 기원을 결정할 수 있다.
일부 구현에서, 순환하는 태아 세포의 다른 공급원이 결정될 수 있다. 그러한 구현에서, cFC의 신원(그로부터의 DNA에 추가하여)이 확인된다. 일반적으로 구현을 위해 순환하는 태아 세포는 모체 샘플에서 분리된다. 이것은 순환하는 태아 세포와 순환하는 모체 세포(예: 순환하는 유핵 적혈구)가 함께 처리되고 순환하는 태아 세포와 순환하는 모체 세포 모두에서 세포 DNA를 얻는 과정과 대조적이다. 그런 다음 태아 세포 DNA를 세포 DNA에서 분리하거나 확인할 수 있다. 이전 접근법에서는 cFC와 태아 세포 DNA를 모두 식별할 수 있다. 예를 들어, 도 8을 참조할 수 있다. 후자의 접근법에서 태아 세포 DNA(cFC는 아님)를 식별할 수 있다. 예를 들어, 도 7을 참조할 수 있다.
태아 세포 DNA 및 태아 cfDNA를 사용하여 태아 상태 결정
순환하는 태아 세포의 출처를 결정하기 위한 워크 플로의 예
도 1은 원형 태아 세포의 상이한 공급원을 결정하기 위한 프로세스(100)를 도시한다. 프로세스(100)는 모체 cfDNA 및 태아 cfDNA를 포함하는 cfDNA 샘플을 얻는 것을 포함한다. 예를 들어, cfDNA 샘플은 모체 말초 혈액 샘플 일 수 있다. 아래의 샘플 섹션에 설명 된대로 다른 샘플을 사용할 수 있다. 이러한 샘플에는 가래/경구 액, 양수, 혈액, 혈액 분획 또는 미세 바늘 생검 샘플(예: 수술 생검, 미세 바늘 생검 등), 소변, 복막 액, 흉막액, 등이 포함되지만 이에 제한되지 않는다.
본 명세서에 개시된 방법은 태아 게놈의 절반에 기여하지 않는 대리 보인자와 반대로, 태아를 낳은 여성이 문제의 태아의 유전적 어머니라고 가정한다. 산모 말초 혈액 샘플의 혈장 분획에서 cfDNA를 추출하기 위해 다양한 기술이 사용될 수 있다. cfDNA를 추출하기 위한 몇 가지 예시 기술은 아래 샘플 섹션에 설명되어 있다.
프로세스(100)는 모체 cfDNA에 대한 유전 마커 세트의 유전자형 및 태아 cfDNA에 대한 유전 마커 세트의 유전자형을 결정하는 것을 추가로 포함한다. 블록 103을 참조할 수 있다. 유전 마커 세트의 유전자형에는 특정 유전자 좌위의 대립 유전자가 포함된다. 일부 구현에서, 유전 마커는 다형성 유전자좌에서 대립 유전자를 포함한다. 일부 구현에서, 다형성 유전자좌는 이중 대립 형이다. 프로세스(100)는 모체 cfDNA가 동형 접합성이고 태아 cfDNA가 이형 접합 성인 정보적 유전 마커 세트(유전 마커 세트 중에서)를 식별하는 것을 추가로 포함한다. 블록 104를 참조할 수 있다.
프로세스(100)는 또한 적어도 하나의 순환 태아 세포(cFC)를 얻는 것을 포함한다. 블록 106을 참조할 수 있다. cFC를 얻기 위한 다양한 방법이 도 8에 묘사된 방법과 같이 이후에 더 설명된다.
프로세스(100)는 cFC에서 정보 유전 마커 세트의 유전자형을 결정하는 것을 추가로 포함한다. 블록 108을 참조할 수 있다. 프로세스 100은 공유된 유전 마커(k)의 수를 계산하는 것도 포함한다. 공유 유전 마커는 cFC의 유전자형이 태아 cfDNA의 유전자형과 일치하는 정보 유전 마커가다(cFC와 태아 cfDNA는 모두 이형 접합이다). 110 번 블록을 참조할 수 있다.
프로세스(100)는 확률 모델에 공유된 유전 마커(k)의 수를 제공하는 것을 추가로 포함한다. 블록 112를 참조할 수 있다. 확률 모델은 도 3 및 4에 따라 구현될 수 있다. 일부 구현에서, 확률 모델은 훈련 데이터 및 기계 학습 기술을 사용하여 훈련될 수 있다.
그 다음, 프로세스(100)는 확률 모델의 출력으로서,(1) cFC 및 cfDNA가 현재 임신의 동일한 태아로부터,(2) cfDNA의 cFC가 두 개의 상이한 태아로부터의 확률을 획득한다. 아버지가 같고,(3) cFC와 cfDNA는 두 명의 다른 아버지를 가진 두 명의 다른 태아에서 나왔다. 블록 114를 참조할 수 있다.
태아 세포 DNA의 공급원 결정
도 2는 태아 세포 DNA의 유전적 기원 또는 태아 세포 DNA의 공급원을 결정하기 위한 프로세스(200)를 예시한다. 태아 세포 DNA의 기원 또는 출처는 현재 임신의 태아 또는 과거 임신의 태아 일 수 있다. 과거 임신 태아의 경우 현재 임신중인 태아와 아버지가 같거나 다를 수 있다. 프로세스(200)는 현재 임신중인 태아의 유전형과 임산부의 유전형이 반드시 모체 혈액 샘플에서 얻은 cfDNA를 사용하여 결정되지 않는다는 점에서 프로세스(100)와 다르다. 더욱이, 프로세스(200)에서 사용되는 태아 세포 DNA는 모세포와 혼합되거나 모세포로부터 분리된 순환 태아 세포로부터 얻어 질 수 있다. 대조적으로, 프로세스(100)는 일반적으로 모세포로부터 분리된 순환하는 태아 세포를 사용한다.
프로세스(200)는 현재 임신중인 태아의 유전자형을 수신하는 것을 포함한다. 블록 202를 참조할 수 있다. 일부 구현에서, 현재 임신중인 태아의 유전형은 모체 말초 혈액 샘플로부터 얻은 순환 cfDNA로부터 획득된다. 다른 구현에서, 현재 임신중인 태아의 유전자형은 객담/경구 액, 양수, 혈액, 혈액 분획 또는 미세 바늘 생검 샘플(예: 수술 생검, 미세 바늘 생검 등), 소변, 복막 액, 흉막액 등과 같은 다른 유전 샘플로부터 얻을 수 있다. 이 과정에서 유전자형은 게놈의 하나 이상의 유전자좌에서 하나 이상의 대립 유전자로 정의된다. 일부 구현에서, 하나 이상의 유전자좌는 다형성 유전자좌이다. 일부 구현에서, 다형성 유전자좌는 각각의 유전자좌가 2 개의 상이한 대립 유전자를 보유하는 이중 대립 유전자 유전자좌이다.
프로세스(200)는 태아를 보유한 임산부의 유전자형을 받기 위해 진행된다. 블록 204를 참조할 수 있다. 일부 구현에서, 임산부의 유전형은 모체 말초 혈액 샘플로부터 추출된 cfDNA로부터 획득된다. 일부 구현에서, 임산부의 cfDNA 및 태아의 cfDNA는 모두 모체 말초 혈액 샘플에서 추출된다. cfDNA 조각이 태아 또는 산모로부터 오는지 확인하기 위해 다양한 기술이 사용될 수 있다. 일부 구현에서, 임산부의 유전형은 모체 세포에서 추출한 세포 DNA로부터 얻을 수 있다.
프로세스(200)는 현재 임신중인 태아의 유전자형 및 임산부의 유전자형으로부터 정보를 제공하는 유전 마커 세트를 식별하는 것을 추가로 포함한다. 블록 206을 참조할 수 있다. 각각의 정보 유전 마커는 임산부에서 동형 접합이고 현재 임신에서 태아에서는 이형 접합이다.
프로세스(200)는 임산부으로부터 얻은 태아 세포 DNA에 대한 각각의 정보 유전 마커에서 하나 이상의 대립 유전자를 결정하는 것을 추가로 포함한다. 블록 208 참조. 일부 구현에서 태아 세포 DNA는 임산부의 혈액에서 발견되는 하나 이상의 cFC에서 추출된다. 일부 구현에서, cFC는 모체 세포로부터 분리되었다. 예를 들어, 태아 유핵 적혈구(nRBC)는 모체 세포에서 분리되며, 분리된 태아 nRBC는 태아 세포 DNA를 추출하는 데 사용된다. 도 8은 모체 세포로부터 분리된 태아 NRBC로부터 태아 세포 DNA를 얻는 하나의 예시적인 프로세스를 예시한다. 다른 구현에서, 태아 기원의 세포 DNA 및 모체 기원의 세포 DNA는 함께 혼합된 태아 세포 및 모체 세포로부터 수득될 수 있다. 그런 다음 태아 세포 DNA는 모체 세포 DNA에서 분리되거나 분리될 수 있다. 도 7은 모체 세포 DNA로부터 태아 세포 DNA를 분리하여 태아 세포 DNA를 얻기 위한 하나의 예시적인 프로세스를 예시한다.
프로세스(200)는 임산부으로부터 얻은 태아 세포 DNA의 각 정보 유전 마커의 하나 이상의 대립 유전자를 확률 모델에 입력으로 제공하는 것을 추가로 포함한다. 블록 210 참조. 일부 구현에서, 태아 세포 DNA의 각 정보 유전 마커에서 하나 이상의 대립 유전자는 현재 임신에서 태아의 각 정보 유전 마커에서 하나 이상의 대립 유전자와 비교된다. 그런 다음 순환하는 태아 세포 DNA와 현재 임신중인 태아가 동일한 두 개의 서로 다른 대립 유전자를 공유하는 유전자좌(k)의 수(k)가 계산되고 확률 모델에 입력으로 제공된다. 일부 구현에서, 확률 모델에 대한 입력은 도 3의 블록(310)에 설명된 바와 같이 구현되고 확률 모델은 도 4에 추가로 설명된다.
프로세스(200)는 또한 확률 모델의 출력으로서 세 가지 시나리오의 확률을 획득하는 단계를 포함한다: 임산부로부터 얻은 태아 세포 DNA가 (1) 현재 임신의 태아, (2) 과거 임신의 태아 및 현재 임신중인 태아와 아버지가 같은 태아, 및 (3) 과거 임신의 태아이면서 현재 임신중인 태아와 다른 아버지의 태아. 블록 212를 참조할 수 있다.
일부 구현에서, 모델은 두 태아의 아버지가 다르지만 형제, 사촌 등과 같이 관련이있는 추가 시나리오를 포함하도록 확장될 수 있다. 일부 구현에서, 다른 아버지-아버지에 대한 예상 공유 대립 유전자 수 파라미터가 다른 여러 베타 분포로 관계를 모델링할 수 있다. 다른 구현에서, 다른 아버지, 예를 들어 형제, 사촌 등의 관계는 공유된 부계 유전자의 정도에 따라 가중치가 부여된 두 시나리오의 혼합물을 결합하여 모델링되며, 두 시나리오는 (a) 현재 태아와 동일한 아버지인 과거 태아 및 (b) 현재 태아의 아버지와 관련이 없는 아버지를 가진 과거의 태아인 경우이다.
그 다음, 프로세스(200)는 모델에 의해 제공되는 3 가지 시나리오의 확률에 기초하여 태아 세포 DNA가 현재 임신의 태아로부터 유래 하는지를 결정한다. 확률이 가장 높은 시나리오가 태아 세포 DNA의 시나리오로 결정된다. 태아 세포 DNA가 현재 임신중인 태아로부터 유래된 것으로 확인되면 태아 세포 DNA의 유전 정보와 태아 cfDNA의 유전 정보를 결합하여 복제 수 변이, 이수성 및 간단한 뉴클레오타이드 변이와 같은 다양한 유전적 조건을 감지할 수 있다.
도 3은 현재 임신의 태아로부터 유래된 태아 세포 DNA 및 상기 태아로부터의 태아 cfDNA를 사용하여 복제 수 변이를 결정하기 위한 프로세스(300)를 예시한다. 프로세스(300)는 프로세스(200)에 기술된 방법을 사용하여 태아 세포 DNA가 현재 임신중인 태아로부터 유래되었는지를 결정할 수 있다. 이 과정은 확률 모델에 대한 입력으로 여러 공유 유전 마커(k)를 제공하는 것을 포함한다. 위에서 언급했듯이 공유 유전 마커는 현재 임신중인 태아 세포 DNA와 태아가 동일한 대립 유전자를 갖는 정보 유전 마커가다. 블록 310을 참조할 수 있다. 블록 310에 도시된 동작은 도 2의 블록 210의 동작으로 구현될 수 있다.
프로세스(300)는 공유된 유전 마커 마커의 수를 고려하여 3 가지 시나리오의 모델 확률의 출력으로서 획득하는 것을 추가로 포함한다. 세 가지 시나리오는 다음과 같다. 임산부로부터 얻은 태아 세포 DNA는(1) 현재 임신중인 태아,(2) 과거 임신의 태아로서 현재 임신중인 태아와 아버지가 같은 경우의 태아,(3) 과거 임신과 현재 임신에서 태아가 다른 아버지를 가진 경우. 블록 312를 참조할 수 있다. 프로세스(300)는 시나리오(1)의 확률이 다른 시나리오의 확률보다 높을 때 태아 세포 DNA가 현재 임신중인 태아로부터 유래한다고 결정하는 것을 더 포함한다. 블록 314를 참조할 수 있다.
프로세스 200 및 프로세스 300에 설명된 방법은 부계 유전자형에 대한 직접적인 지식을 필요로하지 않는다. 이형 접합성이 부족한 영역을 피하기 위해 마커를 선택한 경우이 방법을 인접 관계에 적용할 수 있다. 일부 구현에서, 방법은 아버지, 예를 들어 형제, 사촌 등 사이의 다른 정도의 관계를 구별하도록 확장될 수 있다.
프로세스(300)는 태아의 복제 수 변이를 결정하기 위해 현재 임신에서 태아로부터 유래된 태아 세포 DNA를 사용하는 것을 추가로 포함한다. 일부 구현에서, 태아의 cfDNA의 유전 정보는 비 침습적 산전 검사에서 태아의 CNV를 결정하기 위해 태아 세포 DNA의 유전 정보와 결합된다. 미국 특허 출원 번호 14/802,873은 CNV 및 기타 유전 상태를 검출하기 위해 태아 세포 DNA의 유전 정보와 태아 cfDNA의 유전 정보를 결합하는 다양한 방법을 설명한다. 두 가지 유형의 유전 정보를 결합하여 NIPT의 감도, 선택성 및 신호 대 잡음비를 향상시킬 수 있다.
도 4는 프로세스(200) 및 프로세스(300)에서 구현될 수 있는 확률 모델의 구성 요소를 예시한다. 모델을 설명하기 위해 다음의 표기가 사용된다.
si는 시나리오 i이다.
k는 일치하는 유전 마커의 수이다.
n은 정보를 제공하는 유전 마커의 수이다.
μi는 시나리오 i에 대해 일치하는 유전 마커의 예상 비율이다.
ai 및 bi는 시나리오 i에 대한 베타 분포의 하이퍼 파라미터이다.
w는 가중치 파라미터이다.
BN()은 이항 분포를 나타낸다.
Beta()는 베타 배포판을 나타낸다.
BB()는 베타 이항 분포를 나타낸다.
β()는 베타 함수를 나타낸다.
도 4에서 알 수 있듯이 확률 모델은 여러 공유 유전 마커(k)를 입력으로 사용한다. 공유 유전 마커는 임산부과 현재 임신중인 태아로부터 얻은 태아 세포 DNA가 동일한 대립 유전자를 갖는 정보 유전 마커의 유전 마커가다. 확률 모델은 공유된 유전 마커의 수
Figure pct00022
를 고려할 때 세 가지 시나리오의 산출 확률로 제공된다. 확률 모델은 세 가지 시나리오
Figure pct00023
가 주어진 공유 유전 마커 수의 확률을 기반으로 공유 유전 마커 수
Figure pct00024
가 주어지면 세 시나리오의 확률을 계산한다. 일부 구현에서
Figure pct00025
는 방정식 1에서와 같이 계산된다.
Figure pct00026
(1)
여기서
Figure pct00027
는 공유된 유전 마커의 수 또는 k를 고려할 때 시나리오 i 또는 si의 확률이다.
Figure pct00028
는 시나리오 I에서 공유된 유전 마커 수의 확률이다.
Figure pct00029
는 시나리오 i의 전체 확률이다. p(k)는 공유된 유전 마커 수의 전체 확률이다.
일부 구현에서 확률 모델은 시나리오 i 또는 k|si가 주어진 공유 유전 마커의 수를 성공률 μi로 이항 분포에서 추출한 랜덤 변수로 시뮬레이션한다. 일부 구현에서 k|si는 식(3)에 따라 시뮬레이션된다.
Figure pct00030
(3)
n은 정보를 제공하는 유전 마커의 수이다. μi는 시나리오 i에 대해 일치하는 유전 마커의 예상 비율이다.
일부 구현에서 μi는 ai 및 bi의 하이퍼 파라미터를 사용하여 베타 분포에서 추출된 랜덤 변수로 시뮬레이션된다. 이것은 방정식 4로 설명할 수 있다.
Figure pct00031
(4)
ai와 bi는 시나리오 i에 대한 베타 분포의 하이퍼 파라미터이다.
이러한 구현에서 확률 모델은 각 시나리오에 대해 방정식 2에 설명된 바와 같이 베타 이항 분포에서 추출된 랜덤 변수로서 시나리오 i 또는 k|si가 주어진 공유 유전 마커의 수를 시뮬레이션한다.
Figure pct00032
(2)
n은 정보를 제공하는 유전 마커의 수다.
일부 구현에서, 시나리오 i가 주어진 경우 일치하는 유전 마커의 수 k의 확률은 수학식 5의 다음 우도 함수로부터 계산된다.
Figure pct00033
(5)
n은 정보 유전 마커의 수, k는 공유된 유전 마커의 수, β()는 베타 함수, ai 및 bi는 시나리오 i에 대한 베타 분포의 하이퍼 파라미터이다.
일부 구현에서, 하이퍼 파라미터 ai는 방정식 6에 따라 계산되고 하이퍼 파라미터 bi는 방정식 7에 따라 계산된다.
Figure pct00034
(식 6)
Figure pct00035
(식 7)
파라미터 ai 및 bi는 예상되는 공유 유전 마커 수를 나타내는 시나리오 i에 대한 이항 분포의 성공률 인 μi에서 계산된다. 가중치 파라미터 w는 다수의 의사 카운트 또는 관측치로 해석될 수 있다. 이는 μ에 해당하는 값 주변의 사전 분포 농도를 결정한다.
일부 구현에서, 가중치 파라미터 w는 기계 학습 프로세스를 사용하여 획득되거나 개선된다. 기계 학습 프로세스는 세 가지 시나리오에서 샘플에서 얻은 데이터의 세 하위 집합을 포함하는 훈련 데이터 세트를 제공한다. 가중치 파라미터 w의 값이 서로 다른 확률 모델이 학습 데이터에 적용된다. 그런 다음 훈련 데이터에 가장 적합한 가중치 파라미터 값을 가중치 파라미터 값으로 사용하여 cFC 또는 cFC에서 얻은 태아 세포 DNA의 유전적 기원을 테스트한다.
일부 구현에서 확률 모델은 방정식 8에 따라 시나리오(1)에 대한 공유 유전 마커의 예상 부분 인 μ1을 계산한다. 시나리오(1)은 임산부으로부터 얻은 태아 세포 DNA가 현재 임신 중의 태아에서 유래하는 경우이다.
Figure pct00036
(식 8)
확률 모델은 방정식 9에 따라 시나리오(2)에 대한 공유 유전 마커의 예상 부분인 μ2를 계산한다. 시나리오(2)는 임산부으로부터 얻은 태아 세포 DNA가 과거 임신의 태아에서 유래한 경우이다. 과거 임신의 태아는 현재 임신의 태아와 아버지가 동일한다.
Figure pct00037
(식 9)
pj는 j 번째 마커에서 이종 대립 유전자의 모집단 빈도이다. 이종 대립 유전자는 현재 임신중인 태아에서 발견되는 정보 유전적 표지에 있는 대립 유전자이지만 태아를 낳은 임산부에서는 발견되지 않는다.
확률 모델은 방정식 10에 따라 시나리오(3)에 대한 공유 유전 마커의 예상 부분 인 μ3을 계산한다. 시나리오(3)는 임산부으로부터 얻은 태아 세포 DNA가 과거 임신의 태아에서 유래하는 시나리오이다. 그리고 과거 임신의 태아는 현재 임신의 태아와 다른 아버지를 가지고 있다.
Figure pct00038
(식 10)
일부 구현에서, 세 가지 시나리오의 사전 확률 p(si)는 알려진 사전 정보를 기반으로 모델에 대한 입력으로도 제공된다. 방정식(1)을 참조할 수 있다. 모델은 세 가지 다른 시나리오의 확률과 관련하여 이전에 알려 지거나 예상되는 정보를 고려할 수 있다. 일부 구현에서, 테스트 개인의 사전이 알려진 경우, 알려진 사전이 모델에 제공될 수 있다. 예를 들어, 일부 구현에서 임산부가 이전 임신을하지 않았을 가능성이 있다고 알려진 경우 시나리오(2) 및 (3)의 확률은 더 작은 값으로 설정될 수 있다. 유사하게, 시나리오(2) 및 (3)에 대한 사전 확률은 이전 임신에 대한 이러한 사전 정보가 알려진 경우 특정 값으로 설정될 수 있다. 시험 개인에 대해 사전에 영향을 미치는 요인이 알려진 경우, 그러한 요인을 사용하여 사전을 계산하거나, 시험 개인과 동일한 요인을 갖는 특정 모집단의 사전을 시험 개인의 사전으로 사용할 수 있다.
일부 구현에서는 테스트 개인의 사전을 알 수 없는 경우 일반 인구를 기준으로 기본값이 적용될 수 있다. 일부 구현에서, 이전 임신 정보를 사용할 수 없을 때, 일부 구현은 시나리오가 동일할 확률을 설정한다.
공유 유전 마커의 수 p(k)를 관찰할 확률은 방정식 1에 대한 정규화 상수이며, 방정식 11에 따라 계산할 수 있다.
Figure pct00039
도 5는 확률 모델링 및 컴퓨터 시뮬레이션을 사용하여 문자열 쌍을 매칭하는 프로세스(500)를 도시한다. 한 쌍의 두 문자열은 동일한 문자 수를 갖는다. 문자열 쌍을 일치시키는 방법의 일부 구현은 유전자 서열 쌍 또는 유전 마커 문자열 쌍에 적용될 수 있다. 일부 구현에서, 문자열은 정보 유전 마커의 다른 세트를 포함한다. 프로세스(500)는 한 세트의 유전 마커(예를 들어, 임산부로부터 얻은 원형 태아 세포의 유전 마커 세트)가 다른 마커 세트(예를 들어, 모체 혈액 샘플에서 얻은 태아의 순환 cfDNA의 유전 마커 세트)와 일치하는지 여부를 결정하기 위해 구현될 수 있다. 이러한 구현은 도 2에 예시된 프로세스(200) 및 도 3에 예시된 프로세스(300)에 대응한다. 일부 구현에서, 문자열은 폴리 뉴클레오타이드, 폴리 펩타이드, 다당류 및 다른 중합체와 같은 생체 분자의 서열을 포함한다.
프로세스(500)는 제 1 문자열 쌍을 수신함으로써 시작된다. 블록 522를 참조할 수 있다. 프로세스(500)는 또한 제 5 문자열 쌍을 수신하는 것을 포함한다. 각 쌍의 두 문자열은 동일한 문자열 크기를 갖다. 블록 524를 참조할 수 있다. 프로세스(500)는 제 1 문자열 쌍 및 제 5 문자열 쌍 모두에서 정보 문자 위치 세트를 식별하는 것을 더 포함한다. 블록 526을 참조할 수 있다. 정보 문자 위치 세트의 각 정보 문자 위치(a)는 각 문자열에서 고유한 위치를 나타낸다. 제 5 문자열 쌍에 있는 두 개의 다른 문자 중 하나의 문자 및 (d)는 제 1 문자열 쌍에 있는 두 개의 다른 문자의 두 문자를 모두 포함한다.
프로세스(500)는 제 4 쌍의 문자열에 대해 정보 문자 위치 세트에서 문자를 결정하는 것을 더 포함한다. 블록 528을 참조할 수 있다.
프로세스(500)는 또한 문자열 쌍을 포함하는 훈련 데이터 세트를 수신하고 훈련 데이터 세트를 사용하여 확률 모델을 훈련하는 것을 포함한다. 블록 530을 참조할 수 있다.
프로세스(500)는 또한 제 4 쌍의 문자열의 유익한 문자 위치 세트의 문자를 확률 모델에 대한 입력으로서 제공하는 것을 포함한다. 블록 532를 참조할 수 있다.
프로세스(500)는 추가적으로 세 가지 시나리오의 확률을 확률 모델의 출력으로서 획득하는 것을 포함한다: 제 1, 제 2 및 제 3 문자열 쌍과 일치하는 제 4 문자열 쌍. 블록 534를 참조할 수 있다. 각 정보 문자 위치는 각 문자열에서 해당 위치를 가지고 있다. 제 1 문자열 쌍은 제 5 문자열 쌍을 제 6 문자열 쌍과 재결합하여 얻을 수 있다. 제 2 문자열 쌍은 제 5 문자열 쌍을 제 6 문자열 쌍과 재결합하여 얻을 수도 있다. 제 3 문자열 쌍은 제 5 문자열 쌍을 제 7 문자열 쌍과 재결합하여 얻을 수 있다. 문자열을 재조합하는 것은 단편화, 교차 및 돌연변이를 포함하되 이에 제한되지 않는 이중 가닥 DNA의 생물학적 재조합을 반영하는 유전 알고리즘 및 기술을 사용하는 것을 포함한다.
일부 구현에서, 문자열 쌍은 부모 및 자손의 유전 마커 세트의 대립 유전자 쌍에 해당한다. 일부 구현에서, 제 1 문자열 쌍은 정보 유전 마커 세트에 대한 현재 임신중인 태아의 대립 유전자에 해당한다. 제 2 문자열 쌍은 현재 임신중인 태아와 아버지가 동일한 과거 임신중인 태아의 대립 유전자에 해당한다. 제 3 문자열 쌍은 현재 임신중인 태아와 다른 아버지를 가진 과거 임신 태아의 대립 유전자에 해당한다. 제 4 문자열 쌍은 모체 혈액 샘플에서 순환하는 태아 세포에서 얻은 태아 세포 DNA의 대립 유전자에 해당한다. 제 5 문자열 쌍은 태아를 낳은 임산부의 대립 유전자에 해당한다. 제 6 문자열 쌍은 현재 임신중인 태아의 아버지의 대립 유전자에 해당한다. 제 7 문자열 쌍은 현재 임신중인 태아의 아버지가 아닌 남성의 대립 유전자에 해당한다.
프로세스(500)는 또한 제 4 쌍의 문자열이 확률 모델로부터 획득된 3 개의 확률에 기초하여 제 1, 제 2 또는 제 3 문자열 쌍과 일치하는지 여부를 결정하는 것을 포함한다. 블록 536을 참조할 수 있다.
일부 구현에서, 동작(532)은 다수의 매칭된 문자 위치를 확률 모델에 입력으로서 제공하는 것을 포함하고, 여기서 매칭된 문자 위치는 동일한 문자를 갖는 제 4 쌍의 문자열 및 제 1 쌍의 문자열의 정보 제공 문자 위치에서의 문자 위치이다. 일부 구현에서, 확률 모델은 주어진 3 개의 시나리오에서 매칭된 문자 위치의 수의 확률에 기초하여 매칭된 문자 위치의 수를 고려하여 3 개의 시나리오의 확률을 계산한다.
일부 구현에서, 확률 모델은
Figure pct00040
와 같이 일치하는 문자 위치의 개수가 주어지면 세 가지 시나리오의 확률을 계산한다. 여기서 p(si|k)는 일치하는 문자 위치의 수 또는 k가 주어진 경우 시나리오 i 또는 si이다. p(si)는 시나리오 i에서 일치하는 문자 위치 수의 확률이다. p(si)는 시나리오 i의 전체 확률이다. p(k)는 일치하는 문자 위치 수의 전체 확률이다.
일부 구현에서, 각 시나리오에 대해, 확률 모델은 시나리오 i가 베타 이항 분포에서 도출된 랜덤 변수로 주어졌을 때, 일치하는 문자 위치의 수(k)를 시뮬레이션한다.
일부 구현에서, 확률 모델은 성공률 μi의 이항 분포로부터 도출되는 랜덤 변수로 시나리오 i가 주어졌을 때 일치하는 문자 위치의 수 k|si를 시뮬레이션하고, μi는 하이퍼 파라미터 ai 및 bi를 가진 베타 분포에서 추출된 랜덤 변수, 즉, k|si ~ BN(n, μi) 및 μi ~ Beta(ai, bi) 이고, n은 정보 문자 위치 세트에서 정보 문자 위치의 수이다.
일부 구현에서, 시나리오 i가 주어진 일치하는 문자 위치 수의 확률은 다음 우도 함수로부터 계산된다:
Figure pct00041
. 여기서 n은 정보 문자 위치의 수, k는 일치하는 문자 위치의 수, B()는 베타 함수, ai 및 bi는 시나리오 i에 대한 베타 분포의 하이퍼 파라미터이다.
일부 구현에서, ai = μi * w 및 bi =(1-μi) * w 이고, 여기서 w는 다수의 의사 카운트 또는 관찰을 나타내는 파라미터이다. 일부 구현에서, w는 기계 학습 기술을 사용하여 훈련 데이터로부터 획득된다. 기계 학습 프로세스는 세 가지 시나리오에서 샘플로부터 얻은 데이터의 세 하위 집합을 포함하는 훈련 데이터 세트를 제공한다. 가중치 파라미터 w의 값이 서로 다른 확률 모델이 훈련 데이터에 적용된다. 그런 다음 훈련 데이터에 가장 잘 맞는 가중치 파라미터 값이 w의 가중치 파라미터 값으로 사용된다.
태아 세포 DNA 및 태아 cfDNA를 사용하여 CNV 결정
이 섹션에서는 태아 세포 DNA와 태아-모자 cfDNA를 추출하기 위해 임산부로부터 생물학적 샘플을 얻는 워크플로의 예를 설명한다. 이는 태아의 관심 서열을 결정하기 위한 정보를 추출하기 위한 DNA를 제공하는 라이브러리를 준비하는 데 사용된다. 이 과정에서 태아 세포 DNA의 출처가 현재 임신의 태아인지 아니면 과거 임신의 태아인지 확인하는 것이 중요하다. 태아 세포 DNA의 출처가 현재 임신중인 태아의 것으로 확인된 후, 현재 임신중인 태아의 DNA를 포함하는 cfDNA의 정보를 현재 임신중인 태아의 세포 DNA 정보와 결합할 수 있다. 그런 다음 결합된 정보를 사용하여 태아의 유전적 상태를 확인할 수 있다. 결합된 정보를 사용하면 cfDNA 만 사용하는 것보다 진단의 정확성, 감도 및/또는 선택성을 향상시킬 수 있다.
일부 실시 양태에서 관심 서열은 의학적 상태 또는 생물학적 특성과 관련된 단일 뉴클레오타이드 다형성을 포함한다. 염색체 또는 염색체의 분절을 포함하는 실시 양태에서, 본원에 개시된 방법은 예를 들어, 단일 염색체 또는 삼 염색체, 가령, 다운 증후군을 일으키는 21 번 삼 염색체를 확인하기 위해 사용될 수 있다.
일부 구현 예에서, 태아 세포 DNA는 모체 혈액에서 순환하는 태아 유핵 적혈구로부터 얻을 수 있고, 모 태아 혼합 cfDNA는 모체 혈액의 혈장으로부터 얻을 수 있다. 2 개의 DNA 소스를 결합하고 추가로 함께 처리하여 일부 구현에서 DNA 소스를 식별하는 인덱스를 갖는 2 개의 시퀀싱 라이브러리를 얻는. 태아 세포 DNA가 태아 cfDNA와 동일한 현재 임신중인 태아의 것이라면 두 라이브러리에서 얻은 서열 정보를 결합하여 관심 서열을 결정할 수 있다. 아래의 몇 가지 예는 태아 cfDNA와 태아 세포 DNA를 결합하여 관심 서열을 결정하는 방법을 설명한다. 예를 들어, 일부 실시 양태에서, 태아 세포 DNA로부터의 서열 정보를 사용하여 cfDNA 분석으로부터 얻은 모자이크주의 호출을 검증할 수 있다. 추가로, 태아 세포 DNA와 cfDNA 모두로부터의 서열 정보의 조합은 더 높은 신뢰 구간을 제공하고/하거나 복제 수 변이, 태아 분획 및/또는 태아 접합성을 요구할 때 노이즈를 감소시킬 수 있다. 예를 들어, 태아 세포 DNA의 정보를 사용하여 데이터의 노이즈를 줄임으로써 동형 접합 태아를 이형 접합 태아 사례(어머니가 이형 접합 인 경우)와 구별할 수 있다.
일부 실시 양태에서, 표적 증폭 및 서열화 방법이 사용될 수 있다. 다른 실시예에서, 전체 게놈 증폭은 시퀀싱 전에 적용될 수 있다. 처리 편향을 줄이고 그렇지 않으면 무 세포 핵산 서열과 세포 핵산 서열의 신뢰할 수 있는 비교를 허용하기 위해, 2 개의 핵산 샘플이 일부 실시 양태에서 유사하게 처리된다. 예를 들어, 이들은 다중화 기술에 의해 두 샘플의 핵산 혼합물에서 시퀀싱될 수 있다. 일부 실시 양태에서, 세포 핵산 및 무 세포 핵산은 동일한 샘플로부터 수득되지만 분리된 분획에서 분리 및 인덱싱(또는 다른 방식으로 고유하게 확인)된 다음, 증폭, 서열 분석 등을 위해 분획을 풀링한다. 일부 구현에서, 태아 세포 핵산 분획은 모태 세포가 없는 핵산 분획과 결합되기 전에 향상되어, 별도로 색인된 세포 핵산 및 무 세포 핵산이 시퀀싱 및 기타 다운스트림 처리를 위한 풀링 이전의 크기 및 농도와 대해 유사하게 만들어진다.
도 6은 본 개시의 일부 실시예에 따른 태아의 관심 서열을 결정하기 위한 방법(600)의 프로세스 흐름을 도시한다. 도 7-9는 도 6에 도시된 프로세스 흐름의 다양한 구성 요소의 특정 구현이다. 일부 실시예에서, 방법(600)은 임산부의 모체 혈액 샘플로부터 세포 DNA를 얻는 것을 포함한다. 블록 602 참조. 일부 실시 양태에서, 세포 DNA는 모체 세포 DNA 및 태아 세포 DNA 둘 다를 포함한다. 일부 실시 양태에서, 태아 세포 DNA는 추가 다운 스트림 처리 전에 모체 세포 DNA로부터 분리된다. 태아 세포 DNA는 관심 서열에 매핑되는 적어도 하나의 서열을 포함한다. 일부 실시 양태에서, 관심 서열은 질병 관련 유전자의 다형성 서열을 포함한다. 일부 실시 양태에서, 관심 서열은 질환과 관련된 대립 유전자의 부위를 포함한다. 일부 실시 양태에서, 관심 서열은 단일 뉴클레오타이드 다형성, 직렬 반복, 결실, 삽입, 염색체 또는 염색체의 분절 중 하나 이상을 포함한다.
일부 실시 양태에서, 태아 세포 DNA는 모체 혈액 샘플에서 순환하는 태아 유핵 적혈구(NRBC)로부터 수득된다. 태아 세포 DNA 및 태아 NRBC는 본원에 기재된 바와 같이 모체 말초 혈액으로부터 수득될 수 있다. 일부 실시 양태에서, 태아 NRBC는 모체 혈액 샘플의 적혈구 분획으로부터 수득된다. 일부 실시 양태에서, 태아 세포 DNA는 모체 혈액에서 순환하는 다른 태아 세포 유형으로부터 수득될 수 있다.
일부 실시 양태에서, 방법은 또한 임산부로부터 모태 혼합 cfDNA를 얻는 것을 포함한다. 블록 606을 참조할 수 있다. cfDNA는 적어도 하나의 관심있는 시퀀스에 매핑되는 적어도 하나의 시퀀스를 포함한다. 일부 실시 양태에서, cfDNA는 어머니의 혈액 샘플의 혈장으로부터 수득된다. 일부 실시 양태에서, 동일한 혈액 샘플은 또한 태아 세포 DNA의 공급원으로서 태아 NRBC를 제공한다. 물론, 세포 DNA와 cfDNA는 같은 어머니의 다른 샘플에서도 얻을 수 있다.
일부 실시 양태에서, 방법은 태아 세포 DNA 또는 cfDNA로부터 유래된 것으로 DNA 공급원의 지표(indicator)를 적용한다. 일부 실시예에서, 이 지표는 제 1 라이브러리 식별자 및 제 2 라이브러리 식별자를 포함한다. 일부 실시 양태에서, 프로세스는 작업 602로부터 수득된 태아 세포 DNA의 제 1 서열화 라이브러리를 준비하는 것을 포함하며, 여기서 제 1 서열화 라이브러리는 제 1 라이브러리 식별자에 의해 식별될 수 있다. 블록 604. 일부 실시 양태에서, 제 1 라이브러리 식별자는 다운 스트림 시퀀싱 단계에서 식별 가능한 제 1 인덱스 서열이다. 일부 실시 양태에서, DNA 공급원의 지표는 또한 제 2 라이브러리 식별자에 의해 식별 가능한 cfDNA의 제 2 서열 분석 라이브러리를 포함한다. 블록 608. 서열 라이브러리를 준비할 때, 방법은 각각의 상기 서열 라이브러리에 색인을 통합하는 것을 포함할 수 있으며, 여기서 상기 제 1 라이브러리에 통합된 색인은 상기 제 2 라이브러리에 통합된 색인과 다르다. 인덱스에는 다운 스트림 시퀀싱 단계에서 식별할 수 있는 고유한 서열(예: 바코드)이 포함되어있어 핵산 공급원의 지표를 제공한다.
일부 실시예에서, DNA 공급원의 지표는 크기 분리와 같은 다른 방법에 의해 제공될 수 있다.
일부 실시 양태에서, 방법은 제 1 서열화 라이브러리의 태아 세포 DNA의 적어도 일부와 제 2 서열화 라이브러리의 cfDNA의 적어도 일부를 조합하여 제 1 및 제 2 서열화 라이브러리의 혼합물을 제공함으로써 진행된다. 블록 610을 참조할 수 있다.
도 6에서, 제 1 시퀀싱 라이브러리 및 제 2 시퀀싱 라이브러리의 준비는 워크 플로우의 두 개의 개별 분기로 표시되며, 준비된 라이브러리를 결합하여 제 1 및 제 2 시퀀싱 라이브러리의 혼합물을 얻는다. 그러나 일부 실시예에서 두 라이브러리는 처음에 개별적으로 인덱싱된 다음 결합된 샘플에서 추가로 처리된다. 일부 실시 양태에서, 방법은 조합된 샘플을 추가로 처리하여 시퀀싱 라이브러리를 준비하거나 수정하는 것을 포함한다. 일부 실시 양태에서, 추가 처리는 대량 병렬 시퀀싱을 위한 시퀀싱 어댑터(예를 들어, 쌍을 이룬 말단 프라이머)를 통합하는 것을 포함한다.
일부 실시 양태에서, 방법은 제 1 및 제 2 시퀀싱 라이브러리의 혼합물의 적어도 일부를 시퀀싱하여 제 1 라이브러리 식별자에 의해 식별 가능한 제 1 복수의 서열 태그 및 제 2 라이브러리 식별자에 의해 식별 가능한 제 2 복수의 서열 태그를 제공하는 것으로 진행한다. 블록 612를 참조할 수 있다. 일부 실시 양태에서, 서열 판독은 관심 서열을 포함하는 참조 서열에 매핑되고, 이에 의해 관심 서열에 매핑된 서열 태그를 제공한다. 일부 실시 양태에서, 관심 서열은 대립 유전자의 존재를 확인할 수 있다. 일부 실시 양태에서, 샘플은 관심 서열에 대해 선택적으로 농축되었다.
일부 구현에서, 시퀀싱 전에 관심있는 서열의 선택적 농축 대신에 또는 추가로, 샘플은 전체 게놈 증폭에 의해 증폭될 수 있다. 이들 실시예 중 일부에서, 서열 판독은 더 짧은 관심 서열(예를 들어, SNP, STR 및 최대 kb의 시퀀스)을 표적화하는 선택적 농축을 갖는 실시예에서 보다 일반적으로 더 긴 관심 서열(예를 들어, 염색체, 염색체 분절)을 포함하는 참조 게놈에 정렬된다. 관심 서열에 대한 서열 판독은 관심 서열에 대한 서열 태그를 제공하며, 이는 관심 서열과 관련된 유전적 조건, 예를 들어, 이배 수성을 결정하는 데 사용될 수 있다.
일부 실시 양태에서, 방법은 대규모 병렬 시퀀싱을 적용한다. 합성에 의한 시퀀싱 및 라이게이션에 의한 시퀀싱을 포함하지만 이에 제한되지 않는 다양한 시퀀싱 기술이 사용될 수 있다. 일부 실시 양태에서, 합성에 의한 시퀀싱은 가역적 염료 종결자를 사용한다. 일부 실시 양태에서, 단일 분자 서열화가 사용된다.
일부 실시 양태에서, 방법은 관심있는 적어도 하나의 서열을 결정하기 위해 제 1 및 제 2 복수의 서열 태그를 분석하는 것을 추가로 포함한다. 블록 614를 참조할 수 있다. 복수의 시퀀스 태그 중 적어도 일부는 적어도 하나의 관심 시퀀스에 매핑된다. 일부 실시 양태에서, 방법은 관심 서열에 매핑되는 서열 태그의 존재 또는 풍부를 결정한다. 여기에는 CNV(예: 이수성) 및 비-NCV 이상을 결정하는 것이 포함될 수 있다. 특히, 이 방법은 각각의 cfDNA와 세포 DNA에서 두 대립 유전자의 상대적인 양을 결정할 수 있다. 일부 실시 양태에서, 방법은 태아가 질병 관련 유전자의 대립 유전자를 유발하는 질환의 동형 접합성이고, 어머니는 대립 유전자의 이형 접합성임을 결정함으로써 태아가 유전적 장애를 갖고 있음을 검출할 수 있다.
일부 실시 양태에서, 방법은 별도의 반응 환경, 예를 들어 시험관에서 세포 DNA 및 cfDNA로 시작한다. 일부 실시 양태에서, 방법은 질병 관련 유전자(들)의 대립 유전자 둘 모두를 표적화하고 세포 DNA 및 cfDNA에 대해 상이한 지표를 갖는 프로브를 사용하여 야생형 및 돌연변이 영역을 풍부하게하는 것을 포함하며, 지표는 별도의 반응 환경에서 표적화된 서열에 통합된다 . 이 방법은 세포 DNA 및 cfDNA를 농축된 표적 영역과 혼합하고 범용 PCR 프라이머를 사용하여 DNA를 증폭하는 것을 추가로 포함한다. 일부 실시 양태에서, 표적화된 서열 증폭 대신 전체 게놈 증폭이 적용된다. 증폭된 산물은 태아의 세포 DNA와 산모와 태아를 위한 cfDNA의 시퀀싱 준비 라이브러리가 될 것이다. 그런 다음 시퀀싱 결과를 사용하여 태아에 대한 관심 시퀀스를 결정할 수 있다. 일부 실시 양태에서, 관심 서열을 결정하는 것은 관심 서열을 포함하는 CNV 또는 비-CNV 염색체 이상을 검출하기 위한 정보를 제공한다. 일부 실시 양태에서, 방법은 cfDNA의 태아 및/또는 태아 분획의 접합성을 결정할 수 있다.
일부 실시 양태에서, 방법은 관심 서열을 포함하는 CNV 또는 비-CNV 염색체 이상을 결정하는데 사용될 수 있는 cfDNA 및 세포 DNA로부터 복수의 훈련 서열을 결정하는 것을 추가로 포함한다. 일부 실시예는 cfDNA의 태아 분획을 결정하기 위해 세포 DNA로부터 얻은 서열 정보를 추가로 사용한다. 도 6에 예시되고 DNA와 관련하여 위에 제시된 방법은 다른 핵산(예: mRNA)에 대해서도 수행될 수 있다.
cfDNA 및 태아 세포 DNA 획득
다양한 실시예에서, 모-태아 혼합 cfDNA 및 태아 세포 DNA는 각각 도 6의 블록 602 및 블록 606에 도시된 바와 같이 유전 물질을 제공하기 위해 모체 말초 혈액으로부터 수득된다. 유전 물질은 도 6의 블록(604) 및 블록(608)에 각각 도시된 바와 같이 2 개의 식별 가능한 라이브러리를 생성하는데 사용된다. 그 후 2개의 라이브러리는 추가의 다운 스트림 프로세싱 및 분석을 위해 결합된다. cfDNA 및 태아 세포 DNA를 얻기 위해 다양한 방법이 사용될 수 있다. 다운 스트림 처리 및 분석을 위해 cfDNA 및 태아 세포 DNA를 얻기 위한 적용 가능한 방법을 설명하기 위해 두 가지 프로세스가 아래에 예로서 설명된다.
고정 혈액을 사용하여 DNA를 얻는 과정
태아 세포 DNA 및 혼합 cfDNA는 고정 또는 비 고정 혈액 샘플에서 얻을 수 있다. 산모 말초 혈액 샘플은 다양한 다양한 기술을 사용하여 수집할 수 있다. 개별 샘플 유형에 적합한 기술은 당업자에게 쉽게 명백할 것이다. 예를 들어, 특정 실시예에서, 혈액은 특별히 설계된 혈액 수집 튜브 또는 다른 용기에 수집된다. 이러한 튜브는 에틸렌 디아민 테트라세트 산(EDTA) 또는 산 시트레이트 덱스트로스(ACD)와 같은 항응고제를 포함할 수 있다. 어떤 경우에는 튜브에 고정 제가 포함되어 있다. 일부 실시예에서, 혈액은 세포를 부드럽게 고정하고 뉴클레아제를 비활성화하는 튜브(예를 들어, Streck Cell-free DNA BCT 튜브)에 수집된다. 2010 년 2 월 11 일에 출원된 미국 특허 출원 공개 번호 2010/0209930 및 2010 년 1 월 19 일에 출원된 미국 특허 출원 공개 번호 2010/0184069를 참조할 수 있다.
도 7은 임산부로부터 얻은 고정된 전혈 샘플을 사용하여 모태 cfDNA 및 태아 세포 DNA를 얻기 위한 프로세스(700)의 흐름도를 묘사한다. 물론, 동일한 임산부의 두 샘플을 사용하도록 프로세스를 수정할 수 있으며, 하나는 cfDNA를 제공하고 다른 하나는 세포 DNA를 제공한다. 프로세스 700은 가벼운 고정액을 세포 DNA 및 cfDNA를 포함하는 모체 혈액 샘플과 혼합하는 것으로 시작된다. 블록 702. 세포 DNA는 모세포 및/또는 태아 세포에서 유래할 수 있다. 혈액 샘플은 사용 가능한 여러 기술 중 하나를 사용하여 수집할 수 있다. 이러한 기술은 시퀀싱 기술의 요구 사항을 충족하기에 충분한 cfDNA를 공급하기에 충분한 양의 샘플을 수집하고 시퀀싱으로 이어지는 처리 중 손실을 설명해야한다.
특정 실시 양태에서, 혈액은 특별히 설계된 혈액 수집 튜브 또는 기타 용기에 수집된다. 이러한 튜브는 에틸렌디아민 테트라세트 산(EDTA) 또는 산 시트레이트 덱스트로스(ACD)와 같은 항응고제를 포함할 수 있다. 어떤 경우에는 튜브에 고정 제가 포함되어 있다. 일부 실시예에서, 혈액은 세포를 부드럽게 고정하고 뉴 클레아 제를 비활성화하는 튜브(예를 들어, Streck Cell-free DNA BCT 튜브)에 수집된다. 2010 년 2 월 11 일에 출원된 미국 특허 출원 공개 번호 2010/0209930 및 2010 년 1 월 19 일에 출원된 미국 특허 출원 공개 번호 2010/0184069를 참조할 수 있다.
일반적으로, 백혈구와 같은 다른 공급원으로부터 DNA로 오염되지 않은 cfDNA를 수집하고 처리하는 것이 바람직하다. 따라서 백혈구는 시료에서 제거하거나 DNA를 방출할 가능성을 줄이는 방식으로 처리할 수 있다.
그 후 프로세스(700)은 고정된 혈액 샘플의 적혈구 분획으로부터 혈장 분획을 분리하기 위해 진행된다. 일부 실시 양태에서, 혈장 분획을 적혈구 분획으로부터 분리하기 위해, 프로세스는 혈액 샘플을 저속으로 원심 분리한 다음, 혈장, 버피 코트 및 적혈구 분획을 흡인하고 별도로 저장한다. 블록 704를 참조할 수 있다.
일부 구현에서, 혈액 샘플은 때때로 여러 번 원심 분리된다. 첫 번째 원심 분리 단계에서는 저속을 적용하여 세 가지 분획을 생성한다. 상단의 혈장 분획, 백혈구를 포함하는 버피 코트, 하단의 적혈구 분획이다. 이 첫 번째 원심 분리 프로세스는 혈구(예: 백혈구, 유핵 적혈구 및 혈소판)가 핵이 분리되어 DNA를 혈장 분획으로 방출하는 지점까지 방해하는 것을 방지하기 위해 상대적으로 낮은 g-force에서 수행된다. 밀도 구배 원심 분리가 일반적으로 사용된다. 이 첫 번째 원심 분리 단계가 너무 높은 가속도에서 수행되면 백혈구의 일부 DNA가 혈장 분획을 오염시킬 가능성이 있다. 이 원심 분리 단계가 완료된 후 혈장 분획과 적혈구 분획은 서로 분리되어 추가 처리가 가능한다.
혈장 분획은 DNA의 크기를 결정하기 위해 두 번째 고속 원심 분리를 거쳐 혈장에서 더 큰 입자를 제거하여 혈장에 cfDNA를 남길 수 있다. 블록 706을 참조할 수 있다. 이 단계에서, 플라즈마로부터의 추가 입자상 물질은 고체상으로 펠릿화되고 제거된다. 이 추가 고형 물질에는 분석할 무 세포 DNA를 오염시킬 DNA를 포함하는 일부 추가 세포가 포함될 수 있다. 일부 실시 양태에서, 제 1 원심 분리는 약 1600g의 가속도로 수행되고 제 2 원심 분리는 약 16,000g의 가속도로 수행된다.
cfDNA를 얻기 위해서는 정상 혈액으로부터의 단일 원심 분리 과정이 가능하지만, 이러한 과정은 때때로 백혈구로 오염된 혈장을 생성하는 것으로 밝혀졌다. 이 혈장에서 분리된 모든 DNA에는 일부 세포 DNA가 포함된다. 따라서 정상 혈액에서 cfDNA를 분리하기 위해 혈장을 고속으로 두 번째 원심 분리하여 오염된 세포를 펠릿화할 수 있다.
크기 분별에 의해 플라즈마에서 더 큰 크기의 미립자를 제거한 후, 프로세스(700)는 플라즈마로부터 cfDNA를 분리/정제하기 위해 진행한다. 블록 708을 참조한다. 일부 실시예에서, 격리는 다음 동작에 의해 수행될 수 있다.
A. 혈장에서 단백질을 변성 및/또는 분해(예: 프로테아제와의 접촉)하고 구아니딘 하이드로클로라이드 또는 기타 카오트로픽 시약을 용액에 첨가(용액에서 cfDNA를 유도하기 위해).
B. 처리된 플라즈마를 컬럼의 비드와 같은 지지 매트릭스와 접촉시킨다. cfDNA가 솔루션에서 나와 매트릭스에 결합한다.
C. 지지 매트릭스를 세척한다.
D. 매트릭스로부터 cfDNA를 방출하고 다운 스트림 프로세스(예를 들어, 색인화된 라이브러리 준비) 및 통계 분석을 위해 cfDNA를 회수한다.
기술된 바와 같이 혈장 분획이 수집된 후, cfDNA가 추출된다. 추출은 실제로 컬럼 또는 기타 고체상 결합 매트릭스에서 혈장으로부터 DNA를 분리하는 다단계 프로세스이다. 추출된 cfDNA에는 일반적으로 산모 및 태아 cfDNA가 모두 포함된다. 일부 예에서 cfDNA는 임신 단계와 산모와 태아의 생리적 상태에 따라 최대 10 %의 태아 DNA를 포함할 수 있다.
이 cfDNA 분리 절차의 첫 번째 부분은 뉴클레오솜 단백질을 변성 또는 분해하고, 그렇지 않으면 뉴클레오솜으로부터 DNA를 제거하는 단계를 취하는 것을 포함한다. 이 분리를 수행하는 데 사용되는 일반적인 시약 혼합물에는 세제, 프로테아제 및 구아닌 염산염과 같은 카오트로픽 제제가 포함된다. 프로테아제는 알부민 및 면역 글로불린과 같은 혈장의 배경 단백질뿐만 아니라 뉴클레오솜 단백질을 분해하는 역할을 한다. 카오트로픽 작용제는 수소 결합과 같은 비공유 힘에 의해 매개되는 분자 내 상호 작용을 방해함으로써 거대 분자의 구조를 파괴한다. 카오트로픽 제제는 또한 단백질과 같은 혈장 성분을 전하로 음성으로 만든다. 음전하로 인해 매체가 음전하를 띤 DNA와 다소 에너지적으로 호환되지 않는다. DNA 정제를 촉진하기 위한 카오트로픽 제제의 사용은 Boom et al., "Rapid and Simple Method for Purification of Nucleic Acids", J. Clin. Microbiology, v. 28, No. 3, 1990 에 기술되어 있다.
뉴클레오솜 단백질로부터 DNA 코일을 적어도 부분적으로 해방시키는 이 단백질 분해 처리 후, 생성된 용액은 컬럼을 통과하거나 그렇지 않으면 지지 매트릭스에 노출된다. 처리된 혈장의 cfDNA는지지 매트릭스에 선택적으로 부착된다. 혈장의 나머지 성분은 결합 매트릭스를 통과하여 제거된다. 매체 구성 요소에 부여된 음전하는 지지 매트릭스의 기공에서 DNA의 흡착을 촉진한다.
처리된 혈장을 지지체 매트릭스를 통해 통과시킨 후, 결합된 cfDNA가 있는 지지체 매트릭스를 세척하여 추가 단백질 및 샘플의 다른 원치 않는 성분을 제거한다. 세척 후 cfDNA는 매트릭스에서 분리되어 회수된다. 특히, 이 과정은 혈장에서 이용 가능한 DNA의 상당 부분을 잃는다. 일반적으로 지지 매트릭스는 cfDNA에 대한 높은 용량을 가지고있어 매트릭스에서 쉽게 분리할 수 있는 cfDNA의 양을 제한한다. 결과적으로 cfDNA 추출 단계의 수율은 매우 낮을 수 있다. 일반적으로 효율은 50 % 미만이다(예: cfDNA의 일반적인 수율은 사용 가능한 ~ 30ng/ml 혈장에서 혈장의 4 ~ 12ng/ml 임).
더 높은 수율로 모체 혈액 샘플에서 cfDNA를 얻기 위해 다른 방법을 사용할 수 있다. 여기에서 한 가지 예를 더 자세히 설명한다. 예를 들어, 한 실시 양태에서, 장치를 사용하여 환자 혈액 2-4 방울(100-200ul)을 수집한 다음 특수 막을 사용하여 혈장을 헤마토크리트에서 분리할 수 있다. 이 장치는 NGS 라이브러리 준비를 위해 필요한 50-100 μl의 플라즈마를 생성하는 데 사용할 수 있다. 플라즈마가 멤브레인에 의해 분리되면 전처리된 의료용 스폰지에 흡수될 수 있다. 특정 실시예에서, 스폰지는 보존제, 프로테아제 및 염의 조합으로 전처리되어 (a) 뉴클레아제를 억제하고/하거나 (b) 다운 스트림 처리까지 혈장 DNA를 안정화시킨다. Vivid Plasma Separation Membrane(Pall Life Sciences, Ann Arbor, Ml) 및 Medisponge 50PW(Filtrona technologies, St. Charles, Ml)와 같은 제품을 사용할 수 있다. 의료용 스폰지의 혈장 DNA는 다양한 방법으로 NGS 라이브러리 생성을 위해 액세스할 수 있다. (a) 스펀지에서 혈장을 재구성하고 추출하고 다운 스트림 처리를 위해 DNA를 분리한다. 물론,이 접근법은 DNA 회수 효율이 제한적일 수 있다.(b) 의료용 스폰지 폴리머의 DNA 결합 특성을 활용하여 DNA를 분리한다. (c) 스폰지에 결합된 DNA를 사용하여 직접 PCR 기반 라이브러리 준비를 수행한다. 이것은 여기에 설명된 cfDNA 라이브러리 준비 기술 중 하나를 사용하여 수행할 수 있다.
작업 708에서 얻은 정제된 cfDNA를 사용하여 시퀀싱을 위한 라이브러리를 준비할 수 있다. 대량 병렬 시퀀싱 시스템을 사용하여 이중 가닥 DNA 단편 집단을 시퀀싱하려면 DNA 단편이 알려진 어댑터 서열의 측면에 있어야한다. 양쪽 끝에 어댑터가 있는 이러한 DNA 조각 모음을 시퀀싱 라이브러리라고 한다. 정제된 DNA에서 시퀀싱 라이브러리를 생성하는 데 적합한 방법의 두 가지 예는 (1) 알려진 어댑터를 단편화된 DNA의 양쪽 끝에 결찰 기반 부착 및 (2) 어댑터 서열의 트랜스포사제 매개 삽입이다. 적절한 대량 병렬 시퀀싱 기술이 많이 있다. 이들 중 일부는 아래에 설명되어 있다.
도 7에 도시된 프로세스(700)에 대해 지금까지 설명된 동작(702-708)은 아래에서 설명되는 도 8의 프로세스(800)의 동작(802-808)과 대체로 중첩된다는 점에 유의한다.
프로세스 700은 또한 작업 704의 저속 원심 분리로부터 얻은 적혈구 분획을 사용하는 모체 혈액 샘플로부터의 태아 세포 DNA를 제공한다. 일부 실시 양태에서, 프로세스는 적혈구 분획 DNA에서 적혈구를 용해시키는 것을 포함하며, 그 산물에는 cfDNA와 세포 DNA가 모두 포함된다. 블록 710을 참조할 수 있다. 다음으로, 프로세스 700은 샘플을 원심 분리하여 DNA의 크기를 결정하여 cfDNA와 세포 DNA의 분리를 허용한다. cfDNA는 위에서 설명한대로 크기가 세포 DNA보다 훨씬 작기 때문이다. 블록 712를 참조할 수 있다. 일부 실시예에서, 이 원심 분리 작업은 16,000 g에서 수행되는 작업 706의 원심 분리와 유사할 수 있다. 일부 구현에서, 적혈구 분획에서 얻은 cfDNA는 선택적으로 다운 스트림 처리를 위해 혈장 분획에서 얻은 cfDNA와 조합할 수 있다. 블록 708을 참조할 수 있다.
프로세스 700은 적혈구 분획으로부터 세포 DNA를 얻는 것을 허용한다. 블록 714 참조. 적혈구 분획에서 얻은 세포 DNA는 주로 NRBC에서 유래한다. 임신 중에는 산모 혈류에 존재하는 대부분의 NRBC는 산모 자신이 생성한 것이다. Wachtel, et al., Prenat. Diagn. 18: 455-463 (1998) 참조. 일부 경우에, 세포 DNA는 최대 50 %의 태아 세포 DNA를 포함한다. 예를 들어, 세포 DNA는 Wachtel 등이 제시한 바와 같이 70 %의 모체 DNA와 30 %의 태아 DNA를 포함할 수 있다.
일부 실시 양태에서, 프로세스 700은 모체 세포 DNA로부터 태아 세포 DNA를 분리함으로써 진행된다. 블록 706을 참조할 수 있다. 2 개의 DNA 소스의 상이한 특성을 이용함으로써 2 개의 세포 DNA 소스를 분리하기 위해 다양한 방법이 적용될 수 있다. 블록 716을 참조할 수 있다. 예를 들어, 태아 DNA는 모체 DNA보다 메틸화 상태가 더 높은 경향이있는 것으로 나타났다. 따라서, 메틸화를 분화하는 기전은 모체 세포 DNA에서 태아 세포 DNA를 분리하는 데 사용될 수 있다. 예를 들어, 모체 세포 대 태아 세포의 상이한 메틸화 특성에 대한 Kim et al., Am J Reprod Immunol. 2012 Jul; 68(1): 8-27 을 참조할 수 있다.
추가적으로, FISH는 태아 세포로부터의 특정 DNA 또는 RNA 표적을 검출하고 국부화하는데 사용될 수 있다. 일부 실시예는 태아 특이적 DNA 마커를 확인하는 FISH에 의해 태아 기원을 확인할 수 있다. 따라서, 프로세스(700)는 태아 세포 DNA를 획득할 수 있게하며, 이는 추가로 처리되고 분석될 수 있다. 블록 718을 참조할 수 있다.
고정되지 않은 혈액을 사용하여 DNA를 얻는 과정
본 개시 내용은 또한 고정되지 않은 혈액 샘플을 사용하여 태아 세포 DNA 및 혼합 cfDNA를 수득하는 방법을 제공한다. 도 8은 이러한 방법의 과정을 보여주는 흐름도이다. 도 8에 도시된 cfDNA를 획득하기 위한 작업은 도 7에 도시된 프로세스의 작업과 대체로 중첩된다. 따라서 블록 704, 706 및 708은 블록 804, 806 및 808을 미러링한다.
간단히 말해서, 프로세스(800)는 고정 제를 사용하지 않고 EDTA 또는 ACD와 같은 항응고제를 모체 혈액 샘플과 혼합함으로써 시작된다. 블록 802를 참조할 수 있다. 프로세스(800)는 원심 분리에 의해 혈액 샘플로부터 혈장 분획 및 적혈구 분획을 분리함으로써 진행된다. 블록 804를 참조할 수 있다. 블록 804에서와 같이, 원심 분리는 1600g과 같이, 저속으로 수행될 수 있다. 그런 다음 샘플을 흡인하고 혈장, 버피 코트 및 적혈구 분획을 별도로 저장한다. 작업 804에서 얻은 혈장 분획은 16,000 g과 같은 더 빠른 속도로 두 번째 원심 분리를 거쳐 DNA 크기를 분류하고 더 큰 입자를 회전시키고 혈장에 더 작은 cfDNA를 남긴다. 블록 806을 참조할 수 있다. 프로세스(800)는 추가 처리 및 분석에 사용될 수 있는 플라즈마로부터 cfDNA를 얻는 수단을 제공한다. 블록 808을 참조할 수 있다.
프로세스 800의 작업 810-818은 적혈구 분획으로부터 태아 NRBC를 분리하고 분리된 태아 NRBC로부터 태아 세포 DNA를 얻는 것을 허용한다. 작업(810)은 등장성 버퍼를 적혈구 분획에 추가하는 것을 포함한다. 그런 다음 원심 분리로 프로세스를 진행하여 온전한 적혈구를 펠릿 화한다. 블록 814를 참조할 수 있다. 일부 실시예에서, 이 원심 분리는 적혈구 파열을 피하기 위해 작업 806에서 보다 낮은 속도로 수행된다. 이 원심 분리의 상청액에는 다운 스트림 처리 및 분석을 위해 혈장 분획에서 얻은 cfDNA와 결합할 수 있는 cfDNA가 포함된다. 블록 808을 참조할 수 있다. 펠릿 또는 압축된 침전제는 모체와 태아 모두의 온전한 적혈구를 포함하며, 모체의 적혈구는 많은 부분의 제핵 RBC를 포함하고, 모체로부터의 전해질은 제핵 RBC의 다수 부분과 NRBC의 소수 부분을 포함한다.
일부 실시 양태에서, 프로세스 800은 등장성 완충액으로 적혈구 펠릿을 세척한 다음, 원심 분리하여 모체 적출 RBC 및 NRBC를 수집함으로써 진행된다. NRBC는 모체 및 태아 NRBC를 모두 포함하며, 위에서 논의된 일부 실시 양태에서 최대 30 %의 태아 세포를 포함한다. 프로세스(800)는 모체 세포로부터 태아 NRBC를 분리함으로써 진행된다. 블록 818을 참조할 수 있다. 그런 다음 분리된 태아 NRBC로부터 태아 세포 DNA를 얻을 수 있다. 블록 820을 참조할 수 있다.
태아 NRBC 및 태아 세포 DNA 분리
도 8에 도시된 프로세스 800의 작업 818 및 820과 같은 다양한 실시 양태에서, 태아 NRBC는 모세포로부터 분리되고 태아 세포 DNA는 분리된 태아 NRBC로부터 획득된다. 모체 세포에서 NRBC를 분리하기 위해 다양한 방법의 조합이 적용될 수 있다. 일부 실시 양태에서, 방법은 자성 입자 또는 유세포 분석, 밀도 구배 원심 분리, 크기 기반 분리, 선택적 세포 용해 또는 원하지 않는 세포 집단의 고갈을 사용한 세포 분류의 다양한 조합을 포함할 수 있다. 종종 이러한 방법만으로는 효과적이지 않다. 각 방법은 일부 원치 않는 세포를 제거할 수 있지만 전부는 제거할 수 없기 때문이다. 따라서 원하는 태아 NRBC를 분리하기 위해 방법들의 조합을 사용할 수 있다.
일부 실시 양태에서, 태아 NRBC의 단리(isolation)는 당 업계에 공지되거나 본원에 기재된 하나 이상의 방법에 의해 태아 NRBC의 농축과 조합된다. 농축은 샘플에서 희귀 세포의 농도 또는 희귀 세포 대 비 희귀 세포의 비율을 증가시킨다. 일부 실시 양태에서, 모체 말초 정맥 혈액 샘플로부터 태아 세포를 농축할 때, 태아 세포의 초기 농도는 약 1: 50,000,000 일 수 있고 적어도 1: 5,000 또는 1: 500으로 증가될 수 있다. 본 명세서 또는 종래 기술에 설명된 하나 이상의 유형의 분리 모듈에 의해 농축이 달성될 수 있다. 예를 들어, 태아 세포의 농축을 위한 일부 기술에 대해서는 미국 특허 번호 8,137,912를 참조할 수 있다. 성능 향상을 위해 여러 분리 모듈을 직렬로 결합할 수 있다.
일부 실시 양태에서, 다운 스트림 처리에 사용되는 태아 세포 DNA는 임산부의 혈액에서 하나 이상의 태아 NRBC로부터 획득된다. 일부 실시 양태에서, 방법은 임산부의 혈액 샘플의 세포 성분에서 모성 적혈구로부터 태아 NRBC를 분리한다. 일부 실시 양태에서, 모계 적혈구로부터 태아 NRBC를 분리하는 것은 모계 적혈구를 차별적으로 용해시키는 것을 포함한다. 일부 실시 양태에서, 모계 적혈구로부터 태아 NRBC를 분리하는 것은 크기 기반 분리 및/또는 포획 기반 분리를 포함한다. 포획-기반 분리는 태아 NRBC에 의해 발현되는 하나 이상의 세포 마커를 결합함으로써 태아 NRBC를 포획하는 것을 포함할 수 있다. 바람직하게는, 하나 이상의 세포 마커는 태아 NRBC에 의해 발현되는 표면 마커를 포함하지만 산모 NRBC에 의해 발현되는 표면 마커는 포함하지 않거나 덜 포함한다. 일부 실시 양태에서, 포획-기반 분리는 자기 반응성 입자를 태아 NRBC에 결합시키는 것을 포함하고, 여기서 자기 반응성 입자는 태아 NRBC에 의해 발현되는 하나 이상의 세포 마커에 대한 친화성을 갖는다. 일부 실시 양태에서, 포획-기반 분리는 예를 들어 미국 특허 제 5,569,085 호에 기재된 바와 같이 자동화된 면역 자기 분리 장치에 의해 수행된다. 미국 특허 제 8,071,395 호를 참조할 수 있다. 일부 실시 양태에서, 포획-기반 분리는 형광 표식(label)을 태아 NRBC에 결합시키는 것을 포함하며, 여기서 형광 표지는 태아 NRBC에 의해 발현되는 하나 이상의 세포 표식에 대한 친화성을 갖는다.
다양한 실시예에서, 태아 NRBC상에서 발현된 세포 표면 마커는 친화성 기반 분리에 사용된다. 예를 들어, 일부 실시 양태는 항 -CD71을 사용하여 자기 또는 형광 프로브를 트랜스페린 수용체에 부착할 수 있으며,이 프로브는 자기 활성화 세포 분류(MACS) 또는 형광 활성화 세포 분류(FACS)를 위한 메커니즘을 제공한다. 매우 초기 발달 단계의 세포는 CD34를 사용하여 제대혈에서 분리될 수 있다. 후기 발달 단계에서 적혈구 계 세포를 풍부하게하고 식별하기 위해 CD71, 글리코포린 A, CD36, 항원 -i 및 세포 내 발현 헤모글로빈과 같은 표면 마커를 사용할 수 있다. 대두 응집소(SBA)는 임산부의 혈액에서 태아 NRBC를 분리하는 데 사용할 수 있다.
상기 표면 마커 중 다수는 태아 NRBC에만 국한되지 않다. 대신, 그들은 또한 모체 세포에서 다양한 정도로 표현된다. 최근에 단클론 항체는 태아 NRBC에 대한 친화성으로 확인되었지만 모체 혈액에는 그렇지 않다. 예를 들어, Zimmermann, 등은 태아 NRBC에 특이적인 친화성을 갖는 단클론 항체 클론 4B8 및 4B9를 확인했다. Experimental Cell Research, 319 (2013), 2700-2707. mAb 4B8, 4B9 및 기타 유사한 mAB는 태아 NRBC를 분리하기 위해 MACS 또는 FACS에 대한 결합 메커니즘을 제공하는 데 사용될 수 있다. 자기 기반 세포 분리는 MagSweeper 장치로 구현될 수 있으며, 이는 그 전체가 참조로 포함된 미국 특허 번호 8,071,395에 개시된 바와 같이 자동화된 면역 자기 분리 기술이다. 일부 구현에서, MagSweeper는 농도가 약 108 배 증가하여 순환하는 희귀 세포, 예를 들어 모체 혈액의 태아 NRBC를 풍부하게할 수 있다.
분리된 세포의 태아 기원은 Y 염색체 특이적 서열의 PCR 증폭, FISH(fluorescence in situ hybridization), ε- 글로빈 및 γ- 글로빈을 검출하거나 엄마와 아이로부터 SRT-마커를 이용하여 DNA- 다형성을 STR- 마커와 비교하여 표시할 수 있다. 일부 실시 양태는 이러한 지표를 사용하여 다른 세포로부터 태아 NRBC를 분리할 수 있으며, 예를 들어 지표를 시각화함으로써 이미징 기반 분리 메커니즘으로 구현되거나 지표와 혼성화함으로써 친화성 기반 분리 메커니즘으로 구현될 수 있다.
도 9는 본 개시 내용의 일부 실시 양태에 따라 모체 혈액 샘플로부터 태아 NRBC를 분리하기 위한 프로세스(900)를 보여주는 흐름도이다. 프로세스(900)는 프로세스(900)가 도 8의 동작(818)이 어떻게 수행될 수 있는지에 대한 일례를 제공한다는 점에서 프로세스(800)에 관한 것이다. 프로세스(900)는 모체 혈액 샘플로부터 적혈구를 획득하는 것으로 시작한다(예: 단계 816로 이어지는 단계에 설명된 바와 같이 하나 이상의 밀도 구배 원심 분리를 사용하는 것과 같이 블록 902 참조).
그 다음, 프로세스는 아세타졸아미드를 사용하여 모계 적혈구를 선택적으로 용해시키고 NH4 + 및 HCO3 +를 함유하는 용해 용액을 용해시킴으로써 RBC로부터 모체 적혈구 및 NRBC를 제거하기 위해 진행된다. 블록 904를 참조할 수 있다. 적혈구는 NH4 + 및 HCO3 +를 포함하는 용해 용액에서 빠르게 파괴될 수 있다. 탄산 탈수 효소는이 용혈 반응을 촉매하며, 태아 세포에서 성인 세포보다 5 배 이상 낮다. 따라서 태아 세포의 용혈 속도가 느리다. 이 용혈의 차이는 탄산 탈수 효소의 억제제 인 아세타졸아미드에 의해 강화되며, 이는 성인 세포보다 태아 세포에 약 10 배 빠르게 침투한다. 따라서 아세타졸아미드와 NH4 + 및 HCO3 +를 포함하는 용해 용액의 조합은 태아 세포를 절약하면서 모체 세포를 선택적으로 용해한다.
한 실시 양태에서, 차등 용해는 다음 예에서와 같이 수행될 수 있다. RBC를 원심 분리(예: 300g, 10 분)하고, 아세타졸아미드와 함께 인산염 완충 식염수(PBS)에 재현탁하고 실온에서 5 분 동안 배양한다. 2와 1/2 밀리리터의 용해 완충제(10mM NaHCO3, 155mM NH4Cl)를 첨가하고 세포를 5 분 동안 배양하고, 원심 분리하고, 용해 완충액에 재현탁하고, 3 분 동안 배양하고, 원심 분리한다.모체 적혈구를 선택적으로 용해시킨 후, 용해된 세포는 원심 분리에 의해 제거될 수 있다. 일부 실시 양태에서, 프로세스는 태아 NRBC에서 발현되는 세포 표면 마커에 결합하는 항체로 코팅된 자기 비드로 태아 NRBC를 표지(label)하는 것으로 진행된다. 블록 906을 참조할 수 있다. 전술한 태아 NRBC에서 발현되는 하나 이상의 표면 마커가 결합을 위한 표적일 수 있다. 일부 실시 양태에서, mAb 4B8, mAb 4B9, 또는 항 -CD71은 태아 NRBC의 표면에 결합하는 항체로 사용될 수 있다. 마그네틱 비드는 태아 NRBC를 포착하기 위한 자기 분리 메커니즘을 위한 수단을 제공한다. 일부 실시 양태에서, 프로세스는 형광 표지, 예를 들어, 올리고가 태아 NRBC의 마커의 mRNA에 결합하는 플루오레세인 또는 로다민에 결합된 올리고 뉴클레오타이드("올리고")로 태아 NRBC를 표지하는 것으로 진행된다. 일부 실시 양태에서, 형광 표지는 태아 헤모글로빈의 mRNA, 예를 들어 ε- 글로빈 및 γ- 글로빈에 결합한다.
프로세스(900)는 NRBC에 선택적으로 부착된 자기 비드를 통해 NRBC를 포착하는 전술한 MagSweeper와 같은 자기 분리 장치를 사용하여 태아 NRBC를 농축하기 위해 진행된다. 블록 910을 참조할 수 있다. 마지막으로, 프로세스 900은 작업 908에서 태아 NRBC에 부착된 형광 라벨에 민감한 FACS와 같은 이미지 유도 세포 분리 장치를 사용하여 태아 NRBC의 분리를 달성한다. 블록 912를 참조할 수 있다. 분리된 태아 NRBC가 사용될 수 있다. 색인된 태아 세포 DNA 라이브러리를 준비한다. 색인화된 라이브러리의 준비에 대한 일부 실시예는 아래에서 추가로 설명된다.
많은 실시예에서, 태아 NRBC는 모체 적혈구 및 다른 세포 유형으로부터 먼저 분리된다. 그런 다음 분리된 태아 NRBC에서 태아 세포 DNA를 얻는다. 그러나, 일부 실시예에서, 태아 세포 DNA는 태아 NRBC를 선택적으로 용해함으로써 수득될 수 있다(모체 세포 용해와 반대). 예를 들어, 태아 세포를 포함하는 혈액 샘플이 탈 이온수와 결합될 때 태아 세포가 선택적으로 용해되어 핵을 방출할 수 있다. 태아 세포의 이러한 선택적 용해는 예를 들어, 크기 또는 친화성 기반 분리를 사용하여 태아 DNA의 후속 농축을 허용한다.
샘플
본원에 사용된 샘플은 "무 세포"(예: cfDNA) 또는 세포 결합(예: 세포 DNA) 인 핵산을 포함한다. 무 세포 DNA를 포함하는 무 세포 핵산은 혈장, 혈청 및 소변을 포함하지만 이에 제한되지 않는 생물학적 시료로부터 당 업계에 알려진 다양한 방법에 의해 얻을 수 있다(예를 들어, Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; 및 Su et al., J Mol. Diagn. 6: 101-107 [2004] 참조). 샘플의 세포로부터 무 세포 DNA를 분리하기 위해, 분획 화, 원심 분리(예: 밀도 구배 원심 분리), DNA 특이적 침전 또는 고 처리량 세포 분류 및/또는 기타 분리 방법을 포함 하나 이에 제한되지 않는 다양한 방법을 사용할 수 있다. cfDNA의 수동 및 자동 분리를 위한 상용 키트를 사용할 수 있다(Roche Diagnostics, Indianapolis, IN, Qiagen, Valencia, CA, Macherey-Nagel, Duren, DE). cfDNA를 포함하는 생물학적 샘플은 염색체 이수성 및/또는 다양한 다형성을 검출할 수 있는 시퀀싱 분석에 의해 염색체 이상, 예를 들어 삼 염색체성 21의 존재 또는 부재를 결정하는 분석에 사용되었다.
다양한 실시예에서, 샘플에 존재하는 DNA는 사용 전에(예를 들어, 시퀀싱 라이브러리를 준비하기 전에) 특이적으로 또는 비특이적으로 농축될 수 있다. 샘플 DNA의 비특이적 농축은 DNA 시퀀싱 라이브러리를 준비하기 전에 샘플 DNA의 수준을 높이는 데 사용할 수 있는 샘플의 게놈 DNA 단편의 전체 게놈 증폭을 의미한다. 비특이적 농축은 하나 이상의 게놈을 포함하는 샘플에 존재하는 2 개의 게놈 중 하나의 선택적 농축 일 수 있다. 예를 들어, 비특이적 농축은 혈장 샘플에서 암 게놈의 선택적 일 수 있으며, 이는 샘플에서 정상 DNA에 대한 암의 상대적 비율을 증가시키는 알려진 방법으로 얻을 수 있다. 대안적으로, 비특이적 농축은 샘플에 존재하는 두 게놈의 비 선택적 증폭 일 수 있다. 예를 들어, 비특이적 증폭은 암과 정상 게놈의 DNA 혼합물을 포함하는 샘플에서 암과 정상 DNA로 이루어질 수 있다. 전체 게놈 증폭 방법은 당 업계에 공지되어있다. Degenerate oligonucleotide-primed PCR(DOP), primer extension PCR technique(PEP) 및 Multiple Displacement amplification(MDA)은 전체 게놈 증폭 방법의 예이다. 일부 실시 양태에서, 상이한 게놈으로부터의 cfDNA의 혼합물을 포함하는 샘플은 혼합물에 존재하는 게놈의 cfDNA에 대해 비 농축된다. 다른 실시 양태에서, 상이한 게놈으로부터의 cfDNA의 혼합물을 포함하는 샘플은 샘플에 존재하는 게놈 중 어느 하나에 대해 비특이적으로 풍부하다.
본원에 기재된 방법이 적용되는 핵산(들)을 포함하는 샘플은 전형적으로 예를 들어 상기 기재된 바와 같은 생물학적 샘플("시험 샘플")을 포함한다. 일부 실시 양태에서, 분석될 핵산(들)은 다수의 잘 알려진 방법 중 임의의 것에 의해 정제되거나 분리된다.
따라서, 특정 실시 양태에서 샘플은 정제되거나 분리된 폴리 뉴클레오타이드를 포함하거나 그로 구성되거나, 조직 샘플, 생물학적 유체 샘플, 세포 샘플 등과 같은 샘플을 포함할 수 있다. 적합한 생물학적 유체 샘플에는 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀의 흐름, 림프, 타액, 뇌척수액, 파괴, 골수 현탁액, 질 흐름, 자궁 경부 세척, 뇌액, 복수, 우유, 호흡기 분비물, 장 및 비뇨 생식기, 양수, 우유 및 백혈구 샘플이 포함되나 이에 제한되지는 않는다. 일부 실시 양태에서, 샘플은 비 침습적 절차, 예를 들어 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀의 흐름, 타액 또는 대변에 의해 쉽게 얻을 수 있는 샘플이다. 특정 실시 양태에서 샘플은 말초 혈액 샘플, 또는 말초 혈액 샘플의 혈장 및/또는 혈청 분획이다. 다른 실시 양태에서, 생물학적 샘플은 면봉 또는 도말, 생검 샘플 또는 세포 배양 물이다. 또 다른 실시 양태에서, 샘플은 둘 이상의 생물학적 샘플의 혼합물이며, 예를 들어 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플 및 세포 배양 샘플 중 둘 이상을 포함할 수 있다. 본원에 사용된 용어 "혈액", "혈장" 및 "혈청"은 이의 분획 또는 처리된 부분을 명시적으로 포함한다. 유사하게, 샘플이 생검, 면봉, 도말 등에서 채취되는 경우, "샘플"은 생검, 면봉, 도말 등에서 파생된 가공된 부분 또는 부분을 명시적으로 포함한다.
특정 실시 양태에서, 샘플은 상이한 개인의 샘플, 동일하거나 상이한 개인의 상이한 발달 단계의 샘플, 상이한 질병에 걸린 개인(예를 들어, 암 또는 유전적 장애가 의심되는 경우), 정상인, 개인의 질병의 여러 단계에서 얻은 샘플, 질병에 대해 다른 치료를받은 개인에서 얻은 샘플, 다른 환경 요인에 노출된 개인의 샘플, 소인이있는 개인의 샘플 병리학에 감염성 질환 인자(예: HIV) 등에 노출된 개인을 샘플링한다.
개시 과정에서 사용되는 샘플은 조직 샘플, 생물학적 유체 샘플 또는 세포 샘플 일 수 있다. 생물학적 유체는 비 제한적인 예로서, 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 흐름, 림프, 타액, 뇌척수액, 파괴, 골수 현탁, 질 흐름, 경 경부 세척, 뇌액, 복수, 우유, 호흡기 분비물, 장 및 비뇨 생식기, 백혈구 샘플을 포함한다.
다른 예시 적이지만 비 제한적인 실시 양태에서, 완료된 샘플은 둘 이상의 생물학적 샘플의 혼합물이며, 예를 들어 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플 및 세포 배양 샘플 중 둘 이상을 포함할 수 있다.
일부 실시 양태에서, 샘플은 비 침습적 절차, 예를 들어 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 우유, 객담, 귀의 흐름, 타액 및 대변에 의해 쉽게 얻을 수 있는 샘플이다. 일부 실시 양태에서, 생물학적 샘플은 말초 혈액 샘플 및/또는 이의 혈장 및 혈청 분획이다. 다른 실시 양태에서, 생물학적 샘플은 면봉 또는 도말, 생검 샘플 또는 세포 배양 샘플이다. 위에 개시된 바와 같이, 용어 "혈액", "혈장" 및 "혈청"은 이의 분획 또는 처리된 부분을 명시적으로 포함한다. 유사하게, 샘플이 생검, 면봉, 도말 등에서 채취되는 경우, "샘플"은 생검, 면봉, 도말 등에서 파생된 가공된 부분 또는 부분을 명시적으로 포함한다.
특정 구현 예에서 샘플은 또한 시험 관내 배양된 조직, 세포 또는 기타 폴리 뉴클레오타이드-함유 공급원으로부터 수득될 수 있다. 배양된 샘플은 다양한 배지 및 조건(예: pH, 압력 또는 온도)에서 유지되는 배양물(예: 조직 또는 세포), 상이한 기간 동안 유지되는 배양물(예: 조직 또는 세포), 상이한 인자 또는 시약(예를 들어, 약물 후보 또는 조절제)으로 처리된 배양(예를 들어, 조직 또는 세포), 또는 상이한 유형의 조직 및/또는 세포의 배양물을 포함하는, 그러나 이에 제한되지 않는, 소스로부터 취할 수 있다.
생물학적 공급원으로부터 핵산을 분리하는 방법은 잘 알려져 있으며 공급원의 특성에 따라 다를 것이다. 당업자는 본원에 기술된 방법에 필요한대로 소스로부터 핵산(들)을 쉽게 분리할 수 있다. 일부 예에서, 핵산 샘플에서 핵산 분자를 단편화하는 것이 유리할 수 있다. 단편화는 무작위적일 수 있거나, 예를 들어 제한 엔도 뉴클레아제 분해를 사용하여 달성된대로 특이적일 수 있다. 무작위 단편화 방법은 당 업계에 잘 알려져 있으며, 예를 들어 제한된 DNAse 분해, 알칼리 처리 및 물리적 전단을 포함한다.한 실시 양태에서, 샘플 핵산은 단편화되지 않은 cfDNA로부터 수득된다.
시퀀싱 라이브러리 준비
한 실시 양태에서, 본원에 기재된 방법은 다중 샘플이 게놈 분자로서 개별적으로 서열화될 수 있도록(즉, 단일체 서열화) 또는 단일 시퀀싱 실행에서 (예를 들어, 멀티 플렉스 시퀀싱과 같이) 인덱스된 게놈 분자를 포함하는 풀링된 샘플로서 차세대 서열화 기술(NGS)을 이용할 수 있다. 이러한 방법은 최대 수억 개의 DNA 서열 판독을 생성할 수 있다. 다양한 실시 양태에서, 게놈 핵산의 서열 및/또는 색인화된 게놈 핵산의 서열은 예를 들어 본원에 기재된 NGS(Next Generation Sequencing Technologies)를 사용하여 결정될 수 있다. 다양한 실시 양태에서, NGS를 사용하여 수득된 대량의 서열 데이터의 분석은 본원에 기재된 바와 같은 하나 이상의 프로세서를 사용하여 수행될 수 있다.
다양한 실시 양태에서, 이러한 시퀀싱 기술의 사용은 시퀀싱 라이브러리의 제조를 포함하지 않는다.
그러나, 특정 실시 양태에서 본원에서 고려되는 서열 분석 방법은 서열 분석 라이브러리의 제조를 포함한다. 하나의 예시적인 접근법에서, 시퀀싱 라이브러리 준비는 시퀀싱될 준비가 된 어댑터-변형된 DNA 단편(예를 들어, 폴리 뉴클레오타이드)의 무작위 수집의 생산을 포함한다. 폴리 뉴클레오타이드의 시퀀싱 라이브러리는 DNA 또는 cDNA의 등가물, 유사체을 포함하는 DNA 또는 RNA, 예를 들어, 역전사 효소의 작용에 의해 RNA 템플릿으로부터 생성되는 복제 DNA 또는 상보형인 DNA 또는 cDNA로부터 제조될 수 있다. 폴리 뉴클레오타이드는 이중 가닥 형태(예: 게놈 DNA 단편, cDNA, PCR 증폭 산물 등과 같은 dsDNA)에서 유래할 수 있거나, 특정 구현 예에서 폴리 뉴클레오타이드는 단일 가닥 형태(예: ssDNA, RNA)에서 유래할 수 있다. 등) 및 dsDNA 형식으로 변환되었다. 예시로서, 특정 실시 양태에서, 단일 가닥 mRNA 분자는 서열화 라이브러리를 제조하는데 사용하기에 적합한 이중 가닥 cDNA로 복사될 수 있다. 1 차 폴리 뉴클레오타이드 분자의 정확한 서열은 일반적으로 라이브러리 준비 방법에 중요하지 않으며 알려 지거나 알려지지 않았을 수 있다. 한 실시예에서, 폴리 뉴클레오타이드 분자는 DNA 분자이다. 보다 구체적으로, 특정 실시 양태에서, 폴리 뉴클레오타이드 분자는 유기체의 전체 유전적 보체 또는 실질적으로 유기체의 전체 유전적 보체를 나타내며, 게놈 DNA 분자(예를 들어, 세포 DNA, 무 세포 DNA(cfDNA) 등)이고, 이는 전형적으로 인트론 서열 및 엑손 서열(코딩 서열)뿐만 아니라 프로모터 및 인핸서 서열과 같은 비 코딩 조절 서열을 포함한다. 특정 구현 예에서, 1 차 폴리 뉴클레오타이드 분자는 인간 게놈 DNA 분자, 예를 들어 임신한 피험자의 말초 혈액에 존재하는 cfDNA 분자를 포함한다.
일부 NGS 시퀀싱 플랫폼을 위한 시퀀싱 라이브러리의 준비는 특정 범위의 단편 크기를 포함하는 폴리 뉴클레오타이드의 사용에 의해 촉진된다. 이러한 라이브러리의 준비는 일반적으로 원하는 크기 범위의 폴리 뉴클레오타이드를 얻기 위해 큰 폴리 뉴클레오타이드(예: 세포 게놈 DNA)의 단편화를 포함한다.
단편화는 당업자에게 공지된 다수의 방법 중 임의의 것에 의해 달성될 수 있다. 예를 들어, 단편화는 분무, 초음파 처리 및 수압 전단을 포함하지만 이에 제한되지 않는 기계적 수단에 의해 달성될 수 있다. 그러나 기계적 단편화는 일반적으로 C-O, P-O 및 C-C 결합에서 DNA 백본을 절단하여, 끊어진 C-O, P-O 및/ C-C 결합과 함께 무딘 끝과 3 '및 5'돌출 끝의 이질적인 혼합을 초래한다(예: Alnemri 및 Liwack, J Biol. Chem 265: 17323-17333 [1990]; Richards and Boyer, J Mol Biol 11: 327-240 [1965]). 이는 예를 들어, 시퀀싱을 위해 DNA를 준비하는 데 필요한 시퀀싱 어댑터의 결찰과 같이, 후속 효소 반응에 필요한 5'-인산염이 부족할 수 있으므로 수리가 필요할 수 있다.
대조적으로, cfDNA는 일반적으로 약 300 개 염기쌍 미만의 단편으로 존재하므로 cfDNA 샘플을 사용하여 시퀀싱 라이브러리를 생성하기 위해 일반적으로 단편화가 필요하지 않다.
일반적으로, 폴리 뉴클레오타이드가 강제로 단편화되거나(예를 들어, 시험관 내에서 단편화 됨), 단편으로 자연적으로 존재하든, 이들은 5'- 포스페이트 및 3'- 하이드록실을 갖는 무딘 말단 DNA로 전환된다. 표준 프로토콜, 예를 들어 본 문서의 다른 곳에 설명된 Illumina 플랫폼을 사용하여 시퀀싱하기 위한 프로토콜은 사용자에게 샘플 DNA를 최종 수리하고, dA-테일링 산물 전에 최종 수리된 제품을 정제하고, 라이브러리 준비의 어댑터 결찰 단계 이전에 dA- 테일링 산물을 정제하도록 지시한다.
본원에 기재된 서열 라이브러리 제조 방법의 다양한 실시 양태는 NGS에 의해 서열화될 수 있는 변형된 DNA 생성물을 얻기 위해 표준 프로토콜에 의해 전형적으로 요구되는 단계 중 하나 이상을 수행할 필요성을 제거한다. 약식 방법(ABB 방법), 1-단계 방법 및 2-단계 방법은 2012 년 7 월 20 일에 출원된 특허 출원 13/555,037에서 확인할 수 있는 시퀀싱 라이브러리를 준비하는 방법의 예이며, 그 전체가 참조로 포함된다.
시퀀싱 방법
전술한 바와 같이, 준비된 샘플(예를 들어, 시퀀싱 라이브러리)은 개시된 절차의 일부로서 시퀀싱된다. 여러 시퀀싱 기술을 활용할 수 있다.
Affymetrix Inc.(Sunnyvale, CA)의 시퀀싱 바이 하이브리다이제이션(sequencing-by-hybridization) 플랫폼, 454 Life Sciences(Bradford, CT), Illumina/Solexa(Hayward, CA) 및 Helicos Biosciences(매사추세츠 주 캠브리지)의 시퀀싱 바이 합성(sequencing-by-synthesis) 플랫폼, Applied Biosystems (Foster City, CA)의 시퀀싱 바이 리티게이션(sequencing-by-ligation) 플랫폼과 같이, 일부 시퀀싱 기술이 가용하다. Helicos Biosciences의 합성에 의한 시퀀싱을 사용하여 수행된 단일 분자 시퀀싱 외에도 다른 단일 분자 시퀀싱 기술에는 Pacific Biosciences의 SMRT ™ 기술, ION TORRENTTM 기술 및 예를 들어 Oxford Nanopore Technologies에 의해 개발된 나노 포어 시퀀싱이 포함되지만 이에 국한되지 않는다.
자동화된 Sanger 방법이 "1 세대"기술로 간주되는 동안, 자동화된 Sanger 시퀀싱을 포함하는 Sanger 시퀀싱이 또한 여기에 설명된 방법에서 사용될 수 있다. 추가적인 적합한 시퀀싱 방법은 핵산 이미징 기술, 예를 들어 원자력 현미경(AFM) 또는 투과 전자 현미경(TEM)을 포함하지만 이에 제한되지는 않는다. 예시적인 시퀀싱 기술은 아래에 더 자세히 설명되어 있다.
하나의 예시 적이지만 비 제한적인 실시 양태에서, 본원에 기재된 방법은 Illumina의 합성에 의한 시퀀싱 및 가역적 터미네이터 기반 시퀀싱 화학을 사용하여(예: Bentley 등, Nature 6: 53-59 [2009]에 설명 됨) 유전적 장애, 암, 등에 대해 스크리닝되는 대상체에서 테스트 샘플, 예를 들어 cfDNA 또는 세포 DNA 샘플에서 핵산에 대한 서열 정보를 획득하는 것을 포함한다. 템플릿 DNA는 게놈 DNA, 예를 들어 세포 DNA 또는 cfDNA 일 수 있다. 일부 실시예에서, 분리된 세포의 게놈 DNA는 템플릿으로 사용되며 수백 염기쌍의 길이로 단편화된다. 다른 실시예에서, cfDNA는 템플릿으로 사용되며, cfDNA는 짧은 단편으로 존재하므로 단편화가 필요하지 않다. 예를 들어 태아 cfDNA는 약 170 염기쌍(bp) 길이의 단편으로 혈류에서 순환하며(Fan et al., Clin Chem 56: 1279-1286 [2010]) 시퀀싱 전에 DNA 단편화가 필요하지 않다. 순환하는 종양 DNA는 또한 짧은 단편으로 존재하며 크기 분포는 약 150-170bp에서 정점에 이른다. Illumina의 시퀀싱 기술은 올리고 뉴클레오타이드 앵커가 결합된 평면의 광학적으로 투명한 표면에 단편화된 게놈 DNA의 부착에 의존한다. 템플릿 DNA는 말단 복구되어 5'-인산화된 무딘 말단을 생성하고, Klenow 단편의 중합 효소 활성은 무딘 인산화된 DNA 단편의 3' 말단에 단일 A 염기를 추가하는 데 사용된다. 이 추가는 결찰 효율을 높이기 위해 3'말단에 단일 T 염기의 오버행이 있는 올리고 뉴클레오타이드 어댑터에 대한 결찰을 위해 DNA 단편을 준비한다. 어댑터 올리고 뉴클레오타이드는 유동 세포 앵커 올리고에 대해 상보 적이다(반복 확장 분석에서 앵커/고정된 판독과 혼동하지 말 것). 제한 희석 조건 하에서 어댑터로 변형된 단일 가닥 템플릿 DNA가 플로우 셀에 추가되고 앵커 올리고에 대한 혼성화에 의해 고정된다. 부착된 DNA 단편은 확장되고 브리지 증폭되어 각각 동일한 템플릿의 약 1,000 개 사본을 포함하는 수억 개의 클러스터가 있는 초 고밀도 시퀀싱 플로우 셀을 생성한다. 한 실시예에서, 무작위로 단편화된 게놈 DNA는 클러스터 증폭을 받기 전에 PCR을 사용하여 증폭된다. 대안적으로, 증폭이 없는(예를 들어, PCR이 없는) 게놈 라이브러리 준비가 사용되며, 무작위로 단편화된 게놈 DNA는 클러스터 증폭 만 사용하여 강화된다(Kozarewa et al., Nature Methods 6: 291-295 [2009]). 템플릿은 제거 가능한 형광 염료가 있는 가역적 터미네이터를 사용하는 강력한 4 색 DNA 시퀀싱-바이-합성 기술을 사용하여 시퀀싱된다. 레이저 여기 및 내부 전반사 광학을 사용하여 고감도 형광 검출을 수행한다. 약 수십에서 수백 염기쌍의 짧은 시퀀스 판독은 참조 게놈에 대해 정렬되고, 참조 게놈에 대한 짧은 시퀀스 판독의 고유한 매핑은 특별히 개발된 데이터 분석 파이프 라인 소프트웨어를 사용하여 식별된다. 첫 번째 판독이 완료된 후 템플릿은 조각의 반대쪽 끝에서 두 번째 판독이 가능하도록 현장에서 다시 생성될 수 있다. 따라서, DNA 단편의 단일 말단 또는 쌍 말단 시퀀싱이 사용될 수 있다.
본 개시 내용의 다양한 실시 양태는 쌍을 이룬 말단 시퀀싱을 허용하는 합성에 의한 시퀀싱을 사용할 수 있다. 일부 실시 양태에서, Illumina에 의한 합성 플랫폼에 의한 시퀀싱은 클러스터링 단편을 포함한다. 클러스터링은 각 단편 분자가 등온적으로 증폭되는 과정이다. 일부 실시 양태에서, 여기에 설명된 예에서, 단편은 단편의 두 말단에 부착된 2 개의 상이한 어댑터를 가지며, 어댑터는 단편이 플로우 셀 레인의 표면에서 2 개의 상이한 올리고와 혼성화할 수 있도록한다. 단편은 단편의 두 말단에서 2 개의 인덱스 서열을 추가로 포함하거나 이에 연결되며, 인덱스 서열은 다중 서열화에서 상이한 샘플을 식별하기 위한 라벨을 제공한다. 일부 시퀀싱 플랫폼에서는 시퀀싱할 단편을 삽입이라고도한다.
일부 구현에서, Illumina 플랫폼에서 클러스터링을 위한 플로우 셀은 레인(lanes)이있는 유리 슬라이드이다. 각 레인은 두 가지 유형의 올리고 잔디로 코팅된 유리 채널이다. 혼성화(Hybridization)는 표면에 있는 두 가지 유형의 올리고 중 첫 번째에 의해 활성화된다. 이 올리고는 조각의 한쪽 끝에 있는 첫 번째 어댑터를 보완한다. 중합 효소는 혼성화된 단편의 보완 가닥을 생성한다. 이중 가닥 분자는 변성되고 원래의 템플릿 가닥은 씻겨내진다. 나머지 가닥은 다른 많은 나머지 가닥과 병렬로 브리지 적용을 통해 클론 증폭된다.
브리지 증폭에서, 가닥이 접히고 가닥의 두 번째 말단에 있는 두 번째 어댑터 영역이 플로우 셀 표면에서 두 번째 유형의 올리고와 혼성화한다. 중합 효소는 보완 가닥을 생성하여 이중 가닥 브리지 분자를 형성한다. 이 이중 가닥 분자는 변성되어 두 개의 서로 다른 올리고를 통해 플로우 셀에 연결된 두 개의 단일 가닥 분자가 생성된다. 이 과정은 계속해서 반복되며 수백만 개의 클러스터에 대해 동시에 발생하여 모든 단편의 클론 증폭이 발생한다. 브리지 증폭 후, 역 가닥은 절단되고 씻겨나가 순방향 가닥만 남는다. 원치 않는 프라이밍(priming)을 방지하기 위해 3' 끝이 막혀 있다.
클러스터링 후, 시퀀싱은 첫 번째 판독을 생성하기 위해 첫 번째 시퀀싱 프라이머를 확장하는 것으로 시작된다. 각 주기마다 형광 태그가 지정된 뉴클레오타이드가 성장하는 사슬에 추가하기 위해 경쟁한다. 템플릿 순서에 따라 하나만 통합된다. 각 뉴클레오타이드를 추가한 후 클러스터는 광원에 의해 여기되고 특징적인 형광 신호가 방출된다. 주기 수에 따라 판독 길이가 결정된다. 방출 파장과 신호 강도에 따라 염기 콜(base calls)이 결정된다. 주어진 클러스터에 대해 모든 동일한 가닥들이 동시에 판독된다. 수억 개의 클러스터가 대규모 병렬 방식으로 시퀀싱된다. 첫 번째 판독이 완료되면 판독된 산물이 씻겨나간다.
2 개의 인덱스 프라이머를 포함하는 프로토콜의 다음 단계에서, 인덱스 1 프라이머가 도입되고 템플릿의 인덱스 1 영역에 혼성화된다. 인덱스 영역은 다중 시퀀싱 프로세스에서 샘플을 역 다중화하는 데 유용한 조각 식별을 제공한다. 인덱스 1 판독은 첫 번째 판독과 유사하게 생성된다. 인덱스 1 판독이 완료되면 판독 산물이 세척되고 가닥의 3' 끝이 보호 해제된다. 그런 다음 템플릿 가닥이 접혀서 플로우 셀의 두 번째 올리고에 결합된다. 인덱스 2 시퀀스는 인덱스 1과 동일한 방식으로 판독된다. 그런 다음 인덱스 2 판독 산물은 단계 완료시 세척된다.
2 개의 인덱스를 읽은 후, 판독 2는 중합 효소를 사용하여 두 번째 플로우 셀 올리고를 확장하여 이중 가닥 브리지를 형성함으로써 개시된다. 이 이중 가닥 DNA는 변성되고, 3 '끝이 차단된다. 원래의 앞쪽 가닥은 쪼개지고 씻겨나가서 역방향 가닥을 남긴다. 판독 2는 판독 2 시퀀싱 프라이머의 도입으로 시작된다. 판독 1과 마찬가지로 원하는 길이에 도달할 때까지 시퀀싱 단계가 반복된다. 판독 2 제품은 씻어낸다. 이 전체 프로세스는 모든 조각을 나타내는 수백만 개의 판독을 생성한다. 풀링된 샘플 라이브러리의 시퀀스는 샘플 준비 중에 도입된 고유한 인덱스를 기반으로 분리된다. 각 샘플에 대해 유사한 염기 콜의 판독이 로컬로 클러스터링된다. 순방향 및 역방향 판독은 쌍을 이루어 연속적인 시퀀스를 생성한다. 이러한 연속적인 서열은 변이체 식별을 위해 참조 게놈에 정렬된다.
전술한 합성에 의한 시퀀싱 예는 개시된 방법의 많은 실시 양태에서 사용되는 쌍을 이룬 말단 판독을 포함한다. 페어드 엔드 시퀀싱은 조각의 두 끝에서 두 번의 판독을 포함한다. 한 쌍의 판독이 참조 시퀀스에 매핑되면 두 판독 사이의 기본 쌍 거리를 결정할 수 있으며, 그런 다음 어떤 거리를 사용하여 판독을 얻은 단편의 길이를 결정할 수 있다. 일부 경우에 두 개의 빈에 걸쳐있는 단편은 페어 엔드 판독 중 하나가 한 빈에 정렬되고 다른 하나는 인접한 빈에 정렬된다. 이것은 빈이 길어 지거나 판독이 짧아 질수록 더 드물다. 이러한 단편의 빈 멤버십을 설명하기 위해 다양한 방법이 사용될 수 있다. 예를 들어, 빈의 조각 크기 빈도를 결정할 때 생략할 수 있다. 인접한 두 빈에 대해 계산할 수 있다. 두 빈의 더 많은 기본 쌍을 포함하는 빈에 할당될 수 있다. 또는 각 빈의 기본 쌍 부분과 관련된 가중치를 두 빈에 할당할 수 있다.
페어드 엔드 판독은 상이한 길이(즉, 서열화될 상이한 단편 크기)의 삽입물을 사용할 수 있다. 본 명세서에서 기본 의미로서, 쌍을 이룬 끝 판독은 다양한 삽입 길이로부터 얻은 판독을 참조하는 데 사용된다. 일부 예에서 짧은 삽입 쌍 끝 판독과 긴 삽입 쌍 끝 판독을 구별하기 위해 후자는 메이트 쌍 판독이라고도한다. 메이트 쌍 판독을 포함하는 일부 실시 양태에서, 2 개의 비오틴 접합 어댑터가 먼저 비교적 긴 삽입물의 2 개의 단부(예를 들어, 수 kb)에 부착된다. 그런 다음 비오틴 접합 어댑터가 삽입물의 두 끝을 연결하여 원형 분자를 형성한다. 원형 화된 분자를 추가로 단편화하여 비오틴 접합 어댑터를 포함하는 하위 단편을 얻을 수 있다. 반대 시퀀스 순서로 원래 단편의 두 끝을 포함하는 하위 단편은 위에서 설명한 짧은 삽입 쌍 끝 시퀀싱과 동일한 절차에 의해 시퀀싱될 수 있다. Illumina 플랫폼을 사용한 메이트 쌍 시퀀싱에 대한 자세한 내용은 전체가 참조로 포함된 다음 URL의 온라인 간행물에 나와 있고, 그 전문이 본 발명에 포함된다: res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing. 페어링된 말단 시퀀싱에 대한 추가 정보는 미국 특허 번호 7601499 및 미국 특허 공개 번호 2012/0,053,063에서 찾을 수 있으며, 이는 페어링된 말단 시퀀싱 방법 및 장치에 대한 재료와 관련하여 참조로 포함된다.
DNA 단편의 시퀀싱 후, 미리 결정된 길이, 예를 들어 100bp의 서열 판독이 알려진 참조 게놈에 매핑되거나 정렬된다. 참조 시퀀스에서 매핑되거나 정렬된 판독 및 해당 위치를 태그라고도한다. 한 실시예에서, 참조 게놈 서열은 NCBI36/hg18 서열이며, 이는 genome |.|ucsc |.|edu/cgi-bin/hgGateway? org = Human & db = hg18 & hgsid = 166260105)의 월드 와이드 웹에서 이용 가능하다. 대안으로, 참조 게놈 서열은 GRCh37/hg19이며, 이는 게놈 도트 ucsc 도트 edu/cgi-bin/hgGateway의 월드 와이드 웹에서 구할 수 있다. 공개 서열 정보의 다른 출처로는 GenBank, dbEST, dbSTS, EMBL(유럽 분자 생물학 연구소) 및 DDBJ(일본의 DNA 데이터뱅크)가 있다. 다수의 컴퓨터 알고리즘이 서열 정렬에 가용하며, BLAST(Altschul et al., 1990), BLITZ(MPsrch)(Sturrock & Collins, 1993), FASTA(Person & Lipman, 1988), BOWTIE(Langmead et al. ., Genome Biology 10: R25.1-R25.10 [2009]) 또는 ELAND(Illumina, Inc., San Diego, CA, USA)를 포함하지만 이에 제한되지 않는다. 한 실시 양태에서, 혈장 cfDNA 분자의 클론적으로 확장된 사본의 한쪽 끝은 ELAND(Efficient Large-Scale Alignment of Nucleotide Databases) 소프트웨어를 사용하는 Illumina 게놈 분석기에 대한 생물 정보학 정렬 분석에 의해 시퀀싱되고 처리된다.
하나의 예시 적이지만 비 제한적인 실시 양태에서, 본원에 기술된 방법은 Helicos True Single Molecule Sequencing(tSMS) 기술의 단일 분자 서열 분석 기술(예: Harris TD et al., Science 320: 106-109 [2008]에 기술된 바와 같이)을 사용하여 테스트 샘플에서 핵산에 대한 서열 정보를 얻는 것을 포함한다. tSMS 기법에서는 DNA 샘플을 약 100 ~ 200 개의 뉴클레오타이드 가닥으로 절단하고 polyA 서열을 각 DNA 가닥의 3' 끝에 추가한다. 각 가닥은 형광 표지된 아데노신 뉴클레오타이드의 추가에 의해 표지된다. 그런 다음 DNA 가닥은 플로우 셀 표면에 고정된 수백만 개의 oligo-T 포획 부위를 포함하는 플로우 셀에 혼성화된다. 특정 실시 양태에서 템플릿은 약 1 억 템플릿/cm2의 밀도일 수 있다. 그런 다음 플로우 셀을 기기(예: HeliScope™ 시퀀서)에로드하면 레이저가 플로우 셀 표면을 비추어 각 템플릿의 위치를 표시한다. CCD 카메라는 플로우 셀 표면에서 템플릿의 위치를 매핑할 수 있다. 그런 다음 템플릿 형광 라벨을 절단하여 씻어낸다. 시퀀싱 반응은 DNA 중합 효소와 형광 표지된 뉴클레오타이드를 도입하여 시작된다. oligo-T 핵산은 프라이머 역할을한다. 중합 효소는 표지된 뉴클레오타이드를 템플릿 지시 방식으로 프라이머에 통합한다. 중합 효소와 통합되지 않은 뉴클레오타이드가 제거된다. 형광 표지된 뉴클레오타이드의 통합을 지시한 템플릿은 플로우 셀 표면을 이미징하여 식별한다. 이미징 후, 절단 단계는 형광 라벨을 제거하고, 원하는 판독 길이가 달성될 때까지 다른 형광 라벨링된 뉴클레오타이드로 프로세스를 반복한다. 염기 서열 정보는 각 뉴클레오타이드 추가 단계에서 수집된다. 단일 분자 시퀀싱 기술에 의한 전체 게놈 시퀀싱은 시퀀싱 라이브러리 준비에서 PCR 기반 증폭을 제외하거나 일반적으로 제거하며,이 방법을 사용하면 해당 샘플의 사본을 측정하는 대신 샘플을 직접 측정할 수 있다.
태아 세포 DNA의 출처를 결정하기 위한 장치 및 시스템
시퀀싱 데이터의 분석 및 그로부터 유도된 진단은 일반적으로 다양한 컴퓨터 실행 알고리즘 및 프로그램을 사용하여 수행된다. 따라서, 특정 실시예는 하나 이상의 컴퓨터 시스템 또는 다른 처리 시스템에 저장되거나 전송되는 데이터를 포함하는 프로세스를 사용한다. 본 명세서에 개시된 실시예는 또한 이러한 동작을 수행하기 위한 장치에 관한 것이다. 이 장치는 필요한 목적을 위해 특별히 구성되거나 컴퓨터 프로그램 및/또는 컴퓨터에 저장된 데이터 구조에 의해 선택적으로 활성화되거나 재구성된 범용 컴퓨터(또는 컴퓨터 그룹) 일 수 있다. 일부 실시예에서, 프로세서 그룹은 인용된 분석 작업의 일부 또는 전부를 협력적으로(예를 들어, 네트워크 또는 클라우드 컴퓨팅을 통해) 및/또는 병렬로 수행한다. 본 명세서에 설명된 방법을 수행하기 위한 프로세서 또는 프로세서 그룹은 마이크로 컨트롤러 및 프로그래밍 가능한 장치(예를 들어, CPLD 및 FPGA)와 같은 마이크로 프로세서 및 게이트 어레이 ASIC 또는 범용 마이크로 프로세서와 같은 프로그램 불가능한 장치를 포함하는 다양한 유형일 수 있다.
추가로, 특정 실시예는 다양한 컴퓨터 구현 동작을 수행하기 위한 프로그램 명령 및/또는 데이터(데이터 구조 포함)를 포함하는 유형 및/또는 비 일시적 컴퓨터 판독 가능 매체 또는 컴퓨터 프로그램 제품에 관한 것이다. 컴퓨터 판독 가능 매체의 예에는 반도체 메모리 장치, 디스크 드라이브와 같은 자기 매체, 자기 테이프, CD와 같은 광학 매체, 광 자기 매체 및 ROM(판독 전용 메모리 장치) 및 RAM(Random Access Memory)과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함되지만 이에 국한되지는 않는다. 컴퓨터 판독 가능 매체는 최종 사용자에 의해 직접 제어될 수 있거나 매체가 최종 사용자에 의해 간접적으로 제어될 수 있다. 직접 제어되는 매체의 예로는 사용자 시설에 위치한 미디어 및/또는 다른 엔티티와 공유되지 않는 미디어가 있다. 간접적으로 제어되는 미디어의 예로는 외부 네트워크 및/또는 "클라우드"와 같은 공유 리소스를 제공하는 서비스를 통해 사용자가 간접적으로 액세스할 수 있는 미디어가 있다. 프로그램 명령어의 예로는 컴파일러에 의해 생성된 것과 같은 기계어 코드와 인터프리터를 사용하여 컴퓨터에서 실행할 수 있는 상위 레벨 코드가 포함된 파일이 모두 포함된다.
다양한 실시예에서, 개시된 방법 및 장치에 사용된 데이터 또는 정보는 전자적 형식으로 제공된다. 이러한 데이터 또는 정보에는 핵산 샘플에서 파생된 판독 및 태그, 참조 서열의 특정 영역과 정렬되는 이러한 태그의 개수 또는 밀도(예: 염색체 또는 염색체 세그먼트에 정렬), 참조 서열(단독으로 또는 주로 다형성 제공하는 참조 서열 포함)이 포함될 수 있다. SNV 또는 이수성 호출과 같은 호출, 상담 권장 사항, 진단 등. 여기에 사용된 전자 형식으로 제공된 데이터 또는 기타 정보는 기계에 저장하고 기계간에 전송할 수 있다. 통상적으로 전자 형식의 데이터는 디지털 방식으로 제공되며 다양한 데이터 구조, 목록, 데이터베이스 등에 비트 및/또는 바이트로 저장될 수 있다. 데이터는 전자적, 광학적으로 등으로 구현될 수 있다.
한 실시 양태는 태아 세포 DNA의 공급원을 결정하고/하거나 태아 세포 DNA를 사용하여 태아 유전 상태를 결정하기 위한 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 제품은 염색체 이상을 결정하기 위한 전술한 방법 중 하나 이상을 수행하기 위한 지침을 포함할 수 있다. 설명된 바와 같이, 컴퓨터 제품은 프로세서가 DNA 혼합물 샘플을 정량화할 수 있도록 컴퓨터 실행 가능 또는 컴파일 가능한 로직(예를 들어, 명령)이 기록된 비 일시적 및/또는 유형의 컴퓨터 판독 가능 매체를 포함할 수 있다. 한 예에서, 컴퓨터 제품은 프로세서가 태아 세포 DNA의 소스를 결정하고 /하거나 태아의 유전적 상태를 결정하기 위해 태아 세포 DNA를 사용할 수 있도록 컴퓨터 실행 가능 또는 컴파일 가능한 논리(예: 명령)가 기록된 컴퓨터 판독 가능 매체를 포함한다.
고려중인 샘플의 서열 정보는 하나 이상의 관심 염색체 각각에 대한 다수의 서열 태그를 식별하기 위해 염색체 참조 서열에 매핑될 수 있다. 다양한 실시예에서, 참조 서열은 예를 들어 관계형 또는 객체 데이터베이스와 같은 데이터베이스에 저장된다.
비-보조 인간이 여기에 개시된 방법의 계산 연산을 수행하는 것은 실용적이지 않거나 대부분의 경우 가능하지 않다는 것을 이해해야한다. 예를 들어, 샘플에서 읽은 단일 30bp를 인간 염색체 중 하나에 매핑하려면 컴퓨터 장치의 도움없이 수년간의 노력이 필요할 수 있다.
본원에 개시된 방법은 DNA 혼합물 샘플을 정량화하기 위한 시스템을 사용하여 수행할 수 있다. 시스템은: (a) 샘플로부터 핵산 서열 정보를 제공하는 테스트 샘플로부터 핵산을 수신하기 위한 시퀀서; (b) 프로세서; 및 (c) 태아 세포 DNA의 공급원을 결정하기 위한 방법 및/또는 태아 세포 DNA를 사용하여 태아 유전적 상태를 결정하는 방법을 수행하기 위해 상기 프로세서에서 실행하기 위한 명령이 저장되어있는 하나 이상의 컴퓨터 판독 가능 저장 매체을 포함한다.
일부 실시 양태에서, 방법은 DNA 혼합물 샘플을 정량화하기 위한 방법을 수행하기 위한 컴퓨터 판독 가능 지침이 저장된 컴퓨터 판독 가능 매체에 의해 지시된다. 따라서, 일 실시예는 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 태아 세포 DNA의 출처를 결정하고/하거나 태아 세포 DNA를 사용하여 태아 유전 상태를 결정하기 위한 방법을 컴퓨터 시스템으로 하여금 구현하게 하는 컴퓨터-실행가능 명령어를 저장한 하나 이상의 컴퓨터-판독가능, 비일시적 저장 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다. 방법은 다음을 포함한다: (a) 현재 임신 중인 태아의 유전자형을 수신하는 단계 - 여기서 현재 임신 중인 태아의 유전자형은 복수의 유전 마커의 각 유전 마커에 대한 하나 이상의 대립 유전자를 포함하며, 여기서 각 유전 마커는 독특한 게놈 유전자좌에서의 다형성을 나타냄; (b) 임산부의 유전자형을 수신하는 단계 - 여기서 임산부의 유전자형은 복수의 유전 마커의 각 유전 마커에 대한 하나 이상의 대립 유전자를 포함함; (c) 임산부의 유전자형과 현재 임신중인 태아의 유전자형으로부터 정보 유전 마커 세트를 확인하는 단계 - 정보 용 유전 마커 세트의 각 정보 용 유전 마커는 임산부 여성에서 동형 접합이고 현재 임신에서 태아의 이형 접합체임; (d) 임산부로부터 얻은 태아 세포 DNA의 경우, 정보 유전 마커 세트의 각 정보 유전 마커에서 하나 이상의 대립 유전자를 결정하는 단계 - 여기서 태아 세포 DNA는 현재 임신중인 태아 또는 과거 임신 태아로부터 발원함; (e) 임산부로부터 얻은 태아 세포 DNA의 각 정보 유전 마커에서 하나 이상의 대립 유전자를 확률 모델에 입력으로 제공하는 단계; (f) 세 가지 시나리오의 확률을 확률 모델의 산출물로 획득하는 단계: 임산부로부터 얻은 태아 세포 DNA는 (1) 현재 임신 중인 태아의 것,(2) 과거 임신 태아의 것으로서, 현재 임신 중인 태아와 동일한 아버지가 있는 태아의 것, 및 (3) 과거 임신 태아의 것으로서, 현재 임신 중 태아와 다른 아버지가있는 경우, 그리고 (g) 확률 모델의 출력으로부터 태아 세포 DNA가(1) 현재 임신의 태아로부터 유래되었는지 여부를 결정하는 단계. 적어도(e) 및 (f)는 프로세서와 메모리를 포함하는 컴퓨터에 의해 수행된다.
일부 구현에서, 명령어는 테스트 샘플을 제공하는 인간 피험자에 대한 환자 의료 기록에 방법과 관련된 정보를 자동으로 기록하는 것을 추가로 포함할 수 있다. 환자 의료 기록은 예를 들어 검사실, 의사 사무실, 병원, 건강 관리 기관, 보험 회사 또는 개인 의료 기록 웹 사이트에서 관리할 수 있다. 또한, 프로세서 구현 분석의 결과에 기초하여, 방법은 테스트 샘플을 채취한 인간 피험자의 치료를 처방, 시작 및/또는 변경하는 것을 추가로 포함할 수 있다. 여기에는 피험자로부터 채취한 추가 샘플에 대해 하나 이상의 추가 테스트 또는 분석을 수행하는 것이 포함될 수 있다.
개시된 방법은 또한 태아 세포 DNA의 공급원을 결정하기 위한 방법을 수행하고/하거나 태아 유전적 상태를 결정하기 위해 태아 세포 DNA를 사용하도록 조정되거나 구성된 컴퓨터 처리 시스템을 사용하여 수행될 수 있다. 일 실시예는 본 명세서에 설명된 바와 같은 방법을 수행하도록 적응 또는 구성되는 컴퓨터 처리 시스템을 제공한다. 한 실시 양태에서, 장치는 본원의 다른 곳에서 설명된 서열 정보의 유형을 얻기 위해 샘플에서 핵산 분자의 적어도 일부를 서열 분석하도록 적응되거나 구성된 서열 분석 장치를 포함한다. 장치에는 시료 처리를 위한 구성 요소가 포함될 수도 있다. 이러한 구성 요소는 본 명세서 중 다른 곳에서 설명된다.
시퀀스 또는 기타 데이터는 컴퓨터에 입력되거나 컴퓨터 판독 가능 매체에 직접 또는 간접적으로 저장될 수 있다. 한 실시 양태에서, 컴퓨터 시스템은 샘플로부터 핵산 서열을 판독 및/또는 분석하는 시퀀싱 장치에 직접 결합된다. 이러한 도구의 시퀀스 또는 기타 정보는 컴퓨터 시스템의 인터페이스를 통해 제공된다. 또는 시스템에서 처리된 시퀀스는 데이터베이스 또는 기타 저장소와 같은 시퀀스 저장소 소스에서 제공된다. 처리 장치에 이용 가능하면, 메모리 장치 또는 대용량 저장 장치는 핵산의 서열을 적어도 일시적으로 버퍼링하거나 저장한다. 또한, 메모리 장치는 다양한 염색체 또는 게놈 등에 대한 태그 카운트를 저장할 수 있다. 메모리는 또한 제시된 서열 또는 매핑된 데이터를 분석하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다. 이러한 프로그램/루틴에는 통계 분석 등을 수행하는 프로그램이 포함될 수 있다.
한 예에서, 사용자는 시퀀싱 장치에 샘플을 제공한다. 데이터는 컴퓨터에 연결된 시퀀싱 장치에 의해 수집 및/또는 분석된다. 컴퓨터의 소프트웨어는 데이터 수집 및/또는 분석을 허용한다. 데이터는 저장, 표시(모니터 또는 기타 유사한 장치를 통해) 및/또는 다른 위치로 전송할 수 있다. 컴퓨터는 원격 사용자(예: 의사, 과학자 또는 분석가)가 사용하는 휴대용 장치로 데이터를 전송하는 데 사용되는 인터넷에 연결될 수 있다. 데이터는 전송 전에 저장 및/또는 분석될 수 있음이 이해된다. 일부 실시예에서, 원시 데이터가 수집되어 데이터를 분석 및/또는 저장할 원격 사용자 또는 장치로 전송된다. 전송은 인터넷을 통해 발생할 수 있지만 위성이나 기타 연결을 통해서도 발생할 수 있다. 대안적으로, 데이터는 컴퓨터 판독 가능 매체에 저장될 수 있고 매체는 최종 사용자에게(예를 들어, 우편을 통해) 배송될 수 있다. 원격 사용자는 건물, 도시, 주, 국가 또는 대륙을 포함하되 이에 국한되지 않는 동일하거나 다른 지리적 위치에 있을 수 있다.
일부 구현 예에서, 방법은 또한 복수의 폴리 뉴클레오타이드 서열(예를 들어, 판독, 태그 및/또는 참조 염색체 서열)에 관한 데이터를 수집하고 데이터를 컴퓨터 또는 다른 계산 시스템으로 보내는 것을 포함한다. 예를 들어, 컴퓨터는 샘플 수집 장치, 뉴클레오타이드 증폭 장치, 뉴클레오타이드 시퀀싱 장치 또는 혼성화 장치와 같은 실험실 장비에 연결될 수 있다. 그런 다음 컴퓨터는 실험실 장치에서 수집한 적용 가능한 데이터를 수집할 수 있다. 데이터는 예를 들어 실시간으로 수집되는 동안, 전송 전, 전송 중 또는 전송과 함께 또는 전송 후에 컴퓨터에 저장될 수 있다. 데이터는 컴퓨터에서 추출할 수 있는 컴퓨터 판독 가능 매체에 저장될 수 있다. 수집되거나 저장된 데이터는 예를 들어 로컬 네트워크 또는 인터넷과 같은 광역 네트워크를 통해 컴퓨터에서 원격 위치로 전송될 수 있다. 원격 위치에서 아래에 설명 된대로 전송된 데이터에 대해 다양한 작업을 수행할 수 있다.
본 문서에 공개된 시스템, 장치 및 방법에서 저장, 전송, 분석 및/또는 조작될 수 있는 전자적으로 형식화된 데이터의 유형은 다음과 같다.
테스트 샘플에서 핵산을 시퀀싱하여 얻은 판독
판독을 참조 게놈 또는 기타 참조 서열 또는 서열에 정렬하여 얻은 태그
참조 게놈 또는 서열
대립 유전자 수 - 각 대립 유전자에 대한 태그 수 또는 개수
공유된 유전 마커의 수
진단(호출과 관련된 임상 상태)
호출 및/또는 진단에서 파생된 추가 테스트에 대한 권장 사항
전화 및/또는 진단에서 파생된 치료 및/또는 모니터링 계획
이러한 다양한 유형의 데이터는 별개의 장치를 사용하여 하나 이상의 위치에서 획득, 저장, 전송, 분석 및/또는 조작될 수 있다. 처리 옵션은 광범위한 스펙트럼에 걸쳐 있다. 스펙트럼의 한쪽 끝에서, 이 정보의 전부 또는 대부분은 검사 샘플이 처리되는 위치(예: 의사 사무실 또는 기타 임상 환경)에서 저장 및 사용된다. 다른 극단적인 예에서, 샘플은 한 위치에서 획득하고, 처리되며, 선택적으로 다른 위치에서 시퀀싱되고, 판독이 정렬되고, 하나 이상의 상이한 위치에서 호출이 이루어지며, 진단, 권장 사항 및/또는 계획이 또 다른 위치(샘플을 획득한 위치일 수도 있음)에서 준비된다.
다양한 실시예에서, 판독은 시퀀싱 장치로 생성된 다음, 호출을 생성하도록 처리되는 원격 사이트로 전송된다. 예를 들어, 이 원격 위치에서 판독은 참조 서열에 정렬되어 태그를 생성하며, 태그를 계산하여 관심있는 염색체 또는 세그먼트에 할당한다. 또한 원격 위치에서 선량은 호출을 생성하는 데 사용된다.
별개의 위치에서 사용될 수 있는 처리 작업은 다음과 같다.
샘플 수집
시퀀싱에 대한 예비 샘플 처리
시퀀싱
서열 데이터 분석 및 DNA 혼합물 샘플 정량화
진단
진단 및/또는 환자 또는 의료 제공자에게 전화보고
추가 치료, 검사 및/또는 모니터링을 위한 계획 개발
계획 실행
상담
이러한 작업 중 하나 이상은 본 문서의 다른 곳에서 설명 된대로 자동화될 수 있다. 일반적으로 서열 데이터의 시퀀싱 및 분석 및 DNA 샘플 정량화는 계산 방식으로 수행된다. 다른 작업은 수동 또는 자동으로 수행할 수 있다.
샘플 수집이 수행될 수 있는 위치의 예로는 의료 종사자의 사무실, 클리닉, 환자의 집(샘플 수집 도구 또는 키트가 제공되는 곳) 및 이동식 의료 차량이 있다. 시퀀싱 전에 시료 처리를 수행할 수 있는 위치의 예로는 의료 종사자의 사무실, 클리닉, 환자의 집(샘플 처리 장치 또는 키트가 제공되는 곳), 이동식 의료 차량 및 DNA 분석 제공 업체 시설이 있다. 시퀀싱이 수행될 수 있는 위치의 예로는 의료 종사자 사무실, 클리닉, 의료 종사자 사무실, 클리닉, 환자 집(샘플 시퀀싱 장치 및/또는 키트가 제공되는 경우), 이동식 의료 차량 및 DNA 분석 제공자 시설이 있다. 시퀀싱이 이루어지는 위치에는 전자 형식으로 시퀀스 데이터(일반적으로 판독)를 전송하기 위한 전용 네트워크 연결이 제공될 수 있다. 이러한 연결은 유선 또는 무선 일 수 있으며 처리 사이트로 전송하기 전에 데이터가 처리 및/또는 집계될 수 있는 사이트로 데이터를 전송하도록 구성될 수 있다. 데이터 수집기는 HMO(Health Maintenance Organization)와 같은 의료 기관에서 유지 관리할 수 있다.
분석 및/또는 유도 작업은 전술한 위치 중 임의의 곳에서 또는 대안적으로 핵산 서열 데이터 분석 서비스 및/또는 계산 전용 추가 원격 사이트에서 수행될 수 있다. 이러한 위치에는 예를 들어 범용 서버 팜과 같은 클러스터, DNA 분석 서비스 비즈니스 시설 등이 포함된다. 일부 실시예에서, 분석을 수행하기 위해 사용되는 계산 장치는 임대되거나 대여된다. 컴퓨팅 리소스는 클라우드로 구어적으로 알려진 처리 리소스와 같은 인터넷 액세스 가능 프로세서 모음의 일부일 수 있다. 경우에 따라 계산은 서로 연관되거나 연관되지 않은 병렬 또는 대규모 병렬 프로세서 그룹에 의해 수행된다. 처리는 클러스터 컴퓨팅, 그리드 컴퓨팅 등과 같은 분산 처리를 사용하여 수행될 수 있다. 이러한 실시예에서, 계산 자원의 클러스터 또는 그리드 집합은 여기에 설명된 분석 및/또는 유도를 수행하기 위해 함께 작동하는 다중 프로세서 또는 컴퓨터로 구성된 슈퍼 가상 컴퓨터를 형성한다. 이러한 기술뿐만 아니라 더 전통적인 슈퍼 컴퓨터는 여기에 설명된 바와 같이 시퀀스 데이터를 처리하는 데 사용될 수 있다. 각각은 프로세서 또는 컴퓨터에 의존하는 병렬 컴퓨팅의한 형태이다. 그리드 컴퓨팅의 경우 이러한 프로세서(종종 전체 컴퓨터)는 이더넷과 같은 기존 네트워크 프로토콜에 의해 네트워크(개인, 공용 또는 인터넷)로 연결된다. 반대로 슈퍼 컴퓨터에는 로컬 고속 컴퓨터 버스로 연결된 많은 프로세서가 있다.
특정 실시예에서, 진단은 분석 작업과 동일한 위치에서 생성된다. 다른 실시예에서, 그것은 다른 위치에서 수행된다. 일부 예에서 진단보고는 샘플을 채취한 위치에서 수행되지만 반드시 그럴 필요는 없다. 진단이 생성되거나 보고될 수 있는 위치 및/또는 계획 개발이 수행되는 위치의 예에는 네트워크에 대한 유선 또는 무선 연결을 가진, 의료 종사자의 사무실, 클리닉, 컴퓨터로 액세스할 수 있는 인터넷 사이트 및 휴대 전화, 태블릿, 스마트 폰 등과 같은 휴대용 장치가 포함된다. 상담이 수행되는 위치의 예로는 의료 종사자 사무실, 클리닉, 컴퓨터로 액세스할 수 있는 인터넷 사이트, 휴대용 장치 등이 있다.
일부 실시예에서, 시료 수집, 시료 처리 및 시퀀싱 작업은 첫 번째 위치에서 수행되고 분석 및 도출 작업은 두 번째 위치에서 수행된다. 그러나 경우에 따라 샘플 수집은 한 위치(예: 의료 종사자의 사무실 또는 클리닉)에서 수집되고 샘플 처리 및 시퀀싱은 분석 및 추출이 수행되는 곳과 동일한 위치인 다른 위치에서 수행된다.
다양한 실시예에서, 위에 나열된 작업의 시퀀스는 샘플 수집, 샘플 처리 및/또는 시퀀싱을 시작하는 사용자 또는 엔티티에 의해 트리거될 수 있다. 하나 이상의 이러한 작업이 실행을 시작한 후 다른 작업이 자연스럽게 이어질 수 있다. 예를 들어, 시퀀싱 작업은 판독이 자동으로 수집되어 처리 장치로 전송되도록할 수 있으며, 이 처리 장치는 종종 자동으로 그리고 가능하면 추가 사용자 개입없이 서열 분석 및 DNA 혼합물 샘플 정량화를 수행한다. 일부 구현에서, 이 처리 작업의 결과는 가능하면 진단으로서 재형식화하여 정보를 의료 전문가 및/또는 환자에게보고하는 처리하는 시스템 구성 요소 또는 개체에 자동으로 전달된다. 설명된 바와 같이, 그러한 정보는 가능한 상담 정보와 함께 치료, 테스트 및/또는 모니터링 계획을 생성하기 위해 자동으로 처리될 수도 있다. 따라서, 초기 단계 수술을 시작하면 건강 전문가, 환자 또는 기타 관련 당사자에게 진단, 계획, 상담 및/또는 신체 상태에 대한 조치에 유용한 기타 정보가 제공되는 종단 간 시퀀스가 트리거될 수 있다. 이는 전체 시스템의 일부가 물리적으로 분리되어 있고 예를 들어 샘플 및 시퀀스 장치의 위치에서 멀리 떨어져 있어도 수행된다.
도 10은 적절하게 구성되거나 설계될 때 특정 실시예에 따른 계산 장치로서 기능할 수 있는 전형적인 컴퓨터 시스템을 간단한 블록 형식으로 도시한다. 컴퓨터 시스템(2000)은 1차 저장 장치(2006)(일반적으로 랜덤 액세스 메모리 또는 RAM), 1 차 저장 장치(2004)(일반적으로 읽기 전용 메모리 또는, ROM)를 포함하는 저장 장치에 연결된 임의의 수의 프로세서(2002)(중앙 처리 장치 또는 CPU라고도 함)를 포함한다. CPU(2002)는 프로그래밍 가능한 장치(예를 들어, CPLD 및 FPGA)와 같은 마이크로 컨트롤러 및 마이크로 프로세서 및 게이트 어레이 ASIC 또는 범용 마이크로 프로세서와 같은 비 프로그래밍 가능 장치를 포함하는 다양한 유형일 수 있다. 도시된 실시예에서, 1 차 스토리지(2004)는 데이터 및 명령을 단방향으로 CPU에 전송하는 역할을하며, 1 차 스토리지(2006)는 일반적으로 양방향 방식으로 데이터 및 명령을 전송하는 데 사용된다. 이들 1차 저장 장치 모두는 전술한 것과 같은 임의의 적절한 컴퓨터 판독 가능 매체를 포함할 수 있다. 대용량 저장 장치(2008)는 또한 1 차 저장 장치(2006)에 양방향으로 연결되고 추가 데이터 저장 용량을 제공하고 위에서 설명한 임의의 컴퓨터 판독 가능 매체를 포함할 수 있다. 대용량 저장 장치(2008)는 프로그램, 데이터 등을 저장하는 데 사용될 수 있으며 일반적으로 하드 디스크와 같은 보조 저장 매체이다. 종종, 그러한 프로그램, 데이터 등은 CPU 2002에서 실행하기 위해 주 메모리(2006)에 일시적으로 복사된다. 대용량 저장 장치(2008) 내에 보유된 정보는 적절한 경우 표준 방식으로 일부로서 통합될 수 있음을 이해할 수 있을 것이다. CD-ROM 2014와 같은 특정 대용량 저장 장치는 또한 데이터를 CPU 또는 기본 저장소에 단방향으로 전달할 수 있다.
CPU 2002는 또한 핵산 시퀀서(2020), 비디오 모니터, 트랙볼, 마우스, 키보드, 마이크, 터치 감지 디스플레이, 변환기 카드 판독기, 자기 또는 종이 테이프 판독기, 태블릿, 스타일러스, 음성 또는 필기 인식 주변 장치, USB 포트 또는 기타 컴퓨터와 같은 기타 잘 알려진 입력 장치와 같은 하나 이상의 입력/출력 장치에 연결되는 인터페이스(2010)에 연결된다. 마지막으로, CPU(2002)는 일반적으로 2012 로 도시된 바와 같이 외부 연결을 사용하여 데이터베이스 또는 컴퓨터 또는 통신 네트워크와 같은 외부 장치에 선택적으로 연결될 수 있다. 이러한 연결을 통해 CPU가 네트워크로부터 정보를 수신할 수 있다고 생각된다. 또는 여기에 설명된 방법 단계를 수행하는 과정에서 정보를 네트워크에 출력할 수 있다. 일부 구현에서, 핵산 시퀀서(2020)는 인터페이스(2010) 대신에 또는 이에 추가하여 네트워크 연결(2012)을 통해 CPU(2002)에 통신적으로 연결될 수 있다.
일 실시예에서, 컴퓨터 시스템(2000)과 같은 시스템은 여기에 설명된 작업의 일부 또는 전부를 수행할 수 있는 데이터 가져 오기, 데이터 상관 및 질의 시스템으로서 사용된다. 데이터 파일을 포함한 정보 및 프로그램은 연구원이 액세스하거나 다운로드할 수 있도록 네트워크 연결(2012)을 통해 제공될 수 있다. 또는 이러한 정보, 프로그램 및 파일을 저장 장치에서 연구원에게 제공할 수 있다.
특정 실시예에서, 컴퓨터 시스템(2000)은 샘플로부터 데이터를 캡처하는 마이크로 어레이, 고 처리량 스크리닝 시스템 또는 핵산 시퀀서(2020)와 같은 데이터 수집 시스템에 직접 연결된다. 그러한 시스템으로부터의 데이터는 시스템(2000)에 의한 분석을 위해 인터페이스(2010)를 통해 제공된다. 대안으로, 시스템(2000)에 의해 처리된 데이터는 데이터베이스 또는 관련 데이터의 다른 저장소와 같은 데이터 저장 소스로부터 제공된다. 장치(2000)에서, 1 차 저장 장치(2006) 또는 대용량 저장 장치(2008)와 같은 메모리 장치는 적어도 일시적으로 관련 데이터를 버퍼링하거나 저장한다. 메모리는 또한 시퀀스 판독, UMI, 시퀀스 판독을 결정하기 위한 코드, 시퀀스 판독 축소 및 판독 오류 수정, 등을 포함하여 데이터를 가져오고 분석하고 표시하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다.
특정 실시예에서, 여기에 사용된 컴퓨터는 임의의 유형의 컴퓨터(예: 데스크탑, 랩톱, 태블릿 등), 미디어 컴퓨팅 플랫폼(예: 케이블, 위성 셋톱 박스, 디지털 비디오 레코더 등), 핸드 헬드 컴퓨팅 장치(예: PDA, 이메일 클라이언트 등), 휴대폰 또는 기타 유형의 컴퓨팅 또는 통신 플랫폼일 수 있는, 사용자 단말을 포함할 수 있다.
특정 실시예에서, 여기에 사용된 컴퓨터는 또한 사용자 터미널과 통신하는 서버 시스템을 포함할 수 있으며(이 서버 시스템은 서버 장치 또는 분산 서버 장치를 포함할 수 있음), 메인 프레임 컴퓨터, 미니 컴퓨터, 슈퍼 컴퓨터, 개인용 컴퓨터 또는 이들의 조합을 포함할 수 있다. 본 발명의 범위를 벗어나지 않고 복수의 서버 시스템이 사용될 수도 있다. 사용자 단말과 서버 시스템은 네트워크를 통해 서로 통신할 수 있다. 네트워크는 예를 들어 LAN(근거리 통신망), WAN(광역 통신망), MAN(광역 통신망), ISDN(통합 서비스 디지털 네트워크) 등과 같은 유선 네트워크와 무선과 같은 무선 네트워크를 포함할 수 있다. LAN, CDMA, 블루투스 및 위성 통신 네트워크 등은 본 발명의 범위를 제한하지 않는다.
도 11은 테스트 샘플에서 호출 또는 진단을 생성하기 위한 분산 시스템의 한 구현을 보여준다. 샘플 수집 위치 01은 임산부 또는 추정 암 환자와 같은 환자로부터 테스트 샘플을 얻기 위해 사용된다. 그런 다음 샘플은 처리 및 시퀀싱 위치 03에 제공되며, 여기서 테스트 샘플은 위에서 설명한대로 처리 및 시퀀싱될 수 있다. 위치 03에는 시료를 처리하기 위한 장치와 처리된 시료를 시퀀싱하기 위한 장치가 포함된다. 본 문서의 다른 곳에서 설명한 바와 같이 시퀀싱의 결과는 일반적으로 전자 형식으로 제공되고 인터넷과 같은 네트워크에 제공되는 판독 모음이며, 이는 도 11에서 참조 번호 05로 표시된다.
시퀀스 데이터는 분석 및 호출 생성이 수행되는 원격 위치 07에 제공된다. 이 위치에는 컴퓨터 또는 프로세서와 같은 하나 이상의 강력한 계산 장치가 포함될 수 있다. 위치 07의 계산 자원이 분석을 완료하고 수신된 시퀀스 정보에서 호출을 생성한 후 호출은 네트워크 05로 다시 릴레이된다. 일부 구현에서는 07 위치에서 호출이 생성 될뿐만 아니라 관련 진단도 생성된다. 그런 다음 호출 및/또는 진단은 도 11에 설명 된대로 네트워크를 통해 샘플 수집 위치 01로 다시 전송된다. 설명된 바와 같이, 이는 호출 또는 진단 생성과 관련된 다양한 작업을 분할할 수 있는 방법에 대한 많은 변형 중 하나이다. 다양한 위치에서.한 가지 일반적인 변형은 단일 위치에서 샘플 수집 및 처리 및 시퀀싱을 제공하는 것이다. 또 다른 변형은 분석 및 호출 생성과 동일한 위치에서 처리 및 시퀀싱을 제공하는 것이다.
도 12는 별개의 위치에서 다양한 동작을 수행하기 위한 옵션에 대해 자세히 설명한다. 도 12에 묘사된 가장 세분화된 의미에서 다음 작업은 각각 별도의 위치에서 수행된다: 시료 수집, 시료 처리, 시퀀싱, 판독 정렬, 호출, 진단, 보고 및/또는 계획 개발.
이러한 작업 중 일부를 집계하는 일 실시예에서, 샘플 처리 및 시퀀싱이 한 위치에서 수행되고 판독 정렬, 호출 및 진단이 별도의 위치에서 수행된다. 참조 문자 A로 식별되는 도 12의 부분을 참조할 수 있다. 도 12에서 문자 B로 식별되는 다른 구현에서는 샘플 수집, 샘플 처리 및 시퀀싱이 모두 동일한 위치에서 수행된다. 이 구현에서 판독 정렬 및 호출은 두 번째 위치에서 수행된다. 마지막으로 진단 및보고 및/또는 계획 개발은 세 번째 위치에서 수행된다. 도 12의 문자 C로 묘사된 구현에서, 샘플 수집은 첫 번째 위치에서 수행되고, 샘플 처리, 시퀀싱, 판독 정렬, 호출 및 진단은 모두 두 번째 위치에서 함께 수행되며 보고 및/또는 계획 개발은 세 번째 위치에서 수행되었다. 마지막으로, 도 12에서 D로 표시된 구현에서 샘플 수집은 첫 번째 위치에서 수행되고, 샘플 처리, 시퀀싱, 판독 정렬 및 호출은 모두 두 번째 위치에서 수행되고, 진단 및 보고 및/또는 계획 관리는 세번째 위치에서 수행된다.
한 실시 양태는 종양과 관련된 단순 뉴클레오타이드 변이체에 대한 무 세포 DNA(cfDNA)를 분석하기 위한 시스템을 제공하며, 이 시스템은 핵산 샘플을 수신하고 핵산 샘플로부터 핵산 서열 정보를 제공하기 위한 시퀀서; 프로세서; 그리고 다음의 코드를 포함하는 명령어를 상기 프로세서 상에서 실행하기 위한 명령어를 포함하는 기계 판독가능 저장 매체를 포함하며, 상기 명령어는: 핵산 서열 판독을 참조 서열상의 하나 이상의 다형성 유전자좌에 매핑하기 위한 코드; 매핑된 핵산 서열 판독을 사용하여, 하나 이상의 다형성 유전자좌에서 하나 이상의 대립 유전자에 대한 핵산 서열 판독의 대립 유전자 카운트를 결정하기 위한 코드; 및 확률적 혼합물 모델을 사용하여, 핵산 샘플에서 하나 이상의 기여자의 핵산의 하나 이상의 분획을 정량화하기 위한 코드를 포함하며, 여기서 확률적 혼합물 모델을 사용하는 것은 핵산 서열 판독의 대린 유전자 카운트에 확률적 혼합물 모델을 적용하는 것을 포함하고, 상기 확률적 혼합물 모델은 확률 분포를 사용하여, 하나 이상의 다형성 유전자좌에서 핵산 서열 판독의 대립 유전자 카운트를 모델링하며, 상기 확률 분포는 핵산 서열 판독에서의 오류를 나타낸다.
본원에 제공된 임의의 시스템의 일부 실시 양태에서, 시퀀서는 NGS(Next Generation Sequencing)를 수행하도록 구성된다. 일부 실시 양태에서, 시퀀서는 가역성 염료 종결자를 갖는 합성에 의한 시퀀싱을 사용하여 대량 병렬 시퀀싱을 수행하도록 구성된다. 다른 실시예에서, 시퀀서는 라이게이션에 의한 시퀀싱을 수행하도록 구성된다. 또 다른 실시예에서, 시퀀서는 단일 분자 시퀀싱을 수행하도록 구성된다.
설정
이 예는 시뮬레이션 데이터를 사용하여 태아 세포 DNA의 소스를 결정하기 위해 개시된 방법의 구현을 사용한다. 이 예에서는 n 개의 정보 유전자좌 세트를 수집한다. 즉, 어머니는 동형 접합이고 cfDNA는 태아가 하나 이상의 비 모성 대립 유전자를 가지고 있음을 나타낸다.
이 방법은 균일한 분포로 비 모성 대립 유전자 빈도(이종 대립 유전자 빈도)를 시뮬레이션한다. 실제 데이터에 적용할 때 j 유전자좌 각각에 대해 비 모성 대립 유전자 빈도 pj는 해당 대립 유전자의 모집단 빈도이다. 실제 테스트 데이터에 적용할 때 모든 실험에 사용되는 정보 유전자좌 세트는 동적이다. 이들의 대립 유전자 빈도는 프로세스에 제공될 수 있다.
Figure pct00042
모델 설명
s는 부모(부) 관계 시나리오를 표시한다면, 고려중인 i개의 시나리오 각각에 대해 다음을 계산한다
Figure pct00043
(1)
고려된 세트에서 가장 가능성이 높은 부모 관계 시나리오는 사후 확률이 가장 높은 시나리오이다.
우도 함수
우도 함수는 베타 이항 분포로 제공된다.
Figure pct00044
베타 이항 분포는 일치하는 대립 유전자의 수 k를 성공률이 μ 인 이항 분포에서 추출한 랜덤 변수로 모델링하는 복합 분포이며, 이는 그 자체가 하이퍼 파라미터 a와 b가 있는 베타 분포에서 추출된 랜덤 변수이다.
이 함수는 언더 플로를 방지하기 위해 로그 스케일에서 확률을 반환하도록 다음과 같은 방식으로 구현된다.
Figure pct00045
(6) (7)
μi는 i 번째 시나리오에서 일치할 것으로 예상되는 유전자좌의 비율에 해당한다.
w 파라미터는 의사 카운트의 수로 해석되며, μ에 해당하는 값 주변의 사전 분포 농도를 결정한다.
이러한 방식으로 예상 일치 수를 모델링하면 모델이 각 시나리오에 대한 μ 계산 오류뿐만 아니라 측정 오류에도 견고해질 수 있다. μ 계산의 오류는 정보 유전자좌 집합의 구성원에 대해 공개적으로 사용 가능한 대립 유전자 빈도 표의 오류로 인해 발생할 수 있다.
시나리오(1): 같은 태아
태아 세포가 cfDNA와 동일한 태아에서 나온 경우, 모든 정보 마커는 비 모체 이종 대립 유전자를 가져야한다. 그러나 계산상의 이유로 다음식이 사용된다.
Figure pct00046
(8)
시나리오(2): 다른 태아, 같은 아버지
샘플이 동일한 아버지를 공유하는 다른 태아에서 나온다는 가정하에 정의에 따라 아버지는 각 정보 위치에 이종 대립 유전자의 사본이 1 개 이상 있어야한다.
j 번째 유전자좌에서 아버지의 두 번째 대립 유전자도 이종 대립 유전자 인 경우 항상 일치가 발생한다. 두 번째 대립 유전자도 이종 대립 유전자 일 확률은 pj이며, 아버지가 근친 교배의 산물이 아니라고 가정한다.
아버지의 나머지 대립 유전자가 1-pj 확률로 발생하는 이종 대립 유전자가 아닌 경우 무작위 분리로 인해 이종 대립 유전자가 우연히 전달되어 1/2의 계수를 추가하는 경우에만 일치가 발생한다. 모든 정보 유전자좌를 합하면 μ2에 대해 다음과 같은식이 된다.
Figure pct00047
(9)
시나리오(3): 다른 태아 다른 아버지
두 태아의 아버지 사이에 관계가 없다는 가정하에, 태아 세포는 모집단 대립 유전자 빈도에 의해 결정된 빈도로 정보 유전자좌에 이종 대립 유전자 만 있어야한다.
cFC 샘플의 아버지는 0, 1 또는 2 개의 이종 대립 유전자 사본을 가질 수 있다. 일치는 pj 2 확률로 발생해야하는 복사본이 2 개인 경우 또는 확률 2pj(1-pj)로 발생해야하는 복사본이 하나있을 때, 그리고 해당 복사본이 무작위 분리로 인해 우연히 전달될 때 발생하여, 계수 ½을 추가한다. 모든 정보 유전자좌를 합산하면 예상 일치 수에 대해 다음과 같은식이 된다.
Figure pct00048
이것은 유전자좌 세트의 평균 모집단 빈도를 단순화한다.
Figure pct00049
(10)
시나리오 p(s i )보다 우선
이 예에서는 각 시나리오에 대해 균일한 사전(uniform prior)을 가정한다. 실제 테스트 대상에 적용되는 구현에서 사전(priors)은 상대 빈도에 대한 관련 정보의 기능 일 수 있다. 예를 들어, 사전은 이전 임신 횟수, 마지막 임신 이후 시간 등의 함수로 구현될 수 있다.
p(k) 계산
정규화 상수 p(k)는 다음과 같이 지정된다.
Figure pct00050
(11)
각 시나리오에 대한 우도 함수의 출력은 언더 플로를 피하기 위해 로그 스케일링되었다. 우도를 정규화하고 사후를 계산하기 위해 이 함수를 사용하여 로그 척도로 정규화한 다음 기존 척도로 확률을 반환한다.
Figure pct00051
계산 단계 의사 코드
Figure pct00052
16 개의 의사 관측치에 대응하도록 하이퍼파라미터 w를 설정한다.
도 13은 (1) 동일한 태아, (2) 다른 태아 및 동일한 아버지, (3) 다른 태아 및 다른 아버지의 세 가지 시나리오에 대한 공유 유전 마커(μ)의 예상 부분에 대한 베타 분포를 보여준다. 시나리오(1)의 분포는 모드가 1에 가깝다. 시나리오(2)의 분포는 모드가 0.75에 가깝다. 시나리오(3)의 분포는 모드가 0.5에 가깝다.
도 14는 공유/일치 유전 마커의 수에 따른 로그 확률을 보여준다. 각 곡선은 세 가지 시나리오 중 하나를 나타낸다. 로그 확률은 y 축에 표시된다. 공유된 유전 마커의 수는 x 축에 표시된다. 예를 들어, 테스트 데이터에서 250 개의 공유된 유전 마커가 관찰되면 왼쪽의 세로선 1에 표시된 것처럼 시나리오(3)(다른 태아 및 다른 아버지)의 로그 확률이 가장 높다. 테스트 데이터에서 400 개의 공유 유전 마커가 관찰되면 시나리오(2)(다른 태아와 같은 아버지)에 대한 로그 확률이 가장 높다(가운데 세로선으로 표시됨). 테스트 데이터에서 500 개의 공유 유전 마커가 관찰되면 오른쪽의 수직선으로 표시된 것처럼 시나리오(1)(동일한 태아)의 로그 확률이 가장 높다.
사후 계산 의사 코드의 예
우리가 모체 유전자형과 cfDNA 비 모성 헤테로-대립유전자 사이에 n = 512 정보 유전자좌를 확립했다고 가정한다. 그런 다음 정보 유전자좌의 500 개에서 비 모체 이종 대립 유전자를 가진 태아 세포를 관찰한다. 이 세포가 cfDNA와 동일한 태아에서 나올 확률은 얼마인가?
Figure pct00053
Figure pct00054
실험 데이터에서 500 개의 공유 유전 마커가 관찰되면 시나리오(1)에 대한 사후 확률은 0.98, 시나리오(2)는 0.07, 시나리오(3)는 0이다. 따라서 이 방법은 cFC가 cfDNA를 제공하는 동일한 태아로부터의 것임을 결정한다.
전술한 발명이 이해의 명료 함을 위해 일부 상세하게 설명되었지만, 본 발명의 범위 내에서 특정 변경 및 수정이 실시될 수 있음이 명백할 것이다. 본 발명의 프로세스 및 데이터베이스를 구현하는 많은 대안적인 방법이 있음을 주목해야한다. 따라서, 본 실시예는 제한적인 것이 아니라 예시적인 것으로 간주되어야하며, 본 발명은 여기에 주어진 세부 사항에 제한되지 않는다.

Claims (28)

  1. 현재 임신중인 태아를 갖고 있는 임산부로부터 얻은 태아 세포 DNA의 유전적 기원을 결정하는 방법으로서,
    (a) 현재 임신 중인 태아의 유전자형을 수신하는 단계 - 상기 현재 임신 중인 태아의 유전자형은 복수의 유전 마커의 각 유전 마커에 대한 하나 이상의 대립 유전자를 포함하며, 각 유전 마커는 고유 게놈 유전자좌에서의 다형성을 나타냄;
    (b) 임산부의 유전자형을 수신하는 단계 - 상기 임산부의 유전자형은 복수의 유전 마커의 각 유전 마커에 대한 하나 이상의 대립 유전자를 포함함;
    (c) 임산부의 유전자형으로부터 그리고 현재 임신중인 태아의 유전자형으로부터, 정보 유전 마커 세트를 식별하는 단계 - 정보 유전 마커 세트의 각 정보 유전 마커는 임산부 여성에서 동형 접합이고 현재 임신 중인 태아의 이형 접합체임;
    (d) 임산부로부터 얻은 태아 세포 DNA의 경우, 정보 유전 마커 세트의 각 정보 유전 마커에서 하나 이상의 대립 유전자를 결정하는 단계 - 상기 태아 세포 DNA는 현재 임신중인 태아 또는 과거 임신 태아로부터 발원함;
    (e) 임산부로부터 얻은 태아 세포 DNA의 각 정보 유전 마커에서 하나 이상의 대립 유전자를 확률 모델에 입력으로 제공하는 단계;
    (f) 임산부로부터 얻은 태아 세포 DNA가 현재 임신 중인 태아로부터 발원할 확률을 확률 모델의 출력으로 획득하는 단계; 및
    (g) 태아 세포 DNA가 현재 임신 중인 태아로부터 발원하였는지 여부를 확률 모델의 출력으로부터 결정하는 단계를 포함하되,
    적어도 단계 (e) 및 (f)는 프로세서 및 메모리를 포함하는 컴퓨터에 의해 수행되는, 결정 방법.
  2. 제 1 항에 있어서, (f)는 다음의 3개의 시나리오의 확률을 확률 모델의 출력으로 획득하는 단계를 포함하는, 결정 방법:
    임산부로부터 얻은 태아 세포 DNA가
    (1) 현재 임신 중인 태아의 것,
    (2) 과거 임신 태아의 것으로서, 현재 임신 중인 태아와 동일한 아버지의 태아의 것, 및
    (3) 과거 임신 태아의 것으로서, 현재 임신 중 태아와 다른 아버지의 태아의 것.
  3. 제 2 항에 있어서, (g)는 태아 세포 DNA가 다음에 해당하는지 여부를 결정하는 단계를 포함하는, 결정 방법.
    (1) 현재 임신 중인 태아의 것
    (2) 과거 임신 태아의 것으로서 현재 임신 중인 태아와 동일한 아버지의 태아의 것, 또는
    (3) 과거 임신 태아의 것으로서 현재 임신 중인 태아와 상이한 아버지의 태아의 것.
  4. 제 2 항에 있어서, (e)는 다수의 공유 유전 마커를 확률 모델에 입력으로서 제공하는 단계를 포함하고, 공유 유전 마커는 현재 임신 중인 태아 및 임산부로부터 얻은 태아 세포 DNA가 동일한 대립 유전자를 가지는 경우의 정보 유전 마커들의 유전 마커인, 결정 방법.
  5. 제 4 항에 있어서, 확률 모델은 3 개의 시나리오가 주어진 경우 공유 유전 마커의 수의 확률에 기초하여 공유 유전 마커의 수를 고려하여 3 개의 시나리오의 확률을 계산하는, 결정 방법.
  6. 제 5 항에 있어서, 상기 확률 모델은 공유 유전 마커의 수를 고려하여 3개의 시나리오의 확률을 계산하는 방법:
    Figure pct00055

    Figure pct00056
    는 공유 유전 마커의 수 k가 주어졌을 때 시나리오 i 또는 si의 확률;
    Figure pct00057
    는 시나리오 i가 주어졌을 때 공유 유전 마커의 수의 확률;
    Figure pct00058
    는 시나리오 i의 전체 확률; 그리고
    Figure pct00059
    는 공유 유전 마커의 수의 전체 확률.
  7. 제 5 항 내지 제 6 항 중 어느 한 항에 있어서, 각각의 시나리오에 대하여, 확률 모델은 시나리오 i가 주어졌을 때 공유 유전 마커의 수
    Figure pct00060
    를 베타-이항 분포에서 도출된 랜덤 변수로 시뮬레이션하는, 결정 방법.
  8. 제 7 항에 있어서, 확률 모델은 시나리오 i가 주어졌을 때 공유 유전 마커의 수
    Figure pct00061
    를 성공률이
    Figure pct00062
    인 이항 분포에서 도출된 랜덤 변수로 시뮬레이션하고,
    Figure pct00063
    는 하이퍼 파라미터 ai 및 bi의 베타 분포로부터 도출된 랜덤 변수, 즉,
    Figure pct00064
    Figure pct00065
    이며, n은 정보 유전 마커 세트 내 정보 유전 마커의 수인, 결정 방법.
  9. 제 8 항에 있어서, 시나리오 i가 주어진 공유 유전 마커의 수의 확률이 다음 우도 함수로부터 계산되는, 결정 방법:
    Figure pct00066

    n은 정보 유전 마커의 수;
    k는 공유 유전 마커의 수;
    β()는 베타 함수;
    ai 및 bi는 시나리오 i에 대한 베타 분포의 하이퍼 파라미터.
  10. 제 8 항 내지 제 9 항 중 어느 한 항에 있어서,
    Figure pct00067

    Figure pct00068

    w는 의사 카운트 또는 관찰의 수를 나타내는 파라미터인, 결정 방법.
  11. 제 8 항 내지 제 10 항 중 어느 한 항에 있어서,
    Figure pct00069
    는 시나리오 i에서 정보 유전 마커 세트 중 공유 유전 마커의 예상 비율에 대응하도록 설정되는, 결정 방법.
  12. 제 11 항에 있어서, 상기 확률 모델이 시나리오(1)에 대한 공유 유전 마커의 예상 비율 인
    Figure pct00070
    을 다음과 같이 계산하는, 결정 방법:
    Figure pct00071

    n은 정보 유전 마커의 수.
  13. 제 11 항에 있어서, 상기 확률 모델은 시나리오(2)에 대한 공유 유전 마커의 예상 비율 인
    Figure pct00072
    를 다음과 같이 계산하는, 결정 방법:
    Figure pct00073

    pj는 j 번째 마커에서 이종-대립 유전자의 모집단 빈도이고, 이종-대립 유전자는 임산부에게는 없으나 현재 임신 중인 태아에서 발견되는 정보 유전 마커에서의 대립 유전자.
  14. 제 11 항에 있어서, 확률 모델이 시나리오(3)에 대한 공유 유전 마커의 예상 비율인
    Figure pct00074
    를 다음과 같이 계산하는, 결정 방법:
    Figure pct00075

    pj는 j 번째 마커에서 이종 대립 유전자의 모집단 빈도.
  15. 제 2 항에 있어서, 상기 3개의 시나리오의 사전 확률을 확률 모델에 제공하는 단계를 더 포함하고, 상기 확률 모델은 상기 3개의 시나리오의 사전 확률 및 상기 하나 이상의 마커에서의 대립 유전자에 기초하여 3개의 시나리오의 사후 확률을 제공하는, 결정 방법.
  16. 제 1 항 내지 제 15 항 중 어느 한 항에 있어서,
    임산부으로부터 무 세포 DNA("cfDNA")를 획득하는 단계; 및
    (i) 현재 임신중인 태아의 유전자형 및 (ii) 임산부의 유전자형을 생성하기 위해 임산부로부터 cfDNA를 유전자형화(genotyping)하는 단계를 더 포함하는, 결정 방법.
  17. 제 1 항 내지 제 16 항 중 어느 한 항에 있어서,
    임산부의 적어도 하나의 세포를 획득하는 단계;
    임산부의 유전자형을 생성하기 위해 임산부의 적어도 하나의 세포로부터 얻은 세포 DNA를 유전자형화하는 단계;
    임산부로부터 cfDNA를 획득하는 단계; 및
    현재 임신 중인 태아의 유전자형을 생성하도록 임산부로부터 cfDNA를 유전자형화하는 단계를 더 포함하는, 결정 방법.
  18. 제 1 항 내지 제 17 항 중 어느 한 항에 있어서, 태아 세포 DNA가 임산부에서 순환하는 순환 태아 세포("cFC")로부터 유래된 것인, 결정 방법.
  19. 제 18 항에 있어서, cFC의 유전적 기원을 결정하는 단계를 추가로 포함하는, 결정 방법.
  20. 제 1 항 내지 제 19 항 중 어느 한 항에 있어서, 태아 세포 DNA가 현재 임신중인 태아로부터 유래된 것으로 결정되고, 상기 방법은 현재 임신중인 태아가 유전적 이상(genetic abnormality)을 갖는지 여부를 결정하기 위해 태아 세포 DNA를 분석하는 단계를 추가로 포함하는, 결정 방법.
  21. 제 20 항에 있어서, 상기 유전적 이상이 이수성(aneuploidy)인, 결정 방법.
  22. 제 20 항에 있어서, 태아 세포 DNA를 분석하는 단계는, 현재 임신 중인 태아가 유전적 이상을 갖는지 여부를 결정하기 위해 현재 임신 중인 임산부로부터 얻은 태아 cfDNA로부터의 정보와 태아 세포 DNA로부터의 정보를 모두 이용하는 단계를 포함하는, 결정 방법.
  23. 제 1 항 내지 제 22 항 중 어느 한 항에 있어서, 각각의 정보 유전 마커가 이중 대립 유전자인, 결정 방법.
  24. 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 현재 임신 중인 태아를 가진 임산부로부터 얻은 태아 세포 DNA의 유전적 기원을 결정하기 위한 방법을 컴퓨터 시스템으로 하여금 구현하게 하는 프로그램 코드를 저장하는 비일시적 기계 판독가능 매체를 포함하는 컴퓨터 프로그램 제품에 있어서, 상기 프로그램 코드는,
    (a) 임산부로부터 얻은 태아 세포 DNA에 대해, 정보 유전 마커 세트의 각 정보 유전 마커에서 하나 이상의 대립 유전자를 결정하기 위한 코드;
    각각의 정보 유전 마커는 고유 게놈 유전자좌에서의 다형성을 나타내고,
    각각의 정보 유전 마커는 임산부에서 동형 접합이고 현재 임신 태아에서 이형 접합이며,
    태아 세포 DNA는 현재 임신중인 태아 또는 과거 임신 태아에서 유래함
    (b) 임산부로부터 얻은 태아 세포 DNA의 각각의 정보 유전 마커에서 하나 이상의 대립 유전자를 확률 모델에 입력으로 제공하기 위한 코드;
    (c) 3개의 시나리오의 확률을 확률 모델의 출력으로 다음을 얻기 위한 코드:
    임산부로부터 얻은 태아 세포 DNA가
    (1) 현재 임신의 태아의 것,
    (2) 현재 임신 태아와 동일한 아버지를 가진 과거 임신의 태아의 것, 및
    (3) 현재 임신 태아와 상이한 아버지를 가진 과거 임신의 태아의 것임.
    (d) 태아 세포 DNA가 (1) 현재 임신의 태아로부터 유래된 것인지 여부를 확률 모델의 출력으로부터 결정하기 위한 코드를 포함하는, 컴퓨터 프로그램 제품.
  25. 컴퓨터 시스템에 있어서,
    하나 이상의 프로세서와,
    시스템 메모리와,
    상기 하나 이상의 프로세서에 의해 실행될 때, 현재 임신 중인 태아를 가진 임산부로부터 얻은 태아 세포 DNA의 유전적 기원을 결정하기 위한 방법을 컴퓨터 시스템으로 하여금 구현하게 하는 컴퓨터-실행가능 명령어를 저장한 하나 이상의 컴퓨터 판독가능 저장 매체를 포함하며, 상기 방법은,
    (a) 임산부로부터 얻은 태아 세포 DNA에 대해, 정보 유전 마커 세트의 각 정보 유전 마커에서 하나 이상의 대립 유전자를 결정하기 위한 단계;
    각각의 정보 유전 마커는 고유 게놈 유전자좌에서의 다형성을 나타내고,
    각각의 정보 유전 마커는 임산부에서 동형 접합이고 현재 임신 태아에서 이형 접합이며,
    태아 세포 DNA는 현재 임신중인 태아 또는 과거 임신 태아에서 유래함
    (b) 임산부로부터 얻은 태아 세포 DNA의 각각의 정보 유전 마커에서 하나 이상의 대립 유전자를 확률 모델에 입력으로 제공하기 위한 단계;
    (c) 3개의 시나리오의 확률을 확률 모델의 출력으로 다음을 획득하기 위한 단계:
    임산부로부터 얻은 태아 세포 DNA가
    (1) 현재 임신의 태아의 것,
    (2) 현재 임신 태아와 동일한 아버지를 가진 과거 임신의 태아의 것, 및
    (3) 현재 임신 태아와 상이한 아버지를 가진 과거 임신의 태아의 것임.
    (d) 태아 세포 DNA가 (1) 현재 임신의 태아로부터 유래된 것인지 여부를 확률 모델의 출력으로부터 결정하기 위한 단계를 포함하는, 컴퓨터 시스템.
  26. 확률 모델링 및 컴퓨터 시뮬레이션을 사용하여 문자열 쌍을 일치시키는 방법으로서, 임의 쌍의 두 문자열이 동일한 수의 문자를 가지며, 상기 방법은:
    (a) 제 1 문자열 쌍을 수신하는 단계;
    (b) 제 5 문자열 쌍을 수신하는 단계;
    (c) 제 1 문자열 쌍 및 제 5 문자열 쌍 모두에서 정보 문자 위치 세트를 식별하는 단계 - 정보 문자 위치 세트 중 각각의 정보 문자 위치는 (i) 각 문자열에서 고유 위치를 나타내고, (ii) 임의의 문자열 쌍에서 두 개의 상이한 문자 중 하나 또는 둘 모두를 가지며, (iii)제 5 문자열 쌍의 상기 2개의 상이한 문자 중 일 문자만을 가지고, (iv) 상기 제 1 문자열 쌍의 상기 2개의 상이한 문자 중 두 문자 모두를 가짐;
    (d) 제 4 문자열 쌍에 대해 정보 문자 위치 세트에서 문자를 결정하는 단계;
    (e) 확률 모델에 대한 입력으로서, 제 4 문자열 쌍의 정보 문자 위치 세트에 있는 문자를 제공하는 단계 - 상기 확률 모델은 문자열 쌍을 포함하는 훈련 데이터 세트를 사용하여 훈련되었음;
    (f) 확률 모델의 출력으로서, 제 4 문자열 쌍이 제 1 문자열 쌍과 일치할 확률을 획득하는 단계 - 각 문자열 쌍의 두 개의 상이한 문자열은 길이가 동일하고, 각 정보 문자 위치는 각 문자열 상에 대응하는 위치를 가지며, 제 1 문자열 쌍은 제 5 문자열 쌍을 제 6 쌍 문자열 쌍과 재결합함으로써 획득 가능함; 및
    (g) 확률 모델의 출력으로부터, 제 4 문자열 쌍이 제 1 문자열 쌍과 일치하는지 여부를 결정하는 단계를 포함하며,
    적어도 (e) 및 (f)는 프로세서 및 메모리를 포함하는 컴퓨터 시스템에 의해 수행되는, 일치 방법.
  27. 제 26 항에 있어서, (f)는 3개의 시나리오의 확률을 획득하는 단계를 포함하고, 3개의 시나리오는 제 4 문자열 쌍이 제 1, 2, 3 문자열 쌍과 일치하는 경우이며, 상기 제 2 문자열 쌍은 제 5 문자열 쌍을 제 6 문자열 쌍과 재결합하여 획득가능하고, 제 3 문자열 쌍은 제 5 문자열 쌍을 제 7 문자열 쌍과 재결합함으로써 획득가능한, 일치 방법.
  28. 제 27 항에 있어서, (g)는 상기 확률 모델의 출력으로부터, 상기 제 4 문자열 쌍이 상기 제 1, 제 2 또는 제 3 문자열 쌍과 일치하는지 여부를 결정하는 단계를 포함하는, 일치 방법.
KR1020217010027A 2018-09-07 2019-09-06 임산부로부터 분리된 순환 페탈 세포가 현재 또는 과거의 임신의 것인지 확인하는 방법 KR20210071983A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862728670P 2018-09-07 2018-09-07
US62/728,670 2018-09-07
PCT/US2019/050078 WO2020051542A2 (en) 2018-09-07 2019-09-06 A method to determine if a circulating fetal cell isolated from a pregnant mother is from either the current or a historical pregnancy

Publications (1)

Publication Number Publication Date
KR20210071983A true KR20210071983A (ko) 2021-06-16

Family

ID=68051920

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217010027A KR20210071983A (ko) 2018-09-07 2019-09-06 임산부로부터 분리된 순환 페탈 세포가 현재 또는 과거의 임신의 것인지 확인하는 방법

Country Status (7)

Country Link
US (1) US20210280270A1 (ko)
EP (1) EP3847653A2 (ko)
KR (1) KR20210071983A (ko)
CN (1) CN112955960A (ko)
AU (1) AU2019336239A1 (ko)
CA (1) CA3111813A1 (ko)
WO (1) WO2020051542A2 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024049915A1 (en) * 2022-08-30 2024-03-07 The General Hospital Corporation High-resolution and non-invasive fetal sequencing

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7601499B2 (en) 2005-06-06 2009-10-13 454 Life Sciences Corporation Paired end sequencing
US8532930B2 (en) * 2005-11-26 2013-09-10 Natera, Inc. Method for determining the number of copies of a chromosome in the genome of a target individual using genetic data from genetically related individuals
US20070243549A1 (en) * 2006-04-12 2007-10-18 Biocept, Inc. Enrichment of circulating fetal dna
US8137912B2 (en) 2006-06-14 2012-03-20 The General Hospital Corporation Methods for the diagnosis of fetal abnormalities
US8071395B2 (en) 2007-12-12 2011-12-06 The Board Of Trustees Of The Leland Stanford Junior University Methods and apparatus for magnetic separation of cells
US11634747B2 (en) 2009-01-21 2023-04-25 Streck Llc Preservation of fetal nucleic acids in maternal plasma
NO2398912T3 (ko) 2009-02-18 2018-02-10
EP2572003A4 (en) * 2010-05-18 2016-01-13 Natera Inc METHOD FOR NONINVASIVE PRANATAL PLOIDIE ASSIGNMENT
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
US20130122492A1 (en) 2011-11-14 2013-05-16 Kellbenx Inc. Detection, isolation and analysis of rare cells in biological fluids
WO2013130848A1 (en) * 2012-02-29 2013-09-06 Natera, Inc. Informatics enhanced analysis of fetal samples subject to maternal contamination
WO2016011414A1 (en) * 2014-07-18 2016-01-21 Illumina, Inc. Non-invasive prenatal diagnosis of fetal genetic condition using cellular dna and cell free dna

Also Published As

Publication number Publication date
EP3847653A2 (en) 2021-07-14
WO2020051542A3 (en) 2020-04-16
US20210280270A1 (en) 2021-09-09
AU2019336239A1 (en) 2021-03-25
CA3111813A1 (en) 2020-03-12
CN112955960A (zh) 2021-06-11
WO2020051542A2 (en) 2020-03-12

Similar Documents

Publication Publication Date Title
US11629378B2 (en) Non-invasive prenatal diagnosis of fetal genetic condition using cellular DNA and cell free DNA
JP7021148B2 (ja) 性染色体におけるコピー数変異を判定するための方法
US20240084376A1 (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
KR20170016393A (ko) 태아 아-염색체 홀배수체 및 복사수 변이 탐지
JP7009518B2 (ja) 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム
KR20200093438A (ko) 체성 돌연변이 클론형성능을 결정하기 위한 방법 및 시스템
JP7009516B2 (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
JP2022534634A (ja) 検出限界ベースの品質管理メトリック
KR20210071983A (ko) 임산부로부터 분리된 순환 페탈 세포가 현재 또는 과거의 임신의 것인지 확인하는 방법