KR20220064952A - 게놈 배수성을 결정하기 위한 시스템 및 방법(systems and methods for determining genome ploidy) - Google Patents

게놈 배수성을 결정하기 위한 시스템 및 방법(systems and methods for determining genome ploidy) Download PDF

Info

Publication number
KR20220064952A
KR20220064952A KR1020227002131A KR20227002131A KR20220064952A KR 20220064952 A KR20220064952 A KR 20220064952A KR 1020227002131 A KR1020227002131 A KR 1020227002131A KR 20227002131 A KR20227002131 A KR 20227002131A KR 20220064952 A KR20220064952 A KR 20220064952A
Authority
KR
South Korea
Prior art keywords
embryo
sequencing
sequence data
ploidy
polyploid
Prior art date
Application number
KR1020227002131A
Other languages
English (en)
Inventor
존 버크
브라이언 리스
조슈아 데이비드 블라잭
마이클 존 라지
Original Assignee
쿠퍼서지컬, 인코퍼레이션.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 쿠퍼서지컬, 인코퍼레이션. filed Critical 쿠퍼서지컬, 인코퍼레이션.
Publication of KR20220064952A publication Critical patent/KR20220064952A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

배아에서 배수성을 검출하는 방법이 제공되고, 상기 방법은 배아 서열 데이터를 수신하는 단계; 수신된 서열 데이터를 참조 게놈에 정렬하는 단계; 정렬된 배아 서열 데이터에서 관심 영역을 식별하는 단계; 수신된 서열 데이터를 정렬된 참조 게놈과 비교함으로써 서열 데이터에서 단일 뉴클레오티드 다형성(SNP)을 식별하는 단계; 관심 영역에서 관찰된 SNP의 수를 계수함을 포함하는 배수성 스코어를 결정하는 단계; 배수성 스코어를 미리 결정된 역치와 비교하는 단계; 및 배수성 스코어가 미리 결정된 역치 미만인 경우 배아를 다배수체로서 식별하는 단계를 포함한다.

Description

게놈 배수성을 결정하기 위한 시스템 및 방법(SYSTEMS AND METHODS FOR DETERMINING GENOME PLOIDY)
본원에 인용된 임의의 특허, 특허 출원 및 간행물의 개시내용은 그 전체가 본원에 참조로 포함된다.
본원에 제공된 구현예는 일반적으로 게놈 핵산(게놈 DNA)의 분석 및 유전적 이상의 검출을 위한 시스템 및 방법에 관한 것이다. 본원에 제공된 구현예에는 세포, 예를 들어, 배아 또는 유기체에서 배수성(예를 들어, 반수성, 이배성 및 다배수성)과 같은 염색체 이상을 검출하는 것과 관련된 시스템 및 방법이 포함된다.
본 출원은 2019년 6월 21일자로 출원된 미국 가특허 출원 번호62/865,122에 대한 우선권의 이익을 주장하며, 상기 미국 가특허 출원은 그 전체가 본원에 참조로 포함된다.
매우 낮은 커버리지 수준(예를 들어, 약 0.1X)에서 전체 게놈 샷건(WGS: whole genome shotgun) 차세대 시퀀싱(NGS)의 저렴한 비용은 상대적으로 저렴한 이수성의 착상 전 유전자 검사(PGT-A: preimplantation genetic testing of aneuploidy) 및 불균형한 다배수체(polyploid) 상태(예를 들어, 69:XXY, 69:XYY) 를 가능하게 한다. 그러나, 지금까지, 매우 낮은 커버리지 WGS(WGS NGS 데이터)를 사용하여 23,X 반수체 또는 69:XXX 또는 92:XXXX와 같은 균형 잡힌 다배수체와 같은 비-이배체 상태를 식별/검출할 방법이 없었다. 염색체 X 대 Y 존재비(abundance)의 비율이 다배수성 수준에 따라 변하지 않기 때문에, 균형 잡힌 배수체의 식별은 기존의 매우 낮은 커버리지 카피 수 분석 기술(Shen et al 2016; Liu et al 2015; Park et al 2019)을 사용하여 유지될 수 없다. SNP 마이크로어레이와 높은 커버리지 NGS 시퀀싱(>50X; Weiss et al 2018; > 15X Margarido and Heckerman, 2015)은, 예를 들어, 0.5의 예상되는 이배체 이형접합성 대립유전자 비율로부터 상당한 편차를 검출하여 69:XXX를 식별할 수 있다. 그러나, 유사 대립유전자 비율은 거짓 동형접합성의 교란 효과, 시퀀싱 오류 및 낮은 유전자좌당 커버리지로 인한 불량한 검정력(statistical power)으로 인해 낮은 비용/낮은 커버리지 시퀀싱에 사용할 수 없다.
결과적으로, 표적 농축 또는 부모 서열 데이터가 필요하지 않은 매우 낮은 커버리지 WGS NGS 데이터를 사용하여 균형 잡힌 다배수체를 검출하는 새로운 방법이 필요하다.
게놈 핵산(게놈 DNA)의 분석 및 예를 들어, 염색체 이상을 포함하는 게놈 특징의 검출 및/또는 식별을 위한 방법 및 시스템이 본원에 제공된다. 일부 구현예에서, 방법 및 시스템은 세포(들)의 배수성을 특성화 및/또는 결정하는 데 사용된다. 일부 구현예에서, 방법 및 시스템은, 예를 들어, 배아(예를 들어, 인간), 자손 및/또는 유기체(들)와 같은 세포(들)에서 배수성(예를 들어, 반수성, 이배성 및 다배수성) 및/또는 정배수성을 검출, 식별, 결정, 추론 및/또는 구별하는 데 사용된다. 일부 구현예에서, 방법 및 시스템은 세포(들), 예를 들어, 배아, 예컨대, 착상 전 IVF 배아, 자손 또는 유기체에서 균형 잡힌 다배수성을 검출, 결정 및/또는 식별하는 데 사용된다.
본원에 제공된 방법 및 시스템은 세포 또는 유기체의 게놈, 게놈 특징 및/또는 게놈 핵산(게놈 DNA) 서열을 분석, 평가, 특성화 및/또는 결정하는 방법을 포함한다. 일부 구현예에서, 본원에 제공된 방법 및 시스템에 사용된 게놈 서열 데이터는, 예를 들어, 핵산 시퀀싱 방법, 예를 들어, 차세대 시퀀싱(NGS) 방법, 예컨대 낮은 커버리지 및/또는 낮은 깊이(예를 들어, 낮은 분리능) 시퀀싱 방법에 의해 얻어진다. 본원에 제공된 방법 및 시스템에서 낮은 커버리지 및/또는 낮은 깊이 시퀀싱으로부터 얻은 낮은 분리능 DNA 시퀀싱 데이터를 활용하는 능력은, 예를 들어, 증가된 효율성(예를 들어, 많은 샘플의 다중 시퀀싱 허용) 및 감소된 시간 및 비용을 포함하여 상당한 이점을 제공한다. 일부 구현예에서, 본원에 제공된 방법 및 시스템은 세포(들), 예를 들어, 배아, 자손 또는 유기체의 게놈에서 단일 뉴클레오티드 변이(SNV)를 검출, 식별 및/또는 분석하는 단계를 포함한다. 그러한 구현예 중 일부에서, SNV 데이터는 방법에서 낮은 커버리지 및/또는 낮은 깊이(예를 들어, 낮은 분리능) 시퀀싱으로부터 얻은 낮은 분리능 서열 정보를 포함하거나 이로 이루어진다. 일부 구현예에서, 시스템 및 방법은 예를 들어, 배아, 자손 및/또는 유기체와 같은 세포(들)에서 배수성(예를 들어, 반수성, 이배성 및 다배수성)을 검출, 식별, 결정, 추론 및/또는 구별하기 위해 낮은 커버리지 및/또는 낮은 깊이(예를 들어, 낮은 분리능) 시퀀싱 방법으로부터 생성된 SNV 데이터와 같은 SNV 데이터를 사용하는 데 최적화되어 있다. 일부 구현예에서, 방법 및 시스템은 세포(들), 예를 들어, 배아, 예컨대 착상 전 IVF 배아(예를 들어, 인간), 자손 또는 유기체에서 균형 잡힌 다배수성을 검출, 추론, 결정, 구별 및/또는 식별하는데 있어서 낮은 커버리지 및/또는 낮은 깊이(예를 들어, 낮은 분리능) 시퀀싱 방법으로부터 생성된 SNV 데이터와 같은 SNV 데이터를 사용한다.
다양한 구현예에 따르면, 배아에서 배수성을 검출하기 위한 방법이 제공된다. 방법은 배아 서열 데이터를 수신하는 단계, 수신된 서열 데이터를 참조 게놈에 정렬하는 단계, 정렬된 배아 서열 데이터에서 관심 영역을 식별하는 단계, 수신된 서열 데이터를 정렬된 참조 게놈과 비교함으로써 서열 데이터에서 단일 뉴클레오티드 다형성(SNP: single nucleotide polymorphism)을 식별하는 단계, 관심 영역에서 관찰된 SNP의 수를 계수함을 포함하는 배수성 스코어를 결정하는 단계, 배수성 스코어를 미리 결정된 역치와 비교하는 단계, 및 배수성 스코어가 미리 결정된 역치 미만인 경우 배아를 다배수체로서 식별하는 단계를 포함할 수 있다.
다양한 구현예에 따르면, 배아에서 배수성을 검출하기 위한 컴퓨터 명령을 저장하는 비일시적 컴퓨터-판독 가능한 매체가 제공된다. 방법은 배아 서열 데이터를 수신하는 단계, 수신된 서열 데이터를 참조 게놈에 정렬하는 단계, 정렬된 배아 서열 데이터에서 관심 영역을 식별하는 단계, 수신된 서열 데이터를 정렬된 참조 게놈과 비교함으로써 서열 데이터에서 단일 뉴클레오티드 다형성(SNP)을 식별하는 단계, 관심 영역에서 관찰된 SNP의 수를 계수함을 포함하는 배수성 스코어를 결정하는 단계, 배수성 스코어를 미리 결정된 역치와 비교하는 단계, 및 배수성 스코어가 미리 결정된 역치 미만인 경우 배아를 다배수체로서 식별하는 단계를 포함할 수 있다.
다양한 구현예에 따르면, 배아에서 배수성을 검출하기 위한 시스템이 제공된다. 방법은 배아 서열 데이터를 수신하기 위한 데이터 저장소, 데이터 저장소에 통신 가능하게 연결된 컴퓨팅 장치, 및 컴퓨팅 장치에 통신 가능하게 연결되고 배아의 다배수체 분류를 포함하는 보고서를 디스플레이하도록 구성된 디스플레이를 포함할 수 있다. 컴퓨팅 장치는 수신된 서열 데이터를 참조 게놈에 정렬하고 정렬된 배아 서열 데이터에서 관심 영역을 식별하도록 구성된 ROI 엔진, 수신된 서열 데이터를 정렬된 참조 게놈과 비교함으로써 서열 데이터에서 단일 뉴클레오티드 다형성(SNP)을 식별하도록 구성된 SNP 식별 엔진, 및 관심 영역에서 관찰된 SNP의 수를 계수하는 것을 포함하여 다배수체 스코어를 결정하고 다배수체 스코어를 미리 결정된 역치와 비교하고 다배수체 스코어가 미리 결정된 역치 미만인 경우 배아를 다배수체로서 식별하도록 구성된 스코어링 엔진을 포함할 수 있다.
도 1은 다양한 구현예에 따른 정배수체(이배체) 및 이수체 (삼염색체) 세포에 대한 게놈 핵산(게놈 DNA)의 시퀀싱으로부터의 서열 데이터에서 ALT(변이체) 대립유전자(동형접합체에서 0% 또는 100%)를 관찰할 확률과 시퀀싱 깊이 사이의 관계를 도시하고, 이때 ALT 빈도가 더 높은 유전자형은 ALT 대립유전자를 관찰할 더 높은 확률을 나타낸다.
도 2는 다양한 구현예에 따른 정배수체 게놈 DNA 샘플의 시퀀싱으로부터 서열 데이터에서 ALT 대립유전자를 관찰할 확률과 삼염색체 게놈 DNA 샘플의 시퀀싱으로부터 서열 데이터에서 ALT 대립유전자를 관찰할 확률의 차이를 예시한다. 각 패널은 다양한 구현예에 따른 상이한 빈도(0.1, 0.2, 0.3, 0.4)에서 변이체를 나타낸다. 개별 플롯은 정배수체 샘플(짙은 검은색 라인) 및 삼염색체 샘플(밝은 음영 선)에 대해 시퀀싱 깊이(>=1로 제한됨)가 주어졌을 때 ALT 대립유전자를 관찰할 확률을 나타낸다.
도 3은 다양한 구현예에 따른 다배수성(예를 들어, 균형 잡힌 다배수성) 및/또는 정배수성(예를 들어, 이배성)과 같은 배수성을 검출, 추론, 식별, 결정 및/또는 구별하기 위한 예시적인 방법의 워크플로우(300)의 도식적 표현이다.
도 4는 트레이닝 세트로서 사용된 알려진 배수성의 배아에 대한 SNV 대립유전자 서열 데이터의 분석 결과를 나타낸 것이다. 결과는 시퀀싱 결과에서 정렬된 리드(read) 쌍의 수의 함수로서 스코어-배수체 효과의 그래프로서 나타낸다. 그래프는 다양한 구현예에 따른 시퀀싱 커버리지에 의한 배수성 부류(이배체 = 원; 다배수체 = 삼각형) 사이의 트레이닝 세트 분리를 예시한다.
도 5는 다양한 구현예에 따른 시퀀싱 커버리지 및 다른 공변량의 효과를 제거한 후 (시퀀싱 커버리지에 의한 배수성 부류(이배체 및 다배수체) 사이의 트레이닝 세트 분리를 예시하는) 도 4에 제시된 결과를 나타낸 것이다.
도 6은 다양한 구현예에 따른 도 4 및 도 5에 나타낸 트레이닝 세트 데이터(알려진 배수성의 배아에 대한 SNV 대립유전자 서열 데이터)의 분석 결과에 대해 평가 및 표시된 수신기 작동 특성(ROC: receiver operating characteristic) 곡선이다.
도 7은 트레이닝 세트로서 사용된 알려진 배수성의 배아에 대한 SNV 대립유전자 서열 데이터의 분석 결과를 나타낸 것이다. 결과는 시퀀싱 결과에서 정렬된 리드 쌍의 수의 함수로서 스코어-다배수체 효과의 그래프로서 나타낸다. 그래프는 다양한 구현예에 따른 시퀀싱 커버리지에 의한 배수성 부류(이배체 = 원; 배수체 = 삼각형) 사이의 트레이닝 세트 분리를 예시한다.
도 8은 다양한 구현예에 따른 시퀀싱 커버리지 및 다른 공변량의 효과를 제거한 후 (시퀀싱 커버리지에 의한 배수성 부류(이배체 및 다배수체) 사이의 트레이닝 세트 분리를 예시하는) 도 7에 제시된 결과를 나타낸 것이다.
도 9는 다양한 구현예에 따른 교차 검증의 2000회 반복에 대한 민감도를 예시하는 히스토그램이다.
도 10은 다양한 구현예에 따른 배아에서 배수성을 검출하기 위한 시스템의 개략도이다.
도 11은 다양한 구현예에 따른 배아에서 배수성을 검출하는 방법을 나타내는 예시적인 흐름도이다.
도 12는 다양한 구현예에 따른 본원에 제공된 방법을 수행하는데 사용하기 위한 컴퓨터 시스템을 예시하는 블록도이다.
도면은 반드시 축척에 맞게 그려지는 것도 아니고 도면의 대상들이 서로 간에 축척에 맞게 그려지는 것도 아니라는 것을 이해해야 한다. 도면은 본원에 개시된 장치, 시스템, 및 방법의 다양한 구현예에 명확성과 이해를 제공하도록 의도된 묘사이다. 가능한 경우, 동일한 참조 번호가 도면 전체에 걸쳐 동일하거나 유사한 부분을 지칭하기 위해 사용될 것이다. 더욱이, 도면들이 어떠한 방식으로든 본 교시의 범위를 제한하려는 의도가 아니라는 것을 이해해야 한다.
또한, 용어 "위에(on)", "~에 부착된", "~에 연결된", "~에 결합된" 또는 유사한 단어들이 본원에 사용되는 바와 같이, 하나의 요소(예를 들어, 물질, 층, 기판 등)는 한 요소가 다른 요소 위에 직접 있는지, 이에 부착되어 있는지, 이에 연결되어 있는지, 또는 이에 결합되어 있는지 여부에, 또는 한 요소와 다른 요소 사이에 하나 이상의 중간 요소가 있는지 여부에 관계없이 또 다른 요소 "위에", "~에 부착", "~에 연결", 또는 "~에 결합"될 수 있다. 또한, 요소(예를 들어, 요소 a, b, c)의 목록을 참조하는 경우, 그러한 참조는 나열된 요소 중 임의의 하나 자체, 나열된 모든 요소 미만의 임의의 조합 및/또는 나열된 모든 요소의 조합을 포함하도록 의도된다. 명세서의 섹션 구분은 검토만을 쉽게 하기 위한 것이며 논의된 요소의 임의의 조합을 제한하지 않는다.
다양한 구현예에 대한 하기 설명은 예시적이고 설명적일 뿐이며 어떠한 방식으로든 제한하거나 제한적이라고 해석되어서는 안 된다. 본 교시의 다른 구현예, 특징, 목적 및 이점은 설명 및 첨부 도면으로부터 명백할 것이다.
달리 정의되지 않는 한, 본원에 사용된 모든 기술 및 과학 용어는 본 발명이 속하는 당해 기술분야의 숙련가에 의해 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로, 본원에 기재된 세포 및 조직 배양, 분자 생물학, 및 단백질 및 올리고- 또는 폴리뉴클레오티드 화학 및 혼성화와 관련하여 사용되는 명명법 및 이의 기술은 당업계에 널리 알려지고 통상적으로 사용되는 것들이다. 표준 기술은, 예를 들어, 핵산 정제 및 제조, 화학 분석, 재조합 핵산 및 올리고뉴클레오티드 합성에 사용된다. 효소 반응 및 정제 기술은 제조업체의 설명에 따라 또는 당업계에서 통상적으로 달성되는 바와 같이 또는 본원에 기재된 바와 같이 수행된다. 본원에 기재된 기술 및 절차는 일반적으로 당업계에 잘 알려진 통상적인 방법에 따라 그리고 본 명세서 전체에 걸쳐 인용되고 논의되는 다양한 일반적이고 보다 구체적인 참조문헌에 기재된 바와 같이 수행된다. 예를 들어, 문헌(Sambrook et al., Molecular Cloning: A Laboratory Manual (Third ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 2000))을 참조한다. 본원에 기재된 실험실 절차 및 기술과 관련하여 사용된 명명법은 당업계에 잘 알려져 있고 통상적으로 사용되는 것이다.
"폴리뉴클레오티드", "핵산", 또는 "올리고뉴클레오티드"는 뉴클레오사이드간 연결에 의해 연결된 뉴클레오사이드(데옥시리보뉴클레오사이드, 리보뉴클레오사이드 또는 이들의 유사체 포함)의 선형 중합체를 지칭한다. 전형적으로, 폴리뉴클레오티드는 적어도 3개의 뉴클레오사이드를 포함한다. 일반적으로, 올리고뉴클레오티드는 크기가 몇 개의 단량체 단위, 예를 들어, 3-4개로부터 수백 개의 단위체 단위에 이른다. 달리 명시되지 않는 한, 올리고뉴클레오티드와 같은 폴리뉴클레오티드가 "ATGCCTG"와 같은 일련의 문자로 표시될 때마다 뉴클레오티드는 왼쪽에서 오른쪽으로 5'->3' 순서로 있으며 "A"는 데옥시아데노신을 나타내고, "C"는 데옥시시티딘을 나타내고, "G"는 데옥시구아노신을 나타내고, "T"는 티미딘을 나타내는 것으로 이해될 것이다. 문자 A, C, G, 및 T는 당해 기술분야의 표준인 바와 같이 염기 자체, 뉴클레오사이드 또는 염기를 포함하는 뉴클레오티드를 지칭하는 데 사용될 수 있다.
DNA(데옥시리보핵산)는 4개 유형의 뉴클레오티드인 A(아데닌), T(티민), C(사이토신), 및 G(구아닌)를 포함하는 뉴클레오티드의 사슬이고, RNA(리보핵산)는 4개 유형의 뉴클레오티드인 A, U(우라실), G, 및 C로 구성된다. 특정 쌍의 뉴클레오티드는 상보적 방식으로 서로 특이적으로 결합한다(상보적 염기쌍으로 불림). 즉, 아데닌(A)은 티민(T)과 쌍을 이루고 (그러나, RNA의 경우, 아데닌(A)은 우라실(U)과 쌍을 이룬다) 시토신(C)은 구아닌(G)과 쌍을 이룬다. 제1 핵산 가닥이 제1 가닥에 상보적인 뉴클레오티드로 구성된 제2 핵산 가닥에 결합하는 경우, 2개 가닥이 결합하여 이중 가닥을 형성한다. 본원에 사용된 바와 같이, "핵산 시퀀싱 데이터", "핵산 시퀀싱 정보", "핵산 서열", "게놈 서열", "유전 서열", 또는 "단편 서열" 또는 "핵산 시퀀싱 리드"는 DNA 또는 RNA의 분자(예를 들어, 전체 게놈, 전체 전사체, 엑솜, 올리고뉴클레오티드, 폴리뉴클레오티드, 단편 등)에서 뉴클레오티드 염기(예를 들어, 아데닌, 구아닌, 사이토신, 및 티민/우라실)의 순서를 나타내는 임의의 정보 또는 데이터를 나타낸다. 모세관 전기영동, 마이크로어레이, 결찰-기반 시스템, 폴리머라제-기반 시스템, 혼성화-기반 시스템, 직접 또는 간접 뉴클레오티드 식별 시스템, 파이로시퀀싱, 이온- 또는 pH-기반 검출 시스템, 전자 서명-기반 시스템 등을 포함하지만 이에 제한되지 않는 모든 이용 가능한 다양한 기술, 플랫폼 또는 기술을 사용하여 얻은 서열 정보를 고려한다는 것을 이해해야 한다.
본원에 사용된 바와 같이, 용어 "세포"는 용어 "생물학적 세포"와 상호교환적으로 사용된다. 생물학적 세포의 비제한적인 예는 진핵 세포, 식물 세포, 동물 세포, 예컨대 포유동물 세포, 파충류 세포, 조류 세포, 어류 세포 등, 원핵 세포, 세균 세포, 진균 세포, 원생동물 세포 등, 조직, 예컨대 근육, 연골, 지방, 피부, 간, 폐, 신경 조직 등으로부터 분리된 세포, 면역 세포, 예컨대 T 세포, B 세포, 자연 살해 세포, 대식세포 등, 배아(예를 들어, 접합체), 난모세포, 난자, 정자 세포, 하이브리도마, 배양된 세포, 세포주로부터의 세포, 암 세포, 감염된 세포, 형질감염된 및/또는 형질전환된 세포, 리포터 세포 등을 포함한다. 포유동물 세포는, 예를 들어, 인간, 마우스, 래트, 말, 염소, 양, 소, 영장류 등으로부터 유래될 수 있다.
게놈은 세포 또는 동물, 예컨대 포유동물, 예를 들어, 인간을 포함하는 유기체의 유전 물질이며 핵산, 즉 게놈 DNA를 포함한다. 인간에서, 전체 DNA는, 예를 들어, 유전자, 비암호화 DNA 및 미토콘드리아 DNA를 포함한다. 인간 게놈은 전형적으로 23쌍의 선형 염색체: 22쌍의 상염색체(autosomal chromosome)(상염색체(autosome)) + 성을 결정하는 X 및 Y 염색체를 포함한다. 23쌍의 염색체는 각각의 부모로부터의 하나의 카피를 포함한다. 염색체를 구성하는 DNA는 염색체 DNA로 지칭되며 인간 세포의 핵(핵 DNA)에 존재한다. 미토콘드리아 DNA는 원형 염색체로서 미토콘드리아에 위치하며, 여성 부모에게서만 유전되며, 종종 핵에 위치한 DNA의 핵 게놈과 비교하여 미토콘드리아 게놈으로 지칭된다.
본원에 사용된 바와 같이, 어구 "게놈 특징"은 정의되거나 특정된 게놈 요소 또는 영역을 지칭한다. 일부 경우에, 게놈 요소 또는 영역은, 예를 들어, 돌연변이, 재조합/교차 또는 유전적 부동으로 인해 특정 종 또는 특정 종 내의 하위-집단에 대해 참조된 변경을 겪은 (DNA 또는 RNA에서) 하나 이상의 뉴클레오티드, 게놈 영역, 유전자 또는 게놈 영역 또는 유전자의 그룹화를 나타내는 일부 주석이 달린 구조 및/또는 기능(예를 들어, 염색체, 유전자, 단백질 코딩 서열, mRNA, tRNA, rRNA, 반복 서열, 역 반복체, miRNA, siRNA 등)을 갖거나 유전/게놈 변이체(예를 들어, 단일 뉴클레오티드 다형성/변이체, 삽입/결실 서열, 카피 수 변이, 역위 등)일 수 있다.
배수성은 세포 또는 유기체의 게놈에 있는 상동 염색체 세트(n으로 지정됨)의 수를 지칭한다. 예를 들어, 한 세트의 염색체를 갖는 세포 또는 유기체를 일배체(monoploid)라 지칭한다. 두 세트의 상동 염색체(2n)를 갖는 세포 또는 유기체를 이배체라 지칭한다. 다배수성은 세포(들), 예를 들어, 배아, 자손 또는 유기체가 2개 초과의 완전한 반수체 염색체 세트를 보유하는 상태이다. 반수체는 유기체의 체세포 염색체의 일반적인 완전한 세트의 절반을 갖는 세포를 지칭한다. 예를 들어, 인간의 난자 및 정자 세포와 같은 생식체(gamete) 또는 생식(reproductive) (성) 세포는 반수체이다. 수정하는 동안 반수체 생식체의 융합은 여성 생식체로부터의 한 세트의 상동 염색체와 남성 생식체로부터의 한 세트의 상동 염색체를 포함하는 이배체 접합체를 생성한다. 정상 수의 상염색체(22)와 단일 성염색체 쌍(XX 또는 XY)을 갖는 인간 배아는 정배수체 배아로 지칭된다. 따라서, 인간의 경우, 정배수체 조건은 이배체이다. 본원의 다양한 구현예에서, 어구 "모든 염색체"는 모든 상염색체와 성염색체를 포함할 수 있다. 본원의 다양한 구현예에서, 어구 "모든 염색체"는 성염색체를 포함하지 않는다.
용어 "대립유전자"는 유전자의 대안적 형태를 지칭한다. 인간 또는 다른 이배체 유기체에는 각 유전적 유전자좌에 2개의 대립유전자가 있다. 대립유전자는 각 부모로부터 유전된다: 하나의 대립유전자는 모체(mother)로부터 유전되고 하나의 대립유전자는 부체(father)로부터 유전된다. 한 쌍의 대립유전자는 유전자의 유전자형을 나타낸다. 특정 유전자좌의 2개의 대립유전자가 동일하면 유전자형은 동형접합으로 칭한다. 특정 유전자좌에서 2개의 대립유전자에 차이가 있는 경우 유전자형은 이형접합으로 칭한다.
용어 "반수체형(haplotype)"은 염색체의 근접성으로 인해 함께 분리되는 경향이 있는 염색체에서 변이 또는 다형성의 세트 또는 조합을 지칭한다. 반수체형은 단일 유전자, 다중 유전자 또는 유전자 사이의 서열에서 변이의 조합과 관련하여 설명될 수 있다. 반수체형의 변이가 가깝기 때문에, 변이가 발생하는 위치의 재조합 또는 교차가 거의 또는 전혀 없는 경향이 있고 세대를 거쳐 함께 유전되는 경향이 있다.
본원에 사용된 바와 같이, 어구 "유전적 이상"은 정상, 야생형 또는 참조 게놈에 대한 게놈에서의 변화를 지칭한다. 일반적으로, 유전적 이상은 염색체 이상과 유전자 결함을 포함한다. 전형적으로, 유전자 결함은 단일 염기 돌연변이, 치환, 삽입 및 결실 및 카피 수 변이를 포함하지만 이에 제한되지 않은 변경을 포함한다. 염색체 이상은 염색체 수 또는 구조의 변경, 예를 들어, 복제 및 결실, 예컨대 염색체 영역의 반복 또는 손실, 역위 및 전좌를 포함한다. 통상의 염색체 이상은 염색체 추가 또는 누락으로 인해 비정상적인 염색체 수인 이수성으로 지칭한다. 예를 들어, 인간의 일염색체는 카피 손실(정상적인 2개 카피 대신 1개 카피만)이 있는 염색체를 특징으로 하는 이상이다. 인간의 삼염색체는 염색체 카피 증가(정상적인 2개 카피 대신 3개 카피)를 특징으로 하는 이상이다. 염색체 수가 비정상적인 배아는 이수체 배아로 지칭한다. 대부분의 이수체는 모계 기원이며 난모세포 감수분열 동안 분리 오류로부터 발생한다. 따라서, 감수분열 이수체는 배아의 모든 세포에서 발생할 것이다. 그러나, 유사분열 오류는 또한 인간 착상 전 배아에서 흔하며 유사분열 이수체 및 여러 세포 집단을 갖는 염색체 모자이크 배아를 초래할 수 있다(예를 들어, 일부 세포는 이수체이고 일부는 정배수체임). 인간 세포의 다배수성은, 예를 들어, 배아의 세포가 2개 초과의 완전한 염색체 세트를 보유하는 이상이다. 다배수성의 예는 삼배수성(3n) 및 사배수성(4n)을 포함한다. 인간의 다배수성은 균형 잡힌 성염색체 또는 불균형한 성염색체(예를 들어, CNV 방법으로 검출할 수 있음)를 갖는 여러 형태로 발생할 수 있다. 인간의 균형 잡힌 성 다배수성(균형 잡힌 다배수성으로도 칭함)은 3개 이상의 반수체 게놈의 완전한 카피를 포함하며 여기서 각 카피는 X 염색체(예를 들어, 69:XXX 또는 92:XXXX)만을 포함하거나 동일한 수의 X 및 Y 염색체(예를 들어, 92:XXYY)를 포함한다. 인간의 불균형한 성 다배수성(불균형한 다배수성으로도 칭함)은 3개 이상의 반수체 게놈의 완전한 카피를 포함하며 여기서 적어도 하나의 카피는 Y 염색체(예를 들어, 69:XXY, 69:XYY)를 포함하고 X 및 Y 염색체의 동일한 카피 수를 포함하지 않는다. 염색체 이상은 기태 임신, 유산 및 유전적 장애 및 질환을 포함하여 세포와 유기체에 다수의 상이한 영향을 미칠 수 있다.
일반적으로, 게놈 변이체는 어레이-기반 방법(예를 들어, DNA 마이크로어레이 등), 실시간/디지털/정량적 PCR 기기 방법 및 전체 또는 표적화된 핵산 시퀀싱 시스템(예를 들어, NGS 시스템, 모세관 전기영동 시스템 등)을 포함하지만 이에 제한되지 않는 다양한 기술을 사용하여 식별될 수 있다. 핵산 시퀀싱을 사용하면 분리능 또는 커버리지는 하나 이상의 수준일 수 있으며 일부 경우에 단일 염기 분리능에서 사용 가능하다.
본원에 사용된 바와 같이, 어구 "유전 패턴"은 세포(들), 자손, 예를 들어, 이배체 세포 및 유기체와 같은 부모 세포 또는 유기체로부터의 배아 또는 유기체의 게놈에서, 예를 들어, 이수성과 같은 게놈 특징의 전달 방식 및 용량을 지칭한다. 예를 들어, 인간에서, 자손, 예를 들어, 배아는 각 부모(한 명의 모계 및 한 명의 부계)로부터 하나의 유전자 대립유전자를 받은 다음, 자손의 이배체 세포에서 2개의 대립유전자를 구성한다. 자손, 예를 들어, 배아에서 특정 대립유전자 또는 게놈 특징의 유전 패턴은 어느 부모가 게놈 특징을 자손에게 전달시켰는지 정의한다. 게놈 특징이 자손 또는 배아에게 전달된 부모를 기원 부모로 칭한다. 유전은 균형을 이루거나(예상, 각 부모로부터 동등한 기여) 또는 불균형(불충분하거나 초과)일 수 있다. 예를 들어, 염색체 21의 하나의 카피가 부계로부터 유전되고 2개의 카피가 모계로부터 유전되는 삼염색체 21을 보유한 배아의 경우, 이수체의 기원의 부모는 모계라고만 한다. 반대로, 배아가 염색체 18의 모계 카피를 유전하고 부계 카피가 없는 배아가 유전되는 Monsomoy 18의 경우, 그 특징에 대한 기원의 부모는 부계라고 말할 수 있다.
본원에 사용된 바와 같이, "자손"은 생식체(예를 들어, 여성 및 남성 생식 세포)의 결합 산물을 지칭하며, 예를 들어, 할구, 접합체, 배아, 태아, 신생아 또는 어린이를 포함하지만 이에 제한되지 않는다. 자손 DNA는, 예를 들어, 할구 생검, 영양외배엽 생검, 내부 세포 덩어리 생검, 배반포(blastocoel) 생검, 배아 사용된 배지, cfDNA, 수태(conception)의 산물, 융모막 융모 샘플 및/또는 양수천자를 포함하는 임의의 공급원으로부터 얻을 수 있다.
본원에 사용된 바와 같이, "부모" 또는 "유전적 부모"는 자손에 대한 생식 세포의 기증자를 지칭하며, 예를 들어, 생식체 DNA가 공여자로부터 유래하는 한 난자와 정자 공여자를 포함한다.
어구 "모자이크 배아"는 2개 이상의 세포유전학적으로 구별되는 세포주를 함유하는 배아를 나타낸다. 예를 들어, 모자이크 배아는 상이한 유형의 이수성을 가진 세포주 또는 임신 동안 배아의 생존에 해로울 수 있는 유전적 변이체를 가진 DNA를 포함하는 유전적으로 비정상적인 세포와 정배수체의 혼합물을 포함할 수 있다.
어구 "차세대 시퀀싱"(NGS)은, 예를 들어, 한 번에 수십만 개의 비교적 작은 서열 리드를 생성할 수 있는 능력과 함께 기존의 생어(Sanger)- 및 모세관 전기영동-기반 접근법에 비해 처리량이 증가된 시퀀싱 기술을 지칭한다. 차세대 시퀀싱 기술의 일부 예는 합성에 의한 시퀀싱, 결찰에 의한 시퀀싱, 및 혼성화에 의한 시퀀싱을 포함하지만 이에 제한되지 않는다. 보다 구체적으로, Illumina의 MISEQ, HISEQ 및 NEXTSEQ 시스템과 Life Technologies Corp의 PGM(Personal Genome Machine), Ion Torrent, 및 SOLiD 시퀀싱 시스템은 전체 또는 표적화된 게놈의 대규모 병렬 시퀀싱을 제공한다. SOLiD 시스템 및 관련 워크플로우, 프로토콜, 화학물질 등은 국제 출원일이 2006년 2월 1일인 "비드-기반 시퀀싱을 위한 시약, 방법, 및 라이브러리"라는 명칭의 PCT 공개 번호 WO 2006/084132, 2010년 8월 31일에 출원된 "적은 부피의 시퀀싱 시스템 및 사용 방법"이라는 명칭의 미국 특허 출원 일련 번호 12/873,190 및 2010년 8월 31일에 출원된 "고속-인덱싱 필터 휠 및 사용 방법"이라는 명칭의 미국 특허 출원 일련 번호 12/873,132에 보다 상세히 기재되어 있으며 이들 각각의 출원 전체는 이에 참조로 본원에 포함된다.
어구 "시퀀싱 실행"은 적어도 하나의 생체분자(예를 들어, 핵산 분자)와 관련된 일부 정보를 결정하기 위해 수행되는 시퀀싱 프로세스의 임의의 단계 또는 부분을 지칭한다.
핵산 시퀀싱과 관련하여 용어 "리드"는, 예를 들어, NGS와 같은 시퀀싱을 거친 핵산 단편에 대해 결정된 뉴클레오티드의 서열을 지칭한다. 리드는 리드 길이를 한정하는 임의의 수의 뉴클레오티드의 임의의 서열일 수 있다.
본원에서 상호교환적으로 사용되는 어구 "시퀀싱 커버리지" 또는 "서열 커버리지"는 일반적으로, 예를 들어, 세포 또는 유기체의 전체 게놈, 게놈에서 하나의 유전자좌 또는 게놈에서 하나의 뉴클레오티드 위치와 같은 참조와 서열 리드 간의 관계를 지칭한다. 커버리지는 여러 형식으로 기술될 수 있다(예를 들어, 문헌(Sims et al. (2014) Nature Reviews Genetics 15:121-132) 참조). 예를 들어, 커버리지는 얼마나 많은 게놈이 염기 쌍 수준에서 시퀀싱되고 있는지를 지칭할 수 있으며, NL/G로 계산될 수 있으며 여기서 N은 리드 수이고 L은 평균 리드 길이이고 G는 게놈(참조)의 길이 또는 염기 수이다. 예를 들어, 참조 게놈이 1000 Mbp이고 평균 길이가 100 bp인 1억 리드가 시퀀싱되면, 커버리지 범위는 10x가 될 것이다. 그러한 커버리지는 1x, 2x, 3x 등 (또는 1, 2, 3배 등의 커버리지)과 같은 "배수"로 표현될 수 있다. 커버리지는 또한 참조 서열이 리드에 포함되는 빈도, 예를 들어, 시퀀싱 동안 임의의 주어진 유전자좌에서 단일 염기의 판독 횟수를 설명하기 위해 참조 핵산에 대한 시퀀싱의 중복성을 지칭할 수 있다. 따라서, 커버되지 않고 깊이가 0인 일부 염기가 있을 수 있고, 커버되고 깊이가, 예를 들어, 1과 50 사이의 어느 값인 일부 염기가 있을 수 있다. 커버리지의 중복성은 서열 데이터의 신뢰성을 나타내며 커버리지 깊이로도 지칭된다. 커버리지의 중복성은 참조 또는 정렬된(예를 들어, 매핑된) 리드에 정렬되지 않은 "원시(raw)" 리드와 관련하여 설명될 수 있다. 커버리지는 또한 리드에 의해 커버되는 참조(예를 들어, 게놈)의 백분율 측면에서 고려될 수 있다. 예를 들어, 참조 게놈이 10 Mbp이고 서열 리드 데이터가 참조의 8 Mbp에 매핑된 경우, 커버리지의 백분율은 80%일 것이다. 서열 커버리지는 특정 깊이에서 주어진 횟수만큼 시퀀싱된 참조 염기의 백분율을 지칭하는 커버리지의 폭의 측면에서 설명될 수도 있다.
본원에 사용된 바와 같이, 핵산 시퀀싱과 관련하여 어구 "낮은 커버리지"는 약 10x 미만, 또는 약 0.001x 내지 약 10x, 또는 약 0.002x 내지 약 0.2x, 또는 약 0.01x 내지 약 0.05x의 시퀀싱 커버리지를 지칭한다.
본원에 사용된 바와 같이, 핵산 시퀀싱과 관련하여 어구 "낮은 깊이"는 약 20x 미만 또는 약 10x 미만, 또는 약 0.1x 내지 약 10x, 또는 약 0.2x 내지 약 5x, 또는 약 0.5x 내지 약 2x의 평균 게놈 전체 시퀀싱 깊이를 지칭한다.
게놈 서열 핵산 서열과 관련하여 용어 "분리능"은 세포(들), 예를 들어, 배아, 또는 유기체의 핵산 시퀀싱을 통해 얻은 게놈 핵산 서열(예를 들어, 전체 게놈, 또는 게놈의 특정 영역 또는 유전자좌의 DNA 서열)의 품질, 또는 정확성, 및 정도를 지칭한다. 게놈 핵산 서열의 분리능은 주로 시퀀싱 프로세스의 커버리지와 깊이에 의해 결정되며 시퀀싱 동안 판독되는 고유 염기의 수와 시퀀싱 동안 임의의 하나의 염기의 판독 횟수를 고려한다. 세포(들), 예를 들어, 배아, 자손 또는 유기체의 게놈 핵산 서열(게놈 DNA)과 관련하여 본원에 상호교환적으로 사용되는 어구 "낮은 분리능 서열" 또는 "낮은 분리능 서열 데이터" 또는 "희소 서열 데이터"는 낮은 커버리지 및 낮은 깊이 시퀀싱 방법을 통해 얻은 게놈 핵산(게놈 DNA)의 뉴클레오티드 염기 서열 정보를 지칭한다.
본원에 언급된 모든 간행물은 간행물에 기재되어 있고 본 개시내용과 관련하여 사용될 수 있는 장치, 구성, 제형 및 방법론을 기술하고 개시하기 위한 목적으로 본원에 참조로 포함된다.
본원에 사용된 바와 같이, 용어 "포함하다(comprise)", "포함하다(comprises)", "포함하는(comprising)", "함유하다(contain)", "함유하다(contains)", "함유하는", "가지다(have)", "갖는", "포함하다(include)", "포함하다(includes)", 및 "포함하는(including)" 및 이들의 변형은 제한적으로 의도되지 않으며 포괄적이거나 개방적이며 추가의 인용되지 않은 첨가제, 구성요소, 정수, 요소 또는 방법 단계를 배제하지 않는다. 예를 들어, 특징 목록을 포함하는 프로세서, 방법, 시스템, 구성, 키트 또는 장치는 반드시 이러한 특징에만 제한되지 않지만 그러한 프로세스, 방법, 시스템, 구성, 키트 또는 장치에 명시적으로 나열되지 않거나 이에 내재되지 않은 다른 특징을 포함할 수 있다.
본 주제의 실시는, 달리 나타내지 않는 한, 당해 기술분야의 기술 내에 있는 유기 화학, 분자 생물학(재조합 기술 포함), 세포 생물학 및 생화학에 대한 통상적인 기술 및 설명을 사용할 수 있다.
배수성 수준의 검출/결정
다배수성은 세포, 예를 들어, 배아 또는 유기체가 2개 초과의 완전한 반수체 염색체 세트를 보유하는 상태이다. 인간 태아에서, 다배수성은 매우 치명적인 이상이다. 이수성이 확인된 모든 임신 제1 삼분기(trimester) 유산(자연 임신 및 IVF) 중 10-15%는 다배수성의 결과이다. 다배수성의 예는 삼배수성(3n) 및 사배수성(4n)을 포함한다. 삼배수성은 IVF 배아의 1-3%에 영향을 미치는 것으로 추정되며 기태 임신 및 유산을 야기할 수 있다. 삼배수성에서 발생하는 추가 염색체 세트는 기원이 모계(다이지닉(digynic)) 또는 부계(다이앤드릭(diandric)) 기원일 수 있다. 인간의 다배수성은 "균형 잡힌" 또는 "불균형"으로 설명할 수 있다. 인간의 균형 잡힌 성 다배수성(균형 잡힌 다배수성으로도 칭함)은 3개 이상의 반수체 게놈의 완전한 카피를 포함하며 여기서 각 카피는 X 염색체(예를 들어, 69:XXX 또는 92:XXXX)만을 포함하거나 동일한 수의 X 및 Y 염색체(예를 들어, 92:XXYY)를 포함한다. 인간의 불균형한 성 다배수성(불균형한 다배수성으로도 칭함)은 3개 이상의 반수체 게놈의 완전한 카피를 포함하며 여기서 적어도 하나의 카피는 Y 염색체(예를 들어, 69:XXY, 69:XYY)를 포함하고 X 및 Y 염색체의 동일한 카피 수를 포함하지 않는다. 다배수성은 염색체의 비정상적인 수를 특징으로 하지만 하나 이상의 추가의 완전한 염색체 세트를 포함하지 않는 삼염색체와 같은 이수체와 구별된다. 따라서, 삼염색체는 삼배수성의 경우에서와 같이 각 염색체의 추가 카피 대신 하나의 염색체의 추가 카피가 게놈에 존재할 경우 인간에서 발생한다.
예를 들어, 다배수성과 같은 다배수성의 검출은 염색체 카피 수 변이의 분석을 위해 핵산 시퀀싱-기반 방법을 사용할 때 난제를 제시한다. 예를 들어, 삼염색체의 경우 추가 염색체를 검출하기 위해 서열 리드 데이터를 사용할 때, 임의의 특정 염색체에 대한 리드 수를 참조 염색체의 리드 수와 비교하고 삼염색체를 나타내는 불균형을 식별하는 것이 가능하다. 그러나, 균형 잡힌 삼배수성과 같은 삼배수성의 일부 경우에, 모든 염색체가 동일한 용량(예를 들어, 삼염색체)으로 존재하고 모든 염색체에 대한 서열 리드의 상대적 비율이 정배수체 세포 또는 유기체의 경우와 동일하기 때문에 참조 염색체를 사용할 수 없다. 일부 방법은 상염색체와 관련된 성염색체 비율을 활용하여 남성 삼배수성의 발생률을 추론하지만 여성 삼배수성(및 23,X 일배성)은 이러한 방식으로 검출할 수 없다. DNA가 매우 깊이 시퀀싱되면(예를 들어, 높은 분리능 시퀀싱), 정확한 SNP 정량화를, 단독으로 또는 다른 방법과 함께 사용하여, 삼배수성을 식별하고 잘못된 동형접합성 및 시퀀싱 오류를 극복하여 균형 잡힌 삼배수성을 검출할 수 있다. 그러나, 그러한 방법은 낮은 커버리지 및/또는 낮은 깊이, 예를 들어, 낮은 분리능의 시퀀싱 방법에 비해 상대적으로 높은 비용, 더 긴 실행 및 분석 시간 및 낮은 처리량 및 효율성과 관련이 있다. 낮은 커버리지 및/또는 낮은 깊이, 예를 들어, 낮은 분리능의 시퀀싱 방법에 의해 제공되는 낮은 분리능 서열 데이터는 희소하며 균형 잡힌 다배수성을 검출하는 데 필요한 서열 정보에 대한 데이터 포인트가 누락되어 있다. 또한, DNA 샘플은, 예를 들어, NGS를 통한 시퀀싱 전에 단편화, 증폭 및 어댑터 결찰을 포함한 처리를 필요로 한다. 그러한 처리에서 핵산의 조작은 증폭된 서열에 아티팩트(artifact) (예를 들어, 폴리머라제 연쇄 반응(PCR) 증폭과 관련된 GC 편향)를 도입하고 서열 리드의 크기를 제한할 수 있다. 따라서, 차세대 시퀀싱(NGS) 방법 및 시스템은 시스템 간에 상이할 수 있는 오류율과 관련된다. 또한, 서열 리드(예를 들어, 염기-콜링)에서 염기 식별과 함께 사용되는 소프트웨어는 NGS 시퀀싱으로부터 서열 데이터의 정확도에 영향을 미칠 수 있다. NGS에서 발생할 수 있는 이러한 아티팩트, 커버리지의 변이 및 오류는 높은 커버리지 시퀀싱 데이터와 비교하여 낮은 커버리지 시퀀싱 데이터의 해석에 더 뚜렷한 영향을 미친다.
예를 들어, 배아 및/또는 유기체와 같은 세포(들)에서 다배수성(예를 들어, 균형 잡힌 다배수성) 및/또는 정배수성(예를 들어, 이배성)과 같은 배수성을 검출, 식별 및/또는 구별하기 위한 개선되고 효율적이고 신속하고 비용 효율적인 방법 및 시스템이 본원에 제공된다. 본원에 제공된 방법 및 시스템의 일부 구현예에서, 상대적으로 낮은 커버리지 및/또는 낮은 깊이, 예를 들어, 낮은 분리능, 서열 데이터는 세포(들), 예를 들어, 배아, 자손 또는 유기체의 세포에서 정배수성 및/또는 다배수성, 예를 들어 균형 잡힌 다배수성과 같은 배수성을 검출, 구별, 추론 및/또는 식별하는 데 사용된다. 일부 그러한 구현예에서, 시스템 및 방법은 균형 잡힌 삼배수성 또는 사배수성과 같은 삼배수성 또는 사배수성을 검출, 구별, 추론 및/또는 식별하는데 사용된다. 일부 그러한 구현예에서, 방법 및 시스템은, 예를 들어, 착상 전에 IVF를 통해 생성된 배아(예를 들어, 인간 배아와 같은 포유동물 배아)를 포함하는 배아에서 균형 잡힌 삼배수성 또는 사배수성과 같은 삼배수성 또는 사배수성을 검출, 구별, 추론 및/또는 식별하는 데 사용된다. 일부 구현예에서, 방법, 및 방법을 통합하는 시스템은 게놈 핵산의 표적화된 핵산 증폭으로부터 얻은 핵산 수집의 시퀀싱의 경우와 같이 게놈의 미리 결정된 특정 표적화된 영역만의 시퀀싱과는 대조적으로 세포(들)의 전체 또는 완전한 게놈 DNA(예를 들어, 세포의 전체 핵 또는 염색체 핵산 및/또는 전체 DNA)의 핵산(DNA) 샘플의 낮은 커버리지 및 낮은 깊이의 전체 게놈 시퀀싱으로부터 얻은 낮은 분리능 핵산 서열 데이터를 사용한다. 전체 또는 완전한 게놈 핵산(예를 들어, 전체 핵 또는 염색체 핵산)으로부터의 서열 데이터의 사용은 본원에 제공된 방법의 일부 구현예에서 다배수성(예를 들어, 균형 잡힌 다배수성) 및/또는 정배수성(예를 들어, 이배성)과 같은 다배수성을 검출, 식별 및/또는 구별하는 데 있어 게놈 서열의 전체적인 평가를 가능하게 한다. 배수성을 추론하기 위해 성염색체/상염색체 염색체 비율에 의존하지 않는 게놈 핵산 서열의 전체적인 평가를 포함하는 그러한 방법은 남성(XXY) 다배수성 (및 반수성도)의 검출 및/또는 확인뿐만 아니라 여성(XXX) 다배수성의 검출을 허용한다. 게놈의 미리 결정된 특이적 표적화된 영역만의 시퀀싱과 대조적으로 전체 또는 완전한 게놈 핵산(예를 들어, 전체 핵 또는 염색체 핵산)의 핵산 샘플의 시퀀싱으로부터 얻은 서열 데이터를 사용하는 구현예에서, 본원에 제공된 방법 및 시스템의 그러한 구현예는 시퀀싱을 위한 표적화된 핵산 샘플의 준비와 관련된 감소된 효율성 및 증가된 준비 시간을 피할 수 있다. 또한, 표적화된 증폭은 오류, 아티팩트 및 편향을 시퀀싱 데이터에 도입할 수 있는 추가 핵산 조작을 포함하고 배수성을 평가하고 배수성을 검출하는 데 더 유익할 수 있는 게놈의 다른 모든 비표적화된 영역으로부터 서열 데이터를 배제한다. 예를 들어, 배아 및/또는 유기체와 같은 세포(들)에서 다배수성(예를 들어, 균형 잡힌 다배수성) 및/또는 정배수성(예를 들어, 이배성)과 같은 배수성을 검출, 식별 및/또는 구별하기 위해 본원에 제공된 방법 및 시스템도 필요하지 않으며 일부 구현예에서 부모 중 한쪽 또는 둘 모두의 핵산의 시퀀싱으로부터 핵산 서열 정보 없이 수행된다. 이것은 균형 잡힌 다배수성과 같은 다배수성을 검출 및/또는 식별하는 다른 방법과 비교하여 본원에 제공된 방법 및 시스템의 증가된 효율성, 비용-효율성 및 감소된 분석 및 계산 시간의 추가 이점을 제공한다.
핵산 서열 데이터 생성
예를 들어, 배아, 자손 및/또는 유기체와 같은 세포(들)에서 다배수성(예를 들어, 균형 잡힌 다배수성) 및/또는 정배수성(예를 들어, 이배성) 및/또는 반수성과 같은 배수성을 검출, 식별, 추론 및/또는 구별하기 위해 본원에 제공된 방법 및 시스템의 일부 구현예는 세포 및/또는 유기체의 게놈의 뉴클레오티드 서열 분석을 포함한다. 핵산 서열 데이터는 본원에 기재되고/되거나 당업계에 알려진 다양한 방법을 사용하여 얻을 수 있다. 하나의 예에서, 세포, 예를 들어, 배아의 세포의 게놈 핵산의 서열은 세포로부터 추출된 DNA 샘플의 차세대 시퀀싱(NGS)으로부터 얻을 수 있다. 2세대 시퀀싱으로도 알려진 NGS는 병렬로 DNA 샘플(예를 들어, 배아로부터 추출됨)의 핵산 증폭에 의해 생성된 수백만 개의 뉴클레오티드 시퀀싱을 포함하는 높은 처리량의 대규모 병렬 시퀀싱 기술을 기반으로 한다(예를 들어, 문헌(Kulski (2016) "Next-Generation Sequencing - An Overview of the History, Tools and 'Omic' Applications," in Next Generation Sequencing - Advances, Applications and Challenges, J. Kulski ed., London: Intech Open, pages 3-60) 참조). NGS에 의해 시퀀싱될 핵산 샘플은 샘플의 공급원에 따라 다양한 방식으로 얻어진다. 예를 들어, 인간 핵산은 핵산이 이어서 추출되는 세포를 수집하기 위해 볼 브러시 면봉(cheek brush swab)을 통해 쉽게 얻을 수 있다. 배아로부터 시퀀싱을 위한 최적의 양의 DNA를 얻기 위해 (예를 들어, 착상 전 유전자 스크리닝을 위해), 세포(예를 들어, 5-7개 세포)는 통상적으로 배반포 단계 동안 영양외배엽 생검을 통해 수집된다.
NGS에서 발생할 수 있는 아티팩트, 커버리지의 변이 및 오류는 또한 배수성을 정확하게 평가하기 위한 서열 데이터 분석에 있어서 난제를 제시한다. 그러한 아티팩트 및 제한은 게놈의 긴 반복 영역을 시퀀싱하고 매핑하고 게놈에서 다형성 대립유전자 및 이수성을 식별하기 어렵게 한다. 예를 들어, 인간 게놈의 약 40%가 반복 DNA 요소로 구성되기 때문에, 참조 게놈의 반복 요소에 정렬되는 동일한 서열의 더 짧은 단일 리드는 종종 게놈의 특정 영역에 정확하게 매핑될 수 없다. 서열 결정에서 오류 및/또는 불완전성의 영향의 일부를 해결하고 가능한 감소시키기 위한 한 가지 방법은 쌍-말단(paired-end) 시퀀싱 기술을 시퀀싱 방법에 통합하는 것이다. 쌍-말단 시퀀싱은 서열을 게놈 또는 참조에 매핑할 때, 예를 들어, 긴 반복 영역에서 서열 리드의 배치 정확도를 증가시키고 유전자 결실, 삽입 및 역위와 같은 구조적 재배열의 분리능을 증가시킨다. 예를 들어, 본원에 제공된 방법의 일부 구현예에서, 배아로부터 핵산의 쌍-말단 NGS로부터 얻은 데이터의 사용으로 리드 매핑이 평균 15%까지 증가했다. 쌍-말단 시퀀싱 방법은 당업계에 알려져 있고/있거나 본원에 기재되어 있으며, 핵산 단편의 서열을 양방향으로 결정하는 것을 포함한다(즉, 단편의 한쪽 말단으로부터의 하나의 리드 및 단편의 반대쪽 말단으로부터의 제2 리드). 쌍-말단 시퀀싱은 또한 리드 수를 2배로 늘리고 특히 어려운 게놈 영역에서 커버리지를 증가시켜 시퀀싱 커버리지 중복성을 효과적으로 증가시킨다.
핵산 서열 매핑
예를 들어, 배아 및/또는 유기체와 같은 세포(들)에서 다배수성(예를 들어, 균형 잡힌 다배수성) 및/또는 정배수성(예를 들어, 이배성)과 같은 배수성을 검출, 식별 및/또는 구별하기 위해 본원에 제공된 방법 및 시스템의 일부 구현예에서, 세포, 예를 들어, 배아 세포 또는 유기체로부터 얻은 핵산 서열은 게놈 매핑 방법을 사용하여 세포/유기체의 게놈 (또는 이의 일부)을 재구성하는 데 사용된다. 전형적으로, 게놈 매핑은 정렬로 지칭되는 프로세스에서 참조 게놈(예를 들어, 인간 게놈)에 서열을 일치시키는 것을 포함한다. 매핑 프로세서에 사용될 수 있는 인간 참조 게놈의 예는 2009년에 공개된 GRCh37 (hg19) 및 2013년에 공개된 GRCh38 (hg38)과 같은 게놈 참조 컨소시엄으로부터의 공개물을 포함한다(예를 들어, https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg19 https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39 참조). 정렬을 통해, 서열 리드는 전형적으로 서열 매칭을 수행하기 위해 컴퓨터 프로그램을 사용하여 게놈 유전자좌에 할당된다. 수많은 정렬 프로그램은 공개적으로 이용 가능하며 Bowtie(예를 들어, http://bowtie-bio.sourceforge.net/manual.shtml 참조) 및 BWA (예를 들어, http://bio-bwa.sourceforge.net/ 참조)를 포함한다. (예를 들어, PCR 중복 및 낮은 품질의 서열을 제거하기 위해) 처리되고 유전자좌와 일치하는 서열은 종종 정렬된 서열 또는 정렬된 리드로 지칭된다.
게놈 참조에 대한 서열 리드의 매핑에서, 서열 뉴클레오티드 변이체(SNV)를 식별하는 것이 가능하다. 단일 뉴클레오티드 변이체는 단일 뉴클레오티드 위치에서 게놈의 변이의 결과이다. SNV 검출을 위한 몇 가지 상이한 NGS 분석 프로그램(예를 들어, 변이체 콜링 소프트웨어)이 공개적으로 이용 가능하며, 당업계에 알려져 있고/있거나 본원에 기재되어 있다(예를 들어, GATK(예를 들어, https://gatk.broadinstitute.org/ 참조) 및 딥베리언트(deepvariant) (예를 들어, 문헌(Poplin et al (2018) Nature Biotech. 36:983-987) 참조)를 포함하지만 이에 제한되지 않음). 정렬 후, bcftools 소프트웨어(오픈 소스(open source))는 최소 커버리지(예를 들어, 1) 및 최소 깊이(예를 들어, 1)로 식별된 모든 염기의 축적(pileup)을 생성하고 정렬 동안 생성된 bam 파일로부터 유전자형 콜을 생성하는 데 사용된다. 세포 또는 유기체의 샘플 핵산으로부터의 서열의 게놈 매핑을 통해 염색체 이상, 예를 들어, 다배수성과 같은 게놈 특징의 검출 및 식별은 특히 낮은 커버리지 시퀀싱 방법으로부터 서열 데이터를 얻을 때 특정 난제를 나타낸다. 예를 들어, 희소 서열 데이터의 노이즈로부터 신호를 해독하는 것은 높은 커버리지 시퀀싱으로부터 얻은 높은 분리능 서열에 대한 것보다 더 어렵다. 이 접근법에서 주요 난제는 NGS 방법이 리드 생성 동안 시퀀싱 리드에 오류를 도입하기 쉽다는 개념으로부터 비롯된다. 시퀀싱 플랫폼 방법론에 따라 1:100과 1:10,000 사이의 어느 값인 오류율로, 낮은 커버리지 및/또는 낮은 깊이의 시퀀싱에서 변이와 시퀀싱 오류 간의 차이를 식별하는 것은 독특하고 어려운 정보학적 난제를 제공한다. 컴퓨터 프로그램 및 시스템은 특정 게놈 특징을 식별할 때 서열 데이터의 해석의 용이성 및/또는 정확성을 증가시키기 위해 당업계에 알려져 있고/있거나 본원에 기재되어 있다. 예를 들어, 분절 복제/결실, 모자이크 특징, 이수성 및 불균형한 성염색체를 갖는 다배수성을 포함하는 염색체 이상의 자동 검출을 위한 시스템 및 방법은 그 전체가 본원에 참조로 포함된 미국 특허 출원 공개 번호 2020/0111573에 기재되어 있다. 그러한 방법은 노이즈 제거/정규화(원시 서열 리드의 노이즈를 제거하고 게놈 서열 정보를 정규화하여 유전자좌 효과를 수정하기 위해) 및 기계 학습 및 인공 지능을 포함하여 유전자좌 스코어를 핵도로 해석 (또는 디코딩)할 수 있다. 예를 들어, 시퀀싱이 완료된 후, 원시 서열 데이터는 역다중화되고 (주어진 샘플에 기인함), 리드는, 예를 들어, HG19와 같은 참조 게놈에 정렬되고, 각 1백만 염기쌍 빈(bin)의 총 리드 수가 계산된다. 이 데이터는 GC 함량 및 깊이를 기반으로 정규화되고 알려진 결과의 샘플로부터 생성된 기준선에 대해 시험된다. 이어서, 카피 수 2로부터의 통계적 편차는 이수성으로 보고된다(존재하는 경우, 그렇지 않은 경우 = 정배수체). 이 방법을 사용하여, 감수분열 이수체 및 유사분열 이수성은 CNV(염색체 또는 이의 일부, 카피 수 변이) 측정항목(metric)을 기반으로 서로 구별될 수 있다. 정상과의 편차를 기준으로, 핵형은 존재하는 염색체의 총 수, 존재하는 임의의 이수성, 및 이들 이수성의 모자이크 수준(해당되는 경우)으로 생성된다.
정배수성 및 다배수성(예를 들어, 비-이배체 다배수성)의 단일 뉴클레오티드 변이
예를 들어, 배아, 자손 및/또는 유기체와 같은 세포(들)에서 다배수성(예를 들어, 균형 잡힌 다배수성, 비-이배성 다배수성) 및/또는 정배수성(예를 들어, 이배성) 및/또는 반수성과 같은 배수성을 검출, 식별, 결정, 추론 및/또는 구별하기 위해 본원에 제공된 방법 및 시스템에서, 하나 이상 또는 복수의 세포, 예를 들어, 배아의 세포로부터의 SNV 서열 정보는 배수성의 분석에 사용된다. 일부 구현예에서, SNV 서열은 세포(들)의 게놈 핵산(게놈 DNA)의 낮은 커버리지 및/또는 낮은 깊이, 예를 들어, 낮은 분리능의 시퀀싱으로부터 얻은 낮은 분리능 서열 데이터이다. 다배수성(예를 들어, 균형 잡힌 다배수성, 비-이배체 다배수성)과 같은 배수성을 검출, 추론, 결정, 식별 및/또는 구별하기 위한 방법 및 시스템의 일부 구현예에서, SNV 서열 정보는, 예를 들어, 완전한 게놈 DNA 샘플(예를 들어, 전체 핵 또는 염색체 핵산 샘플)의 전체 게놈 시퀀싱으로부터 얻어진다. 일부 그러한 구현예에서, SNV 서열 정보는 낮은 커버리지 및 낮은 깊이 전체 게놈 시퀀싱으로부터 얻어진 낮은 분리능 서열 데이터이다. 인구의 1% 초과가 게놈의 특정 위치에 동일한 뉴클레오티드를 보유하지 않는 경우 SNV는 종종 단일 뉴클레오티드 다형성(SNP)으로 지칭된다. SNV는 전형적으로 덜 잘-특성화된 유전자좌에 대한 보다 일반적인 용어이다. 평균 200 bp마다 인간 게놈 전체에 걸쳐 위치한 약 1천만 개 이상의 SNP가 있다. 일부 SNP는 특성 또는 장애와 관련이 있을 수 있지만 대부분은 알려진 기능이 없다. 어떤 두 개인(일란성 쌍둥이 제외)도 주어진 집단 내에서 주요 이소형 및 부 이소형으로 존재하는 동일한 패턴의 SNP를 갖지 않는다. SNV 및 SNP는 본원에 상호교환적으로 사용된다.
예를 들어, 배아 또는 자손의 세포(들)로부터의 SNV 서열 정보를 사용할 때, 본원에 제공된 방법 및 시스템은 전체 DNA(예를 들어, 전체 DNA 또는 게놈 DNA)의 시퀀싱으로부터 서열 데이터에 존재하는 SNV 대립유전자의 수와 SNV 대립유전자의 총 수의 함수로서 검출된 참조 및/또는 대체 대립유전자의 발생을 결정하는 단계를 포함한다. 이 정보는 실제 관찰된 대체 대립유전자 결정을 제공한다. 서열 정보에서 참조(REF) 대립유전자는 서열의 변이체 위치에서 참조 핵염기를 포함하는 게놈에서 특정 뉴클레오티드 서열의 형태를 지칭한다. 참조 핵염기는 방법에 사용된 SNV의 매핑에서 서열 리드가 정렬된 참조 게놈에서 변이체 위치에 있는 핵염기(A, G, T 또는 C)이다. 서열 정보에서 대체(ALT) 대립유전자는 서열의 변이체 위치에서 참조 핵염기와 상이한 핵염기를 포함하는 게놈의 특정 뉴클레오티드 서열의 형태를 지칭한다. 인간 정배수체(즉, 이배체) 배아에서, 한 세트의 염색체는 모계 기원이고 다른 세트는 부계 기원이고, 2개의 개별 염색체 세트의 전체 SNV 패턴(모든 변이 위치에 대한 게놈의 각 SNV 위치에서 핵염기 동일성)은 상이할 것이다(즉, 2개의 상이한 SNV 패턴이 있고 배아는 각 패턴의 하나의 "용량"을 포함함). 각각의 전체 SNV 패턴 내에, 각 염색체 세트에서 동일한 핵염기(예를 들어, REF 핵염기 둘 다 또는 ALT 핵염기 둘 다)를 갖는 개별 변이체 위치와 별도의 염색체 세트에서 상이한 핵염기(하나는 REF 핵염기를 갖고 다른 하나는 ALT 핵염기를 가짐)를 갖는 개별 변이체 위치가 있다. 인간 삼배체 배아에서, 두 세트의 염색체는 한쪽 부모로부터 기원하여 상기 부모와 일치하는 SNV 패턴을 나타내고, 제3 염색체 세트는 다른 부모로부터 기원하고 상이한 SNV 패턴을 갖는다. 따라서, 한쪽 부모 SNV 패턴의 용량은 삼배수성에서 다른 SNV 패턴의 것의 2배이다. 따라서, 용량 불균형을 예시하기 위해 이 일반화된 설명에서, 인간 세포의 게놈에서 삼배수성의 경우, 2개의 상이한 염색체 세트 간에 상이한 특정 SNV-함유 대립유전자에 대해, 상이한 형태의 대립유전자(예를 들어, ALT 대립유전자)에 대해 존재하는 것과는 상이한 양, 예를 들면 대립유전자의 한 형태(예를 들어, REF 대립유전자)에 대해 이용 가능한 서열의 양의 2배가 있을 수 있다. 대조적으로, 이러한 일반화된 예시에서, 정배수체(즉, 이배체) 인간 세포에서 2개의 상이한 염색체 세트 간에 상이한 특정 SNV-함유 대립유전자에 대해, 대립유전자(예를 들어, REF 대립유전자)의 하나의 형태에 대해 이용 가능한 서열의 양은 이형접합성인 대립유전자와 관련하여 상이한 형태의 대립유전자(예를 들어, ALT 대립유전자)에 대해 이용 가능한 서열의 양과 더 동등할 수 있다. 한 세트의 염색체로부터 변이체의 하나의 대립유전자에 대한 서열이 높은 커버리지 시퀀싱으로부터 얻은 높은 분리능 서열 데이터보다 정배수체 인간 배아로부터 핵산의 낮은 커버리지 시퀀싱으로부터 얻은 낮은 분리능 서열 데이터에서 누락될 가능성이 더 크다. 이 가능성은 다배수체, 예를 들어, 삼배체, 인간 배아로부터의 게놈 핵산에 대한 낮은 분리능 서열 데이터의 경우, 특히 균형 잡힌 다배수성의 경우 더 증가한다.
본원에 기재되고 확립된 바와 같이, 관찰된 단일 뉴클레오티드 변이(SNV) 비율 (샘플에서 관찰 가능성 대 유병률인 함수)의 이론적 확률적 거동은 유전자형 발생 확률, 소수-대립유전자 빈도, 시퀀싱 및 배수성 상태 사이의 상호작용으로 인해 이배체 및 삼배체 상태 사이에서 측정 가능하게 상이하다. 본원에 제공된 방법 및 시스템의 일부 구현예에서, 반수체, 정배수체 및/또는 다배수체 게놈의 SNV 비율의 차이는 낮은 내지 매우 낮은 커버리지 게놈 시퀀싱(예를 들어, 전체 게놈 시퀀싱)을 사용하여 배수성, 예를 들어, 정배수성 또는 다배수성, 예컨대 균형 잡힌 다배수성의 추론을 결정하는데 포함된다. 그러한 구현예에서, SNV 비율을 기반으로 개발된 통계는 낮은 커버리지(예를 들어, 0.1X 커버리지) 및/또는 낮은 깊이 NGS 시퀀싱에서 얻은 낮은 분리능 서열 데이터로부터 약 90% 민감도 및 특이도로 다배수성을 검출 및/또는 식별할 수 있는 방법 및 시스템에 사용된다.
정배수체 및 다배수체 게놈에서 ALT 대립유전자를 관찰할 확률의 차이
직관적으로, 게놈 DNA 시퀀싱으로부터의 서열 리드에서 대립유전자를 검출할 확률은, 부분적으로, 기저 유전자형으로 인한 시험 게놈 DNA 샘플에서 대립유전자 빈도에 따라 달라진다. 또한, 대립유전자를 검출할 확률은 시퀀싱 깊이(예를 들어, 시퀀싱의 중복성)에 따라 달라진다. 도 1은 정배수체(이배체) 및 이수체(삼염색체) 세포에 대한 게놈 DNA의 시퀀싱으로부터의 서열 데이터에서 ALT(즉, 변이체 대립유전자) 대립유전자("A"가 REF 대립유전자로 간주되는 이 예에서 "a")를 관찰할 확률과 시퀀싱 깊이 사이의 관계를 도시한다. 대립유전자 빈도에 대한 경계 경우는 동형접합체 샘플(빈도 0% 또는 100%)이다. 시퀀싱 깊이에 대한 경계 경우는 0 또는 무한이다(해당 대립유전자로 리드가 없거나 해당 대립유전자로 리드가 무한대임).
경계 조건의 경우, ALT 대립유전자를 관찰할 확률은 정배수체 또는 이수체 이형접합체 샘플에 대해 동일하다. 두 극단 사이에서, 더 높은 ALT 빈도를 가진 샘플이 ALT 대립 유전자를 보고할 가능성이 더 높을 것으로 예상된다(도 1 및 표 1 참조).
Figure pct00001
그러나, 이수체 세포로부터의 게놈 핵산의 샘플은 집합적으로 정배수체 세포로부터의 게놈 핵산 샘플과 상이한 ALT 대립유전자 서열 계수를 나타낼 것인데, 이는 용량 불균형이 대체 대립유전자 대 참조 대립유전자의 순 실제 발생률을 왜곡할 것이기 때문이다. 정배수체 및 삼염색체 경우에서 변이체 대립유전자를 관찰할 (즉, 변이체 대립유전자가 서열 데이터에 있는지 여부와 샘플에 있는지 여부 둘 모두를 관찰할) 확률을 계산하려면, 하기 식 1을 고려한다:
Figure pct00002
따라서, 임의의 주어진 부위에서, k의 서열 깊이가 주어졌을 때 ALT 대립유전자를 관찰할 확률 [Pr(ALT|k]은 유전자형의 (b) 확률 [Pr(G)]에 의해 조정된 임의의 주어진 유전자형 G에 대한 ALT 대립유전자를 관찰할 (a) 확률 [P(ALT│G,k)] (예를 들어, ALT 대립유전자에 대한 리드 수와 게놈 DNA에서 ALT 대립유전자 사례의 수 사이의 관계와 관련하여)과 동등할 수 있다. (a) 및 (b) 용어에 대한 추가 논의는 다음과 같다.
Figure pct00003
상기 기재된 바와 같이, 주어진 부위에서 비참조 또는 ALT 대립유전자를 관찰할 확률은 두 가지 요인에 따라 달라질 수 있다: (1) 유전자형이 주어졌을 때 부위에서 ALT 대립유전자의 빈도(예를 들어, 정배수체 이형접합성 대상체는 0.5의 예상된 ALT 빈도를 가질 수 있음) 및 (2) 시퀀싱의 깊이. (2)와 관련하여, 예를 들어, 매우 깊은 시퀀싱은 ALT 대립유전자가 존재할 때 관찰되도록 할 수 있는 반면, 얕은 시퀀싱은 ALT 대립유전자를 놓칠 수 있다("거짓 동형접합성").
요약하면, 이것은 참조(REF) 대립유전자 확률 p 및 부위에서 시퀀싱 계수 k 대립유전자가 있는 이항 확률의 한 유형으로 볼 수 있다. 이와 같이, ALT 대립유전자를 검출할 확률 [P(ALT|G,k] (즉, 서열 데이터에서 대립유전자를 검출할 확률)은 1에서 참조 대립유전자를 검출할 확률을 뺀 값일 수 있는데, 즉, 다음과 같다:
Figure pct00004
참조 대립유전자의 확률 p는 유전자형에서 참조 대립유전자의 빈도임을 유의한다. 예를 들어, 정배수체 이형접합체(Aa)의 경우, p = 0.5이다. 예를 들어, 부위가 10회 시퀀싱되고 기본 부위가 정배수체 이형접합성인 경우, 모든 10회 리드에서 ALT를 관찰하지 않을 확률은 0.510이고, 따라서 ALT를 관찰할 확률은 1-0.510이다.
주어진 부위에서 유전자형의 확률 [ Pr ( G )]
정배수체의 경우, 각 부모로부터 유전된 염색체가 독립성일 수 있다고 가정하여 하디-와인버그 평형(HWE: Hardy-Weinberg equilibrium) 하에 주어진 유전자형의 확률은 다음과 같다:
Figure pct00005
정배수성의 경우, 부모 유전자형이 주어졌을 때 배아 유전자형의 조건부 확률을 계산할 수 있다(표 2 참조).
Figure pct00006
삼염색체 배아 유전자형의 확률은 부모 염색체의 독립성의 가정을 사용하여 계산할 수 있으며 부모-특이적 비분리(m 및 p), 즉 하기 식을 허용한다.
Figure pct00007
상기 식에서, m은 모계 생식체에서 주어진 비분리가 발생할 확률이고, p는 부계 생식체에서 비분리가 발생할 확률이다. 이들은 조건부이기 때문에, m + p = 1이다.
삼염색체에서, 배아 유전자형의 조건부 확률은 부모 유전자형과 비분리의 조건부 확률이 주어졌을 때 계산될 수 있다(표 3 참조).
Figure pct00008
상기 표 2 및 3과 관련하여, (a) 동형접합체를 관찰할 비조건부 확률(AA 대 AAA 또는 aa 대 aaa)은 정배수체 및 삼염색체 배아 샘플에 대해 동일할 수 있고, (b) 삼염색체 이형접합체에 대한 비조건부 확률(AAa 또는 Aaa)은 동일할 수 있고, 정배수체 샘플에 대한 이형접합체의 확률(Aa)과 합할 수 있다는 것에 유의해야 한다.
상기 논의된 식 1은 다음과 같이 정배수체에 대해 확장될 수 있다:
Figure pct00009
상기 논의된 식 1은 또한 다음과 같이 삼염색체에 대해 확장될 수 있다:
Figure pct00010
이와 같이, 두 가지 경우(정배수체 배아 및 삼배체 배아에 대해)에서 관찰된 변이체의 확률은 도 2에 나타낸 바와 같이 비교할 수 있다. 도 2의 그래프는 정배수체 게놈 핵산 샘플의 시퀀싱으로부터 서열 데이터에서 ALT 대립유전자를 관찰할 확률(짙은 검은색 곡선)과 삼염색체 게놈 핵산 샘플의 시퀀싱으로부터 서열 데이터에서 ALT 대립유전자를 관찰할 확률(밝은 음영 곡선)의 차이를 예시한다. 확률은 시퀀싱 깊이의 함수로 나타낸다(>=1x로 제한됨). 각 패널은 상이한 빈도(샘플의 유병률) (0.1, 0.2, 0.3, 0.4)에서의 확률을 나타낸다. 도 2에 나타낸 바와 같이, 정배수체 게놈 핵산 샘플의 시퀀싱으로부터 서열 데이터에서 ALT 대립유전자를 관찰할 확률과 삼염색체 게놈 핵산 샘플의 시퀀싱으로부터 서열 데이터에서 ALT 대립유전자를 관찰할 확률의 차이는 더 큰 k 값에 대해 감소한다(즉, 시퀀싱 깊이 증가). 더욱이, ALT 차이를 관찰할 확률의 차이 정도는 유전자형에 따라 다를 수 있으며, 이는 집단 대립유전자 빈도에 따라 달라질 수 있다.
배수성의 검출, 식별, 결정 및/또는 구별을 위한 방법 및 시스템
예를 들어, 배아, 자손 및/또는 유기체와 같은 세포(들)에서 배수성, 예컨대 다배수성(예를 들어, 균형 잡힌 다배수성) 및/또는 정배수성(예를 들어, 이배성) 및/또는 이배성을 검출, 추론, 식별, 결정 및/또는 구별하기 위해 본원에 제공된 방법 및 시스템의 일부 구현예에서, 정배수체 및 다배수체 게놈의 SNV 비율의 차이는 배수성, 예를 들어, 정배수성 또는 다배수성(예를 들어, 비-이배체 다배수성), 예컨대 낮은 내지 매우 낮은 커버리지 게놈 시퀀싱(예를 들어, 낮은 커버리지 및/또는 낮은 깊이 전체 게놈 시퀀싱)을 사용하는 균형 잡힌 다배수성의 추론을 결정하는데 포함된다. 그러한 구현예에서, SNV 비율을 기반으로 개발된 통계는 낮은 커버리지 및/또는 낮은 깊이, 예를 들어, 낮은 분리능의 서열 데이터로부터 약 90% 민감도와 특이도(본원의 실시에 참조)로 배수성(예를 들어, 다배수성)을 감지, 추론 및/또는 결정할 수 있는 방법 및 시스템에 사용된다. 도 3은 본원에 제공된 예시적인 방법의 워크플로우(300)의 도식적 표현이다.
도 3은 다양한 구현예에 따른 다배수성(예를 들어, 균형 다배수성) 및/또는 정배수성(예를 들어, 이배성)과 같은 배수성을 검출, 추론, 식별, 결정 및/또는 구별하기 위한 예시적인 방법의 워크플로우(300)의 예시적인 도식적 표현이다. 도 3이 방법의 일 예를 예시하는 바와 같이, 설명될 단계들의 조합은 필요에 따라 다양한 조합으로 사용될 수 있고, 단계들이 제거, 추가 또는 재정렬될 수 있음을 이해해야 한다. 더욱이, 각 단계의 분석은 필요에 따라 본원의 논의에 따라 변화되거나 변형될 수 있다.
도 3에 나타낸 바와 같이, 배아로부터 게놈 핵산의 낮은 커버리지 및/또는 낮은 깊이, 예를 들어, 낮은 분리능의 시퀀싱으로부터 얻은 SNV에 대해 단계(301)에서 받은 참조-정렬된 서열 리드를 계산하고 합하여 서열 데이터에서 식별된 고유 SNV 부위의 총 수를 결정한다.
단계(302)에서, 식별된 고유 SNV 부위의 총 수가 계수된다 (또는 합산된다).
단계(303)에서, 참조 및 대체 SNV-함유 서열 리드가 빈으로 분배될 수 있다.
단계(304)에서, 다수의 대체 SNV-함유 서열 리드(실제 관찰된 ALT SEQ)가 계수된다 (또는 합산된다).
단계(305)에서, 정배수체 배아에 대해 관찰되었을 것으로 예상되는 다수의 대체 SNV-함유 서열(예측 관찰된 ALT SEQ)이 계산된다.
단계(306)에서, 예측 관찰된 ALT SEQ로부터 실제 관찰된 ALT SEQ의 편차가 계산된다.
단계(307)에서, 편차 값이 미리 설정된 역치 미만인 경우, 배아는 다배수체로 지정된다. 대조적으로, 편차가 미리 설정된 역치를 초과하는 경우, 배아는 정배수체로 지정된다.
다양한 구현예에서, 배아에서 배수성(예를 들어, 일배성, 정배수성, 이배성, 균형잡힌 및 불균형한 다배수성)을 식별, 분류, 결정, 예측 및/또는 추론하기 위한 방법이 제공된다. 방법은 컴퓨터 소프트웨어 또는 하드웨어를 통해 구현될 수 있다. 방법은 또한 배아에서 다배수성(예를 들어, 일배성, 정배수성, 이배성, 균형잡힌 및 불균형한 다배수성)을 식별, 분류, 결정, 예측 및/또는 추론하기 위한 엔진의 조합을 포함할 수 있는 컴퓨팅 장치/시스템에서 구현될 수 있다. 다양한 구현예에서, 컴퓨팅 장치/시스템은 직접 연결을 통해 또는 인터넷 연결을 통해 데이터 공급원, 샘플 분석기 및 디스플레이 장치 중 하나 이상에 통신 가능하게 연결될 수 있다.
도 10은 다양한 구현예에 따른 배아(예를 들어, 인간 배아)에서 배수성을 검출하기 위한 시스템(1000)의 개략도이다. 시스템(1000)은 데이터 저장소(1010), 컴퓨팅 장치(1030) 및 디스플레이(1080)를 포함할 수 있다. 시스템(1000)은 또한 샘플 분석기(1090)를 포함할 수 있다.
샘플 분석기(1090)는 직렬 버스(둘 모두가 통합 기기 플랫폼(1012)을 형성하는 경우) 또는 네트워크 연결(둘 모두가 분산/별도 장치인 경우)에 의해 데이터 저장소(1010)에 통신 가능하게 연결될 수 있다. 샘플 분석기(1090)는 배아(1020)로부터 샘플을 분석하도록 구성될 수 있다. 샘플 분석기(1090)는 추가 분석을 위해 시퀀싱 데이터를 수집하기 위해 샘플을 시퀀싱하도록 구성된, 차세대 시퀀싱 기기와 같은 시퀀싱 기기일 수 있다. 다양한 구현예에서, 시퀀싱 데이터는 이어서 후속 처리를 위해 데이터 저장소(1010)에 저장될 수 있다. 다양한 구현예에서, 시퀀싱 데이터세트는 실시간으로 컴퓨팅 장치(1030)에 공급될 수 있다. 다양한 구현예에서, 시퀀싱 데이터세트는 또한 처리 전에 데이터 저장소(1010)에 저장될 수 있다. 다양한 구현예에서, 시퀀싱 데이터세트는 또한 실시간으로 컴퓨팅 장치(1030)에 공급될 수 있다.
데이터 저장소(1010)는 컴퓨팅 장치(1030)에 통신 가능하게 연결될 수 있다. 다양한 구현예에서, 컴퓨팅 장치(1030)는 "하드와이어드(hardwired)" 물리적 네트워크 연결(예를 들어, 인터넷, LAN, WAN, VPN 등) 또는 무선 네트워크 연결(예를 들어, Wi-Fi, WLAN 등)일 수 있는 네트워크 연결을 통해 데이터 저장소(1010)에 통신 가능하게 연결될 수 있다. 다양한 구현예에서, 컴퓨팅 장치(1030)는 워크스테이션, 메인프레임 컴퓨터, 분산 컴퓨팅 노드("클라우드 컴퓨팅" 또는 분산 네트워킹 시스템의 일부), 개인용 컴퓨터, 모바일 장치 등일 수 있다.
데이터 저장소(1010)는 배아 서열 데이터를 수신하도록 구성될 수 있다. 다양한 구체예에서, 배아 서열 데이터는 낮은 커버지리 시퀀싱에 의해 획득된다. 낮은 커버리지 시퀀싱은 약 0.001x와 10x 사이일 수 있다. 낮은 커버리지 시퀀싱은 약 0.01x와 0.5x 사이일 수 있다. 낮은 커버리지 시퀀싱은 약 0.25x와 0.2x 사이일 수 있다.
컴퓨팅 장치(1030)는 관심 영역 엔진(ROI 엔진) (1040), 단일 뉴클레오티드 다형성 식별 엔진(SNP 식별 엔진) (1050), 및 스코어링 엔진(1070)을 추가로 포함할 수 있다. 상기 언급된 바와 같이, 컴퓨팅 장치(1030)는 데이터 저장소(1010)에 통신 가능하게 연결될 수 있다.
ROI 엔진(1040)은 수신된 서열 데이터를 참조 게놈에 정렬하고 정렬된 배아 서열 데이터에서 관심 영역을 식별하도록 구성될 수 있다. 관심 영역은 게놈 전체일 수 있다.
SNP 식별 엔진(1050)은 수신된 서열 데이터를 정렬된 참조 게놈과 비교함으로써 서열 데이터에서 단일 뉴클레오티드 다형성(SNP)을 식별하도록 구성될 수 있다. SNP 식별 엔진(1050)은 시퀀싱 아티팩트를 제거하기 위해 배아 시퀀싱 데이터를 필터링하도록 추가로 구성될 수 있다. 필터링은 알려진 SNP의 참조 데이터베이스에 포함되지 않은 SNP를 제외하는 것을 포함할 수 있다. 참조 데이터베이스는 약 1000개의 알려진 게놈을 포함할 수 있다.
스코어링 엔진(1070)은 관심 영역에서 관찰된 SNP의 수를 계수하는 것을 포함하는 다배수체 스코어를 결정하도록 구성될 수 있다. 스코어링 엔진(1070)은 다배수체 스코어를 미리 결정된 역치와 비교하도록 구성될 수 있다. 스코어링 엔진(1070)은 다배수체 스코어가 미리 결정된 역치 미만인 경우 배아를 다배수체로 식별하도록 구성될 수 있다. 다양한 구현예에서, 다배수체는 균형 잡힌 다배수체이다.
배아의 배수성이 식별된 후, 컴퓨팅 장치에 통신 가능하게 연결된 디스플레이는 배아의 다배수체 분류를 포함하는 보고서를 디스플레이하도록 구성될 수 있다. 컴퓨팅 장치(1030)에 통신 가능하게 연결된 디스플레이 또는 클라이언트 터미널(1080)에 결과 또는 요약으로서 디스플레이될 수 있다. 다양한 구현예에서, 디스플레이(1080)는 씬 클라이언트 컴퓨팅 장치일 수 있다. 다양한 구현예에서, 디스플레이(1080)는 관심 영역 엔진(ROI 엔진) (1040), 단일 뉴클레오티드 다형성 식별 엔진(SNP 식별 엔진) (1050), 및 스코어링 엔진(1070)의 작동을 제어하는 데 사용될 수 있는 웹 브라우저(예를 들어, 인터넷 EXPLORERTM, FIREFOXTM, SAFARITM 등)를 갖는 개인용 컴퓨팅 장치일 수 있다.
스코어링 엔진(1070)은 다배수체 스코어가 미리 결정된 역치를 초과하는 경우 배아를 정배수체로 식별하도록 추가로 구성될 수 있다. 더욱이, 디스플레이(1080)는 배아의 정배수체 분류를 포함하는 보고서를 디스플레이하도록 추가로 구성될 수 있다.
특정 애플리케이션 또는 시스템 아키텍처의 요구사항에 따라 다양한 엔진이 단일 엔진, 구성요소 또는 모듈로 결합되거나 축소(collapse)될 수 있음을 이해해야 한다. 다양한 구현예에서, 관심 영역 엔진(ROI 엔진) (1040), 단일 뉴클레오티드 다형성 식별 엔진 (SNP 식별 엔진) (1050), 및 스코어링 엔진(1070)은 특정 애플리케이션 또는 시스템 아키텍처에 의해 필요에 따라 추가 엔진 또는 구성요소를 포함할 수 있다.
도 11은 다양한 구현에 따른 배아에서 배수성을 검출하기 위한 방법(1100)을 나타내는 예시적인 흐름도이다.
단계(1110)에서, 배아 서열 데이터가 수신된다. 다양한 구현예에서, 배아, 서열 데이터는 낮은 커버리지 시퀀싱에 의해 획득된다. 낮은 커버리지 시퀀싱은 약 0.001x와 10x 사이일 수 있다. 낮은 커버리지 시퀀싱은 약 0.01x와 0.5x 사이일 수 있다. 낮은 커버리지 시퀀싱은 약 0.25x와 0.2x 사이일 수 있다.
단계(1120)에서, 수신된 서열 데이터는 참조 게놈에 정렬된다.
단계(1130)에서, 정렬된 배아 서열 데이터에서 관심 영역이 식별된다. 관심 영역은 게놈 전체일 수 있다.
단계(1140)에서, 서열 데이터에서 단일 뉴클레오티드 다형성(SNP)은 수신된 서열 데이터를 정렬된 참조 게놈과 비교함으로써 식별된다. 다양한 구현예에서, 방법은 시퀀싱 아티팩트를 제거하기 위해 배아 시퀀싱 데이터를 필터링하는 단계를 추가로 포함할 수 있다. 필터링 단계는 알려진 SNP의 참조 데이터베이스에 포함되지 않은 SNP를 제외하는 것을 포함할 수 있다. 참조 데이터베이스는 약 1000개의 알려진 게놈을 포함할 수 있다.
단계(1150)에서, 배수성 스코어가 결정되고, 상기 스코어는 관심 영역에서 관찰된 SNP의 수를 계수함을 포함한다.
단계(1160)에서, 배수성 스코어는 미리 결정된 역치와 비교된다.
단계(1170)에서, 배아는 배수성 스코어가 미리 결정된 역치 미만인 경우 다배수체로서 식별된다. 다양한 구현예에서, 다배수체는 균형 잡힌 다배수체이다. 다양한 구현예에서, 배아는 배수성 스코어가 미리 결정된 역치를 초래하는 것처럼 식별된다.
실시예
일반적으로, 본원에 개시된 다양한 구현예에 기반하여, 낮은 내지 매우 낮은 커버리지 NGS 데이터에서 관찰된 SNV 발생의 예상 총 수(예컨대, SNV가 검출된 빈도)는 정배수체 게놈 핵산의 시퀀싱으로부터의 데이터보다 다배수체 게놈 핵산의 시퀀싱으로부터의 데이터에 더 낮다. 게놈 핵산의 시퀀싱(예를 들어, 낮은 커버리지 시퀀싱)에서 검출된 변이체 대립유전자(SNV)를 사용하여 게놈의 배수성을 추론 또는 분류하기 위한 방법 및 시스템을 개발하는 데 있어서, 배수성 변이체 대립유전자 검출 모델이 확립되고 시험되었다. 이들 실시예에 기재된 바와 같이, 게놈 핵산 시퀀싱으로부터의 서열 정보에서 정배수체 및 다배수체 게놈의 대체 대립유전자를 검출할 확률을 고려하는 알고리즘과 서열 커버리지("깊이"로 나타냄)의 인수분해(factoring)는 배수성 변이체 대립유전자 검출 모델을 구축하기 위해 샘플 데이터로 기계 학습을 사용하여 개발하고 개선되었다. 이 모델을 통해 샘플에 대한 SNV 서열 데이터를 기반으로 게놈 핵산 샘플(예를 들어, 배아로부터)에 할당될 수 있는 예측 스코어가 결정되었다. 역치 예측 스코어 값도 결정되었다. 게놈 핵산 샘플에 할당된 예측 스코어를 역치 스코어와 비교함으로써, 샘플의 배수성은 다배수성을 나타내는 역치 미만의 스코어로 추론된다.
방법 및 관찰을 검증하기 위해, 3개의 유동-셀은 96-플렉스에 정렬된 2X36 쌍-말단 NextSeq(Illumina) 데이터로 생성되었고, 이는 배아 영양외배엽 생검 샘플당 400만 개의 리드 쌍을 표적으로 하여 약 0.1x의 전형적인 커버리지를 생성한다(4×10^6 리드 * 2 * 36/3×10^9로 계산되고, 여기서, 분모는 염기쌍의 게놈 크기이고 2 * 36의 인자는 쌍-말단 시퀀싱(즉, 서열당 2개 리드)으로 인해 분자에 포함된다). 데이터-세트는 40개 이배체 경우(46:XX 또는 46:XY)와 10개 배수체 경우(69:XXX, 69:XXY 또는 96:XXXX)가 있는 3개의 배치에 걸쳐 복제물이 퍼져 있는 알려진 배수성의 87개의 인간 배아 세포 샘플을 포함한다. 쉼표로 분리된 파일의 데이터는 샘플 메타-데이터와 게놈 전체(염색체 1-22) 디지털 SNV 계수로 판독되었고 결과의 일치를 보장하기 위해 난수 씨드(random number seed)를 0의 임의의 값으로 설정하였다. 4000000개 미만의 리드 쌍을 갖는 샘플은 PGTai에 의해 결정된 바와 같이 모자이크 또는 완전한 이수성을 갖는 것으로 검출되었던 샘플과 마찬가지로 분석에서 제외되었다(예를 들어, 미국 특허 출원 공개 번호 2020/0111573에 기재된 것을 참조함). 데이터는 복제 및 다배수체 부류로 계층화하여 트레이닝(데이터의 70%) 및 시험(데이터의 30%) 세트로 무작위로 나누었다.
트레이닝 세트는 시퀀싱 커버리지, 다배수체 부류, 및 기타 설명 변수 간의 관계를 추정하기 위해 ANCOVA 선형 모델로 평가되었다. 이 경우, HG19 참조 게놈(rqc) 및 시퀀싱 커버리지(참조에 정렬된 리드 쌍의 수 측면에서)에 고유하게 정렬된 이종 위치(digital_count_hets로 지칭함)의 수 및 원래 서열 파일(FASTQ에서)로부터의 서열의 비율이 방법에 입력되었다.
도 4는 다배수체 효과 스코어 대 샘플에 대해 정렬된 리드 쌍의 수의 그래프로서 SNV 시퀀싱 측정(예를 들어, 식별된 SNV 부위의 총 수, ALT 대립유전자에 대한 서열 계수의 총 수, 정렬된 서열 리드의 총 수)의 트레이닝 데이터 세트에 도 3에 도시된 워크플로우에 해당하는 알고리즘을 적용한 결과를 나타낸다. 그래프 상의 각 원 또는 삼각형은 분석되었던 배아 샘플을 나타낸다. 원은 알려진 이배체 샘플에 해당하고 삼각형은 알려진 다배수체 샘플에 해당한다. 이 플롯은 참조 게놈(시퀀싱 커버리지 척도)으로 정렬되었던 샘플에서의 핵산의 시퀀싱으로부터 각 샘플에 대한 서열 리드 쌍의 수를 반영한다. 도 4에 나타낸 디스플레이는 시퀀싱 커버리지 측면에서 트레이닝 데이터 세트에 적용된 알고리즘에서 계산된 다배수체 효과 스코어를 기반으로 이배체 샘플과 다배수체 샘플 사이에서 얻은 분리를 예시한다. 이어서, 도 4에 나타낸 각 샘플에 대한 다배수체 효과 스코어는 각 샘플에 대한 예측 스코어를 얻기 위해 시퀀싱 커버리지 및 다른 공변량의 효과에 대해 조정되었다. 각 샘플에 대한 예측 스코어는 각 샘플을 나타내는 정사각형을 스코어 증가에 의해 구획되는 수직선 상의 지점에 정렬함으로써 도 5에 그래프로 나타낸다. 도면의 왼측에 정렬되고 정렬 아래에 "이배체"로 표시된 정사각형은 이배체 샘플을 나타내고 도면의 우측에 정렬되고 정렬된 아래에 "다배수체"로 표시된 정사각형은 다배수체 샘플을 나타낸다. 도 5는 대부분의 이배체 샘플이 약 0.98 초과의 스코어를 갖고 대부분의 다배수체 샘플이 약 0.98 미만인 스코어를 갖는 예측 스코어에 기반하여 달성된 다배수체 부류 사이의 분리를 예시한다.
도 6은 트레이닝 세트 데이터의 분석의 성능을 평가하기 위한 수신기 동작 특성(ROC) 곡선을 예시한다. 곡선은 임계값(역치)이 증가함에 따라 이진 가설(즉, 정배수성 또는 다배수성)에 대한 정확도(민감도 및 특이도)의 통일된 디스플레이를 제공한다. c=0.9804734의 역치에 대한 최적 임계값은 트레이닝 데이터(Youden, 1950; 대각선으로부터의 거리를 최대화하기 위해)로부터 추정되며 c를 사용한 트레이닝 세트 민감도/특이도는 0.91/0.91이다. 민감도 0.95 수준 신뢰 구간은 2000회의 부트스트래핑(bootstrapping) 복제 의해 (0.79, 0.98)로 추정된다. 95.8%의 AUC(곡선 아래 면적) 값은 정배수성과 다배수성을 구별하는 방법의 높은 정확도의 척도이다.
트레이닝 세트에서 데이터의 나머지 30%는 배수성 변이체 대립유전자 검출 모델 및 트레이닝 세트로부터 구성된 임계값을 사용하여 평가되었다. 도 7은 다배수체 효과 스코어 대 샘플에 대해 정렬된 리드 쌍의 수의 그래프로서 SNV 시퀀싱 측정(예를 들어, 식별된 SNV 부위의 총 수, ALT 대립유전자에 대한 서열 계수의 총 수, 정렬된 서열 리드의 총 수)의 트레이닝 데이터 세트에 도 3에 도시된 워크플로우에 해당하는 알고리즘을 적용한 결과를 나타낸다. 그래프 상의 각 원 또는 삼각형은 분석되었던 배아 샘플을 나타낸다. 원은 알려진 이배체 샘플에 해당하고 삼각형은 알려진 다배수체 샘플에 해당한다. 이 플롯은 참조 게놈(시퀀싱 커버리지의 척도)으로 정렬되었던 샘플에서의 핵산의 시퀀싱으로부터 각 샘플에 대한 서열 리드 쌍의 수를 반영한다. 도 7에 나타낸 디스플레이는 시퀀싱 커버리지 측면에서 트레이닝 데이터 세트에 적용된 알고리즘에서 계산된 다배수체 효과 스코어를 기반으로 이배체 샘플과 다배수체 샘플 사이에서 얻은 분리를 예시한다. 이어서, 도 7에 나타낸 각 샘플에 대한 다배수체 효과 스코어는 각 샘플에 대한 예측 스코어를 얻기 위해 시퀀싱 커버리지 및 다른 공변량의 효과에 대해 조정되었다. 각 샘플에 대한 예측 스코어는 각 샘플을 나타내는 정사각형을 스코어 증가에 의해 구획되는 수직선 상의 지점에 정렬함으로써 도 8에 그래프로 나타낸다. 도면의 왼측에 정렬되고 정렬 아래에 "이배체"로 표시된 정사각형은 이배체 샘플을 나타내고 도면의 우측에 정렬되고 정렬된 아래에 "다배수체"로 표시된 정사각형은 다배수체 샘플을 나타낸다. 도 8은 대부분의 이배체 샘플이 약 0.98 초과의 스코어를 갖고 대부분의 다배수체 샘플이 약 0.98 미만인 스코어를 갖는 예측 스코어에 기반하여 달성된 다배수체 부류 사이의 분리를 예시한다. 수평선은 역치 c =(트레이닝 데이터로부터 구성된 임계값)를 나타내며 c를 사용한 시험 세트 민감도/특이도는 0.93/0.92로 추정된다.
이어서, 교차 검증을 수행하여 독립적인 데이터세트에 대한 일반성을 추가로 평가하고 샘플 선택에서 가능한 과적합 또는 편향을 억제할 수 있다. 100배 몬테 카를로 교차-검정(Monte Carlo cross-validation)은 각 폴드가 계층화된 무작위 샘플링과 함께 상기와 동일한 절차를 수반하여 샘플을 트레이닝(샘플의 70%)으로 분할하고 시험(30%)을 트레이닝에 사용한 경우 수행되었다. 도 9에 예시된 바와 같이, 시험 세트에서 측정된 중앙값(median) 민감도/특이도는 0.87/0.94였으며 민감도의 95% 신뢰 구간은 상기 추정된 c.i.와 일치하는 (0.73, 1)로 추정된다. 최고의 씨드는 19였다.
컴퓨터 구현 시스템
다양한 구현예에서, 배아에서 배수성을 검출하는 방법은 컴퓨터 소프트웨어 또는 하드웨어를 통해 구현될 수 있다. 즉, 도 10에 도시된 바와 같이, 본원에 개시된 방법은 관심 영역 엔진(ROI 엔진) (1040), 단일 뉴클레오티드 다형성 식별 엔진(SNP 식별 엔진) (1050), 및 스코어링 엔진(1070)을 포함하는 컴퓨팅 장치(1030)에서 구현될 수 있다. 다양한 구현예에서, 컴퓨팅 장치(1030)는 직접 연결을 통해 또는 인터넷 연결을 통해 데이터 저장소(1010) 및 디스플레이 장치(1080)에 통신 가능하게 연결될 수 있다.
도 10에 도시된 다양한 엔진은 특정 애플리케이션 또는 시스템 아키텍처의 요구사항에 따라 단일 엔진, 구성요소 또는 모듈로 결합되거나 축소될 수 있음을 이해해야 한다. 더욱이, 다양한 구현예에서, 관심 영역 엔진(ROI 엔진) (1040), 단일 뉴클레오티드 다형성 식별 엔진(SNP 식별 엔진) (1050), 및 스코어링 엔진(1070)은 특정 애플리케이션 또는 시스템 아키텍처에 의해 필요에 따라 추가 엔진 또는 구성요소를 포함할 수 있다.
도 12는 본 교시의 실시예가 구현될 수 있는 컴퓨터 시스템(1200)을 예시하는 블록도이다. 본 교시의 다양한 구현예에서, 컴퓨터 시스템(1200)은 정보를 통신하기 위한 버스(1202) 또는 다른 통신 메커니즘, 및 정보를 처리하기 위해 버스(1202)와 결합된 프로세서(1204)를 포함할 수 있다. 다양한 구현예에서, 컴퓨터 시스템(1200)은 또한 프로세서(1204)에 의해 실행될 명령을 결정하기 위해 버스(1202)에 연결된 랜덤-액세스 메모리(RAM) (1206) 또는 다른 동적 저장 장치일 수 있는 메모리를 포함할 수 있다. 메모리는 또한 프로세서(1204)에 의해 실행될 명령의 실행 동안 임시 변수 또는 기타 중간 정보를 저장하는 데 사용될 수 있다. 다양한 구현예에서, 컴퓨터 시스템(1200)은 프로세서(1204)에 대한 정적 정보 및 명령을 저장하기 위해 버스(1202)에 연결된 ROM(read only memory) (1208) 또는 다른 정적 저장 장치를 추가로 포함할 수 있다. 자기 디스크 또는 광 디스크와 같은 저장 장치(1210)가 제공될 수 있고 정보 및 명령을 저장하기 위해 버스(1202)에 연결될 수 있다.
다양한 구현예에서, 컴퓨터 시스템(1200)은 버스(1202)를 통해 컴퓨터 사용자에게 정보를 디스플레이하기 위해 음극선관(CRT) 또는 액정 디스플레이(LCD)와 같은 디스플레이(1212)에 연결될 수 있다. 영숫자(alphanumeric) 및 기타 키를 포함하는 입력 장치(1214)는 정보 및 명령 선택을 프로세서(1204)에 통신하기 위해 버스(1202)에 연결될 수 있다. 또 다른 유형의 사용자 입력 장치는 프로세서(1204)에 방향 정보 및 명령 선택을 전달하고 디스플레이(1212) 상의 커서 이동을 제어하기 위한 마우스, 트랙볼 또는 커서 방향 키와 같은 커서 컨트롤(1216)이다. 이 입력 장치(1214)는 전형적으로, 장치가 평면에서 위치를 지정할 수 있게 하는 제1 축(즉, x) 및 제2 축(즉, y)의 2개의 축에서 2개의 자유도를 가진다. 그러나, 3차원(x, y 및 z) 커서 이동을 허용하는 입력 장치(1214)도 본원에서 고려된다는 것을 이해해야 한다.
본 교시의 특정 구현과 일치하여, 결과는 메모리(1206)에 포함된 하나 이상의 명령의 하나 이상의 순서를 실행하는 프로세서(1204)에 응답하여 컴퓨터 시스템(1200)에 의해 제공될 수 있다. 그러한 명령은 저장 장치(1210)와 같은 또 다른 컴퓨터-판독 가능한 매체 또는 컴퓨터-판독 가능한 저장 매체로부터 메모리(1206)로 판독될 수 있다. 메모리(1206)에 포함된 명령 순서의 실행은 프로세서(1204)가 본원에 설명된 프로세스를 수행하도록 할 수 있다. 대안적으로, 하드와이어드 회로는 본 교시를 구현하기 위해 소프트웨어 명령 대신에 또는 이와 함께 사용될 수 있다. 따라서, 본 교시의 구현은 하드웨어 회로 및 소프트웨어의 임의의 특정 조합으로 제한되지 않는다.
본원에 사용된 용어 "컴퓨터-판독 가능한 매체"(예를 들어, 데이터 저장소, 데이터 저장 장치 등) 또는 "컴퓨터-판독 가능한 저장 매체"는 실행을 위해 프로세서(1204)에 명령을 제공하는 데 참여하는 임의의 매체를 지칭한다. 그러한 매체는 비휘발성 매체, 휘발성 매체 및 전송 매체를 포함하지만 이에 제한되지 않는 많은 형태를 취할 수 있다. 비휘발성 매체의 예는 광, 솔리드 스테이트(solid state), 자기 디스크, 예컨대 저장 장치(1210)를 포함할 수 있지만 이에 제한되지 않는다. 휘발성 매체의 예는 메모리(1206)와 같은 동적 메모리를 포함할 수 있지만 이에 제한되지 않는다. 전송 매체의 예는 버스(1202)를 포함하는 와이어를 포함하는 동축 케이블, 구리 와이어, 및 광섬유를 포함할 수 있지만 이에 제한되지 않는다.
컴퓨터-판독 가능한 매체의 통상적인 형태는, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 자기 테이프 또는 임의의 기타 자기 매체, CD-ROM, 임의의 기타 광학 매체, 펀치 카드, 종이 테이프, 구멍 패턴을 갖는 임의의 기타 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, 임의의 기타 메모리 칩 또는 카트리지, 또는 컴퓨터가 판독할 수 있는 임의의 기타 유형(tangible) 매체를 포함한다.
컴퓨터 판독 가능한 매체에 추가하여, 명령 또는 데이터는 실행을 위해 컴퓨터 시스템(1200)의 프로세서(1204)에 하나 이상의 명령의 순서를 제공하기 위해 통신 장치 또는 시스템에 포함된 전송 매체 상의 신호로서 제공될 수 있다. 예를 들어, 통신 장치는 명령 및 데이터를 나타내는 신호를 갖는 트랜시버를 포함할 수 있다. 명령 및 데이터는 하나 이상의 프로세서가 본원 개시내용에 요약된 기능을 구현하도록 구성된다. 데이터 통신 전송 연결의 대표적인 예는 전화 모뎀 연결, 광역 네트워크(WAN: wide area networks), 근거리 통신망(LAN: local area networks), 적외선 데이터 연결, NFC 연결 등을 포함할 수 있지만 이에 제한되지 않는다.
본원에 기재된 방법론, 흐름도, 다이어그램 및 수반되는 개시내용은 독립 장치(standalone device)로서 컴퓨터 시스템(1200)을 사용하여 또는 분산 네트워크 또는 공유 컴퓨터 처리 자원, 예컨대 클라우드 컴퓨팅 네트워크 상에서 구현될 수 있음을 이해해야 한다.
본원에 기재된 방법론은 애플리케이션에 따라 다양한 수단에 의해 구현될 수 있다. 예를 들어, 이러한 방법론은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 하드웨어 구현의 경우, 처리 유닛은 하나 이상의 특정 용도용 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리 장치(DSPD), 프로그램 가능한 논리 장치(PLD), 필드 프로그램 가능한 게이트 어레이(FPGA: field programmable gate array), 프로세서, 컨트롤서, 마이크로-컨트롤러, 마이크로프로세서, 전자 장치, 본원에 기재된 기능을 수행하도록 설계된 기타 전자 유닛, 또는 이들의 조합 내에 구현될 수 있다.
다양한 구현예에서, 본 교시의 방법은 펌웨어 및/또는 소프트웨어 프로그램 및 C, C++, 파이썬 등과 같은 통상적인 프로그래밍 언어로 작성된 애플리케이션으로서 구현될 수 있다. 펌웨어 및/또는 소프트웨어로서 구현되는 경우, 본원에 기재된 구현예는 컴퓨터가 상기 기재된 방법들을 수행하도록 하기 위해 프로그램이 저장된 비일시적 컴퓨터-판독 가능한 매체 상에서 구현될 수 있다. 본원에 기재된 다양한 엔진은 도 12의 컴퓨터 시스템(1200)과 같은 컴퓨터 시스템에 제공될 수 있으며, 이에 의해 프로세서(1204)는 메모리 구성요소(1206/1208/1210) 및 입력 장치(1214)를 통해 제공되는 사용자 입력 중 어느 하나 또는 이들의 조합에 의해 제공되는 명령에 따라 이러한 엔진에 의해 제공되는 분석 및 결정을 실행할 것임을 이해해야 한다.
본 교시가 다양한 구현예와 관련하여 설명되지만, 본 교시는 그러한 구현예로 제한되도록 의도되지 않는다. 반대로, 본 교시는 당업자에 의해 이해되는 바와 같이 다양한 대안, 변형 및 등가물을 포함한다.
다양한 구현예를 설명할 때, 명세서는 방법 및/또는 프로세스를 특정 단계의 순서로 제시했을 수 있다. 그러나, 방법 또는 프로세스가 본원에 명시된 특정 순서의 단계에 의존하지 않는 한, 방법 또는 프로세스는 설명된 특정 순서의 단계로 제한되어서는 안 된다. 당해 기술분야의 숙련가가 이해할 수 있는 바와 같이, 단계의 다른 순서가 가능할 수 있다. 따라서, 명세서에 명시된 단계의 특정 순서는 임의의 청구범위에 대한 제한으로 해석되어서는 안 된다. 또한, 방법 및/또는 프로세스에 대한 임의의 청구범위는 기재된 순서로 이들의 단계의 수행으로 제한되어서는 안 되며, 당해 기술분야의 숙련가는 순서가 변경될 수 있고 여전히 다양한 구현예의 범주 및 범위 내에서 유지될 수 있음을 쉽게 이해할 수 있다.
구현예의 열거
구현예 1: 배아에서 배수성을 검출하기 위한 방법으로서,
배아 서열 데이터를 수신하는 단계;
상기 수신된 서열 데이터를 참조 게놈에 정렬하는 단계;
상기 정렬된 배아 서열 데이터에서 관심 영역을 식별하는 단계;
상기 수신된 서열 데이터를 상기 정렬된 참조 게놈과 비교함으로써 서열 데이터에서 단일 뉴클레오티드 다형성(SNP)을 식별하는 단계;
관심 영역에서 관찰된 SNP의 수를 계수함을 포함하는 배수성 스코어를 결정하는 단계;
상기 배수성 스코어를 미리 결정된 역치와 비교하는 단계; 및
상기 배수성 스코어가 미리 결정된 역치 미만인 경우 배아를 다배수체로서 식별하는 단계를 포함하는 방법.
구현예 2: 구현예 1에 있어서, 상기 배수성 스코어는 미리 결정된 역치를 초과하는 경우 배아를 정배수체로서 식별하는 단계를 추가로 포함하는, 방법.
구현예 3: 구현예 1 또는 2에 있어서, 상기 다배수체는 균형 잡힌 다배수체인, 방법.
구현예 4: 구현예 1 내지 3 중 어느 하나에 있어서, 상기 배아 서열 데이터는 낮은 커버리지 시퀀싱에 의해 획득되는, 방법.
구현예 5: 구현예 4에 있어서, 상기 낮은 커버리지 시퀀싱은 약 0.001x와 10x 사이인, 방법.
구현예 6: 구현예 4에 있어서, 상기 낮은 커버리지 시퀀싱은 약 0.01x와 0.5x 사이인, 방법.
구현예 7: 구현예 4에 있어서, 상기 낮은 커버리지 시퀀싱은 약 0.25x와 0.2x 사이인, 방법.
구현예 8: 구현예 1 내지 7 중 어느 하나에 있어서, 상기 관심 영역은 게놈 전체인, 방법.
구현예 9: 구현예 1 내지 8 중 어느 하나에 있어서, 시퀀싱 아티팩트를 제거하기 위해 상기 배아 시퀀싱 데이터를 필터링하는 단계를 추가로 포함하는, 방법.
구현예 10: 구현예 9에 있어서, 상기 필터링 단계는 알려진 SNP의 참조 데이터베이스에 포함되지 않은 SNP를 제외하는 것을 포함하는, 방법.
구현예 11: 구현예 10에 있어서, 상기 참조 데이터베이스은 약 1000개의 알려진 게놈을 포함하는, 방법.
구현예 12: 배아에서 배수성을 검출하기 위한 컴퓨터 명령을 저장하는 비일시적 컴퓨터-판독 가능한 매체로서, 상기 컴퓨터 명령은 배아에서 배수성을 검출하기 위해 하기의 동작들을 수행하도록 하며, 상기 동작들은:
배아 서열 데이터를 수신하는 동작;
상기 수신된 서열 데이터를 참조 게놈에 정렬하는 동작;
상기 정렬된 배아 서열 데이터에서 관심 영역을 식별하는 동작;
상기 수신된 서열 데이터를 상기 정렬된 참조 게놈과 비교함으로써 서열 데이터에서 단일 뉴클레오티드 다형성(SNP)을 식별하는 동작;
관심 영역에서 관찰된 SNP의 수를 계수함을 포함하는 배수성 스코어를 결정하는 동작;
상기 배수성 스코어를 미리 결정된 역치와 비교하는 동작; 및
상기 배수성 스코어는 미리 결정된 역치 미만인 경우 배아를 다배수체로서 식별하는 동작을 포함하는 비일시적 컴퓨터-판독 가능한 매체.
구현예 13: 구현예 12에 있어서, 상기 배수성 스코어는 미리 결정된 역치를 초과하는 경우 배아를 정배수체로서 식별하는 동작을 추가로 포함하는, 방법.
구현예 14: 구현예 12 또는 13에 있어서, 상기 다배수체는 균형 잡힌 다배수체인, 비일시적 컴퓨터-판독 가능한 매체.
구현예 15: 구현예 12 내지 14 중 어느 하나에 있어서, 상기 배아 서열 데이터는 낮은 커버리지 시퀀싱에 의해 획득되는, 비일시적 컴퓨터-판독 가능한 매체.
구현예 16: 구현예 15에 있어서, 상기 낮은 커버리지 시퀀싱은 약 0.001x와 10x 사이인, 비일시적 컴퓨터-판독 가능한 매체.
구현예 17: 구현예 15에 있어서, 상기 낮은 커버리지 시퀀싱은 약 0.01x와 0.5x 사이인, 방법.
구현예 18: 구현예 15에 있어서, 상기 낮은 커버리지 시퀀싱은 약 0.25x와 0.2x인, 방법.
구현예 19: 구현예 12 내지 18 중 어느 하나에 있어서, 상기 관심 영역은 게놈 전체인, 방법.
구현예 20: 구현예 12 내지 19 중 어느 하나에 있어서, 시퀀싱 아티팩트를 제거하기 위해 상기 배아 시퀀싱 데이터를 필터링하는 동작을 추가로 포함하는, 방법.
구현예 21: 구현예 20에 있어서, 상기 필터링하는 동작은 알려진 SNP의 참조 데이터베이스에 포함되지 않은 SNP를 제외하는 동작을 포함하는, 방법.
구현예 22: 구현예 21에 있어서, 상기 참조 데이터베이스는 약 1000개의 알려진 게놈을 포함하는, 방법.
구현예 23: 배아에서 배수성을 검출하기 위한 시스템으로서,
배아 서열 데이터를 수신하기 위한 데이터 저장소;
상기 데이터 저장소에 통신 가능하게 연결된 컴퓨팅 장치; 및
상기 컴퓨팅 장치에 통신 가능하게 연결되고 배아의 다배수체 분류를 포함하는 보고서를 디스플레이하도록 구성된 디스플레이;
를 포함하고, 그리고
상기 컴퓨팅 장치는,
상기 수신된 서열 데이터를 참조 게놈에 정렬하고 상기 정렬된 배아 서열 데이터에서 관심 영역을 식별하도록 구성된 ROI 엔진;
상기 수신된 서열 데이터를 상기 정렬된 참조 게놈과 비교함으로써 서열 데이터에서 단일 뉴클레오티드 다형성(SNP)을 식별하도록 구성된 SNP 식별 엔진; 및
관심 영역에서 관찰된 SNP의 수를 계수하는 것을 포함하여 다배수체 스코어를 결정하고 상기 다배수체 스코어를 미리 결정된 역치와 비교하고 상기 다배수체 스코어가 미리 결정된 역치 미만인 경우 배아를 다배수체로서 식별하도록 구성된 스코어링 엔진;
을 포함하는, 시스템.
구현예 24: 구현예 23에 있어서, 상기 스코어링 엔진은, 상기 다배수체 스코어가 미리 결정된 역치를 초과하는 경우 배아를 정배수체로서 식별하도록 추가로 구성되는, 시스템,
구현예 25: 구현예 23 또는 24에 있어서, 상기 디스플레이는 배아의 정배수체 분류를 포함하는 보고서를 디스플레이하도록 추가로 구성되는, 시스템.
구현예 26: 구현예 23 내지 25 중 어느 하나에 있어서, 상기 다배수체는 균형 잡힌 다배수체인, 시스템.
구현예 27: 구현예 23 내지 26 중 어느 하나에 있어서, 상기 배아 서열 데이터는 낮은 커버리지 시퀀싱에 의해 획득되는, 시스템.
구현예 28: 구현예 27에 있어서, 상기 낮은 커버리지 시퀀싱은 약 0.001x와 10x 사이인, 시스템.
구현예 29: 구현예 27에 있어서, 상기 낮은 커버리지 시퀀싱은 약 0.01x와 0.5x 사이인, 시스템.
구현예 30: 구현예 27에 있어서, 상기 낮은 커버리지 시퀀싱은 약 0.25x와 0.2x 사이인, 시스템.
구현예 31: 구현예 23 내지 30 중 어느 하나에 있어서, 상기 관심 영역은 게놈 전체인, 시스템.
구현예 32: 구현예 23 내지 31 중 어느 하나에 있어서, 상기 SNP 식별 엔진은 배아 시퀀싱 데이터를 필터링하여 시퀀싱 아티팩트를 제거하도록 추가로 구성되는, 시스템.
구현예 33: 구현예 32에 있어서, 상기 필터링하는 것은 알려진 SNP의 참조 데이터베이스에 포함되지 않은 SNP를 제외하는 것을 포함하는, 시스템.
구현예 34: 구현예 33에 있어서, 상기 참조 데이터베이스는 약 1000개의 알려진 게놈을 포함하는, 시스템.

Claims (34)

  1. 배아에서 배수성을 검출하기 위한 방법으로서,
    배아 서열 데이터를 수신하는 단계;
    상기 수신된 서열 데이터를 참조 게놈에 정렬하는 단계;
    정렬된 상기 배아 서열 데이터에서 관심 영역을 식별하는 단계;
    상기 수신된 서열 데이터를 상기 정렬된 참조 게놈과 비교함으로써 상기 서열 데이터에서 단일 뉴클레오티드 다형성(SNP: single nucleotide polymorphism)들을 식별하는 단계;
    상기 관심 영역에서 관찰된 SNP들의 수를 계수함을 포함하는 배수성 스코어를 결정하는 단계;
    상기 배수성 스코어를 미리 결정된 역치와 비교하는 단계; 및
    상기 배수성 스코어가 상기 미리 결정된 역치 미만인 경우 상기 배아를 다배수체(polyploid)로서 식별하는 단계;
    를 포함하는,
    방법.
  2. 제1항에 있어서,
    상기 배수성 스코어는 상기 미리 결정된 역치를 초과하는 경우 상기 배아를 정배수체로서 식별하는 단계;
    를 더 포함하는,
    방법.
  3. 제1항에 있어서,
    상기 다배수체는 균형 잡힌 다배수체인,
    방법.
  4. 제1항에 있어서,
    상기 배아 서열 데이터는 낮은 커버리지(coverage) 시퀀싱에 의해 획득되는,
    방법.
  5. 제4항에 있어서,
    상기 낮은 커버리지 시퀀싱은 약 0.001x와 10x 사이인,
    방법.
  6. 제4항에 있어서,
    상기 낮은 커버리지 시퀀싱은 약 0.01x와 0.5x 사이인,
    방법.
  7. 제4항에 있어서,
    상기 낮은 커버리지 시퀀싱은 약 0.25x와 0.2x 사이인,
    방법.
  8. 제1항에 있어서,
    상기 관심 영역은 게놈 전체인,
    방법.
  9. 제1항에 있어서,
    시퀀싱 아티팩트(artifact)들을 제거하기 위해 상기 배아 서열 데이터를 필터링하는 단계;
    를 더 포함하는,
    방법.
  10. 제9항에 있어서,
    상기 필터링하는 단계는,
    알려진 SNP들의 참조 데이터베이스에 포함되지 않은 SNP들을 제외시키는 단계;
    를 포함하는,
    방법.
  11. 제10항에 있어서,
    상기 참조 데이터베이스는 약 1000개의 알려진 게놈을 포함하는,
    방법.
  12. 배아에서 배수성을 검출하기 위한 컴퓨터 명령들을 저장하는 비일시적 컴퓨터-판독 가능한 매체로서, 상기 컴퓨터 명령들은 배아에서 배수성을 검출하기 위해 하기의 동작들을 수행하도록 하며, 상기 동작들은:
    배아 서열 데이터를 수신하는 동작;
    상기 수신된 서열 데이터를 참조 게놈에 정렬하는 동작;
    정렬된 상기 배아 서열 데이터에서 관심 영역을 식별하는 동작;
    상기 수신된 서열 데이터를 상기 정렬된 참조 게놈과 비교함으로써 상기 서열 데이터에서 단일 뉴클레오티드 다형성(SNP)들을 식별하는 동작;
    상기 관심 영역에서 관찰된 SNP들의 수를 계수함을 포함하는 배수성 스코어를 결정하는 동작;
    상기 배수성 스코어를 미리 결정된 역치와 비교하는 동작; 및
    상기 배수성 스코어가 상기 미리 결정된 역치 미만인 경우 상기 배아를 다배수체로서 식별하는 동작;
    을 포함하는,
    비일시적 컴퓨터-판독 가능한 매체.
  13. 제12항에 있어서,
    상기 배수성 스코어가 상기 미리 결정된 역치를 초과하는 경우 상기 배아를 정배수체로서 식별하는 동작;
    을 더 포함하는,
    비일시적 컴퓨터-판독 가능한 매체.
  14. 제13항에 있어서,
    상기 다배수체는 균형 잡힌 다배수체인,
    비일시적 컴퓨터-판독 가능한 매체.
  15. 제12항에 있어서,
    상기 배아 서열 데이터는 낮은 커버리지 시퀀싱에 의해 획득되는,
    비일시적 컴퓨터-판독 가능한 매체.
  16. 제15항에 있어서,
    상기 낮은 커버리지 시퀀싱은 약 0.001x와 10x 사이인,
    비일시적 컴퓨터-판독 가능한 매체.
  17. 제15항에 있어서,
    상기 낮은 커버리지 시퀀싱은 약 0.01x와 0.5x 사이인,
    비일시적 컴퓨터-판독 가능한 매체.
  18. 제15항에 있어서,
    상기 낮은 커버리지 시퀀싱은 약 0.25x와 0.2x인,
    비일시적 컴퓨터-판독 가능한 매체.
  19. 제12항에 있어서,
    상기 관심 영역은 게놈 전체인,
    비일시적 컴퓨터-판독 가능한 매체.
  20. 제12항에 있어서,
    시퀀싱 아티팩트들을 제거하기 위해 상기 배아 서열 데이터를 필터링하는 동작;
    을 더 포함하는,
    비일시적 컴퓨터-판독 가능한 매체.
  21. 제20항에 있어서,
    상기 필터링하는 동작은,
    알려진 SNP들의 참조 데이터베이스에 포함되지 않은 SNP들을 제외시키는 동작;
    을 포함하는,
    비일시적 컴퓨터-판독 가능한 매체.
  22. 제21항에 있어서,
    상기 참조 데이터베이스는 약 1000개의 알려진 게놈을 포함하는,
    비일시적 컴퓨터-판독 가능한 매체.
  23. 배아에서 배수성을 검출하기 위한 시스템으로서,
    배아 서열 데이터를 수신하기 위한 데이터 저장소;
    상기 데이터 저장소에 통신 가능하게 연결된 컴퓨팅 장치; 및
    상기 컴퓨팅 장치에 통신 가능하게 연결되고 상기 배아의 다배수체 분류를 포함하는 보고서를 디스플레이하도록 구성된 디스플레이;
    를 포함하고, 그리고
    상기 컴퓨팅 장치는,
    상기 수신된 서열 데이터를 참조 게놈에 정렬하고 정렬된 상기 배아 서열 데이터에서 관심 영역을 식별하도록 구성된 ROI 엔진;
    상기 수신된 서열 데이터를 상기 정렬된 참조 게놈과 비교함으로써 상기 서열 데이터에서 단일 뉴클레오티드 다형성(SNP)들을 식별하도록 구성된 SNP 식별 엔진; 및
    상기 관심 영역에서 관찰된 SNP들의 수를 계수하는 것을 포함하여 다배수체 스코어를 결정하고 상기 다배수체 스코어를 미리 결정된 역치와 비교하고 상기 다배수체 스코어가 상기 미리 결정된 역치 미만인 경우 상기 배아를 다배수체로서 식별하도록 구성된 스코어링 엔진;
    을 포함하는,
    시스템.
  24. 제23항에 있어서,
    상기 스코어링 엔진은,
    상기 다배수체 스코어가 상기 미리 결정된 역치를 초과하는 경우 상기 배아를 정배수체로서 식별하도록 추가로 구성되는,
    시스템,
  25. 제24항에 있어서,
    상기 디스플레이는 상기 배아의 상기 정배수체 분류를 포함하는 보고서를 디스플레이하도록 추가로 구성되는,
    시스템.
  26. 제23항에 있어서,
    상기 다배수체는 균형 잡힌 다배수체인,
    시스템.
  27. 제23항에 있어서,
    상기 배아 서열 데이터는 낮은 커버리지 시퀀싱에 의해 획득되는,
    시스템.
  28. 제27항에 있어서,
    상기 낮은 커버리지 시퀀싱은 약 0.001x와 10x 사이인,
    시스템.
  29. 제27항에 있어서,
    상기 낮은 커버리지 시퀀싱은 약 0.01x와 0.5x 사이인,
    시스템.
  30. 제27항에 있어서,
    상기 낮은 커버리지 시퀀싱은 약 0.25x와 0.2x 사이인,
    시스템.
  31. 제23항에 있어서,
    상기 관심 영역은 게놈 전체인,
    시스템.
  32. 제23항에 있어서,
    상기 SNP 식별 엔진은 상기 배아 서열 데이터를 필터링하여 시퀀싱 아티팩트들을 제거하도록 추가로 구성되는,
    시스템.
  33. 제32항에 있어서,
    상기 필터링하는 것은 알려진 SNP들의 참조 데이터베이스에 포함되지 않은 SNP들을 제외시키는 것을 포함하는,
    시스템.
  34. 제33항에 있어서,
    상기 참조 데이터베이스는 약 1000개의 알려진 게놈을 포함하는,
    시스템.
KR1020227002131A 2019-06-21 2020-06-19 게놈 배수성을 결정하기 위한 시스템 및 방법(systems and methods for determining genome ploidy) KR20220064952A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962865122P 2019-06-21 2019-06-21
US62/865,122 2019-06-21
PCT/US2020/038826 WO2020257719A1 (en) 2019-06-21 2020-06-19 Systems and methods for determining genome ploidy

Publications (1)

Publication Number Publication Date
KR20220064952A true KR20220064952A (ko) 2022-05-19

Family

ID=71575813

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227002131A KR20220064952A (ko) 2019-06-21 2020-06-19 게놈 배수성을 결정하기 위한 시스템 및 방법(systems and methods for determining genome ploidy)

Country Status (8)

Country Link
US (1) US20200402610A1 (ko)
EP (1) EP3987524A1 (ko)
JP (1) JP7446343B2 (ko)
KR (1) KR20220064952A (ko)
CN (1) CN114258572A (ko)
AU (1) AU2020296110B2 (ko)
CA (1) CA3143759A1 (ko)
WO (1) WO2020257719A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116779035B (zh) * 2023-05-26 2024-03-15 成都基因汇科技有限公司 多倍体转录组亚基因组分型方法及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008528040A (ja) 2005-02-01 2008-07-31 アジェンコート バイオサイエンス コーポレイション ビーズベースの配列決定のための試薬、方法およびライブラリー
JP6153874B2 (ja) * 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド 非侵襲的出生前倍数性呼び出しのための方法
US10196681B2 (en) * 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10262755B2 (en) * 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
BR112016007401B1 (pt) * 2013-10-04 2023-04-11 Sequenom, Inc. Método para determinar a presença ou ausência de uma aneuploidia cromossômica em uma amostra
WO2020073058A1 (en) 2018-10-05 2020-04-09 Coopergenomics, Inc. Systems and methods for identifying chromosomal abnormalities in an embryo

Also Published As

Publication number Publication date
US20200402610A1 (en) 2020-12-24
CA3143759A1 (en) 2020-12-24
WO2020257719A1 (en) 2020-12-24
JP2022537443A (ja) 2022-08-25
CN114258572A (zh) 2022-03-29
JP7446343B2 (ja) 2024-03-08
EP3987524A1 (en) 2022-04-27
AU2020296110B2 (en) 2023-07-27
AU2020296110A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
EP2321642B1 (en) Methods for allele calling and ploidy calling
US20220106642A1 (en) Multiplexed Parallel Analysis Of Targeted Genomic Regions For Non-Invasive Prenatal Testing
JP7333838B2 (ja) 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法
Deleye et al. Massively parallel sequencing of micro-manipulated cells targeting a comprehensive panel of disease-causing genes: A comparative evaluation of upstream whole-genome amplification methods
US20200399701A1 (en) Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos
JP7446343B2 (ja) ゲノム倍数性を判定するためのシステム、コンピュータプログラム及び方法
US20230307130A1 (en) Methods and related aspects for analyzing chromosome number status