KR20220062263A - 배아에서 유전 패턴을 결정하기 위한 시스템 및 방법(systems and methods for determining pattern of inheritance in embryos) - Google Patents

배아에서 유전 패턴을 결정하기 위한 시스템 및 방법(systems and methods for determining pattern of inheritance in embryos) Download PDF

Info

Publication number
KR20220062263A
KR20220062263A KR1020227001870A KR20227001870A KR20220062263A KR 20220062263 A KR20220062263 A KR 20220062263A KR 1020227001870 A KR1020227001870 A KR 1020227001870A KR 20227001870 A KR20227001870 A KR 20227001870A KR 20220062263 A KR20220062263 A KR 20220062263A
Authority
KR
South Korea
Prior art keywords
sequence data
maternal
paternal
embryo
embryonic
Prior art date
Application number
KR1020227001870A
Other languages
English (en)
Inventor
존 버크
브라이언 리스
조슈아 데이비드 블라잭
마이클 존 라지
Original Assignee
쿠퍼서지컬, 인코퍼레이션.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 쿠퍼서지컬, 인코퍼레이션. filed Critical 쿠퍼서지컬, 인코퍼레이션.
Publication of KR20220062263A publication Critical patent/KR20220062263A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

관심 영역에 대해 배아에서 유전 패턴을 결정하는 방법으로서, 배아, 모계 및 부계 서열 데이터를 수신하는 단계; 참조 게놈에 수신된 서열 데이터를 정렬하는 단계; 정렬된 배아 서열 데이터에서 관심 영역을 식별하는 단계; 모계 서열 데이터, 부계 서열 데이터, 및 배아 서열 데이터에서의 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(SNP)을 식별하는 단계; 대치 참조를 사용하여 모계 서열 데이터 및 부계 서열 데이터에서 누락 갭을 대치하는 단계; 모계/부계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 모계/부계 서열 데이터 상의 해당하는 영역에서 배아와 모체/부체 사이에서 공통인 SNP의 수를 카운팅하는 단계; 및 모체와 부체 사이에 상대적 기여 값을 기초로 하여 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하는 단계를 포함하는 방법에 제공된다.

Description

배아에서 유전 패턴을 결정하기 위한 시스템 및 방법(SYSTEMS AND METHODS FOR DETERMINING PATTERN OF INHERITANCE IN EMBRYOS)
본원에 제공된 구현예는 일반적으로 게놈 핵산(예를 들어, 게놈 DNA)의 분석 및 게놈 특징의 분류화를 위한 시스템 및 방법에 관한 것이다. 본원에 제공된 구현예들 중에는 세포, 예를 들어, 배아, 또는 유기체에서, 예를 들어, 염색체 이상과 같은 게놈 특징의 유전 패턴을 결정하는 것과 관련된 시스템 및 방법이 포함된다.
체외 수정(In vitro fertilization; IVF)은 고령의 모계 연령의 여성, 임신에 어려움을 겪고 있는 부부에게 및 인공 수정자를 촉진하는 수단으로서 점점 인기를 얻는 보조 생식 기술이다. 수정 과정은 난자를 추출하고, 정자 샘플을 채취하고, 이후에, 실험실 환경에서 난자와 정자를 수동으로 결합하는 것을 포함한다. 이후에, 배아(들)는 배아를 만삭까지 지니기 위해 숙주 자궁에 이식된다.
IVF 절차는 고가이고, 환자에게 상당한 정서적/신체적 피해를 줄 수 있으며, 이에 따라, 이식 전 배아의 유전학적 스크리닝은 IVF 절차를 받는 환자에게 점점 일반화되고 있다. 예를 들어, 현재 IVF 배아는 일반적으로 유전적 이상(예를 들어, SNP, 이수성(aneuploidy), 등) 및 전이 생존력(즉, 배아 이식 생존력)에 영향을 미칠 수 있는 다른 조건에 대해 스크리닝된다.
또한, 이상, 예를 들어, 이수성의 식별 시에, 이상(abnormality)의 유전 패턴(POI)이 모체 또는 부체에서 유래한 것인지를 결정하는 것이 종종 바람직하다. 그러나, 이러한 것은 현재, 마이크로어레이 또는 다른 타입의 더 높은 커버리지 게놈 시퀀싱(higher coverage genomic sequencing)을 사용하는 고가의 추가 절차를 필요로 한다.
이와 같이, 이상의 유전 패턴을 결정하기 위해 염색체 이상, 예를 들어, 이수성의 기원을 모계 또는 부계 계통에서 유래되는 것으로서 분류하기 위한 더욱 신속하고 저렴한 시스템 및 방법이 필요하다.
본원에는, 게놈 핵산(게놈 DNA)의 분석 및 예를 들어, 유전적 이상을 포함하는 게놈 특징의 분류를 위한 방법 및 시스템이 제공된다. 일부 구현예에서, 방법 및 시스템은 게놈 특징을 검출하거나 식별하고/하거나 게놈 특징의 유전 패턴을 결정하는, 예를 들어, 세포, 예를 들어, 이배체 세포 또는 배아, 및/또는 유기체에서 게놈 핵산(게놈 DNA)의 게놈 특징의 부모 기원을 분류하는 데 사용된다. 일부 구현예에서, 게놈 특징은 유전적 이상, 예를 들어, 염색체 이상, 예를 들어, 이수성, 배수성(polyploidy), 및/또는 부분 염색체 이득/상실이다.
본원에 제공된 방법 및 시스템은 세포 또는 유기체의 게놈, 게놈 특징 및/또는 게놈 핵산(게놈 DNA) 서열을 분석, 평가, 특징분석 및/또는 결정하는 방법을 포함한다. 일부 구현예에서, 본원에 제공된 방법 및 시스템에서 사용되는 게놈 서열 데이터는 예를 들어, 핵산 시퀀싱(sequencing, 염기서열화) 방법, 예를 들어, 차세대 시퀀싱(NGS) 방법, 예를 들어, 낮은-커버리지(low-coverage) 및/또는 낮은-심도(low-depth)(예를 들어, 낮은-해상도) 전체 게놈 시퀀싱 방법에 의해 얻어진다. 본원에 제공된 방법 및 시스템에서 낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은-해상도) 전체 게놈 시퀀싱으로부터 얻어진 더 낮은 해상도의 핵산 시퀀싱 데이터를 활용하는 능력은 예를 들어, 증가된 효능(예를 들어, 다수의 샘플의 다중 시퀀싱을 허용함) 및 감소된 시간 및 비용을 포함하는 상당한 장점을 제공한다. 일부 구현예에서, 본원에 제공된 방법 및 시스템은 하나 이상 또는 복수의 게놈 특징을 검출 및/또는 식별하고/하거나 게놈 특징의 부모 기원 또는 계통이 모계 또는 부계인 지의 여부를 결정, 예측, 및/또는 추론하기 위해 하나 이상 또는 복수의 게놈 특징의 유전 패턴을 평가, 분류화 또는 결정하는 데 사용된다. 일부 구현예에서, 게놈 특징은 예를 들어, 염색체 이상과 같은 유전적 이상이다. 일부 구현예에서, 게놈 특징은 예를 들어, 이수성 및/또는 배수성과 같은 염색체 이상이다. 일부 구현예에서, 방법 및 시스템은 예를 들어, 이식 전에, IVF를 통해 생성된 배아를 포함하는, 배아에서 하나 이상 또는 복수의 게놈 특징의 부모 기원을 검출, 식별 및/또는 분류하기 위해 사용된다. 일부 구현예에서, 본원에 제공된 방법 및 시스템은 이식 전에, IVF 배아와 같은 배아에서, 이수성 및/또는 배수성과 같은 염색체 이상의 부모 기원을 검출, 식별 및/또는 분류하기 위해 사용된다. 일부 구현예에서, 본원에 제공된 방법 및 시스템은 세포(들), 예를 들어, 배아 및 유기체의 게놈에서 단일 뉴클레오타이드 변이(SNV)를 검출, 식별 및/또는 분석하는 것을 포함한다. 이러한 구현예들 중 일부에서, SNV 데이터는 방법에서 낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은-해상도) 전체 게놈 시퀀싱으로부터 얻어진 낮은 해상도 서열 정보를 포함하거나 이로 이루어진다. 일부 구현예에서, 시스템 및 방법은 세포(들), 예를 들어, 배아 또는 유기체에서, 이수성, 부분 염색체 이득/상실 및/또는 배수성과 같은 염색체 이상의 부모 기원 또는 계통을 검출, 식별 빛/또는 분류하기 위해 낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은-해상도) 전체 게놈 시퀀싱 방법으로부터 생성된 SNV 데이터와 같은, SNV 데이터를 사용하기 위해 최적화된다.
다양한 구현예에 따르면, 관심 영역에 대한 배아에서 유전 패턴을 결정하는 방법이 제공된다. 방법은 배아, 모계 및 부계 서열 데이터를 수신하는 것을 포함할 수 있으며, 여기서, 모계 서열 데이터는 배아의 모체에서 유래한 것이며, 부계 서열 데이터는 배아의 부체에서 유래한 것이다. 방법은 수신된 서열 데이터를 참조 게놈에 정렬하고, 정렬된 배아 서열 데이터에서 관심 영역을 식별하고, 모계 서열 데이터, 부계 서열 데이터, 및 배아 서열 데이터에서의 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(SNP)을 식별하는 것을 포함할 수 있다. 방법은 대치 참조(imputation reference)를 사용하여 모계 서열 데이터 및 부계 서열 데이터에서 누락 갭(missing gap)을 대치하는 것을 포함할 수 있다. 방법은 모계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 모계 서열 데이터 상의 해당하는 영역에서 배아와 모체 사이에서 공통인 SNP의 수를 카운팅하는 것을 포함할 수 있다. 방법은 부계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 부계 서열 데이터 상의 해당하는 영역에서 배아와 부체 사이에서 공통인 SNP의 수를 카운팅하는 것을 포함할 수 있다. 방법은 모체와 부체 사이의 상대적 기여 값을 기초로 하여 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하는 것을 포함할 수 있다.
다양한 구현예에 따르면, 관심 영역에 대한 배아에서 유전 패턴을 결정하기 위한 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독가능 매체가 제공된다. 방법은 배아, 모계 및 부계 서열 데이터를 수신하는 것을 포함할 수 있으며, 여기서, 모계 서열 데이터는 배아의 모체에서 유래한 것이며, 부계 서열 데이터는 배아의 부체에서 유래한 것이다. 방법은 참조 게놈에 수신된 서열 데이터를 정렬하고, 정렬된 배아 서열 데이터에서 관심 영역을 식별하고, 모계 서열 데이터, 부계 서열 데이터, 및 배아 서열 데이터에서의 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(SNP)을 식별하는 것을 포함할 수 있다. 방법은 대치 참조를 사용하여 모계 서열 데이터 및 부계 서열 데이터에서 누락 갭을 대치하는 것을 포함할 수 있다. 방법은 모계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 모계 서열 데이터 상의 해당하는 영역에서 배아와 모체 사이에서 공통인 SNP의 수를 카운팅하는 것을 포함할 수 있다. 방법은 부계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 부계 서열 데이터 상의 해당하는 영역에서 배아와 부체 사이에서 공통인 SNP의 수를 카운팅하는 것을 포함할 수 있다. 방법은 모체와 부체 사이에 상대적 기여 값을 기초로 하여 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하는 것을 포함할 수 있다.
다양한 구현예에 따르면, 관심 영역에 대한 배아에서 유전 패턴을 결정하기 위한 시스템이 제공된다. 시스템은 배아, 모계 및 부계 서열 데이터를 수신하기 위한 데이터 저장소를 포함할 수 있으며, 여기서, 모계 서열 데이터는 배아의 모체에서 유래한 것이며, 부계 서열 데이터는 배아의 부체에서 유래한 것이다. 시스템은 데이터 저장소에 통신가능하게 연결된 컴퓨팅 디바이스를 포함할 수 있으며, 컴퓨팅 디바이스는 참조 게놈에 수신된 서열 데이터를 정렬하고 정렬된 배아 서열 데이터에서 관심 영역을 식별하도록 구성된 ROI 엔진을 포함한다. 컴퓨팅 디바이스는 모계 서열 데이터, 부계 서열 데이터, 및 배아 서열 데이터에서의 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(SNP)을 식별하도록 구성된 SNP 식별 엔진을 포함할 수 있다. 컴퓨팅 디바이스는 대치 참조를 사용하여 모계 서열 데이터 및 부계 서열 데이터에서 누락 갭을 대치하도록 구성된 대치 엔진을 포함할 수 있다. 컴퓨팅 디바이스는 POI 엔진을 포함할 수 있다. POI 엔진은 모계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 모계 서열 데이터 상의 해당하는 영역에서 배아와 모체 사이에서 공통인 SNP의 수를 카운팅하고, 부계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 부계 서열 데이터 상의 해당하는 영역에서 배아와 부체 사이에서 공통인 SNP의 수를 카운팅하고, 모체와 부체 사이에 상대적 기여 값을 기초로 하여 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하도록 구성될 수 있다. 시스템은 컴퓨팅 디바이스에 통신가능하게 연결되고 배아에 대한 분류된 유전 패턴을 포함한 리포트를 디스플레이하도록 구성된 디스플레이를 추가로 포함할 수 있다.
본원에 개시된 원리 및 이의 장점의 더욱 완전한 이해를 위해, 하기에 첨부된 도면과 관련하여 얻어진 하기 설명이 참조된다.
도 1은 다양한 구현예에 따른, 유전적 이상의 유전 패턴(POI)을 모계 또는 부계 기원으로서 결정 또는 분류하는 방법을 도시한 예시적인 순서도이다.
도 2는 다양한 구현예에 따른, 자식(offspring), 예를 들어, 배아의 유전적 이상을 모계 또는 부계 기원으로서 분류하고 유전 패턴(POI)을 결정하는 방법을 도시한 예시적인 순서도이다.
도 3은 다양한 구현예에 따른, 본원에 제공된 유전적 이상의 부모 기원을 검출 및/또는 분류하는 방법의 일부 구현예를 수행하기 위한 논리 흐름을 도시한 결정 트리 다이아그램(decision tree diagram)이다.
도 4는 다양한 구현예에 따른, 염색체 당 분석된 전체 변이 대립 유전자로부터의 배아의 변이 대립 유전자와 매칭하는 부체의 변이 대립 유전자의 비율(오렌지색 막대)과 비교하여, 염색체 당 분석된 전체 변이 대립 유전자로부터의 일염색체성 배아의 변이 대립 유전자와 매칭하는 모체의 변이 대립 유전자의 비율(청색 막대)을 도시한 막대 그래프이다.
도 5a 및 도 5b는 다양한 구현예에 따른, 염색체 당 모계 변이 대립 유전자와 매칭하는 배아의 분석된 변이 대립 유전자의 수에 대한 염색체 당 부계 변이 대립 유전자와 매칭하는 삼염색체성 배아의 분석된 변이 대립 유전자의 수의 비교 결과를 나타낸 것이다. 도 5a는 다양한 구현예에 따른, 23개의 염색체 각각에 대한, 부계 소스와 공유하는 배아 변이 대립 유전자의 수(OvP) vs. 모계 소스와 공유하는 배아 변이 대립 유전자의 수(OvM)의 그래프(청색 점)를 도시한 것이다. 점선 사선은 각 염색체에 대해 모계 소스와 공유하는 배아 변이 대립 유전자의 수가 부계 소스와 공유하는 배아 변이 대립 유전자의 수와 동일한 그래프 상의 지점을 나타낸다. 도 5b는 다양한 구현예에 따른, 염색체 당 부체와 공유된 대립 유전자의 카운트에 대한 모체와 공유 대립 유전자의 카운트의 비율을 도시한, 도 5a에 도시된 결과의 다른 그래프 제시이다.
도 6은 다양한 구현예에 따른, 염색체 6 상의 위치(x-축은 염기쌍임)에 대해서, 부계 소스와 공유하는 배아 변이 대립 유전자의 수(OvP)에 대한 모계 소스와 공유하는 배아 변이 대립 유전자의 수(OvM)의 비율(y-축)을 도시한 그래프이다.
도 7은 다양한 구현예에 따른, 23개의 염색체 각각에 대한 부계 소스와 공유하는 배아 변이 대립 유전자의 수(OvP) vs. 모계 소스와 공유하는 배아 변이 대립 유전자의 수(OvM)의 그래프(청색 점)를 도시한 것이다. 점선 사선은 모계 소스와 공유하는 배아 변이 대립 유전자의 수가 각 염색체에 대한 부계 소스와 공유하는 배아 변이 대립 유전자의 수와 동일한 지점을 나타낸다.
도 8은 다양한 구현예에 따른, 유전 패턴을 예측하기 위한 시스템의 개략적 다이아그램이다.
도 9는 다양한 구현예에 따른, 유전 패턴을 위한 방법을 도시한 예시적인 순서도이다.
도 10은 다양한 구현예에 따른, 삼배수성이 모계 기원인 68,XXX; -8의 핵형을 갖는 것으로 결정된 삼배체 배아에 대한 염색체 복제수 변이(CNV) 분석(도 10a) 및 유전 분석 패턴(도 10b; 염색체 용량 차트)의 결과를 도시한 것이다.
도 11은 다양한 구현예에 따른, 47;XY; del(10)(pter-p11.21)(부계), +13 (모계)의 핵형을 갖는 염색체 10의 감수분열 부분 상실 및 염색체 13의 감수분열 이득을 갖는 것을 결정된 배아에 대한 CNV 분석(도 11a) 및 유전 분석 패턴(도 11b; 염색체 용량 차트)의 결과를 도시한 것이다.
도 12는 다양한 구현예에 따른, 일염색체가 모계인 45,XX; -21의 핵형을 갖는 것으로 결정된 배아에 대한 CNV 분석(도 12a) 및 유전 분석 패턴(도 12b; 염색체 용량 차트)의 결과를 도시한 것이다.
도 13은 다양한 구현예에 따른, 본원에 제공된 방법을 수행하는 데 사용하기 위한 컴퓨터 시스템을 예시하는 블록 다이아그램이다.
도면이 반드시 일정한 비율로 그려지는 것은 아니고, 도면에서 물체가 반드시 서로에 대해 일정한 비율로 그려지는 것이 아닌 것으로 이해되어야 한다. 도면은 본원에 개시된 장치, 시스템, 및 방법의 다양한 구현예를 명확하게 하고 이해를 돕도록 의도된 묘사이다. 가능하면, 동일한 참조 번호는 동일하거나 유사한 부분을 지칭하기 위해 도면 전반에 걸쳐 사용될 것이다. 또한, 도면이 어떠한 방식으로든 본 교시의 범위를 제한하도록 의도되지 않는다는 것이 인식되어야 한다.
상기 식별된 도면은 제한적이지 않고 제시의 방식으로 제공된다. 도면은 단순화되거나 부분적인 도면을 도시할 수 있으며, 도면에서 엘리먼트의 치수는 과장되거나, 그렇지 않으면 비례하지 않을 수 있다. 또한, 용어 "... 상에(on)," "...에 부착된(attached to)," "...에 연결된(connected to)," "...에 커플링된(coupled to)," 또는 유사한 단어들이 본원에서 사용되기 때문에, 하나의 엘리먼트(예를 들어, 물질, 층, 기판 등)는 하나의 엘리먼트가 다른 엘리먼트 상에 직접적으로 존재하거나, 이러한 엘리먼트에 부착되거나, 이러한 엘리먼트에 연결되거나, 이러한 엘리먼트에 커플링되는 지의 여부 또는 하나의 엘리먼트와 다른 엘리먼트 사이에 하나 이상의 개재 엘리먼트이 존재하는 것과는 무관하게 다른 엘리먼트 "상에 존재하거나," 이러한 엘리먼트"에 부착"되거나, 이러한 엘리먼트"에 연결"되거나, 이러한 엘리먼트"에 커플링"될 수 있다. 또한, 엘리먼트들의 목록(예를 들어, 엘리먼트 a, b, c)이 언급되는 경우, 이러한 언급은 나열된 엘리먼트들 중 임의의 하나 자체, 모든 나열된 엘리먼트 미만의 임의의 조합, 및/또는 모든 나열된 엘리먼트들의 조합을 포함하도록 의도된다. 명세서에서 섹션 구분은 단지 검토를 쉽게 하기 위한 것으로서, 논의되는 엘리먼트들의 임의의 조합을 제한하는 것은 아니다.
본 출원은 2019년 6월 21일에 출원된 미국 가특허출원 제62/865,130호에 대한 우선권의 이익을 청구하며, 이러한 문헌은 전문이 본원에 참고로 포함된다.
본원에서 인용되는 임의의 특허, 특허 출원 및 간행물의 개시는 전문이 본원에 참고로 포함된다.
본원에는 예를 들어, 유전적 이상을 포함하는, 게놈 핵산(게놈 DNA)의 분석 및 게놈 특징의 분류를 위한 방법 및 시스템이 제공된다. 일부 구현예에서, 방법 및 시스템은 예를 들어, 세포, 예를 들어, 이배체 세포 또는 배아, 및 유기체에서의 핵산의 게놈 특징의 부모 기원을 분류하는 것과 같은 게놈 특징의 유전 패턴을 결정하는 데 사용된다.
달리 규정하지 않는 한, 본원에 기술된 본 교시와 관련하여 사용되는 과학 용어 및 기술 용어는 당업자에 의해 통상적으로 이해되는 의미를 가져야 한다. 또한, 문맥에 의해 달리 필요하지 않는 한, 단수 용어는 복수를 포함할 것이며, 복수 용어는 단수를 포함할 것이다. 일반적으로, 본원에 기술되는 세포 및 조직 배양, 분자 생물학, 및 단백질 및 올리고- 또는 폴리뉴클레오타이드 화학 및 하이브리드화와 관련하여 사용되는 명명법 및 이의 기술은 널리 공지되어 있고 당 분야에 통상적으로 사용되는 것이다. 표준 기술은 예를 들어, 핵산 정제 및 제조, 화학적 분석, 재조합 핵산, 및 올리고뉴클레오타이드 합성을 위해 사용된다. 효소 반응 및 정제 기술은 제조업체 사양에 따라 또는 당 분야에서 통상적으로 달성되거나 본원에 기술된 바와 같이 수행된다. 본원에 기술되는 표준 분자 생물학적 기술 및 절차는 일반적으로 당 분야에 널리 공지되고 본 명세서 전반에 걸쳐 인용되고 논의되는 더욱 특정의 참고문헌에 기술된 바와 같은 통상적인 방법에 따라 수행된다(예를 들어, 문헌[Sambrook et al., Molecular Cloning: A Laboratory Manual (Third ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 2000] 참조). 본원에 기술되는 실험실 절차 및 표준 기술과 관련하여 사용되는 명명법은 널리 공지되고 당 분야에서 통상적으로 사용되는 명명법이다.
"폴리뉴클레오타이드", "핵산", 또는 "올리고뉴클레오타이드"는 뉴클레오사이드간 결합에 의해 결합된 뉴크레오사이드의 선형 폴리머(데옥시리보뉴클레오사이드, 리보뉴클레오사이드, 또는 이의 유사체를 포함함)를 지칭한다. 통상적으로, 폴리뉴클레오타이드는 적어도 3개의 뉴클레오사이드를 포함한다. 대개, 올리고뉴클레오타이드는 수 개, 예를 들어, 3 내지 4개의 모노머 단위 내지 수백 개의 모노머 단위의 크기 범위이다. 올리고뉴클레오타이드와 같은 폴리뉴클레오타이드가 "ATGCCTG"와 같은 문자의 순서로 표현되는 경우, 뉴클레오타이드가 좌측에서 우측으로 5'->3' 순서이며, 달리 주지하지 않는 한, "A"는 데옥시아데노신을 나타내며, "C"는 데옥시시티딘을 나타내며, "G"는 데옥시구아노신을 나타내며, "T"는 티미딘을 나타내는 것으로 이해될 것이다. 문자 A, C, G, 및 T는 당 분야에서 표준인, 염기 자체, 염기를 포함하는 뉴클레오사이드, 또는 뉴클레오타이드를 지칭하기 위해 사용될 수 있다.
DNA(데옥시리보핵산)는 4개 타입의 뉴클레오타이드, 즉, A(아데닌), T(티민), C(시토신), 및 G(구아닌)를 함유하는 뉴클레오타이드의 사슬이며, RNA(리보핵산)는 4개 타입의 뉴클레오타이드, 즉, A, U(우라실), G, 및 C로 이루어진다. 특정 쌍의 뉴클레오타이드는 상보적 방식(상보성 염기쌍으로 불리워짐)으로 서로 특별하게 결합한다. 즉, 아데닌(A)은 티민(T)과 쌍을 이루며(그러나, RNA의 경우, 아데닌(A)은 우라실(U)과 쌍을 이룸), 시토신(C)은 구아닌(G)과 쌍을 이룬다. 제1 핵산 가닥이 제1 가닥의 뉴클레오타이드와 상보적인 뉴클레오타이드루 구성된 제2 핵산 가닥에 결합할 때, 2개의 가닥은 결합하여 이중 가닥을 형성한다. 본원에서 사용되는 "핵산 시퀀싱 데이터," "핵산 시퀀싱 정보," "핵산 서열," "게놈 서열," "유전자 서열," 또는 "단편 서열," 또는 "핵산 시퀀싱 리드"는 DNA 또는 RNA의 분자(예를 들어, 전장 게놈, 전체 전사체, 엑솜, 올리고뉴클레오타이드, 폴리뉴클레오타이드, 단편 등)에서 뉴클레오타이드 염기(예를 들어, 아데닌, 구아닌, 시토신 및 티민/우라실)의 순서를 나타내는 임의의 정보 또는 데이터를 나타낸다. 본 교시가 모세관 전기영동, 마이크로어레이, 결찰-기반 시스템, 폴리머라제-기반 시스템, 하이브리드화-기반 시스템, 직접 또는 간접 뉴클레오타이드 식별 시스템, 피로시퀀싱, 이온- 또는 pH-기반 검출 시스템, 전자 서명-기반 시스템 등을 포함하지만, 이로 제한되지 않는 모든 사용가능한 다양한 기술, 플랫폼 또는 기술을 사용하여 얻어진 서열 정보를 고려하는 것으로 이해되어야 한다.
본원에서 사용되는 용어 "세포"는 용어 "생물학적 세포"와 상호 교환가능하게 사용된다. 생물학적 세포의 비제한적인 예는 진핵 세포, 식물 세포, 동물 세포, 예를 들어, 포유류 세포, 파충류 세포, 조류 세포, 어류 세포 등, 원핵 세포, 박테리아 세포, 진균 세포, 원생동물 세포 등, 조직, 예를 들어, 근육, 연골, 지방, 피부, 간, 폐, 신경 조직 등으로부터 분리된 세포, 면역학적 세포, 예를 들어, T 세포, B 세포, 자연 살해 세포, 대식 세포 등, 배아(예를 들어, 접합체), 난모세포, 난자, 정자 세포, 하이브리도마, 배양된 세포, 세포주로부터의 세포, 암세포, 감염된 세포, 트랜스펙션된 및/또는 변형된 세포, 리포터 세포 등을 포함한다. 포유류 세포는 예를 들어, 인간, 마우스, 래트, 말, 염소, 양, 소, 영장류 등으로부터 비롯된 것일 수 있다.
게놈은 세포 또는 포유동물, 예를 들어 인간과 같은 동물을 포함하는 유기체의 유전 물질이고, 핵산, 즉, 게놈 DNA를 포함한다. 인간에서, 총 DNA는 예를 들어, 유전자, 비코딩 DNA 및 미토콘드리아 DNA를 포함한다. 인간 게놈은 통상적으로 23쌍의 선형 염색체, 즉, 22쌍의 상염색체(상염색체) 및 성-결정 X 및 Y 염색체를 함유한다. 23개 쌍의 염색체는 각 부모로부터 하나의 복제(copy)를 포함한다. 염색체로 구성된 DNA는 염색체 DNA로서 지칭되고, 인간 세포의 핵(핵 DNA)에 존재한다. 미토콘드리아 DNA는 미토콘드리아에 원형 염색체로서 위치되고, 단지 여성 부모로부터 유전되고, 종종 핵에 위치된 DNA의 핵 게놈과 비교하여 미토콘드리아 게놈으로 지칭된다.
본원에서 사용되는 구 "게놈 특징"은 규정되거나 특정의 게놈 요소 또는 영역을 지칭한다. 일부 경우에, 게놈 요소 또는 영역은 일부 주석이 달린 구조 및/또는 기능(예를 들어, 염색체, 유전자, 단백질 코딩 서열, mRNA, tRNA, rRNA, 반복 서열, 전환된 반복부(inverted repeat), miRNA, siRNA 등)을 가지거나, 하나 이상의 뉴클레오타이드, 게놈 영역, 게놈 영역의 유전자 또는 그룹핑 또는 예를 들어, 돌연변이, 재조합/교차(recombination/crossover) 또는 유전적 부동(genetic drift)으로 인해 특정 종 내의 특정 종 또는 하위 집단에 대해 언급되는 바와 같이 변하는 유전자(DNA 또는 RNA에서)를 나타내는 유전적/게놈 변이체(예를 들어, 단일 뉴클레오타이드 다형성/변이체, 삽입/결실 서열, 복제수 변이, 전환 등)일 수 있다.
배수성은 세포 또는 유기체의 게놈에서 상동성 염색체 세트의 수(n으로서 지정됨)를 지칭한다. 예를 들어, 한 세트의 염색체를 갖는 세포 또는 유기체는 일배체로서 지칭된다. 2 세트의 상동성 염색체(2n)를 갖는 세포 또는 유기체는 이배체로서 지칭된다. 배수성은 세포, 예를 들어, 배아, 또는 유기체가 2개 초과의 완전한 반수체 세트의 염색체를 갖는 상태이다. 반수체는 유기체의 일반적인 완전한 세트의 체세포 염색체의 절반을 갖는 세포를 지칭한다. 예를 들어, 생식 세포(gamete), 또는 인간에서 생식(성) 세포, 예를 들어, 난자 또는 정자 세포는 반수체이다. 수정 동안 반수체 생식 세포의 융합은 여성 생식 세포로부터의 한 세트의 상동 염색체 및 남성 생식 세포로부터의 한 세트의 상동 염색체를 함유한 이배체 접합체를 수득한다. 상염색체의 정상 수(22) 및 단일의 성 염색체 쌍(XX 또는 XY)을 갖는 인간 배아는 정배수체 배아로서 지칭된다. 이에 따라, 인간의 경우에, 정배수체 상태는 이배체이다. 다양한 구현예에서, 구 "모든 염색체"는 모든 상염색체 및 성 염색체를 포함할 수 있다. 다양한 구현예에서, 구 "모든 염색체"는 성 염색체를 포함하지 않는다.
용어 "대립 유전자"는 대안적인 형태의 유전자를 지칭한다. 인간 또는 다른 이배체 유기체에서, 각 유전적 유전자좌에 2개의 대립 유전자가 존재한다. 대립 유전자는 각 부모로부터 유전되며, 하나의 대립 유전자는 모체로부터 유전되며, 하나의 대립 유전자는 부체로부터 유전된다. 한 쌍의 대립 유전자는 유전자의 유전자형을 나타낸다. 특정 유전자좌에서 2개의 대립 유전자가 동일한 경우, 유전자형은 동형접합으로서 지칭된다. 특정 유전자좌(염색체에서 특정 유전자가 차지하는 위치)에서 2개의 대립 유전자에 차이가 존재하는 경우에, 유전자형은 이종접합으로서 지칭된다.
용어 "일배체형"은 염색체에서의 근접성으로 인해 함께 분리되는 경향이 있는 염색체에서, 변이 또는 다형성의 한 세트 또는 조합을 지칭한다. 일배체형은 단일 유전자, 다수의 유전자에서 또는 유전자들 사이의 서열에서 변이의 조합과 관련하여 기술될 수 있다. 일배체형의 변이의 근접성으로 인하여, 변이가 일어나는 위치의 재조합 또는 교차가 거의 없거나 존재하지 않는 경향이 있으며, 이러한 것은 세대를 통해 진행하고 함께 유전되는 경향이 있다.
본원에서 사용되는 구 "유전적 이상"은 정상, 야생형 또는 참조 게놈에 비해 게놈의 변화를 지칭한다. 일반적으로, 유전적 이상은 염색체 이상 및 유전자 결함을 포함한다. 통상적으로, 유전자 결함은 단일 염기 돌연변이, 치환, 삽입 및 결실 및 복제수 변이를 포함하지만 이로 제한되지 않는 변형을 포함한다. 염색체 이상은 염색체 수 또는 구조의 변경, 예를 들어, 복제 및 결실, 예를 들어, 염색체의 영역의 반복 또는 상실, 반전 및 전좌를 포함한다. 공통 염색체 이상은 추가 또는 누락 염색체로 인한 비정상적인 염색체 수인 이수성으로서 지칭된다. 예를 들어, 인간에서 일염색체는 복제 상실(정상의 2개의 복제 대신에 단지 하나의 복제)을 갖는 염색체에 의해 특징된 이상이다. 인간에서 삼염색체성은 염색체 복제 이득(정상의 2개의 복제 대신에 3개의 복제)에 의해 특징된 이상이다. 비정상적인 수의 염색체를 갖는 배아는 이수체 배아로서 지칭된다. 대부분의 이수성인 모계 기원이고, 난모 세포 유사분열 동안 분리 오류로 인해 발생한다. 이에 따라, 감수분열 이수성은 배아의 모든 세포에서 일어날 것이다. 그러나, 유사분열 오류는 또한, 인간 착상전 배아에서 일반적이고, 다수의 세포 집단을 갖는 유사분열 이수성 및 염색체 모자이크 배아를 생성할 수 있다(예를 들어, 일부 세포는 이수체이며, 일부는 정배수체임). 인간 세포에서 배수성은 예를 들어, 배아에서 세포가 2개 초과의 완전한 세트의 염색체를 갖는 이상이다. 배수성의 예는 삼배수성(3n) 및 사배수성(4n)을 포함한다. 인간에서 배수성은 균형-성 염색체 또는 비균형-성 염색체를 갖는 여러 형태로 일어날 수 있다(예를 들어, CNV 방법에 의해 검출 가능함). 인간은 균형-성 배수성은 각 복제가 단지 X 염색체(예를 들어, 69:XXX 또는 92:XXXX)를 함유한 반수체 게놈의 3개 이상의 완전한 복제를 함유하거나, 동일한 수의 X 및 Y 염색체(예를 들어, 92:XXYY)를 함유한다. 인간에서 비균형-성 배수성은 적어도 하나의 복제가 Y 염색체(예를 들어, 69:XXY, 69:XYY)를 함유하고 동일한 복제수의 X 및 Y 염색체를 함유하지 않은 반수체 게놈의 3개 이상의 완전한 복제를 함유한다. 염색체 이상은 기태 임신, 유산 및 유전 장애 및 질환을 포함하는, 세포 및 유기체에 대한 다수의 상이한 효과를 가질 수 있다.
일반적으로, 게놈 변이체는 어레이-기반 방법(예를 들어, DNA 마이크로어레이 등), 실시간/디지털/정량적 PCR 기기 방법 및 전체 또는 표적화된 핵산 시퀀싱 시스템(예를 들어, NGS 시스템, 모세관 전기영동 시스템 등)을 포함하지만, 이로 제한되지 않는 다양한 기술을 사용하여 식별될 수 있다. 핵산 시퀀싱과 관련하여, 해상도 또는 커버리지는 하나 이상의 수준일 수 있고, 일부 경우에, 단일 염기 해상도에서 사용가능하다.
본원에서 사용되는 구 "유전 패턴"은 예를 들어, 세포(들), 자식, 예를 들어, 부모 세포 또는 유기체로부터의 배아 또는 유기체, 예를 들어, 이배체 세포 및 유기체의 게놈에서의 이수성과 같은 게놈 특징의 전파 방식 및 투여량을 지칭한다. 예를 들어, 인간에서, 자식, 예를 들어, 배아는 자식의 이배체 세포에서 2개의 대립 유전자를 구성하는 각 부모(하나는 모계 및 하나의 부계)로부터의 하나의 유전자 대립 유전자를 수용한다. 자식, 예를 들어, 배아에서 특정의 대립 유전자 또는 게놈 특징의 유전 패턴은 부모가 자식으로 게놈 특징을 전파하였음을 규정한다. 게놈 특징을 자식 또는 배아로 전파한 부모는 기원의 부모로서 지칭된다. 유전은 균형일 수 있거나(예상됨; 각 부모로부터의 동일한 기여) 또는 비균형일 수 있다(불충분하거나 과량임). 예를 들어, 염색체 21의 하나의 복제가 부계로 유전되며 2개의 복제가 모계로 유전된 삼염색체성 21을 갖는 배아의 경우에, 이수체의 기원의 부모가 모계라고 한다. 반대로, 배아가 모계 복제를 유전하고 염색체 18의 부계 복제가 유전되지 않는 일염색체성 18의 경우에, 그러한 특징에 대한 기원의 부모가 부계라고 할 수 있다.
본원에서 사용되는 "자식"은 생식 세포(예를 들어, 여성 및 남성 생식 세포)의 결합 산물을 지칭하고, 난할구, 접합체, 배아, 태아, 신생아 또는 어린이를 포함하지만, 이로 제한되지 않는다. 자식 DNA는 예를 들어, 난할구 생검, 영양외배엽 생검, 내부 세포 종괴 생검, 포배강 생검, 배아 소비된 배지, cfDNA, 수정 산물, 융모막 융모 샘플 및/또는 양수천자를 포함하는 임의의 소스로부터 얻어질 수 있다.
본원에서 사용되는 "부모" 또는 "유전적 부모"는 자식에 대한 배우자의 기여자를 지칭하고, 예를 들어, 배우자 DNA가 공여자에게 유래하는 한 난자 및 정자 공여자를 포함한다.
구 "모자이크 배아"는 둘 이상의 세포유전학적으로 구별되는 세포주를 함유하는 배아를 나타낸다. 예를 들어, 모자이크 배아는 임신 동안 배아의 생존력에 대해 유해할 수 있는 유전적 변이체를 갖는 DNA를 함유한 유전적으로 비정상적인 세포와 정배수체의 혼합물 또는 상이한 타입의 이수성을 갖는 세포주를 함유할 수 있다.
구 "차세대 시퀀싱"(NGS)은 예를 들어, 한번에 수십만 개의 상대적으로 작은 서열 리드를 생성하는 능력을 갖는, 전통적인 Sanger- 및 모세관 전기영동-기반 방식과 비교하여 증가된 처리량을 갖는 시퀀싱 기술을 지칭한다. 차세대 시퀀싱 기술의 일부 예는 합성에 의한 시퀀싱, 결찰에 의한 시퀀싱 및 하이브리드화에 의한 시퀀싱을 포함하지만, 이로 제한되지 않는다. 더욱 상세하게는, Illumina and the Personal Genome Machine (PGM)의 MISEQ, HISEQ 및 NEXTSEQ 시스템, Ion Torrent, 및 Life Technologies Corp의 SOLiD 시퀀싱 시스템은 전체 또는 표적화된 게놈의 대규모 병렬 시퀀싱을 제공한다. SOLiD 시스템 및 관련된 워크플로우, 프로토콜, 화학 등은 PCT 공개문 WO 2006/084132호(발명의 명칭: Reagents, Methods, and Libraries for Bead-Based Sequencing, 국제 출원일: 2006년 2월 1일), 미국특허출원 제12/873,190호(발명의 명칭: Low-Volume Sequencing System and Method of Use, 2010년 8월 31일에 출원됨), 및 미국특허출원 제12/873,132호(발명의 명칭: Fast-Indexing Filter Wheel and Method of Use, 2010년 8월 31일에 출원됨)에서 더욱 상세히 기술되어 있으며, 이러한 출원 각각 전체는 이를 참조하여 본원에 포함된다.
구 "시퀀싱 실행(sequencing run)"은 적어도 하나의 생체분자(예를 들어, 핵산 분자)와 관련된 일부 정보를 결정하기 위해 수행된 시퀀싱 과정의 임의의 단계 또는 일부를 지칭한다.
핵산 시퀀싱과 관련한 용어 "리드(read)"는 예를 들어, NGS와 같은, 시퀀싱된 핵산 단편에 대해 결정된 뉴클레오타이드의 서열을 지칭한다. 리드는 리드 길이를 규정하는 임의의 수의 뉴클레오타이드의 임의의 서열일 수 있다.
본원에서 상호 교환가능하게 사용되는 구 "시퀀싱 커버리지" 또는 "서열 커버리지"는 일반적으로, 예를 들어, 세포 또는 유기체의 전장 게놈(전체 게놈), 게놈에서 하나의 유전자좌 또는 게놈에서 하나의 뉴클레오타이드 위치와 같은, 서열 리드와 참조 간의 관계를 지칭한다. 커버리지는 여러 형태로 기술될 수 있다(예를 들어, 문헌[Sims et al. (2014) Nature Reviews Genetics 15:121-132] 참조). 예를 들어, 커버리지는 염기쌍 수준에서 얼마나 많은 게놈이 시퀀싱되는 지를 지칭할 수 있고, 게놈(참조)의 NL/G로서 계산될 수 있으며, 여기서, N은 리드의 수이며, L은 평균 리드 길이이며, G는 염기의 길이 또는 수이다. 예를 들어, 참조 게놈이 1000 Mbp이며, 100 bp의 평균 길이의 1억개의 리드가 시퀀싱되는 경우, 커버리지의 중복은 10x일 것이다. 이러한 커버리지는 "배수(fold)", 예를 들어, 1X, 2X, 3X 등(또는 1, 2, 3배 커버리지 등)으로서 표현될 수 있다. 커버리지는 또한, 얼마나 종종 참조 서열이 리드에 의해 커버되는 지, 예를 들어, 임의의 제공된 유전자좌에서 단일 염기가 시퀀싱 동안 판독되는 횟수를 기술하기 위해 참조 핵산에 대한 시퀀싱 중복을 지칭한다. 이에 따라, 커버되지 않고 0의 심도를 갖는 일부 염기, 및 커버되고 예를 들어, 1 내지 50 사이의 임의의 곳의 심도를 갖는 일부 염기가 존재할 수 있다. 커버리지의 중복(redundancy)은 서열 데이터의 신뢰성의 지표를 제공하고, 또한, 커버리지 심도로서 지칭된다. 커버리지의 중복은 참조 또는 정렬된(예를 들어, 맵핑된) 리드에 정렬되지 않은 "미가공" 리드와 관련하여 기술될 수 있다. 커버리지는 또한, 리드에 의해 커버된 참조(예를 들어, 게놈)의 백분율의 측면에서 고려될 수 있다. 예를 들어, 참조 게놈이 10 Mbp이며, 서열 리드 데이터가 8 Mbp의 Mbp에 맵핑하는 경우에, 커버리지의 백분율은 80%일 것이다. 서열 커버리지는 또한 특정 심도에서 제공된 횟수만큼 시퀀싱되는 참조의 염기의 백분율을 지칭하는 커버리지의 폭의 측면에서 기술될 수 있다.
핵산 시퀀싱과 관련하여 본원에서 사용되는 구 "낮은-커버리지"는 약 10x 미만, 또는 약 0.001x 내지 약 10x, 또는 약 0.002x 내지 약 0.2x,또는 약 0.01x 내지 약 0.05x의 시퀀싱 커버리지를 지칭한다.
핵산 시퀀싱과 관련하여 본원에서 사용되는 구 "낮은-심도"는 약 20x 미만 또는 약 10x 미만, 또는 약 0.1x 내지 약 10x, 또는 약 0.2x 내지 약 5x, 또는 약 0.5x 내지 약 2x의 평균 전장 게놈 시퀀싱 심도를 지칭한다.
게놈 서열 핵산 서열에 관한 용어 "해상도"는 세포(들), 예를 들어, 배아, 또는 유기체의 핵산 시퀀싱을 통해 얻어진 게놈 핵산 서열(예를 들어, 전장 게놈의 DNA 서열 또는 게놈의 특정 영역 또는 유전자좌)의 품질, 또는 정확성, 및 크기를 지칭한다. 게놈 핵산 DNA 서열의 해상도는 주로 시퀀싱 과정의 커버리지 및 심도에 의해 결정되고, 시퀀싱 동안 판독되는 독특한 염기의 수 및 시퀀싱 동안 임의의 하나의 염기가 판독되는 횟수의 고려를 포함한다. 세포(들), 예를 들어, 배아, 자식 또는 유기체의 게놈 핵산 서열(게놈 DNA)과 관련하여, 본원에서 상호 교환가능하게 사용되는 구 "낮은 해상도 서열" 또는 "낮은 해상도 서열 데이터" 또는 "희소 서열 데이터"는 낮은-커버리지 및 낮은-심도 시퀀싱 방법을 통해 얻어진 게놈 핵산(게놈 DNA)의 뉴클레오타이드 염기 서열 정보를 지칭한다.
핵산(DNA) 서열 데이터 생성
게놈 핵산(게놈 DNA)의 분석 및 게놈 특징의 분류를 위한 본원에 제공된 방법 및 시스템의 일부 구현예는 세포 및/또는 유기체의 게놈의 뉴클레오타이드 서열의 분석을 포함한다. 일부 구현예에서, 본원에 제공된 방법 및 시스템은 세포(들) 및/또는 유기체(들)의 전체 게놈 시퀀싱으로부터 얻어진 서열의 분석을 포함한다. 일부 구현예에서, 본원에 제공된 방법 및 시스템은 세포(들) 및/또는 유기체(들)의 전장 게놈의 서열 분석을 포함한다. 핵산 서열 데이터는 본원에 기술되고/되거나 당분야에 공지된 다양한 방법을 사용하여 얻어질 수 있다. 일 예에서, 세포, 예를 들어, 배아의 세포의 게놈 핵산(게놈 DNA)의 서열은 세포로부터 추출된 DNA 샘플의 차세대 시퀀싱(NGS)으로부터 얻어질 수 있다. 2세대 시퀀싱으로도 알려진 NGS는 병렬로 DNA(예를 들어, 배아로부터 추출됨)의 샘플의 핵산 증폭에 의해 생성된 수백만 개의 뉴클레오타이드의 시퀀싱을 포함하는 고처리량의 대규모 병렬 시퀀싱 기술을 기초로 한 것이다(예를 들어, Kulski (2016) "Next-Generation Sequencing - An Overview of the History, Tools and 'Omic' Applications," in Next Generation Sequencing - Advances, Applications and Challenges, J. Kulski ed., London: Intech Open, pages 3-60 참조).
NGS에 의해 시퀀싱되는 핵산 샘플은 샘플의 소스에 따라, 다양한 방식으로 얻어진다. 예를 들어, 인간 핵산은 핵산이 이후에 추출되는 세포를 수집하기 위해 볼 브러시 면봉(cheek brush swab)을 통해 용이하게 얻어질 수 있다. 배아로부터의 시퀀싱을 위해(예를 들어, 착상전 유전자 스크리닝을 위해) 최적 양의 DNA를 얻기 위해, 세포(예를 들어, 5 내지 7개의 세포)는 통상적으로, 배반포 단계 동안 영양외배엽 생검을 통해 수집된다. 태아 DNA는 예를 들어, 제품 또는 수태, 융모막 융모 샘플 및/또는 양수천자로부터 얻어질 수 있다. DNA 샘플은 NGS를 통한 시퀀싱 이전에 예를 들어, 단편화, 증폭 및 어댑터 결찰을 포함하는 처리를 필요로 한다. 이러한 처리에서 핵산의 조작은 아티팩트(artifact)(예를 들어, 폴리머라제 연쇄 반응(PCR) 증폭과 관련된 GC 바이어스)를 증폭된 서열에 도입하고, 서열 리드의 크기를 제한할 수 있다. 이에 따라, NGS 방법 및 시스템은 시스템들 사이에서 상이할 수 있는 오류율과 관련이 있다. 추가적으로, 서열 리드에서 염기를 식별하는 것(예를 들어, 염기-콜링(base-calling)과 함께 사용되는 소프트웨어는 NGS 시퀀싱으로부터 서열 데이터의 정확성에 영향을 미칠 수 있다. 이러한 아티팩트 및 제한은 게놈의 긴 반복 영역을 시퀀싱하고 맵핑하고 게놈에서 다형성 대립 유전자 및 이수성을 식별하는 것을 어렵게 만들 수 있다. 예를 들어, 인간 게놈의 약 40%가 반복 DNA 엘리먼트를 포함하기 때문에, 참조 게놈에서 반복 엘리먼트에 정렬하는 동일한 서열의 더 짧은 단일 리드는 종종 게놈의 특정 영역에 정확하게 맵핑되지 않을 수 있다. 서열 결정에서 오류 및/또는 불완전성의 효과의 일부를 해결하고 가능하게 감소시키는 하나의 방식은 시퀀싱 커버리지 및/또는 심도를 증가시킴에 의한 것이다. 그러나, 시퀀싱 커버리지의 증가는 증가된 시퀀싱 시간 및 비용과 관련이 있다. 페어드-엔드 시퀀싱(paired-end sequencing)은 또한, 사용될 수 있으며, 이는 게놈 또는 참조에 서열을 맵핑할 때, 예를 들어, 긴 반복 영역에서 서열 리드의 배치의 정확성을 증가시키고, 유전자 결실, 삽입 및 반전과 같은 구조적 재배열의 분해능을 증가시킨다. 예를 들어, 본원에 제공된 방법의 일부 구현예에서, 배아로부터의 DNA의 페어드-엔드 NGS로부터 얻어진 데이터의 사용은 리드 맵핑을 평균 15% 만큼 증가시켰다. 페어드-엔드 시퀀싱 방법은 당 분야에 공지되어 있고/있거나 본원에 기술되고, 두 방향 모두에서 핵산 단편의 서열을 결정하는 것을 포함한다(즉, 하나의 리드는 단편의 하나의 단부로부터 비롯된 것이며, 제2 리드는 단편의 반대 엔드로부터 비롯된 것임). 페어드-엔드 시퀀싱은 또한, 리드 수를 배가시킴으로써 시퀀싱 커버리지 중복성을 효과적으로 증가시키고, 특히 상이한 게놈 영역에서 커버리지를 증가시킨다.
3가지 주요 타입의 핵산 NGS 시퀀싱, 즉, 전체 게놈 시퀀싱(WGS), 전체 엑솜 시퀀싱(WES) 및 표적화된 시퀀싱(TS)이 통상적으로 수행된다. 전체 게놈 시퀀싱은 이의 부분과는 상반되게, 전장 게놈이 시퀀싱되는 포괄적인 방법이다. 전체 엑솜 시퀀싱은 게놈의 단지 약 2% 미만을 차지하는 게놈의 단백질-코딩 영역(엑손)의 시퀀싱이다. 표적화된 시퀀싱은 게놈의 하나 또는 제한된 수의 특정 영역이 시퀀싱되는 높은-심도 커버리지 타입의 시퀀싱이다. 표적화된 시퀀싱은 통상적으로, 핵산 라이브러리가 시퀀싱을 위해 제조된 단지 특정 관심 영역을 증폭시키기 위해 특정 프라이머를 사용하는 앰플리콘-기반 농축, 또는 시퀀싱을 위해 관심 영역을 단리시키기 위해 올리고뉴클레오타이드를 캡쳐하기 위해 단편화된 핵산이 하이브리드화되는 캡쳐-기반 방법을 사용하여 수행된다.
핵산(DNA) 서열 분석
게놈 핵산(게놈 DNA)의 분석 및 게놈 특징의 분류를 위한 본원에 제공된 방법 및 시스템의 일부 구현예에서, 세포, 예를 들어, 배아 세포, 또는 유기체로부터 얻어진 DNA의 서열은 게놈 맵핑의 방법을 사용하여 세포/유기체의 게놈(또는 이의 부분)을 재구성하기 위해 사용된다. 통상적으로, 게놈 맵핑은 정렬로서 지칭되는 공정에서 서열을 참조 게놈(예를 들어, 인간 게놈)에 매칭시키는 것을 포함한다. 맵핑 공정에서 사용될 수 있는 인간 참조 게놈의 예는 2009년에 발표된 GRCh37(hg19) 및 2013년에 발표된 GRCh38(hg38)과 같은 Genome Reference Consortium으로부터의 공개를 포함한다(예를 들어, https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg19 https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39 참조). 정렬을 통해, 서열 리드는 서열의 매칭을 수행하기 위해 통상적으로 컴퓨터 프로그램을 사용하여 게놈 유전자좌에 지정된다. 여러 정렬 프로그램은 공개적으로 입수 가능하고, Bowtie(예를 들어, http://bowtie-bio.sourceforge.net/manual.shtml 참조) 및 BWA(예를 들어, http://bio-bwa.sourceforge.net/ 참조)를 포함한다. 처리되고(예를 들어, PCR 중복 및 저품질 서열을 제거하기 위함) 유전자좌에 매칭된 서열은 종종 정렬되고/되거나 맵핑된 서열 또는 정렬되고/되거나 맵핑된 리드로서 지칭된다.
게놈 참조에 대한 서열 리드의 맵핑에서, 단일 뉴클레오타이드 변이체(SNV)를 검출하고/하거나 식별하는 것이 가능하다. 단일 뉴클레오타이드 변이체는 단일 뉴클레오타이드 위치에서 게놈에서의 변이의 결과이다. SNV 검출을 위한 여러 상이한 NGS 분석 프로그램(예를 들어, 변이체 콜링 소프트웨어)은 공개적으로 입수 가능하고/하거나, 당 분야에 공지되고/되거나, 본원에 기술되어 있다(예를 들어, GATK(예를 들어, https://gatk.broadinstitute.org/ 참조) 및 심변이체(deepvariant)(예를 들어, Poplin et al (2018) Nature Biotech. 36:983-987 참조)를 포함하지만, 이로 제한되지 않음). 정렬 후, bcftools 소프트웨어(오픈 소스)는 최소 커버리지(에를 들어, 1) 및 최소 심도(예를 들어, 1)로 식별된 모든 염기의 파일업(pileup)을 생성하고 정렬 동안 생성되는 bam 화일(file)로부터 유전자형 콜(genotype call)을 생성하기 위해 사용된다. 특히, 서열 데이터가 낮은-커버리지 및/또는 낮은 해상도 시퀀싱 방법으로부터 얻어질 때, 세포 또는 유기체의 샘플 핵산(DNA)으로부터의 서열의 게놈 맵핑을 통한, 염색체 이상, 예를 들어, 이수성과 같은 게놈 특징의 검출 및 식별은 특별한 과제를 제시한다. 이러한 방법에서 주요 과제는 NGS 방법이 리드 생성 동안 오류를 시퀀싱 리드에 도입하기 쉽다는 개념에서 파생된다. 1:100 내지 1:10,000 사이의 임의의 것에서의 오류율과 관련하여, 시퀀싱 플랫폼 방법에 따라, 낮은-커버리지 및/또는 낮은-심도 시퀀싱에서 변이체와 시퀀싱 오차 사이의 차이를 식별하는 것은 독특하고 상이한 정보학 과제를 제공한다. 컴퓨터 프로그램 및 시스템은 특정의 게놈 특징을 식별하는 데 서열 데이터의 해석의 용이성 및/또는 정확성을 증가시키기 위해 당 분야에 공지되고/되거나 본원에 기술된다. 예를 들어, 비균형 성 염색체와 함께 중복/결실, 모자이크 특징, 이수성 및 배수성을 포함하는 염색체 이상의 자동 검출을 위한 시스템 및 방법은 미국특허출원공개 제2020/0111573호에 기술되어 있으며, 이러한 문헌은 전체가 본원에 참고로 포함된다. 이러한 방법은 노이즈-제거/정규화(미가공 서열 리드의 노이즈를 제거하고 게놈 서열 정보를 정규화하여 유전자좌 효과를 교정하기 위함) 및 유전자좌 스코어를 염색체도에 해석(또는 디코딩)하기 위한 기계 학습(machine learning) 및 인공 지능을 포함한다. 예를 들어, 시퀀싱이 완료된 후에, 미가공 서열 데이터는 역다중화되며(제공된 샘플로 인함), 리드는 참조 게놈, 예를 들어, HG19에 정렬되며, 각 1백만개의 염기쌍 bin에서 리드의 총수가 카운팅된다. 이러한 데이터는 GC 함량 및 심도를 기초로 하여 정규화되고, 공지된 결과의 샘플로부터 생성된 베이스라인에 대해 시험된다. 2의 복제수로부터의 통계적 편차는 이후에 이수성으로서 보고된다(존재하는 경우, 그렇지 않은 경우 = 정배수체). 이러한 방법을 사용하여, 감수분열 이수체 및 유사분열 이수성은 CNV 메트릭을 기초로 하여 서로 구별될 수 있다. 정상으로부터의 편차를 기초로 하여, 핵형은 존재하는 염색체의 총수, 존재하는 임의의 이수성, 및 그러한 이수성의 모자이크 수준(적용 가능한 경우)으로 생성된다.
NGS에서 발생할 수 있는 아티팩트, 커버리지의 변이 및 오류는 또한, 게놈 특징의 유전 패턴을 평가하고, 게놈 특징의 부모 기원을 결정 또는 예측/추론하는 것과 같은, 특정 게놈 특징을 정확하게 분류하기 위해 서열 데이터의 사용에서 과제를 제시한다. 예를 들어, 게놈 특징, 예를 들어, 이수성의 유전 패턴의 분석에서 발생할 수 있는 낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은-해상도) 서열 데이터를 사용하는 과제는 자식(예를 들어, 배아) 및 부모(들)(예를 들어, 모체 및/또는 부체)의 서열에서 중첩의 결여를 야기시키고 페이징(phasing, 위상 조정)/일배체형 결정의 정확한 평가를 방지하는 정확한 확정을 위해 표준 미국 의학 유전학 대학의 요건을 충족하는 매우 낮은 수의 고품질, 높은-심도 SNP를 얻는 것을 포함한다(예를 들어, Richards et al. (2015) Genetics in Medicine 17:405-423 참조). 서열 커버리지의 증가는, 효능의 감소 및 비용의 증가와 관련됨에도 불구하고, 게놈 특징의 유전 패턴을 결정하는 데 사용될 수 있도록 NGS 서열 데이터를 개선할 수 있다. 게놈 특징, 예를 들어, 이수성의 부모 기원을 결정하기 위해 유전 패턴을 평가하는 것과 관련된 과제를 충족하는 다른 방법은 NGS로서 고처리량 기술이 아니고 또한 더욱 고가이고 분석을 수행하는 데 더 긴 시간이 필요한 마이크로어레이 및 형광 인시튜 하이브리드화(Fluorescence In Situ Hybridization)의 사용을 포함한다.
본원에는 세포(들), 예를 들어, 배아, 자식 또는 유기체(들)의 세포의 하나 이상 또는 복수의 게놈 특징을 검출 및/또는 식별하고/하거나 모계 또는 부계인 것으로서 게놈 특징의 부모 기원 또는 계통을 결정, 예측 및/또는 추론하기 위해 하나 이상 또는 복수의 게놈 특징의 유전 패턴을 평가, 분류 또는 결정하기 위한 개선되고, 효율적이고, 신속하고, 비용-효과적인 방법 및 시스템이 제공된다. 본원에 제공된 방법의 일부 구현예에서, 비교적 낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은-해상도) 서열 데이터는 세포, 예를 들어, 배아, 자식 또는 유기체의 세포의 염색체 이상과 같은 게놈 특징을 식별하고/하거나 모계 또는 부계인 것으로서 게놈 특징의 부모 기원을 결정, 예측 및/또는 추론하기 위해 게놈 특징의 유전 패턴을 평가하는 데 사용된다. 일부 구현예에서, 방법, 및 방법을 도입하는 시스템은 게놈의 단지 부분 또는 사전-결정된 특정 표적화된 영역의 시퀀싱으로부터 얻어진 것과는 상반되게, 세포(들)의 전장 게놈 핵산(게놈 DNA) 또는 전체 DNA(또는 전체 핵 DNA)의 DNA 샘플의 낮은-커버리지 및/또는 낮은-폭 전장 게놈 시퀀싱으로부터 얻어진 DNA 서열 데이터(예를 들어, 낮은-해상도 서열 데이터)를 사용한다. 일부 구현예에서, 방법 및 시스템은 대치 전에, 예를 들어, IVF를 통해 생성된 배아를 포함하는, 배아에서 게놈 특징의 유전 패턴을 분류하기 위해 사용된다. 일부 구현예에서, 본원에 제공된 방법 및 시스템은 착상 전에, IVF 배아와 같은 배아에서, 염색체 이상의 유전 패턴, 예를 들어, 이수성, 배수성 및/또는 염색체 부분 이득 및/또는 상실(예를 들어, 크기에 있어서, 약 20 메가 염기 이상의 부분 이득 및/또는 상실)을 분류하기 위해 사용된다.
도 1은 게놈 특징을 검출 및/또는 식별하고/하거나 세포(들), 예를 들어, 배아, 또는 유기체(들)의 게놈 핵산(게놈 DNA)의 하나 이상의 게놈 특징의 유전 패턴 및/또는 부모 기원을 평가, 분류, 결정, 예측 및/또는 추론하는 예시적인 방법의 워크플로우(100)의 다이아그램 제시이다. 일부 구현예에서, 방법은 염색체 이상(예를 들어, 배수성, 예를 들어, 균형-성 염색체 배수성)을 검출 또는 식별하고/하거나 하나 이상의 염색체 이상의 유전 패턴 및/또는 부모 기원을 평가, 분류, 결정, 예측 및/또는 추론하기 위해 사용된다. 일부 구현예에서, 염색체 이상은 이수성, 예를 들어, 감수분열 이수성, 및/또는 배수성(예를 들어, 균형-성 염색체 배수성)이다. 도 1의 단계 101 및 102에 도시된 바와 같이, 자식, 예를 들어, 배아, 및 추정된 모계 및 부계 기여자(모체 및 부체, 또는 부모)의 DNA의 시퀀싱으로부터의 서열 리드(데이터)는 맵핑을 위한, 적절한 설정을 갖는 임의의 적합한 정렬 소프트웨어 프로그램을 사용하여, 수신되고 참조(예를 들어, 인간) 게놈에 정렬된다. 방법(100)의 일부 구현예에서, 서열 리드는 자식 및 부모 게놈 핵산(게놈 DNA)의 낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은-해상도) 시퀀싱, 예를 들어, DNA의 낮은-커버리지 및/또는 낮은-심도(예를 들어, 해상도) 전장 게놈 시퀀싱으로부터 얻어진다. 단계 103에서, 서열 데이터는 자식의 염색체 복제수 변이(CNV) 및 구조 복제수 변이(예를 들어, 이수성, 비균형-성 배수성 및 부분 염색체 이득 및 상실)와 같은 SNV 및 염색체 이상을 검출 및/또는 식별하고, 부모의 SNV를 검출 및/또는 식별하기 위해 분석된다. 염색체 이상의 검출/식별을 위한 단계 103에서의 분석은 본원에서 "CNV" 분석으로서 지칭된다. 최종 복제수 분석 결과를 포함한 염색체도는 자식 및 이에 대해 생성되며, 자식 및 부모에 대한 SNV 데이터 화일은 단계 104A 및 104B에서 수신된다. 일부 구현예에서, 방법은 자식 및 부모 게놈 핵산(게놈 DNA)의 낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은-해상도) 시퀀싱, 예를 들어, DNA의 낮은-커버리지 및/또는 낮은-심도(예를 들어, 해상도) 전장 게놈 시퀀싱을 통해 얻어진 핵산 서열 정보를 기초로 할 수 있는 부모에 대한 SNV 데이터 및 자식에 대한 SNV 데이터 및 염색체도를 수신하는 단계 104A 및 104B에서 시작한다. 일부 경우에, 염색체도 및 SNV 데이터를 생성하는 데 사용되는 서열 리드는 데이터의 차수 증가 규모를 제공할 수 있는 낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은-해상도) 페어드-엔드 시퀀싱 방법을 통해 얻어진다. 맵핑된 리드의 분석 및 해석을 위한 방법은 당 분야에 공지되어 있고/있거나 본원에 기술되어 있다. 예를 들어, 일부 구현예에서, 염색체도 및 SNV 데이터는 미국특허출원공개 제2020/011573호에 기술된 바와 같이 수행된 맵핑된 리드의 분석을 포함한다. 예를 들어, 염색체 위치에 정렬된 게놈 서열 리드의 빈도는 빈도 임계값에서 벗어날 때, 인공 지능(AI)/기계 학습(ML)을 사용하여, 노이즈-제거된 샘플 게놈 서열 데이터 세트에서 복제수 변이가 식별될 수 있다. 이후에, 배아의 핵형은 이러한 분석으로부터 결정된다.
본 예시적인 방법에서 자식 및 두 배우자 기여자(유전적 부모)로부터의 DNA에서 식별된 단일 뉴클레오타이드 변이체(SNV)는 배아 및 부모에서 대립 유전자 및/또는 일배체형을 예측하거나 추론하는 데 사용된다. 집단의 1% 초과가 게놈의 특정 위치에서 동일한 뉴클레오타이드를 지니지 않는 경우에, SNV는 종종 단일 뉴클레오타이드 다형성(SNP)으로 지칭된다. SNV는 통상적으로, 덜 특성화된 유전자좌에 대한 보다 일반적인 용어이다. 인간 게놈 전반에 걸쳐, 평균적으로 200 bp 마다 약 1천만개 이상의 SNP가 위치되어 있다. 일부 SNP가 특성 또는 장애와 관련될 수 있지만, 대부분은 기능이 알려져 있지 않다. 2개의 개체(일란성 쌍둥이 제외)가 제공된 집단 내에 주 아이소형 및 부 아이소형으로서 존재하는 동일한 SNP 패턴을 가지지 않는다. SNV 및 SNP는 본원에서 상호 교환가능하게 사용된다. 게놈 특징(예를 들어, 배수성, 예를 들어, 균형-성 염색체 배수성)을 검출 및/또는 식별하고/하거나 하나 이상의 게놈 특징(예를 들어, 이수성 및/또는 배수성)의 유전 패턴 및/또는 부모 기원을 평가, 분류, 결정, 예측 및/또는 추론하기 위한 본원에 제공된 방법 및 시스템의 일 구현예에서, 유전자형 대치(도 1의 단계 105)는 게놈의 서열에서 식별된 SNV의 분석을 기초로 하여 자식(예를 들어, 배아) 및 이의 개개 배우자 기여자 또는 유전적 부모의 게놈의 모든 염색체에 대한 예측된 대립 유전자 및/또는 일배체형을 작제화하고 추론하기 위해 사용된다.
낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은 해상도) 시퀀싱은 누락 데이터 포인트를 갖는 희소 데이터를 산출하고, 이에 따라, 유전자형의 확률적 표현(유전자형 가능성)을 제공한다. 유전자형 대치 방법은 유전자형 가능성을 개선하고 자식 및 부모 게놈 핵산(게놈 DNA)의 낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은-해상도) 시퀀싱을 야기시키는 드물게 맵핑된 서열 리드로 인해 갭에 채우기 위해 사용되며, 여기서, 배아와 부모 사이에서 서열 정보의 중첩 양은 제한될 수 있다. 대치는 누락 유전자형 및 일배체형 단계의 통계학적 추론이며, 이에 의해, 대립 유전자 또는 일배체형은 자식(예를 들어, 배아) 및 하나 또는 두 부모 모두의 게놈의 모든 염색체에 대해 추론될 수 있다. 유전자형 대치는 완전히 결정된 대립 유전자를 갖는 완전히 페이징된 개체의 일배체형의 참조 패널 및 서열 데이터로부터의 유전자형 SNV 위치에서 유전자형을 페이징하고, 이후에 유전자형 위치에서 매칭하는 일배체형을 매칭하는 것을 포함한다. 공지된 일배체형(예를 들어, 인간 일배체형)의 공개적으로 입수 가능한 참조 패널은 Halotype Reference Consortium 데이터 세트(예를 들어, https://www.ebi.ac.uk/ega/studies/EGAS00001001710 참조)를 포함하며, 이는 인간 게놈 어셈블리 GRCh37 및 1000개의 게놈 프로젝트에서 코딩(코드화)된 페이징된 SNV 유전자형을 포함한다(예를 들어, https://www.internationalgenome.org/). 유전자형 대치 방법은 당 분야에 공지되어 있고, 예를 들어, Beagle(예를 들어, Browning et al. (2018) Am J Hum Genet 103(3):338-348, Browning and Browning (2007) Am J Hum Genet 81:1084-1097 및 http://faculty.washington.edu/browning/beagle/beagle.html#download 참조), MACH(예를 들어, Li et al. (2009) Ann Rev Genom Hum Genet 10:387-406, Li et al. (2010) Genet Epidemiol 34:816-834 및 http://csg.sph.umich.edu/abecasis/MACH/tour/imputation.html 참조)를 포함한다.
도 1의 방법의 다양한 구현예에서, Beagle version 5.0을 사용하여 누락 변이체 데이터의 대치 및 염색체 일배체형의 페이징(phasing)이 수행된다. Beagle 프로그램은 게놈 샘플들 사이의 관련성에 대한 어떠한 가정도 하지 않는다. 이러한 것이 다른 방법과 비교하여 알려진 관계를 갖는 게놈 샘플에 대한 변이체의 복구 및 적절한 페이징의 정확성의 상대적인 감소를 야기시킬 수 있지만, 하나의 장점은 관련되지 않은 샘플(예를 들어, 부정확하게 라벨링된 부모/자식 샘플)의 경우에, Beagle이 이의 분석에 대한 관계를 시행하지 않을 것이다. 추가적으로, Beagle 버젼 5는 일부 다른 프로그램과 비교하여 비교적 신속하다. 대치 및 대치의 페이징 성능은 데이터베이스에서 관련된 사전-페이징된 일배체형 데이터의 가용성에 의해 제한될 수 있다. 도 1의 방법의 일부 구현예에서, 대치 공정은 2,504명의 대상체로부터의 일배체형을 함유한 페이스 3의 1000개의 게놈 일배체형 참조 데이터베이스를 사용하여 수행된다. 추가 서열 변이체 데이터로의 참조 데이터베이스의 증대는 특정 표적 집단에 대한 일배체형 추론을 개선시킬 수 있다. 본원에 제공된 방법 및 시스템의 일부 구현예에서 대치의 도입은 하나 또는 두 부모 및 자식, 예를 들어, 배아에 대해 예측된 완전히 페이징되고 완전한 세트의 대립 유전자 및/또는 일배체형을 산출한다. 이러한 정보는 이후에, 게놈 특징을 검출 및/또는 식별하고/하거나 게놈 특징의 유전 패턴(POI), 예를 들어, 이수성 및 배수성을 평가, 추론 또는 결정하는 데 사용되는 배아에 대한 대립 유전자의 모계 및/또는 부계 기여의 비율을 결정하는 데 사용된다.
도 1의 방법의 단계 105에서 결정된 변이체의 추론된 대립 유전자 및/또는 일배체형(SNV-함유 서열)의 충분히 페이징되고 완전한 세트는 도 1에 도시된 방법의 단계 106A 또는 단계 107에서 자식의 유전적 이상(즉, 단계 104A에서 이미 식별된 이상)을 모계 또는 부계 기원인 것으로서 분류하기 위해 사용된다. 도 1에 도시된 바와 같이, 자식(예를 들어, 배아)에 대한 염색체도가 이수성이 배아에 존재함을 나타내는 경우, 방법은 유전 패턴의 분석 및 결정을 위해 단계 106A로 진행한다. 자식에 대한 염색체도가 이수성이 존재하지 않거나 비균형-성 배수성이 자식에서 존재하는 경우에, 방법은 먼저 자식이 전장 게놈 투여량 비균형을 나타내고 배수체인지를 결정하기 위해 단계 106B로, 및 이후에, 배수성이 검출되는 경우 배수성의 유전 패턴의 결정을 위한 단계 107로 진행한다. 염색체도가 샘플이 이수성을 갖는 수컷 또는 암컷이고 배수성이 검출되지 않음을 나타내는 경우에, 분석은 이수성의 부모 기원을 결정하기 위해 단계 105에서 106A로 진행한다. 이후에, 분석은 배아에 대한 모계 및 부계 기여를 추정하고 임의의 균형-성 배수성을 검출하기 위해 단계 106B로 진행한다. 균형-성 배수성이 검출되지 않는 경우에, 샘플에 대한 분석이 종료된다. 그러나, 균형-성 배수성이 검출되는 경우, 분석은 배수성의 부모 기원을 결정하기 위해 단계 107로 진행한다. 염색체도가 샘플이 비균형-성 배수성을 가지거나 감수분열 이수성이 없는 암컷임을 나타내는 경우에, 이는 단계 105로 진행하고, 배아에 대한 모계 및 부계를 추정하고 임의의 이수성의 부모 기원을 식별하기 위해 단계 106B를 통해 계속하고, 이후에, 배수성의 부모 기원을 결정하기 위해 단계 107로 진행한다. Beagle version 5.0 대치 프로그램의 제한은 분석된 모든 염색체가 이배체이고, 이에 따라, 대치된 데이터로 되돌아 가는 것이다. 이와 같이, 반수체 데이터는 일반적으로, 동형접합 이배체로서 코딩된다. 삼배체(및 더욱 복잡한) 일배체형은 유사하게 이배체로서 대치된다. 이러한 경우에, 본원에 기술된 유전 패턴 분석은 추론된 일배체형의 추정된 정확한 세트를 기초로 하지 않고 본원에 기술된 바와 같이, 낮은-커버리지 및/또는 낮은-심도(예를 들어, 낮은 해상도) 시퀀싱 데이터 및 부모에 대한 이의 용량 관계에서 식별된 SNV-함유 변이체의 빈도를 기초로 한 것이다. 상세하게는, 페이징되고 대치된 데이터는 유사 염색체로서 처리되고, 실제 이수체인 경우, 적어도 정보 변형에 대해서, 모계 유전자형 또는 부계 유전자형 둘 모두가 아닌 어느 하나와 동일하고 이와 매칭할 것으로 예상된다. 유전 패턴(POI) 결정 단계 106A 또는 단계 107에서 사용되는 예시적인 방법(200)의 워크플로우는 도 2에 도시되어 있다.
도 1의 방법의 구현예의 단계 106A 또는 단계 107에서 모계 또는 부계인 것으로서 배아 이상(예를 들어, 이수성 및/또는 배수성)의 분류에서, 모체 및 부체 둘 모두에 대한 자식, 예를 들어, 배아, 게놈 DNA의 관련성의 측정치가 계산된다. 일 구현예에서, 계산은 모체 또는 부체와 공유된 자식, 예를 들어, 배아에서 각 규정된 게놈 bin(게놈의 규정된 영역, 예를 들어, 1백만개의 염기)에서 식별된 전체 변이체를 카운팅하고, 카운트를 사용자-규정된 크기의 게놈 영역 당 단일 관련성 값으로 전환시키는 것을 포함한다. 카운팅 전에, 입력 대립 유전자/일배체형 변이체 서열 데이터가 필터링된다(도 2의 단계 201 참조). 입력 데이터는 특히 특정 서열분석기로부터의 낮은 대역 서열 데이터가 일반적으로, 다수의 시퀀싱 아티팩트를 포함하기 때문에, 불완전한 것으로 예상된다. 이에 따라, 카운팅 공정에서 제1 단계는 검출된 변이체를 필터링하는 것이다. 상세하게는, 일부 구현예에서, 하기 서열이 카운팅으로부터 식별되고 제외된다: (1) 자식, 모체 및 부체(트리오) 사이에서 임의의 누락 대립 유전자를 갖는 부위의 서열(이러한 경우에 관련성을 추론할 수 없음), (2) 트리오에 걸쳐 불변 대립 유전자를 갖는 부위 서열(비유용성), (3) 트리오에서 하나의 개체 내에 신규 대립 유전자를 갖는 부위의 서열(시퀀싱 아티팩트의 비유용성 및 가능성), 및 (4) 단지 정배수체 유전과 일치하는(이수체 관계 추정에 대해 유용하지 않음) 부위의 서열. 필터링은 또한, 멘델 유전과 부합하지 않는 SNP를 제외하는 것을 포함할 수 있다. 도 2의 방법의 이러한 구현예에서, 입력 변이체는 간접적으로 (즉, 자식과 부모 사이에서의 관계를 비교함으로써) 필터링된다. 이러한 방법은 정확한 트리오(trio)를 가정하고, 부정확하게 지정된 부모의 사건에서 반드시 정확한 부위를 필터링하는 것은 아니다.
변이체가 필터링된 후(일반적으로, 입력 관찰된 페이징된/대치된 SNV-함유 변이체의 약 10% 이하), 나머지 변이체는 개개 염색체(예를 들어, 1백만개의 염기) 내에서 게놈 영역에 의해 사용자-규정 크기의 bin으로 분포된다(도 2의 단계 202).
도 2의 단계 203에서, 각 규정된 bin 내의 변이체가 카운팅되며, 2개의 값은 각 bin에 대해 생성된다. 제1 값은 자식과 모계 구성요소 사이에서 함께 페이징된 변이체의 수이며, 제2 값은 자식과 부계 구성요소 사이에서 함께 페이징된 변이체의 수이다. 개개 염색체 이수성에 대한 유전을 결정하기 위해 (이수체 CNV 콜과 관련된 bin을 기초로 하여) 이수성인 것으로 알려진 bin만이 특정 이수성에 대해 평가된다. 이러한 것은 하기와 같은 결과 화일에서 보고되지 않은 한 세트의 카운트를 포함한다: (a) 배아와 모체 사이에서 공유되는 대체(즉, 비-참조) 대립 유전자의 카운트인 OvM(즉, "자식 변이체는 모계 소스와 공유함"), 및 (b) 배아와 부계 샘플 사이에서 공유된 대체 대립 유전자의 카운트인 OvP(즉, "자식 변이체는 부계 소스와 공유함"). 참조 대립 유전자는 참조 게놈과 매칭되며, 일반적으로, 대부분의 대립 유전자가 참조 게놈과 매칭되는 것으로 예상된다. 대체 대립 유전자는 참조 게놈과 매칭되지 않는 변이체가 존재하는 임의의 제공된 유전자좌에 대한 것이다. 대부분의 염기/대립 유전자가 모체, 부체 및 자식에 대한 참조 게놈과 매칭하기 때문에, 참조 대립 유전자는 덜 유용하다. 참조 대립 유전자가 일반적으로 유용하지 않기 때문에 대체 대립 유전자만이 사용된다.
단계 203의 카운팅 기능의 출력은 특정 분석에서 모든 염색체에 걸쳐, bin 당 한 세트의 OvM 및 OvP 카운트이다(단지 이수체 핵형을 갖는 자식에 대한 이수성의 특정 염색체(들) 또는 이수성을 나타내지 않고 배수성과 상관 관계가 있는 핵형을 갖는 배아에 대한 모든 염색체). 도 2의 단계 204에서, 이러한 카운트는 bin 당 용량 수치로서 지칭되는 단일 관련성 값으로 전환된다. 2개의 통계량은 각 bin 내에서 계산된다: (1)
Figure pct00001
인 L2RAT(여기서, OvM 및 OvP는 카운트이며, s는 SMOOTH 제어가능한 엘리먼트임(단, 구성 화일에서 또는 명령 라인 논의를 통함)). 스무딩(smoothing) 파라미터(s)는 0 카운트를 갖는 bin의 경우에 무한 값을 방지하는 데 사용된다. 1 내지 30 사이의 값은 적절하며(값이 클수록 추정치가 축소됨), (2) OvM - OvP로서 규정된 DIFF. 일부 구현예에서, L2RAT는 기본 용량 수치이고, 이상값에 대해 더욱 강력하고, 원하는 경우 축소할 수 있다. 추정치 모두는 0이 중심이 되어야 하며(자식이 모체 또는 부체에 대한 더 강력한 관계를 나타내지 않을 때), 둘 모두는 자식 사이의 관계가 부체보다 모체와 더 강력할 때 양의 값, 및 그렇지 않으면 음의 값을 갖는다. 이러한 구현예에서, 용량 통계량이 정배수체 유전에 대해 0에서 중심을 가져야 하며, 0에서 우연히 예상되는 것을 넘는 출발이 모체 또는 부체로부터 강한 관계(즉, 더 큰 수의 유전된 변이체)를 나타낸다고 가정된다. 이러한 가정은 배아 샘플이 모계 물질로 오염된 경우에 거짓이다. 이러한 경우에, 용량 통계학은 모든 염색체에 대해 양의 방향으로 이동될 것이고, 이에 따라, 배수체로 잘못 나타날 수 있다.
도 2의 단계 205에서, 하나의 샘플 t-통계량은 특정된 용량 수치, 예를 들어, L2RAT 상에서 계산된다. 계산된 시험 통계에 대한 데이터 세트는 관심 영역에서 모든 bin에 대한 추정된 용량 값의 세트이다. 예를 들어, 10 메가 염기 영역이 특정되고 bin 크기가 1 메가 염기인 경우, t-테스트는 각 bin에서 하나씩, 10 L2RAT 추정치를 기초로 할 것이다. 단계 205에서, 시험 통계는 모든 제공된 관심 영역(예를 들어, 게놈 전체, 모든 특정 염색체, 및 임의의 특정 부분 영역)에 대해 생성된다. bin의 수, 용량 통계량의 평균 및 표준 편차, 및 p-값 및 맞춤 신뢰도 매트릭이 또한 이러한 단계에서 제공된다. bin 크기 및 최소 분석된 영역 크기 둘 모두의 선택은 사용자 제어가능하다. 추론된 일배체형이 크기 때문에, 작은 bin 크기는 이웃하는 영역이 상관 관계가 있으며 후속하여 작은 인접한 bin에서 카운트가 또한 상관 관계가 있을 수 있기 때문에 최적은 아니다. 이는 원하는 것보다 더 큰 분산을 갖는 t-통계량을 야기시킬 수 있다(즉, 이러한 것은 보증된 것보다 양성 및 음성 둘 모두의 더 큰 t-테스트 값을 생성할 수 있다).
도 2의 단계 206에서, 각 유전적 이상, 예를 들어, 이수성은 t-통계 및 사용자-제어가능한 분류/검출 임계값을 사용하여 부모 기원으로 지정된다. 부모 기원 결정은 모든 염색체에 대해(게놈 수준 연관, 예를 들어, 배수체 자식의 경우) 및 개별 염색체 수준에서(이수체 자식의 경우) 부모-자식 대립 유전자 매치의 수를 기초로 한다. 이에 따라, 감수분열 이수성 수준(전체 및 부분 염색체 둘 모두)에서, 유사도를 비교할 때 이수성과 상관관계가 있는 그러한 염색체에 존재하는 대립 유전자만이 고려된다. 샘플이 배수체 및 이수체의 경우에, 공지된 염색체 이수성은 전체 염색체 시험 통계를 기초로 한 부모 기원에 대해 분류된다. 시험에서 bin의 수는 bin 크기 및 염색체 길이 둘 모두에 따라 달라질 것이다(분석은 더 긴 염색체에 대해 이수성을 분류하기 위해 더 큰 통계적 검증력을 가질 것임). 이러한 시험에 대한 출력은 "모계," "부계," 또는 "검출되지 않음"일 것이다. "검출되지 않음"의 출력은 시험 통계가 사용자 제어가능한 임계값(CLASS_THRESHOLD_ANEUPLOID)을 초과하지 못할 때 반환된다. 이러한 카테고리가 고정되어 있지만, 반환된 특정 메시지는 사용자 제어가능하다. 배아 샘플이 배수체가 아닌 경우에, 공지된 부분 이수성(사용자 제어가능한 크기 요건을 충족함)은 영역 시험 통계량을 기초로 하여 분류된다. 시험에서 bin의 수는 bin 크기 및 영역 크기 둘 모두에 따라 달라질 것이다(더 긴 영역에 대해 이수성을 분류하기 위해 더 큰 통계력이 존재함). 이러한 시험에 대한 출력은 "모계," "부계," 또는 "분류되지 않음"일 것이다. "분류되지 않음"의 출력은 시험 통계가 사용자 제어가능한 임계값(CLASS_THRESHOLD_ANEUPLOID)을 초과하지 못할 때 반환된다. 이러한 카테고리가 고정되어 있지만, 반환되는 특정 메시지는 사용자 제어가능하다.
도 1로 돌아가서, 단계 106B에서, 자식, 예를 들어, 배아의 전체 게놈(즉, 모든 염색체)에 대한 모계 및 부계 기여는 공유된 변이 대립 유전자의 수를 기초로 하여 추정되고, 임의의 이전에 검출되지 않은 배수성을 검출하는 데 또는 자식에 대한 염색체도에서 검출 및 식별된 배수성을 확인하기 위해 사용된다. 단계 106B는 이전 핵형 공정을 통해 이수체로서 식별되지 않은 임의의 자식에 대한 단계 105 후에 직접적으로 수행된다. 예외로, 일부 구체예에서, 이배체 수컷 배아는 CNV 데이터 및 염색체도에서 배수성(예를 들어, 비균형-성 배수성)의 증가를 나타낸다. 일부 구현예에서, 자식이 이배체 수컷(46,XY)으로서 식별된 경우에, 이는 배수성 또는 유전 패턴에 대해 평가되지 않는다. 추가적으로, 도 1의 단계 106A에서 유전 패턴에 대해 평가된 모든 이수체 자식은 임의의 검출되지 않는 배수성이 존재하는 지를 결정하기 위해 단계 106B에서 자식의 전장 게놈(즉, 모든 염색체)에 대한 모계 및 부계 기여에 대해 분석된다. 이러한 단계는 단지 자식 샘플이 이전에 "배수체"로서 보고되지 않은 경우에만(및 일부 구현예에서, 샘플이 또한 수컷이지 않은 경우) 수행된다. 이러한 시험에 대한 출력은 "모계," "부계," 또는 "검출되지 않음"일 것이다. "검출되지 않음"의 출력은 시험 통계가 사용자 제어가능한 임계값(DETECT_THRESHOLD_POLYPLOID)을 초과하지 못할 때 반환된다. 이러한 카테고리가 고정되어 있지만, 반환된 특정 메시지는 사용자 제어가능하다. 전장 게놈 분석에 대해서도, 배수성의 부모 기원의 분류에 대한 것보다 배수성 검출에 대한 더 높은 임계값이 설정된다. 공지된(초기 염색체도에서 식별된 바와 같음) 비-정배수체 자식 샘플의 경우에, 배수성의 부모 기원은 도 1의 단계 107에서 전장 게놈 시험 통계를 기초로 하여 분류된다. 시험에서 bin의 수는 bin 크기에 따라 달라질 것이다. 이러한 시험에 대한 출력은 "모계," "부계," 또는 "분류되지 않음"일 것이다. "분류되지 않음"의 출력은 시험 통계가 사용자 제어가능한 임계값(CLASS_THRESHOLD_POLYPLOID)을 초과하지 못할 때 반환된다. 이러한 카테고리가 고정되어 있지만, 반환되는 특정 메시지는 사용자 제어가능하다.
도 3은 본원에 제공된 유전적 이상의 부모 기원을 검출 및/또는 분류하는 방법의 일부 구현예를 수행하기 위한 논리적 흐름을 도시하는 결정 트리 다이아그램이다. 이러한 다이아그램은 방법의 일부 구현예에 대하여, 구현예에 의해 시험되는 임의의 시편에 대한 최종 결과를 결정하는 공정을 도시하고, 부모 기원(POO) 파이프라인으로서 지칭된다. 일부 구현예에서, 자식, 예를 들어, 배아, DNA 샘플에 대한 시험은 하기와 같이 결정 경로에 따라 진행한다. 샘플이 비-배수체 암컷(XX)인 경우, 이는 게놈 투여량이 예상되는 것에서 유의미하게 벗어나는 경우를 결정하기 위해 방법에 의해 평가되며, 이러한 경우에, 이는 배수체(모계 또는 부계)로서 특성화되고 보고된다. 샘플이 비-배수체 XX가 아니고 배수체(XXY 또는 XYY)로 불리워지는 경우, 이는 배수성에 대한 유전 패턴(POI)의 특성화를 위해 파이프라인으로 들어가고 이후에 보고된다. 샘플이 비-배수체 XX 또는 배수체 XXY 또는 XYY가 아니고 CNV 분석에 의해 반수체로 불리워지는 경우에, 이는 전장 게놈 투여량 비균형의 평가를 위한 파이프라인에 들어가고 보고된다. 이전에 나열된 기준을 충족하지 않는 모든 다른 샘플은 전체 염색 이수성 및 부분 염색체 이수성에 대해 평가된다. 이러한 것이 CNV 분석에 의해 결정된 바와 같이 모자이크 이수성인 경우, 이러한 것은 방법에 의해 조사되지 않는다. 이러한 것이 전체 복제 변화(감수분열 이수성)인 경우, 방법은 관심 영역을 모계, 부계로서 분류하거나 분류하지 않도록 시도하며, 결과는 이와 같이 보고된다.
다양한 구현예에서, 본원에 제공된 하나 이상의 게놈 특징의 유전 패턴 및/또는 부모 기원을 평가, 분류, 결정, 예측 및/또는 추론하는 방법이 제공된다. 방법은 컴퓨터 소프트웨어 또는 하드웨어를 통해 구현될 수 있다. 방법은 또한, 하나 이상의 게놈 특징의 유전 패턴 및/또는 부모 기원을 평가, 분류, 결정, 예측 및/또는 추론하기 위해 엔진들의 결합을 포함할 수 있는 컴퓨팅 디바이스/시스템 상에서 구현될 수 있다. 다양한 구현예에서, 컴퓨팅 디바이스/시스템은 직접 연결을 통해 또는 인터넷 연결을 통해 데이터 소스, 샘플 분석기, 및 디스플레이 디바이스 중 하나 이상에 통신가능하게 연결될 수 있다.
도 8은 다양한 구현예에 따른, 관심 영역에 대한 배아(예를 들어, 인간 배아)에서의 유전 패턴을 결정하기 위한 시스템(800)의 개략적 다이아그램이다. 시스템(800)은 데이터 저장소(810), 컴퓨팅 디바이스(830) 및 디스플레이(880)를 포함할 수 있다. 시스템(800)은 또한, 샘플 분석기(890)를 포함할 수 있다.
샘플 분석기(890)는 직렬 버스에 의해(둘 모두가 통합된 기기 플랫폼(812)을 형성하는 경우) 또는 네트워크 연결에 의해(둘 모두가 분산/별도의 디바이스인 경우) 데이터 저장소(810)에 통신가능하게 연결될 수 있다. 샘플 분석기(890)는 배아(820), 모체(822) 및 부체(824)로부터 샘플을 분석하도록 구성될 수 있다. 샘플 분석기는 추가 분석을 위한 시퀀싱 데이터를 수집하기 위해 샘플을 시퀀싱하도록 구성된, 시퀀싱 기기, 예를 들어, 차세대 시퀀싱 기기일 수 있다. 다양한 구현예에서, 시퀀싱 데이터는 이후에 후속 처리를 위해 데이터 저장소(810)에서 저장될 수 있다. 다양한 구현예에서, 시퀀싱 데이터 세트는 실시간으로 컴퓨팅 디바이스(830)에 공급될 수 있다. 다양한 구현예에서, 시퀀싱 데이터 세트는 또한, 처리 전에 데이터 저장소(810)에 저장될 수 있다. 다양한 구현예에서, 시퀀싱 데이터 세트는 또한, 실시간으로 컴퓨팅 디바이스(830)에 공급될 수 있다.
데이터 저장소(810)는 컴퓨팅 디바이스(830)에 통신가능하게 연결될 수 있다. 다양한 구현예에서, 컴퓨팅 디바이스(830)는 "하드와이어드(하드웨어에 내장된)" 물리적 네트워크 연결(예를 들어, 인터넷, LAN, WAN, VPN 등) 또는 무선 네트워크 연결(예를 들어, Wi-Fi, WLAN 등)일 수 있는 네트워크 연결을 통해 데이터 저장소(810)에 통신가능하게 연결될 수 있다. 다양한 구현예에서, 컴퓨팅 디바이스(830)는 워크스테이션 메인프레임 컴퓨터, 분산형 컴퓨팅 노드("클라우드 컴퓨팅" 또는 분산형 네트워킹 시스템의 일부), 개인용 컴퓨터, 모바일 디바이스 등일 수 있다.
데이터 저장소(810)는 배아, 모계 및 부계 서열 데이터를 수신하도록 구성될 수 있으며, 여기서, 모계 서열 데이터는 배아의 모체에서 유래한 것이며, 부계 서열 데이터는 배아의 부체에서 유래한 것이다. 다양한 구현예에서, 배아, 모계 및 부계 서열 데이터 중 적어도 하나는 낮은-커버리지 시퀀싱에 의해 획득된다. 낮은-커버리지 시퀀싱은 약 0.001 내지 10x일 수 있다. 낮은-커버리지 시퀀싱은 약 0.01 내지 0.5x일 수 있다. 낮은-커버리지 시퀀싱은 약 0.25 내지 0.2x일 수 있다.
컴퓨팅 디바이스(830)는 관심 영역 엔진(ROI 엔진)(840), 단일 뉴클레오타이드 다형성 식별 엔진(SNP 식별 엔진)(850), 대치 엔진(860) 및 유전 패턴 엔진(POI 엔진)(870)을 추가로 포함할 수 있다. 상기에 기술된 바와 같이, 컴퓨팅 디바이스(830)는 데이터 저장소(810)에 통신가능하게 연결될 수 있다.
ROI 엔진(840)은 참조 게놈에 수신된 서열 데이터를 정렬하고 정렬된 배아 서열 데이터에서 관심 영역을 식별하도록 구성될 수 있다. 관심 영역은 전장 게놈일 수 있다. 관심 영역은 관찰된 복제수 변이일 수 있다.
SNP 식별 엔진(850)은 모계 서열 데이터, 부계 서열 데이터, 및 배아 서열 데이터에서의 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(SNP)을 식별하도록 구성될 수 있다.
대치 엔진(860)은 시퀀싱 아티팩트를 제거하기 위해 배아, 모계 및 부계 시퀀싱 데이터 중 적어도 하나를 필터링하고 대치 참조를 사용하여 모계 서열 데이터 및 부계 서열 데이터에서 누락 갭을 대치하도록 구성될 수 있다. 대치 참조는 적어도 1000개의 게놈을 포함할 수 있다.
대치 엔진(860)은 시퀀싱 아티팩트를 제거하기 위해 배아, 모계 및 부계 시퀀싱 데이터 중 적어도 하나를 필터링하도록 추가로 구성될 수 있다. 필터링은 배아, 모체 및 부체 사이에서 임의의 누락 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함할 수 있다. 필터링은 배아, 모체 및 부체 사이에서 불변 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함할 수 있다. 필터링은 배아, 모체 및 부체 중 하나 내에 신규 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함할 수 있다. 필터링은 정배수체 유전과 일치하는 부위의 서열을 제외하는 것을 포함할 수 있다. 필터링은 또한, 멘델 유전과 부합하지 않는 SNP를 제외하는 것을 포함할 수 있다.
POI 엔진(870)은 모계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 모계 서열 데이터 상의 해당하는 영역에서 배아와 모체 사이에서 공통인 SNP의 수를 카운팅하도록 구성될 수 있다. POI 엔진(870)은 부계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 부계 서열 데이터 상의 해당하는 영역에서 배아와 부체 사이에서 공통인 SNP의 수를 카운팅하도록 구성될 수 있다. POI 엔진(870)은 모체와 부체 사이에서의 상대적 기여 값을 기초로 하여 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하도록 구성될 수 있다.
POI 엔진(870)은 모계 및 부계 기여 값을 결정하고 배아가 배수체인지를 결정하기 위해 전장 게놈에 걸쳐 SNP를 카운팅하도록 추가로 구성될 수 있다. 배아가 배수체일 때, POI 엔진(870)은 모체와 부체 사이에서의 상대적 기여 값을 기초로 하여 배수체의 유전 패턴을 모계 또는 부계로서 분류하도록 추가로 구성될 수 있다.
배아에 대한 유전 패턴이 분류된 후에, 이는 컴퓨팅 디바이스(830)에 통신가능하게 연결된 디스플레이 또는 클라이언트 단말기(client terminal)(880) 상에 결과 또는 요약으로서 디스플레이될 수 있다. 다양한 구현예에서, 디스플레이(880)는 씬 클라이언트 컴퓨팅 디바이스(thin client computing device)일 수 있다. 다양한 구현예에서, 디스플레이(880)는 관심 영역 엔진(ROI 엔진)(840), 단일 뉴클레오타이드 다형성 식별 엔진(SNP 식별 엔진)(850), 대치 엔진(860), 및 유전 패턴 엔진(POI 엔진)(870)의 작동을 제어하기 위해 사용될 수 있는 웹 브라우저(예를 들어, INTERNET EXPLORER™, FIREFOX™, SAFARI™ 등)를 갖는 개인용 컴퓨팅 디바이스일 수 있다.
다양한 엔진이 특정 애플리케이션 또는 시스템 구조의 요건에 따라, 단일 엔진, 구성요소 또는 모듈에 결합되거나 축소될 수 있다는 것이 인식되어야 한다. 다양한 구현예에서, 관심 영역 엔진(ROI 엔진)(840), 단일 뉴클레오타이드 다형성 식별 엔진(SNP 식별 엔진)(850), 대치 엔진(860), 및 유전 패턴 엔진(POI 엔진)(870)은 특정 애플리케이션 또는 시스템 구조에 의해 필요한 경우 추가적인 엔진 또는 구성요소를 포함할 수 있다.
도 9는 다양한 구현예에 따른, 관심 영역에 대한 배아에서의 유전 패턴을 결정하는 방법(900)을 도시한 예시적인 순서도이다.
단계 910에서, 배아, 모계 및 부계 서열 데이터는 수신되며, 여기서, 모계 서열 데이터는 배아의 모체에서 유래한 것이며, 부계 서열 데이터는 배아의 부체에서 유래한 것이다. 다양한 구현예에서, 배아, 모계 및 부계 서열 데이터 중 적어도 하나는 낮은-커버리지 시퀀싱에 의해 획득된다. 낮은-커버리지 시퀀싱은 약 0.001 내지 10x일 수 있다. 낮은-커버리지 시퀀싱은 약 0.01 내지 0.5x일 수 있다. 낮은-커버리지 시퀀싱은 약 0.25 내지 0.2x일 수 있다.
단계 920에서, 수신된 서열 데이터는 참조 게놈에 정렬된다.
단계 930에서, 정렬된 배아 서열 데이터에서 관심 영역은 식별된다. 관심 영역은 전장 게놈일 수 있다. 관심 영역은 관찰된 복제수 변이일 수 있다.
단계 940에서, 모계 서열 데이터, 부계 서열 데이터, 및 배아 서열 데이터에서의 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(SNP)은 식별된다.
단계 950에서, 모계 서열 데이터 및 부계 서열 데이터에서 누락 갭은 대치 참조를 사용하여 대치된다. 대치 참조는 적어도 1000개의 게놈을 포함할 수 있다. 다양한 구현예에서, 단계 950은 또한, 시퀀싱 아티팩트를 제거하기 위해 배아, 모계 및 부계 시퀀싱 데이터 중 적어도 하나를 필터링하는 것을 포함할 수 있다. 필터링은 배아, 모체 및 부체 사이에 임의의 누락 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함할 수 있다. 필터링은 배아, 모체 및 부체 사이에 불변 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함할 수 있다. 필터링은 배아, 모체 및 부체 중 하나 내에 신규 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함할 수 있다. 필터링은 정배수체 유전과 부합하는 부위의 서열을 제외하는 것을 포함할 수 있다. 필터링은 또한, 멘델 유전에 부합하지 않는 SNP를 제외하는 것을 포함할 수 있다.
단계 960에서, 배아 서열 데이터에 대한 식별된 관심 영역 및 모계 서열 데이터 상의 해당하는 영역에서 배아와 모체 사이에서 공통인 SNP의 수는 모계 기여 값을 결정하기 위해 카운팅된다.
단계 970에서, 배아 서열 데이터에 대한 식별된 관심 영역 및 부체 서열 데이터 상의 해당하는 영역에서 배아와 부체 사이에서 공통인 SNP의 수는 부계 기여 값을 결정하기 위해 카운팅된다.
단계 980에서, 배아에 대한 유전 패턴은 모체와 부체 사이의 상대적 기여 값을 기초로 하여 모계 또는 부계로서 분류된다.
다양한 구현예에서, 방법은 모계 기여 값 및 부계 기여 값을 결정하고 배아가 배수체인지를 결정하기 위해 전장 게놈에 걸쳐 SNP를 카운팅하는 것을 추가로 포함할 수 있다. 배아가 배수체일 때, 배수체에 대한 유전 패턴은 모체와 부체 사이의 상대적 기여 값을 기초로 하여 모계 또는 부계로서 분류될 수 있다.
실시예
실시예 1 - 일염색체(monosomy)의 부모 기원의 분류
공지된 핵형 42;XY;-14;-15;-19;-21을 갖는 인간 배아로부터 추출된 DNA 및 두 부모 모두로부터의 DNA 샘플을 NextSeq 시퀀싱 시스템(Illumina)을 사용하여 0.1X 커버리지로 시퀀싱하였다. 서열 리드(sequence read)를 Bowtie2 정렬 프로그램을 사용하여 정렬하고, 인간 참조 게놈(HG19)에 맵핑하였다. 각 1백만개의 염기쌍 bin에서 리드의 총 수를 카운팅하였다. 데이터를 GC 함량 및 심도를 기초로 하여 정규화하고, 공지된 결과의 샘플로부터 생성된 베이스라인에 대해 시험하였다. 2의 복제수로부터의 통계적 편차를 이수성으로서 보고하였다(존재하는 경우, 그렇지 않는 경우 = 정배수체). 42;XY;-14;-15;-19;-21의 핵형을 결정하였다. 시퀀싱 데이터에서 SNV를 본원에 기술된 바와 같은 방법을 사용하여 식별하였다. 누락된 변이 데이터의 대치 및 염색체 일배체형의 페이징을 배아 및 각 부모로부터의 SNV 데이터 및 참조 패널로서 페이스 3(phase 3) 1000개의 게놈 일배체형 데이터베이스를 사용하는 Beagle version 5.0 대치 프로그램을 사용하여 수행하였다. 모체 및 부체와 공유되는 배아의 변이체를 카운팅하고 카운트를 사용자 정의 크기의 게놈 영역 당 단일 관련성 값으로 전환시킴으로써 모체 및 부체 둘 모두에 대한 배아 게놈 DNA의 관련성의 측정을 본원에 기술된 바와 같이 계산하였다.
분석 결과는 도 4에 도시된 막대 그래프에 나타나 있다. 22개의 상염색체 및 X 염색체(그래프의 x-축이 염색체 수임) 각각에 대해, 도 4는 모체와 매칭하는 염색체에서 변이 대립 유전자의 비율(청색 막대), 및 부체와 매칭하는 변이 대립 유전자의 비율(오렌지색 막대)을 도시한 것이다(y-축은 어느 한 제공된 부모와 일치하는 배아 변이 대립 유전자의 비율임). 매칭하는 변이 대립 유전자의 비율의 비교는 (이러한 XY 수컷 배아의 X 염색체 이외의) 대부분의 염색체에 대한 평균으로, 모체 및 부체에 대한 매칭하는 대립 유전자의 비율은 상당히 유사함을 나타낸다. 그러나, 염색체 14, 15, 19, 및 21에 대하여, 부체에 대한 매칭하는 대립 유전자의 비율은 모체에 대한 매칭하는 대립 유전자의 비율보다 더 높다. 또한, 부체와 매칭하는 유익한 대립 유전자 수의 카운트의 전체 분율(전체 변이 대립 유전자에 대한 매칭하는 대립 유전자의 비율)은 모체와 매칭하는 것보다 더 높다. 이러한 결과는, 기원에 있어서 4개의 염색체 결실이 모계이고, 일염색체의 유전의 모계 패턴을 나타냄을 명시한다.
실시예 2 - 삼염색체의 부모 기원의 분류
공지된 핵형 47;XX;+16을 갖는 인간 배아로부터 추출된 DNA, 및 두 부모 모두로부터의 DNA 샘플을 실시예 1에서 기술된 바와 같이 시퀀싱하고 분석하였다. 도 5a는 23개의 염색체 각각에 대한 부계 소스와 공유된 배아 변이 대립 유전자의 수(OvP) 대 모계 소스와 공유된 배아 변이 대립 유전자의 수(OvM)의 그래프를 도시한 것이다(청색 점). 점선 사선은 모계 소스와 공유된 배아 변이 대립 유전자의 수가 각 염색체에 대한 부계 소스와 공유하는 배아 변이 대립 유전자의 수와 일치하는 그래프 상의 점을 나타낸다. 사선 위에 위치된 점은 배아와 모체 사이보다 배아와 부체 사이에 더 많은 변이 대립 유전자가 공유된 염색체를 나타낸다. 사선 아래에 위치된 점은 배아와 부체 사이보다 배아와 모체 사이에 더 많은 변이 대립 유전자가 공유된 염색체를 나타낸다. 도 5a에서의 그래프에 도시된 바와 같이, 사선 아래에 더 많은 점이 존재한다. 또한, 염색체 16에 대한 공유된 대립 유전자에 대한 카운트를 나타내는 사선에서 가장 먼 점은 모체와 공유된 대립 유전자 대 부체와 공유된 대립 유전자의 카운트의 가장 큰 비(거의 2:1)를 갖는다. 이러한 결과는 배아에서 추가적인 염색체 16이 모계 기원이고 삼염색체의 유전자의 모계 패턴을 나타냄을 명시한다. 도 5b는 염색체 당 부체와 공유된 대립 유전자의 카운트에 대한 모체와 공유된 대립 유전자의 카운트의 비율을 도시한 도 5a에 도시된 결과의 다른 그래프 도면이다.
실시예 3 - 염색체의 부분 결실의 부모 기원의 분류
공지된 핵형 46;XY;del(6)(q25.1-qter);mos33.0% del(6)(pter-q25.1)을 갖는 인간 배아로부터 추출된 DNA 및 두 부모 모두로부터의 DNA 샘플을 실시예 1에 기술된 바와 같이 시퀀싱하고 분석하였다. 배아에서 염색체 6의 p 아암(arm)에서 결실의 크기는 대략 2천만개의 염기이다. 모체 및 부체의 염색체 6 변이 대립 유전자와 매칭되는 배아의 염색체 6에 대해 분석된 변이 대립 유전자의 수를 본 실시예에서 카운팅하였다. 도 6은 염색체 6 상의 위치(x-축은 염기쌍임)에 대해, 부계 소스와 공유하는 배아 변이 대립 유전자 수(OvP)에 대한 모계 소스와 공유하는 배아 변이 대립 유전자(OvM)의 수의 비율(y-축)을 도시한 것이다. 염색체의 q 아암의 위치는 약 62,000,000 bp에서 개시하며, q25.1-ter의 위치는 약 150,000,000 bp에 위치되어 있다. 그래프에 도시된 바와 같이, 150,000,000 bp 및 더 높은 위치로부터의 OvM/OvP이 비율은 거의 전체적으로 1.0보다 크다. 이러한 결과는 염색체 6의 부분 결실이 기원에서 부계이고, 결실의 유전의 부계 패턴을 나타냄을 명시한다.
실시예 4 - 배수성의 부모 기원의 분류
공지된 핵형 68;XXY;mos28.2% -19를 갖는 인간 배아로부터 추출된 DNA, 및 두 부모 모두로부터의 DNA 샘플을 실시예 1에 기술된 바와 같이 시퀀싱하고 분석하였다. 도 7은 23개의 염색체 각각에 대한 부계 소스와 공유하는 배아 변이 대립 유전자의 수(OvP) 대 모계 소스와 공유하는 배아 변이 대립 유전자의 수(OvM)의 그래프를 도시한 것이다(청색 점). 점선 사선은 각 염색체에 대해 모계 소스와 공유하는 배아 변이 대립 유전자의 수가 부계 소스와 공유하는 배아 변이 대립 유전자의 수와 일치하는 그래프 상의 점을 나타낸다. 사선 위에 위치된 점은 배아와 모체 사이보다 배아와 부체 사이에 더 많은 변이 대립 유전자가 공유되는 염색체를 나타낸다. 사선 아래에 위치된 점은 배아와 부체 사이보다 배아와 모체 사이에 더 많은 변이 대립 유전자가 공유되는 염색체를 나타낸다. 도 7의 그래프에 도시된 바와 같이, 모든 점은 사선보다 훨씬 아래에 있다. 도 7에 도시된 대립 유전자의 더 높은 모계 기여 쪽으로의 전체 이동은 모계 기원일 가능성이 있는 배수성의 발견을 뒷받침한다.
다른 예에서, 0.1X 커버리지에서 시퀀싱된 인간 배아의 영양외배엽 생검으로부터의 DNA의 CNV 분석(본원에 기술된 방법을 사용하여 수행됨)은 배아가 암컷이고 염색체 8의 상실을 가짐을 결정하였다. 도 10a는 염색체 8에 대한 2의 CN으로부터의 편차를 예시하는 각 염색체(x-축 상에 나열됨)에 대한 y-축 상의 염색체 복제수(CN)의 그래프로서의 CNV 분석 결과를 도시한 것이다. 배수성 및 유전 패턴을 평가하기 위해, 배아 및 두 부모 모두의 DNA(0.1x에서 시퀀싱됨)를 필수적으로 실시예 1에 기술된 바와 같이 그리고 본원에 기술된 방법을 사용하여 분석하였다. 분석 결과는 도 10b에서 염색체 용량 차트 형태로 도시되며, 염색체 수는 수직으로 나열되며, 모계 용량은 x-축 상에 측정된다. 염색체 용량은 log 2 스케일로 표현된, 배아에 대한 모계 대 부계 샘플의 관련성의 상대적 측정값이다. 양의 값은 배아와 모체 사이의 더 강한 관계를 나타내며, 음의 값은 배아와 부체 사이의 더 강한 관계를 나타낸다. 도 10b에 도시된 바와 같이, 결과는 배아에서 전장 게놈 모계 투여량 비균형을 식별하였는데, 이는 배아가 모체로부터 추가적인 유전 물질을 가짐을 나타낸다. 염색체 8의 상실은, 전장 게놈 이득이 선호되기 때문에 확정되지 않더라도, 투여량 차트가 모체로부터의 염색체 8의 1개의 복제 및 부체로부터의 염색체 8의 1개의 복제가 존재함을 시사하기 때문에, 모계인 것으로 나타난다(도 10b에서 청색 박스). 이러한 결과를 기초로 하여, 배아는 삼배체의 기원이 모계인 68,XXX; -8로서 보고된다.
실시예 5 - 부분 이득/상실 및 삼염색체성의 부모 기원의 분류
0.1X 커버리지에서 시퀀싱된 인간 배아의 영양외배엽 생검으로부터의 DNA의 CNV 분석(본원에 기술된 방법을 사용하여 수행됨)은 배아가 수컷이고 염색체 10의 부분 상실 및 염색체 13의 감수분열 이득을 포함함을 결정하였다. 도 11a는 염색체 10 및 13에 대한 2의 CN으로부터의 편차를 예시하는 각 염색체(x-축에 나열됨)에 대한 y-축 상의 염색체 복제수(CN)의 그래프로서의 CNV 분석 결과를 도시한 것이다. 유전 패턴을 평가하기 위해 배아 및 두 부모 모두의 DNA(0.1x에서 시퀀싱됨)를 필수적으로 실시예 1에 기술된 바와 같이 그리고 본원에 기술된 방법을 사용하여 분석하였다. 분석 결과는 도 11b에서 염색체 용량 차트 형태로 도시된 것이며, 염색체 수는 수직으로 나열되며, 모계 용량은 x-축 상에서 측정된다. 도 11b에 도시된 바와 같이, 분석 결과는 염색체 10의 짧은 아암이 부계 기원이며(적색 박스), 염색체 13의 이득이 모계 기원임(청색 박스)을 식별하였다. 이에 따라, 이러한 배아에 대한 최종 결과는 47;XY; del(10)(pter-p11.21) (부계), +13 (모계)이다.
실시예 6 - 일염색체의 부모 기원의 분류
0.1X 커버리지에서 시퀀싱된 인간 배아의 영양외배엽 생검으로부터의 DNA의 CNV 분석(본원에 기술된 방법을 사용하여 수행됨)은 수컷이었고, 염색체 21의 감수분열 상실을 포함하였다. 도 12a는 염색체 21의 경우 2의 CN으로부터의 편차를 예시하는 각 염색체(x-축 상에 나열됨)에 대한 y-축 상의 염색체 복제수(CN)의 그래프로서의 CNV 분석의 결과를 도시한 것이다. 유전 패턴을 평가하기 위해 배아 및 두 부모 모두의 DNA(0.1x에서 시퀀싱됨)를 필수적으로 실시예 1에 기술된 바와 같이 그리고 본원에 기술된 방법을 사용하여 분석하였다. 분석 결과는 도 12b에서 염색체 용량 차트 형태로 도시된 것으로서, 여기서, 염색체 수는 수직으로 나열되며, 모계 용량은 x-축 상에서 측정된다. 도 12b에 도시된 바와 같이, 분석 결과는 염색체 21의 상실이 모계 기원임을 식별하였다(청색 박스). 이에 따라, 이러한 배아에 대한 최종 결과는 45;XX; -21 (모계)이다.
실시예 7 - SNP 어레이(Gold Standard Truth)로 임상 데이터의 지원
골드 스탠다드(gold standard) SNP 어레이 기술에 의해 부모 기원에 대해 이미 평가된 감수분열 이수성을 갖는 총 65개의 배아를 본원에 기술된 유전 패턴 결정을 위한 초저 대역 시퀀싱 방법을 사용하여 조사하였다. 본원에 기술된 유전 패턴 방법을 통해 조사된 65/65 이수성은 예상된 유전 패턴을 형성하였다(표 1 참조). 이러한 데이터 세트는 전체 염색체 이득 및 상실, 부분 이득 및 상실 및 전장 게놈 염색체 이득(배수성)을 포함하는 모든 형태의 감수분열 이수성을 포함한다.
표 1 - 65개의 배아 시험에 대한 SNP 어레이 및 유전 패턴 평가 비교 결과
Figure pct00002
컴퓨터 구현 시스템
다양한 구현예에서, 관심 영역에 대해 배아에서의 유전 패턴을 결정하는 방법은 컴퓨터 소프트웨어 또는 하드웨어를 통해 구현될 수 있다. 즉, 도 8에 도시된 바와 같이, 본원에 개시된 방법은 관심 영역 엔진(ROI 엔진)(840), 단일 뉴클레오타이드 다형성 식별 엔진(SNP 식별 엔진)(850), 대치 엔진(860), 및 유전 패턴 엔진(POI 엔진)(870)을 포함하는 컴퓨팅 디바이스(830) 상에서 구현될 수 있다. 다양한 구현예에서, 컴퓨팅 디바이스(830)는 직접 연결을 통해 또는 인터넷 연결을 통해 데이터 저장소(810) 및 디스플레이 디바이스(880)에 통신가능하게 연결될 수 있다.
도 8에 도시된 다양한 엔진이 특정 애플리케이션 또는 시스템 구조의 요건에 따라, 단일 엔진, 구성요소 또는 모듈에 결합되거나 축소될 수 있다는 것이 인식되어야 한다. 또한, 다양한 구현예에서, 관심 영역 엔진(ROI 엔진)(840), 단일 뉴클레오타이드 다형성 식별 엔진(SNP 식별 엔진)(850), 대치 엔진(860), 및 유전 패턴 엔진(POI 엔진)(870)은 특정 애플리케이션 또는 시스템 구조에 의해 필요한 경우 추가 엔진 또는 구성요소를 포함할 수 있다.
도 13은 본 교시의 구현예가 구현될 수 있는 컴퓨터 시스템(1300)을 예시한 블록 다이아그램이다. 본 교시의 다양한 구현예에서, 컴퓨터 시스템(1300)은 정보를 통신하기 위한 버스(1302) 또는 다른 통신 메커니즘, 및 정보를 처리하기 위한 버스(1302)와 연결된 프로세서(1304)를 포함할 수 있다. 다양한 구현예에서, 컴퓨터 시스템(1300)은 또한, 프로세서(1304)에 의해 실행되는 명령을 결정하기 위한, 버스(1302)에 연결된, 랜덤-액세스 메모리(RAM)(1306) 또는 다른 동적 저장 디바이스일 수 있는 메모리를 포함할 수 있다. 메모리는 또한, 프로세서(1304)에 의해 실행되는 명령의 실행 동안 임시 변수 또는 다른 중간 정보를 저장하기 위해 사용될 수 있다. 다양한 구현예에서, 컴퓨터 시스템(1300)은 프로세서(1304)를 위한 정적 정보 및 명령을 저장하기 위한 버스(1302)에 연결된 판독 전용 메모리(ROM)(1308) 또는 다른 정적 저장 디바이스를 추가로 포함할 수 있다. 저장 디바이스(1310), 예를 들어, 자기 디스크 또는 광학 디스크는 정보 및 명령을 저장하기 위해 버스(1302)에 제공되고 연결될 수 있다.
다양한 구현예에서, 컴퓨터 시스템(1300)은 컴퓨터 사용자에게 정보를 디스플레이하기 위해, 버스(1302)를 통해 디스플레이(1312), 예를 들어, 음극선관(CRT) 또는 액정 디스플레이(LCD)에 연결될 수 있다. 영숫자 및 다른 키(key)를 포함하는, 입력 디바이스(1314)는 프로세서(1304)에 정보 및 명령 선택을 통신하기 위해 버스(1302)에 연결될 수 있다. 다른 타입의 사용자 입력 디바이스는 프로세서(1304)에 방향 정보 및 명령 선택을 통신하고 디스플레이(1312) 상에서 커서(cursor) 움직임을 제어하기 위한 커서 콘트롤(1316), 예를 들어, 마우스, 트랙볼 또는 커서 방향 키이다. 이러한 입력 디바이스(1314)는 통상적으로, 디바이스가 평면에서 위치를 지정할 수 있게 하는, 2개의 축, 즉 제1 축(즉, x) 및 제2 축(즉, y)에서 2개의 자유도를 갖는다. 그러나, 3차원(x, y 및 z) 커서 이동을 허용하는 입력 디바이스(1314)가 또한 본원에 고려되는 것으로 이해되어야 한다.
본 교시의 특정 구현과 일치하여, 결과는 메모리(1306)에 포함된 하나 이상의 순서의 하나 이상의 명령을 실행하는 프로세서(1304)에 응답으로 컴퓨터 시스템(1300)에 의해 제공될 수 있다. 이러한 명령은 다른 컴퓨터 판독가능 매체 또는 컴퓨터 판독가능 저장 매체, 예를 들어, 저장 디바이스(1310)로부터 메모리(1306)로 판독될 수 있다. 메모리(1306)에 포함된 명령어 시퀀스의 실행은 프로세서(1304)가 본원에 기술된 프로세스를 수행할 수 있게 한다. 대안적으로, 하드-와이어드 회로(hard-wired circuitry)는 본 교시를 구현하기 위해 소프트웨어 명령 대신에 또는 이와 함께 사용될 수 있다. 이에 따라, 본 교시의 구현은 하드웨어 회로 및 소프트웨어의 임의의 특정 조합으로 제한되지 않는다.
본원에서 사용되는 용어 "컴퓨터 판독가능 매체"(예를 들어, 데이터 저장소, 데이터 저장소 등) 또는 "컴퓨터 판독가능 저장 매체"는 실행을 위해 프로세서(1304)에 명령을 제공하는 데 참여하는 임의의 매체를 지칭한다. 이러한 매체는 비-휘발성 매체, 휘발성 매체, 및 전송 매체를 포함하지만, 이로 제한되지 않는 여러 형태를 취할 수 있다. 비-휘발성 매체의 예는 동적 메모리, 예를 들어, 메모리(1306)를 포함할 수 있지만, 이로 제한되지 않는다. 전송 매체의 예는 버스(1302)를 포함하는 와이어를 포함하는, 동축 케이블, 구리 와이어, 및 광섬유를 포함할 수 있지만, 이로 제한되지 않는다.
컴퓨터-판독가능 매체의 일반적인 형태는 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 자기 테이프, 또는 임의의 다른 자기 매체, CD-ROM, 임의의 다른 광학 매체, 펀치 카드, 페이퍼 테이프, 홀 패턴을 갖는 임의의 다른 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, 다른 메모리 칩 또는 카트리지, 또는 컴퓨터가 판독할 수 있는 임의의 다른 유형 매체를 포함한다.
컴퓨터 판독가능 매체 이외에, 명령 또는 데이터는 실행을 위해 컴퓨터 시스템(1300)의 하나 이상의 명령 또는 프로세서(1304)의 시퀀스를 제공하기 위해 통신 장치 또는 시스템에 포함된 전송 매체 상에 신호로서 제공될 수 있다. 예를 들어, 통신 장치는 명령 및 데이터를 나타내는 신호를 갖는 트랜시버(transceiver)를 포함할 수 있다. 명령 및 데이터는 하나 이상의 프로세서가 본원의 개시에서 개략된 기능을 구현하도록 구성된다. 데이터 통신 전송 연결의 대표적인 예는 전화 모뎀 연결, 광역 통신망(WAN), 근거리 통신망(LAN), 적외선 데이터 연결, NFC 연결 등을 포함할 수 있지만, 이로 제한되지 않는다.
본원에 기술된 방법, 순서도, 다이아그램 및 첨부된 개시가 컴퓨터 시스템(1000)을 독립형 디바이스로서 또는 클라우드 컴퓨팅 네트워크와 같은 분산망 또는 공유 컴퓨터 프로세싱 자원으로서 사용하여 구현될 수 있다는 것이 인식되어야 한다.
본원에 기술된 방법은 적용에 따라 다양한 수단에 의해 구현될 수 있다. 예를 들어, 이러한 방법은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 임의의 조합에서 구현될 수 있다. 하드웨어 구현을 위해, 프로세싱 유닛은 하나 이상의 주문형 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 프로세싱 디바이스(DSPD), 프로그램가능 논리 디바이스(PLD), 필드 프로그램가능 게이트 어레이(FPGA), 프로세서, 제어기, 마이크로-제어기, 마이크로프로세서, 전자 디바이스, 본원에 기술된 기능을 수행하도록 설계된 다른 전자 유닛, 또는 이들의 조합 내에서 구현될 수 있다.
다양한 구현예에서, 본 교시의 방법은 C, C++, Python 등과 같은 통상적인 프로그래밍 언어로 작성된 펌웨어 및/또는 소프트웨어 프로그램 및 애플리케이션으로서 구현될 수 있다. 펌웨어 및/또는 소프트웨어로서 구현되는 경우에, 본원에 기술된 구현예는 비일시적 컴퓨터 판독가능 매체 상에서 구현될 수 있으며, 이러한 매체에서, 컴퓨터가 상술된 방법을 수행하게 하기 위한 프로그램이 저장되어 있다. 본원에 기술된 다양한 엔진이 컴퓨터 시스템(1300)과 같은 컴퓨터 시스템 상에 제공될 수 있으며, 이에 의해, 프로세서(1304)가 메모리 구성요소(1306/1308/1310) 및 입력 디바이스(1314)를 통해 제공된 사용자 입력 중 어느 하나 또는 이들의 조합에 의해 제공된 명령에 따라, 이러한 엔진에 의해 제공된 분석 및 결정을 실행할 것으로 이해되어야 한다.
본 교시가 다양한 구현예와 함께 기술되지만, 본 교시가 이러한 구현예로 제한되는 것으로 의도되는 것은 아니다. 반대로, 본 교시는, 당업자에 의해 인식되는 바와 같이, 다양한 대안, 변경, 및 등가물을 포함한다.
다양한 구현예를 기술함에 있어서, 명세서는 방법 및/또는 공정을 특정 순서의 단계들로서 제시할 수 있다. 그러나, 방법 또는 공정이 본원에 기술된 단계들의 특정 순서에 의존하지 않는 한, 방법 또는 공정은 기술된 특정 순서의 단계들로 제한되지 않아야 하며, 당업자는 이러한 순서가 다양한 구현예의 사상 및 범위 내에서 변경되고 여전히 존재할 수 있다는 것을 용이하게 인식할 수 있다.
구현예의 인용
구현예 1: 관심 영역에 대한 배아에서의 유전 패턴을 결정하는 방법으로서,
배아, 모계 및 부계 서열 데이터를 수신하는 단계로서, 모계 서열 데이터는 배아의 모체에서 유래한 것이며, 부계 서열 데이터는 배아의 부체에서 유래한 것인 단계;
수신된 서열 데이터를 참조 게놈에 정렬하는 단계;
정렬된 배아 서열 데이터에서 관심 영역을 식별하는 단계;
모계 서열 데이터, 부계 서열 데이터, 및 배아 서열 데이터에서의 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(single nucleotide polymorphism; SNP)을 식별하는 단계;
대치 참조(imputation reference)를 사용하여 모계 서열 데이터 및 부계 서열 데이터에서 누락 갭(missing gap)을 대치하는 단계;
모계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 모계 서열 데이터 상의 해당하는 영역에서 배아와 모체 사이에서 공통인 SNP의 수를 카운팅하는 단계;
부계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 부계 서열 데이터 상의 해당하는 영역에서 배아와 부체 사이에서 공통인 SNP의 수를 카운팅하는 단계; 및
모체와 부체 사이의 상대적 기여 값을 기초로 하여 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하는 단계를 포함하는 방법.
구현예 2: 구현예 1에 있어서, 모계 및 부계 기여 값을 결정하고 배아가 배수체인지를 결정하기 위해 전체 게놈에 걸쳐 SNP를 카운팅하는 것을 추가로 포함하는 방법.
구현예 3: 구현예 2에 있어서, 배수체인 배아의 경우에, 방법이 모체와 부체 사이에 상대적 기여 값을 기초로 하여 배수체에 대한 유전 패턴을 모계 또는 부계로서 분류하는 것을 추가로 포함하는 방법.
구현예 4: 구현예 1에 있어서, 배아, 모계 및 부계 서열 데이터 중 적어도 하나가 낮은-커버리지 시퀀싱(low-coverage sequencing)에 의해 획득되는 방법.
구현예 5: 구현예 4에 있어서, 낮은-커버리지 시퀀싱이 약 0.001 내지 10x인 방법.
구현예 6: 구현예 4에 있어서, 낮은-커버리지 시퀀싱이 약 0.01 내지 0.5x인 방법.
구현예 7: 구현예 4에 있어서, 낮은-커버리지 시퀀싱이 약 0.25 내지 0.2x인 방법.
구현예 8: 구현예 1 내지 구현예 7 중 어느 하나에 있어서, 관심 영역이 전장 게놈(genome wide)인 방법.
구현예 9: 구현예 1 내지 구현예 8 중 어느 하나에 있어서, 관심 영역이 복제수 변이(copy number variation)인 방법.
구현예 10: 구현예 1 내지 구현예 9 중 어느 하나에 있어서, 대치 참조가 적어도 1000개의 게놈을 포함하는 방법.
구현예 11: 구현예 1 내지 구현예 10 중 어느 하나에 있어서, 시퀀싱 아티팩트(sequencing artifact)를 제거하기 위해 배아, 모계 및 부계 시퀀싱 데이터 중 적어도 하나를 필터링하는 것을 추가로 포함하는 방법.
구현예 12: 구현예 11에 있어서, 필터링이 배아, 모체 및 부체 사이에 임의의 누락 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 방법.
구현예 13: 구현예 11에 있어서, 필터링이 배아, 모체 및 부체 사이에 불변 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 방법.
구현예 14: 구현예 11에 있어서, 필터링이 배아, 모체 및 부체 중 하나 내에 신규 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 방법.
구현예 15: 구현예 11에 있어서, 필터링이 멘델 유전에 부합하지 않는 SNP를 제외하는 것을 포함하는 방법.
구현예 16: 배아, 모계 및 부계 서열 데이터를 수신하는 단계로서, 모계 서열 데이터는 배아의 모체에서 유래된 것이며, 부계 서열 데이터는 배아의 부체에서 유래된 것인 단계;
수신된 서열 데이터를 참조 게놈에 정렬하는 단계;
정렬된 배아 서열 데이터에서 관심 영역을 식별하는 단계;
모계 서열 데이터, 부계 서열 데이터, 및 배아 서열 데이터에서의 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(SNP)을 식별하는 단계;
대치 참조를 사용하여 모계 서열 데이터 및 부계 서열 데이터에서 누락 갭을 대치하는 단계;
모계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 모계 서열 데이터 상의 해당하는 영역에서 배아와 모체 사이에서 공통인 SNP의 수를 카운팅하는 단계;
부계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 부계 서열 데이터 상의 해당하는 영역에서 배아와 부체 사이에서 공통인 SNP의 수를 카운팅하는 단계; 및
모체와 부체 사이의 상대적 기여 값을 기초로 하여 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하는 단계를 포함하는, 관심 영역에 대한 배아에서의 유전 패턴을 결정하기 위한 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독가능 매체.
구현예 17: 구현예 16에 있어서, 모계 및 부계 기여 값을 결정하고 배아가 배수체인지를 결정하기 위해 전체 게놈에 걸쳐 SNP를 카운팅하는 것을 추가로 포함하는 방법.
구현예 18: 구현예 17에 있어서, 배수체인 배아의 경우에, 방법이 모체와 부체 사이에 상대적 기여 값을 기초로 하여 배수체에 대한 유전 패턴을 모계 또는 부계로서 분류하는 것을 추가로 포함하는 방법.
구현예 19: 구현예 16 내지 구현예 18 중 어느 하나에 있어서, 배아, 모계 및 부계 서열 데이터 중 적어도 하나가 낮은-커버리지 시퀀싱에 의해 획득되는 방법.
구현예 20: 구현예 19에 있어서, 낮은-커버리지 시퀀싱이 약 0.001 내지 10x인 방법.
구현예 21: 구현예 19에 있어서, 낮은-커버리지 시퀀싱이 약 0.01 내지 0.5x인 방법.
구현예 22: 구현예 19에 있어서, 낮은-커버리지 시퀀싱이 약 0.25 내지 0.2x인 방법.
구현예 23: 구현예 19에 있어서, 관심 영역이 전장 게놈인 방법.
구현예 24: 구현예 16 내지 구현예 23 중 어느 하나에 있어서, 관심 영역이 복제수 변이인 방법.
구현예 25: 구현예 16 내지 구현예 24 중 어느 하나에 있어서, 대치 참조가 적어도 1000개의 게놈을 포함하는 방법.
구현예 26: 구현예 16 내지 구현예 25 중 어느 하나에 있어서, 시퀀싱 아티팩트를 제거하기 위해 배아, 모계 및 부계 시퀀싱 데이터 중 적어도 하나를 필터링하는 것을 추가로 포함하는 방법.
구현예 27: 구현예 26에 있어서, 필터링이 배아, 모체 및 부체 사이에 임의의 누락 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 방법.
구현예 28: 구현예 26에 있어서, 필터링이 배아, 모체 및 부체 사이에 불변 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 방법.
구현예 29: 구현예 26에 있어서, 필터링이 배아, 모체 및 부체 중 하나 내에 신규 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 방법.
구현예 30: 구현예 26에 있어서, 필터링이 멘델 유전에 부합하지 않는 SNP를 제외하는 것을 포함하는 방법.
구현예 31: 관심 영역에 대한 배아에서의 유전 패턴을 유전 패턴을 결정하기 위한 시스템으로서,
배아, 모계 및 부계 서열 데이터를 수신하기 위한 데이터 저장소로서, 모계 서열 데이터는 배아의 모체에서 유래한 것이며, 부계 서열 데이터는 배아의 부체에서 유래한 것인 데이터 저장소;
데이터 저장소에 통신가능하게 연결된 컴퓨팅 디바이스(computing device); 및
컴퓨팅 디바이스에 통신가능하게 연결되고 배아에 대한 분류된 유전 패턴을 포함한 보고서를 디스플레이하도록 구성된 디스플레이를 포함하며,
컴퓨팅 디바이스는,
수신된 서열 데이터를 참조 게놈에 정렬하고 정렬된 배아 서열 데이터에서 관심 영역을 식별하도록 구성된 ROI 엔진;
모계 서열 데이터, 부계 서열 데이터, 및 배아 서열 데이터에서의 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(SNP)을 식별하도록 구성된 SNP 식별 엔진;
대치 참조를 사용하여 모계 서열 데이터 및 부계 서열 데이터에서 누락 갭을 대치하도록 구성된 대치 엔진; 및
모계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 모계 서열 데이터 상의 해당하는 영역에서 배아와 모체 사이에서 공통인 SNP의 수를 카운팅하고, 부계 기여 값을 결정하기 위해 배아 서열 데이터에 대한 식별된 관심 영역 및 부계 서열 데이터 상의 해당하는 영역에서 배아와 부체 사이에서 공통인 SNP의 수를 카운팅하고, 모체와 부체 사이의 상대적 기여 값을 기초로 하여 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하도록 구성된 POI 엔진을 포함하는 시스템.
구현예 32: 구현예 31에 있어서, POI 엔진이 모계 및 부계 기여 값을 결정하고 배아가 배수체인지를 결정하기 위해 전체 게놈에 걸쳐 SNP를 카운팅하도록 추가로 구성되는 시스템.
구현예 33: 구현예 31 또는 구현예 32에 있어서, 배수체인 배아의 경우에, POI 엔진이 모체와 부체 사이에 상대적 기여 값을 기초로 하여 배수체에 대한 유전 패턴을 모계 또는 부계로서 분류하도록 추가로 구성되는 시스템.
구현예 34: 구현예 31 내지 구현예 33 중 어느 하나에 있어서, 배아, 모계 및 부계 서열 데이터 중 적어도 하나가 낮은-커버리지 시퀀싱에 의해 획득되는 시스템.
구현예 35: 구현예 34에 있어서, 낮은-커버리지 시퀀싱이 약 0.001 내지 10x인 시스템.
구현예 36: 구현예 34에 있어서, 낮은-커버리지 시퀀싱이 약 0.01 내지 0.5x인 시스템.
구현예 37: 구현예 34에 있어서, 낮은-커버리지 시퀀싱이 약 0.25 내지 0.2x인 시스템.
구현예 38: 구현예 31 내지 구현예 37 중 어느 하나에 있어서, 관심 영역이 전장 게놈인 시스템.
구현예 39: 구현예 31 내지 구현예 37 중 어느 하나에 있어서, 관심 영역이 복제수 변이인 시스템.
구현예 40: 구현예 31 내지 구현예 39 중 어느 하나에 있어서, 대치 참조가 적어도 1000개의 게놈을 포함하는 시스템.
구현예 41: 구현예 31 내지 구현예 40 중 어느 하나에 있어서, 대치 엔진이 시퀀싱 아티팩트를 제거하기 위해 배아, 모계 및 부계 시퀀싱 데이터 중 적어도 하나를 필터링하도록 추가로 구성되는 시스템.
구현예 42: 구현예 41에 있어서, 필터링이 배아, 모체 및 부체 사이에 임의의 누락 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 시스템.
구현예 43: 구현예 41에 있어서, 필터링이 배아, 모체 및 부체 사이에 불변 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 시스템.
구현예 44: 구현예 41에 있어서, 필터링이 배아, 모체 및 부체 중 하나 내에 신규 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 시스템.
구현예 45: 구현예 41에 있어서, 필터링이 멘델 유전에 부합하지 않는 SNP를 제외하는 것을 포함하는 시스템.

Claims (45)

  1. 관심 영역에 대한 배아에서의 유전 패턴을 결정하는 방법으로서,
    배아, 모계 및 부계 서열 데이터를 수신하는 단계 - 상기 모계 서열 데이터는 상기 배아의 모체에서 유래한 것이며, 상기 부계 서열 데이터는 상기 배아의 부체에서 유래한 것임 -;
    상기 수신된 서열 데이터를 참조 게놈에 정렬하는 단계;
    상기 정렬된 배아 서열 데이터에서 관심 영역을 식별하는 단계;
    상기 모계 서열 데이터, 부계 서열 데이터, 및 상기 배아 서열 데이터에서의 상기 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(single nucleotide polymorphism; SNP)을 식별하는 단계;
    대치 참조(imputation reference)를 사용하여 상기 모계 서열 데이터 및 상기 부계 서열 데이터에서 누락 갭(missing gap)을 대치하는 단계;
    모계 기여 값을 결정하기 위해 상기 배아 서열 데이터에 대한 상기 식별된 관심 영역 및 상기 모계 서열 데이터 상의 해당하는 영역에서 상기 배아와 상기 모체 사이에서 공통인 SNP의 수를 카운팅하는 단계;
    부계 기여 값을 결정하기 위해 상기 배아 서열 데이터에 대한 상기 식별된 관심 영역 및 상기 부계 서열 데이터 상의 해당하는 영역에서 상기 배아와 상기 부체 사이에서 공통인 SNP의 수를 카운팅하는 단계; 및
    모체와 부체 사이의 상대적 기여 값을 기초로 하여 상기 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 모계 및 부계 기여 값을 결정하고 상기 배아가 배수체(polyploid)인지를 결정하기 위해 전체 게놈(entire genome)에 걸쳐 SNP를 카운팅하는 단계를 더 포함하는 방법.
  3. 제2항에 있어서, 배수체인 배아의 경우에, 상기 방법이 모체와 부체 사이에 상대적 기여 값을 기초로 하여 상기 배수체에 대한 유전 패턴을 모계 또는 부계로서 분류하는 단계를 더 포함하는 방법.
  4. 제1항에 있어서, 상기 배아, 모계 및 부계 서열 데이터 중 적어도 하나는 낮은-커버리지 시퀀싱(low-coverage sequencing)에 의해 획득되는 방법.
  5. 제4항에 있어서, 상기 낮은-커버리지 시퀀싱이 약 0.001 내지 10x인 방법.
  6. 제4항에 있어서, 상기 낮은-커버리지 시퀀싱이 약 0.01 내지 0.5x인 방법.
  7. 제4항에 있어서, 상기 낮은-커버리지 시퀀싱이 약 0.25 내지 0.2x인 방법.
  8. 제1항에 있어서, 상기 관심 영역이 전장 게놈(genome wide)인 방법.
  9. 제1항에 있어서, 상기 관심 영역이 복제수 변이(copy number variation)인 방법.
  10. 제1항에 있어서, 상기 대치 참조가 적어도 1000개의 게놈을 포함하는 방법.
  11. 제1항에 있어서, 시퀀싱 아티팩트(sequencing artifact)를 제거하기 위해 상기 배아, 모계 및 부계 시퀀싱 데이터 중 적어도 하나를 필터링하는 단계를 더 포함하는 방법.
  12. 제11항에 있어서, 상기 필터링하는 단계는 상기 배아, 모체 및 부체 사이에 임의의 누락 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 방법.
  13. 제11항에 있어서, 상기 필터링하는 단계는 상기 배아, 모체 및 부체 사이에 불변 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 방법.
  14. 제11항에 있어서, 상기 필터링하는 단계는 상기 배아, 모체 및 부체 중 하나 내에 신규 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 방법.
  15. 제11항에 있어서, 상기 필터링하는 단계는 멘델 유전(Mendelian inheritance)에 부합하지 않는 SNP를 제외하는 것을 포함하는 방법.
  16. 배아, 모계 및 부계 서열 데이터를 수신하는 단계 - 상기 모계 서열 데이터는 상기 배아의 모체에서 유래된 것이며, 상기 부계 서열 데이터는 상기 배아의 부체에서 유래된 것임 -;
    상기 수신된 서열 데이터를 참조 게놈에 정렬하는 단계;
    상기 정렬된 배아 서열 데이터에서 관심 영역을 식별하는 단계;
    상기 모계 서열 데이터, 부계 서열 데이터, 및 상기 배아 서열 데이터에서의 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(SNP)을 식별하는 단계;
    대치 참조를 사용하여 상기 모계 서열 데이터 및 상기 부계 서열 데이터에서 누락 갭을 대치하는 단계;
    모계 기여 값을 결정하기 위해 상기 배아 서열 데이터에 대한 상기 식별된 관심 영역 및 상기 모계 서열 데이터 상의 해당하는 영역에서 상기 배아와 상기 모체 사이에서 공통인 SNP의 수를 카운팅하는 단계;
    부계 기여 값을 결정하기 위해 배아 상기 서열 데이터에 대한 상기 식별된 관심 영역 및 상기 부계 서열 데이터 상의 해당하는 영역에서 상기 배아와 상기 부체 사이에서 공통인 SNP의 수를 카운팅하는 단계; 및
    모체와 부체 사이의 상대적 기여 값을 기초로 하여 상기 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하는 단계를 포함하는, 관심 영역에 대한 배아에서의 유전 패턴을 결정하기 위한 방법을 수행하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독가능 매체.
  17. 제16항에 있어서, 상기 방법은, 상기 모계 및 부계 기여 값을 결정하고 상기 배아가 배수체인지를 결정하기 위해 전체 게놈에 걸쳐 SNP를 카운팅하는 단계를 더 포함하는,
    비일시적 컴퓨터 판독가능 매체.
  18. 제17항에 있어서, 배수체인 배아의 경우에, 상기 방법이 모체와 부체 사이에 상대적 기여 값을 기초로 하여 상기 배수체에 대한 유전 패턴을 모계 또는 부계로서 분류하는 단계를 더 포함하는,
    비일시적 컴퓨터 판독가능 매체.
  19. 제16항에 있어서, 상기 배아, 모계 및 부계 서열 데이터 중 적어도 하나는 낮은-커버리지 시퀀싱에 의해 획득되는,
    비일시적 컴퓨터 판독가능 매체.
  20. 제19항에 있어서, 상기 낮은-커버리지 시퀀싱이 약 0.001 내지 10x인
    비일시적 컴퓨터 판독가능 매체.
  21. 제19항에 있어서, 상기 낮은-커버리지 시퀀싱이 약 0.01 내지 0.5x인
    비일시적 컴퓨터 판독가능 매체.
  22. 제19항에 있어서, 상기 낮은-커버리지 시퀀싱이 약 0.25 내지 0.2x인
    비일시적 컴퓨터 판독가능 매체.
  23. 제16항에 있어서, 상기 관심 영역이 전장 게놈인
    비일시적 컴퓨터 판독가능 매체.
  24. 제16항에 있어서, 상기 관심 영역이 복제수 변이인
    비일시적 컴퓨터 판독가능 매체.
  25. 제16항에 있어서, 상기 대치 참조가 적어도 1000개의 게놈을 포함하는
    비일시적 컴퓨터 판독가능 매체.
  26. 제16항에 있어서, 상기 방법은, 시퀀싱 아티팩트를 제거하기 위해 상기 배아, 모계 및 부계 시퀀싱 데이터 중 적어도 하나를 필터링하는 단계를 더 포함하는
    비일시적 컴퓨터 판독가능 매체.
  27. 제26항에 있어서, 상기 필터링하는 단계는 상기 배아, 모체 및 부체 사이에 임의의 누락 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 비일시적 컴퓨터 판독가능 매체.
  28. 제26항에 있어서, 상기 필터링하는 단계는 상기 배아, 모체 및 부체 사이에 불변 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는
    비일시적 컴퓨터 판독가능 매체.
  29. 제26항에 있어서, 상기 필터링하는 단계는 상기 배아, 모체 및 부체 중 하나 내에 신규 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는
    비일시적 컴퓨터 판독가능 매체.
  30. 제26항에 있어서, 상기 필터링하는 단계는 멘델 유전에 부합하지 않는 SNP를 제외하는 것을 포함하는
    비일시적 컴퓨터 판독가능 매체.
  31. 관심 영역에 대한 배아에서의 유전 패턴을 결정하기 위한 시스템으로서,
    배아, 모계 및 부계 서열 데이터를 수신하기 위한 데이터 저장소 - 상기 모계 서열 데이터는 상기 배아의 모체에서 유래한 것이며, 상기 부계 서열 데이터는 상기 배아의 부체에서 유래한 것임 -;
    상기 데이터 저장소에 통신가능하게 연결된 컴퓨팅 디바이스(computing device); 및
    상기 컴퓨팅 디바이스에 통신가능하게 연결되고 상기 배아에 대한 분류된 유전 패턴을 포함한 보고서를 디스플레이하도록 구성된 디스플레이를 포함하며,
    상기 컴퓨팅 디바이스는,
    상기 수신된 서열 데이터를 참조 게놈에 정렬하고 상기 정렬된 배아 서열 데이터에서 관심 영역을 식별하도록 구성된 ROI 엔진;
    상기 모계 서열 데이터, 부계 서열 데이터, 및 상기 배아 서열 데이터에서의 상기 식별된 관심 영역에서 단일 뉴클레오타이드 다형성(SNP)을 식별하도록 구성된 SNP 식별 엔진;
    대치 참조를 사용하여 상기 모계 서열 데이터 및 상기 부계 서열 데이터에서 누락 갭을 대치하도록 구성된 대치 엔진; 및
    모계 기여 값을 결정하기 위해 상기 배아 서열 데이터에 대한 상기 식별된 관심 영역 및 상기 모계 서열 데이터 상의 해당하는 영역에서 상기 배아와 상기 모체 사이에서 공통인 SNP의 수를 카운팅하고, 부계 기여 값을 결정하기 위해 상기 배아 서열 데이터에 대한 상기 식별된 관심 영역 및 상기 부계 서열 데이터 상의 해당하는 영역에서 상기 배아와 상기 부체 사이에서 공통인 SNP의 수를 카운팅하고, 모체와 부체 사이의 상대적 기여 값을 기초로 하여 상기 배아에 대한 유전 패턴을 모계 또는 부계로서 분류하도록 구성된 POI 엔진을 포함하는 시스템.
  32. 제31항에 있어서, 상기 POI 엔진이 상기 모계 및 부계 기여 값을 결정하고 상기 배아가 배수체인지를 결정하기 위해 전체 게놈에 걸쳐 SNP를 카운팅하도록 추가로 구성되는 시스템.
  33. 제32항에 있어서, 배수체인 배아의 경우에, 상기 POI 엔진이 모체와 부체 사이에 상대적 기여 값을 기초로 하여 상기 배수체에 대한 유전 패턴을 모계 또는 부계로서 분류하도록 추가로 구성되는 시스템.
  34. 제31항에 있어서, 상기 배아, 모계 및 부계 서열 데이터 중 적어도 하나가 낮은-커버리지 시퀀싱에 의해 획득되는 시스템.
  35. 제34항에 있어서, 상기 낮은-커버리지 시퀀싱이 약 0.001 내지 10x인 시스템.
  36. 제34항에 있어서, 상기 낮은-커버리지 시퀀싱이 약 0.01 내지 0.5x인 시스템.
  37. 제34항에 있어서, 상기 낮은-커버리지 시퀀싱이 약 0.25 내지 0.2x인 시스템.
  38. 제31항에 있어서, 상기 관심 영역이 전장 게놈인 시스템.
  39. 제31항에 있어서, 상기 관심 영역이 복제수 변이인 시스템.
  40. 제31항에 있어서, 상기 대치 참조가 적어도 1000개의 게놈을 포함하는 시스템.
  41. 제31항에 있어서, 상기 대치 엔진이 시퀀싱 아티팩트를 제거하기 위해 상기 배아, 모계 및 부계 시퀀싱 데이터 중 적어도 하나를 필터링하도록 추가로 구성되는 시스템.
  42. 제41항에 있어서, 상기 필터링이 상기 배아, 모체 및 부체 사이에 임의의 누락 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 시스템.
  43. 제41항에 있어서, 상기 필터링이 상기 배아, 모체 및 부체 사이에 불변 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 시스템.
  44. 제41항에 있어서, 상기 필터링이 상기 배아, 모체 및 부체 중 하나 내에 신규 대립 유전자를 갖는 부위의 서열을 제외하는 것을 포함하는 시스템.
  45. 제41항에 있어서, 상기 필터링이 멘델 유전에 부합하지 않는 SNP를 제외하는 것을 포함하는 시스템.
KR1020227001870A 2019-06-21 2020-06-19 배아에서 유전 패턴을 결정하기 위한 시스템 및 방법(systems and methods for determining pattern of inheritance in embryos) KR20220062263A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962865130P 2019-06-21 2019-06-21
US62/865,130 2019-06-21
PCT/US2020/038815 WO2020257709A1 (en) 2019-06-21 2020-06-19 Systems and methods for determining pattern of inheritance in embryos

Publications (1)

Publication Number Publication Date
KR20220062263A true KR20220062263A (ko) 2022-05-16

Family

ID=71575811

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020227001870A KR20220062263A (ko) 2019-06-21 2020-06-19 배아에서 유전 패턴을 결정하기 위한 시스템 및 방법(systems and methods for determining pattern of inheritance in embryos)
KR1020227002132A KR20220062265A (ko) 2019-06-21 2020-06-19 정자 제공자, 난모세포 제공자, 및 각 수태물 간의 유전적 관계를 결정하기 위한 시스템 및 방법(system and method for determining genetic relationships between a sperm provider, oocyte provider, and the respective conceptus)

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020227002132A KR20220062265A (ko) 2019-06-21 2020-06-19 정자 제공자, 난모세포 제공자, 및 각 수태물 간의 유전적 관계를 결정하기 위한 시스템 및 방법(system and method for determining genetic relationships between a sperm provider, oocyte provider, and the respective conceptus)

Country Status (8)

Country Link
US (2) US20210020265A1 (ko)
EP (2) EP3987525A1 (ko)
JP (2) JP7333838B2 (ko)
KR (2) KR20220062263A (ko)
CN (2) CN114303202A (ko)
AU (2) AU2020296108B2 (ko)
CA (2) CA3143728A1 (ko)
WO (2) WO2020257709A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450871A (zh) * 2021-06-28 2021-09-28 广东博奥医学检验所有限公司 基于低深度测序的鉴定样本同一性的方法
CN114613507A (zh) * 2022-03-16 2022-06-10 温子娜 基于大数据和人工智能的精子受精功能预测模型

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2272983A1 (en) 2005-02-01 2011-01-12 AB Advanced Genetic Analysis Corporation Reagents, methods and libraries for bead-based sequencing
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
EP2649199A2 (en) * 2010-12-07 2013-10-16 Stanford University Non-invasive determination of fetal inheritance of parental haplotypes at the genome-wide scale
ES2770342T3 (es) * 2010-12-22 2020-07-01 Natera Inc Procedimientos para pruebas prenatales no invasivas de paternidad
US20130261984A1 (en) * 2012-03-30 2013-10-03 Illumina, Inc. Methods and systems for determining fetal chromosomal abnormalities
CN104640997B (zh) * 2012-04-06 2017-12-19 香港中文大学 通过使用靶向大规模并行测序的等位基因比率分析进行的胎儿三体性的非侵入性产前诊断
CN106029899B (zh) * 2013-09-30 2021-08-03 深圳华大基因股份有限公司 确定染色体预定区域中snp信息的方法、系统和计算机可读介质
EP3149199B1 (en) * 2014-05-30 2020-03-25 Verinata Health, Inc. Detecting, optionally fetal, sub-chromosomal aneuploidies and copy number variations
EP3240909B1 (en) * 2014-10-17 2020-10-14 Good Start Genetics, Inc. Pre-implantation genetic screening and aneuploidy detection
US20200011573A1 (en) 2018-07-04 2020-01-09 Peter Samuel Winston Graham Geothermal system operable between heat recovery and heat storage modes
SG11202103375SA (en) 2018-10-05 2021-04-29 Coopergenomics Inc Systems and methods for identifying chromosomal abnormalities in an embryo
US20220367063A1 (en) * 2019-09-30 2022-11-17 Myome, Inc. Polygenic risk score for in vitro fertilization

Also Published As

Publication number Publication date
WO2020257717A1 (en) 2020-12-24
AU2020296188A1 (en) 2022-01-06
EP3987523A1 (en) 2022-04-27
AU2020296188B2 (en) 2023-08-24
CN114303202A (zh) 2022-04-08
AU2020296108B2 (en) 2023-08-03
EP3987525A1 (en) 2022-04-27
US20200402616A1 (en) 2020-12-24
WO2020257709A1 (en) 2020-12-24
CN114531916A (zh) 2022-05-24
AU2020296108A1 (en) 2022-01-20
JP2022537444A (ja) 2022-08-25
CA3143728A1 (en) 2020-12-24
JP2022537445A (ja) 2022-08-25
US20210020265A1 (en) 2021-01-21
JP7362789B2 (ja) 2023-10-17
CA3143723A1 (en) 2020-12-24
KR20220062265A (ko) 2022-05-16
JP7333838B2 (ja) 2023-08-25

Similar Documents

Publication Publication Date Title
EP2321642B1 (en) Methods for allele calling and ploidy calling
King et al. Detection of structural mosaicism from targeted and whole-genome sequencing data
Liu et al. A comprehensive catalogue of regulatory variants in the cattle transcriptome
US20200111573A1 (en) Systems and methods for autonomous machine interpretation of high throughput biological assays for embryo selection
JP7333838B2 (ja) 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法
Deleye et al. Massively parallel sequencing of micro-manipulated cells targeting a comprehensive panel of disease-causing genes: A comparative evaluation of upstream whole-genome amplification methods
Lindsay et al. Striking differences in patterns of germline mutation between mice and humans
JP7446343B2 (ja) ゲノム倍数性を判定するためのシステム、コンピュータプログラム及び方法
US20200399701A1 (en) Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos
CA3143723C (en) Systems and methods for determining pattern of inheritance in embryos
WO2021180722A1 (en) Method for the analysis of genetic material