KR20220064951A - 인간 배아에서의 복제 수 변이의 확인을 위한 단일 뉴클레오티드 변이의 밀도를 사용하는 시스템 및 방법(systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos) - Google Patents

인간 배아에서의 복제 수 변이의 확인을 위한 단일 뉴클레오티드 변이의 밀도를 사용하는 시스템 및 방법(systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos) Download PDF

Info

Publication number
KR20220064951A
KR20220064951A KR1020227001801A KR20227001801A KR20220064951A KR 20220064951 A KR20220064951 A KR 20220064951A KR 1020227001801 A KR1020227001801 A KR 1020227001801A KR 20227001801 A KR20227001801 A KR 20227001801A KR 20220064951 A KR20220064951 A KR 20220064951A
Authority
KR
South Korea
Prior art keywords
region
identified
genomic variant
genomic
snv
Prior art date
Application number
KR1020227001801A
Other languages
English (en)
Inventor
존 버크
브라이언 리스
조슈아 데이비드 블라잭
마이클 존 라지
Original Assignee
쿠퍼서지컬, 인코퍼레이션.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 쿠퍼서지컬, 인코퍼레이션. filed Critical 쿠퍼서지컬, 인코퍼레이션.
Publication of KR20220064951A publication Critical patent/KR20220064951A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

배아에서 게놈 변이 영역을 확인하기 위한 방법이 개시되어 있다. 배아 시퀀싱 데이터는 하나 이상의 하나 이상의 프로세서에 의해 수신된다. 수신된 배아 시퀀싱 데이터는 하나 이상의 프로세서에 의해 참고 게놈에 정렬된다. 게놈 변이 영역은 하나 이상의 프로세서에 의해 정렬된 배아 시퀀싱 데이터에서 식별된다. 단일 뉴클레오티드 변이 (SNV)의 수는 하나 이상의 프로세서에 의해 식별된 게놈 변이 영역에서 계수된다. 식별된 게놈 변이 영역에서의 SNV의 계수된 수는 식별된 게놈 변이 영역에 상응하는 참고 영역에 대한 SNV의 기준선 카운트에 대해 정규화되어 하나 이상의 프로세서에 의해 게놈 변이 영역에 대한 정규화된 SNV 밀도를 발생시킨다. 식별된 게놈 변이 영역에서의 정규화된 SNV 밀도가 허용 기준을 충족시키는 경우, 식별된 게놈 변이 영역은 하나 이상의 프로세서에 의해 확인된다.

Description

인간 배아에서의 복제 수 변이의 확인을 위한 단일 뉴클레오티드 변이의 밀도를 사용하는 시스템 및 방법(SYSTEMS AND METHODS FOR USING DENSITY OF SINGLE NUCLEOTIDE VARIATIONS FOR THE VERIFICATION OF COPY NUMBER VARIATIONS IN HUMAN EMBRYOS)
본원에 개시된 구현예는 일반적으로 인간 배아에서의 복제 수 변이 (CNV)를 식별하기 위한 시스템 및 방법에 대한 것이다. 보다 구체적으로, 모체로 이식하기 전에 인간 배아에 대해 이루어진 CNV 호출(call)을 확인하기 위해 최적화된 시스템 및 방법에 대한 필요성이 존재한다.
체외 수정 (In vitro fertilization, IVF)은 산모 연령이 높은 여성, 임신이 어려운 부부에 대해 그리고 대리모를 촉진하는 수단으로서 점점 인기를 얻고 있는 보조 생식 기술이다. 수정의 과정은 난자를 추출하고, 정자 샘플을 회수하고, 이후 실험실 환경에서 난자와 정자를 수동으로 결합시키는 것을 수반한다. 배아(들)은 이후 호스트 자궁으로 이식되어 배아를 만삭으로 유지한다.
IVF 절차는 고비용이며, 환자에게 상당한 정식적/육체적 피해를 줄 수 있으며, 이에 따라 이식 전 배아의 유전자 검사는 IVF 절차를 진행하고 있는 환자에 대해 점점 일반적으로 되고 있다. 예를 들어, 현재 IVF 배아는 일반적으로 유전적 이상 (예를 들어, CNV, SNV, 등) 및 이식 생존력 (즉, 배아 이식 생존력)에 영향을 미칠 수 있는 다른 조건에 대해 선별된다. 임의의 진단 시험을 사용하여, 생성된 진단의 정확성은 중요하며, 사용된 데이터 수집 및 분석 기술과 같은 여러 요인의 영향을 받을 수 있다. 특히, 낮은 커버리지(coverage) (~0.1X)의 게놈 시퀀싱 데이터의 생물정보학 분석은 시퀀싱 데이터의 노이즈 및 시퀀싱 인공물로 인해 세그먼트 및 모자이크 이수성(aneuploidy) 및 복제 수 변이 (CNV)의 부적절한 식별을 초래할 수 있다.
이와 같이, 배아에서 식별되는 유전적 이상을 독립적으로 확인할 수 있는 시스템 및 방법에 대한 필요성이 존재한다.
본 출원은 모체로 이식하기 전에 인간 배아에 대해 이루어진 CNV 호출을 확인하기 위해 최적화된 다양한 예시적인 구현예 시스템 및 방법을 기재하고 있다.
일 양태에서, 배아에서 게놈 변이 영역을 확인하기 위한 방법이 개시되어 있다. 배아 시퀀싱 데이터는 하나 이상의 프로세서에 의해 수신된다. 수신된 배아 시퀀싱 데이터는 하나 이상의 프로세서에 의해 참고 게놈에 대해 정렬된다. 게놈 변이 영역은 하나 이상의 프로세서에 의해 정렬된 배아 시퀀싱 데이터에서 식별된다. 단일 뉴클레오티드 변이 (SNV)의 수는 하나 이상의 프로세서에 의해 식별된 게놈 변이 영역에서 계수된다. 식별된 게놈 변이 영역에서의 SNV의 계수된 수는 하나 이상의 프로세서에 의해 식별된 게놈 변이 영역에 상응하는 참고 영역에 대해 SNV의 기준선 카운트에 대해 정규화되어 게놈 변이 영역에 대한 정규화된 SNV 밀도를 발생시킨다. 식별된 게놈 변이 영역에서의 정규화된 SNV 밀도가 허용 기준을 충족시키는 경우, 식별된 게놈 변이 영역은 하나 이상의 프로세서에 의해 확인된다.
다른 양태에서, 배아에서 게놈 변이 영역을 확인하기 위한 시스템이 개시되어 있다. 상기 시스템은 데이터 저장소, 컴퓨팅 장치 및 디스플레이를 포함한다. 데이터 저장소는 배아 시퀀싱 데이터를 저장하기 위한 것이다. 컴퓨팅 장치는 데이터 저장소에 통신가능하게 접속되며, 정렬 엔진, 게놈 변이 호출자 및 확인 엔진을 호스팅한다.
정렬 엔진은 배아 시퀀싱 데이터를 수신하고 참고 게놈에 대해 정렬되도록 구성된다. 게놈 변이 호출자는 정렬된 배아 시퀀싱 데이터에서 게놈 변이 영역을 확인하도록 구성된다. 확인 엔진은 식별된 게놈 변이 영역에서 단일 뉴클레오티드 변이 (SNV)의 수를 계수하고, 식별된 게놈 변이 영역에 상응하는 참고 영역에 대한 SNV의 기준선 카운트에 대해 식별된 게놈 변이 영역에서의 SNV 카운트를 정규화하여 식별된 게놈 변이 영역에 대해 정규화된 SNV 밀도를 발생시키고, 식별된 게놈 변이 영역에서의 정규화된 SNV 밀도가 허용 기준을 충족시키는 경우 식별된 게놈 변이 영역을 확인한다.
디스플레이는 컴퓨팅 장치에 통신가능하게 접속되어 확인 엔진으로부터의 게놈 변이 영역 결과를 포함하는 보고서를 표시하도록 구성된다.
본원에 개시된 원리 및 이의 장점을 보다 완전하게 이해하기 위해, 이하에서 첨부된 도면과 결합되는 하기 설명에 대해 참조하며, 이는 하기와 같다:
도 1은 다양한 구현예에 따른, 전체 시퀀싱 커버리지 정규화 밀도 상관관계가 시퀀싱 커버리지의 인공적 변화에 기초한 상관관계보다 복제 수의 정확한 생물학적 변화 (즉, CNV)를 더 잘 검출하는 방식의 그래프 도식이다.
도 2는 다양한 구현예에 따른, 100개의 정상 (비-CNV 포함) 배아 샘플의 평균 SNV 밀도에 대해 비교되는 임상적 배아 샘플로부터의 SNV 밀도의 그래프 도식이다.
도 3은 다양한 구현예에 따른, SNV 밀도가 카운트-기반 CNV 호출을 확인하기 위해 사용될 수 있는 방식의 그래프 도면이다.
도 4는 다양한 구현예에 따른, 배아에 대해 이루어진 CNV 호출을 확인하기 위한 방법을 나타내는 예시적인 흐름도이다.
도 5는 다양한 구현예에 따른, 배아에 대해 이루어진 CNV 호출을 확인하기 위한 시스템의 개략도이다.
도 6은 다양한 구현예에 따른, 본원에 제공된 방법을 수행하는 데 사용하기 위한 컴퓨터 시스템을 예시하는 블록선도이다.
도면은 반드시 축척에 맞게 도시되지 않으며 도면에서의 물체도 반드시 서로에 대해 축척에 맞게 도시되지 않음을 이해하여야 한다. 도면은 본원에 개시된 장치, 시스템, 및 방법의 다양한 구현예에 대한 명료함과 이해를 제공하도록 의도된 도식이다. 가능한 임의의 곳에서, 동일한 참조 번호는 동일하거나 유사한 부품을 지칭하기 위해 도면을 통해 사용될 것이다. 또한, 도면은 임의의 방식으로 본 교시의 범위를 제한하도록 의도되지 않음을 이해하여야 한다.
본 출원은 2019년 6월 21일에 출원된 미국 가특허 출원 제62/865,126호에 대한 우선권의 이익을 주장하며, 이는 그 전문이 참조로 본원에 편입되어 있다. 본원에 인용된 임의의 특허, 특허 출원 및 공보의 개시내용은 그 전문이 본원에 참조로 편입되어 있다.
본 출원은 모체로의 이식 전에 인간 배아에 대해 이루어진 CNV 호출을 확인하기 위해 최적화된 다양한 예시적인 구현예 시스템 및 방법을 기재하고 있다.
그러나, 본 개시내용은 이러한 예시적인 구현예 및 출원으로 제한되지 않거나 예시적인 구현예 및 출원이 작동하거나 본원에 기재된 방식으로 제한되지 않는다.
또한, 도면은 단순화된 또는 부분적인 도면을 나타낼 수 있고, 도면의 구성요소의 치수는 과장될 수 있거나 또는 그렇지 않으면 비례하지 않을 수 있다. 또한, 용어 "위에", "에 부착된", "에 접속된", "에 연결된" 또는 유사한 단어가 본 명세서에서 사용됨에 따라, 하나의 구성요소가 다른 구성요소에 직접적으로 그 위에 있거나, 이에 부착되거나, 이에 접속되거나, 이에 연결되거나, 또는 하나의 구성요소가 다른 구성요소 사이의 하나 이상의 중간 구성요소가 존재하는 것과 무관하게, 하나의 구성요소 (예를 들어, 재료, 층, 기재 등)는 다른 구성요소 "그 위에 있거나", "이에 부착되거나", "이에 접속되거나" 또는 "이에 연결될" 수 있다. 또한, 구성요소의 목록 (예를 들어, 구성요소 a, b, c)을 참조하는 경우, 이러한 참조는 열거된 구성요소 중 어느 하나 그 자체, 열거된 모든 구성요소보다 적은 임의의 조합 및/또는 열거된 구성요소 모두의 조합을 포함하는 것으로 의도된다. 명세서에서의 섹션 구분은 검토의 용이성만을 위한 것이며, 논의된 구성요소의 임의의 조합을 제한하지 않는다.
달리 정의되지 않는 한, 본원에 기재된 본 교시와 관련하여 사용되는 과학 및 기술 용어는 당업자에 의해 일반적으로 이해되는 의미를 가질 것이다. 또한, 문맥에 의해 달리 요구되지 않는 한, 단수 용어는 복수를 포함하고 복수 용어는 단수를 포함할 것이다. 일반적으로, 본원에 기재된 세포 및 조직 배양, 분자 생물학, 단백질 및 올리고- 또는 폴리-뉴클레오티드 화학 및 혼성화와 관련하여 이용되는 명명법 및 이의 기술은 본 기술분야에 널리 공지되어 있고 일반적으로 사용되는 것이다. 표준 기술은 예를 들어 핵산 정제 및 제조, 화학 분석, 재조합 핵산 및 올리고뉴클레오티드 합성을 위해 사용된다. 효소 반응 및 정제 기술은 제조자의 사양에 따라 또는 본 기술분야에서 일반적으로 달성되는 바와 같이 또는 본원에 기재된 바와 같이 수행된다. 본원에 기재된 기술 및 절차는 일반적으로 본 기술분야에 잘 알려져 있고 본 명세서 전체에 걸쳐 인용되고 논의되는 다양한 일반적이고 그리고 보다 구체적인 참고문헌에 기재된 바와 같은 종래의 방법에 따라 수행된다. 예를 들어 문헌 [Sambrook et al., Molecular Cloning: A Laboratory Manual (Third ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 2000)]을 참조한다. 본원에 기재된 실험실 절차 및 기술과 관련하여 사용되는 명명법은 본 기술분야에 잘 알려져 있고 일반적으로 사용되는 것이다.
DNA (데옥시리보핵산)는 4개의 유형의 뉴클레오티드; A (아데닌), T (티민), C (시토신), 및 G (구아닌)으로 이루어진 뉴클레오티드의 사슬이고, RNA (리보핵산)은 4개의 유형의 뉴클레오티드; A, U (우라실), G, 및 C로 이루어진다. 특정 쌍의 뉴클레오티드는 특이적으로 상보적인 방식 (상보적 염기쌍으로 지칭됨)으로 서로에 결합된다. 즉, 아데닌 (A)은 티민 (T)과 쌍을 이루고 (RNA의 경우, 그러나, 아데닌 (A)은 우라실 (U)과 쌍을 이루고), 시토신 (C)은 구아닌 (G)과 쌍을 이룬다. 제1 핵산 가닥이 제1 가닥의 것에 상보적인 뉴클레오티드로 이루어진 제2 핵산 가닥에 결합되는 경우, 2개의 가닥은 결합되어 이중 가닥을 형성한다. 본원에 사용되는 바와 같이, "핵산 시퀀싱 데이터," "핵산 시퀀싱 정보," "핵산 서열," "게놈 서열," "유전자 서열," 또는 "단편 서열," 또는 "핵산 시퀀싱 리드"는 DNA 또는 RNA의 분자 (예를 들어, 전체 게놈, 전체 전사체, 엑솜, 올리고뉴클레오티드, 폴리뉴클레오티드, 단편 등)에서의 뉴클레오티드 염기 (예를 들어, 아데닌, 구아닌, 시토신, 및 티민/우라실)의 순서를 나타내는 임의의 정보 또는 데이터를 의미한다. 본 교시는 모세관 전기영동, 마이크로어레이, 라이게이션-기반 시스템, 폴리머라제 기반 시스템, 혼성화-기반 시스템, 직접 또는 간접 뉴클레오티드 식별 시스템, 파이로시퀀싱, 이온- 또는 pH-기반 검출 시스템, 전자 시그니처-기반 시스템 (electronic signature-based system) 등을 비제한적으로 포함하는 모든 이용가능한 다양한 기술, 플랫폼 또는 공학을 사용하여 얻은 서열 정보를 고려한다는 것을 이해하여야 한다.
"폴리뉴클레오티드", "핵산", 또는 "올리고뉴클레오티드"는 뉴클레오시드간 결합에 의해 연결되는 뉴클레오시드 (데옥시리보뉴클레오시드, 리보뉴클레오시드, 또는 이의 유사체 포함)의 선형 중합체를 지칭한다. 통상적으로, 폴리뉴클레오티드는 적어도 3개의 뉴클레오시드를 포함한다. 보통, 올리고뉴클레오티드의 크기는 몇몇 단량체 단위, 예를 들어 3-4로부터 수백개의 단량체 단위까지의 범위이다. 폴리뉴클레오티드 예컨대 올리고뉴클레오티드가 문자의 서열, 예컨대 "ATGCCTG"로 표시되는 경우, 뉴클레오티드는 좌측으로부터 우측까지 5'->3' 순서이며, 달리 언급하지 않는 한, "A"는 데옥시아데노신을 의미하고, "C"는 데옥시시티딘을 의미하고, "G"는 데옥시구아노신을 의미하고, "T"는 티미딘을 의미하는 것으로 이해될 것이다. 문자 A, C, G, 및 T는 본 기술분야에 표준인 것과 같은, 염기 자체, 뉴클레오시드, 또는 염기를 포함하는 뉴클레오티드를 지칭하기 위해 사용될 수 있다.
본원에 사용되는 바와 같이, 용어 "세포"는 용어 "생물학적 세포"와 상호교환적으로 사용된다. 생물학적 세포의 비제한적인 예는 진핵 세포, 식물 세포, 동물 세포, 예컨대 포유동물 세포, 파충류 세포, 조류 세포, 어류 세포 등, 원핵 세포, 박테리아 세포, 진균 세포, 원생동물 세포 등, 조직 예컨대 근육, 연골, 지방, 피부, 간, 폐, 신경 조직으로부터 분리된 세포 등, 면역 세포 예컨대 T 세포, B 세포, 자연 살해 세포, 대식세포 등, 배아 (예를 들어 접합자), 난모세포, 난자, 정자 세포, 하이브리도마, 배양된 세포, 세포주로부터의 세포, 암 세포, 감염된 세포, 형질감염된 및/또는 형질전환된 세포, 리포터 세포 등을 포함한다. 포유동물 세포는 예를 들어 인간, 마우스, 랫트, 말, 염소, 양, 소, 영장류 등으로부터 유래될 수 있다.
게놈은 동물 예컨대 포유동물, 예를 들어 인간을 포함하는 세포 또는 유기체의 유전 물질이다. 인간에서, 게놈은 전체 DNA, 예컨대, 예를 들어, 유전자, 비코딩 DNA 및 미토콘드리아 DNA를 포함한다. 인간 게놈은 통상적으로 23개의 쌍의 선형 염색체: 성-결정 X 및 Y 염색체가 더해진 22개의 쌍의 상염색체를 함유한다. 23개의 쌍의 염색체는 각 모체로부터의 하나의 복제를 포함한다. 염색체로 이루어진 DNA는 염색체 DNA로 지칭되며, 인간 세포의 핵 (핵 DNA)에 존재한다. 미토콘드리아 DNA는 원형 염색체로서 미토콘드리아에 위치하며, 모로부터만 유전되며, 종종 핵에 위치하는 DNA의 핵 게놈과 비교하여 미토콘드리아 게놈으로 지칭된다.
어구 "차세대 시퀀싱" (NGS)은 예를 들어 한번에 수십만개의 상대적으로 작은 서열 리드를 생성하는 능력과 함께, 기존의 생거(Sanger)- 및 모세관 전기영동-기반 접근법과 비교하여 증가된 처리량을 갖는 시퀀싱 기술을 지칭한다. 차세대 시퀀싱 기술의 일부 예는 비제한적으로 합성에 의한 시퀀싱, 라이게이션에 의한 시퀀싱, 혼성화에 의한 시퀀싱을 포함한다. 보다 구체적으로, Illumina의 MISEQ, HISEQ 및 NEXTSEQ 시스템 및 Life Technologies Corp의 Personal Genome Machine (PGM) 앤드 SOLiD 스퀀싱 시스템은 전체 또는 표적화된 게놈의 초병렬 시퀀싱을 제공한다. SOLiD 시스템 및 관련 작업흐름, 프로토콜, 화학물질 등은 2006년 2월 1일에 국제 출원일의 "비드-기반 시퀀싱을 위한 시약, 방법, 및 라이브러리"의 제목의 PCT 공개 번호 WO 2006/084132, 2010년 8월 31일에 출원된 "저-체적 시퀀싱 시스템 및 사용 방법"의 제목의 미국특허출원 일련번호 제12/873,190호, 및 2010년 8월 31일에 출원된 "고속 인덱싱 필터 휠 및 사용 방법"의 제목의 미국특허출원 일련번호 제12/873,132호에 보다 상세하게 기재되어 있으며, 이 출원 각각의 전문은 본원에 참조로 편입되어 있다.
문구 "시퀀싱 실행"은 적어도 하나의 생체분자 (예를 들어, 핵산 분자)와 관련된 일부 정보를 결정하기 위해 수행되는 시퀀싱 실험의 임의의 단계 또는 부분을 지칭한다.
핵산 시퀀싱과 관련된 용어 "리드(read)"는 시퀀싱, 예컨대, 예를 들어, NGS에 가해지는 핵산 단편에 대해 결정되는 뉴클레오티드의 서열을 지칭한다. 리드는 리드 길이를 정의하는 임의의 수의 뉴클레오티드의 임의의 서열일 수 있다.
본원에 상호교환적으로 사용되는 어구 "시퀀싱 커버리지" 또는 "시퀀스 커버리지"는 일반적으로 서열 리드와 참고, 예컨대, 예를 들어, 세포 또는 유기체의 전체 게놈, 게놈에서의 하나의 유전자좌 또는 게놈에서의 하나의 뉴클레오티드 위치 사이의 관계를 지칭한다. 커버리지는 여러 형태로 기재될 수 있다 (예를 들어 문헌 [Sims et al. (2014) Nature Reviews Genetics 15:121-132]을 참조한다). 예를 들어, 커버리지는 얼마나 많은 게놈이 염기쌍 수준에서 시퀀싱되는지 여부와 관련될 수 있고, NL/G로서 계산될 수 있으며, 이에서 N은 리드의 수이고, L은 평균 리드 길이이고, G는 게놈의 염기의 수, 또는 길이 (상기 참고)이다. 예를 들어, 참고 게놈이 1000 Mbp이고 100 bp의 평균 길이의 1억 리드가 시퀀싱되는 경우, 커버리지의 중복성(redundancy)은 10X일 것이다. 이러한 커버리지는 "배수" 예컨대 1X, 2X, 3X, 등 (또는 1, 2, 3, 등의 배수 커버리지)와 같이 표현될 수 있다. 커버리지는 또한 참고 서열이 리드에 의해 커버되는 빈도, 예를 들어, 임의의 주어진 유전자좌에서 단일 염기가 시퀀싱 과정에서 판독되는 횟수를 기술하기 위한 참고 핵산에 대한 시퀀싱의 중복성과 관련될 수 있다. 따라서, 커버되지 않고 0의 깊이를 갖는 일부 염기 및 커버되고 임의의 곳에서 예를 들어 1 내지 50의 깊이를 갖는 일부 염기가 존재할 수 있다. 커버리지의 중복성은 서열 데이터의 신뢰성의 지표를 제공하고, 또한 커버리지 깊이(coverage depth)로서 지칭된다. 커버리지의 중복성은 참고에 대해 또는 정렬된 (예를 들어 맵핑된) 리드에 대해 정렬되지 않은 "원본(raw)" 리드와 관련하여 기술될 수 있다. 커버리지는 또한 리드에 의해 커버되는 참고 (예를 들어, 게놈)의 백분율과 관련하여 고려될 수 있다. 예를 들어, 참고 게놈이 10 Mbp이고 서열 리드 데이터가 참고의 8 Mbp로 맵핑되는 경우, 커버리지의 백분율을 80%일 것이다. 서열 커버리지는 또한 특정 깊이에서 주어진 횟수에서 시퀀싱되는 참고의 염기들의 백분율을 지칭하는 커버리지의 범위와 관련하여 기술될 수 있다.
본원에 사용되는 바와 같이, 핵산 시퀀싱과 관련된 어구 "낮은 커버리지"는 약 10X 미만, 또는 약 0.001X 내지 약 10X, 또는 약 0.002X 내지 약 0.2X, 또는 약 0.01X 내지 약 0.05X의 시퀀싱 커버리지를 지칭한다.
본원에 사용되는 바와 같이, 핵산 시퀀싱과 관련된 어구 "낮은 깊이"는 약 10X 미만, 또는 약 0.1X 내지 약 10X, 또는 약 0.2X 내지 약 5X, 또는 약 0.5X 내지 약 2X의 시퀀싱 깊이를 지칭한다.
게놈 서열 핵산 서열과 관련된 용어 "해상도"는 세포(들), 예를 들어, 배아, 또는 유기체의 핵산 시퀀싱을 통해 얻은 게놈 핵산 서열 (예를 들어, 전체 게놈 또는 게놈의 특정 영역 또는 유전자좌의 서열)의 품질, 또는 정확도, 및 정도를 지칭한다. 게놈 핵산 서열의 해상도는 주로 시퀀싱 과정의 커버리지의 깊이 및 범위에 의해 결정되며, 시퀀싱 동안 판독되는 고유 염기의 수 및 임의의 하나의 염기가 시퀀싱 동안 판독되는 횟수를 고려하는 것을 수반한다. 세포(들), 예를 들어, 배아, 또는 유기체의 게놈 핵산 서열과 관련하여 상호교환적으로 사용되는 어구 "저해상도 서열" 또는 "저해상도 서열 데이터" 또는 "희소 서열 데이터"는 저-커버리지 및 저-범위 시퀀싱 방법을 통해 얻은 게놈 핵산의 뉴클레오티드 염기 서열 정보를 지칭한다.
본원에 사용되는 바와 같은 어구 "게놈 특징"은 일부 주석이 달린 기능 (예를 들어, 유전자, 단백질 코딩 서열, mRNA, tRNA, rRNA, 반복 서열, 역반복체(inverted repeat), miRNA, siRNA 등)을 갖는 게놈 영역 또는 돌연변이, 재조합/교차 또는 유전자 부동으로 인해 특정 종 또는 특정 종 내의 하위-집단에 대해 참조되는 바와 같은 변화가 진행되는 (DNA 또는 RNA 내의) 단일 또는 그룹화의 유전자를 의미하는, 게놈/게놈 변이 (예를 들어, 단일 뉴클레오티드 다형성/변이, 삽입/결실 서열, 복제 수 변이 (CNV), 역위(inversion) 등)을 지칭할 수 있다.
게놈 변이는 비제한적으로 하기를 포함하는 다양한 기술을 사용하여 식별될 수 있다: 어레이 기반 방법 (예를 들어, DNA 마이크로어레이 등), 실시간/디지털/정량적 PCR 기기 방법 및 전체 또는 표적화 핵산 시퀀싱 시스템 (예를 들어, NGS 시스템, 모세관 전기영동 시스템 등). 핵산 시퀀싱을 사용하면 커버리지 데이터는 단일 염기 해상도에서 이용가능하다.
어구 "모자이크 배아"는 2개 이상의 세포유전학적으로 구별되는 세포주를 함유하는 배아를 의미한다. 예를 들어, 모자이크 배아는 상이한 유형의 이수성을 가진 세포주 또는 임신 과정의 배아의 생존에 해로울 수 있는 유전적 변이를 가진 DNA를 포함하는 정배수체 및 유전적 비정상적인 세포의 혼합물을 함유할 수 있다.
유전자좌가 염색체 내의 관심대상의 동적 영역을 지칭하는, 유전자좌에 대한 어구 "SNV 밀도"는 샘플에 대해 동일한 유전자좌에서 식별되는 서열 카운트의 총수로 나눈 유전자좌 내에서 식별되는 SNV의 수로부터 유래된 값을 지칭한다.
핵산 서열 데이터 생성
게놈 핵산의 분석 및 게놈 특징의 분류를 위해 본원에 제공된 방법 및 시스템의 일부 구현예는 세포 및/또는 유기체의 게놈의 뉴클레오티드 서열의 분석을 포함한다. 핵산 서열 데이터는 본원에 기재된 및/또는 본 기술분야에서 알려진 다양한 방법을 사용하여 얻을 수 있다. 일 예에서, 세포, 예를 들어 배아의 세포의 게놈 핵산의 서열은 세포로부터 추출된 DNA 샘플의 차세대 시퀀싱 (NGS)으로부터 얻을 수 있다. 2세대 시퀀싱으로도 알려진 NGS는 병렬로의 (예를 들어, 배아로부터 추출된) DNA의 샘플의 핵산 증폭에 의해 발생된 수백만의 뉴클레오티드의 시퀀싱을 수반하는 고처리량, 초병렬 시퀀싱 기술에 기초한다 (예를 들어, 문헌 [Kulski (2016) "Next-Generation Sequencing - An Overview of History, Tools and 'Omic' Applications," in Next Generation Sequencing - Advances, Applications and Challenges, J. Kulski ed., London: Intech Open, pages 3-60]을 참조한다).
NGS에 의해 시퀀싱된 핵산 샘플은 샘플의 공급원에 따라 다양한 방식으로 얻는다. 예를 들어, 인간 핵산은 핵산이 이후 추출되는 세포를 수집하기 위한 볼 브러쉬 면봉을 통해 쉽게 얻을 수 있다. (예를 들어, 착상전 유전자 스크리닝을 위해) 배아로부터의 시퀀싱을 위한 최적의 양의 DNA를 얻기 위해, 세포 (예를 들어, 5-7개의 세포)는 일반적으로 배반포 단계 동안 영양외배엽 생검을 통해 수집된다. DNA 샘플은 예를 들어 NGS를 통한 시퀀싱 전에 단편화, 증폭 및 어댑터 결찰을 포함하는 처리를 필요로 한다. 이러한 처리에서 핵산의 조작은 인공물 (예를 들어, 중합효소 연쇄 반응 (PCR) 증폭과 관련된 GC 편향(bias))를 증폭된 서열에 도입하고 서열 리드의 크기를 제한할 수 있다. NGS 방법 및 시스템은 이에 따라 시스템들 간에 상이할 수 있는 오류율과 관련된다.
추가적으로, 서열 리드 (예를 들어, 염기-호출)에서 염기를 식별하는 것과 관련하여 사용되는 소프트웨어는 NGS 시퀀싱으로부터의 서열 데이터의 정확도에 영향을 줄 수 있다. 이러한 인공물 및 제한은 게놈의 긴 반복 영역을 시퀀싱하고 맵핑하고 게놈에서 다형성 대립유전자 및 이수성을 식별하기 어렵게 할 수 있다. 예를 들어, 인간 게놈의 약 40%는 반복 DNA 요소로 구성되어 있기 때문에, 참고 게놈의 반복 요소에 정렬되는 동일한 서열의 더 짧은 단일 리드는 종종 게놈의 특정 영역에 정확하게 매핑될 수 없다. 시퀀스 결정에서 오류 및/또는 불완전성의 일부 영향을 해결하고 가능하게는 감소시키는 하나의 방법은 시퀀싱 커버리지 또는 깊이를 증가시키는 것에 의한다. 그러나, 시퀀싱 커버리지에서의 증가는 증가된 시퀀싱 시간 및 비용과 관련된다. 페어드-엔드 시퀀싱이 또한 활용될 수 있으며, 이는 서열을 게놈 또는 참고에 대해 맵핑할 때 예를 들어, 긴 반복 영역에서의 서열 리드의 배치에서의 정확도를 증가시키고, 구조 재배열 예컨대 유전자 결실, 삽입 및 역위의 해상도를 증가시킨다. 예를 들어, 본원에 제공된 방법의 일부 구현예에서, 배아로부터의 핵산의 페어드-엔드 NGS로부터 얻은 데이터의 사용은 15%의 평균까지 리드 맵핑을 증가시켰다. 페어드-엔드 시퀀싱 방법은 본 기술분야에 알려져 있고 및/또는 본원에 기재되어 있으며, 두 방향에서의 핵산 단편의 서열 (즉, 단편의 하나의 말단으로부터의 하나의 리드 및 단편의 반대 말단으로부터의 두 번째 리드)을 결정하는 것을 수반한다. 페어드-엔드 시퀀싱은 또한 리드의 수를 배가시킴으로써 효과적으로 시퀀싱 커버리지 중복성을 증가시키고, 특히 어려운 게놈 영역에서의 커버리지를 증가시킨다.
핵산 서열 분석
게놈 핵산의 분석 및 게놈 특징의 분류를 위한 본원에 제공된 방법 및 시스템의 일부 구현예에서, 세포, 예를 들어, 배아 세포, 또는 유기체로부터 얻은 핵산의 서열을 사용하여 게놈 맵핑의 방법을 사용하여 세포/유기체의 게놈 (그것의 일부)를 재구성한다. 통상적으로, 게놈 맵핑은 정렬로 지칭되는 과정에서 참고 게놈 (예를 들어, 인간 게놈)에 서열을 매칭하는 것을 수반한다. 맵핑 과정에서 사용될 수 있는 인간 참고 게놈의 예는 2009년에 출시된 GRCh37 (hg19) 및 2013년에 출시된 GRCh38 (hg38)과 같은 게놈 레퍼런스 콘소시엄(Genome Reference Consortium)으로부터의 출시를 포함한다 (예를 들어, https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg19 https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39를 참조한다). 정렬을 통해 서열 리드는 통상적으로 서열의 일치를 수행하기 위해 컴퓨터 프로그램을 사용하여 게놈 유전자좌에 할당된다. 다수의 정렬 프로그램은 공개적으로 이용가능하며, Bowtie를 포함한다 (예를 들어 http://bowtie-bio.sourceforge.net/manual.shtml) 및 BWA (예를 들어, http://bio-bwa.sourceforge.net/를 참조한다). 처리되어 유전자좌에 일치되는 서열은 종종 정렬된 서열 또는 정렬된 리드로 지칭된다.
게놈 참고에 대한 서열 리드의 맵핑에 있어서, 서열 뉴클레오티드 변이 (SNV) 또는 단일 뉴클레오티드 다형성 (SNP)을 식별하는 것이 가능하다. 또한, 용어 SNV 및 SNP 둘 모두는 다양한 구현예에 따라 사용되는 것을 유의하여야 한다. 두 용어는 본 기술분야에서의 당업자에게 구분가능할 수 있지만, 상기 용어는 본원의 다양한 구현예에 따라 상호교환적으로 사용될 수 있다. 따라서, 어느 하나의 용어의 사용은 수신된 시퀀싱 데이터를 분석하기 위한 공정에 적용됨에 따라 두 용어를 포함하여야 한다. 단일 뉴클레오티드 변이/다형성은 단일 뉴클레오티드 위치에서 게놈에서의 변이의 결과이다. SNV 검출에 대한 여러 상이한 NGS 분석 프로그램은 공개적으로 이용가능하며, 본 기술분야에 알려져 있고 및/또는 본원에 기재되어 있다. 이 방법은 BCFTOOLS (오픈 소스)를 이용하여 정렬된 시퀀싱 데이터를 요약하고 다운스트림 공정에 대해 사용되는 SNV/유전자형 호출을 발생시킨다. 세포 또는 유기체의 샘플 핵산으로부터의 서열의 게놈 맵핑을 통한 게놈 특징, 예컨대 염색체 이상, 예를 들어 이수성, CNV의 검출 및 식별은 특히 서열 데이터가 저-커버리지 및 저-깊이 시퀀싱 방법으로부터 얻을 때 특정 극복과제를 제시하고, 이는 전체 게놈이 조사되지 않고, 게놈에서 조사되는 것은 비제한적으로 하기를 포함하는 시퀀싱 데이터를 발생시키기 위해 이용되는 방법론으로 인해 특히 편향 및 오류에 취약하기 때문이다: 전체 게놈 증폭, 라이브러리 준비 및 차세대 시퀀싱 시스템 및 방법론의 선택. 컴퓨터 프로그램 및 시스템은 특정 게놈 특징을 식별함에 있어서 서열 데이터의 해석의 용이성 및/또는 정확성을 증가시키기 위해 본 기술분야에 알려져 있고 및/또는 본원에 기재되어 있다. 예를 들어, 분절 중복/결실, 모자이크 특징, 이수성 및 일부 형태의 배수성을 포함하는 염색체 이상의 자동화된 검출을 위한 시스템 및 방법은 본원에 참조로 편입된 미국 특허 출원 공개번호 제2020/0111573호에 기재되어 있다. 이러한 방법은 노이즈 제거/정규화 (원본 시퀀스 리드를 노이즈 제거하고 게놈 시퀀스 정보를 정규화하여 유전자좌 효과를 수정함) 및 행형도로 유전자좌 평점을 해석하기 위한 (또는 디코딩하기 위한) 기계 학습 및 인공 지능을 포함한다. 예를 들어, 시퀀싱이 완료된 후, 원본 서열 데이터는 역다중화되고 (주어진 샘플에 기인하고), 리드는 예를 들어 HG19와 같은 참고 게놈에 정렬되고, 각 1백만 염기쌍 빈에서의 총 리드 수가 계수된다. 이 데이터는 GC 함량 및 깊이를 기반으로 정규화되고, 알려진 결과의 샘플로부터 생성된 기준선에 대해 시험된다. 2의 복제 수로부터의 통계적 편차는 이후 이수성으로서 기록된다 (존재하는 경우, 존재하지 않는 경우 = 정배수체). 이 방법을 사용하여 CNV 메트릭을 기반으로 감수분열 이수성과 유사분열 이수성을 서로 구별할 수 있다. 정상과의 편차를 기준으로, 존재하는 염색체의 총 수, 존재하는 임의의 이수성 및 이러한 이수성의 모자이크 수준 (해당되는 경우)으로 핵형이 생성된다.
NGS에서 발생될 수 있는 인공물, 커버리지의 변화 및 오차는 또한 게놈 변이를 정확하게 식별하기 위한 저-커버리지 시퀀싱 데이터의 사용에서의 극복과제를 제시한다. 따라서, 이들이 정확하게 호출되었는지 확인하기 위해 저-커버리지 시퀀싱으로부터 얻은 데이터로부터 식별된 게놈 변이가 실제로 진정한 게놈 변이인지 여부를 확인할 수 있는 방법에 대한 필요성이 존재한다.
저-커버리지 시퀀싱 데이터를 사용하여 이루어진 게놈 변이 호출 (특히 CNV 호출)을 확인하기 위한 개선된, 효율적인, 신속한, 그리고 비용-효율적인 방법 및 시스템이 본원에 제공된다.
SNV 밀도를 사용하는 CNV 호출의 확인
본원에 개시된 시스템 및 방법은 전체 시퀀싱 커버리지 정규화 밀도 상관관계가 시퀀싱 커버리지의 인공적 변화에 기초한 상관관계보다 복제 수의 진정한 생물학적 변화 (즉, CNV)를 더 잘 검출한다는 결정을 사용하는 것을 수반한다. 역사적으로 SNV 밀도 데이터는 15X 미만의 시퀀싱 커버리지 수준에서 CNV 호출을 확인하기 위해 이전에 사용되지 않았다. 원 형태에서, 상이한 유전자좌 사이의 SNV 밀도 가변성은 종종 복제 수 변화로 인한 가변성보다 클 수 있다. 이 단점은 상이한 유전자좌 사이의 SNV 밀도 가변성을 해소하기 위해 정규화 단계의 통합을 통해 해결되었고, 이에 따라 SNV 밀도를 사용하여 낮은 커버리지를 갖는 게놈 시퀀싱 데이터로 만든 CNV 호출을 확인할 수 있다. 이것은 필요한 시퀀싱 커버리지 수준이 높을수록 분석에 더 많은 비용과 시간이 소요되므로 (낮은 처리량) 기존 방법 (이는 15X 이상의 시퀀싱 커버리지 수준을 갖는 데이터를 필요로 함)에 비한 상당한 개선이다.
도 1은 다양한 구현예에 따른, 전체 시퀀싱 커버리지 정규화 밀도 상관관계가 시퀀싱 커버리지의 인공적 변화에 기초한 상관관계보다 복제 수의 정확한 생물학적 변화 (즉, CNV)를 더 잘 검출하는 방식의 그래프 도식이다.
도 1에 나타난 바와 같이, 리드 서클(102)은 진정한 생물학적 변화가 배아에 존재하는 경우 (그리고 또한 CNV 프로파일에서 관측됨 - CNV 프로파일(104)을 가리키는 적색 화살표 참조) 전체 시퀀싱 커버리지 정규화 밀도 사이의 상관 관계를 나타낸다. 정규화된 CNV 빈 평점 (Y-축) 및 라인(106)에 의해 표시되는 준-선형 관계로 표시되는 바와 같이 개별 빈 (X-축)에 대한 SNV 밀도 평점의 상관관계는 신호가 CNV 빈과 원형(108) 및 감소된 기울기를 갖는 후속 추세선(110)에서 발견되는 SNV 밀도와의 그것의 상관관계에 의해 나타낸 바와 같은 인공적이거나 노이즈일 때와 비교되는 바와 같이 진정한 생물학적 변화가 존재하는 경우보다 더 높다. 따라서 상기 방법은 CNV 방법에서 식별된 변화가 본 개시내용에 기재된 방법에 의해 확인되는지 여부를 결정할 때 CNV 빈 평점과 SNV 평점 사이의 이러한 상관관계 값을 활용한다.
도 2는 다양한 구현예에 따른, 100개의 정상 (비-CNV 포함) 배아 샘플(202)의 평균 SNV 밀도에 대해 비교되는 임상적 배아 샘플(204)로부터의 SNV 밀도의 그래프 도식이다.
본원에 개시된 정규화 작업은 CNV 호출이 없는 샘플의 SNV 밀도가 SNV 밀도를 정규화하는 데 사용될 수 있는 일관된 패턴을 따른다는 사실을 이용한다. 따라서, 도 2에 도시된 바와 같이, SNV 밀도의 정규화는 유전자좌에 대한 SNV 밀도(204) (임상 배아 샘플로부터 유래됨)를 정상 샘플의 기준선 세트(즉, 100개의 정상 여성 배아)에서의 평균 SNV 밀도(202)로 나누는 것을 수반할 수 있다. 이 정규화 함수는 식 1에 나타나 있다.
식 1:
Dnorm (유전자좌, 기준선 샘플) = (유전자좌에서의 샘플 SNV 밀도)/(유전자좌에서의 평균 기준선 SNV 밀도)
생성된 정규화된 SNV 밀도는 이후 카운트-기반 CNV 호출을 확인하기 위해 사용될 수 있다.
도 3은 다양한 구현예에 따른, SNV 밀도가 카운트-기반 CNV 호출을 확인하기 위해 사용될 수 있는 방식의 그래프 도면이다.
도 3에 나타난 바와 같이, 잠재적 CNV 호출은 카운트-기반 방법을 사용하여 염색체 1 (결실)(302), 염색체 7 (중복)(304), 염색체 14 (중복)(306) 및 염색체 21 (중복)(308)에 대해 이루어진다. 이러한 CNV 호출은 정규화된 SNV 밀도 그래프에 대해 확인되었고, 이는 잠재적 SNV 호출이 사실상 실제인지 여부를 확인하기 위해 사용되는 사전-설정된 신뢰 구간을 포함한다. 이 경우에서, 모든 4개의 CNV 호출은 실제 CNV 호출로 확인되었고, 이는 CNV 호출의 염색체 위치에서의 SNV 밀도가 사전-설정된 신뢰 구간을 벗어나는 것을 그래프가 나타내었기 때문이다.
도 4는 다양한 구현예에 따른, 배아에 대해 이루어진 CNV 호출을 확인하기 위한 방법을 나타내는 예시적인 흐름도이다.
단계(402)에서, 배아 시퀀싱 데이터는 하나 이상의 프로세서에 의해 수신된다. 다양한 구현예에서, 배아는 인간 배아일 수 있다. 다양한 구현예에서, 배아는 비-인간 배아이다.
단계(404)에서, 수신된 배아 시퀀싱 데이터는 하나 이상의 프로세서에 의해 참고 게놈에 대해 정렬된다. 다양한 구현예에서, 참고 게놈은 단일 개인으로부터 얻은 전체 게놈일 수 있다. 다양한 구현예에서, 참고 게놈은 복수의 개인으로부터의 복합 전체 게놈일 수 있다. 정렬 과정에서 사용될 수 있는 참고 게놈의 예는 비제한적으로 2009년에 출시된 GRCh37 (hg19) 및 2013년에 출시된 GRCh38 (hg38)과 같은 게놈 레퍼런스 콘소시엄으로부터 출시된 게놈을 포함한다 (예를 들어, https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg19 https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39를 참조한다).
단계(406)에서, 정렬된 배아 시퀀싱 데이터에서의 게놈 변이 영역은 하나 이상의 프로세서에 의해 식별된다. 다양한 구현예에서, 게놈 변이 영역은 카운트-기반 CNV 호출 방법을 사용하여 식별되는 CNV 영역이다. 다양한 구현예에서, 게놈 변이 영역은 이수성 영역이다. 다양한 구현예에서, 게놈 변이 영역은 배수성 영역이다. 다양한 구현예에서, 게놈 변이 영역은 전체 염색체를 나타내는 서열 세그멘트를 포함한다. 다양한 구현예에서, 게놈 변이 영역은 염색체의 일부만을 나타내는 서열 세그먼트를 포함한다.
단계(408)에서, 식별된 게놈 변이 영역에서의 SNV들 중 SNV 수는 하나 이상의 프로세서에 의해 계수된다.
단계(410)에서, 식별된 게놈 변이 영역에서의 SNV의 계수된 수는 식별된 게놈 변이 영역에 상응하는 참고 영역에 대한 SNV의 기준선 카운트에 대해 정규화되어 하나 이상의 프로세서에 의해 게놈 변이 영역에 대한 정규화된 SNV 밀도를 발생시킨다. 다양한 구현예에서, SNV의 기준선 카운트는 하나 이상의 정상 (비-CNV) 샘플(들)로부터 유래된 시퀀싱 데이터로부터 얻는다. 다양한 구현예에서, 식별된 변이 영역 및 참고 영역은 동일한 상응하는 게놈 세그먼트 (또는 게놈 위치)를 커버한다. 다양한 구현예에서, 식별된 게놈 변이 영역 및 참고 영역은 전체 염색체를 나타내는 서열 세그먼트를 포함한다. 다양한 구현예에서, 식별된 게놈 변이 영역 및 참고 영역은 염색체의 일부만을 나타내는 서열 세그먼트를 포함한다.
단계(412)에서, 식별된 게놈 변이 영역에서의 정규화된 SNV 밀도 평점이 허용 기준을 충족시키는 경우, 식별된 게놈 변이 영역은 하나 이상의 프로세서에 의해 확인된다. 다양한 구현예에서, 식별된 게놈 변이 영역에 대한 SNV 밀도가 NULL 가설 하에 평균 SNV 밀도의 사전-설정된 신뢰 구간을 벗어나는 경우, 실제 복제 수 변이가 존재하지 않는다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 90%이다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 95%이다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 96%, 약 97%, 약 98% 및 약 99%이다.
중복은 SNV 밀도가 사전-설정된 신뢰 상한값보다 높은 경우에 확인되고 결실은 SNV 밀도가 사전-설정된 신뢰 하한값보다 낮은 경우에 확인된다. 사전-설정된 신뢰 구간은 정규성 가정(C ± Z 시그마 / sqrt(N))에 따라 정의되고, 여기서 C는 NULL 가설 하의 평균 SNV 밀도의 중앙 또는 예측 값이고, N은 식별된 게놈 변이 영역과 중첩되는 윈도우의 수이고, 시그마는 모든 상염색체에 대한 정규화된 SNV 밀도의 전역 표준 편차이고, Z는 표준 정규 분포의 X번째 백분위수이다. "+" 기호는 값이 신뢰 구간의 상한값에 대해 더해지는 것을 나타내고, "-" 기호는 신뢰 구간의 하한값에 대한 차감을 나타낸다.
다양한 구현예에서, 허용 기준은 모자이크 배아로부터 유래된 참고 영역에 대한 예측된 SNV 밀도이다.
다양한 구현예에서, 식별된 게놈 변이 영역은 SNV 밀도가 모자이크 배아 (모자이크 수준 백분율 m의 실제 복제 수 변이 포함)의 대안적인 가설의 사전-설정된 신뢰 구간 하한값 (중복의 경우)을 넘거나 상한값 (결실의 경우)보다 아래인 경우에 확인된다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 90%이다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 95%이다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 96%, 약 97%, 약 98% 및 약 99%이다.
대안적인 가설의 사전-설정된 신뢰 구간은 정규성 가정 (C ± Z 시그마 / sqrt(N))에 따라 정의되고, 여기서 C는 대안적인 가설 하의 평균 SNV 밀도의 중앙 또는 예측 값이고, C= E(SNV 밀도 | m) = 1.0 ± 0.5*m/100이고, N은 식별된 게놈 변이 영역과 중첩되는 윈도우의 수이고, 시그마는 모든 상염색체에 대한 정규화된 SNV 밀도의 전역 표준 편차이고, Z는 표준 정규 분포의 X번째 백분위수이다. "+" 기호는 값이 신뢰 구간의 상한값에 대해 더해지는 것을 나타내고, "-" 기호는 신뢰 구간의 하한값에 대한 차감을 나타낸다.
다양한 구현예에서, 식별된 게놈 변이 영역은 식별된 게놈 변이 영역이 참고 영역에 대한 SNV의 기준선 카운트 초과 또는 미만인 SNV의 사전설정된 변이 수를 초과하는 수의 SNV를 포함하는 경우에 확인된다.
도 5는 다양한 구현예에 따른, 배아에 대해 이루어진 CNV 호출을 확인하기 위한 시스템의 개략도이다.
시스템(500)은 게놈 시퀀서(502), 데이터 저장소(504), 컴퓨팅 장치/분석 서버(506) 및 디스플레이(514)를 포함한다.
게놈 서열 분석기(502)는 직렬 버스 (둘 모두가 통합된 기기 플랫폼을 형성하는 경우)에 의해 또는 네트워크 접속 (둘 모두가 분산/분리 장치인 경우)에 의해 데이터 저장 유닛(504)에 통신가능하게 접속될 수 있다. 게놈 서열 분석기(502)는 복수의 단편 서열 리드를 포함하는, 배아 샘플로부터 얻은 하나 이상의 게놈 서열 데이터세트를 처리하고 분석하도록 구성될 수 있다. 다양한 구현예에서, 게놈 서열 분석기(902)는 차세대 시퀀싱 플랫폼 및 시퀀서 예컨대 llumina® 시퀀서, MiSeqTM, NextSeqTM 500/550 (High Output), HiSeq 2500TM (Rapid Run), HiSeqTM 3000/4000, 및 NovaSeq에 의해 발생된 하나 이상의 게놈 서열 데이터세트를 처리하고 분석할 수 있다.
다양한 구현예에서, 처리된 및 가공된 게놈 서열 데이터세트는 이후 후속 처리를 위해 데이터 저장 유닛(504)에 저장될 수 있다. 다양한 구현예에서, 하나 이상의 원본 게놈 서열 데이터세트는 또한 처리 및 분석 전에 데이터 저장 유닛(504)에 저장될 수 있다. 따라서, 다양한 구현예에서, 데이터 저장 유닛(504)은 하나 이상의 게놈 서열 데이터세트를 저장하도록 구성된다. 다양한 구현예에서, 처리된 및 가공된 게놈 서열 데이터세트는 추가의 다운스트림 분석을 위해 실시간으로 컴퓨팅 장치/분석 서버(506)로 공급될 수 있다.
다양한 구현예에서, 데이터 저장 유닛(504)은 컴퓨팅 장치/분석 서버(506)에 통신가능하게 접속된다. 다양한 구현예에서, 데이터 저장 유닛(904) 및 컴퓨팅 장치/분석 서버(506)는 통합된 장치의 일부일 수 있다. 다양한 구현예에서, 데이터 저장 유닛(504)은 컴퓨팅 장치/분석 서버(506)와 상이한 장치에 의해 호스팅될 수 있다. 다양한 구현예에서, 데이터 저장 유닛(904) 및 컴퓨팅 장치/분석 서버(506)는 분산 네트워크 시스템의 일부일 수 있다. 다양한 구현예에서, 컴퓨팅 장치/분석 서버(506)는 "하드와이어드(hardwired)" 물리적 네트워크 접속 (예를 들어, 인터넷, LAN, WAN, VPN 등)일 수 있는 네트워크 접속 또는 무선 네트워크 접속 (예를 들어, Wi-Fi, WLAN 등)을 통해 데이터 저장 유닛(504)에 통신가능하게 접속될 수 있다. 다양한 구현예에서, 컴퓨팅 장치/분석 서버(506)는 워크스테이션, 메인프레임 컴퓨터, 분산 컴퓨팅 노드 ("클라우드 컴퓨팅" 또는 분산 네트워킹 시스템의 일부), 개인용 컴퓨터, 모바일 장치 등일 수 있다.
다양한 구현예에서, 컴퓨팅 장치/분석 서버(506)는 정렬 엔진(508), 게놈 변이 호출자(510) 및 확인 엔진(512)을 호스팅하도록 구성될 수 있다.
정렬 엔진(508)은 참고 게놈에 대한 배아 시퀀싱 데이터를 수신하고 정렬하도록 구성될 수 있다. 다양한 구현예에서, 참고 게놈은 단일 개인으로부터 얻은 전체 게놈일 수 있다. 다양한 구현예에서, 참고 게놈은 복수의 개인으로부터의 복합 전체 게놈일 수 있다. 정렬 과정에서 사용될 수 있는 참고 게놈의 예는 비제한적으로 2009년에 출시된 GRCh37 (hg19) 및 2013년에 출시된 GRCh38 (hg38)과 같은 게놈 레퍼런스 콘소시엄으로부터 출시된 게놈을 포함한다 (예를 들어, https://genome.ucsc.edu/cgi-bin/hgGateway?db=hg19 https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39를 참조한다).
게놈 변이 호출자(510)는 정렬된 배아 시퀀싱 데이터에서의 게놈 변이 영역을 식별하도록 구성될 수 있다. 다양한 구현예에서, 게놈 변이 영역은 카운트-기반 CNV 호출 방법을 사용하여 식별된 CNV 영역이다. 다양한 구현예에서, 게놈 변이 영역은 이수성 영역이다. 다양한 구현예에서, 게놈 변이 영역은 배수성 영역이다. 다양한 구현예에서, 게놈 변이 영역은 전체 염색체를 나타내는 서열 세그먼트를 포함한다. 다양한 구현예에서, 게놈 변이 영역은 염색체의 일부만을 나타내는 서열 세그먼트를 포함한다.
확인 엔진(512)은 식별된 게놈 변이 영역에서의 단일 뉴클레오티드 변이 (SNV)의 수를 계수하고 식별된 게놈 변이 영역에 상응하는 참고 영역에 대한 SNV의 기준선 카운트에 대한 SNV 카운트를 정규화하여, 식별된 게놈 변이 영역에 대한 정규화된 SNV 밀도를 발생시키고 식별된 게놈 변이 영역에서의 SNV 밀도가 허용 기준을 충족시키는 경우에 식별된 게놈 변이 영역을 확인하도록 구성될 수 있다.
다양한 구현예에서, SNV의 기준선 카운트는 하나 이상의 정상 (비-CNV) 샘플(들)로부터 유래된 시퀀싱 데이터로부터 얻는다. 다양한 구현예에서, 식별된 변이 영역 및 참고 영역은 동일한 상응하는 게놈 세그먼트 (또는 게놈 위치)를 커버한다. 다양한 구현예에서, 식별된 게놈 변이 영역 및 참고 영역은 전체 염색체를 나타내는 서열 세그먼트를 포함한다. 다양한 구현예에서, 식별된 게놈 변이 영역 및 참고 영역은 염색체의 일부만을 나타내는 서열 세그먼트를 포함한다.
다양한 구현예에서, 식별된 게놈 변이 영역에 대한 SNV 밀도가 NULL 가설 하의 평균 SNV 밀도의 사전-설정된 신뢰 구간을 벗어나는 경우, 실제 복제 수 변이가 존재하지 않는다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 90%이다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 95%이다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 96%, 약 97%, 약 98% 및 약 99%이다.
중복은 SNV 밀도가 사전-설정된 신뢰 상한값보다 높은 경우에 확인되고 결실은 SNV 밀도가 사전-설정된 신뢰 하한값보다 낮은 경우에 확인된다. 사전-설정된 신뢰 구간은 정규성 가정(C ± Z 시그마 / sqrt(N))에 따라 정의되고, 여기서 C는 NULL 가설 하의 평균 SNV 밀도의 중앙 또는 예측 값이고, N은 식별된 게놈 변이 영역과 중첩되는 윈도우의 수이고, 시그마는 모든 상염색체에 대한 정규화된 SNV 밀도의 전역 표준 편차이고, Z는 표준 정규 분포의 X번째 백분위수이다. "+" 기호는 값이 신뢰 구간의 상한값에 대해 더해지는 것을 나타내고, "-" 기호는 신뢰 구간의 하한값에 대한 차감을 나타낸다.
다양한 구현예에서, 허용 기준은 모자이크 배아로부터 유래된 참고 영역에 대한 예측된 SNV 밀도이다.
다양한 구현예에서, 식별된 게놈 변이 영역은 SNV 밀도가 모자이크 배아 (모자이크 수준 백분율 m의 실제 복제 수 변이 포함)의 대안적인 가설의 사전-설정된 신뢰 구간 하한값 (중복의 경우)을 넘거나 상한값 (결실의 경우)보다 아래인 경우에 확인된다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 90%이다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 95%이다. 다양한 구현예에서, 사전-설정된 신뢰 구간은 약 96%, 약 97%, 약 98% 및 약 99%이다.
대안적인 가설의 사전-설정된 신뢰 구간은 정규성 가정 (C ± Z 시그마 / sqrt(N))에 따라 정의되고, 여기서 C는 대안적인 가설 하의 평균 SNV 밀도의 중앙 또는 예측 값이고, C= E(SNV 밀도 | m) = 1.0 ± 0.5*m/100이고, N은 식별된 게놈 변이 영역과 중첩되는 윈도우의 수이고, 시그마는 모든 상염색체에 대한 정규화된 SNV 밀도의 전역 표준 편차이고, Z는 표준 정규 분포의 X번째 백분위수이다. "+" 기호는 값이 신뢰 구간의 상한값에 대해 더해지는 것을 나타내고, "-" 기호는 신뢰 구간의 하한값에 대한 차감을 나타낸다.
다양한 구현예에서, 식별된 게놈 변이 영역은 식별된 게놈 변이 영역이 참고 영역에 대한 SNV의 기준선 카운트 초과 또는 미만인 SNV의 사전설정된 변이 수를 초과하는 수의 SNV를 포함하는 경우에 확인된다.
식별된 게놈 변이 영역 확인이 수행된 후, 결과는 컴퓨팅 장치/분석 서버(506)에 통신가능하게 접속된 디스플레이 또는 클라이언트 터미널(514) 상에 결과 또는 요약을 표시할 수 있다. 다양한 구현예에서, 디스플레이 또는 클라이언트 터미널(514)은 박형 클라이언트 컴퓨팅 장치일 수 있다. 다양한 구현예에서, 디스플레이 또는 클라이언트 터미널(514)은 게놈 서열 분석기(502), 데이터 저장소(504), 정렬 엔진(508), 게놈 변이 호출자(510), 및 확인 엔진(512)의 작동을 조절하기 위해 사용될 수 있는 웹 브라우저 (예를 들어, INTERNET EXPLORERTM, FIREFOXTM, SAFARITM 등)를 갖는 개인용 컴퓨팅 장치일 수 있다.
실험 결과
표 1
Figure pct00001
표 1에 상기 나타난 바와 같이, 공지 사실을 갖는 총 70개의 삼배체 샘플 및 349개의 이배체 샘플 (SNP 어레이)는 여성 삼배체의 존재 또는 부재에 대해 본원에 개시된 방법에 의해 조사되었다. 결과는 상기 기재되어 있으며, 여기서 "진양성"은 성공적으로 호출된 질환 상태 (다배체)로서 정의되고, "진음성"은 성공적으로 호출된 "정배수체" 상태로서 정의되고, "위양성"은 정배수체 배아에서 잘못 호출된 질환 상태로서 정의되고, "위음성"은 질환 상태 배아에서 잘못 호출된 정배수체로서 정의된다.
상기 표는 배아에서 실제 CNV의 존재를 확인함에 있어서의 개시된 방법의 높은 정확도를 분명하게 보여준다.
컴퓨터-실행 시스템
다양한 구현예에서, 배아에서의 CNV의 확인을 위한 SNV의 밀도를 사용하기 위한 방법은 컴퓨터 소프트웨어 또는 하드웨어를 통해 실행될 수 있다. 즉, 도 5에 도시된 바와 같이, 본원에 개시된 방법은 정렬 엔진(508), 데이터 저장소(504), 게놈 변이 호출자(510), 및 확인 엔진(512)을 포함하는 컴퓨팅 장치/분석 서버(506) 상에서 실행될 수 있다. 다양한 구현예에서, 컴퓨팅 장치/분석 서버(506)는 직접 접속을 통해 또는 인터넷 접속을 통해 디스플레이 장치(514)에 통신가능하게 접속될 수 있다.
도 5에 도시된 다양한 엔진은 특정 응용분야 또는 시스템 구성의 요건에 따라 단일 엔진, 부품 또는 모듈로 조합되거나 축소될 수 있다는 것을 이해하여야 한다. 또한, 다양한 구현예에서, 정렬 엔진(508), 데이터 저장소(504), 게놈 변이 호출자(510), 및 확인 엔진(512)은 특정 응용분야 또는 시스템 구성에 의해 필요로 되는 바에 따라 추가의 엔진 또는 부품을 포함할 수 있다.
도 6은 다양한 구현예에 따른 컴퓨터 시스템을 예시하는 블록선도이다. 본 교시의 다양한 구현예에서, 컴퓨터 시스템(600)은 버스(602) 또는 정보를 통신하기 위한 다른 통신 메커니즘, 및 정보를 처리하기 위한 버스(602)와 연결되는 프로세서(604)를 포함할 수 있다. 다양한 구현예에서, 컴퓨터 시스템(600)은 또한 프로세서(604)에 의해 실현되는 명령어를 결정하기 위해 버스(602)에 연결되는, 랜덤 액세스 메모리 (ROM)(606) 또는 다른 동적 저장 장치일 수 있는 메모리를 포함할 수 있다. 메모리는 또한 프로세서(604)에 의해 실현되는 명령어의 실현 과정에서 임시 변수 또는 다른 중간 정보를 저장하기 위해 사용될 수 있다. 다양한 구현예에서, 컴퓨터 시스템(600)은 프로세서(604)에 대한 정적 정보 및 명령어를 저장하기 위해 버스(602)에 연결된 판독 전용 메모리 (ROM)(608) 또는 다른 정적 저장 장치를 추가로 포함할 수 있다. 저장 장치(604), 예컨대 자기 디스크 또는 광학 디스크는 정보 및 명령어를 저장하기 위한 버스(602)에 제공되어 연결될 수 있다.
다양한 구현예에서, 컴퓨터 시스템(600)은 컴퓨터 사용자에게 정보를 표시하기 위해 버스(602)를 통해 디스플레이(612), 예컨대 음극선관 (CRT) 또는 액정 디스플레이 (LCD)에 연결될 수 있다. 영숫자 및 기타 키를 포함하는 입력 장치(614)는 정보 및 명령 선택을 프로세서(604)에 통신하기 위해 버스(602)에 연결될 수 있다. 다른 유형의 사용자 입력 장치는 방향 정보 및 명령 선택을 프로세서(604)에 통신하고 디스플레이(612) 상에서의 커서 움직임을 제어하기 위한 커서 컨트롤(616), 예컨대 마우스, 트랙볼 또는 커서 방향 키이다. 이 입력 장치(614)는 통상적으로 장치가 평면의 위치를 특정하게 하는 제1 축 (즉, x) 및 제2 축 (즉, y)의 두 축에서 2개의 자유도를 가진다. 그러나, 3차원 (x, y 및 z) 커서 움직임을 허용하는 입력 장치(614)가 본원에서 고려된다는 것을 이해하여야 한다.
본 교시의 특정 구현과 일치하여, 메모리(606)에 포함된 하나 이상의 명령어의 하나 이상의 시퀀스를 실행하는 프로세서(604)에 응답하여 컴퓨터 시스템(600)에 의해 결과가 제공될 수 있다. 이러한 명령어는 저장 장치(610)와 같은 다른 컴퓨터-판독가능 매체 또는 컴퓨터-판독가능 저장 매체로부터 메모리(606)에서 판독될 수 있다. 메모리(606)에 포함된 명령어의 시퀀스의 실행은 프로세서(604)가 본원에 기재된 프로세스를 수행하게 할 수 있다. 대안적으로, 본 교시를 구현하기 위해 소프트웨어 명령어 대신에 또는 이와 결합하여 하드-와이어드 회로가 사용될 수 있다. 따라서, 본 교시의 구현은 하드웨어 회로 및 소프트웨어의 임의의 특정 조합으로 제한되지 않는다.
본원에 사용되는 바와 같은 용어 "컴퓨터-판독가능 매체" (예를 들어, 데이터 저장소, 데이터 저장장치 등) 또는 "컴퓨터-판독가능 저장 매체"는 실행을 위해 프로세서(604)에 명령어를 제공하는 데 참여하는 임의의 매체를 지칭한다. 이러한 매체는 비제한적으로 비휘발성 매체, 휘발성 매체 및 전송 매체를 포함하는 수많은 형태를 취할 수 있다. 비휘발성 매체의 예는 비제한적으로 광학, 고체 상태, 자기 디스크, 예컨대 저장 장치(610)를 포함할 수 있다. 휘발성 매체의 예는 비제한적으로 동적 메모리, 예컨대 메모리(606)를 포함할 수 있다. 전송 매체의 예는 비제한적으로 버스(602)를 포함하는 와이어를 비롯하여 동축 케이블, 구리 와이어 및 광섬유를 포함할 수 있다.
컴퓨터-판독가능 매체에 대한 일반적인 형태는 예를 들어 플로피 디스크, 플렉서블 디스크, 하드 디스크, 자기 테이프 또는 임의의 기타 자기 매체, CD-ROM, 임의의 기타 광학 매체, 펀치 카드, 종이 테이프, 홀의 패턴이 있는 임의의 기타 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, 임의의 기타 메모리 칩 또는 카트리지, 또는 컴퓨터가 판독할 수 있는 임의의 다른 탄저블(tangible) 매체를 포함한다.
컴퓨터 판독가능 매체 이외에, 명령어 또는 데이터는 통신 장치 또는 시스템에 포함된 전송 매체 상의 신호로서 제공되어 실행을 위한 컴퓨터 시스템(600)의 프로세서(604)로 하나 이상의 명령어의 시퀀스를 제공할 수 있다. 예를 들어, 통신 장치는 명령어 및 데이터를 나타내는 신호를 갖는 송수신기를 포함할 수 있다. 명령어 및 데이터는 하나 이상의 프로세서가 본원에 개시내용에 개략된 기능을 구현하도록 구성된다. 데이터 통신 전송 접속의 대표적인 예는 비제한적으로 전화 모뎀 접속, 광역 네트워크 (WAN), 근거리 네트워크 (LAN), 적외선 데이터 접속, NFC 접속 등을 포함할 수 있다.
본원에 기재된 방법론 흐름도, 다이어그램 및 수반되는 개시내용은 독립형 장치로서 컴퓨터 시스템(600)을 사용하여 또는 클라우드 컴퓨팅 네트워크와 같은 공유 컴퓨터 프로세싱 자원의 분산 네트워크 상에서 구현될 수 있다는 것을 이해하여야 한다.
본원에 기재된 방법론은 응용분야에 따라 다양한 수단에 의해 구현될 수 있다. 예를 들어, 이러한 방법론은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 하드웨어 구현의 경우, 프로세싱 유닛은 하나 이상의 주문형 집적 회로 (ASIC), 디지털 신호 프로세서 (DSP), 디지털 신호 처리 장치 (DSPD), 프로그래밍가능 논리 장치 (PLD), 필드 프로그래밍가능 게이트 어레이 (FPGA), 프로세서, 컨트롤러, 마이크로-컨트롤러, 마이크로프로세서, 전자 장치, 본원에 기재된 기능을 수행하도록 설계된 기타 전자 장치, 또는 이들의 조합에서 구현될 수 있다.
다양한 구현예에서, 본 교시의 방법은 펌웨어 및/또는 소프트웨어 프로그램 및 C, C++, Python 등과 같은 종래의 프로그래밍 언어로 작성된 애플리케이션으로서 구현될 수 있다. 펌웨어 및/또는 소프트웨어로 구현되는 경우, 본원에 기재된 구현예는 컴퓨터가 상기 기재된 방법을 수행하도록 프로그램이 저장된 비일시적 컴퓨터-판독가능 매체 상에서 구현될 수 있다. 본원에 기재된 다양한 엔진은 컴퓨터 시스템(600)과 같은 컴퓨터 시스템에 제공될 수 있으며, 이에 의해 프로세서(604)는 입력 장치(614)를 통해 제공되는 사용자 입력 및 메모리 부품 (606/608/610) 중 어느 하나, 또는 조합에 의해 제공되는 명령어를 받는 이들 엔진에 의해 제공되는 분석 및 결정을 실행할 것이다.
본 교시가 다양한 실시예와 결합하여 기재되지만, 본 교시는 이러한 구현예로 제한되도록 의도되지 않는다. 반면, 본 교시는 당업자에 의해 이해되는 바와 같이 다양한 대안예, 수정예 및 균등물을 포괄한다.
다양한 구현예를 기재함에 있어서, 본 명세서는 특정 단계의 순서로 방법 및/또는 프로세스를 제시할 수 있다. 그러나, 방법 또는 프로세스가 본원에 제시된 단계의 특정 순서에 의존되지 않는 범위로, 방법 또는 프로세스는 기재된 단계의 특정 순서로 제한되지 않아야 하며, 당업자는 순서는 변화될 수 있고 여전히 다양한 구현예의 사상 및 범위 내에서 유지될 수 있는 것을 쉽게 이해할 수 있다.

Claims (27)

  1. 배아에서 게놈 변이 영역을 확인하기 위한 방법으로서,
    하나 이상의 프로세서에 의해 배아 시퀀싱 데이터를 수신하는 단계;
    하나 이상의 프로세서에 의해 상기 수신된 배아 시퀀싱 데이터를 참고 게놈에 정렬시키는 단계;
    하나 이상의 프로세서에 의해 상기 정렬된 배아 시퀀싱 데이터에서의 게놈 변이 영역을 식별하는 단계;
    하나 이상의 프로세서에 의해 상기 식별된 게놈 변이 영역에서의 단일 뉴클레오티드 변이 (SNV)의 수를 계수하는 단계;
    하나 이상의 프로세서에 의해 상기 게놈 변이 영역에 대한 정규화된 SNV 밀도를 발생시키기 위해 상기 식별된 게놈 변이 영역에 상응하는 참고 영역에 대한 SNV의 기준선 카운트에 대해 식별된 게놈 변이 영역에서의 SNV의 계수된 수를 정규화하는 단계; 및
    상기 식별된 게놈 변이 영역에서의 정규화된 SNV 밀도가 허용 기준을 충족시키는 경우, 하나 이상의 프로세서에 의해 식별된 게놈 변이 영역을 확인하는 단계
    를 포함하는, 배아에서 게놈 변이 영역을 확인하기 위한 방법.
  2. 제1항에 있어서, 상기 게놈 변이 영역은 복제 수 변이 영역인 방법.
  3. 제1항에 있어서, 상기 게놈 변이 영역은 이수성 영역인 방법.
  4. 제1항에 있어서, 상기 게놈 변이 영역은 배수성 영역인 방법.
  5. 제1항에 있어서, 상기 참고 영역은 정확한 길이의 식별된 게놈 변이 영역인 방법.
  6. 제1항에 있어서, 상기 참고 영역은 정배수체 샘플로부터 유래된 것인 방법.
  7. 제1항에 있어서, 상기 허용 기준은 정배수체 배아로부터 유래된 참고 영역에 대한 예측된 SNV 밀도인 방법.
  8. 제7항에 있어서, 상기 식별된 게놈 변이 영역의 정규화된 SNV 밀도가 참고 영역에 대한 예측된 SNV 밀도의 사전-설정된 신뢰 구간보다 크거나 작은 경우에 식별된 게놈 변이 영역이 확인되는 방법.
  9. 제8항에 있어서, 하한 사전-설정된 신뢰 구간은 95%인 방법.
  10. 제1항에 있어서, 상기 허용 기준은 모자이크 배아로부터 유래된 참고 영역에 대한 예측된 SNV 밀도인 방법.
  11. 제10항에 있어서, 상기 식별된 게놈 변이 영역의 정규화된 SNV 밀도가 참고 영역에 대한 예측된 SNV 밀도의 사전-설정된 신뢰 구간보다 높은 경우에 식별된 게놈 변이 영역이 확인되는 방법.
  12. 제11항에 있어서, 상기 사전-설정된 신뢰 구간이 95%인 방법.
  13. 제1항에 있어서, 상기 허용 기준은 참고 영역에 대한 SNV의 기준선 카운트보다 높거나 낮은 SNV의 사전설정된 변이 수인 방법.
  14. 배아에서 게놈 변이 영역을 확인하기 위한 방법을 수행하기 위한 컴퓨터 명령어를 저장하는 비일시적 컴퓨터-판독가능 매체로서, 상기 방법은:
    하나 이상의 프로세서에 의해 배아 시퀀싱 데이터를 수신하는 단계;
    하나 이상의 프로세서에 의해 상기 배아 시퀀싱 데이터를 참고 게놈에 정렬시키는 단계;
    하나 이상의 프로세서에 의해 상기 정렬된 배아 시퀀싱 데이터에서 게놈 변이 영역을 식별하는 단계;
    하나 이상의 프로세서에 의해 상기 식별된 게놈 변이 영역에서의 단일 뉴클레오티드 변이 (SNV)의 수를 계수하는 단계;
    하나 이상의 프로세서에 의해 상기 게놈 변이 영역에 대한 정규화된 SNV 밀도를 발생시키기 위해 상기 식별된 게놈 변이 영역에 상응하는 참고 영역에 대한 SNV의 기준선 카운트에 대해 식별된 게놈 변이 영역에서의 SNV의 계수된 수를 정규화하는 단계; 및
    상기 식별된 게놈 변이 영역에서의 정규화된 SNV 밀도가 허용 기준을 충족시키는 경우, 하나 이상의 프로세서에 의해 식별된 게놈 변이 영역을 확인하는 단계
    를 포함하는, 배아에서 게놈 변이 영역을 확인하기 위한 컴퓨터 명령어를 저장하는 비일시적 컴퓨터-판독가능 매체.
  15. 배아에서 게놈 변이 영역을 확인하기 위한 시스템으로서,
    배아 시퀀싱 데이터를 저장하기 위한 데이터 저장소;
    상기 데이터 저장소에 통신가능하게 접속된 컴퓨팅 장치로서,
    참고 게놈에 대해 배아 시퀀싱 데이터를 수신하고 정렬시키도록 구성된 정렬 엔진,
    정렬된 배아 시퀀싱 데이터에서 게놈 변이 영역을 식별하도록 구성된 게놈 변이 호출자, 및
    식별된 게놈 변이 영역에서의 단일 뉴클레오티드 변이 (SNV)의 수를 계수하고 그리고 상기 식별된 게놈 변이 영역에 대한 정규화된 SNV 밀도를 발생시키기 위해 식별된 게놈 변이 영역에 상응하는 참고 영역에 대한 SNV의 기준선 카운트에 대해 식별된 게놈 변이 영역에서의 SNV 카운트를 정규화하고, 그리고
    식별된 게놈 변이 영역에서의 정규화된 SNV 밀도가 허용 기준을 충족시키는 경우에 식별된 게놈 변이 영역을 확인하도록 구성된 확인 엔진,
    을 포함하는 컴퓨팅 장치; 및
    상기 컴퓨팅 장치에 통신가능하게 접속되고 확인 엔진으로부터의 게놈 변이 영역 결과를 포함하는 보고서를 표시하도록 구성된 디스플레이
    를 포함하는, 배아에서 게놈 변이 영역을 확인하기 위한 시스템.
  16. 제15항에 있어서, 상기 게놈 변이 영역은 복제 수 변이 영역인 시스템.
  17. 제15항에 있어서, 상기 게놈 변이 영역은 이수성 영역인 시스템.
  18. 제15항에 있어서, 상기 게놈 변이 영역은 배수성 영역인 시스템.
  19. 제15항에 있어서, 상기 참고 영역은 정확한 길이의 식별된 게놈 변이 영역인 시스템.
  20. 제15항에 있어서, 상기 참고 영역은 정배수체 샘플로부터 유래된 것인 시스템.
  21. 제15항에 있어서, 상기 허용 기준은 정배수체 배아로부터 유래된 참고 영역에 대한 예측된 SNV 밀도인 시스템.
  22. 제21항에 있어서, 상기 식별된 게놈 변이 영역의 정규화된 SNV 밀도가 참고 영역에 대한 예측된 SNV 밀도의 사전-설정된 신뢰 구간보다 크거나 작은 경우에 식별된 게놈 변이 영역이 확인되는 시스템.
  23. 제22항에 있어서, 하한 사전-설정된 신뢰 구간은 95%인 시스템.
  24. 제15항에 있어서, 상기 허용 기준은 모자이크 배아로부터 유래된 참고 영역에 대한 예측된 SNV 밀도인 시스템.
  25. 제24항에 있어서, 상기 식별된 게놈 변이 영역의 정규화된 SNV 밀도가 참고 영역에 대한 예측된 SNV 밀도의 사전-설정된 신뢰 구간보다 높은 경우에 식별된 게놈 변이 영역이 확인되는 시스템.
  26. 제25항에 있어서, 상기 사전-설정된 신뢰 구간이 95%인 시스템.
  27. 제15항에 있어서, 상기 허용 기준은 참고 영역에 대한 SNV의 기준선 카운트보다 높거나 낮은 SNV의 사전설정된 변이 수인 시스템.
KR1020227001801A 2019-06-21 2020-06-19 인간 배아에서의 복제 수 변이의 확인을 위한 단일 뉴클레오티드 변이의 밀도를 사용하는 시스템 및 방법(systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos) KR20220064951A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962865126P 2019-06-21 2019-06-21
US62/865,126 2019-06-21
PCT/US2020/038670 WO2020257605A1 (en) 2019-06-21 2020-06-19 Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos

Publications (1)

Publication Number Publication Date
KR20220064951A true KR20220064951A (ko) 2022-05-19

Family

ID=71528031

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227001801A KR20220064951A (ko) 2019-06-21 2020-06-19 인간 배아에서의 복제 수 변이의 확인을 위한 단일 뉴클레오티드 변이의 밀도를 사용하는 시스템 및 방법(systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos)

Country Status (8)

Country Link
US (1) US20200399701A1 (ko)
EP (1) EP3987522A1 (ko)
JP (1) JP2022537442A (ko)
KR (1) KR20220064951A (ko)
CN (1) CN114402392A (ko)
AU (1) AU2020297585A1 (ko)
CA (1) CA3143705A1 (ko)
WO (1) WO2020257605A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114242164B (zh) * 2021-12-21 2023-03-28 苏州吉因加生物医学工程有限公司 一种全基因组复制的分析方法、装置和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2230315A1 (en) 2005-02-01 2010-09-22 AB Advanced Genetic Analysis Corporation Nucleic acid sequencing by performing successive cycles of duplex extension
US20160186262A1 (en) * 2013-01-23 2016-06-30 Reproductive Genetics And Technology Solutions, Llc Compositions and methods for genetic analysis of embryos
US20130309666A1 (en) * 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN112575075A (zh) * 2013-05-24 2021-03-30 塞昆纳姆股份有限公司 遗传变异的非侵入性评估方法和过程
WO2019051244A1 (en) * 2017-09-07 2019-03-14 Coopersurgical, Inc. SYSTEMS AND METHODS FOR NON-EFFRACTIVE PREIMPLANTATORY GENETIC DIAGNOSIS
SG11202103375SA (en) 2018-10-05 2021-04-29 Coopergenomics Inc Systems and methods for identifying chromosomal abnormalities in an embryo

Also Published As

Publication number Publication date
EP3987522A1 (en) 2022-04-27
JP2022537442A (ja) 2022-08-25
CN114402392A (zh) 2022-04-26
US20200399701A1 (en) 2020-12-24
CA3143705A1 (en) 2020-12-24
AU2020297585A1 (en) 2022-01-20
WO2020257605A1 (en) 2020-12-24

Similar Documents

Publication Publication Date Title
US20200111573A1 (en) Systems and methods for autonomous machine interpretation of high throughput biological assays for embryo selection
US20210062256A1 (en) Systems and methods for non-invasive preimplantation genetic diagnosis
JP7333838B2 (ja) 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法
US20200399701A1 (en) Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos
US20230136342A1 (en) Systems and methods for detecting cell-associated barcodes from single-cell partitions
JP7446343B2 (ja) ゲノム倍数性を判定するためのシステム、コンピュータプログラム及び方法
CA3143723C (en) Systems and methods for determining pattern of inheritance in embryos