KR20200060410A - 비침습적 착상전 유전자 진단을 위한 방법과 시스템 (systems and methods for non-invasive preimplantation genetic diagnosis) - Google Patents

비침습적 착상전 유전자 진단을 위한 방법과 시스템 (systems and methods for non-invasive preimplantation genetic diagnosis) Download PDF

Info

Publication number
KR20200060410A
KR20200060410A KR1020207009919A KR20207009919A KR20200060410A KR 20200060410 A KR20200060410 A KR 20200060410A KR 1020207009919 A KR1020207009919 A KR 1020207009919A KR 20207009919 A KR20207009919 A KR 20207009919A KR 20200060410 A KR20200060410 A KR 20200060410A
Authority
KR
South Korea
Prior art keywords
genomic
embryo
genome
identifying
features
Prior art date
Application number
KR1020207009919A
Other languages
English (en)
Inventor
산티아고 문네-블랑코
드루티 아쇼크브하이 바바리야
아룬 프라사드 마노하란
다간 웰스
Original Assignee
쿠퍼제노믹스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 쿠퍼제노믹스, 인크. filed Critical 쿠퍼제노믹스, 인크.
Publication of KR20200060410A publication Critical patent/KR20200060410A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/501Ligase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

배아 후보에서 게놈 특징들을 식별하기 위한 시스템이 개시된다. 시스템은 게놈 시퀀서, 컴퓨팅 장치 및 디스플레이를 포함한다.
게놈 시퀀서는 배아 후보로부터 유래된 접합된 게놈 절편들로부터 시퀀스 정보를 획득하도록 구성된다. 접합된 게놈 절편들은 배아 후보로부터의 적어도 하나의 게놈 절편과 적어도 하나의 게놈 링커 세그먼트를 포함한다.
컴퓨팅 장치는 게놈 시퀀서에 통신 가능하게 연결되고 시퀀스 정렬 엔진 및 게놈 특징 식별 엔진을 포함한다. 시퀀스 정렬 엔진은 접합된 게놈 절편의 게놈 링커 세그먼트 부분에 관련된 시퀀스 정보를 빼도록 그리고 게놈 절편 시퀀스들을 참조 게놈에 대해 정렬하도록 구성된다. 게놈 특징 식별 엔진은 정렬된 게놈 절편 시퀀스들에서 게놈 특징들을 식별하도록 구성된다. 디스플레이는 컴퓨팅 장치에 통신가능하도록 연결되고 그리고 식별된 게놈 특징들을 포함하는 리포트를 디스플레이하도록 구성된다.

Description

비침습적 착상전 유전자 진단을 위한 방법과 시스템(SYSTEMS AND METHODS FOR NON-INVASIVE PREIMPLANTATION GENETIC DIAGNOSIS)
여기에 개시된 실시예들은 시험관 아기(in vitro fertilization) 프로시저에서의 착상 전의 배아의 진단 및/또는 비침습적 유전적 스크리닝(screening)을 위한 방법과 시스템에 대한 것이다. 더 구체적으로, 가장 높은 자궁 착상 성공 확률을 가지고 가장 낮은 유전적 비정상/결함의 위험을 가지는 배아의 선택에 있어 임상의(clinician)들을 도울 수 있는 진단 방법과 시스템 및/또는 비침습적 착상전 스크리닝에 대한 수요가 존재한다.
시험관 아기(In vitro fertilization, IVF)는 대리모 행위를 돕는 수단으로써 그리고 임신에 어려움을 겪는 커플들과 고령 임신(advanced maternal age) 여성에게 점점 더 대중적인 보조적 생식 기술(reproductive technology)이다. 임신의 과정은 난자를 추출하는 것, 정자 샘플을 획득하는 것 그리고 실험실 환경에서 난자와 정자를 수동으로 결합하는 것을 포함한다.
시험관 아기 프로시저들은 비싸고 환자에게 상당한 감정적/육체적 비용을 가할 수 있다. 따라서 착상 전 배아들의 유전적 스크리닝은 시험관 아기 프로시저를 겪고 있는 환자들에게 점점 더 일반화되고 있다. 트랜스퍼의 가능성(즉, 배아 착상 가능성)에 대한 스크리닝과 배아들에서의 유전적 비정상성을 진단하는 현재의 방법들은 배아 질에 영향을 줄 수 있고, 시간이 소요되며 굉장히 비쌀 수 있는 전문적인 실험실 기법들을 요구하는 배아의 조직 검사(biopsy)를 요구한다.
그와 같이, 배아 조직검사의 필요를 피하고 그럼으로써 실질적으로 기착상된 배아의 안전성을 높이는, 배아들을 유전적으로 스크리닝하기 위한 비침습적 유전적 스크리닝 및/또는 진단 (NI PGS) 시스템들 및 방법들에 대한 수요가 존재한다.
일 양상에서, 시험관 아기 착상을 위한 배아 후보의 유전자 복제 수 변이(copy number variations)을 결정하기 위한 방법이 개시된다. 배아 후보는 복수의 배아들로부터 격리된다. 배아 후보는 실질적으로 DNA-프리(free of DNA) 배양액(media)에서 배양된다. 배아 후보로부터 탈락(shed)되거나 분비된(secreted) 게놈 절편들을 포함하는 배양액의 일부는 증폭 용기로 이동된다.복수의 게놈 링커(linker) 세그먼트와 리가아제 효소는 격리된 배아 후보로부터 적어도 하나의 게놈 링커 세그먼트와 적어도 하나의 게놈 절편을 포함하는 접합된 게놈 절편의 형성을 촉매 작용하는 조건에서 증폭 용기에 추가된다. 접합된 게놈 절편들은 증폭 용기 내에서 증폭된다.시퀀스 정보는 증폭된 접합 게놈 절편들로부터 획득된다. 시퀀스 정보는 참조 게놈(reference genome)에 대해 정렬(매핑)된다. 유전자 복제 수 변이들은 참조 게놈에서의 염색체 위치에 정렬된 게놈 절편 시퀀스 리드의 주파수가 주파수 기준을 벗어난 경우 배아 후보에서 식별된다.
또 다른 양상에서, 배아 후보에서 게놈 특징들을 식별하기 위한 방법이 개시된다.배아 후보는 복수의 배아 후보들로부터 격리된다.배아 후보는 실질적으로 DNA-프리 배양액에서 배양된다.배아 후보로부터 탈락되거나 분비된 하나 이상의 게놈 절편들을 포함하는 배양액의 일부는 증폭 용기로 이동된다.복수의 게놈 링커 세그먼트들 및 리가아제 효소는 격리된 배아 후보로부터 적어도 하나의 게놈 절편 및 적어도 하나의 게놈 링커 세그먼트를 포함하는 접합된 게놈 절편들의 형성을 촉매 작용하는 조건에서 증폭 용기로 추가된다.접합된 게놈 절편들은 증폭 용기에서 증폭된다.시퀀스 정보는 접합된 게놈 절편들로부터 획득된다.시퀀스 정보는 참조 게놈에 대해 정렬된다. 게놈 특징들은 정렬된 게놈 절편 시퀀스들에서 식별된다.
또 다른 양상에서, 배아 후보들에서의 게놈 특징들을 식별하는 시스템이 개시된다. 시스템은 게놈 시퀀서, 컴퓨팅 장치 및 디스플레이를 포함한다.
게놈 시퀀서는 배아 후보로부터 유래된 접합된 게놈 절편들로부터 시퀀스 정보를 획득하도록 구성된다. 접합된 게놈 절편들 각각은 배아 후보로부터의 적어도 하나의 게놈 링커 세그먼트 및 적어도 하나의 게놈 절편을 포함한다.
컴퓨팅 장치는 게놈 시퀀서에 통신가능하게 연결되고 시퀀스 정렬 엔진 및 게놈 특징 식별 엔진을 포함한다. 시퀀스 정렬엔진은 접합된 게놈 절편들의 게놈 링커 세그먼트 부분에 관련된 시퀀스 정보를 빼고 참조 게놈에 게놈 절편 시퀀스들을 정렬하도록 구성된다. 게놈 특징 식별 엔진은 정렬된 게놈 절편 시퀀스들에서 게놈 특징들을 식별하도록 구성된다. 디스플레이는 컴퓨팅 장치에 통신 가능하게 연결되고 식별된 게놈 특징들을 포함하는 리포트를 디스플레이하도록 구성된다.
또 다른 양상에서, 조직 샘플에서 게놈 특징들을 식별하기 위한 방법이 개시된다. 접합된 게놈 절편 시퀀스 리드는 조직 샘플로부터의 적어도 하나의 게놈 링커 세그먼트 시퀀스와 적어도 하나의 게놈 절편 시퀀스를 포함하여 수신된다. 접합된 게놈 절편 시퀀스의 게놈 링커 세그먼트 시퀀스 부분은 빼어진다. 접합된 게놈 절편 시퀀스 리드는 참조 게놈에 정렬(매핑)된다. 게놈 절편들은 정렬된 게놈 절편 시퀀스들에서 식별된다.
또 다른 양상에서, 컴퓨터로 하여금 조직 샘플에서의 게놈 특징들을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적인 컴퓨터-판독가능 매체가 제공된다.
접합된 게놈 절편 시퀀스 리드는 조직 샘플로부터의 적어도 하나의 게놈 링커 세그먼트 시퀀스와 적어도 하나의 게놈 절편 시퀀스를 포함하여 수신된다. 접합된 게놈 절편 시퀀스 리드의 게놈 링커 세그먼트 시퀀스 부분은 빼어진다. 접합된 게놈 절편 시퀀스 리드는 참조 게놈에 정렬(매핑)된다. 게놈 특징들은 정렬된 게놈 절편 시퀀스들에서 식별된다.
여기에 개시된 원리의 및 그것의 이점에 대한 더 완전한 이해를 위해, 첨부된 도면과 함께 이하의 설명에 대해 이루어진다.
도 1은 본 개시의 몇몇 실시예에 따른 배아의 비침습적 착상전 유전적 스크리닝에 대한 작업 흐름을 도시한다.
도 2는 본 개시의 몇몇 실시예들에 따른 게놈 절편을 증폭시키기 위한 증폭 프로토콜을 도시하는 예시적인 순서도이다.
도 3은 본 개시의 몇몇 실시예에 따른 접합된 절편들의 형성을 도시한다.
도 4는 다양한 실시예에 따른 컴퓨터 시스템을 도시하는 블록도이다.
도 5는 다양한 실시예에 따른 배아의 비침습적 착상전 유전적 스크리닝을 위한 시스템의 개념도이다.
도 6은 다양한 실시예에 따라 어떻게 접합된 절편 리드가 참조 게놈에 매핑되는지의 도시이다.
도 7은 다양한 실시예에 따라 게놈 특징들의 다양한 유형을 식별하기 위해 게놈 절편 리드를 정렬하는 방법을 보여주는 예시적인 순서도이다.
도 8은 다양한 실시예에 따라, 배아 후보에서 유전자 복제 수 변이를 결정하기 위한 방법을 도시하는 순서도이다.
도 9는 다양한 실시예에 따라, 배아 후보에서 게놈 특징을 식별하는 방법을 도시하는 순서도이다.
도 10은 다양한 실시예에 따라 접합된 게놈 절편 리드로부터 게놈 특징을 식별하기 위한 방법을 도시하는 순서도이다.
도면들이 일정한 비율로 그려지지 않았다는 점 및 도면 내의 오브젝트들이 다른 오브젝트들과의 관계에서 반드시 비례적으로 그려지지 않았다는 점을 이해할 것이다.
도면들은 여기에 개시된 장치들, 시스템들, 및 방법들의 다양한 실시예에 대한 이해와 명확성을 돕기 위한 의도의 도시이다. 가능한 한, 동일한 참조번호는 동일 또는 유사한 부분들을 언급하기 위해 도면 전체에서 사용될 것이다. 또한, 도면들은 어떤 방식으로든 본 개시의 교시의 범위를 제한하지 않는 의도로써 고려되어야 할 것이다.
본 명세서는 본 개시의 예시적인 실시예들과 응용들을 설명한다. 그러나 본 개시는 이러한 예시적인 실시예들 및 응용들에 한정되지 않고, 예시적인 실시예들 및 응용들의 여기에 개시된 방식 또는 작동하는 방식에 한정되지 않는다. 또한, 도면들은 단순화된 또는 부분적인 도면들을 도시할 수 있고, 도면 내에서 요소들의 치수는 과장되어 있을 수 있거나 비례적이지 않을 수 있다. 또, "위에", "부착되어", "연결되어", "짝지어" 또는 유사한 단어들이 여기에 사용된 경우, 하나의 요소(예를 들어, 소재, 층, 기질 등)가 직접적으로 다른 요소 "상에 있거나", "부착되거나", "연결되거나 또는 "짝지어지는지" 또는 하나의 요소와 다른 요소 사이에 하나 이상의 사이 요소들이 있는지 여부와 무관하게 다른 요소의 "위에", "부착되어", "연결되어" 또는 "짝지어"질 수 있다. 또한, 요소들에 대한 참조 목록(예를 들어, 요소들 a, b, c)이 생성되면, 그러한 참조는 그 자체로 열거된 요소들 중 어느 하나, 열거된 요소 전체가 아닌 열거된 요소들의 조합들, 및/또는 열거된 요소들 전체의 조합을 포함하는 것으로 의도된다. 명세서 내에서의 구획 나눔은 리뷰의 편의를 위해서이며, 논의된 요소들의 어떤 조합을 제한하는 것은 아니다.
달리 정의되지 않는 한, 여기에 개시된 본 교시와 관련되어 사용된 과학적 및 기술적 용어들은 통상의 기술자에 의해 상식적으로 이해되는 의미를 가질 수 있다. 나아가, 문맥 상 달리 요구되지 않는 한, 단수 용어는 복수를 포함할 수 있고 복수 용어는 단수를 포함할 수 있다. 일반적으로, 여기에 설명된 세포 및 조직 배양, 분자 생물학 및 단백질 및 올리고(oligo-) 또는 폴리뉴클레오티드 화학 및 교배와 관련되어 사용된 명명법 및 기법들은 당 기술분야에서 널리 알려지고 일반적으로 사용되는 것들이다. 표준적인 기법들은 예를 들면, 핵산 정제 및 제조, 화학적 분석, 재조합 핵산 및 올리고핵산염 합성을 위해 사용된다. 효소적 반응 및 정제 기법들은 여기에 설명된 바 또는 당 기술분야에서 일반적으로 성취된 바에 따라, 또는 제조사의 사양에 따라 수행된다. 여기에 설명된 기법들 및 프로시저들은 일반적으로 당 기술분야에서 잘 알려진 통상적인 방법들에 따라 또는 본 명세서를 통해 인용 및 논의된 다양한 일반적이고 더 구체적인 참조들에서 설명된 바에 따라 수행된다. 예를 들어, Sambrook et al., Molecular Cloning: A Laboratory Manual (Third ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 2000)을 참고하라. 본 개시에서 설명된 것과 관련하여 사용된 명명법들 및 실험실 프로시저들 및 기법들은 당 기술분야에서 널리 알려지고 일반적으로 사용되는 것들이다.
NGS(Next Generation Sequencing)는 전통적인 생어(Sanger-) 및 모세관 전기 영동법(capillary electrophoresis)에 기초한 접근들과 비교하여 증가된 쓰루풋(throughput)(예를 들면 단위 시간에 매우 많은 수(hundreds of thoudsands))의 상대적으로 작은 시퀀스 리드들을 생성해내는 능력)을 가지는 시퀀싱 기법을 말한다. NGS 기법의 몇몇 예시들은 합성에 의한 시퀀싱, 리게이션(ligation)에 의한 시퀀싱 및 교배에 의한 시퀀싱을 포함하며, 이에 한정되지 않는다. 더 구체적으로, Illumina and the Personal Genome Machine (PGM)의 MISEQ, HISEQ 및 NEXTSEQ 시스템 및 Life Technologies Corp.의 SOLiD 시퀀싱 시스템은 전체 또는 타겟 게놈의 병렬 시퀀싱을 대량으로 제공한다. SOLiD 시스템 및 연관된 작업흐름, 프로토콜, 화합물(chemistries) 등은, 그 각각 그 전체가 참조로서 본 개시에 통합되는 출원들인 PCT 공개특허공보 WO2006/084132호("비드(bead) 기반 시퀀싱을 위한 시약(reagents)들, 방법들 및 라이브러리들", 국제출원일 2006.2. 1), 미국 특허출원번호 제12/873,190호("저볼륨 시퀀싱 시스템 및 그 사용방법", 출원일 2010.08.31), 및 미국 특허출원번호 제 12/873,132호("고속 인덱싱 필터 휠 및 사용 방법", 출원일 2010.08.31)에서 더 자세히 설명된다."시퀀싱 런"이라는 용어는 적어도 하나의 생체 분자(예를 들면, 핵산 분자)와 관련된 정보를 결정하기 위해 수행되는 시퀀싱 실험의 어떤 단계나 부분을 말한다.
여기에서 사용된 바와 같이, '게놈 특징"이라는 용어는 변이, 재조합/교차(crossover) 또는 유전적 부동(genetic drift)으로 인한 특정 종 내에서의 특정 종 또는 계군(sub-populations)에 대해 참조된 변화를 겪은 유전자들(DNA 또는 RNA에서)의 단일 또는 그룹을 나타내는 특정한 어노테이션된(annotated) 기능(예를 들면, 유전자, 단백질 코딩 시퀀스, mRNA, tRNA, rRNA, 반복 시퀀스, 역반복(inverted repeat), miRNA, siRNA 등) 또는 유전적/게놈 변형(예를 들면, 단일염기다형성/변형, 삽입/결실 시퀀스, 유전자 복제 수 변이, 역위 등)이 있는 게놈 영역을 말한다.
게놈 변형은 어레이 기반 방법들(예를 들면, DNA 마이크로어레이 등), 실시간/디지털/양적 PCR 기기 방법들 및 전체 또는 타겟 핵산 시퀀싱 시스템들(예를 들면, NGS 시스템들, 모세관 전기 영동법 시스템들 등)을 포함하는 다양한 기법들을 사용하여 식별될 수 있다. 다만 게놈 변형을 식별하기 위한 방법은 상술한 예시들에 한정되지 아니한다. 핵산 시퀀싱에 의하여, 커버리지 데이터는 단일 염기 해상도(single base resolution)에서 이용가능할 수 있다.
DNA(디옥시리보스 핵산)는 4 종류의 뉴클레오티드들; A(아데닌), T(티민), C(시토신), G(구아닌)으로 구성딘 뉴클레오티드의 체인이고 RNA(리보핵산)는 4 종류의 뉴클레오티드들; A, U(우라실), G 및 C로 이루어진다.즉, 아데닌은 티민(RNA의 경우, 아데닌은 우라실과)과 짝이 지어지고, 시토신은 구아닌과 짝이 지어진다.제 1 핵산 가닥이 제 1 스트랜드에서의 뉴클레오티드들과 상보적인 뉴클레오티드들로 구성된 제 2 핵산 가닥에 결합한 경우, 두 가닥들은 이중 가닥을 형성하도록 결합한다.여기서 사용된, "핵산 시퀀싱 데이터", "핵산 시퀀싱 정보", "핵산 시퀀스", "게놈 시퀀스", "유전적 시퀀스" 또는 "절편 시퀀스" 또는 "핵삼 시퀀싱 리드"는 DNA 또는 RNA의 분자(예를 들면, 게놈 전체, 전사체 전체, 엑솜, 올리고핵산염, 폴리뉴클레오티드, 절편 등)에서의 뉴클레오티드 염기들(예를 들면, 아데닌, 구아닌, 시토신, 및 티민/우라실)의 순서를 지시하는 데이터 또는 정보를 나타낸다.본 교시는 모세관 전기 영동법, 마이크로어레이, 리게이션 기반 시스템들, 중합효소 기반 시스템들, 교배 기반 시스템들, 직간접적 뉴클레오티드 식별 시스템들, 파이로시퀀싱(pyrosequencing), 이온 또는 pH-기반 검출 시스템들, 전자 서명 기반 시스템 등을 포함하는 모든 가능한 다양한 기법들, 플랫폼들 또는 기술들을 사용하여 획득된 시퀀스 정보를 고려한다는 것이 이해되어야 한다. 상술한 기법들의 예시는 비제한적이다.
"폴리뉴클레오티드", "핵산" 또는 "올리고핵산염"은 뉴클레오시드 간(internucleosidic) 접합들에 의해 결합된 뉴클레오 시드들(디옥시리보뉴클레오시드, 리보뉴클레오시드 또는 그것의 아날로그(analog)들을 포함하는)의 선형 중합체이다. 전형적으로, 폴리뉴클레오티드는 적어도 세 개의 뉴클레오시드들을 포함한다. 보통 올리고핵산염의 크기는 소수의 단위체 단위(monomeric unit)들(예를 들면, 3-4)에서 수백 단위체 단위의 범위이다. 올리고 핵산염과 같은 폴리뉴클레오티드가 "ATGCCTG"와 같은 문자들의 시퀀스에 의해 표현될 때, 달리 명시되지 않는 한 뉴클레오티드들이 좌에서 우로 5'->3' 순서로 있고, 그리고 "A"는 디옥시아데노신, "C"는 디옥시시티딘, "G"는 디옥시구아노신, "T는 티미딘이라고 이해될 것이다. 당 기술분야에서의 표준에서와 같이, A, C, G 및 T는 염기들 그 자체, 뉴클레오시드, 또는 염기들을 포함하는 뉴클레오티드들을 말하는 데 사용될 것이다.
"절편 라이브러리"라는 어구는 핵산 절편의 모음을 말하고, 하나 이상의 절편들은 시퀀싱 템플릿(template)으로서 사용된다. 절편 라이브러리는 예를 들면 큰 핵산을 작은 절편들로 자르거나 전단함으로써 생성될 수 있다. 절편 라이브러리들은 포유류 또는 박테리아 핵산들과 같이 자연적으로 발생하는 핵산들로부터 생성될 수 있다. 유사한 크기의 합성 핵산 시퀀스들을 포함하는 라이브러리들은 합성 절편 라이브러리를 만들기 위해 생성될 수 있다.
다양한 실시예들에서, 시퀀스 정렬 방법은 절편 시퀀스를 참조 시퀀스 또는 다른 절편 시퀀스에 정렬할 수 있다.절편 시퀀스는 절편 라이브러리, 쌍형성된 말단(paired-end) 라이브러리, 메이트-페어(mate-pair) 라이브러리, 접합된 절편 라이브러리, 또는 예를 들면 RNA, DNA 및 단백질 기반의 시퀀스 정보를 포함하는 핵산 시퀀스 정보에 의하여 반영되거나 표현될 수 있는 다른 형태의 라이브러리로부터 획득될 수 있다.일반적으로, 절편 시퀀스의 길이는 실질적으로 참조 시퀀스의 길이보다 짧을 수 있다.절편 시퀀스 및 참조 시퀀스는 심볼의 시퀀스를 각각 포함할 수 있다.절편 시퀀스와 참조 시퀀스의 정렬은 절편 시퀀스의 심볼들과 참조 시퀀스의 심볼들 사이의 제한된 수의 불일치(mistmatch)를 포함할 수 있다. 일반적으로, 절편 시퀀스는 절편 시퀀스와 참조 시퀀스 사이의 불일치의 수를 최소화하기 위해 참조 시퀀스의 부분에 정렬될 수 있다.
특정 실시예에서, 절편 시퀀스와 참조 시퀀스의 심볼들은 생체 분자의 구성을 표현할 수 있다. 예를 들어, 심볼들은 단백질에서의 아미노산들의 아이덴티티(identity), 또는 RNA 또는 DNA와 같은 핵산에서의 뉴클레오티드들의 아이덴티티에 대응할 수 있다.몇몇 실시예들에서, 심볼들은 생체분자들의 이러한 서브컴포넌트(subcomponent)들에 직접적인 상관관계를 가질 수 있다.예를 들어, 각각의 심볼은 폴리뉴클레오티드의 단일 염기를 표현할 수 있다.다른 실시예들에서, 각각의 심볼은 폴리뉴클레오티드의 두 인접한 염기들과 같이 생체 분자들의 둘 이상의 인접한 서브컴포넌트들을 표현할 수 있다. 또한, 심볼들은 인접한 서브컴포넌트들의 세트들 또는 인접한 서브컴포넌트들의 구별되는 세트들의 중첩하는 세트들을 표현할 수 있다. 예를 들어, 각각의 심볼이 폴리뉴클레오티드의 두 인접한 염기들을 표현하는 경우, 구별되는 세트들을 표현하는 두 인접한 심볼들이 네 염기들의 시퀀스를 표현하는 반면, 중첩하는 세트들을 표현하는 두 인접한 심볼들은 폴리뉴클레오티드 시퀀스의 세 염기들에 대응할 수 있다. 또한, 심볼들은 뉴클레오티드들과 같은 서브컴포넌트들에 직접적으로 대응하거나, 이들이 서브컴포넌트들의 컬러 콜(color call) 또는 다른 간접적인 측정량(measure)에 대응할 수 있다. 예를 들어, 심볼들은 특정한 뉴클레오티드 흐름에 대한 포함 또는 불포함에 대응할 수 있다.
다양한 실시예들에서, 컴퓨터 프로그램은 절편 시퀀스의 인접한 부분을 선택하는 인스트럭션들을 포함할 수 있다; 상기 인스트럭션들은 참조 시퀀스에 인접한 부분의 적어도 하나의 일치를 생성하는 근사 문자열 매칭 방법(approximate string matching method)를 사용하여 절편 시퀀스의 인접한 부분을 매핑하기 위한 것이다.
다양한 실시예들에서, 핵산 시퀀스 분석을 위한 시스템은 데이터 분석 유닛을 포함할 수 있다. 데이터 분석 유닛은 시퀀싱 기구로부터 절편 시퀀스를 획득하도록, 참조 시퀀스를 획득하도록, 절편 시퀀스의 인접한 부분을 선택하도록, 그리고 참조 시퀀스에 인접한 부분의 적어도 하나의 일치를 생성하는 근사 문자열 매칭 방법을 사용하여 절편 시퀀스의 인접한 부분을 매핑하도록 구성될 수 있다.
여기서 사용되는 바와 같이, "실질적으로"는 의도된 목적을 위해 작동하기에 충분하다는 것을 의미한다. 실질적으로"라는 용어는 그러므로 전체적인 퍼포먼스에 눈에 띄는 영향을 주지 않으면서 해당 분야의 통상의 기술자에 대해 예상될 수 있는 절대적이고 완벽한 상태, 수치, 측정량, 결과 등으로부터의 작고 크게 중요하지 않은 변형들을 허용한다. 수치 값으로 표현될 수 있는 수치 값들, 파라미터들 또는 특성들에 대해 사용되었을 때, "실질적으로"는 10% 내를 의미할 수 있다.
"들"이라는 용어는 하나 이상을 의미한다.
본 개시에 사용된 "복수"라는 용어는 2, 3, 4, 5, 6, 7, 8, 9, 10 또는 그 이상일 수 있다.
본 개시에 사용된 "세포"라는 용어는 "생물학적 세포"라는 용어와 교환가능하게 사용된다.생물학적 세포들의 비-제한적 예시들은 진핵 세포(eukaryotic cells), 식물 세포, 포유류 세포, 파충류 세포, 조류 세포, 어류 세포와 같은 동물 세포, 원핵 세포, 박테리아 세포, 진균 세포, 원생동물 세포 등, 근육, 연골, 지방, 피부, 간, 폐, 신경 조직 등과 같은 조직으로부터 분리된 세포, T 세포, B 세포, 자연 살해 세포(natural killer cell), 매크로파지 등과 같은 면역 세포들, 배아들(예를 들면, 접합자(zygote)들), 난모세포(oocyte)들, 난자(ova), 정자 세포, 혼성세포(hybridoma), 배양된 세포, 세포주(cell line)으로부터의 세포, 암 세포, 감염된 세포, 형질전환(transfected) 및/또는 변형된 세포, 리포터 세포 등을 포함할 수 있다. 포유류 세포는 예를 들어, 사람, 쥐(mouse, rat), 말, 염소, 양, 소, 영장목(primate) 등일 수 있다.
도 1은 본 개시의 몇몇 실시예에 따른 배아들의 비침습적 착상전 유전적 스크리닝의 작업흐름(100)을 도시한다. 여기에 도시된 바와 같이, 시험관 아기 착상을 위한 배아 후보(104)는 배아들의 풀로부터 격리될 수 있고, 유전적 스크리닝 분석을 방해할 수 있는 DNA(106) 또는 다른 실질적으로 폴리뉴클레오티드-프리인 배양액을 포함하는 샘플 홀더에 일정 기간 동안 배양될 수 있다. 샘플 홀더의 몇몇 예시들은 테스트 튜브, 페트리 접시 또는 멀티-파티션/웰 플레이트(well plate) 내의 웰/파티션을 포함할 수 있지만, 샘플 홀더는 이에 한정되지 않는다.다양한 실시예들에서, 배아 후보(104)는 "신선한" 배양액(106)이 지속적인 배양액 공급 라인을 사용하여 주입되고 "오래된" 배양액(106)이 샘플 홀더로부터 지속적으로 제거됨(그리고 샘플되는)에 의하여 샘플 홀더 내에서의 배양액의 일정한 부피를 유지하는 지속적인 배양 시스템에서 또한 배양될 수 있다.
배양 중에, 게놈 절편들은 둘러싸는 DNA-프리 배양액으로 배아에 의하여 일정하게 분비 및/또는 배아로부터 탈락된다. 이 작업 흐름에서 사용될 수 있는 DNA-프리 배양액의 예시는 The Cooper Companies의 BLAST? 배양액이다. 몇몇 실시예들에서, 배아는 최소 대략 18시간 동안 배양액에서 배양될 수 있다. 또 다른 실시예들에서, 배아는 대략 18시간과 대략 144시간 사이에 배양액에서 배양될 수 있다. 배아들이 작업흐름(100)을 사용하여 유전적 스크리닝 분석이 수행되는 것을 허용하기 위해 충분한 양의 게놈 절편들이 배아에서 탈락 및/또는 배아로부터 분비되기에 필요한만큼의 긴 시간 간격 동안에 DNA-프리 배양액에서 배양될 수 있다는 것이 이해되어야 한다. 몇몇 실시예들에서, 배아들은 그것이DNA 프리 배양액에서 격리되고 배양될 때 배반포 단계에 있다. 다른 실시예들에서, 배아는 그것이 DNA 프리 배양액에서 격리되고 배양될 때 다세포 전배반포 단계에 있다.
배아가 DNA 프리 배양액으로 게놈 절편들의 기준 양을 분비 또는 탈락시키는 것을 허용하기 위해 요구되는 기간 동안에 배양된 후, 배양액의 일부는 이후의 게놈 시퀀스 분석을 위해 절편들이 짧은 게놈 절편들을 증폭시키기 위해 조정된 증폭 프로토콜(108)을 거치는 별도의 증폭 용기로 이동된다.몇몇 실시예들에서, 증폭 프로토콜(108)은 전유전체 증폭(WGA, Whole Genome Amplification) 기법에 기반한 다중 이동 증폭(MDA, Multiple Displacement Amplification)을 사용한다.다중이동증폭은 소량의 DNA의 증폭에 있어서 효율적인 것으로 보여진 비-PCR DNA 증폭 기법이다.다중이동증폭은 임의의 프라이머들로 타겟 DNA를 프라이밍(priming)하는 것 및 주어진 샘플에서 전체 DNA를 실질적으로 증폭시키기 위해 가닥-이동 φ29 중합체(또는 그와 동등한 것)을 이용하는 것에 의존한다.PCR-기반의 전유전체증폭 방법과 비교하면, 다중이동증폭은 강도 순서에 따른 증폭의 편향을 감소시키고, 더 긴 게놈 절편들을 생성하고 더 나은 게놈 커버리지를 보여준다.다른 실시예들에서, 증폭 프로토콜(108)은 다중 어닐링(annealing) 및 루핑(looping)-기반 증폭 사이클(MALBAC) 기반 전유전체 분석 기법을 사용한다.MALBAC 증폭 기법은 DNA가 지수적으로 복제되는 것을 방지하면서, 앰플리콘이 상보적인 단부들을 가지고 그럼으로써 루프하는 것을 허용하는 특별한 프라이머들을 사용한다.이는 오리지널 게놈 DNA만의 증폭으로 이어진다. 이러한 통제된 증폭은 결과적으로 증폭 편향을 감소시킬 수 있고, 연장에 의하여 인공물(artifact)들의 생성을 감소시키고 격리된 배아 후보에서의 위양성 또는 위음성 변이 콜의 발생을 감소시킬 수 있다.
그러나, 어떤 타입의 전유전체증폭 기법도, 그 기법이 작업흐름(100)을 사용하여 수행될 유전적 스크리닝 분석을 위하여 시퀀싱될 게놈 절편의 충분한 질 및/또는 양을 생성해낼 수 있는 한 증폭 프로토콜(108)에서 사용될 수 있다.
게놈 절편들이 (격리된 배아(104)로부터) 충분한 양으로 증폭된 후, 그들은 NGS 또는 동등한 게놈 시퀀싱 시스템을 사용하여 시퀀싱(110)된다.시퀀싱 작업 흐름은 수백, 수천 또는 수백만의 핵산 시퀀스 리드(즉, 시퀀스 리드)를 제공하기 위해 핵산 시퀀서 상에서 시퀀싱(110)된 절편들로부터 시작할 수 있다.게놈 절편 시퀀스 정보는 게놈 절편 시퀀스들이 참조 게놈들에 대해 정렬(매핑)(114)되고 하나 이상의 2차 분석 도구들/파이프라인들이 배아(104)의 게놈에 존재하는 하나 이상의 게놈 특징들(116)을 식별하는 것을 돕는 데 사용되는 게놈 데이터 분석 파이프라인(112)을 사용하여 처리될 수 있다몇몇 실시예들에서, 게놈 특징들(116)은 삽입/결실(INDEL), 유전자 복제 수 변이(CNV, Copy Number Variations), 단일염기다형성(SNP, Single Nucleotide Polymorphisms), 중복(duplications), 역위(inversion), 전치(translocation) 등과 같은 유전자 변형일 수 있다.다른 실시예들에서, 게놈 특징들(116)은 유전자, 단백질 코딩 시퀀스, mRNA, tRNA, rRNA, 반복 시퀀스, 역반복, miRNA, siRNA, 등과 같은 어떤 어노테이션(annotation)된 기능을 갖는 게놈 영역일 수 있다.또 다른 실시예들에서, 게놈 특징들(116)은 유전자 표현 및 활동에 영향을 줄 수 있는 게놈 상의 후성유전학적(epigenetic) 변화(예를 들면, 메틸화, 아세틸화, 유비키틴화, 인산화(phosphorylation), 수모화(sumoylation), 리보실화(ribosylation), 시트룰린화(citrullination) 등)일 수 있다.
몇몇 실시예들에서, 참조 게놈은 인간 게놈일 수 있다. 다른 실시예들에서, 참조 게놈은 배아가 유래한 동물 종의 게놈일 수 있다. 그러나, 참조 게놈이 특정한 동물 종과는 무관하고 특정한 분석/응용을 위해 생성된 인공 생성 게놈일 수 있다는 것이 고려되어야 한다.
게놈 특징들(116)이 식별된 후, 분석 파이프라인(112)은 격리된 배아(104)가 가지고 있거나 위험이 있는 물려받은 또는 물려받지 않은 유전적 조건들과 관련한 정보를 제공하는 유전적 진단 리포트(118)를 생성할 수 있다.
다양한 실시예들에서, "공백" 또는 대조 샘플(control sample)은 전체 작업흐름(100)을 통해 배아 후보(104)와 나란히 진행한다. 즉, (배아(104)를 배양하는데 사용되지 않은) DNA 프리 배양액의 일부는 작업흐름(100)의 모든 단계들 및 프로세스들을 거친다는 것이다. 공백 샘플을 분석함으로써 얻어진 결과는 배아의 게놈에서 식별된 게놈 특징들이 시퀀싱 동안의 증폭 및/또는 시스템적 오류들의 인공적 산물이 아니라는 것을 확실케하는 대조의 역할을 할 수 있다.
도 2는 본 개시의 몇몇 실시예에 따른, 게놈 절편을 증폭시키기 위한 증폭 프로토콜(200)을 도시하는 예시적인 순서도이다.
여기에 도시된, (배아를 배양하는 배양액의 부분에서) 게놈 절편들(202)은 접합된 절편들(208)의 형성을 촉매 작용하는 조건에서 효소들(204) 및 게놈 링커 세그먼트들(206)과 결합된다. 리게이션 반응은 16-18시간 동안(오버나이트 배양) 상온에서(교반 없이) 수행될 수 있다. 리게이션 혼합물은 약 20°C 및 약 25°C 사이의 온도 및 약 7.5의 pH에서 50mM Tris HCl, 10mM MgCl2, 1mM ATP 및 10mM DTT으로 구성된다. 결과로 발생한 접합된 절편들(208)은 원래의 게놈 절편들(202)보다 길어서, 게놈 절편들이 추후 프로토콜(200)에서 증폭된 경우에 (게놈 절편들(202)을 개별적으로 증폭시킨 경우와 비교했을 때) 증폭 오류들을 감소시키는 것을 돕는다.
접합은 다중이동증폭에 의해 등온으로 DNA를 증폭시키는, φ29 효소를 사용한 증폭에 최적화된 긴 템플릿들(즉, 접합된 절편들)을 제공할 수 있다. φ29 효소는 효율적 및/또는 정확하게 짧은 절편들(즉, 약 30염기쌍 보다 짧은 앰플리콘들)을 효율적으로 증폭시킬 수 없고, 이는 검증 실험들에 의해 구현되었고, 그러므로 배양액으로 배아에 의해 분출된(extruded) DNA의 절편들의 전체를 캡쳐하기 위해 긴 접합된 절편들을 생성하는 것이 적절하다. 또한, 접합은 Sureplex System(Illumina), MALBAC 및 DOP PCR과 같은 전유전체증폭 전략들에 의한 성공적인 증폭을 위한 적절한 템플릿들을 생성하는 것을 돕는다. 이러한 증폭 오류에서의 감소는 게놈 절편에 있어 특히 의미있다. 일반적으로, 증폭 오류를 감소시키는 것은 게놈 절편이 추후 시퀀싱되고 분석된 경우에 게놈 특징들의 식별에 있어 더 높은 정확도를 도출한다. 몇몇 실시예들에서, 게놈 절편은 약 30 염기쌍(bps)에서 약 800 염기쌍 사이의 길이를 갖는 게놈 절편의 게놈 절편이다. 다른 실시예에서, 게놈 절편은 약 150bps에서 약 400bps 사이의 길이를 갖는 게놈 절편이다. 또 다른 실시예들에서, 게놈 절편들은 약 1000 bps 미만의 길이를 갖는 게놈 절편들이다.
게놈 링커 세그먼트들(206)은 본질적으로 인공적으로 생성된 알려진 길이 및 뉴클레오티드 시퀀스의 이중-가닥 "결합(conjoint)" 올리고핵산염 세그먼트들이다. 몇몇 실시예들에서, 게놈 링커 세그먼트들(206)의 길이는 약 30에서 1000 bps 사이이다. 다른 몇몇 실시예들에서, 게놈 링커 세그먼트들(206)의 길이는 약 30 bps에서 500 bps 사이이다. 또 다른 실시예들에서, 게놈 링커 세그먼트들(206)은 약 50 bps에서 약 150 bps 사이이다. 몇몇 실시예들에서, 게놈 링커 세그먼트들(206)은 동종중합체(homopolymer) 올리고핵산염 세그먼트들이다. 몇몇 실시예들에서, 게놈 링커 세그먼트들(2060은 이종중합체 올리고핵산염 세그먼트들이다. 몇몇 실시예들에서, 게놈 링커 세그먼트들(206)은 평활 말단의 이중-가닥 올리고핵산염 세그먼트들이다. 몇몇 실시예들에서, 게놈 절편들(202)은 게놈 링커 세그먼트들(206)에 리게이션되기 전에 효소적으로 단부가 평활화된다.
다양한 유형의 진핵 및 원핵 효소들(즉, 리가아제들)은 접합된 게놈 절편들(208)을 형성하기 위해 게놈 링커 세그먼트들(206)에 게놈 절편들(202)을 리게이션하기 위해 사용될 수 있다. 여기서 사용될 수 있는 리가아제들의 몇몇 예시는 T3, T4, T7 또는 리가아제 1을 포함하지만 이에 한정되지는 않는다.
접합된 절편들이 그들의 컨테이너(예를 들면, 웰(well), 피펫 튜브(pipette tube), 등)에서 형성된 후, 그것들은 MDA, MALBAC, 등과 같은 전유전자분석 기법을 사용하는 온도 순환기(또는 그와 유사한 장치)에서 증폭(210)될 수 있다. 도 3은 본 개시의 몇몇 실시예들에 따른 접합된 절편들의 생성을 도시한다. 여기에 도시된, 게놈 절편들(302)은 접합된 절편들(312)을 형성하기 위한 게놈 링커 세그먼트(308)의 삽입과 리가아제에 의한 리게이션(310) 전에 3' 또는 5' 오버행들(즉, 짝지어지지 않은 뉴클레오티드들)을 제거하거나 채우기 위해 블런팅 효소를 사용하여 단부가 평활화된다. 즉, 이용된 블런팅 효소는 오버행들을 소화(제거)하기 위한 핵산말단분해효소(exonuclease) 활동 또는 오버행 상의 유실된 상보 염기를 합성하기(채우기)위한 중합효소 활동을 보여줄 수 있다는 것이다. 사용될 수 있는 블런팅 효소의 몇몇 예시들은 DNA 중합효소 I 클레노브 절편, T4 DNA 중합효소, 및 Mung Bean 뉴클리아제를 포함할 수 있으나 이에 한정되지 않는다. 예시적인 실시예에서, ds DNA 접합 절편들을 평활화하기 위해 사용되는 블런팅 시약 혼합물은 (3´*?*' 핵산말단분해효소 활동 및 5'*?*' 중합효소 활동을 갖는) T4 중합효소 및 (이후의 리게이션 반응에 필수적인, 평활 말단DNA의 5' 단부의 인산화를 돕는) T4 폴리뉴클레오티드 키나아제를 포함한다.
게놈 절편들(302)의 5' 및 3' 단부들을 평활 말단화(306)한 후, DNA 리가아제는 게놈 링커 세그먼트들(308)에 게놈 절편들(302)을 리게이션하기 위해 주입될 수 있다. 리게이션(310) 동안에, DNA 리가아제는 리가아제-아데닐레이트 및 DNA-아데닐레이트 중간물을 포함하는 뉴클레오티딜 트랜스퍼(nucleotidyl transfer) 단계들을 통해 5' 및 3' 폴리뉴클레오티드 단부들을 밀봉한다. DNA 리가아제들은 두 카테고리로 나뉜다: ATP-의존적 DNA 리가아제들(EC 6.5.1.1) 및 NAD (+) 의존적 DNA 리가아제들(EC 6.5.1.2). ATP-의존적 DNA 리가아제들은 아주 흔한 반면, NAD(+) 의존적 DNA 리가아제들은 박테리아(및 몇몇 바이러스들) 에서만 발견된다.
ATP-의존적 DNA 리가아제들은 네 클래스들로 나뉠 수 있다: DNA 리가아제 I, II, III 및 IV. DNA 리가아제 I은 DNA의 연속적인 가닥을 형성하기 위해 오카자키 절편(Okazagi fragment)을 연결한다; DNA 리가아제 II는 DNA 리가아제 III의 대안적으로 이어진 형태이며, 비분열 세포(non-dividing cell)에서만 발견된다. DNA 리가아제 III는 염기 절제 수선(base excision repair)에 관련된다. 그리고 DNA 리가아제 IV는 비상동성 말단 봉합(NHEJ)에 의한 DNA 이중-가닥 절단의 복구에 관련된다. 모든 리가아제 중에서, 평활 말단의 이중 가닥 DNA 리게이션의 촉진을 위해 특히 적합한 두 종류의 원핵성 리가아제 및 일 유형의 진핵성 리가아제들이 있다.
몇몇 실시예들에서, T4 DNA 리가아제는 이 프로토콜을 위한 평활 말단 리게이션 프로세스에서 T4 DNA 리가아제가 사용된다. 박테리오파지 T4 DNA 리가아제는 에너지원으로서 ATP를 요구하는 약 68,000 달튼(Dalton)의 분자량(MW)의 단일 폴리펩타이드이다. 최대 활성도 pH 범위는 약 7.5에서 약 8 사이이다. 마그네슘 이온의 존재는 바람직하고 최적 농도(optimal concentration)는 약 10mM이다.T4 DNA 리가아제는 접착성 말단(sticky end) 및 평활 말단 절편에 결합하는 독특한 능력이 있다. T4 DNA 리가아제는 세 단계로 게놈 절편들(302) 및 게놈 링커 세그먼트들(308)에서 나란히 놓인(juxtaposed) 5' 및 3' 종단부 사이의 인산다이에스터(phosphodiester) 결합 형성을 촉매작용한다: 1) ATP 동반 반응에 의한 효소-아데닐릴산염 형성2) 아데닐릴산염화 DNA를 생성하기 위한 5-인산화 폴리뉴클레오티드로의 아데닐릴 이동 및 3) AMP의 유리로 인산다이에스터 결합 형성. 예시적인 실시예에서, 리게이션 반응은 약 23°C의 온도 및 약 7.5의 pH에서, 50mM Tris HCl, 10mM MgCl2, 1mM ATP 및 10mM DTT로 구성된 완충액에 1 단위의 T4 DNA 리가아제 사용하여 수행될 수 있다. T4 리가아제, 평활 단부화 DNA 및 링커 세그먼트를 포함하는 혼합물은 교반 없이, 16-18시간 동안 배양될 수 있다. 링커 세그먼트의 농도는 약 1pg에서 약 1ng 범위일 수 있다.
게놈 절편(302)이 게놈 링커 세그먼트(308)에 리게이션 되면 접합된 절편(312)을 형성한다.몇몇 실시예들에서, 접합된 절편(312)은 적어도 하나의 게놈 링커 세그먼트(308)에 연결된 적어도 하나의 게놈 절편(302)을 포함한다.다른 실시예들에서, 접합된 절편(312)은 둘 이상의 게놈 절편들(302) 및 적어도 하나의 게놈 링커 세그먼트(308)를 포함하고, 적어도 하나의 게놈 절편(302)은 게놈 링커 세그먼트(308)의 단부 각각에 리게이션된다.그러나, 접합된 절편(312)이, 조합이 시퀀싱의 목적 및 이후의 게놈 특징 분석에 적합한 한, 게놈 링커 세그먼트들(308) 및 게놈 절편들(312)의 어떠한 조합도 본질적으로 가질 수 있다는 것이 고려되어야 한다.
접합된 절편들(312)의 형성 후, 그들은 (PicoPlex, MDA, MALBAC, DOPlify 등과 같은) 전유전체분석 기법(313)을 사용하여 증폭되고 그 후에 NGS(또는 그와 동등한) 게놈 시퀀싱 시스템(316)을 사용하여 시퀀싱된다.
컴퓨터 구현 시스템
도 4는 본 교시의 실시예들이 구현되는 컴퓨터 시스템(400)을 도시하는 블록도이다. 본 교시의 다양한 실시예들에서, 컴퓨터 시스템(400)은 버스(402) 또는 정보를 통신하기 위한 다른 통신 메커니즘 및 정보를 처리하기 위한 버스(402)와 결합된 프로세서(404)를 포함할 수 있다. 다양한 실시예들에서, 컴퓨터 시스템(400)은 프로세서(404)에 의해 실행되는 명령들을 결정하기 위해 버스와 결합된, RAM(406) 또는 다른 동적 저장 장치일 수 있는 메모리를 더 포함할 수 있다. 메모리는 프로세서(404)에 의해 실행될 명령들의 실행 동안에 임시 변수들 또는 다른 중간 정보를을 저장하기 위해 사용될 수 있다. 다양한 실시예들에서, 컴퓨터 시스템(400)은 프로세서(404)를 위한 명령들 또는 정적 정보(static information)를 저장하기 위해 버스(402)에 연결된 ROM(408) 또는 다른 정적 저장 장치를 더 포함할 수 있다. 마그네틱 디스크 또는 광학 디스크와 같은 저장 장치(410)는 정보와 명령들을 저장하기 위해 버스(402)에 연결되고 제공될 수 있다.
다양한 실시예들에서, 컴퓨터 시스템(400)은 컴퓨터 사용자에게 정보를 디스플레이하기 위해 CRT, LCD와 같은 디스플레이(412)에 버스(402)를 통해 연결될 수 있다. 글자, 숫자 및 다른 키들을 포함하는 입력 장치(414)는 프로세서(404)에 명령 선택 및 정보를 통신하기 위해 버스(402)에 연결될 수 있다. 또 다른 사용자 입력 장치는, 디스플레이(412) 상에서 커서 움직임을 제어하고 프로세서(404)로 방향 정보 및 명령 선택을 통신하기 위한 마우스, 트랙볼 또는 커서 방향 키와 같은 커서 컨트롤(416)이다. 이 입력장치(414)는 일반적으로 장치가 평면에서 위치를 특정할 수 있도록 하는 제 1 축(즉, x) 및 제 2 축(즉, y)의 두 축에서의 2차원 자유도를 갖는다. 그러나, 3차원(x, y 및 z) 커서 움직임을 허용하는 입력 장치(414) 또한 여기서도 고려되었다는 것이 이해되어야 할 것이다.
본 교시의 이러한 구현에 일관되게, 결과들은 메모리(406)에 포함된 하나 이상의 명령들의 하나 이상의 시퀀스들을 실행하는 프로세서(404)에 대한 응답으로 컴퓨터 시스템9400)에 의해 제공될 수 있다. 그러한 명령들은 저장 장치(410)와 같은, 또 다른 컴퓨터-판독가능 매체 또는 컴퓨터-판독가능 저장 매체로부터 메모리로 읽어들여질 수 있다. 메모리(406)에 포함된 명령들의 시퀀스의 실행은 프로세서(404)가 여기에 개시된 프로세스들을 수행하도록 야기할 수 있다. 대안적으로 하드웨어에 내장된(hard-wired) 회로는 본 교시를 구현하기 위해 소프트웨어 명령과 함께 또는 소프트웨어 명령을 대신해 사용될 수 있다. 따라서 본 교시의 구현들은 하드웨어 회로 및 소프트웨어의 어떤 특정 조합에 제한되지 않는다.
본 개시에서 사용된 "컴퓨터-판독가능 매체"(예를 들면, 데이터 스토어, 데이터 저장소 등)이라는 용어 또는 "컴퓨터-판독가능 저장 매체"는 실행을 위해 프로세서(404)로 명령을 제공하는 데 참여하는 모든 매체를 말한다. 그러한 매체는 비휘발성 매체, 휘발성 매체 및 전송(transmission) 매체를 포함하여 다양한 형태를 취할 수 있으나 이에 한정되지는 않는다.비-휘발성 매체의 예시는 저장 장치(410)와 같은 광학, 솔리드 스테이트(solid state), 마그네틱 디스크를 포함할 수 있지만 이에 한정되지는 않는다. 휘발성 매체의 예시는 메모리(406)와 같은 동적 메모리를 포함할 수 있지만 이에 한정되지 않는다. 전송 매체의 예시는 버스(402)를 구성하는 와이어들을 포함하여, 동축 케이블(coaxial cables), 구리 와이어 및 광섬유(fiber optics)를 포함할 수 있지만 이에 한정되지 않는다.
컴퓨터-판독가능 매체의 일반적인 형태는 예를 들면 플로피 디스크, 플렉서블 디스크(flexible disk), 하드 디스크, 마그네틱 테이프 또는 다른 마그네틱 매체, CD-ROM. 다른 광학 매체, 펀치 카드, 종이 테이프, 구멍 패턴의 다른 물리적 매체, RAM, PROM 및 EPROM, FLASH-EPROM, 다른 메모리 칩 또는 카트리지 또는 다른 컴퓨터가 읽을 수 있는 매체를 포함할 수 있다.
컴퓨터 판독가능 매체에 더하여, 명령들 또는 데이터는 실행을 위해 컴퓨터 시스템(400)의 프로세서(404)로 하나 이상의 명령들의 시퀀스를 제공하기 위해 통신 장치 또는 시스템에 포함된 전송 매체 상의 신호로 제공될 수 있다. 예를 들어, 통신 장치는 명령과 데이터를 가리키는 신호들을 가지는 트랜스시버를 포함할 수 있다. 명령들과 데이터는 하나 이상의 프로세서들이 본 개시에서 드러난 기능들을 구현하도록 한다. 데이터 통신 전송 연결의 대표적인 예씨들은 전화 모뎀 연결, WAN, LAN, 적외선 데이터 연결, NFC 연결 등을 포함할 수 있으나 이에 한정되지는 않는다.
여기서 설명된 방법들, 순서도들, 다이어그램들 및 첨부된 개시들은 컴퓨터(400)를 스탠드 얼론(stand-alone) 장치로 사용하거나 클라우드 컴퓨팅 네트워크와 같이 공유 컴퓨터 프로세싱 리소스의 분산 네트워크에서 사용하여 구현될 수 있다는 것이 이해되어야 할 것이다.
도 5는 몇몇 실시예에 따른 배아의 비침습적 착상 전 유전적 스크리닝을 위한 시스템(500)의 개념도이다. 여기에 도시된, 시스템(500)은 디스플레이/클라이언트 단말(510), 컴퓨팅 장치(504) 및 게놈 시퀀싱 시스템(502)을 포함한다.
다양한 실시예들에서, 컴퓨팅 장치(504)는 하드웨어에 내장된(hard wired) 물리적 네트워크 연결(예를 들면, 인터넷, LAN, WAN, VPN 등?) 또는 무선 네트워크 연결(예를 들면, Wi-Fi, WLAN, 등?)일 수 있는 네트워크 연결을 통해 게놈 시퀀싱 시스템(502)에 통신 가능하게 연결될 수 있다. 몇몇 실시예들에서, 컴퓨팅 장치(504)는 워크 스테이션, 메인프레임 컴퓨터, 분산된 컴퓨팅 노드("클라우드 컴퓨팅" 또는 분산된 네트워킹 시스템의 부분인"), 퍼스널 컴퓨터, 모바일 디바이스 등일 수 있다. 몇몇 실시예들에서, 게놈 시퀀싱 시스템(504)은 핵산 시퀀서(예를 들면, NGS, 모세관 전기 영동 시스템 등), 실시간/디지털/정량 PCR 기구, 마이크로어레이 스캐너 등일 수 있다. 그러나, 게놈 시퀀싱 시스템(504)이 본질적으로 게놈 절편들을 포함하는 샘플들로부터 핵산 시퀀스 데이터를 생성할 수 있는 어떤 유형의 기구도 될 수 있다는 것이 이해되어야 한다.
당 기술분야에서의 통상의 기술자는 게놈 시퀀싱 시스템(502)의 다양한 실시예들이 리게이션-기반 방법들, 합성에 의한 시퀀싱, 단일 분자 방법, 나노포어 시퀀싱 및 다른 시퀀싱 기법들을 포함하는 다양한 시퀀싱 방법들을 실시하는 데 사용될 수 있다는 것을 이해할 것이다. 리게이션 시퀀싱은 다중 리게이션이 단일 프라이머리 핵산 시퀀스 가닥(single primary nucleic acid sequence strand)에서 순차적으로 수행되는 체인지 리게이션(change ligation) 기법 또는 단일 리게이션 기법을 포함할 수 있다. 합성에 의한 시퀀싱은 염색 라벨된(dye labeled) 뉴클레오티드들, 연쇄 정지반응(chain termination), 이온/양성자 시퀀싱, 파이로인산염(pyrophosphate) 시퀀싱 등을 포함할 수 있다. 단일 분자 기법은 핵 유형의 아이덴티티가 시퀀싱 반응의 중단 또는 지연의 필요, 또는 시퀀싱 반응이 포함된 뉴클레오티드의 아이덴티티를 결정하기 위해 중단된 스태거드 시퀀스(staggered sequence) 없이 통합(incorporation) 동안에 결정되는 연속적 시퀀싱을 포함할 수 있다.
다양한 실시예들에서, 게놈 시퀀싱 시스템(502)은 폴리뉴클레오티드 또는 올리고뉴클레오티드와 같은 핵산의 시퀀스를 결정할 수 있다. 핵산은 DNA 또는 RNA를 포함할 수 있고, ssDNA 또는 RNA와 같이 단일 가닥일 수 있고, dsDNA 또는 RNA/cDNA 짝과 같이 이중가닥일 수 있다. 다양한 실시예들에서, 핵산은 절편 라이브러리, 메이트 페어(mate pair) 라이브러리, 염색질 면역침강(ChIP, chromatin immune-precipitation) 절편 등으로부터 유도되거나 이들을 포함할 수 있다. 특정 실시예들에서, 게놈 시퀀싱 도구(502)는 단일 핵산 분자 또는 실질적으로 동일한 핵산 분자들의 그룹으로부터 시퀀스 정보를 획득할 수 있다.
다양한 실시예들에서, 게놈 시퀀싱 시스템(502)은 핵산 시퀀싱 리드 데이터(게놈 시퀀스 정보)를 *.fasta, *.csfasta, *.xsq, *seq.txt, *qseq.txt, *.fastq, *.sff, *prb.txt, *.sms, *.srs, 및/또는 *.qv 를 포함하고, 이에 한정되지는 않는 다양한 출력 데이터의 형식으로 출력할 수 있다.
분석 컴퓨팅 장치(504)는 시퀀스 리드 정렬 엔진(506) 및 게놈 특징 식별 엔진(508)을 호스트하도록 구성될 수 있다.리드 정렬 엔진(506)은 게놈 시퀀스 시스템(502)에 의해 생성된 게놈 절편 시퀀스 정보를 수신하고 참조 게놈에 게놈 절편 시퀀스를 정렬(매핑)하도록 구성될 수 있다. 절편 시퀀스를 정렬하기 위해 사용될 수 있는 공개적인 이용가능한 시퀀스 정렬 소프트웨어는 BLAT, BLAST, Bowtie, BWA, drFAST LAST, MOSAIK, NEXTGENMAP 등을 포함한다. 절편 시퀀스들이 정렬되면, 게놈 특징 식별 엔진(508)은 정렬된 시퀀스에서 게놈 특징들을 식별하도록 구성될 수 있다. 즉, 게놈 특징 식별 엔진(508)은 정렬된 시퀀스들에서 게놈 특징들을 식별하기 위해 다양한 공개 데이터베이스(예를 들면, the RefGene Database (UCSC), the Alternative Splicing Database (EBI), the dbSNP database (NCBI), the Genomic Structural Variation database (NCBI), the GENCODE database (UCSC), the PolyPhen database (Harvard), the SIFT database (NCBI), the 3000 Genomes Project database, the Database of Genomic Variants database (EBI), the Biomart database (EBI), Gene Ontology database (public), the BioCyc/HumanCyc database, the KEGG pathway database, the Reactome database, the Pathway Interaction Database (NIH), the Biocarta database, PANTHER database, 등) 및 비공개 데이터베이스에 통신 가능하게 연결(예를 들어 분석 컴퓨팅 장치(504)에 대한 네트워크 연결, 분석 컴퓨팅 장치(504)에 로컬한 데이터베이스 저장소에 대한 시리얼 버스 연결, 분석 컴퓨팅 장치(504)에 연결된 주변부 저장 장치에 대한 주변 장치 연결)될 수 있다.
몇몇 실시예들에서, 게놈 특징들은 삽입/결실(INDEL), 유전자 복제 수 변이(CNV), 단일염기다형성(SNP), 복제, 역위, 전치, 등과 같은 게놈 변형들일 수 있다.다른 실시예들에서, 게놈 특징은 유전자, 단백질 코딩 시퀀스, mRNA, tRNA, rRNA, 반복 시퀀스, 역반복, miRNA, siRNA, 등과 같은 어떤 어노테이션된(annotated) 기능을 갖는 게놈 영역일 수 있다.또 다른 실시예들에서, 게놈 특징들은 유전자 표현 및 활동에 영향을 줄 수 있는 게놈에서의 후성유전학적 변화들(예를 들면, 메틸화, 아세틸화, 유비퀴틴화, 인산화, 수모화, 리보실화, 시트룰린화 등)일 수 있다.
리드 정렬 엔진(506) 및 게놈 특징 식별 엔진(508)의 기능이 하드웨어, 펌웨어, 소프트웨어 또는 그 다른 조합들로서 구현될 수 있다는 것이 고려되어야 할 것이다. 또한, 도 5에서 도시된 다양한 엔진들은 특정한 응용 또는 시스템 아키텍처의 요구사항에 따라 단일 엔진, 컴포넌트 또는 모듈로 결합되거나 붕괴(collapse)될 수 있다. 또한, 다양한 실시예들에서, 리드 정렬 엔진(506) 및 게놈 특징 식별 엔진(508)은 특정한 응용 또는 시스템 아키텍처에서 요구되는 바와 같은 추가적인 엔진들 또는 컴포넌트들을 포함할 수 있다.
게놈 특징들이 식별된 후, 결과들은 컴퓨팅 장치(504)에 통신 가능하게 결합된 클라이언트 단말(510) 또는 디스플레이 상에 디스플레이될 수 있다. 다양한 실시예들에서, 클라이언트 단말(510)은 ?은 단말 컴퓨팅 장치일 수 있다. 다양한 실시예들에서, 클라이언트 단말(510)은 시퀀스 정렬 엔진(506) 및/또는 게놈 특징 식별 엔진(508)을 제어하는 데 사용될 수 있는 웹 브라우저(예를 들어, INTERNET EXPLORER?, FIREFOX?, SAFARI? 등)을 갖는 퍼스널 컴퓨팅 장치일 수 있다. 즉, 클라이언트 단말(510)은 시퀀스 정렬 엔진(506)의 작동을 제어하는 브라우저를 사용하여 시퀀스 정렬 엔진(506)에 액세스할 수 있다. 예를 들어, 시퀀스 정렬 기준 또는 로직은 특정 응용의 요구사항에 따라 수정될 수 있다. 유사하게, 클라이언트 단말(510)은 정렬된 시퀀스들에서 게놈 특징을 식별하거나 생성된 서머리 리포트(summary report)를 수정하는 데 사용되는 데이터베이스 소스(예를 들어, the RefGene Database (UCSC), the Alternative Splicing Database (EBI), the dbSNP database (NCBI), the Genomic Structural Variation database (NCBI), the GENCODE database (UCSC), the PolyPhen database (Harvard), the SIFT database (NCBI), the 3000 Genomes Project database, the Database of Genomic Variants database (EBI), the Biomart database (EBI), Gene Ontology database (public), the BioCyc/HumanCyc database, the KEGG pathway database, the Reactome database, the Pathway Interaction Database (NIH), the Biocarta database, PANTHER database 등)을 제어하는 브라우저를 사용하여 게놈 특징 식별 엔진(508)에 액세스할 수 있다.
도 6은, 다양한 실시예에 따라 어떻게 접합된 절편 리드들이 참조 게놈에 매핑되는지의 도시이다. 이전에 논의된 대로, 접합된 절편들은 후보 배아가 (그것이 배양되었던 배양액에서) 분비하거나 탈락시킨 게놈 절편들 및 기지된 길이 및 뉴클레오티드(염기) 시퀀스의 인공적으로 생성된 이중-가닥 "결합" 올리고핵산염 세그먼트들(즉, 게놈 링커 세그먼트들) 둘 다로 구성된다. 그러므로, 도 6에 도시된 대로, 접합된 절편 리드들(602)은 인공적으로 합성된 게놈 링커 세그먼트들(604) 및 배아 시험 배양액으로부터 획득된 게놈 절편들(606) 둘 다의 시퀀스 리드들로 구성된다.
접합된 절편 리드들(602)은 BLAT, BLAST, BWA, Bowtie, drFAST LAST, MOSAIK, NEXTGENMAP 등을 포함하는(이에 한정되지는 않는) 하나 이상의 공개적으로 이용가능한 시퀀스 정렬 도구들을 사용하여 참조 게놈(610)에 정렬(매핑)된다. 몇몇 실시예들에서, 시퀀스 정렬 도구들의 파라미터들은 짧은 절편 시퀀스 리드 정렬을 수용하기 위해 조정된다. 몇몇 실시예들에서, 짧은 게놈 절편 리드들은 약 30 염기쌍(bps)과 약 800 bps 사이의 길이를 갖는다. 다른 실시예들에서, 짧은 게놈 절편 리드들은 약 150bps에서 약 400bps 사이의 길이를 갖는다. 또 다른 실시예들에서, 짧은 게놈 절편 리드들은 약 1000bps 미만의 길이를 갖는다.
다른 실시예들에서, 게놈 링커 세그먼트 시퀀스 리드들은 약 30에서 1000bps사이의 길이이다. 다른 실시예들에서, 게놈 링커 세그먼트 시퀀스 리드들은 약 30bps에서 약 500bps 사이의 길이이다. 또 다른 실시예들에서, 게놈 링커 세그먼트 시퀀스 리드들은 약 50bps에서 약 150bps 사이이다. 몇몇 실시예들에서, 게놈 링커 세그먼트 시퀀스 리드들은 동종중합체 시퀀스이다. 다른 실시예들에서, 게놈 링커 세그먼트 시퀀스 리드는 이종중합체 올리고핵산염 시퀀스이다.
몇몇 실시예들에서, 게놈 링커 세그먼트 시퀀스 리드가 자연적으로 발생하지 않기 때문에, 그들은 접합된 절편 리드의 참조 게놈에 대한 정렬 동안에 알고리즘적으로 필터링된다. 즉, 정렬 도구는 게놈 링커 세그먼트들과 관련된 알려진 시퀀스들을 빼고, 접합된 절편 리드들의 게놈 절편 부분들과 관련된 시퀀스들만을 참조 게놈에 정렬한다.
몇몇 실시예들에서, 정렬 도구들은 각각의 게놈 절편 시퀀스 리드에 대한 참조 게놈에서의 최장 매칭 정렬 위치를 결정함으로써 게놈 절편 시퀀스 리드 각각에 대한 최적의 정렬을 선택한다. 즉, 게놈 절편 시퀀스 리드에서의 염기의 최장 연속 시퀀스의 정렬 위치는 참조 게놈에 매칭된다. 다른 실시예들에서, 정렬 도구는 그들이 연속적(consecutive)인지 여부와 무관하게, 게놈 절편 시퀀스 리드로부터 가장 많은 수의 염기가 매치되는 참조 게놈에서의 위치를 결정함으로써 각각의 게놈 절편 시퀀스 리드에 대한 최적의 정렬을 선택한다.
몇몇 실시예들에서, 참조 게놈 상에서 다수의 위치들에 동등하게 잘 정렬되는 게놈 절편 시퀀스 리드는 자동으로 폐기되고(discarded) 게놈 특징(예를 들면, SNPs, CNVs, Indels, 등)의 식별에서 사용되지 않는다.
도 7은 다양한 유형의 게놈 특징들을 식별하기 위해 접합된 게놈 절편 시퀀스 리드들을 정렬하기 위한 방법을 도시하는 예시적인 순서도이다. 여기 설명된 바와 같이, 접합된 게놈 절편 시퀀스 리드들(702)은 우선 참조 게놈(704)에 정렬된다. 이러한 정렬은 BLAT, BLAST, BWA, Bowtie, drFAST LAST, MOSAIK, NEXTGENMAP 등을 포함하지만 이에 제한되지 않는 공개적으로 이용가능한 시퀀스 정렬 도구들을 사용하여 만들어질 수 있다. 위에서 논의된 대로, 접합된 게놈 절편 리드들은 인공적으로 합성된 게놈 링커 세그먼트들 및 테스트 샘플(예를 들면, 조직, 배아 등)로부터 획득된 게놈 절편 모두의 시퀀스 리드들이다.
몇몇 실시예들에서, 게놈 링커 세그먼트들이 (인간 게놈에서) 자연적으로 발생하지 않기 때문에, 그들은 자연적으로 접합된 절편 리드들의 참조 게놈에 대한 정렬 동안에 걸러진다. 즉, 정렬 도구는 게놈 링커 세그먼트와 연관된 알려진 시퀀스들을 빼고 접합된 절편 리드들의 게놈 절편 부분과 연관된 시퀀스들만을 참조 게놈에 정렬한다.
정렬 도구는 정렬 점수 또는 게놈 절편 리드들에 대한 다수의 정렬들이 존재하는지 여부를 포함하는 파라미터들 또는 팩터(factor)들의 세트(706)에 기초하여 각각의 게놈 절편 시퀀스 리드에 대한 최적의 정렬을 선택한다. 몇몇 실시예들에서, 게놈 절편 리드 정렬에 대한 정렬 점수는 불일치 기준(criteria), 갭 페널티 및 일치 기준(예를 들면, 참조 게놈에 일치하는 게놈 절편 시퀀스 리드의 연속 염기의 수, 참조 게놈에 일치하는 게놈 절편 시퀀스 리드로부터의 염기의 절대 값, 시퀀스와 그것의 게놈에서의 일치 간의 퍼센트 시퀀스 아이덴티티 등)의 함수로서 ([수학식 1]을 이용하여) 연산될 수 있다. [수학식 1]의 구성에서, 정렬에서의 불일치들과 갭들은 전체 정렬 점수에서 불리하게 작용한다.
Figure pct00001
몇몇 실시예들에서, 참조 게놈에 대해 다수의 위치에서 동등하게 잘 정렬되는 게놈 절편 시퀀스 리드들(예를 들면, 동일한 정렬 점수를 갖는 등)은 자동적으로 폐기되고 게놈 특징의 식별에 사용되지 않는다.
게놈 절편 시퀀스 리드들(702)이 참조 게놈에 정렬된 후, 다양한 분석 도구들 및 콜러(caller)들이 정렬된 시퀀스 상에서 게놈 특징들을 식별하는 데 사용될 수 있다. 다양한 실시예들에서, 이러한 도구들 또는 콜러들은 게놈 특징들을 식별하기 위해 다양한 공개(예를 들면, the RefGene Database (UCSC), the Alternative Splicing Database (EBI), the dbSNP database (NCBI), the Genomic Structural Variation database (NCBI), the GENCODE database (UCSC), the PolyPhen database (Harvard), the SIFT database (NCBI), the 3000 Genomes Project database, the Database of Genomic Variants database (EBI), the Biomart database (EBI), Gene Ontology database (public), the BioCyc/HumanCyc database, the KEGG pathway database, the Reactome database, the Pathway Interaction Database (NIH), the Biocarta database, PANTHER database, 등) 및/또는 비공개 데이터베이스에 액세스하도록 구성될 수 있다.
몇몇 실시예들에서, 게놈 특징들은 삽입/결실(INDEL), 유전자 복제 수 변이(CNV), 단일염기다형성(SNP), 복제, 역위, 전치 등과 같은 게놈 변형일 수 있다. 또 다른 실시예들에서, 게놈 특징들은 유전자 표현 및 활동에 영향을 줄 수 있는 게놈 상에서의 후성유전학적 변화(예를 들면, 메틸화, 아세틸화, 유비키틴화, 인산화, 수모화, 리보실화, 시트룰린화 등)일 수 있다.
다양한 실시예들에서, SNP들은 하플로 타입들의 로컬 드-노보 집합을 통해 호출될 수 있다(710). 다양한 실시예들에서, 이수성(aneuploidy)은 이수성 콜러(714)를 이용하여 호출될 수 있다. 다양한 실시예들에서, 유전자 복제 수 변이(CNVs)는 변형된(modified) CNV 콜러(712)를 이용하여 식별될 수 있다. 변형된 CNV 콜러는 정상 샘플에 대한 정규화에 의하여 생물학적 그리고 기술적 변형 간의 차이를 발생시키도록 구성될 수 있다. 기술적 변형들은 예를 들면, 게놈의 어떤 영역이 높은 GC 컨텐트 편향(즉, 그 영역에서의 G와 C의 비율 및 그에 매핑된 절편의 수), 링커 리게이션, 증폭 편향 등으로 인해 시퀀싱되었을 때 더 많거나 더 적은 리드들을 갖는 것과 같이 기술에서의 편향으로 인해 발생할 수 있다. 따라서 그들은 실제의 CNV 결실이나 복제가 아니라, 그들은 단순한 실험적 인공물이다. 한편, 생물학적 변형은 게놈에서의 실제 CNV 결실/복제로 인한 것이다. 예를 들어, 테스트된 샘플(예를 들어, 조직, 배아 등)의 게놈 영역(즉, 염색체 위치)이 CNV 결실을 가질 경우, 샘플은 그 영역에서 더 적은 리드들을 가질 것이고 게놈이 CNV 복제를 가질 경우 이는 샘플이 해당 영역에서 더 많은 리드들을 가진다는 것을 의미한다. 다양한 실시예들에서, 기술적 변형으로 인한 편향을 제거하고 "진정한" 생물학적 변형을 "가짜" 기술적 변형으로부터 차별화하기 위해, CBS(Circular Binary Segmentation) 기반 알고리즘이 적용되고 스플라인 정규화가 보간된 일도량(univariate) 스무딩(smoothing) 모델을 사용하여 수행된다.
즉, 정규화는 이전에 테스트된 모든 샘플에 대해 하나의 영역을 비교함으로써 수행된다. 기술적 변형이 존재하는 경우의 논리는, 그들이 샘플 테스트 배치 내의 모든 샘플에 영향을 끼친다는 것(즉, 함께 증폭 및 시퀀싱 작업흐름 단계들을 통과하는 샘플들)이고 샘플의 배치 내의 하나의 샘플에만 영향을 끼치는 것이 아니라는 것이다. 따라서 샘플이 동일한 샘플 배치의 다른 샘플들에서도 관찰되는 영역에서의 리드의 양에서의 하강을 보인다면, 그것이 기술적 변형이라는 것으로 결론짓는 것이 안전하다. 그러나, 만약 하강이 샘플 배치 중 하나의 샘플에서만 관찰되고, 동일 샘플 배치 내의 다른 샘플에서는 관찰되지 않는다면, 그것이 생물학적 변형일 가능성이 높다. 이러한 비교는 샘플이 동일한 스케일(scale)로 정규화되었을 때만 수행될 수 있다. 이를 수행하기 위해, 관심 유전자 영역은 대략 100bps의 다수의 작은 구간들로 나누어지고 샘플들의 평균 깊이(즉, 정렬된 리드들의 양)는 각각의 영역에 대해 계산된다. 심지어 각각의 구간이 변형을 보여주더라도, 스플라인 정규화가 해당 영역에 대해 스무딩을 수행하여, 각각의 영역에 유의한 변형들만이 관찰될 수 있도록 작은 에러들을 제거한다. 그후 CNV들은 주성분 분석(PCA, Principal Component Analysis)와 같은 기법을 사용하여 유의도(significance)를 측정함으로써 식별될 수 있다.
다양한 실시예들에서, CBS 알고리즘은 샘플에서의 CNV들의 시작 및 종료 지점을 식별하도록 구성될 수 있다. 즉, CBS 알고리즘은 샘플을 통해, 제 1 패스에서 알고리즘이 전체 샘플을 검색하고, 리드 뎁스에서의 통계적으로 유의한 변화들이 발생한 것으로 보이는 (시작, 종료) 포지션 튜플들의 리스트를 컴파일링하는 다중 패스를 수행한다. 이러한 튜플들 사이에서, 가장 극적인 변화를 포함하는 튜플이 CNV로 식별되고, 그 후 알고리즘은 이 튜플의 양쪽에서의 샘플의 두 피스(piece)들에 대해 순환적으로 재적용된다. 알고리즘은 현재 평가중인 샘플의 어떤 위치에서도 리드 뎁스에서의 통계적으로 유의한 변화들이 발생하지 않을 때 종료한다.
즉, 모든 작은 구간들에 대해서, CBS 알고리즘은 구간들을 전후로 비교하고 그리고 둘이 동일한 감소/증가를 보여주면 그것은 다음 구간으로 이동한다. 변형의 경계에서, 경계를 정의하는 것을 돕도록 한 쪽은 신호를 가지고 다른 한 쪽은 가지지 않을 것이다.
다양한 실시예들에서, CNV를 위해 테스트되는 샘플의 게놈에서의 게놈 영역(즉, 염색체 위치)의 스플라인 정규화 동안에, 분위화(quantiling) 함수가 각각의 게놈 영역에 대해 무엇이 낮은, 평균의 그리고 깊은 리드 뎁스에 기여하는지를 알아내기 위해서 특정 샘플에 대한 리드를 뎁스에 의해 파티션하기 위해 사용된다. 동일한 프로시저가 배치 내의 모든 샘플의 게놈 내 각각의 게놈 영역에서의 중위 리드 뎁스에 대해 반복된다.
특정 샘플을 위해 낮음(low), 평균(average), 깊음(deep) 등으로 이러한 리드 뎁스들을 파티션하는 중단점(breakpoint)들은 x축 상에 표시되고, 샘플들 가운데 중위의 리드 뎁스를 파티션하는 중단점들은 y축 상에 표시된다. 그 후 이러한 (x, y) 값들은 곡선으로 보간된다.
다음으로, 특정 샘플에 대해, 상기 샘플에서 특정 영역에 대한 리드 뎁스는 x축 상의 그 영역에 대응하는 곡선 상의 높이를 관찰함으로써 커브에 대해 평가된다. 이를 수행함으로써, 예를 들어, 샘플 가운데 중위와 비교했을 때 낮은 커버리지 영역의 높은 퍼센테이지를 갖는 샘플들은 그들의 낮은 커버리지 영역의 상부가 평균 커버리지인 것으로 재해석될 것인 방식으로 수정될 것이다. 다음으로, 만약 샘플이 다른 샘플에서도 관찰되는 영역에서의 리드의 하강을 보여주면 이는 기술적 변형으로 분류될 수 있으나, 만약 하강이 배치에서의 하나의 샘플에서만 관찰되고 다른 샘플에서는 관찰되지 않으면 이는 생물학적 변형으로 분류될 수 있다. 이는 배치 내 모든 샘플에서의 동일 영역에서의 중위 리드 뎁스에 의해 특정 영역에서의 샘플의 리드 뎁스를 분할함에 의하여 설명될 수 있다.
도 8은 배아 후보에서 유전자 복제 수 변이를 결정하기 위한 방법을 도시하는 순서도이다. 여기에 도시된 대로, 방법(800)은 배아 후보에서 유전자 복제 수 변이를 식별하기 위한 예시적인 작업흐름을 자세히 보여준다. 단계(802)에서, 배아 후보는 복수의 배양된 배아들로부터 격리되고 컨테이너 내에 위치된다. 예를 들어, 배아 후보는 각각이 시험관 아기 착상의 후보일 수 있는 복수의 배양된 배아들로부터 격리될 수 있다. 몇몇 실시예들에서, 배아 후보는 배발생의 배반포 단계에 있다. 몇몇 실시예들에서, 배아 후보는 인간 배아이다.
일반적으로, 격리 단계(802)는 격리된 배아 후보가 잘못된 시험 결과로 이어질 수 있는, 유전 물질에 의한 오염이 되지 않는 것을 보장하기 위해 통상적인 멸균 기법을 사용하여 또는 멸균 후드에서 수행된다.
단계(804)에서 배아 후보는 실질적으로 DNA-프리인 배양액에서 배양된다. 일반적으로, 배아는 유전자 변이 수 분석이 방법(800)을 사용하여 수행되기에 충분한 양의 DNA 절편들(즉, 게놈 절편들)이 배아 후보로부터 DNA-프리 배양액으로 분비되거나 탈락되는데 필요한 기간만큼(시험관 아기 착상에 기능하도록 배아 후보를 지속적으로 유지하면서) 배양된다. 몇몇 실시예들에서, 배아는 배양액에서 최소한 약 18시간 동안 배양될 수 있다. 다른 실시예들에서, 배아는 배양액에서 약 18시간에서 약 144시간 동안 배양될 수 있다. 이 작업 흐름에서 이용될 수 있는 DNA-프리 배양액의 예시는 The Cooper Companies의 ORIGIO SEQUENTIAL BLAST? 배양액이다. 다양한 실시예들에서, 배양액은 증폭 간 잘못된 분석 결과 또는 인공물 형성의 가능성을 가장 낮게 하기 위하여 단순히 DNA 뿐만 아니라 올리고핵산염이 실질적으로 없을 수 있다.
단계(806)에서, 배아 후보로부터 분비되거나 탈락된 하나 이상의 게놈 절편들(즉, DNA 절편)을 포함하는 배양액의 일부는 증폭 용기로 이동된다. 사용될 수 있는 증폭 용기의 예시들은 테스트 튜브, 피펫 튜브, 페트리 접시 또는 멀티-파티션/웰 플레이트 내의 웰/파티션을 포함할 수 있지만 이에 한정되지는 아니한다.
단계(808)에서 복수의 링커 세그먼트들 및 리가아제 효소는 (배아 후보로부터의) 적어도 하나의 게놈 링커 세그먼트 및 적어도 하나의 게놈 절편들을 포함하는 접합된 게놈 절편들의 형성을 촉매작용하는 조건에서 증폭 용기로 추가된다. 일반적으로, 배양액으로부터 획득된 게놈 절편들은 "짧은" 게놈 절편들로 고려된다. 몇몇 실시예들에서, 짧은 게놈 절편들은 약 30 염기쌍(bps)에서 약 800bps 사이의 길이를 갖는다. 다른 실시예들에서, 짧은 게놈 절편들은 약 150bps에서 약 400bps 사이이 길이를 갖는다. 또 다른 실시예들에서, 짧은 게놈 절편들은 약 1000bps 미만의 길이를 갖는다.
게놈 링커 세그먼트들은 본질적으로 알려진 길이 및 뉴클레오티드 시퀀스의, 인공적으로 생성된 이중 가닥 "결합" 올리고핵산염 세그먼트들이다. 몇몇 실시예들에서, 게놈 링커 세그먼트들은 약 30에서 약 1000bps 사이의 길이이다. 다른 실시예들에서, 게놈 링커 세그먼트들은 약 30bps에서 약 500bps 사이의 길이이다. 또 다른 실시예들에서, 게놈 링커 세그먼트들은 약 50bps에서 약 150bps 사이이다. 몇몇 실시예들에서, 게놈 링커 세그먼트들은 단일중합체 올리고핵산염 세그먼트들이다. 다른 실시예들에서, 게놈 링커 세그먼트들은 이종중합체 올리고핵산염 세그먼트들이다. 몇몇 실시예들에서, 게놈 링커 세그먼트들은 평활 단부화된 이중가닥 올리고핵산염 세그먼트들이다. 몇몇 실시예들에서, 게놈 절편들은 이전에 상술한 방법을 사용하여 게놈 링커 세그먼트들에 리게이션되기 전에 효소적으로 평활 단부화된다.
다양한 유형의 원핵 및 진핵 효소(즉, 리가아제들)이 접합된 게놈 절편들을 형성하기 위하 게놈 링커 세그먼트에 게놈 절편들을 리게이션하는데 사용될 수 있다. 여기서 사용될 수 있는 리가아제들의 몇몇 예시들은 T3, T4, T7 또는 리가아제 1을 포함하나, 이에 한정되지는 않는다.
단계(810)에서 접합된 게놈 절편들은 증폭 용기에서 증폭된다. 다양한 실시예들에서, 접합된 게놈 절편들은 MDA, MALBAC 과 같은 전유전체분석 기법을 사용하는 온도 순환기(또는 이와 유사한 장치들)에서 증폭된다.
접합된 절편들이 배양액으로부터 격리된 원래의 게놈 절편들에 비해 상당히 길기 때문에, 증폭 오류들은 (게놈 절편들을 개별적으로 증폭시키는 것과 비교할 경우) 유의하게 감소될 수 있다.
단계(812)에서, 증폭된 게놈 절편들로부터의 시퀀스 정보는 접합된 절편들을 NGS 또는 이와 동등한 게놈 시퀀싱 시스템에서 시퀀싱하는 것으로부터 획득된다. 몇몇 실시예들에서, 시퀀스 정보는 게놈 절편 시퀀스 리드들(배아 후보로부터 격리된 게놈 절편들로부터 획득된) 및 게놈 링커 세그먼트 시퀀스 리드들(단계(810)에서 증폭 전에 인공적으로 생성되고 게놈 절편에 리게이션된) 모두를 포함한다.
단계(814)에서, 시퀀스 정보는 공개적으로 이용가능하거나 사유의 시퀀스 정렬 도구를 사용하여 참조 게놈에 대해 정렬될 수 있다. 절편 시퀀스들을 정렬하는데 사용될 수 있는 공개적으로 이용가능한 정렬 도구들의 예시는 BLAT, BLAST, BWA, Bowtie, drFAST LAST, MOSAIK, NEXTGENMAP 등을 포함할 수 있으나 이에 한정되지는 않는다. 몇몇 실시예들에서, 게놈 링커 세그먼트들이 자연적으로 발생하지 않기 때문에, 그들에 대응하는 시퀀스 리드들은 참조 게놈에 대한 시퀀스 정보의 정렬 동안에 알고리즘적으로 걸러진다. 즉, 정렬 도구는 게놈 링커 세그먼트와 연관된 알려진 시퀀스들을 빼고, 참조 게놈에 대해 접합된 절편 리드들의 게놈 절편 부분과 관련된 시퀀스들만을 정렬한다.
몇몇 실시예들에서, 정렬 도구는 각각의 게놈 절편 시퀀스 리드에 대해 참조 게놈 상에서의 최장 일치 정렬 위치를 결정함으로써 각각의 게놈 절편 시퀀스 리드에 대한 최적의 정렬을 선택한다. 이는 게놈 절편 시퀀스 상에서의 염기의 최장 연속 시퀀스가 참조 게놈에 대해 일치하는 위치이다. 다른 실시예들에서, 정렬 도구는 그들이 연속적인지 여부와 무관하게, 게놈 절편 시퀀스 리드로부터 가장 많은 수의 염기들이 일치하는 참조 게놈에서의 위치를 결정함으로써 각각의 게놈 절편 시퀀스 리드에 대한 최적의 정렬을 선택한다. 몇몇 실시예들에서, 참조 게놈 상 다수의 위치에서 동등하게 잘 정렬되는 게놈 절편 시퀀스 리드들은 자동적으로 폐기되거나 사용되지 않는다.
단계(816)에서, 배아 후보의 게놈에서의 유전자 복제 수 변이는 참조 게놈 상의 염색체 위치에 정렬된 게놈 절편 시퀀스 리드의 주파수가 주파수 기준으로부터 떨어진 경우에 식별된다. 다양한 실시예들에서, 편차는 염색체 위치에 정렬된 게놈 절편 시퀀스의 주파수가 주파수 기준(즉, 정상 게놈에서의 절편 정렬 주파수) 밑일 때 발생한다. 즉, 테스트된 샘플(예를 들면, 조직, 배아 등)의 염색체 위치가 CNV 결실을 가질 때, 그것이 정상 게놈에서보다 그 영역에서 더 적은 리드(즉, 정렬된 리드의 주파수)를 가질 것이라는 것이다. 다양한 실시예들에서, 편차는 염색체 위치에 정렬된 게놈 절편 시퀀스들의 주파수가 주파수 기준보다 높을 때 발생한다. 즉, 염색체 위치가 CNV 복제를 가지고 있을 경우, 이는 그것이 정상 게놈에 비해 그 영역에서 더 많은 리드를 가진다는 것을 의미한다.
도 9는 다양한 실시예에 따른, 배아 후보에서 게놈 특징을 식별하는 방법을 도시하는 순서도이다. 여기에 도시된 대로, 방법(900)은 배아 후보에서 게놈 특징들을 식별하는 예시적인 작업흐름을 자세히 설명한다. 단계(902)에서, 배아 후보는 복수의 배아 후보들로부터 격리된다. 예를 들어, 배아 후보는 각각이 시험관 아기 착상의 후보가 될 수 있는 복수의 배양된 배아들로부터 격리될 수 있다. 몇몇 실시예들에서, 배아 후보는 배발생의 배반포 단계에 있다. 몇몇 실시예들에서, 배아 후보는 인간 배아이다.
단계(904)에서, 배아 후보는 실질적으로 DNA-프리인 배양액에서 배양된다. 일반적으로, 배아는 방법(900)을 사용하여 수행될 유전자 복제 수 변이를 위한 DNA-프리 용액으로 배아 후보로부터 분비되거나 탈락된 충분한 양의 DNA 절편(즉, 게놈 절편)을 위해 요구되는 만큼의 시간 구간 동안 (시험관 아기 착상이 가능하도록 배아 후보를 유지하면서) 배양될 수 있다. 이 작업 흐름에서 사용될 수 있는 DNA-프리 배양액의 예시는 The Cooper Companies의 ORIGIO SEQUENTIAL BLAST? 배양액이다. 다양한 실시예들에서, 배양액은 증폭 동안의 잘못된 결과나 인공물 형성의 확률을 가장 낮추기 위해 DNA 뿐만 아니라 올리고핵산염이 실질적으로 없을 수 있다.
단계(906)에서, 배아 후보로부터 분비되거나 탈락된 하나 이상의 게놈 절편들(즉, DNA 절편)을 포함하는 배양액의 일부가 증폭 용기로 이동된다. 사용될 수 있는 증폭 용기의 예시는, 테스트 튜브, 피펫 튜브, 페트리 접시, 또는 멀티-파티션/웰 플레이트 내의 웰/파티션을 포함하나 이에 한정되지 않는다.
단계(908)에서, 복수의 링커 세그먼트와 리가아제 효소가 배아 후보로부터의 적어도 하나의 게놈 절편과 적어도 하나의 게놈 링커 세그먼트를 포함하는 접합된 게놈 절편의 형성을 촉매작용하는 조건에서 증폭 용기로 추가된다. 일반적으로, 배양액으로부터 격리된 게놈 절편들은 "짧은" 게놈 절편들로 고려된다. 몇몇 실시예들에서, 짧은 게놈 절편들은 약 30 염기쌍(bps)에서 약 800 bps 사이의 길이를 가진다. 다른 실시예들에서, 짧은 게놈 절편들은 약 150bps에서 약 400bps 사이의 길이를 가진다. 또 다른 실시예들에서, 짧은 게놈 절편들은 약 1000bps 미만의 길이를 가진다.
게놈 링커 세그먼트들은 본질적으로 알려진 길이 및 뉴클레오티드 시퀀스의 인공적으로 생성된 이중-가닥 "결합" 올리고핵산염 세그먼트이다. 몇몇 실시예들에서, 게놈 링커 세그먼트들은 약 30에서 약 1000bps 길이이다. 다른 실시예들에서, 게놈 링커 세그먼트들은 약 30bps에서 약 500bps 사이 길이이다. 또 다른 실시예들에서, 게놈 링커 세그먼트들은 약 50bps에서 약 150bps 사이이다. 몇몇 실시예들에서, 게놈 링커 세그먼트들은 단일중합체 올리고핵산염 세그먼트들이다. 다른 실시예들에서, 게놈 링커 세그먼트들은 이종중합체 올리고핵산염 세그먼트들이다. 몇몇 실시예들에서, 게놈 링커 세그먼트들은 평활 단부화 이중-가닥 올리고핵산염 세그먼트들이다. 몇몇 실시예들에서, 게놈 절편들은 상술한 방법들을 사용하여 게놈 링커 세그먼트들에 리게이션되기 전에 효소적으로 평활 단부화 된다.
다양한 원핵 및 진핵 효소들(즉, 리가아제들)이 접합된 게놈 절편들을 형성하기 위해 게놈 링커 세그먼트에 게놈 절편들을 리게이션하는 데 사용될 수 있다. 리가아제들의 몇몇 예시들은 T3, T4, T7 또는 리가아제 1을 포함할 수 있으나 이에 한정되지는 않는다.
단계(910)에서, 접합된 게놈 절편들은 증폭 용기에서 증폭된다. 다양한 실시예들에서, 접합된 게놈 절편들은 MDA, MALBAC, 등과 같은 전유전체분석 기법을 사용하여 온도 순환기(또는 이와 유사한 장치)에서 증폭된다.
단계(912)에서, 증폭된 접합된 게놈 절편들로부터의 시퀀스 정보는 접합된 절편들을 NGS 또는 이와 동등한 게놈 시퀀싱 시스템에서 시퀀싱함으로부터 획득된다. 몇몇 실시예들에서, 시퀀스 정보는 게놈 절편 시퀀스 리드들(배아 후보로부터 격리된 게놈 절편들로부터 획득된) 및 게놈 링커 세그먼트 시퀀스 리드들(단계(910)에서의 증폭 전에 인공적으로 생성되고 게놈 절편에 연결된)을 모두 포함한다.
단계(914)에서, 시퀀스 정보는 공개적으로 이용가능하거나 사유의 시퀀스 정렬 도구를 사용하여 참조 게놈에 대해 정렬된다. 절편 시퀀스들을 정렬하기 위해 사용될 수 있는 공개적으로 이용가능한 시퀀스 정렬 도구들의 예시는 BLAT, BLAST, BWA, Bowtie, drFAST LAST, MOSAIK, NEXTGENMAP, 등을 포함하나 이에 한정되지 않는다. 몇몇 실시예들에서, 게놈 링커 세그먼트들은 자연적으로 발생하지 않기 때문에, 그들에 대응하는 시퀀스 리드들은 참조 게놈에 대한 시퀀스 정보의 정렬 동안에 알고리즘적으로 걸러진다. 즉, 정렬 도구는 게놈 링커 세그먼트와 관련하여 알려진 시퀀스들을 빼고, 참조 게놈에 접합된 절편 리드의 게놈 절편 부분과 관련된 시퀀스들만을 정렬한다는 것이다.
몇몇 실시예들에서, 정렬 도구는 각각의 게놈 절편 시퀀스 리드에 대한 참조 게놈에서의 최장 일치 정렬 위치를 결정함으로써 게놈 절편 시퀀스 리드 각각에 대한 최적의 정렬을 선택한다. 이는, 게놈 절편 시퀀스 리드 상에서의 염기의 최장 연속 서열이 참조 게놈에 일치하는 정렬 위치이다. 다른 실시에들에서, 정렬 도구는 게놈 절편 시퀀스로부터의 염기의 최대수가 일치하는 참조 게놈상에서의 위치, 염기들이 연속적인지 여부와 무관하게 결정함으로써 게놈 절편 시퀀스 리드 각각에 대한 최적의 정렬을 결정한다. 몇몇 실시예들에서, 참조 게놈 상의 다수의 위치에 동등하게 잘 정렬되는 게놈 절편 시퀀스 리드들은 자동적으로 폐기되거나 사용되지 않는다.
단계(916)에서, 게놈 특징들은 다양한 공개적으로 이용가능한 또는 사유의 게놈 특징 분석 도구 또는 콜러(caller)들을 사용하여 정렬된 게놈 절편 시퀀스들 상에서 식별된다. 다양한 실시예들에서, 이러한 도구들 또는 콜러들은 다양한 공개(예를 들면, the RefGene Database (UCSC), the Alternative Splicing Database (EBI), the dbSNP database (NCBI), the Genomic Structural Variation database (NCBI), the GENCODE database (UCSC), the PolyPhen database (Harvard), the SIFT database (NCBI), the 3000 Genomes Project database, the Database of Genomic Variants database (EBI), the Biomart database (EBI), Gene Ontology database (public), the BioCyc/HumanCyc database, the KEGG pathway database, the Reactome database, the Pathway Interaction Database (NIH), the Biocarta database, PANTHER database 등) 및/또는 비공개 데이터베이스들에 게놈 특징들을 식별하기 위해 액세스하도록 구성될 수 있다.
몇몇 실시예들에서, 게놈 특징들은 삽입/결실(INDEL), 유전자 복제 수 변이(CNV), 단일염기다형성(SNP), 복제, 역위, 전치 등과 같은 유전적 변형일 수 있다. 다른 실시예들에서, 게놈 특징들은 유전자, 단백질 코딩 시퀀스, mRNA, tRNA, rRNA, 반복 시퀀스, 역반복, miRNA, siRNA 등과 같은 어떤 어노테이션된 기능(annotated function)을 가지는 게놈 영역일 수 있다. 또 다른 실시예들에서, 게놈 특징들은 유전자 표현 및 활동에 영향을 줄 수 있는 게놈 상에서의 후성유전학적 변화(예를 들어, 메틸화, 아세틸화, 유비키틴화, 인산화, 수모화, 리보실화, 시트룰린화 등)일 수 있다.
도 10은 다양한 실시예들에 따른 접합된 게놈 절편 시퀀스 리드들로부터 게놈 특징들을 식별하기 위한 방법을 도시하는 순서도이다. 여기에 도시된 바와 같이, 방법(1000)은 NGS 또는 그와 동등한 게놈 시퀀싱 시스템 상에서 증폭되고 그 후에 시퀀싱된 접합된 절편들(조직 샘플로부터 추출된 게놈 절편들에 인공 게놈 링커 세그먼트들을 리게이션함으로써 생성된)로부터 획득된 게놈 절편 시퀀스 리드들 상에서 게놈 특징들을 식별하는 예시적인 작업흐름을 자세히 설명한다. 단계(1002)에서, 조직 샘플로부터의 적어도 하나의 게놈 절편 시퀀스들 및 적어도 하나의 게놈 링커 세그먼트 시퀀스를 포함하는 접합된 게놈 절편 리드들은 게놈 절편의 염기 시퀀스 정보를 결정하도록 구성된 게놈 시퀀싱 시스템에 의해 생성된 게놈 시퀀스 정보(시퀀스 리드들)을 분석하기 위한 명령들로 프로그래밍 된(소프트웨어/하드웨어) 컴퓨팅 장치/서버에서 수신된다.
게놈 링커 세그먼트들은 인공적으로 생성되므로 그들의 길이 및 염기 시퀀스는 알려져있다. 몇몇 실시예들에서, 게놈 링커 세그먼트 리드들은 약 30에서 약 1000bps 사이의 길이이다. 다른 실시예들에서, 게놈 링커 세그먼트 리드들은 약 30bps에서 약 500bps 사이의 길이이다. 또 다른 실시예들에서, 게놈 링커 세그먼트 리드들은 약 50bps에서 약 150bps 사이이다. 몇몇 실시예들에서, 게놈 링커 세그먼트 리드들은 단종중합체 시퀀스들이다. 다른 실시예들에서, 게놈 링커 세그먼트 리드들은 이종중합체 시퀀스들이다.
단계(1004)에서, 접합된 게놈 절편 시퀀스 리드들의 게놈 링커 세그먼트 부분은 접합된 게놈 절편 시퀀스 리드들이 단계(1006)에서 참조 게놈에 정렬되기 전에 빼진다. 즉, 게놈 링커 세그먼트들과 관련하여 알려진 시퀀스들은 우선 접합된 게놈 절편 시퀀스 리드들로부터 빼어지고 그 후에 접합된 절편 리드들의 게놈 절편 부분들만이 참조 게놈에 정렬된다는 것이다.
단계(1006)에서, 게놈 특징들은 다양한 공개적으로 이용가능한 또는 사유의 게놈 특징 분석 도구들 또는 콜러들을 사용하여 정렬된 게놈 절편 시퀀스들 상에서 식별된다. 다양한 실시예뜰에서, 이러한 도구들 및 콜러들은 다양한 공개(예를 들어, the RefGene Database (UCSC), the Alternative Splicing Database (EBI), the dbSNP database (NCBI), the Genomic Structural Variation database (NCBI), the GENCODE database (UCSC), the PolyPhen database (Harvard), the SIFT database (NCBI), the 3000 Genomes Project database, the Database of Genomic Variants database (EBI), the Biomart database (EBI), Gene Ontology database (public), the BioCyc/HumanCyc database, the KEGG pathway database, the Reactome database, the Pathway Interaction Database (NIH), the Biocarta database, PANTHER database 등) 및 게놈 특징들을 식별하기 위한 비공개 데이터베이스들에 액세스하도록 구성된다.
몇몇 실시예들에서, 게놈 특징들은 삽입/결실(INDEL), 유전자 복제 수 변이(CNV), 단일염기다형성(SNP), 복제, 역위, 전치 등과 같은 유전적 변형일 수 있다. 다른 실시예들에서, 게놈 특징들은 유전자, 단백질 코딩 시퀀스, mRNA, tRNA, rRNA, 반복 시퀀스, 역반복, miRNA, siRNA 등과 같은 어떤 어노테이션된 기능을 갖는 게놈 영역일 수 있다. 또 다른 실시예들에서, 게놈 특징들은 유전자 표현과 활동에 영향을 줄 수 있는 게놈 상에서의 후성유전학적 변화들(예를 들어, 메틸화, 아세틸화, 유비키틴화, 인산화, 수모화, 리보실화, 시트룰린화 등)일 수 있다.
실험적 결과들
이하에 도시된 예시들은 여기에 설명된 소프트웨어 어플리케이션, 시스템 및 방법들의 대표적인 실시예일 뿐 한정의 의미가 아니다.
[표 1]에 도시된 바와 같이, 26 배아들이 통상적인 배아 영양외배엽 조직검사 방법 및 상술한, 신규한 배아 배양액의 비침습적 샘플링 방법을 사용하여 염색체 이상(즉, CNV)을 위해 분석되었다. 샘플들은 -20ºC에서 -80ºC 범위의 온도 조건에서 즉시 분석되거나 저장되었다.
이수성 배수성 개별 염색체
100 % (8/8) 89% (16/18) 99% (615/624)
각각의 전통적 배아 조직검사의 DNA는 ILLUMINA's VERISEQ? PGS 작업흐름 및 분석을 사용하여 분석되었다. 각각의 배아를 위한 시험관 아기 배양액은 ILLUMINA NGS 시퀀서 상에서 시퀀싱되고 그들의 염색체 복제 수가 커스텀된 바이오인포매틱스 파이프라인을 사용하여 연산되는 신규한 증폭 방법을 통한 비침습적 분석의 대상이다. 결과는 업계에서 통용되는 영양외배엽 조적검사 방법과 상술된 비침습적 배아 배양액 방법 사이의 이수성(염색체 이상) 및 배수성(정상 유전적 구성) 콜에서의 높은 일치를 보여준다. 또한, 각각의 개별 샘플에 걸쳐 비교된 24 염색체 각각에 대한 일치도도 높다.
여기에 개시된 방법들은 응용에 따라 다양한 수단으로 구현될 수 있다. 예를 들어, 이러한 방법들은 하드웨어, 펌웨어, 소프트웨어 또는 그들의 조합으로 구현될 수 있다. 하드웨어 구현을 위해서, 프로세싱 유닛은 하나 이상의 ASICs, 디지털 신호 프로세서들, 디지털 신호 처리 장치들, 프로그래밍 가능한 논리 장치들, FPGAs, 프로세서들, 컨트롤러들, 마이크로 컨트롤러들, 전자 장치들, 여기에 설명된 기능들을 수행하기 위해 설계된 다른 전자 유닛들 및 그것들의 조합으로 구현될 수 있다.
다양한 실시예들에서, 본 교시의 방법은 C, C++, 파이썬 등과 같은 통상적인 프로그래밍 언어로 쓰여진 펌웨어 및/또는 소프트웨어 프로그램과 어플리케이션들로 구현될 수 있다. 펌웨어 및/또는 소프트웨어로 구현되면, 여기에 설명된 실시예들은 컴퓨터가 여기에 설명된 방법들을 수행하도록 하기 위해 프로그램이 저장된 비-일시적 컴퓨터-판독가능 매체에 구현될 수 있다. 여기에 설명된 다양한 엔진들이 입력 장치(414)를 통해 제공되는 사용자 입력 및 메모리 컴포넌트(406, 408, 410) 중 어느 하나 또는 그들의 조합으로 제공되는 명령들에 종속하여 이러한 엔진들에 의해 제공되는 분석들 및 결정들을 수행하는 프로세서에 의하여, 도 4의 컴퓨터 시스템(400)과 같은 컴퓨터 시스템 상에서 여기서 설명되는 다양한 엔진들이 제공될 수 있다는 것이 이해되어야 한다.
본 교시들이 다양한 실시예들과 함께 설명되나, 본 교시가 그러한 실시예들에 한정된다는 의도는 아니다. 반대로, 본 교시는 당업자에 의해 고려될 다양한 대안들, 수정들, 동등물들을 포함한다.
또한, 다양한 실시에들을 설명함에 있어, 명세서는 단계들의 특정한 시퀀스의 방법 및/또는 프로세스로 제공되었다. 그러나, 당해 방법 또는 프로세스가 여기에 제시된 단계들의 특정한 순서에 의존하지 않는 한, 당해 방법이나 프로세스는 설명된 단계들의 특정 시퀀스에 한정되어서는 안될 것이다. 당업자가 고려할 다른 단계들의 시퀀스도 가능할 수 있다. 그러므로, 명세서에서 제시된 단계들의 특정 순서는 청구항에 대한 한정으로 이해되지 않아야 한다. 또한, 방법 및/또는 프로세스로 제시된 청구항들은 작성된 순서로의 단계들의 수행에 한정되지 않아야하며, 당업자는 다양한 실시예의 사상 및 범위 내에서 시퀀스들이 변할 수 있다는 것을 쉽게 이해할 수 있다.
여기에 개시된 실시예들은 핸드-헬드 디바이스, 마이크로프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 소비자 전자장치, 미니컴퓨터, 메인컴퓨터 등을 포함하는 컴퓨터 시스템 구성과 함께 실행될 수 있다. 실시예들은 네트워크를 통해 연결된 원격 프로세싱 디바이스들에 의해 태스크들이 수행되는 분산 컴퓨팅 환경에서도 수행될 수 있다.
여기에 설명된 실시예들은 컴퓨터 시스템에 저장된 데이터들이 관련된 다양한 컴퓨터-구현 작업들을 이용할 수 있다는 것이 이해되어야 한다. 이러한 작업들은 물리적 양의 물리적 조작을 요구하는 것들이다. 보통, 필수적인 것은 아니나, 이러한 양들은 저장되고, 전송되고, 결합되고, 비교되고 그렇지 않으면 조작되는 전자 또는 마그네틱의 형태를 취한다. 또한, 수행되는 조작들은 생성, 식별, 결정 또는 비교와 같은 용어로 종종 호칭된다.
여기에 설명된 실시예들의 일부를 형성하는 어떤 작업들은 유용한 기계 작업들이다. 여기에 설명된 이러한 실시예들은 이러한 작업들을 수행하는 장치 또는 디바이스와 관련된다. 여기에 설명된 시스템들과 방법들은 요구되는 목적을 위해 특별히 구축되거나 혹은 컴퓨터에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 구성된 범용 목적의 컴퓨터일 수 있다. 특히, 다양한 범용 기계들은 본 교시에 따라 작성된 컴퓨터 프로그램과 함께 사용되거나, 또는 요구되는 작업들을 수행하기 위해 더 특화된 장치를 구축하는 것이 더 편리할 수 있다.
몇몇 실시예들은 컴퓨터 판독가능 매체 상의 컴퓨터 판독가능한 코드로서 실시될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터 시스템에 의해 저장된 후 읽힐 수 있는 어떠한 데이터 저장 장치이다. 컴퓨터 판독가능 매체의 예시들은 하드 드라이브들, NAS(Network Attached Storage), ROM, RAM, CD-ROMs, CD-Rs, CD-RWs, 마그네틱 테이프 및 다른 광학, 플래시 메모리 및 비광학 데이터 저장 장치들을 포함한다. 컴퓨터 판독가능 매체는 또한 컴퓨터 판독가능 코드가 분산 방식으로 저장되고 실행될 수 있도록 네트워크 연결된 컴퓨터 시스템들에 걸쳐 분산될 수 있다.
선택된 실시예들의 나열
실시예 1. 시험관 아기 착상을 위한 배아 후보에서의 유전자 복제 수 변이를 결정하기 위해 제공되는 방법이 개시된다. 배아 후보는 복수의 배아들로부터 격리된다. 배아는 실질적으로 DNA-프리인 배양액에서 배양된다. 배아 후보로부터 분비되거나 탈락된 게놈 절편들을 포함하는 배양액의 일부가 증폭 용기로 이동된다. 복수의 게놈 링커 세그먼트들 및 리가아제 효소들은 격리된 배아 후보로부터의 적어도 하나의 게놈 링커 세그먼트와 적어도 하나의 게놈 절편을 포함하는 접합된 게놈 절편의 형성을 촉매작용하는 조건에서 추가된다. 접합된 게놈 절편들은 증폭 용기 내에서 증폭된다. 시퀀스 정보는 증폭된 접합된 게놈 절편들로부터 획득된다. 시퀀스 정보는 참조 게놈에 대해 정렬(매핑) 된다. 유전자 복제 수 변이들은 참조 게놈 상의 염색체 위치에 정렬된 게놈 절편 시퀀스 리드들의 주파수가 주파수 기준으로부터 떨어진 경우에 배아 후보에서 식별된다.
실시예 2. 실시예 1의 방법에 있어서, 참조 게놈에 대해 접합된 게놈 절편 시퀀스를 정렬하기 전에 접합된 게놈 절편 시퀀스로부터 게놈 링커 세그먼트와 관련된 시퀀스 정보를 빼는 단계를 더 포함한다.
실시예 3. 실시예 2의 방법에 있어서, 각각의 염색체 위치에 정렬된 게놈 절편 시퀀스 리드들의 주파수를 정규화하는 단계; 및 각각의 염색체 위치에 대한 주파수 기준을 결정하는 단계를 더 포함한다.
실시예 4. 실시예 3의 방법에 있어서, 식별된 주파수 기준으로부터의 식별된 편차가 기술적 편향으로 인한 것인지 여부를 결정하기 위해, CBS(circular binary segmentation) 분석을 수행하는 단계를 더 포함한다.
실시예 5. 실시예 4의 방법에 있어서, 상기 정규화는 스플라인 정규화 방법을 사용하여 수행된다.
실시예 6. 실시예 1의 방법에 있어서, 게놈 절편 단부들을, 게놈 링커 세그먼트에 리게이션 하기 전에 변형된 중합효소를 사용하여 게놈 절편 단부를 평활화하는 단계를 더 포함한다.
실시예 7. 실시예 6의 방법에 있어서, 상기 변형된 중합효소는 클레노브 T4 DNA 중합효소이다.
실시예 8. 실시예 1의 방법에 있어서, 상기 리가아제 효소는 T3, T4 또는 T7 원핵성 DNA 리가아제 중 하나이다.
실시예 9. 실시예 1의 방법에 있어서, 상기 배아 후보는 인간 배아이다.
실시예 10. 실시예 1의 방법에 있어서, 상기 배아 후보는 배반포이다.
실시예 11. 실시예 1의 방법에 있어서, 상기 주파수 기준은 정상 염색체에 매핑된 게놈 절편 리드의 주파수이다.
실시예 12. 배아 후보에서 게놈 특징을 식별하기 위해 제공되는 방법이 개시된다. 배아 후보는 복수의 배아 후보들로부터 격리된다. 배아 후보는 실질적으로 DNA-프리인 배양액에서 배양된다. 배아 후보로부터 분비되거나 탈락된 하나 이상의 게놈 절편들을 포함하는 배양액의 일부는 증폭 용기로 이동된다. 복수의 게놈 링커 세그먼트들 및 리가아제 효소는 배아 후보로부터 격리된 적어도 하나의 게놈 링커 세그먼트와 적어도 하나의 게놈 절편을 포함하는 접합된 게놈 절편들의 형성을 촉매 작용하는 조건에서 증폭 용기에 추가된다. 접합된 게놈 절편들은 증폭 용기에서 증폭된다. 시퀀스 정보는 접합된 게놈 절편에서 획득된다. 시퀀스 정보는 참조 게놈에 대해 정렬된다. 게놈 특징들은 정렬된 게놈 절편 시퀀스들 상에서 식별된다.
실시예 13. 실시예 12의 방법에 있어서, 참조 게놈에 접합된 게놈 절편 시퀀스들을 정렬하기 전에 접합된 게놈 절편 시퀀스로부터 게놈 링커 세그먼트에 관련된 시퀀스 정보를 빼는 단계를 더 포함한다.
실시예 14. 실시예 12의 방법에 있어서, 게놈 링커 세그먼트들에 게놈 절편 단부들을 리게이션 하기 전에, 변형된 중합효소를 이용하여 게놈 절편 단부들을 평활화하는 단계를 더 포함한다.
실시예 15. 실시예 14의 방법에 있어서, 변형된 중합효소는 클레노브 T4 DNA 중합효소이다.
실시예 16. 실시예 12의 방법에 있어서, 상기 리가아제 효소는 T3, T4, T7 원핵성 DNA 리가아제 중 하나이다.
실시예 17. 실시예 12의 방법에 있어서, 상기 배아 후보는 인간 배아이다.
실시예 18. 실시예 12의 방법에 있어서, 상기 배아 후보는 배반포이다.
실시예 19. 실시예 12의 방법에 있어서, 상기 게놈 특징은 단일염기다형성이다.
실시예 20. 실시예 12의 방법에 있어서, 상기 게놈 특징은 삽입/결실(indel)이다.
실시에 21. 실시예 12의 방법에 있어서, 상기 게놈 특징은 역위이다.
실시예 22. 시스템은 배아 후보에서 게놈 특징들을 식별하기 위해 제공된다. 시스템은 게놈 시퀀서, 컴퓨팅 장치 및 디스플레이를 포함한다. 게놈 시퀀서는 배아 후보로부터 유도된 접합된 게놈 절편들로부터 시퀀스 정보를 획득하도록 구성된다. 접합된 게놈 절편들 각각은 배아 후보로부터 적어도 하나의 게놈 절편 및 적어도 하나의 게놈 링커 세그먼트를 포함한다. 컴퓨팅 장치는 게놈 시퀀서에 통신가능하게 연결되고 시퀀스 정렬 엔진 및 게놈 특징 식별 엔진을 포함한다. 시퀀스 정렬 엔진은 접합된 게놈 특징의 게놈 링커 세그먼트 부분과 관련된 시퀀스 정보를 빼고, 그리고 참조 게놈에 대해 게놈 절편 시퀀스들을 정렬하도록 구성된다. 게놈 특징 식별 엔진은 정렬된 게놈 절편 시퀀스들에서 게놈 특징들을 식별하도록 구성된다. 디스플레이는 컴퓨팅 장치에 통신가능하게 연결되고 식별된 게놈 특징들을 포함하는 리포트를 디스플레이하도록 구성된다.
실시예 23. 실시예 22의 시스템에 있어, 상기 게놈 특징은 유전자 복제 수 변이이다. 실시예 24. 실시예 23의 시스템에 있어서, 상기 게놈 특징 식별 엔진은: 참조 게놈 상 염색체 위치 각각에 정렬된 게놈 절편 시퀀스들의 주파수를 정규화하고; 염색체 위치 각각에 대한 유전자 복제 수 변이 콜을 생성하기 위해 게놈 절편 시퀀스 정렬 주파수 기준을 결정하고; 그리고 주파수 기준으로부터 떨어진 게놈 절편 시퀀스 정렬 주파수들로 염색체 위치 각각에 대한 유전자 복제 수 변이 콜을 생성하도록 추가적으로 구성된다. 실시예 25. 실시예 24의 시스템에 있어서, 상기 게놈 특징 식별 엔진은 식별된 주파수 기준으로부터 식별된 편차가 기술적 편향으로 인한 것인지 여부를 결정하기 위한 CBS(Circular Binary Segmentation) 분석을 적용하도록 추가적으로 구성된다.
실시예 26. 실시예 24의 시스템에 있어서, 상기 정규화는 스플라인 정규화 방법을 사용하여 수행된다.
실시예 27. 실시예 24의 시스템에 있어, 편차는 염색체 위치에 정렬된 게놈 절편 시퀀스들의 주파수가 주파수 기준 아래인 경우 편차가 발생한다.
실시예 28. 실시예 24의 시스템에 있어서, 편차는 염색체 위치에 정렬된 게놈 절편 시퀀스들의 주파수가 주파수 기준 위인 경우 발생한다. 실시예 29. 실시예 22의 시스템에 있어서, 상기 배아 후보는 인간 배아이다.
실시예 30. 실시예 22의 시스템에 있어서, 상기 배아 후보는 배반포이다.
실시예 31. 실시예 22의 시스템에 있어서, 게놈 특징은 단일염기다형성이다.
실시예 32. 실시예 22의 시스템에 있어서, 상기 게놈 특징은 삽입/결실(indel)이다.
실시예 33. 실시예 22의 시스템에 있어서, 상기 게놈 특징은 역위이다.
실시예 34. 실시예 22의 시스템에 있어, 상기 게놈 링커 세그먼트 시퀀스는 알려진 시퀀스이다.
실시예 35. 조직 샘플에서 게놈 특징들을 식별하기 위해 제공되는 방법이 개시된다. 접합된 게놈 절편 시퀀스 리드들은 조직 샘플로부터의 적어도 하나의 게놈 링커 세그먼트 시퀀스와 적어도 하나의 게놈 절편 시퀀스를 포함하여 수신된다. 접합된 게놈 절편 시퀀스 리드의 게놈 링커 세그먼트 시퀀스 부분은 빼진다. 접합된 게놈 절편 시퀀스 리드들은 참조 게놈에 대해 정렬(매핑)된다. 게놈 특징들은 정렬된 게놈 절편 시퀀스들 상에서 식별된다.
실시예 36. 실시예 35의 방법에 있어서, 참조 게놈 상에서 하나 이상의 위치에 매핑된 접합된 게놈 절편 시퀀스 리드를 결실시키는 단계를 더 포함한다.
실시예 37. 실시예 35의 방법에 있어서, 상기 게놈 특징은 유전자 복제 수 변이이다.
실시예 38. 실시예 37의 방법에 있어서, 염색체 위치 각각에 정렬된 게놈 절편 시퀀스들의 주파수를 정규화하는 단계; 각각의 염색체 위치에 대한 유전자 복제 수 변이 콜을 생성하기 위해 게놈 절편 시퀀스 정렬 주파수 기준을 결정하는 단계; 및 주파수 기준으로부터 떨어진 게놈 절편 시퀀스 정렬 주파수로 염색체 위치 각각에 대한 유전자 복제 수 변이 콜을 생성하는 단계를 더 포함한다.
실시예 39. 실시예 38의 방법에 있어서, 주파수 기준으로부터의 식별된 편차가 기술적 편향으로 인한 것인지 여부를 결정하기 위해 CBS(Circular Binary Segmentation) 분석을 적용하는 단계를 더 포함한다.
실시예 40. 실시예 38의 방법에 있어, 편차는 염색체 위치에 정렬된 게놈 절편 시퀀스의 주파수가 주파수 기준 밑인 경우 발생한다.
실시예 41. 실시예 38의 방법에 있어, 편차는 염색체 위치에 정렬된 게놈 절편 시퀀스의 주파수가 주파수 기준 위인 경우 발생한다.
실시예 42. 실시예 35의 방법에 있어, 상기 조직 샘플은 배아 조직이다.
실시예 43. 청구항 35의 방법에 있어, 상기 조직 샘플은 배반포이다.
실시예 44. 청구항 35의 방법에 있어, 게놈 특징은 단일염기다형성이다.
실시예 45. 청구항 35의 방법에 있어, 게놈 특징은 삽입/결실(indel)이다.
실시예 46. 청구항 35의 방법에 있어, 게놈 특징은 역위이다.
실시예 47. 조직 샘플에서 게놈 특징들을 식별하기 위한 방법을 컴퓨터가 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독가능 매체가 제공된다. 접합된 게놈 절편 시퀀스 리드들은 조직 샘플로부터의 적어도 하나의 게놈 절편 시퀀스 및 적어도 하나의 게놈 링커 시퀀스를 포함하여 수신된다. 접합된 게놈 절편 시퀀스 리드들의 게놈 링커 세그먼트 시퀀스 부분은 빼진다. 접합된 게놈 절편 시퀀스 리드들은 참조 게놈에 대해 정렬(매핑)된다. 게놈 특징들은 정렬된 게놈 절편 시퀀스들 상에서 식별된다.
실시예 48. 실시예 47의 방법에 있어, 참조 게놈 상의 하나 이상의 위치에 매핑된 접합된 게놈 절편 시퀀스 리드들을 결실시키는 단계를 더 포함한다.
실시예 49. 실시예 47의 방법에 있어, 상기 게놈 특징은 유전자 복제 수 변이이다.
실시예 50. 실시예 47의 방법에 있어, 상기 게놈 특징은 삽입/결실(indel)이다.
실시예 51. 실시예 47의 방법에 있어, 상기 게놈 특징은 역위이다.
실시예 52. 실시예 49의 방법에 있어, 염색체 위치 각각에 정렬된 게놈 절편 시퀀스의 주파수를 정규화하는 단계; 염색체 위기 각각에 대한 유전자 복제 수 변이 콜을 생성하기 위해 게놈 절편 시퀀스 정렬 주파수 기준을 결정하는 단계; 및 주파수 기준으로부터 떨어진 게놈 절편 시퀀스 정렬 주파수로 염색체 위치 각각에 대한 유전자 복제 수 변이 콜을 생성하는 단계를 더 포함한다.
실시예 53. 실시예 52의 방법에 있어서, 주파수 기준으로부터 식별된 편차가 기술적 편향으로 인해 식별되었는지 여부를 결정하기 위해 CBS(Circular Binary Segmentation) 분석을 적용하는 단계를 더 포함한다.
실시예 54. 실시예 52의 방법에 있어, 편차는 염색체 위치에 정렬된 게놈 절편 시퀀스의 주파수가 주파수 기준 밑인 경우 발생한다.
실시예 55. 실시예 52의 방법에 있어서, 편차는 염색체 위치에 정렬된 게놈 절편 시퀀스의 주파수가 주파수 기준 위인 경우 발생한다. 실시예 56. 실시예 47의 방법에 있어, 상기 조직 샘플은 배아 조직이다.
실시예 57. 실시예 47의 방법에 있어, 상기 조직 샘플은 배반포이다.
실시예 58. 실시예 47의 방법에 있어, 상기 게놈 특징은 단일염기다형성이다.
실시예 59. 실시예 47의 방법에 있어, 상기 게놈 특징은 삽입/결실(indel)이다.
실시예 60. 실시예 47의 방법에 있어, 상기 게놈 특징은 역위이다.

Claims (60)

  1. 시험관 아기 착상을 위한 배아 후보의 유전자 복제 수 변이를 결정하는 방법으로서, 상기 방법은:
    복수의 배아들로부터 배아 후보를 격리하는 단계;
    DNA-프리 배양액에서 상기 배아 후보를 배양하는 단계;
    상기 배아 후보로부터 탈락되거나 분비된 게놈 절편들을 포함하는 상기 배양액의 일부를 증폭 용기로 이동시키는 단계;
    복수의 게놈 링커 세그먼트들 및 리가아제 효소를 상기 격리된 배아 후보로부터의 적어도 하나의 게놈 절편 및 게놈 링커 세그먼트를 포함하는 접합된 게놈 절편들의 형성을 촉매 작용하는 조건에서 상기 증폭 용기로 추가하는 단계;
    상기 증폭 용기에서 상기 접합된 게놈 절편들을 증폭시키는 단계;
    상기 증폭된 접합된 게놈 절편들로부터 시퀀스 정보를 획득하는 단계;
    참조 게놈에 대해 상기 시퀀스 정보를 정렬하는 단계; 및
    상기 참조 게놈 상 염색체 위치에 정렬된 게놈 절편 시퀀스 리드의 주파수가 주파수 기준을 벗어난 경우 상기 배아 후보에서 유전자 복제 수 변이를 식별하는 단계;
    를 포함하는,
    시험관 아기 착상을 위한 배아 후보의 유전자 복제 수 변이를 결정하는 방법.
  2. 제 1 항에 있어서,
    상기 접합된 게놈 절편 시퀀스를 상기 참조 게놈에 정렬하기 전에 상기 접합된 게놈 절편 시퀀스로부터의 상기 게놈 링커 세그먼트와 관련된 시퀀스 정보를 빼는 단계;
    를 더 포함하는,
    시험관 아기 착상을 위한 배아 후보의 유전자 복제 수 변이를 결정하는 방법.
  3. 제 2 항에 있어서,
    염색체 위치 각각에 정렬된 상기 게놈 절편 시퀀스 리드의 주파수를 정규화(normalize)하는 단계; 및
    염색체 위치 각각의 주파수 기준을 결정하는 단계;
    를 더 포함하는,
    시험관 아기 착상을 위한 배아 후보의 유전자 복제 수 변이를 결정하는 방법.
  4. 제 3 항에 있어서,
    식별된 상기 주파수 기준으로부터의 식별된 편차가 기술적 편향(technical bias)로 인한 것인지를 결정하기 위해 CBS(Circular Binary Segmentation) 분석을 적용하는 단계;
    를 더 포함하는,
    시험관 아기 착상을 위한 배아 후보의 유전자 복제 수 변이를 결정하는 방법.
  5. 제 3 항에 있어서,
    상기 정규화는 스플라인 정규화 방법을 이용하여 수행되는,

    시험관 아기 착상을 위한 배아 후보의 유전자 복제 수 변이를 결정하는 방법.
  6. 제 1 항에 있어서,
    상기 게놈 절편의 단부들을 상기 게놈 링커 세그먼트들에 접합하기 전에 변형된 중합효소(polymerase)를 사용하여 평활화 하는 단계;
    를 더 포함하는,
    시험관 아기 착상을 위한 배아 후보의 유전자 복제 수 변이를 결정하는 방법.
  7. 제 6 항에 있어서,
    상기 변형된(modified) 중합효소는 클레노브 T4 DNA 중합효소인,
    시험관 아기 착상을 위한 유전자 복제 수 변이를 결정하는 방법.
  8. 제 1 항에 있어서,
    상기 리가아제 효소는 T3, T4 또는 T7 원핵성 DNA 리가아제 중 하나인,
    시험관 아기 착상을 위한 유전자 복제 수 변이를 결정하는 방법.
  9. 제 1 항에 있어서,
    상기 배아 후보는 인간 배아인,
    시험관 아기 착상을 위한 유전자 복제 수 변이를 결정하는 방법.
  10. 제 1 항에 있어서,
    상기 배아 후보는 배반포인,
    시험관 아기 착상을 위한 유전자 복제 수 변이를 결정하는 방법.
  11. 제 1 항에 있어서,
    상기 주파수 기준은 정상 염색체에 매핑된 게놈 절편 리드의 주파수인,
    시험관 아기 착상을 위한 유전자 복제 수 변이를 결정하는 방법.
  12. 배아 후보에서 게놈 특징들을 식별하는 방법으로서, 상기 방법은:
    복수의 배아 후보들로부터 배아 후보를 격리시키는 단계;
    DNA-프리 배양액에서 상기 배아 후보를 배양하는 단계:
    상기 배아 후보로부터 탈락되거나 분비된 하나 이상의 게놈 절편들을 포함하는 상기 배양액의 일부를 증폭 용기로 이동시키는 단계;
    복수의 게놈 링커 세그먼트들과 리가아제 효소를 상기 격리된 배아 후보로부터의 적어도 하나의 게노믹 링커 세그먼트와 적어도 하나의 게놈 절편을 포함하는 접합된 게놈 절편들의 형성을 촉매 작용하는 조건에서 상기 증폭 용기로 추가하는 단계;
    상기 증폭 용기에서 상기 접합된 게놈 절편들을 증폭시키는 단계;
    상기 접합된 게놈 절편들로부터 시퀀스 정보를 획득하는 단계;
    참조 게놈에 대해 상기 시퀀스 정보를 정렬하는 단계; 및
    상기 정렬된 게놈 절편 시퀀스들 상에서 게놈 특징들을 식별하는 단계;
    를 포함하는,
    배아 후보에서 게놈 특징들을 식별하는 방법.
  13. 제 12 항에 있어서,
    상기 접합된 게놈 절편 시퀀스를 참조 게놈에 대해 정렬하기 전에 상기 접합된 게놈 절편 시퀀스로부터 상기 게놈 링커 세그먼트에 관련된 시퀀스 정보를 빼는 단계;
    를 더 포함하는,
    배아 후보에서 게놈 특징들을 식별하는 방법.
  14. 제 12 항에 있어서,
    상기 게놈 절편 단부들을 상기 게놈 링커 세그먼트들에 접합하기 전에 변형된 중합 효소를 이용하여 평활화 하는 단계;
    를 더 포함하는,
    배아 후보에서 게놈 특징들을 식별하는 방법.
  15. 제 14 항에 있어서, 상기 변형된 중합효소는 클레노브 T4 DNA 중합효소인,
    배아 후보에서 게놈 특징들을 식별하는 방법.
  16. 제 12 항에 있어서, 상기 리가아제 효소는 T3, T4 또는 T7 원핵성 DNA 리가아제 중 하나인,
    배아 후보에서 게놈 특징들을 식별하는 방법.
  17. 제 12 항에 있어서, 상기 배아 후보는 인간 배아인,
    배아 후보에서 게놈 특징들을 식별하는 방법.
  18. 제 12 항에 있어서, 상기 배아 후보는 배반포인,
    배아 후보에서 게놈 특징들을 식별하는 방법.
  19. 제 12 항에 있어서, 상기 게놈 특징은 단일염기다형성(single nucleotide polymorphism)인,
    배아 후보에서 게놈 특징들을 식별하는 방법.
  20. 제 12 항에 있어서, 상기 게놈 특징은 삽입-결실(indel)인,
    배아 후보에서 게놈 특징들을 식별하는 방법.
  21. 제 12 항에 있어서, 상기 게놈 특징은 역위(inversion)인,
    배아 후보에서 게놈 특징들을 식별하는 방법.
  22. 배아 후보에서 게놈 특징들을 식별하기 위한 시스템으로서, 상기 시스템은:
    배아 후보로부터 유래된, 각각이 상기 배아 후보로부터의 적어도 하나의 게놈 링커 세그먼트 및 적어도 하나의 게놈 절편을 포함하는 접합된 게놈 절편들로부터 시퀀스 정보를 획득하도록 구성된 게놈 시퀀서;
    상기 접합된 게놈 절편들의 상기 게놈 링커 세그먼트 부분과 관련된 시퀀스 정보를 빼고 참조 게놈에 상기 게놈 절편 시퀀스들을 정렬하도록 구성된 시퀀스 정렬 엔진 및 상기 정렬된 게놈 절편 시퀀스들에서 게놈 특징들을 식별하도록 구성된 게놈 특징 식별 엔진을 포함하는 상기 게놈 시퀀서에 통신 가능하도록(communicatively) 연결된 컴퓨팅 장치; 및
    상기 컴퓨팅 장치에 통신 가능하게 연결되고 상기 식별된 게놈 특징들을 포함하는 리포트를 디스플레이하도록 구성된 디스플레이;
    를 포함하는,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  23. 제 22 항에 있어서, 상기 게놈 특징은 유전자 복제 수 변이인,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  24. 제 23 항에 있어서, 상기 게놈 특징 식별 엔진은:
    상기 참조 게놈에서 염색체 위치 각각에 정렬된 게놈 절편 시퀀스들의 주파수를 정규화하고,
    각각의 염색체 위치에 대해 유전자 복제 수 변이 요청을 생성하기 위한 게놈 절편 시퀀스 정렬 주파수를 기준을 결정하고,
    상기 주파수 기준으로부터 벗어난 게놈 절편 시퀀스 정렬 주파수들로 염색체 위치 각각에 대한 유전자 복제 수 변이 요청을 생성하는,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  25. 제 24 항에 있어서, 상기 게놈 특징 식별 엔진은,
    식별된 상기 주파수 기준으로부터의 식별된 편차가 기술적 편향로 인한 것인지 여부를 결정하기 위한 CBS(Circular Binary Segmentation)를 적용하도록 구성된,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  26. 제 24 항에 있어서,
    상기 정규화는 스플라인 정규화 기법을 사용하여 수행되는,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  27. 제 24 항에 있어서,
    편차는 염색체 위치에 정렬된 상기 게놈 절편 시퀀스들의 주파수가 상기 주파수 기준 미만인 경우 발생하는,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  28. 제 24 항에 있어서,
    편차는 염색체 위치에 정렬된 상기 게놈 절편 시퀀스들의 주파수가 상기 주파수 기준 초과인 경우 발생하는,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  29. 제 22 항에 있어서,
    상기 배아 후보는 인간 배아인,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  30. 제 22 항에 있어서,
    상기 배아 후보는 배반포인,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  31. 제 22 항에 있어서,
    상기 게놈 특징은 단일염기다형성인,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  32. 제 22 항에 있어서,
    상기 게놈 특징은 삽입-결실(indel)인,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  33. 제 22 항에 있어서,
    상기 게놈 특징은 역위(inversion)인,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  34. 제 22 항에 있어서,
    상기 게놈 링커 세그먼트 시퀀스는 기지의 시퀀스인,
    배아 후보에서 게놈 특징들을 식별하기 위한 시스템.
  35. 조직 샘플에서 게놈 특징을 식별하는 방법으로서, 상기 방법은:
    조직 샘플로부터 적어도 하나의 게놈 링커 세그먼트 시퀀스 및 적어도 하나의 게놈 절편 시퀀스를 포함하는 접합된 게놈 절편 시퀀스 리드를 수신하는 단계;
    상기 접합된 게놈 절편 시퀀스 리드의 상기 게놈 링커 세그먼트 시퀀스 부분을 빼는 단계;
    참조 게놈에 상기 접합된 게놈 절편 시퀀스 리드를 정렬하는 단계; 및
    상기 정렬된 게놈 절편 시퀀스들 상에서 게놈 특징들을 식별하는 단계;
    를 포함하는,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  36. 제 35 항에 있어서,
    참조 게놈에서 하나 이상의 위치에 매핑된 접합된 게놈 절편 시퀀스 리드를 결실시키는 단계;
    를 포함하는,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  37. 제 35 항에 있어서,
    상기 게놈 특징은 유전자 복제 수 변이인,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  38. 제 37 항에 있어서,
    각각의 염색체 위치에 정렬된 게놈 절편 시퀀스들의 주파수를 정규화하는 단계;
    각각의 염색체 위치에 대해 유전자 복제 수 변이 요청을 생성하는 게놈 절편 시퀀스 정렬 주파수 기준을 결정하는 단계; 및
    주파수 기준으로부터 벗어난 게놈 절편 시퀀스 정렬 주파수들로 각각의 염색체 위치에 대한 유전자 복제 수 변이 요청을 생성하는 단계;
    를 포함하는,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  39. 제 38 항에 있어서,
    상기 주파수 기준으로부터의 식별된 편차가 기술적 편향으로 인해 식별된 것인지 여부를 결정하기 위해 CBS(Circular binary segmentation) 분석을 적용하는 단계;
    를 더 포함하는,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  40. 제 38 항에 있어서,
    편차는 염색체 위치에 정렬된 상기 게놈 절편 시퀀스들의 주파수가 상기 주파수 기준 미만인 경우 발생하는,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  41. 제 38 항에 있어서,
    편차는 염색체 위치에 정렬된 상기 게놈 절편 시퀀스들의 주파수가 상기 주파수 기준 초과인 경우 발생하는,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  42. 제 35 항에 있어서,
    상기 조직 샘플은 배아 조직인,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  43. 제 35 항에 있어서,
    상기 조직 샘플은 배반포인,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  44. 제 35 항에 있어서,
    상기 게놈 특징은 단일염기다형성인,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  45. 제 35 항에 있어서,
    상기 게놈 특징은 삽입-결실(indel)인,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  46. 제 35 항에 있어서,
    상기 게놈 특징은 역위(inversion)인,
    조직 샘플에서 게놈 특징을 식별하는 방법.
  47. 컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독가능 매체로서, 상기 방법은:
    조직 샘플로부터 적어도 하나의 게놈 링커 세그먼트 시퀀스와 적어도 하나의 게놈 절편 시퀀스를 포함하는 접합된 게놈 절편 시퀀스 리드를 수신하는 단계;
    상기 접합된 게놈 절편 시퀀스 리드의 게놈 링커 세그먼트 부분을 빼는 단계;
    참조 게놈에 상기 접합된 게놈 절편 시퀀스 리드를 정렬하는 단계; 및
    상기 정렬된 게놈 절편 시퀀스들 상에서 게놈 특징들을 식별하는 단계;
    를 포함하는,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독가능 매체.
  48. 제 47 항에 있어서,
    참조 게놈에서 하나 이상의 위치에 매핑된 접합된 게놈 절편 시퀀스 리드를 결실시키는 단계;
    를 더 포함하는,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독가능 매체.
  49. 제 47 항에 있어서, 상기 게놈 특징은 유전자 복제 수 변이인,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독가능 매체.
  50. 제 47 항에 있어서, 상기 게놈 특징은 삽입-결실(indel)인,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독가능 매체.
  51. 제 47 항에 있어서,
    상기 게놈 특징은 역위(inversion)인,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독가능 매체.
  52. 제 49 항에 있어서,
    각각의 염색체 위치에 정렬된 게놈 절편 시퀀스들의 주파수를 정규화하는 단계;
    각각의 염색체 위치에 대해 유전자 복제 수 변이 요청을 생성하기 위한 게놈 절편 시퀀스 정렬 주파수 기준을 결정하는 단계; 및
    상기 주파수 기준으로부터 떨어진 게놈 절편 시퀀스 정렬 주파수로 각각의 염색체 위치에 유전자 복제 수 변이 요청을 생성하는 단계;
    를 더 포함하는,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독가능 매체.
  53. 제 52 항에 있어서,
    상기 주파수 기준으로부터 떨어진 식별된 편차가 기술적 편향으로 인해 식별되었는지 여부를 결정하기 위해 CBS(Circular Binary Segmentation) 분석을 적용하는 단계;
    를 더 포함하는,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독 가능 매체.
  54. 제 52 항에 있어서,
    염색체 위치에 정렬된 상기 게놈 절편 시퀀스의 주파수가 상기 주파수 기준 미만인 경우에 편차가 발생하는,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독 가능 매체.
  55. 제 52 항에 있어서,
    염색체 위치에 정렬된 상기 게놈 절편 시퀀스의 주파수가 상기 주파수 기준을 초과하는 경우에 편차가 발생하는,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독 가능 매체.
  56. 제 47 항에 있어서,
    상기 조직 샘플은 배아 조직인,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독 가능 매체.
  57. 제 47 항에 있어서,
    상기 조직 샘플은 배반포인,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독 가능 매체.
  58. 제 47 항에 있어서,
    상기 게놈 특징은 단일염기다형성인,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독 가능 매체.
  59. 제 47 항에 있어서,
    상기 게놈 특징은 삽입-결실(indel)인,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독 가능 매체.
  60. 제 47 항에 있어서,
    상기 게놈 특징은 역위(inversion)인,
    컴퓨터가 조직 샘플에서 게놈 특징을 식별하는 방법을 수행하도록 하는 프로그램이 저장된 비-일시적 컴퓨터-판독 가능 매체.

KR1020207009919A 2017-09-07 2018-09-07 비침습적 착상전 유전자 진단을 위한 방법과 시스템 (systems and methods for non-invasive preimplantation genetic diagnosis) KR20200060410A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762555466P 2017-09-07 2017-09-07
US62/555,466 2017-09-07
PCT/US2018/049976 WO2019051244A1 (en) 2017-09-07 2018-09-07 SYSTEMS AND METHODS FOR NON-EFFRACTIVE PREIMPLANTATORY GENETIC DIAGNOSIS

Publications (1)

Publication Number Publication Date
KR20200060410A true KR20200060410A (ko) 2020-05-29

Family

ID=63684601

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207009919A KR20200060410A (ko) 2017-09-07 2018-09-07 비침습적 착상전 유전자 진단을 위한 방법과 시스템 (systems and methods for non-invasive preimplantation genetic diagnosis)

Country Status (8)

Country Link
US (1) US20210062256A1 (ko)
EP (1) EP3679156A1 (ko)
JP (1) JP2020532999A (ko)
KR (1) KR20200060410A (ko)
AU (1) AU2018327337A1 (ko)
CA (1) CA3074689A1 (ko)
SG (1) SG11202003557YA (ko)
WO (1) WO2019051244A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020061637A1 (en) * 2018-09-27 2020-04-02 Monash Ivf Group Limited Dna from cell-free medium
CN114402392A (zh) * 2019-06-21 2022-04-26 酷博尔外科器械有限公司 使用单核苷酸变异密度验证人类胚胎中拷贝数变异的系统和方法
CN112582022B (zh) * 2020-07-21 2021-11-23 序康医疗科技(苏州)有限公司 用于无创胚胎移植优先级评级的系统和方法
JP7377842B2 (ja) * 2021-08-11 2023-11-10 医療法人浅田レディースクリニック 胚培養用ディッシュ

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2272983A1 (en) 2005-02-01 2011-01-12 AB Advanced Genetic Analysis Corporation Reagents, methods and libraries for bead-based sequencing
EP2958574A4 (en) * 2013-01-23 2016-11-02 Reproductive Genetics And Technology Solutions Llc COMPOSITIONS AND METHODS FOR GENETIC ANALYSIS OF EMBRYOS
JP6765960B2 (ja) * 2013-06-18 2020-10-07 アンスティチュ ナショナル ドゥ ラ サンテ エ ドゥ ラ ルシェルシュ メディカル 胚の品質を決定するための方法
CN115433769A (zh) * 2015-08-12 2022-12-06 香港中文大学 血浆dna的单分子测序
GB2541904B (en) * 2015-09-02 2020-09-02 Oxford Nanopore Tech Ltd Method of identifying sequence variants using concatenation

Also Published As

Publication number Publication date
JP2020532999A (ja) 2020-11-19
EP3679156A1 (en) 2020-07-15
SG11202003557YA (en) 2020-05-28
AU2018327337A1 (en) 2020-04-30
CA3074689A1 (en) 2019-03-14
WO2019051244A1 (en) 2019-03-14
US20210062256A1 (en) 2021-03-04

Similar Documents

Publication Publication Date Title
US10774380B2 (en) Methods for multiplex PCR amplification of target loci in a nucleic acid sample
US11492656B2 (en) Haplotype resolved genome sequencing
US20190318805A1 (en) Detecting fetal sub-chromosomal aneuploidies
CA2983935C (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
Martín et al. The impact of next-generation sequencing technology on preimplantation genetic diagnosis and screening
AU2020200728A1 (en) Method for improving the sensitivity of detection in determining copy number variations
US11193175B2 (en) Normalizing tumor mutation burden
KR20200060410A (ko) 비침습적 착상전 유전자 진단을 위한 방법과 시스템 (systems and methods for non-invasive preimplantation genetic diagnosis)
US20200399701A1 (en) Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos
CA3079252A1 (en) Correcting for deamination-induced sequence errors
WO2024054517A1 (en) Methods and compositions for analyzing nucleic acid
WO2023158739A2 (en) Methods and compositions for analyzing nucleic acid
WO2022192189A1 (en) Methods and compositions for analyzing nucleic acid