KR20210138556A - 짧은 탠덤 반복 영역에서의 변이를 결정하기 위한 서열-그래프 기반 툴 - Google Patents

짧은 탠덤 반복 영역에서의 변이를 결정하기 위한 서열-그래프 기반 툴 Download PDF

Info

Publication number
KR20210138556A
KR20210138556A KR1020217009932A KR20217009932A KR20210138556A KR 20210138556 A KR20210138556 A KR 20210138556A KR 1020217009932 A KR1020217009932 A KR 1020217009932A KR 20217009932 A KR20217009932 A KR 20217009932A KR 20210138556 A KR20210138556 A KR 20210138556A
Authority
KR
South Korea
Prior art keywords
sequence
reads
repeat
graph
read
Prior art date
Application number
KR1020217009932A
Other languages
English (en)
Inventor
이고르 돌젠코
마이클 에이. 에버를
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20210138556A publication Critical patent/KR20210138556A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • G06N7/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Physiology (AREA)
  • Public Health (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

개시된 실시형태들은 의학적으로 중요한 짧은 탠덤 반복체(short tandem repeat, STR)와 같은 반복 서열들을 유전자형분석하기 위한 방법들, 장치들, 시스템들 및 컴퓨터 프로그램 제품들에 관한 것이다. 방법들은 서열 그래프에 의해 표현된 반복 서열에 판독물을 정렬시키고, 반복 서열을 유전자형분석하기 위해 정렬된 판독물을 사용하는 것을 수반한다. 서열 그래프는 반복 하위서열을 표현하는 적어도 하나의 자가-루프를 각각 포함하는 방향성 그래프이다. 일부 구현예들에서, 판독물은 쌍형성된 말단 판독물(paired end read)이고, 각각의 판독물 쌍의 양쪽 메이트(mate)들은 반복 서열들을 유전자형분석하는 데 사용될 수 있다. 일부 구현예들은 축퇴 코돈(degenerate codon) 반복체들을 결정하는 데 사용될 수 있다. 일부 구현예들은 둘 이상의 반복 하위서열들을 각각 포함하는 반복체 서열들을 유전자형분석하는 데 사용될 수 있다. 일부 구현예들은 적어도 하나의 반복 하위서열 및 다른 유전자 변이체, 예컨대, 삽입, 결실, 또는 치환을 각각 포함하는 핵산 서열들을 유전자형분석하는 데 사용될 수 있다.

Description

짧은 탠덤 반복 영역에서의 변이를 결정하기 위한 서열-그래프 기반 툴
참조에 의한 통합
PCT 요청 양식은 본 출원의 일부로서 본 명세서와 동시에 제출된다. 본 출원이 동시 출원된 PCT 요청 양식에서 식별된 바와 같이 이득 또는 우선권을 주장하는 각각의 출원은 전체적으로 그리고 모든 목적을 위해 본 명세서에 참조로 통합된다.
반복 확장(repeat expansion)은 짧은 탠덤 반복(short tandem repeat, STR) 다형성을 수반하는 마이크로부수체 및 미니부수체 변이체의 특수한 부류이다. 반복 확장은 또한 짧은 탠덤 반복체들이 소정 크기를 넘어 확장될 때 그들의 불안정성으로 인해 동적 돌연변이로서 알려져 있다. 불안정한 반복 확장에 의해 유발되는 유전적 장애들은, 특히, 취약 X 증후군(fragile X syndrome, FXS), 헌팅턴 병, 및 근위축성 측삭 경화증(amyotrophic lateral sclerosis, ALS)을 포함한다.
반복 확장을 식별하는 것은 소정의 유전적 장애의 진단 및 치료에 중요하다. 그러나, 반복 서열을 완전히 횡단하지 않는 짧은 판독물을 사용하여 반복 서열을 결정하는 것은 어렵다. 따라서, 의학적으로 관련된 반복 확장을 식별하기 위해 짧은 판독물을 사용하는 방법들을 개발하는 것이 바람직하다.
개시된 구현예들은 유전적 장애와 상관될 수 있는 짧은 탠덤 반복 서열과 같은 반복 서열을 포함하는 게놈 좌위를 서열분석하기 위한 방법들, 장치들, 시스템들, 및 컴퓨터 프로그램 제품들에 관한 것이다. 방법들은 게놈 좌위를 각각 표현하는 서열 그래프에 판독물을 정렬시키는 단계, 및 게놈 좌위 내의 하나 이상의 반복 서열들을 유전자형분석하기 위해 정렬된 판독물을 사용하는 단계를 수반한다. 서열 그래프는 반복 서열을 표현하는 적어도 하나의 자가-루프를 각각 포함하는 방향성 그래프이다.
본 개시내용의 제1 양태는 반복 서열을 포함하는 게놈 좌위를 유전자형분석하기 위한 컴퓨터-구현 방법들을 제공한다. 방법들은 하나 이상의 프로세서들 및 시스템 메모리를 포함하는 컴퓨터를 사용하여 구현된다. 방법들은 하나 이상의 반복 하위서열들을 각각 포함하는 하나 이상의 반복 서열들을 유전자형분석하는 데 사용될 수 있다. 방법들은: (a) 하나 이상의 프로세서들을 사용하여, 데이터베이스로부터 테스트 샘플의 서열 판독물을 수집하는 단계; (b) 하나 이상의 프로세서들에 의해, 서열 그래프에 의해 각각 표현된 하나 이상의 반복 서열들에 서열 판독물을 정렬시키는 단계 - 여기서 서열 그래프는 핵산 서열들을 표현하는 정점들 및 정점들을 연결하는 방향성 에지들을 갖는 방향성 그래프의 데이터 구조를 갖고, 서열 그래프는 하나 이상의 자가-루프들을 포함하며, 각각의 자가-루프는 반복 하위서열을 표현하고, 각각의 반복 하위서열은 하나 이상의 뉴클레오티드들의 반복 단위의 반복체들을 포함함 -; 및 (c) 하나 이상의 프로세서들에 의해, 하나 이상의 반복 서열들에 정렬된 서열 판독물을 사용하여 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하는 단계를 포함한다.
일부 구현예들에서, 하나 이상의 반복 서열들의 반복 서열은 적어도 하나의 불완전하게 특정된 뉴클레오티드를 포함하는 특정 반복 단위를 포함한다. 일부 구현예들에서, 특정 반복 단위는 축퇴 코돈(degenerate codon)들을 포함한다.
일부 구현예들에서, 하나 이상의 자가-루프들은 2개 이상의 반복 하위서열을 표현하는 2개 이상의 자가-루프를 포함한다.
일부 구현예들에서, 서열 그래프는 2개 이상의 대립유전자에 대한 2개 이상의 대체 경로를 추가로 포함한다. 일부 구현예들에서, 2개 이상의 대립유전자는 인델(indel) 또는 치환을 포함한다. 일부 구현예들에서, 치환은 단일 뉴클레오티드 변이체(single nucleotide variant, SNV) 또는 단일 뉴클레오티드 다형성(single nucleotide polymorphism, SNP)을 포함한다. 일부 구현예들에서, 본 방법은 2개 이상의 대체 경로에 정렬된 서열 판독물을 사용하여 2개 이상의 대립유전자를 유전자형분석하는 단계를 추가로 포함한다. 일부 구현예들에서, 2개 이상의 대립유전자를 유전자형분석하는 단계는, 2개 이상의 대립유전자의 확률을 결정하기 위해 확률 모델에 2개 이상의 대체 경로의 커버리지를 제공하는 단계를 포함한다. 일부 구현예들에서, 확률 모델은 대립유전자의 커버리지의 함수로서 대립유전자의 확률을 시뮬레이션하며, 함수는 푸아송 분포, 음-이항 분포(negative-binomial distribution), 이항 분포, 또는 베타-이항 분포로부터 선택된다. 일부 구현예들에서, 푸아송 분포의 레이트 파라미터는 게놈 좌위에서 관찰된 판독물 길이 및 평균 깊이로부터 추정된다.
일부 구현예들에서, 방법은, (b) 이전에, 서열 판독물의 게놈 좌표를 결정하기 위해 참조 게놈에 서열 판독물을 정렬시키는 단계, 및 서열 그래프에 의해 각각 표현된 하나 이상의 반복 서열들에 정렬될 서열 판독물로서 서열 판독물의 서브세트를 선택하는 단계를 추가로 포함한다. 일부 구현예들에서, 서열 판독물의 서브세트는 서열 그래프에 의해 표현된 영역에 또는 그 근처에 정렬된 판독물을 포함한다. 일부 구현예들에서, 서열 판독물의 서브세트는, 메이트(mate)들이 서열 그래프에 의해 표현된 영역에 또는 그 근처에 맵핑되는, 비정렬된 판독물을 포함한다. 일부 구현예들에서, 서열 판독물의 서브세트는 판독물을 오정렬시키는 핫스팟(hot spot)으로 알려진 하나 이상의 오프-표적 영역들에 정렬된 판독물을 포함한다.
일부 구현예들에서, 서열 그래프에 서열 판독물을 정렬시키는 단계는: 서열 판독물과 서열 그래프의 경로 사이의 kmer 매치를 찾는 단계; 및 하나 이상의 자가-루프들을 포함하는 서열 그래프의 노드들 및 에지들의 전체 정렬로 kmer 매치를 연장하는 단계를 포함한다.
일부 구현예들에서, 서열 그래프에 서열 판독물을 정렬시키는 단계는 정렬들의 낮은 신뢰도 말단들을 제거하는 것에 의한 그래프 축소를 포함한다.
일부 구현예들에서, 서열 그래프에 서열 판독물을 정렬시키는 단계는: 서열 그래프에 판독물의 하위서열들을 정렬시키는 것; 및 서열 판독물의 전체 정렬을 형성하기 위해 하위서열들의 정렬들을 병합하는 것에 의한 정렬 병합을 포함한다.
일부 구현예들에서, 본 방법은 게놈 좌위의 좌위 구조를 포함하는 좌위 사양(locus specification)에 기초하여 서열 그래프를 생성하는 단계를 추가로 포함한다.
일부 구현예들에서, 서열 판독물은 쌍형성된 말단 판독물(paired end read)을 포함하고, 동작 (c)는, (i) 쌍형성된 말단 판독물 내의 앵커(anchor) 판독물 및 앵커링된(anchored) 판독물을 식별하는 단계 - 여기서 앵커 판독물은 하나 이상의 반복 서열들에 또는 그 근처에 정렬된 판독물이고, 앵커링된 판독물은 앵커 판독물과 쌍을 이루는 비정렬된 판독물임 -; 및 (ii) 적어도 앵커링된 판독물을 사용하여 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하는 단계를 포함한다.
일부 구현예들에서, 동작 (ii)는 앵커 판독물뿐만 아니라 앵커링된 판독물을 사용하여 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하는 단계를 포함한다. 일부 구현예들에서, 앵커 판독물은 반복 서열의 약 5 kb 내로 정렬된다. 일부 구현예들에서, 비정렬된 판독물은 서열 그래프에 정렬될 수 없거나 또는 그에 불량하게 정렬된 판독물을 포함한다.
일부 구현예들에서, 하나 이상의 반복 서열들은 짧은 탠덤 반복(STR) 서열을 포함한다. 일부 구현예들에서, STR의 확장은 취약 X 증후군, 근위축성 측삭경화증(ALS), 헌팅턴 병, 프리드라이히 운동실조증, 척수소뇌성 운동실조증, 척수구근 근위축증, 근긴장성 이영양증, 마카도-조셉 병, 또는 치상핵적핵 담창구시상하부 위축증과 연관된다.
일부 구현예들에서, 본 방법은 테스트 샘플로부터 쌍형성된 말단 판독물을 생성하기 위해 서열분석기를 사용하는 단계를 추가로 포함한다.
일부 구현예들에서, 본 방법은 개체로부터 테스트 샘플을 추출하는 단계를 추가로 포함한다.
일부 구현예들에서, 테스트 샘플은 혈액 샘플, 소변 샘플, 타액 샘플, 또는 조직 샘플이다.
일부 구현예들에서, 반복 단위는 1 내지 50개의 뉴클레오티드를 포함한다.
일부 구현예들에서, 판독물은 하나 이상의 반복 서열들 중 적어도 하나보다 짧다.
본 개시내용의 다른 양태는 반복 서열을 포함하는 게놈 좌위를 유전자형분석하기 위한 시스템들을 제공한다. 일부 구현예들에서, 시스템은 시스템 메모리 및 하나 이상의 프로세서들을 포함하며, 하나 이상의 프로세서들은, (a) 하나 이상의 프로세서들을 사용하여, 데이터베이스로부터 테스트 샘플의 서열 판독물을 수집하고; (b) 하나 이상의 프로세서들에 의해, 서열 그래프에 의해 각각 표현된 하나 이상의 반복 서열들에 서열 판독물을 정렬시키고 - 여기서 서열 그래프는 핵산 서열들을 표현하는 정점들 및 정점들을 연결하는 방향성 에지들을 갖는 방향성 그래프의 데이터 구조를 갖고, 서열 그래프는 하나 이상의 자가-루프들을 포함하며, 각각의 자가-루프는 반복 하위서열을 표현하고, 각각의 반복 하위서열은 하나 이상의 뉴클레오티드들의 반복 단위의 반복체들을 포함함 -; (c) 하나 이상의 프로세서들에 의해, 하나 이상의 반복 서열들에 정렬된 서열 판독물을 사용하여 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하도록 구성된다.
일부 구현예들에서, 시스템은 또한 테스트 샘플의 핵산을 서열분석하기 위한 서열분석기를 포함한다.
일부 구현예들에서, 하나 이상의 프로세서들은 본 명세서에 기술된 다양한 방법을 수행하도록 구성된다.
본 개시내용의 다른 양태는, 컴퓨터 시스템의 하나 이상의 프로세서들에 의해 실행될 때, 컴퓨터 시스템으로 하여금 반복 서열을 포함하는 게놈 좌위를 유전자형분석하기 위한 상기 방법들을 구현하게 하는, 프로그램 코드를 저장하는 비일시적 기계 판독가능 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다. 프로그램 코드는, (a) 데이터베이스로부터 테스트 샘플의 서열 판독물을 수집하기 위한 코드; (b) 서열 그래프에 의해 각각 표현된 하나 이상의 반복 서열들에 서열 판독물을 정렬시키기 위한 코드 - 여기서 서열 그래프는 핵산 서열들을 표현하는 정점들 및 정점들을 연결하는 방향성 에지들을 갖는 방향성 그래프의 데이터 구조를 갖고, 서열 그래프는 하나 이상의 자가-루프들을 포함하며, 각각의 자가-루프는 반복 하위서열을 표현하고, 각각의 반복 하위서열은 하나 이상의 뉴클레오티드들의 반복 단위의 반복체들을 포함함 -; 및 (c) 하나 이상의 반복 서열들에 정렬된 서열 판독물을 사용하여 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하기 위한 코드를 포함한다.
일부 구현예들에서, 프로그램 코드는 본 명세서에 기술된 방법들의 동작들을 수행하기 위한 코드를 포함한다.
본 명세서의 예들은 인간에 관한 것이고, 그 언어는 주로 인간 관심사에 관한 것이지만, 본 명세서에 기술된 개념들은 임의의 식물 또는 동물로부터의 게놈들에 적용가능하다. 본 개시내용의 이들 및 다른 목적들 및 특징들은 아래의 설명 및 첨부된 청구범위로부터 더욱 완전히 명백해질 것이거나, 또는 이하에서 기재되는 바와 같은 본 개시내용의 실시에 의해 학습될 수 있다.
도 1a는 참조 서열 상의 반복 서열에 대한 서열 판독물의 정렬에서의 어려움을 예시하는 개략도이다.
도 1b는 도 1a에 도시된 어려움을 극복하기 위해 소정의 개시된 구현예들에 따른 쌍형성된 말단 판독물을 사용한 서열 판독물의 정렬을 예시하는 개략도이다.
도 1c는 일부 구현예들에 따른 반복 서열을 포함하는 게놈 좌위를 유전자형분석하는 프로세스를 예시하는 흐름도를 도시한다.
도 1d는 제1 게놈 좌위를 표현하는 제1 서열 그래프를 도시한다.
도 1e는 제2 게놈 좌위를 표현하는 제2 서열 그래프를 도시한다.
도 1f는 제3 게놈 좌위를 표현하는 제3 서열 그래프를 도시한다.
도 1g는 일부 구현예들에 따른 2개의 STR 서열을 포함하는 HTT 좌위에서의 변이체의 유전자형을 결정하기 위한 프로세스의 개략도를 도시한다.
도 1h는 일부 구현예들에 따른, SNV 및 STR을 포함하는 Lynch I 좌위에서의 변이체의 유전자형을 결정하기 위한 프로세스의 개략도를 도시한다. 도 1h의 좌측 패널은 표적화된 유전자형분석을 위한 일반적인 프로세스의 개략도를 도시하고; 우측 패널은 Lynch I 증후군과 연관된 좌위에서의 변이체의 유전자형분석에 이 프로세스를 적용하는 것을 도시한다.
도 2는 샘플 내의 반복 서열의 확장의 존재 또는 부재를 결정하기 위한 방법의 일례의 고레벨 묘사를 제공하는 흐름도이다.
도 3 및 도 4는 쌍형성된 말단 판독물을 사용하여 반복 확장을 검출하기 위한 방법들의 예들을 예시하는 흐름도들이다.
도 5는 반복 확장을 결정하기 위해 관심있는 임의의 반복 서열과 연관되지 않은 비정렬된 판독물을 사용하는 방법의 흐름도이다.
도 6은 테스트 샘플을 처리하기 위한 분산 시스템의 블록도이다.
도 7은 상이한 방법들을 사용하여 시뮬레이션된 데이터로부터 HTT 좌위 내의 CAG 및 CCG STR들을 유전자형분석하는 정확도를 도시한다.
본 개시내용은 의학적으로 중요한 반복 서열의 확장과 같은, 관심있는 반복 확장을 식별하기 위한 방법들, 장치들, 시스템들, 및 컴퓨터 프로그램 제품들에 관한 것이다. 반복 확장의 예들은 취약 X 증후군, ALS, 헌팅턴 병, 프리드라이히 운동실조증, 척수소뇌성 운동실조증, 척수구근 근위축증, 근긴장성 이영양증, 마카도-조셉 병, 및 치상핵적핵 담창구시상하부 위축증과 같은 유전적 장애들과 연관된 확장들을 포함하지만, 이들로 제한되지 않는다.
달리 지시되지 않는 한, 본 명세서에 개시된 방법들 및 시스템들의 실시는 당해 분야의 기술 내에 있는 분자 생물학, 미생물학, 단백질 정제, 단백질 공학, 단백질 및 DNA 서열분석, 및 재조합 DNA 분야에서 일반적으로 사용되는 종래의 기술들 및 장치를 수반한다. 그러한 기술들 및 장치들은 당업자에게 알려져 있으며, 다수의 텍스트 및 참조 문헌에 기술되어 있다(예를 들어, 문헌[Sambrook et al., "Molecular Cloning: A Laboratory Manual," Third Edition (Cold Spring Harbor), [2001]); 및 Ausubel et al., "Current Protocols in Molecular Biology" [1987]] 참조).
수치 범위는 범위를 한정하는 수를 포함한다. 본 명세서 전반에 걸쳐 주어진 모든 최대 수치 제한은, 모든 더 낮은 수치 제한이 마치 본 명세서에 명시적으로 기재된 것처럼, 그러한 더 낮은 수치 제한들을 포함하는 것으로 의도된다. 본 명세서 전반에 걸쳐 주어진 모든 최소 수치 제한은, 모든 더 높은 수치 제한이 마치 본 명세서에 명시적으로 기재된 것처럼, 그러한 더 높은 수치 제한들을 포함할 것이다. 본 명세서 전반에 걸쳐 주어진 모든 수치 범위는, 그러한 더 넓은 수치 범위 내에 속하는 모든 더 좁은 수치 범위가 모두 본 명세서에 명시적으로 기재된 것처럼, 그러한 더 좁은 수치 범위들을 포함할 것이다.
본 명세서에 제공된 제목들은 본 개시내용을 제한하고자 하는 것은 아니다.
본 명세서에서 달리 정의되지 않는 한, 본 명세서에 사용되는 모든 기술 및 과학 용어들은 당업자에 의해 통상적으로 이해하는 것과 동일한 의미를 갖는다. 본 명세서에 포함된 용어들을 포함하는 다양한 과학 사전들은 당업자에 잘 알려져 있고 이용가능하다. 본 명세서에서 기술되는 것들과 유사한 또는 동등한 임의의 방법들 및 재료들이 본 명세서에 개시된 실시형태들의 실시 또는 테스트에 사용되지만, 일부 방법들 및 재료들이 기술된다.
바로 아래에 정의된 용어들은 전체적으로 본 명세서를 참조하여 더욱 완전히 기술된다. 본 개시내용은 기술된 특정 방법론, 프로토콜들, 및 시약들로 제한되지 않는다는 것이 이해되어야 하는데, 이는 이들이 당업자에 의해 사용되는 맥락에 따라 달라질 수 있기 때문이다.
정의
본 명세서에 사용되는 바와 같이, 단수 용어들("a", "an" 및 "the")은 문맥상 달리 명확하게 지시하지 않는 한, 복수의 지시대상을 포함한다.
달리 지시되지 않는 한, 핵산은 5'에서 3' 배향으로 좌측에서 우측으로 쓰여지고 아미노산 서열은 아미노에서 카르복시 배향으로 좌측에서 우측으로 각각 쓰여진다.
용어 "복수"는 하나 초과의 요소를 지칭한다. 예를 들어, 이 용어는 본 명세서에 개시된 방법들을 사용하여 테스트 샘플 및 대조군 샘플에서 반복 확장들의 유의차를 식별하기에 충분한 수의 핵산 분자 또는 서열 판독물과 관련하여 본 명세서에서 사용된다.
용어 "반복 서열"은 더 짧은 서열의 반복적인 발생을 포함하는 핵산 서열을 지칭한다. 더 짧은 서열은 본 명세서에서 "반복 단위"로 지칭된다. 반복 단위의 반복적인 발생은 반복 단위의 "반복체들" 또는 "복제물들"로 지칭된다. 많은 맥락에서, 반복 서열의 위치는 단백질을 인코딩하는 유전자와 연관된다. 다른 상황들에서, 반복 서열은 비-코딩 영역 내에 있을 수 있다. 반복 단위들은 반복 단위들 사이에 절단부(break)들을 갖거나 갖지 않고서 반복 서열에서 발생할 수 있다. 예를 들어, 정상 샘플에서, FMR1 유전자는 CGG 반복체들 내에 AGG 절단부를 포함하는 경향이 있다(예를 들어, (CGG)10 + (AGG) + (CGG)9). 절단부가 없는 샘플뿐만 아니라, 절단부가 거의 없는 긴 반복 서열은 연관된 유전자의 확장을 반복하기 쉬우며, 이는 반복체들이 특정 수를 초과하여 확장됨에 따라 유전병들로 이어질 수 있다. 본 개시내용의 다양한 실시형태들에서, 반복체들의 수는 절단부에 상관없이 프레임-내 반복체들로서 카운팅된다. 프레임-내 반복체들을 추정하기 위한 방법들은 이하에서 추가로 기술된다.
다양한 실시형태들에서, 반복 단위는 1 내지 100개의 뉴클레오티드를 포함한다. 널리 연구된 다수의 반복 단위는 트리뉴클레오티드 또는 헥사뉴클레오티드 단위이다. 잘 연구되어 왔으며, 본 명세서에 개시된 실시형태들에 적용가능한 일부 다른 반복 단위는 4, 5, 6, 8, 12, 33, 또는 42개 뉴클레오티드의 단위를 포함하지만, 이들로 제한되지 않는다. 예를 들어, 문헌 [Richards (2001) Human Molecular Genetics, Vol. 10, No. 20, 2187-2194]을 참조한다. 본 개시내용의 적용들은, 반복 단위들의 다수의 반복체들 또는 복제물들을 갖는 반복 서열과 비교하여 비교적 짧은 한, 전술된 특정 수의 뉴클레오티드 염기로 제한되지 않는다. 예를 들어, 반복 단위는 적어도 3, 6, 8, 10, 15, 20, 30, 40, 50개의 뉴클레오티드를 포함할 수 있다. 대안적으로 또는 추가적으로, 반복 단위는 최대 약 100, 90, 80, 70, 60, 50, 40, 30, 20, 10, 6 또는 3개의 뉴클레오티드를 포함할 수 있다.
반복 서열은 진화, 발달, 및 돌연변이 유발 조건들에서 확장되어, 동일한 반복 단위의 더 많은 복제물을 생성할 수 있다. 이는 해당 분야에서 "반복 확장"으로 지칭된다. 이러한 프로세스는 또한 반복 단위의 확장의 불안정한 성질로 인해 "동적 돌연변이"로 지칭된다. 일부 반복 확장은 유전적 장애 및 병리학적 증상과 연관되는 것으로 나타났다. 다른 반복 확장들은 잘 이해되거나 연구되어 있지 않다. 본 명세서에 개시된 방법들은 이전에 알려진 그리고 새로운 반복 확장들 둘 모두를 식별하는 데 사용될 수 있다. 일부 실시형태들에서, 반복 확장을 갖는 반복 서열은 약 100, 150, 300 또는 500개의 염기쌍(bp)보다 더 길다. 일부 실시형태들에서, 반복 확장을 갖는 반복 서열은 약 1000bp, 2000bp, 3000bp, 4000bp, 5000bp, 또는 10000bp 등보다 더 길다.
그래프 이론에서, 정점 및 에지는 그래프가 그들로부터 구성되는 2개의 기본 단위이다. 정점 또는 노드는, 그래프가 정의되고 에지들에 의해 연결될 수 있는 지점들 중 하나이다. 그래프의 다이어그램에서, 정점은 라벨을 갖는 형상으로 표현될 수 있고, 에지는 하나의 정점으로부터 다른 정점까지 연장되는 선(무방향성 에지) 또는 화살표(방향성 에지)에 의해 표현된다.
에지에 의해 연결된 2개의 정점은 에지의 종점들이라고 한다. 그래프가 에지 (x, y)를 포함하는 경우 정점 x는 다른 정점 y에 인접해 있다고 한다.
무방향성 그래프는 정점들의 세트 및 (비순서화된 정점들의 쌍들을 연결하는) 무방향성 에지들의 세트로 구성되는 반면, 방향성 그래프는 정점들의 세트 및 (순서화된 정점들의 쌍들을 연결하는) 방향성 에지들의 세트로 구성된다.
그래프 이론에서, 각각의 에지는 그것이 부착되는 2개의(또는 하이퍼그래프들에서는, 더 많은) 정점을 가지며, 이는 그의 종점들로 불린다. 에지는 방향성이거나 무방향성일 수 있고; 무방향성 에지는 선(line)으로도 불리며, 방향성 에지는 호(arc) 또는 화살표로도 불린다.
방향성 에지는 상류측 정점 및 하류측 정점을 연결하는 에지이며, 여기서 상류측 정점은 방향성 에지 앞에 나타나고 하류측 정점은 방향성 에지 뒤에 나타난다.
무방향성 에지는 2개의 정점을 연결하는 에지이며, 여기서 어느 하나의 정점이 그래프 경로에서 다른 정점 앞에 나타날 수 있다.
루프, 자가-루프, 및 단일-노드 루프는 본 명세서에서 상호교환가능하게 사용된다. 루프는 하나의 노드, 및 2개의 말단 모두가 하나의 노드에 연결되는 에지를 갖는다.
사이클은 2개 이상의 정점을 포함하는 경로이며, 여기서 사이클의 경로는 동일한 정점에서 시작하고 종료한다. 단순 사이클은 시작 및 종료 정점 이외에 반복된 정점 또는 에지를 갖지 않는 사이클이다.
순환 그래프는 적어도 하나의 사이클을 포함하는 그래프이다.
비순환 그래프는 임의의 사이클 또는 자가-루프를 포함하지 않는 그래프이다.
방향성 비순환 그래프(directed acyclic graph, DAG)는 임의의 사이클 또는 자가-루프가 없는 방향성 그래프이다.
그래프 경로는 정점들 및 에지들의 서열이며, 여기서 에지의 양쪽 종점들은 서열에서 에지에 인접하게 나타난다. 방향성 그래프의 그래프 경로는 방향성 에지(또는 호 또는 화살표) 앞에 나타나는 상류측 정점 및 방향성 에지 뒤에 나타나는 하류측 정점을 갖는다.
푸아송 분포는, 주어진 수의 이벤트들이 마지막 이벤트 이후의 시간과 독립적으로 그리고 알려진 일정한 레이트로 발생하는 경우, 이들 이벤트가 고정된 시간 간격 또는 공간에서 발생하는 확률을 나타내는 이산 확률 분포이다.
완전히 특정된 염기 기호들은 각각 구아닌, 아데닌, 티민, 및 시토신에 대한 G, A, T, C를 포함한다.
불완전하게 특정된 핵산 명명법은 특히 다음과 같은 것을 포함한다.
퓨린(아데닌 또는 구아닌): R
피리미딘(티민 또는 시토신): Y
아데닌 또는 티민: W
구아닌 또는 시토신: S
아데닌 또는 시토신: M
구아닌 또는 티민: K
아데닌 또는 티민 또는 시토신: H
구아닌 또는 시토신 또는 티민: B
구아닌 또는 아데닌 또는 시토신: V
구아닌 또는 아데닌 또는 티민: D
구아닌 또는 아데닌 또는 티민 또는 시토신: N
용어 "쌍형성된 말단 판독물"은 핵 단편의 각각의 말단으로부터 하나의 판독물을 획득하는 쌍형성된 말단 서열분석으로부터 획득된 판독물을 지칭한다. 쌍형성된 말단 서열분석은 삽입물들로 불리는 서열들로 DNA를 단편화하는 것을 수반한다. 일루미나(Illumina)에 의해 사용되는 일부와 같은 일부 프로토콜들에서, 더 짧은 삽입물로부터의(예를 들어, 대략 수십 내지 수백 bp) 판독물은 짧은-삽입물 쌍형성된 말단 판독물 또는 간단히 쌍형성된 말단 판독물로 지칭된다. 대조적으로, 더 긴 삽입물로부터의(예를 들어, 대략 수천 bp) 판독물은 메이트 쌍 판독물로 지칭된다. 본 개시내용에서, 짧은-삽입물 쌍형성된 말단 판독물 및 긴-삽입물 메이트 쌍 판독물 둘 모두가 사용될 수 있고, 반복 확장을 분석하기 위한 프로세스와 관련하여 구별되지 않는다. 따라서, 용어 "쌍형성된 말단 판독물"은 짧은-삽입물 쌍형성된 말단 판독물 및 긴-삽입물 메이트 쌍 판독물 둘 모두를 지칭할 수 있으며, 이는 본 명세서에서 이후에 추가로 기술된다. 일부 실시형태들에서, 쌍형성된 말단 판독물은 약 20 bp 내지 1000 bp의 판독물을 포함한다. 일부 실시형태들에서, 쌍형성된 말단 판독물은 약 50 bp 내지 500 bp, 약 80 bp 내지 150 bp, 또는 약 100 bp의 판독물을 포함한다. 쌍형성된 말단에서의 2개의 판독물은 서열분석되는 단편의 최극단에 위치될 필요가 없다는 것을 이해할 것이다. 오히려, 하나 또는 둘 모두의 판독물이 단편의 말단에 근접하게 있을 수 있다. 또한, 쌍형성된 말단 판독물의 맥락에서 본 명세서에 예시된 방법들은, 판독물이 단편의 말단 또는 단편의 다른 부분으로부터 유래되는지 여부에 관계없이 다양한 쌍형성된 판독물 중 임의의 것으로 수행될 수 있다.
본 명세서에 사용되는 바와 같이, 용어들 "정렬" 및 "정렬하는"은 판독물을 참조 서열과 비교하고 이에 의해 참조 서열이 판독된 서열을 포함하는지를 결정하는 프로세스를 지칭한다. 정렬 프로세스는 판독물이 참조 서열에 맵핑될 수 있는지 여부를 결정하려고 시도하지만, 항상 참조 서열에 정렬된 판독물을 생성하는 것은 아니다. 참조 서열이 판독물을 포함하는 경우, 판독물은 참조 서열에 맵핑될 수 있거나, 또는 소정 실시형태들에서, 참조 서열 내의 특정 위치에 맵핑될 수 있다. 일부 경우들에 있어서, 정렬은 판독물이 특정 참조 서열의 구성원인지의 여부(즉, 판독물이 참조 서열에 존재하는지 아니면 존재하지 않는지)를 간단히 알려준다. 예를 들어, 인간 염색체 13에 대한 참조 서열과 판독물의 정렬은 판독물이 염색체 13에 대한 참조 서열에 존재하는지의 여부를 알려줄 것이다. 이러한 정보를 제공하는 툴은 세트 멤버십 테스터(set membership tester)로 칭해질 수 있다. 일부 경우들에 있어서, 정렬은, 추가로, 판독물이 맵핑되는 참조 서열 내의 위치를 나타낸다. 예를 들어, 참조 서열이 전체 인간 게놈 서열인 경우, 정렬은 판독물이 염색체 13 상에 존재함을 나타낼 수 있고, 판독물이 염색체 13의 특정 가닥 및/또는 부위 상에 있음을 추가로 나타낼 수 있다.
정렬된 판독물은 참조 게놈과 같은 알려진 참조 서열에 대한 그들의 핵산 분자의 순서와 관련하여 매치인 것으로서 식별되는 하나 이상의 서열들이다. 정렬된 판독물 및 참조 서열 상에서의 그의 결정된 위치는 서열 태그를 구성한다. 정렬은 전형적으로 컴퓨터 알고리즘에 의해 구현되지만, 본 명세서에 개시된 방법들을 구현하기 위한 합리적인 시간 기간 내에 판독물을 정렬하는 것이 불가능할 것이기 때문에, 정렬은 수동으로 행해질 수 있다. 서열을 정렬하는 것으로부터의 알고리즘의 일례는 일루미나 게놈 분석 파이프라인(Illumina Genomics Analysis pipeline)의 일부로서 배포된 ELAND(Efficient Local Alignment of Nucleotide Data) 컴퓨터 프로그램이다. 대안적으로, 블룸 필터 또는 유사한 세트 멤버십 테스터가, 판독물을 참조 게놈에 정렬시키기 위해 채용될 수 있다. 2014년 4월 25일자로 출원된 미국 특허 출원 제14/354,528호를 참조하며, 이는 전체적으로 본 명세서에 참고로 포함된다. 정렬 시 서열 판독물의 매칭은 100% 서열 매치 또는 100% 미만(즉, 완벽하지 않은 매치)일 수 있다.
본 명세서에 사용되는 용어 "맵핑"은 정렬에 의해, 더 큰 서열, 예를 들어, 참조 게놈에 판독된 서열을 할당하는 것을 지칭한다.
일부 경우들에서, 2개의 쌍형성된 말단 판독물 중 하나의 말단 판독물은 참조 서열의 반복 서열에 정렬되는 반면, 2개의 쌍형성된 말단 판독물 중 다른 말단 판독물은 정렬되지 않는다. 그러한 경우들에서, 참조 서열의 반복 서열에 정렬되는 쌍형성된 판독물은 "앵커 판독물"로 지칭된다. 반복 서열에 정렬되지 않지만 앵커 판독물과 쌍을 이루는, 쌍형성된 말단 판독물은 앵커링된 판독물로 지칭된다. 이와 같이, 비정렬된 판독물은 반복 서열에 앵커링되고 이와 연관될 수 있다. 일부 실시형태들에서, 비정렬된 판독물은 참조 서열에 정렬될 수 없는 판독물 및 참조 서열에 불량하게 정렬되는 판독물 둘 모두를 포함한다. 판독물이 소정 기준보다 많은 수의 미스매칭된 염기를 가지면서 참조 서열에 정렬될 때, 판독물은 불량하게 정렬된 것으로 간주된다. 예를 들어, 다양한 실시형태들에서, 판독물은 그것이 적어도 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개의 미스매치와 정렬될 때 불량하게 정렬된 것으로 간주된다. 일부 경우들에 있어서, 한 쌍의 판독물들 둘 모두는 참조 서열에 정렬된다. 그러한 경우들에 있어서, 판독물들 둘 모두는 다양한 구현예들에서 "앵커 판독물"로서 분석될 수 있다.
용어들 "폴리뉴클레오티드", "핵산" 및 "핵산 분자"는 상호교환가능하게 사용되고 공유 결합된 뉴클레오티드 서열(즉, RNA에 대한 리보뉴클레오티드 및 DNA에 대한 데옥시리보뉴클레오티드)을 지칭하며, 여기서 하나의 뉴클레오티드의 펜토스의 3' 위치는 포스포다이에스테르 그룹에 의해 그 다음의 펜토스의 5' 위치에 결합된다. 뉴클레오티드들은 RNA 및 DNA 분자, 예컨대 무세포 DNA(cfDNA) 분자를 포함하지만, 이들로 제한되지 않는, 임의의 형태의 핵산의 서열을을 포함한다. 용어 "폴리뉴클레오티드"는 단일- 및 이중-가닥 폴리뉴클레오티드를 제한 없이 포함한다.
본 명세서에서 용어 "테스트 샘플"은, 전형적으로, 복제수 변이에 대해 스크리닝될 적어도 하나의 핵산 서열을 갖는 핵산 또는 핵산들의 혼합물을 포함하는 생물학적 유체, 세포, 조직, 장기, 또는 유기체로부터 유래된 샘플을 지칭한다. 소정 실시형태들에서, 샘플은, 복제수가 변이를 겪은 것으로 의심되는 적어도 하나의 핵산 서열을 갖는다. 그러한 샘플은 가래/구강액, 양수, 혈액, 혈액 분획물, 또는 미세 니들 생검 샘플, 소변, 복막액, 흉수 등을 포함하지만, 이들로 제한되지 않는다. 샘플은 종종 인간 대상체(예컨대, 환자)로부터 취해지지만, 검정은 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만 이들로 제한되지 않는, 임의의 포유류로부터의 샘플에서 복제수 변이(CNV)에 사용될 수 있다. 샘플은 생물학적 소스로부터 획득된 그대로 직접 사용되거나, 또는 샘플의 특성을 변형시키기 위한 전처리 후에 사용될 수 있다. 예를 들어, 그러한 전처리는 혈액으로부터 혈장을 제조하는 것, 점성 유체를 희석시키는 것 등을 포함할 수 있다. 전처리의 방법들은, 또한, 여과, 침전, 희석, 증류, 혼합, 원심분리, 동결, 동결건조, 농축, 증폭, 핵산 단편화, 방해 성분의 불활성화, 시약의 첨가, 용해 등을 수반할 수 있지만, 이들로 한정되지 않는다. 그러한 전처리 방법들이 샘플에 대해 채용되는 경우, 그러한 전처리 방법들은 전형적으로, 관심있는 핵산(들)이, 때때로 미처리된 테스트 샘플(예를 들어, 즉, 임의의 그러한 전처리 방법(들)을 거치지 않은 샘플)에서의 농도에 비례하는 농도로, 테스트 샘플 내에 남아 있도록 한다. 그러한 "처리된(treated)" 또는 "처리된(processed)" 샘플은 여전히 본 명세서에 기술된 방법들과 관련하여 생물학적 "테스트" 샘플인 것으로 간주된다.
대조군 샘플은 음성 또는 양성 대조군 샘플일 수 있다. "음성 대조군 샘플" 또는 "영향받지 않은 샘플"은 병원성이 아닌 범위 내에서 다수의 반복체들을 갖는 반복 서열을 가지는 것으로 알려지거나 예상되는 핵산을 포함하는 샘플을 지칭한다. "양성 대조군 샘플" 또는 "영향받은 샘플"은 병원성인 범위 내에서 다수의 반복체들을 갖는 반복 서열을 가지는 것으로 알려지거나 예상된다. 음성 대조군 샘플 내의 반복 서열의 반복체들은 전형적으로 정상 범위를 넘어서 확장되지 않은 반면, 양성 대조군 샘플 내의 반복 서열의 반복체들은 전형적으로 정상 범위를 넘어서 확장되었다. 이와 같이, 테스트 샘플 내의 핵산은 하나 이상의 대조군 샘플과 비교될 수 있다.
본 명세서에서 용어 "관심있는 서열"은 건강한 개체 대 질병에 걸린 개체에서의 서열 표현의 차이와 연관되는 핵산 서열을 지칭한다. 관심있는 서열은 질병 또는 유전적 상태에서 확장되는 염색체 상의 반복 서열일 수 있다. 관심있는 서열은 염색체, 유전자, 코딩 또는 비-코딩 서열의 일부분일 수 있다.
본 명세서에서 용어 "차세대 서열분석(Next Generation Sequencing, NGS)"은 클론 증폭된 분자의 및 단일 핵산 분자의 대량 병렬 서열분석을 허용하는 서열분석 방법들을 지칭한다. NGS의 비제한적인 예들은 가역적 염료 종결자를 사용한 합성에 의한 서열분석(sequencing-by-synthesis), 및 라이게이션에 의한 서열분석(sequencing-by-ligation)을 포함한다.
본 명세서에서 용어 "파라미터"는 물리적 특성을 특성화하는 수치 값을 지칭한다. 종종, 파라미터는 정량적 데이터 세트 및/또는 정량적 데이터 세트들 사이의 수치 관계를 수치적으로 특성화한다. 예를 들어, 염색체에 맵핑되는 서열 태그의 수와 태그가 맵핑되는 염색체의 길이 사이의 비(또는 비의 함수)가 파라미터이다.
본 명세서에서 용어 "호출 기준"은 의학적 상태를 갖는 것으로 의심되는 유기체로부터의 핵산을 함유하는 테스트 샘플과 같은 샘플을 특성화하기 위한 컷오프로서 사용되는 임의의 수 또는 양을 지칭한다. 임계치는 파라미터 값과 비교되어, 그러한 파라미터 값을 생성하는 샘플이 유기체가 의학적 상태를 가지고 있음을 시사하는지 여부를 결정할 수 있다. 소정 실시형태들에서, 임계값은 대조군 데이터 세트를 사용하여 계산되고, 유기체에서 반복 확장의 진단의 한계로서의 역할을 한다. 일부 구현예들에서, 임계치가 본 명세서에 개시된 방법들로부터 획득된 결과들에 의해 초과되는 경우, 대상체는 반복 확장으로 진단될 수 있다. 본 명세서에 기술된 방법들에 대한 적절한 임계값은 대조군 샘플 또는 샘플의 트레이닝 세트에 대해 계산된 값을 분석함으로써 식별될 수 있다. 임계값은 또한 서열분석 깊이, 판독물 길이, 반복 서열 길이 등과 같은 경험적 파라미터들로부터 계산될 수 있다. 대안적으로, 반복 확장을 갖는 것으로 알려진 영향받은 샘플은 또한, 선택된 임계치가 테스트 세트 내의 영향받지 않은 샘플로부터 영향받은 샘플을 구별하는 데 있어서 유용하다는 것을 확인하는 데 사용될 수 있다. 임계치의 선택은 사용자가 분류를 행해야 하는 것으로 원하는 신뢰도의 레벨에 의존한다. 일부 실시형태들에서, 적절한 임계값을 식별하는 데 사용되는 트레이닝 세트는 적어도 10, 적어도 20, 적어도 30, 적어도 40, 적어도 50, 적어도 60, 적어도 70, 적어도 80, 적어도 90, 적어도 100, 적어도 200, 적어도 300, 적어도 400, 적어도 500, 적어도 600, 적어도 700, 적어도 800, 적어도 900, 적어도 1000, 적어도 2000, 적어도 3000, 적어도 4000개, 또는 그 이상의 적격 샘플을 포함한다. 임계값의 진단 유용성을 개선하기 위해 보다 큰 세트의 적격 샘플들을 사용하는 것이 유리할 수 있다.
용어 "판독물"은 핵산 샘플의 일부분으로부터의 서열 판독물을 지칭한다. 필수적인 것은 아니지만, 전형적으로, 판독물은 샘플 내의 인접 염기쌍들의 짧은 서열을 표현한다. 판독물은 샘플 부분의 (ATCG에서의) 염기쌍 서열에 의해 상징적으로 표현될 수 있다. 그것은 메모리 디바이스에 저장될 수 있으며, 그것이 참조 서열과 매칭하는지 또는 다른 기준을 충족시키는지 여부를 결정하기 위해 적절하게 처리될 수 있다. 판독물은 서열분석 장치로부터 직접 획득되거나 샘플에 관하여 저장된 서열 정보로부터 간접적으로 획득될 수 있다. 일부 경우들에 있어서, 판독물은, 예컨대 염색체 또는 게놈 영역 또는 유전자에 정렬되고 맵핑될 수 있는 더 큰 서열 또는 영역을 식별하는 데 사용될 수 있는 충분한 길이(예컨대, 적어도 약 25 bp)의 DNA 서열이다.
용어 "게놈 판독물"은 개체의 전체 게놈에서의 임의의 세그먼트들의 판독물과 관련하여 사용된다.
용어 "부위(site)"는 참조 게놈 상의 고유 위치(즉, 염색체 ID, 염색체 위치 및 배향)를 지칭한다. 일부 실시형태들에서, 부위는 서열 상의 잔기, 서열 태그, 또는 세그먼트의 위치일 수 있다.
본 명세서에 사용되는 바와 같이, 용어 "참조 게놈" 또는 "참조 서열"은 대상체로부터 식별된 서열을 참조하기 위해 사용될 수 있는 임의의 유기체 또는 바이러스의, 부분적이든 완전하든, 임의의 특정의 알려진 게놈 서열을 지칭한다. 예를 들어, 인간 대상체에 사용되는 참조 게놈뿐만 아니라 많은 다른 유기체들이 ncbi.nlm.nih.gov.에서의 국립 생물공학 정보 센터(National Center for Biotechnology Information)에서 찾아질 수 있다. "게놈"은 핵산 서열들에서 발현되는, 유기체 또는 바이러스의 완전한 유전자 정보를 지칭한다.
다양한 실시형태들에서, 참조 서열은 그에 정렬된 판독물보다 상당히 더 크다. 예를 들어, 그것은 적어도 약 100배 더 크거나, 또는 적어도 약 1000배 더 크거나, 또는 적어도 약 10,000배 더 크거나, 또는 적어도 약 105배 더 크거나, 또는 적어도 약 106배 더 크거나, 또는 적어도 약 107배 더 클 수 있다.
하나의 예에서, 참조 서열은 전장 인간 게놈의 것이다. 이러한 서열은 게놈 참조 서열로 지칭될 수 있다. 다른 예에서, 참조 서열은 염색체 13과 같은 특정 인간 염색체로 제한된다. 일부 실시형태들에서, 참조 Y 염색체는 인간 게놈 버전 hg19로부터의 Y 염색체 서열이다. 이러한 서열은 염색체 참조 서열로 지칭될 수 있다. 참조 서열들의 다른 예들은 임의의 종의 염색체, 하위-염색체 영역들(예를 들어, 가닥들) 등뿐만 아니라 다른 종의 게놈들을 포함한다.
일부 실시형태들에서, 정렬을 위한 참조 서열은 판독물의 길이의 약 1 내지 약 100배의 서열 길이를 가질 수 있다. 이러한 실시형태들에서, 정렬 및 서열분석은 전체 게놈 정렬 또는 서열분석 대신에, 표적화된 정렬 또는 서열분석으로 간주된다. 이들 실시형태에서, 참조 서열은 전형적으로 관심있는 유전자 및/또는 반복 서열을 포함한다.
다양한 실시형태들에서, 참조 서열은 다수의 개체로부터 유래된 공통 서열(consensus sequence) 또는 다른 조합이다. 그러나, 소정 응용들에서, 참조 서열은 특정 개체로부터 취해질 수 있다.
본 명세서에서 용어 "임상적으로 관련된 서열"은 유전적 또는 질병 상태와 연관되거나 연루된 것으로 알려지거나 의심되는 핵산 서열을 지칭한다. 임상적으로 관련된 서열의 부재 또는 존재를 결정하는 것은 진단을 결정하거나 의학적 상태의 진단을 확인하거나, 또는 질병의 발달에 대한 예후를 제공하는 데 유용할 수 있다.
핵산 또는 핵산들의 혼합물의 맥락에서 사용될 때 용어 "유래된"은 본 명세서에서, 핵산(들)이 그들이 유래하는 소스로부터 획득되는 수단을 지칭한다. 예를 들어, 일 실시형태에서, 2개의 상이한 게놈들로부터 유래되는 핵산들의 혼합물은 핵산, 예를 들어 cfDNA가 괴사 또는 아포토시스와 같은 자연 발생 과정을 통해 세포들에 의해 자연적으로 방출되었음을 의미한다. 다른 실시형태에서, 2개의 상이한 게놈으로부터 유래되는 핵산들의 혼합물은, 핵산들이 대상체로부터 2개의 상이한 유형의 세포들로부터 추출되었음을 의미한다.
특정 정량적 값을 획득하는 맥락에서 사용될 때 용어 "~에 기초하여"는 본 명세서에서, 출력으로서 특정 정량적 값을 계산하기 위한 입력으로서 다른 양을 사용하는 것을 지칭한다.
본 명세서에서 용어 "환자 샘플"은 환자, 즉, 의학적 주의, 케어 또는 치료의 수령자로부터 획득된 생물학적 샘플을 지칭한다. 환자 샘플은 본 명세서에 기술된 샘플 중 임의의 것일 수 있다. 소정 실시형태들에서, 환자 샘플은 비-침습성 절차, 예를 들어 말초 혈액 샘플 또는 대변 샘플에 의해 획득된다. 본 명세서에 기술된 방법들은 인간으로 제한될 필요는 없다. 따라서, 환자 샘플이 비-인간 포유류(예를 들어, 고양이, 돼지, 말, 소 등)로부터의 샘플일 수 있는 다양한 수의학적 응용들이 고려된다.
본 명세서에서 용어 "생물학적 유체"는 생물학적 소스로부터 취해진 액체를 지칭하며, 예를 들어, 혈액, 혈청, 혈장, 가래, 세척액, 뇌척수액, 소변, 정액, 땀, 눈물, 타액 등을 포함한다. 본 명세서에 사용되는 바와 같이, 용어 "혈액", "혈장" 및 "혈청"은 그의 분획물들 또는 처리된 부분들을 명시적으로 포괄한다. 유사하게, 샘플이 생검, 면봉, 스미어 등으로부터 취해지는 경우, "샘플"은 생검, 면봉, 스미어 등으로부터 유래된, 처리된 분획물 또는 부분을 명시적으로 포괄한다.
본 명세서에 사용되는 바와 같이, 용어 "~에 대응하는"은 때때로 상이한 대상체들의 게놈에 존재하고, 그리고 모든 게놈들에서 반드시 동일한 서열을 갖는 것은 아니지만, 관심있는 서열, 예를 들어, 유전자 또는 염색체의 유전자 정보보다는 아이덴티티를 제공하는 역할을 하는 핵산 서열, 예를 들어, 유전자 또는 염색체를 지칭한다.
본 명세서에 사용되는 바와 같이, 용어 "염색체"는 DNA 및 단백질 성분들(특히, 히스톤)을 포함하는 염색질 가닥들로부터 유래된, 살아있는 세포의 유전-보유 유전자 운반체(heredity-bearing gene carrier)를 지칭한다. 종래의 국제적으로 인식되는 개별 인간 게놈 염색체 넘버링 시스템이 본 명세서에 채용된다.
본 명세서에 사용되는 바와 같이, 용어 "폴리뉴클레오티드 길이"는 참조 게놈의 서열 또는 영역 내의 핵산 단량체 하위단위들(뉴클레오티드들)의 절대 수를 지칭한다. 용어 "염색체 길이"는, 예를 들어, 월드와이드웹 상에서 |genome|.|ucsc|.|edu/cgi- bin/hgTracks?hgsid=167155613&chromInfoPage=에서 발견된 인간 염색체의 NCBI36/hg18 어셈블리에서 제공된, 염기쌍들로 주어진, 염색체의 알려진 길이를 지칭한다.
본 명세서에서 용어 "대상체"는 인간 대상체뿐만 아니라 비-인간 대상체, 예컨대 포유류, 무척추동물, 척추동물, 진균, 효모, 박테리아, 및 바이러스를 지칭한다. 본 명세서의 예들은 인간에 관한 것이고 그 언어는 주로 인간 관심사에 관한 것이지만, 본 명세서에 개시된 개념들은 임의의 식물 또는 동물로부터의 게놈들에 적용가능하고, 수의학, 동물 과학, 연구 실험실 등등의 분야에서 유용하다.
본 명세서에 사용되는 바와 같이, 용어 "프라이머"는 연장 생성물의 합성을 유도하는 조건들(예를 들어, 조건들은 뉴클레오티드들, DNA 중합효소와 같은 유도제, 및 적합한 온도 및 pH를 포함함) 하에 배치될 때 합성의 개시 지점으로서 작용할 수 있는 단리된 올리고뉴클레오티드를 지칭한다. 프라이머는 바람직하게는, 증폭에서 최대 효율을 위해 단일 가닥일 수 있지만, 대안적으로 이중 가닥일 수 있다. 이중 가닥인 경우, 연장 생성물을 제조하는 데 사용되기 전에, 먼저 그의 가닥들을 분리시키도록 처리된다. 프라이머는 올리고데옥시리보뉴클레오티드일 수 있다. 프라이머는 유도제의 존재 하에 연장 생성물의 합성을 프라이밍하기에 충분히 길다. 프라이머들의 정확한 길이들은 온도, 프라이머의 소스, 방법의 용도, 및 프라이머 설계에 사용되는 파라미터들을 포함하는 많은 인자들에 의존할 것이다.
서론
짧은 탠덤 반복(STR)은 인간 게놈 전체에 걸쳐 어디에나 있다. STR 생물학에 대한 우리의 이해는 완전한 것과는 거리가 멀지만, 최근의 증거는 STR이 기본 세포 프로세스들에서 중요한 역할을 한다는 것을 시사한다.
반복 확장은 STR 다형성을 수반하는 마이크로부수체 및 미니부수체 변이체의 특수한 부류이다. 반복 확장은 또한 짧은 탠덤 반복체들이 소정 크기를 넘어 확장될 때 그들의 불안정성으로 인해 동적 돌연변이로서 알려져 있다. STR 확장은 근위축성 측삭경화증, 프리드라이히 운동실조증(FRDA), 헌팅턴 병(HD), 및 취약 X 증후군을 포함하는 20개 초과의 중증 신경학적 장애들의 주요 원인이다. 표 1은 정상 샘플 내의 반복 서열과 상이한, 소수의 병원성 반복 확장을 예시한다. 열들은 반복 서열과 연관된 유전자, 반복 단위의 핵산 서열, 정상 및 병원성 서열에 대한 반복 단위의 반복체들의 수, 및 반복 확장과 연관된 질병을 보여준다.
[표 1]
Figure pct00001
반복 확장을 수반하는 유전적 장애들은 많은 측면에서 불균질하다. 반복 단위의 크기, 확장의 정도, 영향받은 유전자에 대한 위치, 및 병원성 메커니즘은 장애마다 다를 수 있다. 예를 들어, ALS는 염색체 9 개방 판독 프레임(open reading frame) 72의 짧은 아암 상에 위치된 C9orf72 유전자 내의 뉴클레오티드 GGGGCC의 헥사뉴클레오티드 반복 확장을 수반한다. 대조적으로, 취약 X 증후군은 X 염색체 상의 취약 X 정신 지체 1(FMR1) 유전자에 영향을 미치는 CGG 트리뉴클레오티드 반복체(삼중 반복체)의 확장과 연관된다. CGG 반복체들의 확장은 정상적인 신경 발달에 필요한 취약 X 정신 지체 단백질(fragile X mental retardation protein, FMRP)을 발현하지 못하도록 할 수 있다. CGG 반복체의 길이에 따라, 대립유전자는 정상(증후군에 의해 영향받지 않음), 돌연변이-전(취약 X 연관 장애의 위험에 있음), 또는 완전 돌연변이(보통 증후군에 의해 영향받음)로 분류될 수 있다. 다양한 추정치에 따르면, 운동실조증에 걸리기 쉬운 보균자들에서 60 내지 230개의 반복체, 및 영향받지 않은 개체들에서 5 내지 54개의 반복체가 있는 것과 비교하여, 영향받은 환자들에서 취약 X 증후군을 유발하는 돌연변이된 FMR1 유전자 내에는 230 내지 4000개의 CGG 반복체가 있다. FMR1 유전자의 반복 확장은 자폐증의 원인인데, 그 이유는 자폐증 개체들의 약 5%가 FMR1 반복 확장을 갖는 것으로 밝혀졌기 때문이다. 문헌 [McLennan, et al. (2011), Fragile X Syndrome, Current Genomics 12 (3): 216-224]. 취약 X 증후군의 확정적인 진단은 CGG 반복체들의 수를 결정하기 위한 유전자 검사를 수반한다.
반복 확장 관련 질병들의 다양한 일반적인 특성이 다수의 연구에서 식별되었다. 반복 확장 또는 동적 돌연변이는 보통 반복체 수에서의 증가로서 나타나며, 이때 돌연변이 비율은 반복체들의 수와 관련된다. 반복 중단의 손실과 같은 드문 사건들은 대립유전자가 확장될 가능성이 증가되는 것으로 이어질 수 있으며, 이때 그러한 사건들은 창시자 효과(founder event)로 알려져 있다. 반복 서열에서의 반복체들의 수와, 반복 확장에 의해 유발되는 질병의 중증도 및/또는 발병 사이에 관계가 있을 수 있다.
따라서, 반복 확장을 식별하고 호출하는 것은 다양한 질병의 진단 및 치료에 중요하다. 그러나, 특히 반복 서열을 완전히 횡단하지 않는 판독물을 사용하여, 반복 서열을 식별하는 것은, 다양한 난제를 갖는다. 첫째, 반복체들을 참조 서열에 정렬시키는 것은 어려운데, 그 이유는 판독물과 참조 게놈 사이에 명확한 일대일 맵핑이 없기 때문이다. 추가적으로, 판독물이 참조 서열에 정렬되더라도, 판독물은 종종 너무 짧아서 의학적으로 관련된 반복 서열을 완전히 커버할 수 없다. 예를 들어, 판독물은 약 100 bp일 수 있다. 비교하면, 반복 확장은 수백 내지 수천 개의 염기쌍들에 걸쳐 있을 수 있다. 예를 들어, 취약 X 증후군에서, FMR1 유전자는 1000 bp를 훨씬 초과하여, 3000 bp를 초과하여 걸쳐 있는 반복체를 가질 수 있다. 따라서 100-bp 판독물은 반복 확장의 전체 길이에 맵핑될 수 없다. 더욱이, 짧은 판독물을 더 긴 서열로 어셈블하는 것은 짧은 판독물 대 긴 반복체 문제를 극복하지 못할 수 있는데, 이는 하나의 판독물 내의 반복체들과 다른 판독물 상의 반복체들의 모호한 정렬로 인해 짧은 판독물을 더 긴 서열로 어셈블하는 것이 어렵기 때문이다.
정렬은 참조 서열의 불완전성, 판독물과 참조 서열 상의 부위 사이의 비-고유 대응, 또는 참조 서열로부터의 상당한 편차로 인해 정보 손실의 주요 원인이다. 시스템적인 서열분석 오차 및 판독 정확도에 영향을 주는 다른 문제들은 반복 서열을 검출하는 데 있어서의 실패에 대한 이차 인자이다. 일부 실험 프로토콜들에서, 약 7% 판독물은 정렬되지 않거나 또는 0의 MAPQ 점수를 갖는다. 연구자들이 서열분석 기술 및 분석 툴들을 개선하기 위해 노력하더라도, 항상 상당한 양의 정렬불가능한 그리고 불량하게 정렬된 판독물이 있을 것이다. 본 명세서의 방법들의 구현예들은 반복 확장을 식별하기 위해 정렬불가능한 또는 불량하게 정렬된 판독물에 의존한다.
반복 확장을 검출하기 위해 긴 판독물을 사용하는 방법들은 그 자신의 난제를 갖는다. 차세대 서열분석에서, 더 긴 판독물을 사용하는 현재 이용가능한 기술들은 더 짧은 판독물을 사용하는 기술들보다 더 느리고 더 오차가 발생하기 쉽다. 더욱이, 긴 판독물은 무세포 DNA의 서열분석과 같은 일부 응용들에서는 실현가능하지 않다. 모체 혈액에서 획득된 무세포 DNA는 산전 유전자 진단을 위해 사용될 수 있다. 무세포 DNA는 무세포 DNA를 사용하여 전형적으로 200보다 짧은 단편으로서 존재한다. 본 명세서에 기술된 방법들의 구현예들은 의학적으로 관련된 반복 확장을 식별하기 위해 짧은 판독물을 사용한다.
또한, 종래의 방법들은 다수의 반복체를 보유하는 복잡한 좌위를 취급하도록 설계되지 않는다. 그러한 좌위들의 중요한 예들은 CCG 반복체에 의해 플랭킹된(flanked) HD를 유발하는 CAG 반복체, 아데노신 동종중합체에 의해 플랭킹된 FRDA를 유발하는 GAA 반복체, 및 ACT 반복체에 의해 플랭킹된 척수소뇌성 운동실조증 8형(SCA8)을 유발하는 CAG 반복체를 포함한다. 더욱 더 극단적인 예는, 확장이 근긴장성 이영양증 2형(Myotonic Dystrophy type 2, DM2)을 유발하는, CNBP 유전자 내의 CCTG 반복체이다. 이러한 반복체는 다형성 TG 및 TCTG 반복체들에 인접해 있어서(J. E. Lee and Cooper 2009), 이 좌위에 판독물을 정확하게 정렬시키는 것을 특히 어렵게 만든다. 다른 유형의 복잡한 반복체는 지금까지 적어도 9개의 장애와 연관된 폴리알라닌 반복체이다(Shoubridge and Gecz 2012). 폴리알라닌 반복체는 α-아미노산 코돈들 GCA, GCC, GCG, 또는 GCT의 반복체들로 구성된다.
변이체들의 클러스터들은 정렬 및 유전자형분석 정확도에 영향을 미칠 수 있다(Lincoln et al. 2019). 낮은 복잡도 다형성 서열에 인접한 변이체는 추가적으로 문제가 될 수 있는데, 이는 변이체 발견을 위한 방법들이 그러한 게놈 영역들에서 일관성없게 표현되거나 가짜 변이체 호출들의 클러스터들을 출력할 수 있기 때문이다. 이는, 부분적으로, 서열분석 데이터에서 이러한 영역들의 상승된 오차율에 기인한다(Benjamini and Speed 2012; Dolzhenko et al. 2017). 일례는 Lynch 증후군 I을 유발하는 MSH2 내의 아데노신 동종중합체에 인접한 단일-뉴클레오티드 변이체(SNV)이다(Froggatt et al. 1999).
본 명세서에 개시된 구현예들은 전술된 바와 같이 복잡한 좌위를 취급할 수 있다. 이들은 각각의 표적 좌위의 일반적이고 유연한 모델로서 서열 그래프를 사용한다.
일부 구현예들에서, 개시된 방법들은 쌍형성된 말단 서열분석을 이용함으로써 반복 확장을 식별하고 호출하는 데 있어서 전술한 난제들을 해결한다. 쌍형성된 말단 서열분석은 삽입물들로 불리는 서열들로 DNA를 단편화하는 것을 수반한다. 일루미나에 의해 사용되는 일부와 같은 일부 프로토콜들에서, 더 짧은 삽입물로부터의(예를 들어, 대략 수십 내지 수백 bp) 판독물은 짧은-삽입물 쌍형성된 말단 판독물 또는 간단히 쌍형성된 말단 판독물로 지칭된다. 대조적으로, 더 긴 삽입물로부터의(예를 들어, 대략 수천 bp) 판독물은 메이트 쌍 판독물로 지칭된다. 위에 언급된 바와 같이, 짧은-삽입물 쌍형성된 말단 판독물 및 긴-삽입물 메이트 쌍 판독물은 둘 모두 본 명세서에 개시된 방법들의 다양한 구현예에서 사용될 수 있다.
도 1a는, 특히 반복 확장을 갖는 긴 반복 서열의 샘플로부터 획득된 서열 판독물을 정렬시킬 때, 참조 서열 상의 반복 서열에 서열 판독물을 정렬시키는 데 있어서의 소정의 어려움들을 보여주는 개략도이다. 도 1a의 하부에는 수직 해치 선들에 의해 예시된 비교적 짧은 반복 서열(103)을 갖는 참조 서열(101)이 있다. 도면의 중간에는, 또한 수직 해치 선들에 의해 예시되는, 반복 확장을 보유하는 긴 반복 서열(107)을 갖는 환자 샘플의 가상 서열(105)이 있다. 도면의 상부에는 샘플 서열(105)의 대응하는 부위의 위치에 보여진 서열 판독물(109, 111)이 예시되어 있다. 이들 서열 판독물 중 일부, 예를 들어, 판독물(111)에서, 일부 염기쌍은, 수직 해치 선들에 의해 또한 예시되고 원 내에서 하이라이트되는 바와 같이, 긴 반복 서열(107)로부터 유래한다. 이들 반복체들 갖는 판독물(111)은 참조 서열(101)에 정렬시키기가 잠재적으로 어려운데, 그 이유는 반복체들이 참조 서열(101) 상에서 명확한 대응하는 위치들을 갖지 않기 때문이다. 이러한 잠재적으로 비정렬된 판독물은 참조 서열(101) 내의 반복 서열(103)과 명확히 연관될 수 없기 때문에, 이들 잠재적으로 비정렬된 판독물(111)로부터 반복 서열의 확장 및 반복 서열에 관한 정보를 획득하는 것은 어렵다. 더욱이, 이들 판독물은 반복 확장을 보유하는 긴 반복 서열(107)보다 더 짧은 경향이 있기 때문에, 이들은 반복 서열(107)의 아이덴티티 또는 위치에 관한 확정적인 정보를 직접 제공할 수 없다. 추가적으로, 판독물(111) 내의 반복체들은, 그들을 참조 서열(101) 상의 그들의 모호한 대응하는 위치들 및 판독물(111) 사이의 모호한 관계로 인해 어셈블하기에 어렵게 만든다. 샘플 내의 긴 반복 서열(107)로부터 부분적으로 나오는 판독물, 반은 해칭되고 반은 검은색-실선인 것으로 예시된 것들은, 반복 서열(107)의 외부로부터 유래되는 염기에 의해 정렬될 수 있다. 판독물이 반복 서열(107)의 밖에서 너무 적은 수의 염기쌍들을 갖는 경우, 판독물은 불량하게 정렬될 수 있거나 정렬되지 않을 수 있다. 따라서, 부분 반복체들을 갖는 이들 판독물 중 일부는 앵커 판독물로서 분석될 수 있고, 다른 것들은 하기에 추가로 기술되는 바와 같이 앵커링된 판독물로서 분석될 수 있다.
도 1b는 도 1a에 도시된 어려움들을 극복하기 위해 일부 개시된 실시형태들에서 쌍형성된 말단 판독물이 어떻게 이용될 수 있는지를 예시하는 개략도이다. 쌍형성된 말단 서열분석에서, 서열분석은 테스트 샘플 내의 핵산의 단편의 양 말단들로부터 발생한다. 도 1b의 하부에는 도 1a에 도시된 것들과 동등한, 참조 서열(101) 및 샘플 서열(105)뿐만 아니라, 판독물(109, 111)이 예시되어 있다. 도 1b의 상부에는, 테스트 샘플 서열(105)로부터 유래된 단편(125), 및 쌍형성된 말단 판독물의 2개의 판독물(135, 137)을 획득하기 위한 판독물 1 프라이머 영역(131) 및 판독물 2 프라이머 영역(133)이 예시되어 있다. 단편(125)은 또한 쌍형성된 말단 판독물을 위한 삽입물로 지칭된다. 일부 실시형태들에서, 삽입물들은 PCR과 함께 또는 PCR 없이 증폭될 수 있다. 다수의 GC 또는 GCC 반복체들을 포함하는 것들과 같은 일부 반복 서열은 PCR 증폭을 포함하는 전통적인 방법들로 잘 서열분석될 수 없다. 이러한 서열의 경우, 증폭은 PCR이 없을 수 있다. 다른 서열들의 경우, 증폭은 PCR로 수행될 수 있다.
도 1b에 예시된 삽입물(125)은 도면의 하부 절반부에 예시된 2개의 수직 화살표에 의해 플랭킹된 샘플 서열(105)의 섹션에 대응하거나 그로부터 유래된다. 구체적으로, 삽입물(125)은 샘플 서열(105) 내의 긴 반복체(107)의 일부에 대응하는 반복 섹션(127)을 보유한다. 삽입물의 길이는 다양한 응용들을 위해 조정될 수 있다. 일부 실시형태들에서, 삽입물은 관심있는 반복 서열 또는 반복 확장을 갖는 반복 서열보다 다소 더 짧을 수 있다. 다른 실시형태들에서, 삽입물은 반복 서열 또는 반복 확장을 갖는 반복 서열과 유사한 길이를 가질 수 있다. 또 다른 실시형태들에서, 삽입물은 반복 서열 또는 반복 확장을 갖는 반복 서열보다 다소 더 길 수도 있다. 이러한 삽입물은 이하에서 추가로 기술되는 일부 실시형태들에서 메이트 쌍 서열분석을 위한 긴 삽입물일 수 있다. 전형적으로, 삽입물로부터 획득된 판독물은 반복 서열보다 짧다. 삽입물은 판독물보다 길기 때문에, 쌍형성된 말단 판독물은 단일 말단 판독물보다 샘플 내의 반복 서열의 더 긴 신장부로부터 신호들을 더 잘 캡처할 수 있다.
예시된 삽입물(125)은 삽입물의 2개의 말단에서 2개의 판독물 프라이머 영역(131, 133)을 갖는다. 일부 실시형태들에서, 판독물 프라이머 영역은 삽입물에 내재한다. 다른 실시형태들에서, 프라이머 영역은 라이게이션 또는 연장에 의해 삽입물에 도입된다. 삽입물의 좌측 말단에는 판독물 1 프라이머 영역(131)이 예시되어 있으며, 이는 삽입물(125)에 대한 판독물 1 프라이머(132)의 혼성화를 허용한다. 판독물 1 프라이머(132)의 연장은 135로 라벨링된, 제1 판독물 또는 판독물 1을 생성한다. 삽입물(125)의 우측 말단에는 판독물 2 프라이머 영역(133)이 예시되어 있으며, 이는 삽입물(125)에 대한 판독물 2 프라이머(134)의 혼성화를 허용하여, 137로 라벨링된, 제2 판독물 또는 판독물 2를 개시한다. 일부 실시형태들에서, 삽입물(125)은 또한 인덱스 바코드 영역들(여기서는 도면에 도시되지 않음)을 포함하여, 멀티플렉스 서열분석 프로세스에서 상이한 샘플을 식별하기 위한 메커니즘을 제공할 수 있다. 일부 실시형태들에서, 쌍형성된 말단 판독물(135, 137)은 일루미나의 합성 플랫폼에 의한 서열분석에 의해 획득될 수 있다. 이러한 플랫폼 상에서 구현된 서열분석 프로세스의 일례가 이후에 서열분석 방법 섹션에 추가로 기술되며, 이 프로세스는 2개의 쌍형성된 말단 판독물 및 2개의 인덱스 판독물을 생성한다.
이어서, 도 1b에 예시된 바와 같이 획득된 쌍형성된 말단 판독물은 비교적 짧은 반복 서열(103)을 갖는 참조 서열(101)에 정렬될 수 있다. 이와 같이, 한 쌍의 판독물의 상대적 위치 및 방향은 알려져 있다. 이는, 원(111) 내에 도시된 것들과 같은 정렬불가능하거나 불량하게 정렬된 판독물이 도 1b의 하부에서 볼 수 있는 바와 같이 판독물의 대응하는 쌍형성된 판독물(109)을 통해 샘플 서열(105) 내의 비교적 긴 반복 서열(107)과 간접적으로 연관될 수 있게 한다. 예시적인 예에서, 쌍형성된 말단 서열분석으로부터 획득된 판독물은 약 100 bp이며, 삽입물은 약 500 bp이다. 이러한 예시적인 구성에서, 2개의 쌍형성된 말단 판독물의 상대적 위치들은 그들의 3' 말단들로부터 약 300개의 염기쌍들로 떨어져 있고, 그것들은 반대 방향들을 갖는다. 판독물 쌍들 사이의 관계는 판독물을 반복 영역들에 더 잘 연관시킬 수 있게 한다. 일부 경우들에 있어서, 한 쌍 내의 제1 판독물은 참조 서열 상의 반복 영역을 플랭킹하는 비-반복 서열과 정렬되고, 그 쌍 내의 제2 판독물은 참조에 적절하게 정렬되지 않는다. 예를 들어, 도 1b의 하부 반부에 예시된 한 쌍의 판독물(109a, 111a)을 참조하는데, 이때 그 쌍의 좌측의 것(109a)은 제1 판독물이고, 우측의 것(111a)은 제2 판독물이다. 2개의 판독물(109a, 111a)의 쌍형성이 주어지면, 제2 판독물(111a)이 참조 서열(101)에 정렬될 수 없다는 사실에도 불구하고, 제2 판독물(111a)은 샘플 서열(105) 내의 반복 영역(107)과 연관될 수 있다. 제1 판독물(109a)에 대한 제2 판독물(111a)의 거리 및 방향을 알면, 추가로, 긴 반복 영역(107) 내에서의 제2 판독물(111a)의 위치를 결정할 수 있다. 제2 판독물(111a) 내의 반복체들 사이에 절단부가 존재하는 경우, 참조 서열(101)에 대한 절단부의 위치가 또한 결정될 수 있다. 참조에 정렬되는 좌측 판독물(109a)과 같은 판독물은 본 개시내용에서 앵커 판독물로 지칭된다. 참조 서열에 정렬되지 않지만 앵커 판독과 쌍을 이루는 우측의 것(111a)과 같은 판독물은 앵커링된 판독물로 지칭된다. 이와 같이, 비정렬된 서열은 반복 확장에 앵커링되고 이와 연관될 수 있다. 이러한 방식으로, 긴 반복 확장을 검출하기 위해 짧은 판독물을 사용할 수 있다. 반복 확장을 검출하는 과제는 전형적으로 서열분석의 증가된 어려움으로 인해 확장의 길이에 따라 증가하지만, 본 명세서에 개시된 방법들은 더 짧은 반복 확장 서열들로부터보다 더 긴 반복 확장 서열들로부터 더 높은 신호를 검출할 수 있다. 이는, 반복 서열 또는 반복 확장이 더 길어짐에 따라, 더 많은 판독물이 확장 영역에 앵커링될 것이고, 더 많은 판독물이 반복 영역 내에 완전히 속할 수 있고, 판독물 당 더 많은 반복체들이 발생할 수 있기 때문에, 그러하다.
일부 실시형태들에서, 개시된 방법들은 앵커 판독물 및 앵커링된 판독물 내에서 발견된 반복체들의 수들의 빈도 분포를 분석하는 것을 수반한다. 일부 실시형태들에서, 앵커링된 판독물만이 분석된다. 다른 실시형태들에서, 앵커 판독물 및 앵커링된 판독물 둘 모두가 분석된다. 테스트 샘플의 분포는, 영향받은 샘플로부터 영향받지 않은 샘플을 분리하는 경험적으로 또는 이론적으로 도출된 기준과 비교될 수 있다. 이러한 방식으로, 테스트 샘플이 고려 중인 반복 확장을 가지고 있는지 여부를 결정할 수 있고, 임상적으로 관련된 호출을 수행할 수 있다.
본 명세서에 기술된 방법들 및 장치는 대량 병렬 서열분석을 허용하는 차세대 서열분석 기술(next generation sequencing technology, NGS)을 채용할 수 있다. 소정 실시형태들에서, 클론 증폭된 DNA 주형 또는 단일 DNA 분자는 플로우 셀 내에서 대량 병렬 방식으로 서열분석된다(예를 들어, 문헌 [Volkerding et al. Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11:31-46 [2010]]에서 기술된 바와 같음). NGS의 서열분석 기술들은 파이로서열분석(pyrosequencing), 가역적 염료 종결자들을 이용한 합성에 의한 서열분석, 올리고뉴클레오티드 프로브 라이게이션에 의한 서열분석, 및 이온 반도체 서열분석을 포함하지만, 이들로 제한되지 않는다. 개체 샘플로부터의 DNA가 개별적으로 서열분석될 수 있거나(즉, 싱글플렉스 서열분석) 또는 다수의 샘플로부터의 DNA가 풀링되고 단일 서열분석 런(run) 상의 인덱싱된 게놈 분자로서 서열분석되어(즉, 멀티플렉스 서열분석), 최대 수억 개의 DNA 서열의 판독물을 생성할 수 있다. 본 방법에 따른 서열 정보를 획득하는 데 사용될 수 있는 서열분석 기술들의 예들이 아래에서 추가로 기술된다.
DNA 샘플을 사용하는 다양한 반복 확장 분석은 서열분석기로부터의 서열 판독물을 참조 서열에 정렬시키거나 맵핑하는 것을 수반한다. 참조 서열은 전체 게놈의 서열, 염색체의 서열, 하위-염색체 영역의 서열 등일 수 있다. 계산 관점에서, 반복체들은 정렬에서의 모호성을 생성하며, 이는 이어서 전체 염색체 카운팅 레벨에서도 바이어스 및 오차를 생성할 수 있다. 다양한 실시형태들에서 조정가능한 삽입물 길이와 결합된 쌍형성된 말단 판독물은, 반복 서열들의 정렬 및 반복 확장의 검출에 있어서의 모호성을 제거하는 데 도움을 줄 수 있다.
서열 그래프를 사용한 반복 서열 좌위에서의 변이체의 유전자형분석
도 1c는 일부 구현예들에 따른 반복 서열을 포함하는 게놈 좌위를 유전자형분석하는 프로세스(140)를 예시하는 흐름도를 도시한다. 일부 구현예들에서, 유전자 좌위는 게놈 위치들 및 게놈 위치들에서의 좌위들의 구조를 포함하는 변이체 카탈로그에서 사전정의된다. 도 1d, 도 1e, 및 도 1f는 일부 구현예들에 따른 3개의 상이한 서열 그래프를 도시한다.
도 1g는 일부 구현예들에 따른 2개의 STR 서열을 포함하는 HTT 좌위에서의 변이체의 유전자형을 결정하기 위한 프로세스의 개략도를 도시한다. 도 1g의 패널 (a)는 게놈 좌위들 및 그들의 구조들을 좌위 사양들로서 포함하는 변이체 카탈로그의 일부를 예시한다. 예를 들어, 반복체들을 무시하면, 좌위 HTT에서의 서열은 CAGCAACAGCGG(서열 번호 2)이고; 좌위 CNBP에서의 서열은 CAGGCAGACA(서열 번호 3)이다.
도 1h는 일부 구현예들에 따른, SNV 및 STR을 포함하는 Lynch I 좌위에서의 변이체의 유전자형을 결정하기 위한 프로세스의 개략도를 도시한다. 도 1h 박스(162)는 좌위 사양들의 일반적인 구조를 도시하고, 박스(163)는 Lynch I(MSH2)의 좌위 사양의 특정 예를 도시한다.
변이체 카탈로그에서, 좌위 구조는 정규 표현식 신택스의 제한된 서브세트를 사용하여 특정된다. 예를 들어, HD에 연결된 반복 영역은 CAACAG 중단에 의해 분리된 가변 수의 CAG 및 CCG 반복체들을 보유한다는 것을 나타내는 표현식 (CAG)*CAACAG(CGG)* 또는 서열 번호 2(반복체들을 무시하면)에 의해 정의될 수 있고; FRDA 영역에 연결된 영역은 표현식 (A)*(GAA)*에 대응하고; SCA8에 연결된 영역은 (CTA)*(CTG)*에 대응하고; 3개의 인접한 반복체들로 구성된 DM2 반복 영역은 (CAGG)*(CAGA)*(CA)* 또는 서열 번호 3(반복체들을 무시하면)에 의해 정의되고; Lynch 증후군 I을 유발하는 A 동종중합체에 인접한 MSH2는 (A|T)(A)*에 대응한다.
추가적으로, 정규 표현식은 국제 순수 응용 화학 연합(International Union of Pure and Applied Chemistry, IUPAC) 표기법을 사용하여 특정될 수 있는 다중-대립유전자 또는 "축퇴" 염기 기호를 포함하도록 허용된다("Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences. Recommendations 1984. Nomenclature Committee of the International Union of Biochemistry (NC-IUB)" 1986).
축퇴 코돈 내의 염기에 대응하는 불완전하게 특정된 염기는 본 명세서에서 축퇴 염기로 지칭된다. 축퇴 염기는, 예를 들어, 상이한 염기가 동일한 위치에서 발생할 수 있는 소정 부류의 불완전한 DNA 반복체들을 표현하는 것을 가능하게 한다. 이러한 표기법을 사용하여, 폴리알라닌 반복체들은 표현식 (GCN)*에 의해 인코딩될 수 있고, 폴리글루타민 반복체들은 표현식 (CAR)*에 의해 인코딩될 수 있다.
일부 구현예들에서, 게놈 좌위에 포함된 반복 서열은 짧은 탠덤 반복(STR) 서열을 포함한다. 일부 구현예들에서, FTR의 연장은 취약 X 증후군, 근위축성 측삭경화증(ALS), 헌팅턴 병, 프리드라이히 운동실조증, 척수소뇌성 운동실조증, 척수구근 근위축증, 근긴장성 이영양증, 마카도-조셉 병, 또는 치상핵적핵 담창구시상하부 위축증과 연관된다.
프로세스(140)는 데이터베이스로부터 테스트 샘플의 핵산 서열 판독물을 수집하는 것을 수반한다. 블록(142)을 참조한다. 일부 구현예들에서, 핵산 서열 판독물은 초기에 참조 게놈에 정렬되었지만, 여기서 프로세스는 아래에서 설명되는 바와 같이 서열 판독물을 관심있는 게놈 좌위에 재정렬시킨다. 대안적인 구현예들에서, 판독물은 초기에 참조 게놈에 정렬되지 않고 서열 그래프에 직접 정렬될 수 있다.
프로세스(140)는 하나 이상의 반복 서열들을 포함하는 게놈 좌위에 대한 서열에 서열 판독물을 정렬시키는 것을 수반한다. 블록(144)을 참조한다. 게놈 좌위의 서열은 서열 그래프의 데이터 구조를 갖는 시스템 메모리에 저장된 데이터에 의해 표현된다. 서열 그래프는 핵산 서열들을 표현하는 정점들 및 정점들을 연결하는 방향성 에지들을 갖는 방향성 그래프를 포함한다. 정점에서의 핵산 서열은 하나 이상의 핵산 염기를 포함한다. 서열 그래프는 하나 이상의 자가-루프들을 포함한다. 각각의 자가-루프는 하나 이상의 반복 서열들의 반복 서열을 표현한다. 각각의 반복 서열은 하나 이상의 뉴클레오티드들의 반복 단위의 반복체들을 포함한다.
일부 구현예들에서, 서열 판독물은 초기에 참조 게놈에 정렬되어, 초기에 정렬된 판독물의 서브세트가 하나 이상의 관심있는 서열들을 표현하는 하나 이상의 서열 그래프들에 정렬되기 전에 판독물의 게놈 좌표를 결정하도록 한다. 일부 구현예들에서, 초기에 정렬된 판독물은, 수십 내지 수천 개의 영역들에서 반복 확장들을 결정하기 위해 서열 그래프들에 정렬된다(각각의 영역은 서열 그래프에 대응함). 구현예의 각각의 호출 동안 서열 그래프에 재정렬되는 초기에 정렬된 판독물의 총 수는 수천 내지 수백만 개의 판독물의 범위일 수 있다.
일부 구현예들에서, 초기에 관심있는 서열 또는 좌위에 또는 그 근처에 정렬되는 판독물은 판독물의 서브세트로서 선택되고, 이 서브세트는 이어서 서열 그래프에 의해 각각 표현된 반복 서열들에 정렬되며, 서열 그래프는 하나 이상의 반복 서열들을 표현하는 하나 이상의 자가-루프들을 갖는다. 다양한 구현예들에서, 관심있는 서열 또는 좌위로부터의 약 10, 50, 100, 500, 1,000, 2,000, 3,000, 4,000, 5,000, 6,000, 7,000, 8,000, 9,000, 10,000, 50,000, 100,000개의 염기 내에서의 판독물이 관심있는 서열 또는 좌위 근처에 있는 것으로 고려된다. 일부 구현예들에서, 관심있는 좌위로부터의 약 1,000, 2,000, 3,000, 4,000, 5,000, 6,000, 7,000, 8,000, 9,000, 또는 10,000개의 염기 내에서의 판독물이 관심있는 좌위 근처에 있다. 원시 판독물 중 일부는 불량한 초기 정렬을 가질 수 있는데, 그 이유는 예를 들어 이들이 명확하게 정렬하기 어려운 반복 서열을 포함하기 때문이다. 일부 구현예들에서, 불량한 초기 정렬을 갖지만(예컨대, 정렬 점수에 의해 측정됨) 관심있는 좌위에 또는 그 근처에 정렬된 판독물과 각각 쌍을 이루는(쌍-말단 판독물 쌍에서) 판독물은 서열 그래프에 정렬된다. 일부 구현예들에서, 판독물을 오정렬시키는 핫스팟으로 알려진 오프-표적 영역들에 초기에 정렬된 판독물은 서열 그래프에 정렬된다.
도 1d, 도 1e, 및 도 1f는 일부 구현예들에 따른 3개의 상이한 서열 그래프를 도시한다. 도 1d는 트리뉴클레오티드 반복 단위 CAG를 갖는 반복 서열을 포함하는 제1 게놈 좌위를 표현하는 제1 서열 그래프(1100)를 도시한다. 제1 서열 그래프(1100)는 2개의 플랭킹 서열을 각각 표현하는 정점들(1102, 1112)을 포함한다. 제1 서열 그래프는 또한 트리뉴클레오티드 반복 단위 CAG를 포함하는 반복 서열을 표현하는 정점(1106)을 포함한다. 제1 서열 그래프는 정점(1102)(플랭킹 서열)과 정점(1106)(CAG 반복 서열)을 연결하는 방향성 에지(1104)를 포함하며, 이 방향은 정점(1102)으로부터 정점(1106)으로 간다. 에지의 방향은 2개의 핵산 서열의 상대적 위치를 나타낸다. 제1 서열 그래프는 또한 정점(1102)(플랭킹 서열)과 정점(1106)(CAG 반복 서열)을 연결하는 방향성 에지(1104)를 포함하며, 이 방향은 정점(1102)으로부터 정점(1106)으로 간다. 제1 서열 그래프는 또한 정점(1106)(CAG 반복 서열)과 정점(1112)(플랭킹 서열)을 연결하는 방향성 에지(1110)를 포함하며, 이 방향은 정점(1106)으로부터 정점(1112)으로 간다. 제1 서열 그래프는 또한 자가-루프(1108)를 포함하는데, 이는 반복 서열이 1회 이상 반복되는 반복 단위 CAG(정점(1106)에 도시됨)를 포함한다는 것을 표현한다. 서열 그래프의 시작 정점으로부터 종료 정점으로 가는 경로는 게놈 좌위의 서열을 표현하며, 이는 플랭킹 서열과 같은 반복 서열 근처의 뉴클레오티드를 포함할 수 있다.
도 1e는 제2 게놈 좌위를 표현하는 제2 서열 그래프(1200)를 도시한다. 제2 서열 그래프(1200)는 2개의 플랭킹 서열을 각각 표현하는 정점들(1202, 1224)을 포함한다. 제2 서열 그래프는 또한 트리뉴클레오티드 반복 단위 CAG를 포함하는 반복 서열 및 트리뉴클레오티드 반복 단위 CCG를 포함하는 반복 서열을 각각 표현하는 정점(1206) 및 정점(1216)을 각각 포함한다. 제2 서열 그래프는 비-반복 서열 CAACAG를 표현하는 정점(1212)을 추가로 포함한다. 제2 서열 그래프는 방향성 에지들(1204, 1210, 1214, 1220)을 포함한다. 이러한 방향성 에지들은 예시된 바와 같이 정점들(1202, 1206, 1212, 1216, 1224)을 방향적으로 연결한다. 제2 서열 그래프는 또한 자가-루프(1208)를 포함하는데, 이는 반복 서열이 1회 이상 반복되는 반복 단위 CAG(정점(1206)에 도시됨)를 포함한다는 것을 표현한다. 제2 서열 그래프는 또한 자가-루프(1218)를 포함하는데, 이는 반복 서열이 1회 이상 반복되는 반복 단위 CCG(정점(1216)에 도시됨)를 포함한다는 것을 표현한다.
도 1f는 제3 게놈 좌위를 표현하는 제3 서열 그래프(1300)를 도시한다. 제3 서열 그래프(1300)는 제2 서열 그래프(1200)와 유사하지만, 2개의 대립유전자 CAC 및 CAT를 표현하는 2개의 대체 경로를 포함한다. 2개의 대립유전자는 SNV 또는 SNP의 대립유전자들일 수 있다. 방향성 에지(1310), 정점(1312), 및 방향성 에지(1314)는 CAC의 제1 대립유전자를 표현한다. 방향성 에지(1316), 정점(1318), 및 방향성 에지(1320)는 CAT의 제2 대립유전자를 표현한다. 제3 서열 그래프는 정점들(1302, 1306, 1322, 1328)을 포함하는, 제2 서열 그래프에서의 요소들과 다른 방식으로 유사한 요소들을 포함한다. 그것은 또한 반복 서열들 CAG 반복체들 및 CCG 반복체들을 나타내는 자가-루프들(1308, 1324)을 포함한다. 그것은 방향성 에지들(1304, 1326)을 추가로 포함한다.
일부 구현예들에서, 서열 판독물은 다음과 같이 기술되는 기술들을 사용하여 서열 그래프에 정렬된다.
1. kmer 인덱스가 전체 그래프 상에 구축되어, 서열로부터 kmer가 주어지면, 그러한 kmer가 시작되거나 종료되는 모든 그래프 노드들을 열거할 수 있게 한다. 일부 예들에서, kmer는 하나의 노드 상에서 시작하고 다른 노드 상에서 종료될 수 있다.
2. 각각의 그래프 히트에 대해, 2개의 하위그래프들을 추출한다: 하나는 kmer의 순방향으로 그리고 하나는 역방향으로. 하위그래프들은 나머지 판독 길이까지 반복 확장을 펼치며(unroll), 반복체들이 확장되지 않은 것으로 가정하면 나머지 판독물 길이보다 kmer 히트로부터 더 멀리 떨어진 어떠한 노드도 포함하지 않는다. 이 절차는 너비 우선 탐색(breadth first search)이고, 하기를 포함하는 데이터 구조를 생성한다:
-하위그래프에서의 모든 노드 서열(확장된 반복체들을 포함함)의 연결(concatenation)
-스미스-워터만 알고리즘(smith-waterman algorithm) 상에서 역추적할 때 서열에서의 오프셋으로부터 노드 id를 얻는 것이 용이하도록 하는, 노드들에 대한 인덱스
-각각의 노드 시작 오프셋에 대해, 들어오는 에지들을 갖는 노드들의 말단들의 오프셋들의 서열
-베이스가 노드의 시작에 있는지 또는 노드의 시작에 있지 않은지를 알아내고 선행 노드들의 모든 말단 오프셋들을 열거하는 것이 쉽도록 하는, 각각의 노드에 대한 인덱스
3. 정렬:
-아핀 갭(affine gap)을 지원한다.
-상기 정보 및 페널티 매트릭스가 주어진 서열에 대한 최상의-점수의 정렬(들)을 찾는다.
2개의 차이 인터페이스가 이용가능하다:
-최상의 정렬 및 두 번째 최상의 정렬 점수가 보고된다.
-최상의 정렬들 및 두 번째 최상의 정렬 점수의 전체 어레이.
정렬들은 후보 kmer과 정렬된 서열의 시작 사이의 갭에 대해 페널티를 주는 전역 정렬들이다. 일부 구현예들은 컴파일-시간 파라미터를 수정한다.
매트릭스 채우기를 위한 현재 알고리즘은 2개의 구현예에서 이용가능하다:
- N*M 복잡도를 갖는 순차적 루프들.
- gcc가 자동으로 인식하고 CPU 상에서 SSE 또는 AVX 벡터 명령어들로 변환하는, 16으로 디폴트되는 고정 길이 파일-시간 파라미터의 고정-크기 루프들의 순차적 루프들.
일부 구현예들에서, 하나 이상의 반복 서열들의 반복 서열의 특정 반복 단위는 적어도 하나의 불완전하게 특정된 뉴클레오티드를 포함한다. 일부 구현예들에서, 특정 반복 단위는 축퇴 코돈을 포함한다.
일부 구현예들에서, 하나 이상의 자가-루프들은 2개 이상의 반복 서열들을 표현하는 2개 이상의 자가-루프를 포함한다. 예를 들어, 도 1e, 도 1f, 및 도 1g의 패널(b)를 참조한다.
일부 구현예들에서, 서열 그래프는 2개 이상의 대립유전자에 대한 2개 이상의 대체 경로를 추가로 포함한다. 예를 들어, 도 1f, 도면 부호들(1312, 1318)을 참조한다. 또한 도 1h, 좌위 Lynch I(MSH2)에 대한 도면 부호들(165, 167a)을 참조하며, 여기서 상부 경로는 핵산 염기 A에 대한 정점을 포함하고, 하부 경로는 핵산 염기 T에 대한 정점을 포함한다.
일부 구현예들에서, 2개 이상의 대립유전자는 인델 또는 치환을 포함한다. 일부 구현예들에서, 치환은 단일 뉴클레오티드 변이체(SNV) 또는 단일 뉴클레오티드 다형성(SNP)을 포함한다. 예를 들어, 도 1f, 도면 부호들(1312, 1318)을 참조한다.
일부 구현예들에서, 서열 판독물을 서열 그래프에 정렬시키는 것은 다음을 포함한다: 서열 판독물과 서열 그래프의 경로 사이의 kmer 매치를 찾는 것, 및 이어서 이 경로를 전체 정렬로 연장하는 것. 일부 구현예들에서, 정렬은 다음을 포함한다: 경로 주위에서 하위그래프를 추출하는 것; 방향성 비순환 그래프를 획득하기 위해 하위그래프 내의 임의의 루프들을 펼치는 것; 및 방향성 비순환 그래프에 대한 서열 판독물의 스미스-워터만 정렬을 수행하는 것.
일부 구현예들에서, 서열 그래프에 서열 판독물을 정렬시키는 것은 정렬들의 낮은 신뢰도 말단들을 제거하는 것에 의한 그래프 축소를 포함한다. 판독물이 그래프에 정렬된 후, 방법은 다른 유사한 대안적인 정렬을 검색한다. 이는 원래의 정렬의 경로와 중첩되는 그래프를 통하는 경로에 원래의 판독물을 재정렬시킴으로써 행해진다. 이는 초기 정렬의 일 말단 또는 양 말단이 낮은 신뢰도를 갖는지를 검출하는 것을 가능하게 하는데, 이는 그들이 상이한 방식으로 정렬될 수 있었음을 나타낸다. 정렬의 높은 신뢰도 부분 및 낮은 신뢰도 부분을 검출할 수 있음으로써, 판독물이 어느 유전적 변이체를 지원하는지를 정확하게 결정할 수 있게 한다.
일부 구현예들에서, 서열 그래프에 서열 판독물을 정렬시키는 것은: 서열 그래프에 판독물의 하위서열들을 정렬시키는 것; 및 서열 판독물의 전체 정렬을 형성하기 위해 하위서열들의 정렬들을 병합하는 것에 의한 정렬 병합을 포함한다.
일부 구현예들에서, 이 프로세스는 또한 게놈 좌위의 좌위 구조를 포함하는 좌위 사양에 기초하여 서열 그래프를 생성하는 것을 수반한다. 일부 구현예들에서, 좌위 사양은 위에서 설명된 바와 같이 변이체 카탈로그에 정의된다.
또한, HTT 좌위에 대한 서열 그래프에 대한 판독물의 정렬의 개략도들에 대한 도 1g의 패널들 (b) 내지 (d)를 참조한다. 도 1h 참조는 좌위 Lynch I(165)에 대한 것과 같은, 서열 그래프에 대한 판독물의 정렬을 수행하기 위한 좌위 분석기(164)를 개략적으로 예시한다.
프로세스(140)는 서열 그래프에 정렬된 서열 판독물을 사용하여 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하는 것을 추가로 수반한다. 블록(140)을 참조한다. 또한, HTT 좌위에서 2개의 STR들(CAG 및 CCG)을 결정하는 것을 예시하는 도 1g의 패널 (e)를 참조한다. CAG의 반복체들을 포함하는 좌측의 서열은 CAGCAGCAGCAGCAG(서열 번호 4)이다. CCG의 반복체들을 포함하는 좌측의 서열은 CCGCCGCCGCCGCCG(서열 번호 5)이다.
도 1h는 A/T 대립유전자들(169a)을 갖는 SNV 및 A 단량체 반복체(169b)를 포함하는 Lynch I 좌위에서의 변이체들을 결정하기 위한 변이체 유전자형분석기 모듈(168)을 예시한다. 도 1h는 또한 서열 정렬 데이터를 큐레이팅하고 이들을 변이체 유전자형분석기(168)에 제공하기 위한 변이체 분석기 모듈(166), 및 A/T 대립유전자(167a)를 갖는 SNV 및 A 단량체 반복체(167b)에 대한 변이체 분석기의 구현예들을 예시한다. 유전자형분석기로부터의 좌위 결과는 도 1h의 박스(170)에서, 구체적으로 A/T 대립유전자(171a)를 갖는 SNV 및 A 단량체 반복체(171b)의 유전자형으로서 도시된다.
일부 구현예들에서, 서열 그래프는 2개의 대립유전자에 대한 2개의 대체 경로를 포함하고, 본 방법은 2개 이상의 대체 경로에 정렬된 서열 판독물을 사용하여 2개 이상의 대립유전자를 유전자형분석하는 단계를 추가로 수반한다. 일부 구현예들에서, 2개 이상의 대립유전자를 유전자형분석하는 단계는, 2개 이상의 대립유전자의 확률들을 결정하기 위해 확률 모델에 2개 이상의 대체 경로의 커버리지들을 제공하는 단계를 수반한다. 일부 구현예들에서, 확률 모델은 대립유전자의 커버리지의 함수로서 대립유전자의 확률을 시뮬레이션하며, 그 함수는 푸아송 분포, 음-이항 분포, 이항 분포, 또는 베타-이항 분포로부터 선택된다.
일부 구현예들에서, 확률 함수는 푸아송 분포이고, 그것의 레이트 파라미터는 게놈 좌위에서 관찰된 판독물 길이 및 평균 깊이로부터 추정된다.
푸아송-기반 모델에서, 대립유전자의 확률은 다음과 같이 표현된다.
Figure pct00002
Figure pct00003
y는 염기의 판독물 커버리지이고
Figure pct00004
C는 게놈 좌위에서의 평균 깊이이다.
일부 구현예들에서, 평균 깊이(C)는 다음과 같이 추정된다.
C = LN / G
Figure pct00005
G는 게놈 좌위의 길이이고
Figure pct00006
L은 판독물 길이이고
Figure pct00007
N은 모든 판독물의 수이다.
그래프툴 라이브러리
일부 구현예들에서, 염기 서열 그래프 기능은 그래프툴 라이브러리에 적용된다. 라이브러리는 코어 그래프 추상화들(그래프들 자체, 그래프 경로들, 및 그래프 정렬들), 이들에 대한 동작들, 및 선형 서열들을 그래프들에 정렬시키기 위한 알고리즘들을 구현한다.
일부 구현예들에서, 서열 그래프는 노드들 및 방향성 에지들로 구성된다. 그래프들은 자가-루프들(노드를 그 자체에 연결하는 에지)을 포함하도록 허용되지만, 다른 사이클은 포함하지 않도록 한다. 노드는 코어 염기 및 IUPAC 축퇴 염기 코드로 구성된 서열을 포함한다.
그래프 경로는, 경로가 제1 노드 상의 경로의 시작 위치 및 마지막 노드 상의 종료 위치와 함께 통과하는 노드들의 서열에 의해 정의된다. 위치들은 제로-기반 반-개방 좌표계를 사용하여 특정된다. 라이브러리는 경로 연장 및 축소, 중첩 검사, 및 경로 병합을 포함하는 경로들에 대한 다수의 동작을 정의한다.
그래프 정렬은 선형 질의 서열(통상적으로 서열분석되는 판독물)이 그래프에 정렬되는 방식을 인코딩한다. 일부 구현예들에서, 그래프 정렬은 그래프 경로 및 그래프 경로의 노드들에 대한 질의 서열의 정렬을 정의하는 선형 정렬들의 서열을 포함한다. 경로에 대한 대응하는 동작을 사용하여, 그래프 정렬은 축소되거나 다른 그래프 정렬과 병합될 수 있다. 경로 축소는 정렬들의 낮은 신뢰도 말단들을 제거하기 위한 메커니즘을 제공하는 반면, 정렬 병합은 하위서열들(예컨대, kmer들)의 정렬들로부터 질의 서열의 전체 정렬을 함께 스티칭하기 위한 그래프 정렬 알고리즘에 의해 사용된다. 일부 구현예들에서, 정렬 알고리즘은 질의 서열과 그래프 사이의 kmer 매치를 찾고 이어서 이러한 매치를 전체 정렬로 연장함으로써 동작한다. 일부 구현예들에서, 정렬은 kmer 매치에 대응하는 경로 주위에서 하위그래프를 추출하는 것(프로세스에서 임의의 루프들을 펼치는 것)을 포함한다. 이어서, 그것은 생성된 방향성 비순환 그래프에 대해 스미스-워터만 정렬을 수행한다. 일부 구현예들에서, 알고리즘은 아핀 갭 페널티를 지원하고, 컴파일러들이 SIMD 코드를 생성할 수 있게 하기 위해 일정한-길이의 루프들을 사용하여 작성된다.
일부 구현예들에서, 그래프 경로는 검색 알고리즘으로 획득될 수 있는데, 이는 정렬이 검색 기준 또는 수렴에 도달할 때까지(예를 들어, 정렬 점수가 최대화됨) 자가-루프에 의해 표현된 반복 단위의 반복체들의 수를 증가 또는 감소시킴으로써 경로를 연장하거나 축소하는 것을 수반한다.
일부 구현예들에서, 다수의 그래프 경로가 서열 그래프로부터 생성되는데, 각각의 그래프 경로는 자가-루프에 의해 표현된 반복 단위의 특정 반복 수를 표현한다. 질의 서열이 다수의 그래프 경로에 정렬되고, 이어서 정렬 기준을 충족시키는 경로가 그래프 정렬을 위해 선택된다.
응용 아키텍처
일부 구현예들은 표적화된 변이체 유전자형분석을 위한 일반적인 툴로서 설계된다(도 1h). 각각의 런 동안, 프로그램은 변이체 카탈로그 파일에 기술된 변이체들의 세트를 유전자형분석하려고 시도한다.
서로 매우 근접하게 위치된 변이체들은 동일한 좌위로 그룹화된다. 좌위 구조는 정규 표현식(RE) 신택스의 제한된 서브세트를 사용하여 특정된다. RE들은 코어 염기 기호 및 IUPAC 축퇴 염기 코드로 구성된 알파벳들에 걸친 서열들을 포함하며, 가능하게는 서열 중단들에 의해 분리된 표현식들 (<sequence>)?, (<sequence a>|<sequence b>), (<sequence>)*, (<sequence>)+ 중 하나 이상을 포함해야 한다. 이들 표현식은 삽입/결실, 치환, 0회 이상 반복되는 서열, 및 적어도 1회 반복되는 서열에 각각 대응한다. 부가적으로, 각각의 좌위의 설명은 그 좌위에 대한 참조 영역들의 세트 및 각각의 구성 변이체의 참조 좌표를 포함한다.
대부분의 작업은 초기화 동안 대응하는 RE로부터의 좌위를 표현하는 서열 그래프를 합성하는 좌위분석기(LocusAnalyzer) 클래스의 객체들에 의해 조직된다. 초기화 후, 좌위 분석기는, 관련 판독물을 그래프에 정렬시키고 이어서 생성된 정렬을 좌위 내에 포함된 각각의 변이체에 대해 정의되는 변이체분석기(VariantAnalyzer)에 전달함으로써 관련 판독물을 처리한다. 변이체분석기는 연관된 변이체를 유전자형분석하기 위한 관련된 정보를 추출하고, 실제 유전자형분석을 수행하는 유전자형분석기(Genotyper)에 이를 전달한다. 이어서, 각각의 유전자형분석기에 의해 출력된 결과는 출력 VCF 파일을 생성하는 데 사용된다.
예를 들어, Lynch I 증후군과 연관된 병원성 변이체를 갖는 좌위를 처리하는 것을 담당하는 좌위분석기는 SNV 분석기 및 STR 분석기를 이용한다(도 S1, 우측 패널).
인델 유전자형분석기
일부 STR들은 인근에 작은 삽입 또는 결실(인델)을 가질 수 있다. 그러한 인델은 STR의 플랭킹 서열에서의 추가 하위그래프로서 모델링된다. 각각의 대립유전자(또는 그래프 경로)에 맵핑되는 판독물의 수는, 좌위에서 관찰된 평균 깊이 및 판독물 길이로부터 레이트 파라미터가 추정되는, 푸아송 분포로 모델링된다. 유전자형 가능성은 베이지안 프레임워크 하에서 계산된다.
반복 확장 식별
본 명세서에 개시된 실시형태들을 사용하여, 종래의 방법들에 비해 높은 효율, 감도, 및/또는 선택성으로 반복 확장과 관련된 다양한 유전적 상태를 결정할 수 있다. 본 발명의 일부 실시형태들은 반복 서열을 완전히 횡단하지 않는 서열 판독물을 사용하여 취약 X 증후군에서 정신 지체를 유발하는 CGG 반복 확장과 같은 의학적으로 관련된 반복 확장을 식별하고 호출하기 위한 방법들을 제공한다. 100bp 판독물과 같은 짧은 판독물은 많은 반복 확장을 통해 서열분석하기에 충분히 길지 않다. 그러나, 개시된 방법들로 분석될 때, 반복 확장을 갖는 샘플은 다수의 반복 서열을 포함하는 통계학적으로 유의미한 과량의 판독물을 나타낸다. 추가적으로, 극도로 큰 반복 확장은 비정렬된 판독물 쌍들을 포함하며, 여기서 판독물 둘 모두는 전적으로 또는 거의 전적으로 반복 서열로 구성된다. 정상 샘플은 배경 기대치들을 식별하는 데 사용된다.
종래의 믿음은, 반복 확장이 전체 반복체에 걸쳐 있는 판독물 없이는 검출될 수 없다는 것이다. 반복 확장을 검출하기 위한 이전의 접근법들은 긴 판독물을 이용한 표적화된 서열분석을 사용하며, 일부 경우들에 있어서, 반복 서열에 걸쳐 있기에 충분히 길지 않은 판독물로 인해 성공적이지 못하였다. 일부 개시된 실시형태들의 결과들은 부분적으로, 이들이 정상(비-표적화된) 서열 데이터 및 단지 약 100bp의 판독물 길이를 사용하지만, 반복 확장을 검출하기 위한 매우 높은 감도를 야기하기 때문에, 놀랍게도 충족되었다. 본 명세서에 기재된 방법들은 전체 반복 서열의 길이보다 짧은 삽입물 길이(즉, 2개의 서열 판독물 및 개재 서열)를 갖는 쌍형성된 판독물을 사용하여 반복 확장 내의 반복 단위들의 수를 검출할 수 있다.
일부 실시형태들에 따른 반복 확장의 존재를 결정하기 위한 방법들의 상세사항들을 참조하면, 도 2는 샘플 내의 반복 서열의 반복 확장의 존재 또는 부재를 결정하기 위한 실시형태들의 높은 레벨의 묘사를 제공하는 흐름도를 도시한다. 반복 서열은 반복 단위로 지칭되는 짧은 서열의 반복적인 출현을 포함하는 핵산 서열이다. 상기 표 1은 반복 단위들, 정상 및 병원성 서열들에 대한 반복 서열들 내의 반복 단위들의 반복체들의 수, 반복 서열들과 연관된 유전자들, 및 반복 확장과 연관된 질병들의 예들을 제공한다. 도 2의 프로세스(200)는 테스트 샘플의 쌍형성된 말단 판독물을 획득함으로써 시작된다. 블록(202)을 참조한다. 쌍형성된 말단 판독물은 관심있는 반복 서열을 포함하는 참조 서열에 정렬되도록 처리되었다. 일부 문맥들에서, 정렬 프로세스는 또한 맵핑 프로세스로 지칭된다. 테스트 샘플은 핵산을 포함하며, 하기의 샘플 섹션에 추가로 기술된 바와 같은, 체액, 조직 등의 형태일 수 있다. 서열 판독물은 참조 서열에 맵핑될 정렬 프로세스를 거쳤다. 다양한 정렬 툴들 및 알고리즘들이 본 개시내용의 다른 곳에 기술된 바와 같이 판독물을 참조 서열에 정렬시키려고 시도하는 데 사용될 수 있다. 평소와 같이, 정렬 알고리즘들에서, 일부 판독물은 참조 서열에 성공적으로 정렬되지만, 다른 것들은 참조 서열에 성공적으로 정렬되지 않을 수 있거나, 또는 불량하게 정렬될 수 있다. 참조 서열에 연속적으로 정렬된 판독물은 참조 서열 상의 부위와 연관된다. 정렬된 판독물 및 그들의 연관된 부위는 서열 태그로도 지칭된다. 위에서 설명된 바와 같이, 다수의 반복체들을 포함하는 일부 서열 판독물은 참조 서열에 정렬하기에 더 어려운 경향이 있다. 판독물이 소정 기준보다 많은 수의 미스매칭된 염기를 가지면서 참조 서열에 정렬될 때, 판독물은 불량하게 정렬된 것으로 간주된다. 다양한 실시형태들에서, 판독물은 이들이 적어도 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개의 미스매치와 정렬될 때 불량하게 정렬된 것으로 간주된다. 다른 실시형태들에서, 판독물은 이들이 적어도 약 5%의 미스매치들과 정렬될 때 불량하게 정렬된 것으로 간주된다. 다른 실시형태들에서, 판독물은 이들이 적어도 약 10%, 15%, 또는 20%의 미스매칭된 염기와 정렬될 때 불량하게 정렬된 것으로 간주된다.
도 2에 예시된 바와 같이, 프로세스(200)는 쌍형성된 말단 판독물에서 앵커 판독물 및 앵커링된 판독물을 식별하도록 진행한다. 블록(204)을 참조한다. 앵커 판독물은 관심있는 반복 서열에 또는 그 근처에 정렬되는 쌍형성된 말단 판독물 중의 판독물이다. 예를 들어, 앵커 판독물은 삽입물의 서열 길이보다 작은 서열 길이만큼 반복 서열로부터 분리되는 참조 서열 상의 위치에 정렬될 수 있다. 분리 길이는 더 짧을 수 있다. 예를 들어, 앵커 판독물은 앵커 판독물의 서열 길이보다 작은, 또는 앵커 판독물 및 앵커 판독물을 앵커링된 판독물에 연결하는 서열의 조합된 서열 길이(즉, 삽입물의 길이에서 앵커링된 판독물의 길이를 뺀 값)보다 작은 서열 길이만큼 반복 서열로부터 분리되는 참조 서열 상의 위치에 정렬될 수 있다. 일부 실시형태들에서, 관심있는 반복 서열은 반복 단위 CGG의 반복체들을 포함하는 FMR1 유전자 내의 반복 서열일 수 있다. 정상적인 참조 서열에서, FMR1 유전자 내의 반복 서열은 반복 단위 CGG의 약 6 내지 32개의 반복체를 포함한다. 반복체들이 200 복제들을 초과하여 확장됨에 따라, 반복 확장은 병원성이 되어, 취약 X 증후군을 유발하는 경향이 있다. 일부 실시형태들에서, 판독물은 관심있는 반복 서열의 1000bp 내에서 정렬될 때 관심있는 서열 근처에 정렬된 것으로 간주된다. 다른 실시형태들에서, 이 파라미터는 예컨대 약 100bp, 200bp, 300bp, 400bp, 500bp, 600bp, 700bp, 800bp, 900bp, 1500bp, 2000bp, 3000bp, 5000bp 등 이내에서 조정될 수 있다. 부가적으로, 프로세스는 또한, 앵커 판독물과 쌍을 이루지만, 그들의 참조 서열에 불량하게 정렬되거나 정렬될 수 없는 앵커링된 판독물을 또한 식별한다. 불량하게 정렬된 판독물의 추가 상세사항들은 위에 기술되어 있다.
프로세스(200)는 식별된 앵커링된 판독물에 적어도 부분적으로 기초하여 반복 서열의 반복 확장이 테스트 샘플에 존재할 가능성이 있는지를 결정하는 것을 추가로 수반한다. 블록(206)을 참조한다. 이러한 결정 단계는 하기에 추가로 기술되는 바와 같은 다양한 적합한 분석들 및 계산들을 수반할 수 있다. 일부 실시형태들에서, 프로세스는 반복 확장이 존재할 가능성이 있는지를 결정하기 위해 식별된 앵커 판독물뿐만 아니라 앵커링된 판독물을 사용한다. 일부 실시형태들에서, 식별된 앵커 판독물 및 앵커링된 판독물 내의 반복체들의 수들은 분석되고, 영향받은 대조군 샘플의 경험적 데이터로부터 도출되거나 이론적으로 도출된 하나 이상의 기준들과 비교된다.
본 명세서에 기술된 다양한 실시형태들에서, 반복체들은 프레임-내 반복체들로서 획득되며, 여기서 동일한 반복 단위의 2개의 반복체는 동일한 판독 프레임에 속한다. 판독 프레임은 핵산(DNA 또는 RNA) 분자 내의 뉴클레오티드들의 서열을 연속적인, 비-중첩 트리플릿들의 세트로 분할하는 방식이다. 변환 동안, 트리플릿은 아미노산을 인코딩하며, 코돈으로 지칭된다. 따라서, 임의의 특정 서열은 3개의 가능한 판독 프레임을 갖는다. 일부 실시형태들에서, 반복체들은 3개의 상이한 판독 프레임에 따라 카운팅되고, 3개의 카운트 중 가장 큰 카운트는 판독물에 대한 대응하는 반복체들의 수인 것으로 결정된다.
추가 동작 및 분석들을 수반하는 프로세스의 예가 도 3에 예시되어 있다. 도 3은 다수의 반복체를 갖는 쌍형성된 말단 판독물을 사용하여 반복 확장을 검출하기 위한 프로세스(300)를 예시하는 흐름도를 도시한다. 프로세스(300)는 테스트 샘플을 처리하기 위한 추가적인 상류측 동작을 포함한다. 프로세스는 쌍형성된 말단 판독물을 획득하기 위해 핵산을 포함하는 테스트 샘플을 서열분석함으로써 시작된다. 블록(302)을 참조한다. 일부 실시형태들에서, 테스트 샘플은 하기 샘플 섹션에 추가로 기술된 바와 같이 다양한 방식으로 획득되고 제조될 수 있다. 예를 들어, 테스트 샘플은 생물학적 유체, 예를 들어, 혈장, 또는 하기에 기술된 바와 같은 임의의 적합한 샘플일 수 있다. 샘플은 간단한 혈액 채취와 같은 비-침습성 절차를 사용하여 획득될 수 있다. 일부 실시형태들에서, 테스트 샘플은 핵산 분자, 예를 들어 cfDNA 분자의 혼합물을 함유한다. 일부 실시형태들에서, 테스트 샘플은 태아 및 모체 cfDNA 분자의 혼합물을 함유하는 모체 혈장 샘플이다.
서열분석 전에, 핵산이 샘플로부터 추출된다. 적합한 추출 프로세스 및 장치가 본 명세서의 다른 곳에 기술되어 있다. 일부 구현예들에서, 장치는 다수의 샘플로부터의 DNA를 프로세싱하여 멀티플렉스된 라이브러리 및 서열 데이터를 제공한다. 일부 실시형태들에서, 장치(20)는 8개 이상의 테스트 샘플로부터의 DNA를 병렬로 프로세싱한다. 후술되는 바와 같이, 서열분석 시스템은 추출된 DNA를 프로세싱하여 코딩된(예컨대, 바코딩된) DNA 단편의 라이브러리를 생성할 수 있다.
일부 실시형태들에서, 테스트 샘플 내의 핵산은, 아래의 서열분석 라이브러리 제조 섹션에 추가로 기술된 바와 같이, 멀티플렉스 또는 싱글플렉스 서열분석을 위한 서열분석 라이브러리를 제조하도록 추가로 프로세싱될 수 있다. 샘플이 프로세싱 및 제조된 후, 다양한 방법에 의해 핵산의 서열분석이 수행될 수 있다. 일부 실시형태들에서, 다양한 차세대 서열분석 플랫폼 및 프로토콜이 이용될 수 있으며, 이는 아래의 서열분석 방법 섹션에서 추가로 기술된다.
특정 서열분석 플랫폼 및 프로토콜에 관계없이, 블록(302)에서, 샘플 내에 함유된 핵산의 적어도 일부분이 서열분석되어 수만, 수십만, 또는 수백만 개의 서열 판독물, 예컨대, 100 bp 판독물을 생성한다. 일부 실시형태들에서, 판독물은 쌍형성된 말단 판독물을 포함한다. 다른 실시형태들에서, 도 5를 참조하여 후술된 것들과 같이, 쌍형성된 말단 판독물에 더하여, 수백, 수천, 또는 수만 개의 염기를 포함하는 단일 말단 긴 판독물이 반복 서열을 결정하는 데 사용될 수 있다. 일부 실시형태들에서, 서열 판독물은 약 20 bp, 약 25 bp, 약 30 bp, 약 35 bp, 약 36 bp, 약 40 bp, 약 45 bp, 약 50 bp, 약 55 bp, 약 60 bp, 약 65 bp, 약 70 bp, 약 75 bp, 약 80 bp, 약 85 bp, 약 90 bp, 약 95 bp, 약 100 bp, 약 110 bp, 약 120 bp, 약 130, 약 140 bp, 약 150 bp, 약 200 bp, 약 250 bp, 약 300 bp, 약 350 bp, 약 400 bp, 약 450 bp, 또는 약 500 bp을 포함한다. 기술적 진보는 500 bp 초과의 단일 말단 판독물을 가능하게 하며, 쌍형성된 말단 판독물이 생성되는 경우 약 1000 bp 초과의 판독물을 가능하게 할 것으로 예상된다.
프로세스(300)는 블록(302)으로부터 획득된 쌍형성된 말단 판독물을 반복 서열을 포함하는 참조 서열에 정렬시키도록 진행한다. 블록(304)을 참조한다. 일부 실시형태들에서, 반복 서열은 확장하는 경향이 있다. 일부 실시형태들에서, 반복 확장은 유전적 장애와 연관되는 것으로 알려져 있다. 다른 실시형태들에서, 반복 서열의 반복 확장은 유전적 장애와의 연관을 확립하기 위해 이전에 연구된 바가 없다. 본 명세서에 개시된 방법들은 임의의 연관된 병리에 관계없이 반복 서열 및 반복 확장의 검출을 허용한다. 일부 실시형태들에서, 판독물은 참조 게놈, 예컨대, hg18에 정렬된다. 다른 실시형태들에서, 판독물은 참조 게놈의 일부분, 예컨대, 염색체 또는 염색체 세그먼트에 정렬된다. 참조 게놈에 고유하게 맵핑되는 판독물은 서열 태그로 알려져 있다. 일 실시형태에서, 적어도 약 3 x 106개의 적격의 서열 태그, 적어도 약 5 x 106개의 적격의 서열 태그, 적어도 약 8 x 106개의 적격의 서열 태그, 적어도 약 10 x 106개의 적격의 서열 태그, 적어도 약 15 x 106개의 적격의 서열 태그, 적어도 약 20 x 106개의 적격의 서열 태그, 적어도 약 30 x 106개의 적격의 서열 태그, 적어도 약 40 x 106개의 적격의 서열 태그, 또는 적어도 약 50 x 106개의 적격의 서열 태그는 참조 게놈에 고유하게 맵핑되는 판독물로부터 획득된다.
일부 실시형태들에서, 프로세스는 정렬 전에 서열 판독물을 필터링할 수 있다. 일부 실시형태들에서, 판독물 필터링은 에러가 있고 저품질인 판독물을 필터링하기 위해 서열분석기 내에 구현되는 소프트웨어 프로그램에 의해 인에이블되는 품질-필터링 프로세스이다. 예를 들어, 일루미나(Illumina)의 Sequencing Control Software(SCS) 및 Consensus Assessment of Sequence and Variation 소프트웨어 프로그램은 서열 반응에 의해 생성된 원시 이미지 데이터를 강도 스코어들, 염기 호출들(base calls), 품질 스코어 정렬들 및 추가의 포맷들로 변환하여 에러가 있고 저품질인 판독물을 필터링하여 다운스트림 분석을 위한 생물학적 관련 정보를 제공한다.
소정 실시형태들에서, 서열분석 장치에 의해 생성된 판독물은 전자 포맷으로 제공된다. 정렬은 후술하는 바와 같이 연산 장치를 사용하여 달성된다. 개별 판독물이 참조 게놈 - 이는 판독물이 참조 게놈에 고유하게 대응하는 부위를 식별하기 위해 종종 방대(수백만 개의 염기쌍들)함 -에 비교된다. 일부 실시형태들에서, 정렬 절차는 판독물과 참조 게놈 사이의 제한된 미스매치를 허용한다. 일부 경우들에서, 판독물에서의 1개, 2개, 3개, 또는 그 이상의 염기쌍들이 참조 게놈에서의 대응하는 염기쌍들과의 미스매칭하는 것이 허용되며, 그래도 맵핑은 여전히 이루어진다. 일부 실시형태들에서, 판독물은, 판독물이 참조 서열에 대해 1개, 2개, 3개, 또는 4개 이하의 염기쌍들과 정렬될 때 정렬된 판독물로 간주된다. 이에 대응하여, 비정렬된 판독물은 정렬될 수 없거나 불량하게 정렬된 판독물이다. 불량하게 정렬된 판독물은 정렬된 판독물보다 더 많은 미스매치를 갖는 판독물이다. 일부 실시형태들에서, 판독물은, 판독물이 참조 서열에 대해 1%, 2%, 3%, 4%, 5%, 또는 10% 이하의 염기쌍들과 정렬될 때 정렬된 판독물로 간주된다.
쌍형성된 말단 판독물을 관심있는 반복 서열을 포함하는 참조 서열에 정렬시킨 후에, 프로세스(300)는 쌍형성된 말단 판독물 중에서 앵커 판독물 및 앵커링된 판독물을 식별하도록 진행한다. 블록(306)을 참조한다. 전술된 바와 같이, 앵커 판독물은 반복 서열에 또는 그 근처에 정렬된 쌍형성된 말단 판독물이다. 일부 실시형태들에서, 앵커 판독물은 반복 서열의 1 kb 내에 정렬되는 쌍형성된 말단 판독물이다. 앵커링된 판독물은 앵커 판독물과 쌍을 이루지만, 위에서 설명된 바와 같이 참조 서열과 정렬될 수 없거나 그와 불량하게 정렬된다.
프로세스(300)는 식별된 앵커 판독물 및/또는 앵커링된 판독물에서의 반복 단위들의 반복체들의 개수를 분석하여 반복 서열의 확장의 존재 또는 부재를 결정한다. 보다 구체적으로, 프로세스(300)는 앵커 판독물 및/또는 앵커링된 판독물에서 고 카운트(high-count) 판독물의 개수를 획득하기 위해 판독물 내의 반복체들의 개수를 사용하는 것을 수반한다. 고 카운트 판독물은 임계값보다 더 많은 반복체들을 갖는 판독물이다. 일부 실시형태들에서, 고 카운트 판독물은 앵커링된 판독물로부터만 획득된다. 다른 실시형태들에서, 고 카운트 판독물은 앵커 판독물 및 앵커링된 판독물 둘 모두로부터 획득된다. 일부 실시형태들에서, 반복체들의 개수가 판독물에 대한 최대로 가능한 반복체들의 개수에 가까운 경우, 판독물은 고 카운트 판독물로 간주된다. 예를 들어, 판독물이 100 bp이고, 고려중인 반복 단위가 3 bp인 경우, 반복체들의 최대 개수는 33일 것이다. 다시 말하면, 최대값은 쌍형성된 말단 판독물의 길이 및 반복 단위의 길이로부터 계산된다. 구체적으로, 반복체들의 최대 개수는 판독물 길이를 반복 단위의 길이로 나누고 수를 반내림함으로써 획득할 수 있다. 이 예에서, 다양한 구현예들은 적어도 약 28, 29, 30, 31, 32, 또는 33개의 반복체들을 갖는 100 bp 판독물을 고 카운트 판독물로서 식별할 수 있다. 반복체들의 개수는 경험적 인자들 및 고려사항들에 기초하여 고 카운트 판독물에 대해 상향 또는 하향 조정될 수 있다. 다양한 실시형태들에서, 고 카운트 판독물에 대한 임계값은 반복체들의 최대 개수의 적어도 약 80%, 85%, 90%, 또는 95% 이다.
이어서, 프로세스(300)는 고 카운트 판독물의 개수에 기초하여 반복 서열의 반복 확장이 존재할 가능성이 있는 지를 결정한다. 블록(310)을 참조한다. 일부 실시형태들에서, 분석은 획득된 고 카운트 판독물을 호출 기준에 비교하고, 기준이 초과되는 경우 반복 확장이 존재할 가능성이 있다고 결정한다. 일부 실시형태들에서, 호출 기준은 대조군 샘플의 고 카운트 판독물의 분포로부터 획득된다. 예를 들어, 정상 반복 서열을 갖거나 갖는 것으로 의심되는 것으로 알려진 복수의 대조군 샘플이 분석되고, 전술된 것과 동일한 방식으로 대조군 샘플에 대해 고 카운트 판독물이 획득된다. 대조군 샘플에 대한 고 카운트 판독물의 분포가 획득될 수 있고, 특정 값보다 많은 카운트 판독물을 갖는, 영향받지 않은 샘플의 확률을 추정할 수 있다. 이러한 확률은 이러한 특정 값에서 호출 기준이 설정된 경우 감도 및 선택성을 결정할 수 있게 한다. 일부 실시형태들에서, 호출 기준은 임계값으로 설정되어, 임계값 초과의 고 카운트 판독물을 갖는 영향받지 않은 샘플의 확률이 5% 미만이 되게 한다. 다시 말하면, p-값은 0.05 보다 작다. 이들 실시형태들에서, 반복체들이 확장됨에 따라, 반복 서열이 더 길어지고, 더 많은 판독물이 전적으로 반복 서열 내로부터 유래될 수 있고, 샘플에 대해 더 많은 고 카운트 판독물이 획득될 수 있다. 다양한 대안적인 구현예들에서, 영향받지 않은 샘플이 임계값 초과의 고 카운트 판독물을 가질 확률이 약 1%, 0.1%, 0.01%, 0.001%, 0.0001% 등의 미만이 되도록 보다 보수적인 호출 기준이 선택될 수 있다. 호출 기준은 다양한 인자들 및 검사의 감도 또는 선택성을 증가시킬 필요성에 기초하여 상향 또는 하향 조정될 수 있다는 것이 이해될 것이다.
일부 실시형태들에서, 대조군 샘플로부터의 고 카운트 판독물의 개수의 호출 기준을 경험적으로 획득하는 것 대신에 또는 그에 더하여, 반복 확장을 결정하기 위해 호출 기준이 이론적으로 획득될 수 있다. 쌍형성된 말단 판독물의 길이, 반복 확장을 갖는 서열의 길이, 및 서열분석 깊이를 포함하는 다수의 파라미터들이 주어지면, 완전히 반복체 내에 있는 판독물의 예상 개수를 계산하는 것이 가능하다. 예를 들어, 정렬된 게놈 내의 판독물 사이의 평균 간격을 계산하기 위해 서열분석 깊이를 사용할 수 있다. 개별 샘플을 30배 깊이로 서열분석한 경우, 서열분석된 총 염기들은 게놈의 크기에 깊이를 곱한 것과 동일하다. 인간의 경우, 이것은 약 3x109x30 = 9x1010에 이를 것이다. 각각의 판독물이 100 bp 길이인 경우, 이 깊이를 달성하는 데 총 9x108개의 판독물이 필요하다. 게놈은 이배체이기 때문에, 이들 판독물의 절반은 하나의 염색체/단상형을 서열분석하고 나머지는 다른 염색체/단상형을 서열분석한다. 단상형 당, 4.5x108개의 판독물이 있고, 전체 게놈 크기를 이러한 개수로 나누는 것은 각각의 판독물의 시작 위치들 사이의 평균 간격 즉, 3 x 109/4.5 x 108 = 1 판독물마다 평균 6.7 bp를 산출한다. 이러한 수를 사용하여, 특정 개체에서 반복 서열의 크기에 기초하여 그 반복 서열 내에 완전히 있을 판독물의 개수를 추정할 수 있다. 총 반복 서열 크기가 300 bp이면, 그 반복 서열의 처음 200 bp 내에서 시작하는 임의의 판독물은 반복 서열 내에 완전히 있을 것이다(마지막 100 bp 내에서 시작하는 임의의 판독물은 적어도 부분적으로 100 bp 판독물 길이를 기준으로 반복 서열을 벗어날 것이다). 판독물이 매 6.7 bp마다 정렬될 것으로 예상되므로, 200 bp/(6.7 bp/판독) = 30개의 판독물이 반복 서열 내에서 완전히 정렬될 것으로 예상된다. 이러한 개수에 대해 가변성이 있을 것이지만, 이는 임의의 확장 크기에 대해 반복 서열 내에 완전히 있을 전체 판독물을 추정할 수 있게 한다. 이 방법에 따라 계산되는 반복 서열 길이들 및 반복 서열 내에 완전히 정렬되는 판독물의 대응하는 예상 개수가 아래의 실시예 1의 표 2에 제공된다.
일부 실시형태들에서, 호출 기준이 판독물 내의 반복 서열의 첫 번째 관찰과 마지막 관찰 사이의 거리로부터 계산되고, 따라서 반복 서열에서의 돌연변이들 및 서열분석 오차들을 허용한다.
일부 실시형태들에서, 프로세스는 테스트 샘플이 획득된 개체가 취약 X 증후군, ALS, 헌팅턴 병, 프리드라이히 운동실조증, 척수소뇌성 운동실조증, 척수구근 근위축증, 근긴장성 이영양증, 마카도-조셉 병, 치상핵적핵 담창구시상하부 위축증 등과 같은 유전적 장애의 위험이 높은 것으로 진단하는 단계를 추가로 포함할 수 있다. 그러한 진단은 반복 확장이 테스트 샘플에 존재할 가능성이 있다는 결정, 및 반복 확장과 연관된 유전자 및 반복 서열에 기초할 수 있다. 다른 실시형태들에서, 유전적 장애가 알려져 있지 않을 때, 일부 실시형태들은 비정상적으로 고 카운트인 반복체들을 검출하여 질환의 유전자 원인을 새로 식별할 수 있다.
도 4는 일부 실시형태들에 따른 반복 확장을 검출하기 위한 다른 프로세스를 도시하는 흐름도이다. 프로세스(400)는 고 카운트 판독물 대신에 테스트 샘플의 쌍형성된 말단 판독물에서 반복체들의 개수를 사용하여 반복 확장의 존재를 결정한다. 프로세스(400)는 쌍형성된 말단 판독물을 획득하기 위해 핵산을 포함하는 테스트 샘플을 서열분석함으로써 시작된다. 프로세스(300)의 블록(302)과 동등한 블록(402)을 참조한다. 프로세스(400)는 쌍형성된 말단 판독물을 반복 서열을 포함하는 참조 서열에 정렬시킴으로써 계속된다. 프로세스(300)에서의 블록(304)과 동등한 블록(404)을 참조한다. 프로세스는 쌍형성된 말단 판독물 내의 앵커 판독물 및 앵커링된 판독물을 식별함으로써 진행하며, 여기서 앵커 판독물은 반복 서열에 또는 그 근처에 정렬된 판독물이고, 앵커링된 판독물은 앵커 판독물과 쌍을 이루는 비정렬된 판독물이다. 일부 실시형태들에서, 비정렬된 판독물은 참조 서열에 정렬될 수 없는 판독물 및 그에 불량하게 정렬되는 판독물 둘 모두를 포함한다.
앵커 판독물 및 앵커링된 판독물을 식별한 후에, 프로세스(400)는 테스트 샘플로부터의 앵커 판독물 및/또는 앵커링된 판독물의 반복체들의 개수를 획득한다. 블록(408)을 참조한다. 이어서, 프로세스는 테스트 샘플로부터 획득된 모든 앵커 판독물 및/또는 앵커링된 판독물에 대한 반복체들의 개수의 분포를 획득한다. 일부 실시형태들에서, 앵커 판독물로부터의 반복체들의 개수들만이 분석된다. 다른 실시형태들에서, 앵커링된 판독물 및 앵커 판독물 둘 모두의 반복체들이 분석된다. 이어서, 테스트 샘플의 반복체들의 개수의 분포를 하나 이상의 대조군 샘플의 분포와 비교한다. 블록(410)을 참조한다. 일부 실시형태들에서, 테스트 샘플의 분포가 대조군 샘플의 분포와 통계적으로 유의하게 상이하다면, 프로세스는 반복 서열의 반복 확장이 테스트 샘플에 존재한다고 결정한다. 블록(412)을 참조한다. 프로세스(400)는 프로세스(300)에 관하여 전술된 것과 같은 단지 고 카운트 판독물만을 분석하는 프로세스와 상이하게, 고 카운트 판독물뿐만 아니라 저 카운트 판독물을 포함하는 판독물에 대한 반복체들의 개수를 분석한다.
일부 실시형태들에서, 테스트 샘플의 분포 및 대조군 샘플의 분포의 비교는 만-휘트니 순위 검정(Mann-Whitney rank test)을 사용하여 두 분포들이 유의하게 상이한지 결정하는 것을 수반한다. 일부 실시형태들에서, 테스트 샘플의 분포가 대조군 샘플에 비해 더 높은 반복체들의 개수로 치우치고, 만-휘트니 순위 검정에 대한 p-값이 약 0.0001 또는 0.00001 보다 작은 경우, 분석은 테스트 샘플에 반복 확장이 존재할 가능성이 있다고 결정한다. p-값은 시험의 선택성 또는 감도를 개선하기 위해 필요에 따라 조정될 수 있다.
도 2 내지 도 4와 관련하여 전술된 반복 확장을 검출하는 프로세스들은 관심있는 반복 서열에 대해 정렬된 판독물과 쌍을 이루는 비정렬된 판독물인 앵커링된 판독물을 사용한다. 이들 프로세스들에 대한 변형들은, 의학적으로 관련될 수 있는 이전에 식별되지 않은 새로운 반복 확장들을 발견하기 위해 둘 모두 거의 전적으로 일부 유형의 반복 서열로 구성된 판독물 쌍들에 대한 비정렬된 판독물을 검색하는 것을 포함할 수 있다. 이 방법은 정확한 반복체들의 개수를 정량화하지는 않지만, 추가의 정량화를 위해 플래깅(flag)되어야 하는 극단적인 반복체 확장들 또는 그 이상점(outlier)들을 식별하는 데 강력하다. 더 긴 판독물과 조합되어, 이 방법은 총 길이가 최대 200 bp 이상인 반복체들을 식별하고 정량화할 수 있다.
도 5는 반복 확장을 식별하기 위해 관심있는 임의의 반복체 서열과 연관되지 않은 비정렬된 판독물을 사용하는 프로세스(500)의 흐름도를 예시한다. 프로세스(500)는 반복 확장을 검출하기 위해 전체 게놈 비정렬된 판독물을 사용할 수 있다. 프로세스는 쌍형성된 말단 판독물을 획득하기 위해 핵산을 포함하는 테스트 샘플을 서열분석함으로써 시작된다. 블록(502)을 참조한다. 프로세스(500)는 쌍형성된 말단 판독물을 참조 게놈에 정렬시킴으로써 진행된다. 블록(504)을 참조한다. 이어서, 프로세스는 전체 게놈에 대한 비정렬된 판독물을 식별한다. 비정렬된 판독물은 참조 서열에 대해 정렬될 수 없거나 또는 그에 불량하게 정렬된 쌍형성된 말단 판독물을 포함한다. 블록(506)을 참조한다. 이어서 프로세스는 비정렬된 판독물 내의 반복 단위의 반복체들의 개수를 분석하여, 반복 확장이 테스트 샘플에 존재할 가능성이 있는지를 결정한다. 이러한 분석은 임의의 특정 반복 서열에 무관할 수 있다. 분석은 다양한 잠재적인 반복 단위에 적용될 수 있으며, 테스트 샘플로부터의 상이한 반복 단위에 대한 반복체들의 개수는 복수의 대조군 샘플의 것들과 비교될 수 있다. 전술된 테스트 샘플과 대조군 샘플 사이의 비교 기술들이 이러한 분석에 적용될 수 있다. 비교가 테스트 샘플이 반복 단위의 비정상적으로 높은 반복체들의 개수를 가짐을 나타내는 경우, 테스트 샘플이 관심있는 특정 반복 서열의 반복 확장을 포함하는지를 결정하기 위해 추가의 분석이 수행될 수 있다. 블록(510)을 참조한다.
일부 실시형태들에서, 추가의 분석은 의학적으로 관련된 반복 확장을 갖는 긴 반복 서열에 잠재적으로 확장될 수 있는 매우 긴 서열 판독물을 수반한다. 이러한 추가의 분석의 판독물은 쌍형성된 말단 판독물보다 더 길다. 일부 실시형태들에서, 단일 분자 서열분석 또는 합성 긴-판독물 서열분석을 사용하여 긴 판독물을 획득한다. 일부 실시형태들에서, 반복 확장과 유전적 장애 사이의 관계가 당업계에 공지되어 있다. 그러나, 다른 실시형태들에서, 반복 확장과 유전적 장애 사이의 관계가 당업계에 확립될 필요는 없다.
일부 실시형태들에서, 동작(510)의 비정렬된 판독물 내의 반복 단위의 반복체들의 개수를 분석하는 것은 도 3의 동작(308)의 것에 필적하는 고 카운트 분석을 수반한다. 분석은 고 카운트 판독물의 개수를 획득하는 단계 - 고 카운트 판독물은 임계값보다 더 많은 반복체들을 갖는 비정렬된 판독물임 -, 및 테스트 샘플 내의 고 카운트 판독물의 개수를 호출 기준과 비교하는 단계를 포함한다. 일부 실시형태들에서, 고 카운트 판독물에 대한 임계값은 반복체들의 최대 개수의 적어도 약 80% 이며, 이 최대값은 반복 단위의 길이에 대한 쌍형성된 말단 판독물의 길이의 비로서 계산된다. 일부 실시형태들에서, 고 카운트 판독물은 또한 비정렬된 판독물과 쌍을 이루고 임계값보다 더 많은 반복체를 갖는 판독물을 포함한다.
일부 실시형태들에서, 동작(510)의 추가의 분석 이전에, 프로세스는 (a) 비정렬된 판독물과 쌍을 이루고 참조 게놈 상의 반복 서열에 또는 그 근처에 정렬되는 쌍형성된 말단 판독물을 식별하는 단계; 및 (b) 동작(510)에 대한 관심있는 특정 반복 서열로서 반복 서열을 제공하는 단계를 추가로 수반한다. 이어서, 관심있는 반복 서열의 추가의 분석은 도 2 내지 도 4와 연관하여 전술된 방법들 중 임의의 방법을 채용할 수 있다.
샘플
반복 확장을 결정하는 데 사용되는 샘플은 관심있는 하나 이상의 반복 서열들에 대한 반복 확장이 결정될 핵산을 포함하는 임의의 세포, 유체, 조직, 또는 장기로부터 취해진 샘플을 포함할 수 있다. 태아(fetus)의 진단을 수반하는 일부 실시형태들에서, 무세포 핵산, 예컨대, 무세포 DNA(cfDNA)를 모체 체액으로부터 획득하는 것이 유리하다. 무세포 DNA를 포함하는 무세포 핵산은, 혈장, 혈청 및 소변을 포함하나 이에 제한되지 않는 생물학적 샘플로부터 당업계에 공지된 다양한 방법들에 의해 획득될 수 있다 (예컨대, 문헌 [Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, [2000]; 및 Su et al., J Mol. Diagn. 6: 101-107 [2004]] 참조).
다양한 실시형태들에서, 샘플에 존재하는 핵산(예컨대, DNA 또는 RNA)은 특이적으로 또는 비특이적으로 사용 전(예컨대, 서열분석 라이브러리를 제조하기 전에)에 풍부화될 수 있다. DNA는 아래의 예시적인 실시예에서 핵산의 예로서 사용된다. 샘플 DNA의 비특이적 풍부화는 cfDNA 서열분석 라이브러리를 제조하기 전에 샘플 DNA의 수준을 증가시키는 데 사용될 수 있는, 샘플의 게놈 DNA 단편의 전체 게놈 증폭을 지칭한다. 전체 게놈 증폭을 위한 방법들은 당업계에 공지되어 있다. 축퇴 올리고뉴클레오티드-프라이밍된 PCR(DOP), 프라이머 연장 PCR 기술(PEP) 및 다중 치환 증폭(MDA)은 전체 게놈 증폭 방법들의 예들이다. 일부 실시형태들에서, 샘플은 DNA에 대해 비-풍부화된다.
본 명세서에 기술된 방법들이 적용되는 핵산을 포함하는 샘플은 전형적으로 전술된 바와 같은 생물학적 샘플("테스트 샘플")을 포함한다. 일부 실시형태들에서, 반복 확장에 대해 스크리닝될 핵산은 임의의 다수의 잘 알려진 방법들에 의해 정제되거나 단리된다.
따라서, 소정 실시형태들에서, 샘플은 정제된 또는 단리된 폴리뉴클레오티드를 포함하거나 그로 본질적으로 이루어지거나, 또는 이는 조직 샘플, 생물학적 유체 샘플, 세포 샘플 등과 같은 샘플을 포함할 수 있다. 적합한 생물학적 유체 샘플에는 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출액(ear flow), 림프액, 타액, 뇌척수액, 황폐액(ravages), 골수 현탁액, 질 유출액, 자궁경부내 세척액(trans-cervical lavage), 뇌액, 복수, 모유, 호흡관, 장관 및 비뇨생식관의 분비액, 양수, 모유, 및 류코포레시스(leukophoresis) 샘플이 포함되나 이에 제한되지 않는다. 일부 실시형태들에서, 샘플은 비침습성 절차에 의해 용이하게 획득가능한 샘플, 예컨대, 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출액, 타액 또는 배설물이다. 소정 실시형태들에서, 샘플은 말초 혈액 샘플, 또는 말초 혈액 샘플의 혈장 및/또는 혈청 분획이다. 다른 실시형태들에서, 생물학적 샘플은 면봉 또는 스미어, 생검 샘플, 또는 세포 배양물이다. 다른 실시형태에서, 샘플은 둘 이상의 생물학적 샘플의 혼합물이며, 예컨대, 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플, 및 세포 배양 샘플 중 2개 이상을 포함할 수 있다. 본 명세서에 사용되는 바와 같이, 용어 "혈액", "혈장" 및 "혈청"은 그의 분획물들 또는 처리된 부분들을 명시적으로 포괄한다. 유사하게, 샘플이 생검, 면봉, 스미어 등으로부터 취해지는 경우, "샘플"은 생검, 면봉, 스미어 등으로부터 유래된, 처리된 분획물 또는 부분을 명시적으로 포괄한다.
소정 실시형태들에서, 샘플은 상이한 개체로부터의 샘플, 동일하거나 상이한 개체의 상이한 발달 단계들로부터의 샘플, 상이한 병든 개체(예컨대, 유전적 장애를 갖는 것으로 의심되는 개체)로부터의 샘플, 정상 개체, 개체의 질병의 상이한 단계에서 획득한 샘플, 질병에 대한 상이한 치료를 받은 개체로부터 획득한 샘플, 상이한 환경적 인자를 받은 개체들로부터의 샘플, 병리에 대한 소인을 갖는 개체로부터의 샘플, 감염성 질병 제제에 대한 노출을 갖는 샘플 개체로부터의 샘플을 포함하지만 이에 제한되지 않는 공급원으로부터 획득될 수 있다.
하나의 예시적인, 그러나 비제한적인 실시형태에서, 샘플은 임신한 암컷, 예를 들어, 임신한 여성으로부터 획득되는 모체 샘플이다. 이 경우에, 샘플은 태아에서의 잠재적인 염색체 이상의 산전 진단을 제공하기 위해 본 명세서에 기술된 방법들을 사용하여 분석될 수 있다. 모체 샘플은 조직 샘플, 생물학적 유체 샘플, 또는 세포 샘플일 수 있다. 생물학적 유체는, 비제한적인 예로서, 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유출액, 림프액, 타액, 뇌척수액, 황폐액, 골수 현탁액, 질 유출액, 자궁경부내 세척액, 뇌액, 복수, 모유, 호흡관, 장관 및 비뇨생식관의 분비액, 및 류코포레시스 샘플이 포함되나 이에 제한되지 않는다.
소정 실시형태들에서, 샘플은 또한 시험관내 배양된 조직, 세포, 또는 다른 폴리뉴클레오티드-함유 공급원들로부터 획득할 수 있다. 배양된 샘플은 상이한 배지 및 조건(예컨대, pH, 압력, 또는 온도)에 유지된 배양물(예컨대, 조직 또는 세포), 상이한 기간 동안 유지된 배양물(예컨대, 조직 또는 세포), 상이한 인자 또는 시약(예컨대, 약물 후보 또는 조절제)으로 처리된 배양물(예컨대, 조직 또는 세포), 또는 다양한 유형의 조직 및/또는 세포의 배양물을 포함하지만 이에 제한되지 않는 공급원으로부터 취할 수 있다.
생물학적 공급원으로부터 핵산을 분리하는 방법들은 잘 알려져 있으며, 공급원의 성질에 따라 상이할 것이다. 당업자는 본 명세서에 기술된 방법에 필요한 공급원으로부터 핵산을 용이하게 분리할 수 있다. 일부 경우들에서, 핵산 샘플에서 핵산 분자를 단편화하는 것이 유리할 수 있다. 단편화는 무작위적일 수 있거나, 예를 들어, 제한 엔도뉴클레아제 분해를 사용하여 달성되는 바와 같이 특이적일 수 있다. 무작위 단편화를 위한 방법들은 당업계에 잘 알려져 있으며, 예를 들어, 제한된 DNAse 분해, 알칼리 처리 및 물리적 전단을 포함한다.
서열분석 라이브러리 제조
다양한 실시형태들에서, 서열분석은 서열분석 라이브러리의 제조를 필요로 하는 다양한 서열분석 플랫폼들 상에서 수행될 수 있다. 제조는 전형적으로 DNA(초음파 분해, 분무 또는 전단)를 단편화하고, 이어서 DNA 수복 및 말단 폴리싱(무딘 말단 또는 A 오버행), 및 플랫폼-특이적 어댑터 라이게이션(ligation)을 수반한다. 일 실시형태에서, 본 명세서에 기술된 방법들은 다수의 샘플이 개별적으로 게놈 분자로서 서열분석될 수 있게 하거나(즉, 싱글플렉스 서열분석) 또는 단일 서열분석 런 상의 인덱싱된 게놈 분자들을 포함하는 풀링된 샘플로서 서열분석될 수 있게 하는(예컨대, 멀티플렉스 서열분석) 차세대 서열분석 기술들(NGS)을 이용할 수 있다. 이들 방법들은 최대 수억 개의 DNA 서열 판독물을 생성할 수 있다. 다양한 실시형태들에서, 게놈 핵산 및/또는 인덱싱된 게놈 핵산의 서열들은, 예를 들어, 본 명세서에 기술된 차세대 생성 서열분석 기술들(NGS)을 사용하여 결정될 수 있다. 다양한 실시형태들에서, NGS를 사용하여 획득한 대량의 서열 데이터의 분석은 본 명세서에 기술된 바와 같은 하나 이상의 프로세서들을 사용하여 수행될 수 있다.
다양한 실시형태들에서, 이러한 서열분석 기술들의 사용은 서열분석 라이브러리의 제조를 수반하지 않는다.
그러나, 특정 실시형태들에서, 본 명세서에서 고려되는 서열분석 방법들은 서열분석 라이브러리의 제조를 수반한다. 하나의 예시적인 접근법에서, 서열분석 라이브러리 제조는 서열분석될 준비가 된 어댑터-변형된 DNA 단편(예컨대, 폴리뉴클레오티드)의 무작위 집합의 생성을 수반한다. 폴리뉴클레오티드의 서열분석 라이브러리는, DNA 또는 cDNA의 등가물, 유사체, 예를 들어, DNA 또는 상보적인 cDNA 또는 역전사효소의 작용에 의해 RNA 주형으로부터 생성된 복제 DNA를 포함하는 DNA 또는 RNA로부터 제조될 수 있다. 폴리뉴클레오티드는 이중-가닥 형태(예컨대, dsDNA, 예컨대, 게놈 DNA 단편, cDNA, PCR 증폭 생성물 등)에서 유래할 수 있거나, 또는 특정 실시형태들에서, 폴리뉴클레오티드는 단일-가닥 형태(예컨대, ssDNA, RNA 등)에서 유래되어 dsDNA 형태로 전환될 수 있다. 예시로서, 소정의 실시형태들에서, 단일 가닥 mRNA 분자가 서열분석 라이브러리를 제조하는 데 사용하기에 적합한 이중-가닥 cDNA 내로 복제될 수 있다. 일차 폴리뉴클레오티드 분자의 정확한 서열은 일반적으로 라이브러리 제조 방법에 대한 중요한 것이 아니며, 알려져 있거나 알려져 있지 않을 수 있다. 일 실시형태에서, 폴리뉴클레오티드 분자는 DNA 분자이다. 더욱 구체적으로, 특정 실시형태들에서, 폴리뉴클레오티드 분자는 유기체의 전체 유전적 보체 또는 실질적으로 유기체의 전체 유전적 보체를 표현하며, 일반적으로 인트론 서열 및 엑손 서열(코딩 서열)뿐만 아니라 프로모터 및 인핸서 서열과 같은 비 코딩 조절 서열들을 포함하는 게놈 DNA 분자(예컨대, 세포 DNA, 무세포 DNA(cfDNA) 등)이다. 특정 실시형태들에서, 1차 폴리뉴클레오티드 분자는 인간 게놈 DNA 분자, 예를 들어, 임신 대상의 말초 혈액에 존재하는 cfDNA 분자를 포함한다.
일부 NGS 서열분석 플랫폼에 대한 서열분석 라이브러리의 제조는 특정 범위의 단편 크기를 포함하는 폴리뉴클레오티드의 사용에 의해 용이하게 된다. 이러한 라이브러리의 제조는 전형적으로 반복 확장을 결정하기 위해 원하는 크기 범위의 폴리뉴클레오티드를 획득하기 위한 큰 폴리뉴클레오티드(예컨대, 세포 게놈 DNA)의 단편화를 수반한다. 단편 또는 삽입물 길이는 판독물 길이보다 길고, 전형적으로 2개의 판독물의 길이의 합보다 더 길다.
일부 예시적인 실시형태들에서, 샘플 핵산(들)은 게놈 DNA 로서 획득되며, 이는 대략적으로 100개 이상, 대략 200개 이상, 대략 300개 이상, 대략 400개 이상, 또는 대략 500개 이상의 염기쌍의 단편으로 단편화되고, 여기에는 NGS 방법들이 용이하게 적용될 수 있다. 일부 실시형태들에서, 쌍형성된 말단 판독물은 약 100 내지 5000 bp의 삽입물로부터 획득된다. 일부 실시형태들에서, 삽입물은 길이가 약 100 내지 1000 bp이다. 이들은 때때로 규칙적으로 짧은 삽입물 쌍형성된 말단 판독물로서 구현된다. 일부 실시형태들에서, 삽입물은 길이가 약 1000 내지 5000 bp이다. 이들은 때때로 전술한 바와 같이 긴-삽입물 메이트 쌍형성된 판독물로서 구현된다.
일부 구현예들에서, 긴 삽입물들은 매우 길고 확장된 반복 서열들을 평가하도록 설계된다. 일부 구현예들에서, 메이트 쌍 판독물은 수천 개의 염기쌍들에 의해 이격된 판독물을 획득하기 위해 적용될 수 있다. 이들 구현예들에서, 삽입물 또는 단편은 수백 내지 수천 개의 염기쌍 범위이며, 여기서 2개의 비오틴 접합 어댑터들이 삽입물의 2개의 말단들 상에 있다. 이어서, 비오틴 접합 어댑터들은 삽입물의 2개의 말단들을 결합하여 원형화된 분자를 형성하며, 이는 이어서 추가로 단편화된다. 비오틴 접합 어댑터들 및 원래의 삽입물의 2개의 말단들을 포함하는 하위-단편은 더 짧은 단편을 서열분석하도록 설계된 플랫폼 상에서의 서열분석을 위해 선택된다.
단편화는 당업자에게 공지된 다수의 방법들 중 임의의 것에 의해 달성될 수 있다. 예를 들어, 단편화는 분무, 초음파 분해 및 하이드로셰어(hydroshear)를 포함하지만 이에 제한되지 않는 기계적 수단에 의해 달성될 수 있다. 그러나, 기계적 단편화는 전형적으로 C-O, P-O 및 C-C 결합에서 DNA 골격을 절단하여, C-O, P-O 및/C-C 결합이 끊어진 무딘 말단 및 3'- 및 5'-오버행 말단의 이종성 혼합물을 생성하며(예컨대, 문헌 [Alnemri and Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards and Boyer, J Mol Biol 11:327-240 [1965]] 참조), 이는 후속 효소 반응, 예컨대, 서열분석을 위한 DNA를 제조하는 데 필요한 서열분석 어댑터들의 라이게이션을 위해 필요한 5'-포스페이트가 결여될 수 있기 때문에 수복될 필요가 있을 수 있다.
대조적으로, cfDNA는 전형적으로 약 300개 미만의 염기쌍의 단편으로서 존재하며, 결과적으로 단편화는 전형적으로 cfDNA 샘플을 사용하여 서열분석 라이브러리를 생성하는 데 필요하지 않다.
전형적으로, 폴리뉴클레오티드가 강제적으로 단편화되든(예컨대, 시험관 내에서 단편화됨), 단편으로서 자연적으로 존재하든, 이들은 5'-포스페이트 및 3'-하이드록실을 갖는 무딘 말단 DNA로 전환된다. 표준 프로토콜들, 예컨대, 예를 들어, 본 명세서의 다른 곳에 기술된 바와 같은 일루미나 플랫폼을 사용하는 서열분석을 위한 프로토콜들은, 사용자들에게 샘플 DNA를 말단-수복하고, dA-테일링(dA-tailing) 전에 말단-수복된 생성물을 정제하고, 라이브러리 제조의 어댑터-라이게이션 단계들 전에 dA-테일링 생성물을 정제하도록 지시한다.
본 명세서에 기술된 서열분석 라이브러리 제조 방법들의 다양한 실시형태들은, NGS에 의해 서열분석될 수 있는 변형된 DNA 생성물을 획득하기 위해 일반적으로 표준 프로토콜들에서 요구되는 하나 이상의 단계들을 수행할 필요가 없다. 약칭된 방법(ABB 방법), 1-단계 방법, 및 2-단계 방법은, 전체적으로 참고로 포함되는, 2012년 7월 20일자로 출원된 특허 출원 제13/555,037호에서 찾아볼 수 있는, 서열분석 라이브러리를 제조하기 위한 방법들의 예들이다.
서열분석 방법들
상기에 나타낸 바와 같이, 제조된 샘플(예컨대, 서열분석 라이브러리)은 복제수 변이(들)를 식별하기 위한 절차의 일부로서 서열분석된다. 다수의 서열분석 기술들 중 임의의 것이 이용될 수 있다.
후술되는 바와 같이, 아피매트릭스 인크.(Affymetrix Inc.)(캘리포니아주 써니베일)의 혼성화에 의한 서열분석 플랫폼, 및 454 라이프 사이언스(454 Life Sciences)(코네티컷주 브래드포드), 일루미나/솔렉사(Solexa)(캘리포니아주 샌디에고) 및 헬리코스 바이오사이언스(Helicos Biosciences)(매사추세츠주 캠브리지)의 합성에 의한 서열분석 플랫폼, 및 어플라이드 바이오시스템즈(Applied Biosystems)(캘리포니아주 포스터 시티)의 라이게이션에 의한 서열분석 플랫폼과 같은 일부 서열분석 기술들이 상업적으로 이용가능하다. 헬리코스 바이오사이언스의 합성에 의한 서열분석를 사용하여 수행되는 단일 분자 서열분석에 더하여, 다른 단일 분자 서열분석 기술은 퍼시픽 바이오사이언스(Pacific Biosciences)의 SMRT™ 기술, ION TORRENT™ 기술, 및 예를 들어 옥스포드 나노포어 테크놀로지(Oxford Nanopore Technologies)에 의해 개발된 나노기공 서열분석이 포함되나 이에 제한되지 않는다.
자동화 생어(Sanger) 방법이 "1세대" 기술로서 고려되지만, 자동화된 생어 서열분석을 포함하는 생어 서열분석이 또한 본 명세서에 기술된 방법에 채용될 수 있다. 추가의 적합한 서열분석 방법들은 핵산 이미징 기술, 예컨대, 원자힘 현미경법(AFM) 또는 투과 전자 현미경법(TEM)을 포함하나 이에 제한되지 않는다. 예시적인 서열분석 기술들이 아래에서 더 상세히 기술된다.
일부 실시형태들에서, 개시된 방법들은 일루미나의 합성에 의한 서열분석 및 가역적 종결자 기반 서열분석 화학반응을 사용하여 수백만 개의 DNA 단편을 대량 병렬 서열분석하여 테스트 샘플에서 핵산에 대한 서열 정보를 획득하는 것을 수반한다(예컨대, 문헌 [Bentley et al., Nature 6:53-59 [2009]]에 기술된 바와 같음). 주형 DNA는 게놈 DNA, 예컨대, 세포 DNA 또는 cfDNA일 수 있다. 일부 실시형태들에서, 단리된 세포로부터의 게놈 DNA는 주형으로서 사용되며, 이는 수백 개의 염기쌍의 길이로 단편화된다. 다른 실시형태들에서, cfDNA는 주형으로서 사용되며, cfDNA가 짧은 단편으로서 존재하기 때문에 단편화가 필요하지 않다. 예를 들어, 태아 cfDNA는 대략적으로 170 염기쌍(bp) 길이의 단편으로 혈류 내에서 순환하며(문헌 [Fan et al., Clin Chem 56 : 1279-1286 [2010]]), 서열분석 전에 DNA 단편화가 필요하지 않다. 일루미나의 서열분석 기술은 올리고뉴클레오티드 앵커가 결합된 평면의 광학적으로 투명한 표면에 대한 단편화된 게놈 DNA의 부착에 의존한다. 주형 DNA를 말단-수복하여 5'-인산화된 무딘 말단들을 생성하고, 클레노우 단편(Klenow fragment)의 중합효소 활성을 사용하여 단일 A 염기를 무딘 인산화된 DNA 단편의 3' 말단에 첨가한다. 이 첨가는 올리고뉴클레오티드 어댑터로의 라이게이션을 위한 DNA 단편을 제조하는데, 이는 라이게이션 효율을 증가시키기 위해 그들의 3' 말단에 단일 T 염기의 오버행을 갖는다. 어댑터 올리고뉴클레오티드는 플로우-셀 앵커 올리고들(반복 확장의 분석에서 앵커 판독물/앵커링된 판독물과 혼동되지 않음)에 상보적이다. 제한된 희석 조건들 하에서, 어댑터-변형된 단일-가닥 주형 DNA를 플로우 셀에 첨가하고, 혼성화에 의해 앵커 올리고들에 고정시켰다. 부착된 DNA 단편을 연장시키고 브리지 증폭시켜, 각각 동일한 주형의 약 1,000개의 복제들을 포함하는 수억 개의 클러스터들이 있는 초고밀도 서열분석 플로우 셀을 생성한다. 일 실시형태에서, 무작위로 단편화된 게놈 DNA는 클러스터 증폭을 받기 전에 PCR을 사용하여 증폭된다. 대안적으로, 증폭이 없는 게놈 라이브러리 제조가 사용되고, 무작위로 단편화된 게놈 DNA는 클러스터 증폭만을 사용하여 풍부화된다(문헌 [Kozarewa et al., Nature Methods 6:291-295[2009]]). 주형들은 제거가능한 형광 염료를 갖는 가역적 종결자들을 이용하는 강건한 4색 DNA 합성에 의한 서열분석 기술을 사용하여 서열분석된다. 고감도 형광 검출은 레이저 여기 및 내부 전반사 광학계를 사용하여 달성된다. 약 수십 내지 수백 개의 염기쌍의 짧은 서열 판독물이 참조 게놈에 대해 정렬되고, 참조 게놈에 대한 짧은 서열 판독물의 고유 맵핑이 특수하게 개발된 데이터 분석 파이프라인 소프트웨어를 사용하여 식별된다. 제1 판독물의 완료 후에, 주형들이 원위치에서 재생되어 단편의 반대편 말단으로부터의 제2 판독물을 가능하게 할 수 있다. 따라서, DNA 단편의 단일 말단 또는 쌍형성된 말단 서열분석이 사용될 수 있다.
본 개시내용의 다양한 실시형태들은 쌍형성된 말단 서열분석을 허용하는 합성에 의한 서열분석을 사용할 수 있다. 일부 실시형태들에서, 일루미나에 의한 합성 플랫폼에 의한 서열분석은 단편을 클러스터링하는 것을 수반한다. 클러스터링은 각각의 단편 분자가 등온적으로 증폭되는 프로세스이다. 일부 실시형태들에서, 여기에서 기술된 예로서, 단편은 단편의 두 말단에 부착된 2개의 상이한 어댑터들을 가지며, 이 어댑터들은 단편이 플로우 셀 레인의 표면 상의 2개의 상이한 올리고들과 혼성화되게 할 수 있다. 단편은 단편의 두 말단들에서 2개의 인덱스 서열들을 추가로 포함하거나 또는 그에 연결되고, 이 인덱스 서열들은 멀티플렉스 서열분석에서 상이한 샘플을 식별하기 위한 라벨들을 제공한다. 일부 서열분석 플랫폼들에서, 서열분석될 단편은 또한 삽입물로 지칭된다.
일부 구현예에서, 일루미나 플랫폼에서 클러스터링을 위한 플로우 셀은 레인들을 갖는 유리 슬라이드이다. 각각의 레인은 2가지 유형의 올리고들의 론(lawn)이 코팅된 유리 채널이다. 혼성화는 표면 상의 두 가지 유형의 올리고들 중 첫 번째 것에 의해 가능해진다. 이 올리고는 단편의 일 말단 상의 제1 어댑터에 상보적이다. 중합효소는 혼성화된 단편의 보체 가닥을 생성한다. 이중-가닥 분자는 변성되고, 원래의 주형 가닥은 세척된다. 나머지 가닥은, 많은 다른 나머지 가닥들과 병행하여, 브리지 적용을 통해 클론 증폭된다.
브리지 증폭에서, 가닥의 제2 말단 상의 제2 어댑터 영역이 플로우 셀 표면 상의 제2 유형의 올리고들과 혼성화된다. 중합효소는 상보적 가닥을 생성하여, 이중-가닥 가교 분자를 형성한다. 이러한 이중-가닥 분자는 변성되어 2개의 상이한 올리고들을 통해 플로우 셀에 부착된(tethered) 2개의 단일-가닥 분자가 생성된다. 이어서, 프로세스는 계속 반복되고, 수백만 개의 클러스터들에 대해 동시에 발생하여 모든 단편의 클론 증폭을 일으킨다. 브리지 증폭 후에, 역방향 가닥들은 절단되고 세척되어, 전방 가닥들만을 남긴다. 3' 말단들은 원하지 않는 프라이밍을 방지하기 위해 차단된다.
클러스터링 후에, 서열분석은 제1 서열분석 프라이머를 연장시켜 제1 판독물을 생성함에 따라 시작한다. 각각의 사이클에서, 형광 태깅된 뉴클레오티드는 성장하는 사슬에 대한 첨가를 위해 경쟁한다. 주형의 서열에 기초하여 단지 하나만이 포함된다. 각각의 뉴클레오티드의 첨가 후에, 클러스터는 광원에 의해 여기되고, 특성 형광 신호가 방출된다. 사이클의 수는 판독물의 길이를 결정한다. 방출 파장 및 신호 세기가 염기 호출을 결정한다. 주어진 클러스터에 대해 모든 동일한 가닥들은 동시에 판독된다. 수억 개의 클러스터들이 대량 병렬 방식으로 서열분석된다. 제1 판독물의 완료 시에, 판독물 생성물은 세척된다.
2개의 인덱스 프라이머들을 수반하는 프로토콜들의 다음 단계에서, 인덱스 1 프라이머가 도입되고, 주형 상의 인덱스 1 영역으로 혼성화한다. 인덱스 영역들은 단편의 식별을 제공하며, 이는 다중 서열분석 프로세스에서 샘플을 디멀티플렉싱(de-multiplexing)하는 데 유용하다. 인덱스 1 판독물은 제1 판독물과 유사하게 생성된다. 인덱스 1 판독물의 완료 후에, 판독물 생성물을 세척하고 가닥의 3' 말단을 탈보호(de-protect)한다. 이어서, 주형 가닥을 접고 플로우 셀 상의 제2 올리고에 결합한다. 인덱스 2 서열이 인덱스 1과 동일한 방식으로 판독된다. 이어서, 단계 완료시 인덱스 2의 판독물 생성물은 세척된다.
2개의 인덱스들을 판독한 후에, 중합 효소를 사용하여 제2 플로우 셀 올리고들을 확장하여 이중-가닥 가교를 형성함으로써 판독물 2가 개시된다. 이러한 이중-가닥 DNA는 변성되고, 3' 말단은 차단된다. 원래의 전방 가닥은 절단되고 세척되어, 역방향 가닥을 남긴다. 판독물 2는 판독물 2 서열 프라이머의 도입으로 시작된다. 판독물 1에서와 같이, 서열분석 단계들은 원하는 길이가 달성될 때까지 반복된다. 판독물 2 생성물이 세척된다. 이 전체 프로세스는 모든 단편을 표현하는 수백만 개의 판독물을 생성한다. 풀링된 샘플 라이브러리로부터의 서열들은 샘플 제조 동안 도입된 고유 인덱스들에 기초하여 분리된다. 각각의 샘플에 대해, 염기 호출들의 유사한 신장부들의 판독물이 국부적으로 클러스터링된다. 순방향 및 역방향 판독물들은 쌍을 이루어 인접 서열들을 생성한다. 이들 인접 서열들은 변이체 식별을 위해 참조 게놈에 정렬된다.
전술된 합성에 의한 서열분석 예는 개시된 방법들의 많은 실시형태들에서 사용되는 쌍형성된 말단 판독물을 수반한다. 쌍형성된 말단 서열분석은 단편의 두 말단들로부터의 2개의 판독물들을 수반한다. 쌍형성된 말단 판독물은 모호한 정렬을 해결하기 위해 사용된다. 쌍형성된 말단 서열분석은 사용자들이 삽입물(또는 서열분석될 단편)의 길이를 선택하고 삽입물의 양 말단을 서열분석하여, 고품질의 정렬가능 서열 데이터를 생성할 수 있게 한다. 각각의 쌍형성된 판독물 사이의 거리가 알려져 있기 때문에, 정렬 알고리즘들은 이러한 정보를 사용하여 반복 영역들 위의 판독물을 보다 정밀하게 맵핑할 수 있다. 이는 특히 게놈의 서열분석하기 어려운 반복 영역들에 걸쳐 판독물의 더 양호한 정렬을 초래한다. 쌍형성된 말단 서열분석은 삽입 및 결실(인델) 및 역위를 포함한 재배열을 검출할 수 있다.
쌍형성된 말단 판독물은 상이한 길이(즉, 서열분석될 상이한 단편 크기)의 삽입물을 사용할 수 있다. 본 명세서에서의 디폴트 의미로서, 쌍형성된 말단 판독물은 다양한 삽입물 길이들로부터 획득된 판독물을 지칭하는 데 사용된다. 일부 경우들에서, 짧은-삽입물 쌍형성된 말단 판독물을 긴 삽입물 쌍형성된 말단 판독물로부터 구별하기 위해, 후자는 구체적으로 메이트 쌍 판독물로 지칭된다. 메이트 쌍 판독물을 수반하는 일부 실시형태들에서, 2개의 비오틴 접합 어댑터들이 먼저 비교적 긴 삽입물(예컨대, 수 kb)의 2개의 말단들에 부착된다. 이어서, 비오틴 접합 어댑터들은 삽입물의 2개의 말단들을 연결하여 원형화된 분자를 형성한다. 이어서, 원형화된 분자를 추가로 단편화함으로써 비오틴 접합 어댑터들을 포함하는 하위-단편이 획득할 수 있다. 이어서, 원래 단편의 2개의 말단들을 반대 서열 순서로 포함하는 하위-단편은 전술된 짧은-삽입물 쌍형성 말단 서열분석과 동일한 절차에 의해 서열분석될 수 있다. 일루미나 플랫폼을 사용한 메이트 쌍 서열분석의 추가의 상세 사항들은 아래의 주소에 있는 온라인 간행물에 나타나 있으며, 이는 전체적으로 참고로 포함된다: res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf
DNA 단편의 서열분석 후에, 미리 결정된 길이, 예컨대, 100 bp의 서열 판독물이 공지된 참조 게놈에 맵핑되거나 정렬된다. 맵핑되거나 정렬된 판독물 및 참조 서열 상의 그들의 대응하는 위치들은 태그로도 지칭된다. 반복 확장을 결정하기 위한 본 명세서에 개시된 많은 실시형태들의 분석은 불량하게 정렬되거나 정렬될 수 없는 판독물뿐만 아니라 정렬된 판독물(태그)도 이용한다. 일 실시형태에서, 참조 게놈 서열은 NCBI36/hg18 서열이며, 이는 월드와이드웹 상에서 genome.ucsc.edu/cgi- bin/hgGateway?org=Human&db=hg18&hgsid=166260105)에서 이용가능하다. 대안적으로, 참조 게놈 서열은 GRCh37/hg19이며, 이는 월드와이드웹 상에서 genome.ucsc.edu/cgi-bin/hgGateway에서 이용가능하다. 공개 서열 정보의 다른 소스들에는 GenBank, dbEST, dbSTS, EMBL(European Molecular Biology Laboratory), 및 DDBJ(DNA Databank of Japan)가 포함된다. BLAST(Altschul et al., 1990), BLITZ(MPsrch)(Sturrock & Collins, 1993), FASTA(Person & Lipman, 1988), BOWTIE(Langmead et al., Genome Biology 10:R25.1-R25.10[2009]), 또는 ELAND(미국 캘리포니아주 샌디에고 소재의 일루미나, 인크.)를 포함하되 이에 제한되지 않는, 서열들을 정렬시키기 위한 다양한 컴퓨터 알고리즘들이 이용가능하다. 일 실시형태에서, 혈장 cfDNA 분자의 클론 확장된 복제들의 일 말단은, ELAND(Efficient Large-Scale Alignment of Nucleotide Databases) 소프트웨어를 사용하는 Illumina Genome Analyzer에 대한 생물정보학 정렬 분석에 의해 서열분석되고 프로세싱된다.
하나의 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기술된 방법들은 헬리코스 tSMS(True Single Molecule Sequencing) 기술(예컨대, 문헌 [Harris T.D. et al., Science 320:106-109 [2008]]에 기술된 바와 같음)의 단일 분자 서열분석 기술을 사용하여 테스트 샘플 내의 핵산에 대한 서열 정보를 획득하는 단계를 포함한다. tSMS 기술에서, DNA 샘플은 대략 100 내지 200개의 뉴클레오티드들의 가닥들로 절단되고, 폴리 A 서열이 각각의 DNA 가닥의 3' 말단에 첨가된다. 각각의 가닥은 형광 표지된 아데노신 뉴클레오티드의 첨가에 의해 표지된다. 이어서, DNA 가닥들은 플로우 셀로 혼성화되는데, 이는 플로우 셀 표면에 고정된 수백만 개의 올리고-T 포획 부위들을 함유한다. 소정 실시형태들에서, 주형들은 약 1억개 주형/㎠의 밀도일 수 있다. 이어서, 플로우 셀은 기구, 예컨대, 헬리스코프 서열분석기(HeliScope™ sequencer)에 로딩되고, 레이저는 플로우 셀의 표면을 조명하여, 각각의 주형의 위치를 드러낸다. CCD 카메라는 플로우 셀 표면 상의 주형들의 위치를 맵핑할 수 있다. 이어서, 주형 형광 라벨은 절단되고 세척된다. 서열분석 반응은 DNA 중합효소 및 형광 표지된 뉴클레오티드를 도입함으로써 시작된다. 올리고-T 핵산은 프라이머로서의 역할을 한다. 중합효소는 표지된 뉴클레오티드를 주형 지정 방식으로 프라이머에 통합한다. 중합효소 및 통합되지 않은 뉴클레오티드들이 제거된다. 형광 표지된 뉴클레오티드의 통합을 지정한 주형들은 플로우 셀 표면을 이미징함으로써 구별된다. 이미징 후, 절단 단계는 형광 표지를 제거하고, 프로세스는 원하는 판독물 길이가 달성될 때까지 다른 형광 표지된 뉴클레오티드들로 반복된다. 각각의 뉴클레오티드 첨가 단계를 이용하여 서열 정보가 수집된다. 단일 분자 서열분석 기술들에 의한 전체 게놈 서열분석은 서열 라이브러리의 제조에서 PCR-기반 증폭을 배제하거나 전형적으로 제거하며, 방법들은 그 샘플의 복제들의 측정보다는 샘플의 직접적인 측정을 가능하게 한다.
다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기술된 방법들은 454 서열분석(Roche)(예컨대, 문헌 [Margulies, M. et al. Nature 437:376-380 [2005]]에 기술된 바와 같음)을 사용하여 테스트 샘플 내의 핵산에 대한 서열 정보를 획득하는 단계를 포함한다. 454 서열분석은 전형적으로 2개의 단계들을 수반한다. 제1 단계에서, DNA는 대략적으로 300 내지 800개의 염기쌍들의 단편으로 전단되고, 단편의 말단은 무디게 처리된다. 이어서, 올리고뉴클레오티드 어댑터가 단편의 말단에 라이게이션된다. 어댑터는 단편의 증폭 및 서열분석을 위한 프라이머로서 기능한다. 단편은 예컨대 5'-비오틴 태그를 함유하는 어댑터 B를 사용하여 DNA 포획 비드, 예컨대, 스트렙타비딘-코팅된 비드에 부착될 수 있다. 비드에 부착된 단편은 오일-물 에멀젼의 액적 내에서 PCR 증폭된다. 결과는 각각의 비드 상의 클론 증폭된 DNA 단편의 다수의 복제들이다. 제2 단계에서, 비드는 웰(예컨대, 피코리터(picoliter)-크기의 웰)에 포획된다. 파이로서열분석은 각각의 DNA 단편에 대해 병렬로 수행된다. 하나 이상의 뉴클레오티드의 첨가는 서열분석 기기에서 CCD 카메라에 의해 기록되는 광 신호를 생성한다. 신호 강도는 통합된 뉴클레오티드의 수에 비례한다. 파이로서열분석은 뉴클레오티드 첨가 시에 방출되는 파이로포스페이트(PPi)를 이용한다. PPi는 아데노신 5' 포스포설페이트의 존재 하에 ATP 설퍼릴라제에 의해 ATP로 전환된다. 루시퍼라아제는 ATP를 사용하여 루시페린을 옥시루시페린으로 전환시키고, 이 반응은 측정되고 분석되는 광을 생성한다.
다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기술된 방법들은 SOLiD™ 기술(어플라이드 바이오시스템즈)을 사용하여 테스트 샘플 내의 핵산에 대한 서열 정보를 획득하는 단계를 포함한다. SOLiD™ 라이게이션에 의한 서열분석에서, 게놈 DNA는 단편으로 전단되고, 어댑터는 단편의 5' 말단 및 3' 말단에 부착되어 단편 라이브러리를 생성한다. 대안적으로, 내부 어댑터는, 단편의 5' 말단 및 3' 말단에 어댑터를 라이게이션하고, 단편을 원형화하고, 원형화된 단편을 소화시켜 내부 어댑터를 생성하고, 생성된 단편의 5' 말단 및 3' 말단에 어댑터를 부착하여 메이트 쌍형성된 라이브러리를 생성하는 것에 의해 도입될 수 있다. 다음으로, 클론 비드 집단들이 비드, 프라이머, 주형 및 PCR 성분들을 함유하는 미세반응계(microreactor)들에서 제조된다. PCR에 이어서, 주형들이 변성되고 비드들이 풍부화되어 연장된 주형들이 있는 비드들을 분리시킨다. 선택된 비드들 상의 주형들은 유리 슬라이드에 대한 접합을 허용하는 3' 개질을 거친다. 서열은 특정 형광단에 의해 식별되는 중심 결정된 염기(또는 염기들의 쌍)와 부분 무작위 올리고뉴클레오티드의 순차적 혼성화 및 라이게이션에 의해 결정될 수 있다. 색상이 기록된 후, 라이게이션된 올리고뉴클레오티드를 절단 및 제거하고 이어서 프로세스를 반복한다.
다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기술된 방법들은 퍼시픽 바이오사이언스의 SMRT(single molecule, real-time)™ 서열분석 기술을 사용하여 테스트 샘플 내의 핵산에 대한 서열 정보를 획득하는 단계를 포함한다. SMRT 서열분석에서, 염료-표지된 뉴클레오티드의 연속적 통합은 DNA 합성 동안 이미징된다. 단일 DNA 중합효소 분자는 서열 정보를 획득하는 개별 제로-모드 파장 검출기들(ZMW 검출기들)의 바닥 표면에 부착되는 한편, 포스포링크된(phospholinked) 뉴클레오티드는 성장하는 프라이머 가닥에 통합된다. ZMW 검출기는 ZMW의 내외부로 신속하게(예컨대, 마이크로초 내에) 확산되는 형광 뉴클레오티드의 배경에 대해, DNA 중합효소에 의한 단일 뉴클레오티드의 통합의 관찰을 가능하게 하는 격리 구조를 포함한다. 성장 가닥에 뉴클레오티드를 통합시키기 위해서는 전형적으로 수 밀리초가 소요된다. 이 시간 동안, 형광 표지가 여기되어 형광 신호를 생성하고, 형광 태그가 절단된다. 염료의 대응하는 형광의 측정은 어느 염기가 통합되었는지 나타낸다. 프로세스를 반복하여 서열을 제공한다.
다른 예시적인, 그러나 비제한적인 실시형태에서, 본 명세서에 기술된 방법들은 나노기공 서열분석(예컨대, 문헌 [Soni GV and Meller A. Clin Chem 53:1996-2001[2007]]에 기술된 바와 같음)을 사용하여 테스트 샘플 내의 핵산에 대한 서열 정보를 획득하는 단계를 포함한다. 나노기공 서열분석 DNA 분석 기술은, 예를 들어, 옥스포드 나노포어 테크놀로지(영국 옥스포드 소재), 시쿼놈(Sequenom), 냅시스(NABsys) 등을 포함하는 다수의 회사들에 의해 개발된다. 나노기공 서열분석은 단일 분자의 DNA가 나노기공을 통과할 때 직접 서열분석되는 단일 분자 서열분석 기술이다. 나노기공은 전형적으로 직경이 1 나노미터 정도인 작은 구멍이다. 전도성 유체 중의 나노기공의 침지 및 그것에 걸친 전위(전압)의 인가는 나노기공을 통한 이온의 전도로 인해 약간의 전류를 야기한다. 유동하는 전류의 양은 나노기공의 크기 및 형상에 민감하다. DNA 분자가 나노기공을 통과함에 따라, DNA 분자 상의 각각의 뉴클레오티드는 나노기공을 상이한 정도로 차단하여, 나노기공을 통한 전류의 크기를 상이한 정도로 변화시킨다. 따라서, DNA 분자가 나노기공을 통과할 때의 전류의 이러한 변화는 DNA 서열의 판독물을 제공한다.
다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기술된 방법들은 화학적 감응 전계 효과 트랜지스터(chemical-sensitive field effect transistor, chemFET) 어레이(예컨대, 미국 특허 출원 공개 제2009/0026082호에 기술된 바와 같음)를 사용하여 테스트 샘플 내의 핵산에 대한 서열 정보를 획득하는 단계를 포함한다. 이 기술의 하나의 예에서, DNA 분자는 반응 챔버 내에 배치될 수 있고, 주형 분자는 중합효소에 결합된 서열분석 프라이머에 혼성화될 수 있다. 서열분석 프라이머의 3' 말단에서 새로운 핵산 가닥 내로의 하나 이상의 트라이포스페이트의 통합은 chemFET에 의한 전류의 변화로서 식별될 수 있다. 어레이는 다수의 chemFET 센서들을 가질 수 있다. 다른 예에서, 단일 핵산이 비드들에 부착될 수 있고, 핵산은 비드 상에서 증폭될 수 있고, 개별 비드들은 chemFET 어레이 상의 개별 반응 챔버들로 전달될 수 있으며, 각각의 챔버는 chemFET 센서를 갖고, 핵산은 서열분석될 수 있다.
다른 실시형태에서, DNA 서열분석 기술은 Ion Torrent 단일 분자 서열분석이며, 이는 반도체 기술과 단순한 서열분석 화학반응을 결합하여 화학적으로 암호화된 정보(A, C, G, T)를 반도체 칩 상의 디지털 정보(0, 1)로 직접 변환한다. 사실상, 뉴클레오티드가 중합효소에 의해 DNA의 가닥 내로 통합될 때, 수소 이온이 부산물로서 방출된다. 이온 토런트는 미세기계가공된 웰들의 고밀도 어레이를 사용하여, 이러한 생화학적 프로세스를 대량 병렬 방식으로 수행한다. 각각의 웰은 상이한 DNA 분자를 보유한다. 웰들 아래에는 이온-감응형 계층이 있고, 그 아래에는 이온 센서가 있다. 뉴클레오티드, 예를 들어, C가 DNA 주형에 첨가되고 이어서, DNA의 가닥 내로 통합될 때, 수소 이온이 방출될 것이다. 그러한 이온으로부터의 전하는 용액의 pH를 변화시킬 것이며, 이는 Ion Torrent의 이온 센서에 의해 검출될 수 있다. 서열분석기(본질적으로 세계 최소 고체 pH 측정기)는 염기를 호출하여, 화학적 정보로부터 디지털 정보로 직접 진행한다. 이어서, 이온 PGM(personal Genome Machine)™ 서열분석기는 연속적으로 뉴클레오티드로 칩을 순차적으로 채운다. 칩을 채우는 다음 뉴클레오티드가 매치가 아닌 경우. 어떠한 전압 변화도 기록되지 않을 것이고, 어떠한 염기도 호출되지 것이다. DNA 가닥 상에 2개의 동일한 염기가 있는 경우, 전압은 두 배일 것이고, 칩은 호출되는 2개의 동일한 염기를 기록할 것이다. 직접적인 검출은 초 단위의 뉴클레오티드 통합의 기록을 허용한다.
다른 실시형태에서, 본 방법은 혼성화에 의한 서열분석을 사용하여, 테스트 샘플 내의 핵산들에 대한 서열 정보를 획득하는 단계를 포함한다. 혼성화에 의한 서열분석은 복수의 폴리뉴클레오티드 서열을 복수의 폴리뉴클레오티드 프로브와 접촉시키는 단계를 포함하며, 복수의 폴리뉴클레오티드 프로브들의 각각은 임의로 기재에 부착될 수 있다. 기재는 공지된 뉴클레오티드 서열들의 어레이를 포함하는 평평한 표면일 수 있다. 어레이에 대한 혼성화의 패턴은 샘플에 존재하는 폴리뉴클레오티드 서열을 결정하는 데 사용될 수 있다. 다른 실시형태들에서, 각각의 프로브는 비드, 예컨대, 자성 비드 등에 부착된다. 비드들에 대한 혼성화는 결정되어 샘플 내의 복수의 폴리뉴클레오티드 서열들을 식별하는데 사용될 수 있다.
본 명세서에 기술된 방법들의 일부 실시형태들에서, 서열 판독물은 약 20 bp, 약 25 bp, 약 30 bp, 약 35 bp, 약 40 bp, 약 45 bp, 약 50 bp, 약 55 bp, 약 60 bp, 약 65 bp, 약 70 bp, 약 75 bp, 약 80 bp, 약 85 bp, 약 90 bp, 약 95 bp, 약 100 bp, 약 110 bp, 약 120 bp, 약 130, 약 140 bp, 약 150 bp, 약 200 bp, 약 250 bp, 약 300 bp, 약 350 bp, 약 400 bp, 약 450 bp, 또는 약 500 bp이다. 기술적 진보는 500 bp 초과의 단일 말단 판독물을 가능하게 하며, 쌍형성된 말단 판독물이 생성되는 경우 약 1000 bp 초과의 판독물을 가능하게 할 것으로 예상된다. 일부 실시형태들에서, 쌍형성된 말단 판독물은 반복 확장을 결정하는 데 사용되며, 이는 약 20 bp 내지 1000 bp, 약 50 bp 내지 500 bp, 또는 80 bp 내지 150 bp인 서열 판독물을 포함한다. 다양한 실시형태들에서, 쌍형성된 말단 판독물은 반복 확장을 갖는 서열을 평가하는 데 사용된다. 반복 확장을 갖는 서열은 판독물보다 더 길다. 일부 실시형태들에서, 반복 확장을 갖는 서열은 약 100 bp, 500 bp, 1000 bp, 또는 4000 bp보다 길다. 서열 판독물의 맵핑은 판독물의 서열을 참조 서열과 비교하여 서열분석된 핵산 분자의 염색체 기원을 결정함으로써 달성되며, 특정 유전적 서열 정보는 필요하지 않다. 혼합된 샘플 내의 참조 게놈과 게놈들 사이에 존재할 수 있는 소수의 다형성을 고려하기 위해 작은 정도의 미스매치(판독물 당 0 내지 2개의 미스매치들)가 허용될 수 있다. 일부 실시형태들에서, 참조 서열에 정렬된 판독물은 앵커 판독물로서 사용되며, 앵커 판독물에 대해 쌍을 이루지만 참조에 정렬될 수 없거나 불량하게 정렬된 판독물은 앵커링된 판독물로서 사용된다. 일부 실시형태들에서, 불량하게 정렬된 판독물은 판독물당 상대적으로 큰 수의 미스매치 백분율, 예컨대, 판독물당 적어도 약 5%, 적어도 약 10%, 적어도 약 15%, 또는 적어도 약 20%의 미스매치를 가질 수 있다.
복수의 서열 태그들(즉, 참조 서열에 정렬된 판독물들)은 전형적으로 샘플당 획득된다. 일부 실시형태들에서, 예컨대, 100 bp의 적어도 약 3 x 106개의 서열 태그, 적어도 약 5 x 106개의 서열 태그, 적어도 약 8 x 106개의 서열 태그, 적어도 약 10 x 106개의 서열 태그, 적어도 약 15 x 106개의 서열 태그, 적어도 약 20 x 106개의 서열 태그, 적어도 약 30 x 106개의 서열 태그, 적어도 약 40 x 106개의 서열 태그, 또는 적어도 약 50 x 106개의 서열 태그가 샘플당 참조 게놈에 대한 판독물을 맵핑함으로써 획득된다. 일부 실시형태들에서, 모든 서열 판독물은 참조 게놈의 모든 영역들에 맵핑되어, 게놈의 범위에 걸친 판독물을 제공한다. 다른 실시형태들에서, 판독물은 관심있는 서열, 예컨대, 염색체, 염색체의 세그먼트, 또는 관심있는 반복 서열에 맵핑된다.
반복 확장을 결정하기 위한 장치 및 시스템들
서열분석 데이터 및 그로부터 유래된 진단의 분석은 전형적으로 다양한 컴퓨터 실행 알고리즘들 및 프로그램들을 사용하여 수행된다. 따라서, 소정 실시형태들은 하나 이상의 컴퓨터 시스템들 또는 다른 프로세싱 시스템들에 저장되거나 그를 통해 전송되는 데이터를 수반하는 프로세스들을 채용한다. 본 명세서에 개시된 실시형태들은 또한 이러한 동작들을 수행하기 위한 장치에 관한 것이다. 이러한 장치는 요구되는 목적들을 위해 특별하게 구성될 수 있거나, 또는 그것은 컴퓨터에 저장된 컴퓨터 프로그램 및/또는 데이터 구조에 의해 선택적으로 활성화되거나 재구성되는 범용 컴퓨터(또는 컴퓨터들의 그룹)일 수 있다. 일부 실시형태들에서, 프로세서들의 그룹은 (예컨대, 네트워크 또는 클라우드 컴퓨팅을 통해) 협력적으로 그리고/또는 병렬로 언급된 분석 동작들 중 일부 또는 전부를 수행한다. 본 명세서에 기술된 방법들을 수행하기 위한 프로세서 또는 프로세서들의 그룹은 마이크로컨트롤러들 및 마이크로프로세서들, 예컨대, 프로그램가능 디바이스들(예컨대, CPLD들 및 FPGA들) 및 비-프로그램가능 디바이스들, 예컨대, 게이트 어레이 ASIC들 또는 범용 마이크로프로세서들을 포함하는 다양한 유형들일 수 있다.
일 실시형태는 반복 서열들을 포함하는 게놈 좌위에서 변이체들의 유전자형들을 결정하는 데 사용하기 위한 시스템을 제공하며, 시스템은 핵산 샘플을 수용하고 샘플로부터 핵산 서열 정보를 제공하기 위한 서열분석기; 프로세서; 및 명령어들을 저장하는 기계 판독가능 저장 매체를 포함하고, 명령어들은 상기 프로세서 상에서 실행되어: (a) 데이터베이스로부터 테스트 샘플의 핵산 서열 판독물을 수집하고;(b) 서열 그래프에 의해 각각 표현된 하나 이상의 반복 서열들에 서열 판독물을 정렬시키고 - 서열 그래프는 핵산 서열들을 표현하는 정점들 및 정점들을 연결하는 방향성 에지들을 갖는 방향성 그래프의 데이터 구조를 갖고, 서열 그래프는 하나 이상의 자가-루프들을 포함하며, 각각의 자가-루프는 반복 하위서열을 표현하고, 각각의 반복 하위서열은 하나 이상의 뉴클레오티드들의 반복 단위의 반복체들을 포함함 -; (c) 하나 이상의 반복 서열들에 정렬된 서열 판독물을 사용하여 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하는 것에 의해 변이체들을 유전자형분석한다.
본 명세서에 제공된 시스템들 중 임의의 것의 일부 실시형태들에서, 서열분석기는 차세대 서열분석(NGS)을 수행하도록 구성된다. 일부 실시형태들에서, 서열분석기는 가역적 염료 종결자들과의 합성에 의한 서열분석를 사용하여 대량 병렬 서열분석을 수행하도록 구성된다. 다른 실시형태들에서, 서열분석기는 라이게이션에 의한 서열분석을 수행하도록 구성된다. 또 다른 실시형태들에서, 서열분석기는 단일 분자 서열분석을 수행하도록 구성된다.
또한, 소정 실시형태들은 다양한 컴퓨터-구현 동작들을 수행하기 위한 프로그램 명령어들 및/또는 데이터(데이터 구조들을 포함함)를 포함하는 유형적 및/또는 비일시적 컴퓨터 판독가능 매체들 또는 컴퓨터 프로그램 제품들에 관한 것이다. 컴퓨터 판독가능 매체들의 예들은 반도체 메모리 장치들, 디스크 드라이브들, 자기 테이프와 같은 자기 매체들, CD들, 광-자기 매체들과 같은 광학 매체들, 및 판독 전용 메모리 디바이스들(ROM) 및 랜덤 액세스 메모리(RAM)와 같은, 프로그램 명령어들을 저장하고 수행하도록 특별히 구성되는 하드웨어 디바이스들을 포함하지만, 이에 제한되지는 않는다. 컴퓨터 판독가능 매체들은 최종 사용자에 의해 직접 제어될 수 있거나, 또는 매체들은 최종 사용자에 의해 간접적으로 제어될 수 있다. 직접 제어된 매체들의 예들은 사용자 시설 및/또는 다른 엔티티들과 공유되지 않은 매체들에 위치된 매체들을 포함한다. 간접적으로 제어되는 매체들의 예들은, 외부 네트워크를 통해 그리고/또는 "클라우드"와 같은 공유된 자원들을 제공하는 서비스를 통해 사용자에게 간접적으로 액세스가능한 매체들을 포함한다. 프로그램 명령어들의 예들은 컴파일러에 의해 생성되는 것과 같은 기계 코드, 및 인터프리터(interpreter)를 사용하여 컴퓨터에 의해 실행될 수 있는 상위 레벨 코드를 포함하는 파일들 둘 다를 포함한다.
다양한 실시형태들에서, 개시된 방법들 및 장치에 이용되는 데이터 또는 정보는 전자 포맷으로 제공된다. 이러한 데이터 또는 정보는 핵산 샘플로부터 유래된 판독물 및 태그, 참조 서열들(오로지 또는 주로 다형성을 제공하는 참조 서열들을 포함함), 반복 확장 호출들과 같은 호출들, 카운슬링 권장들, 진단들 등을 포함할 수 있다. 본 명세서에 사용되는 바와 같이, 전자 포맷으로 제공되는 데이터 또는 다른 정보는 기계 상의 저장 및 기계들 사이에서의 송신에 대해 이용가능하다. 통상적으로, 전자 포맷의 데이터가 디지털 방식으로 제공되고, 다양한 데이터 구조들, 리스트들, 데이터베이스들 등에서 비트 및/또는 바이트로서 저장될 수 있다. 데이터는 전자적, 광학적, 등등으로 구현될 수 있다.
일 실시형태는 테스트 샘플 내의 반복 확장의 존재 또는 부재를 나타내는 출력을 생성하기 위한 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 제품은 반복 확장을 결정하기 위한 전술된 방법들 중 임의의 하나 이상을 수행하기 위한 명령어들을 포함할 수 있다. 설명된 바와 같이, 컴퓨터 제품은, 프로세서가 앵커링된 판독물 및 앵커링된 판독물 내의 반복체들을 결정하고 반복 확장이 존재하는지 또는 부재하는지 여부를 결정할 수 있게 하기 위한 컴퓨터 실행가능 또는 컴파일가능한 로직(예컨대, 명령어들)이 기록된 비일시적 및/또는 유형의 컴퓨터 판독가능 매체를 포함할 수 있다. 하나의 예에서, 컴퓨터 제품은, 프로세서가 반복 확장을 진단할 수 있게 하기 위한 컴퓨터 실행가능 또는 컴파일가능한 로직(예컨대, 명령어들)이 기록된 컴퓨터 판독가능 매체를 포함하며, 컴퓨터 실행가능 또는 컴파일가능한 로직은 반복 서열에 대한 진행된 정렬로부터의 핵산 분자의 적어도 일부로부터 서열 데이터를 수신하기 위한 수신 절차; 상기 수신된 데이터로부터 반복 확장을 분석하기 위한 컴퓨터 보조 로직; 및 상기 반복 확장의 존재, 부재 또는 종류를 나타내는 출력을 생성하기 위한 출력 절차를 포함한다.
고려되는 샘플로부터의 서열 정보는 염색체 참조 서열들에 맵핑되어 관심있는 반복 서열에 정렬되거나 그에 앵커링된 쌍형성된 말단 판독물을 식별하고 반복 서열의 반복 확장을 식별할 수 있다. 다양한 실시형태들에서, 참조 서열들은 관계형 또는 객체 데이터베이스와 같은 데이터베이스에 저장된다.
보조 장치를 갖추지 않은 인간이 본 명세서에 개시된 방법들의 계산 연산을 수행하는 것은 실용적이지 않거나 대부분의 경우들에서 심지어 가능하지 않다는 것을 이해해야 한다. 예를 들어, 샘플로부터의 단일 30 bp 판독물을 인간 염색체들 중 임의의 하나에 맵핑하는 것은 계산 장치의 도움 없이는 수년의 노력을 필요로 할 수 있다. 물론, 신뢰성 있는 반복 확장 호출들이 일반적으로 수천 개(예컨대, 적어도 약 10,000개) 또는 심지어 수백만 개의 판독물을 하나 이상의 염색체에 맵핑하는 것을 필요로 하기 때문에 이 문제는 가중된다.
다양한 구현예들에서, 원시 서열 판독물이 하나 이상의 관심있는 서열들을 표현하는 하나 이상의 서열 그래프들에 정렬된다. 다양한 구현예들에서, 적어도 10,000, 100,000, 500,000, 1,000,000, 5,000,000 또는 10,000,000개의 판독물이 하나 이상의 서열 그래프들에 정렬된다. 다양한 구현예들에서, 하나 이상의 서열 그래프들은 적어도 1, 2, 5, 10, 50, 100, 500, 1000, 5,000, 10,000, 또는 50,000개의 서열 그래프들을 포함한다.
일부 구현예들에서, 원시 서열 판독물은 초기에 참조 게놈에 정렬되어, 초기에 정렬된 판독물의 서브세트가 하나 이상의 관심있는 서열들을 표현하는 하나 이상의 서열 그래프들에 정렬되기 전에 판독물의 게놈 좌표들을 결정하도록 한다. 다양한 구현예들에서, 적어도 10,000, 100,000, 500,000, 1,000,000, 5,000,000, 10,000,000, 또는 100,000,000개의 판독물이 초기에 참조 게놈에 정렬된다. 일부 구현예들에서, 초기에 정렬된 판독물은, 다수의 영역들에서 반복 확장들을 결정하기 위해 서열 그래프들에 재정렬된다(각각의 영역은 서열 그래프에 대응함). 구현예의 각각의 호출 동안 서열 그래프에 재정렬되는 판독물의 총 수는 수천 내지 수백만 개의 판독물의 범위일 수 있다. 다양한 구현예들에서, 적어도 10,000,000개의 판독물이 각각의 서열 그래프에 재정렬된다. 다양한 구현예들에서, 하나 이상의 서열 그래프들은 적어도 1, 2, 5, 10, 50, 100, 500, 1000, 5,000, 10,000, 또는 50,000개의 서열 그래프들을 포함한다.
본 명세서에 개시된 방법들은 반복 서열을 포함하는 게놈 좌위에서 변이체들의 유전자형을 결정하기 위한 시스템을 사용하여 수행될 수 있다. 시스템은, (a) 샘플로부터 핵산 서열 정보를 제공하는 테스트 샘플로부터 핵산을 수용하기 위한 서열분석기; (b) 프로세서; 및 (c) 명령어들이 저장된 하나 이상의 컴퓨터 판독가능 저장 매체들을 포함하고, 명령어들은 상기 프로세서 상에서 실행되어 반복 서열들을 포함하는 게놈 좌위에서의 변이체들을 유전자형분석한다. 일부 실시형태들에서, 방법들은 임의의 반복 확장을 식별하기 위한 방법을 수행하기 위한 컴퓨터 판독가능 명령어들이 저장된 컴퓨터 판독가능 매체에 의해 지시된다. 따라서, 일 실시형태는 프로그램 코드를 저장하는 비일시적 기계 판독가능 매체를 포함하는 컴퓨터 프로그램 제품을 제공하며, 프로그램 코드는, 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템으로 하여금 핵산을 포함하는 테스트 샘플에서 반복 서열의 반복 확장을 식별하기 위한 방법을 구현하게 하며, 여기서 반복 서열은 뉴클레오티드의 반복 단위의 반복체들을 포함한다. 프로그램 코드는, (a) 데이터베이스로부터 테스트 샘플의 서열 판독물을 수집하기 위한 코드; (b) 서열 그래프에 의해 각각 표현된 하나 이상의 반복 서열들에 서열 판독물을 정렬시키기 위한 코드 - 여기서 서열 그래프는 핵산 서열들을 표현하는 정점들 및 정점들을 연결하는 방향성 에지들을 갖는 방향성 그래프의 데이터 구조를 갖고, 서열 그래프는 하나 이상의 자가-루프들을 포함하며, 각각의 자가-루프는 반복 하위서열을 표현하고, 각각의 반복 하위서열은 하나 이상의 뉴클레오티드들의 반복 단위의 반복체들을 포함함 -; 및 (c) 하나 이상의 반복 서열들에 정렬된 서열 판독물을 사용하여 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하기 위한 코드를 포함할 수 있다.
일부 실시형태들에서, 명령어들은 방법에 관련된 정보, 예컨대 반복체들 및 앵커 판독물, 및 테스트 샘플을 제공하는 인간 대상에 대한 환자 의료 기록에서의 반복 확장의 존재 또는 부재를 자동으로 기록하는 것을 추가로 포함할 수 있다. 환자 의료 기록은, 예를 들어, 실험실, 의사의 사무실, 병원, 건강 유지 조직, 보험 회사에 의해 유지될 수 있거나, 개인 의료 기록 방법은 테스트 샘플이 취해지는 사람 대상의 처치를 처방, 개시, 및/또는 변경하는 것을 추가로 수반할 수 있다. 이는 대상체로부터 취해지는 추가의 샘플에 대한 하나 이상의 추가의 시험들 또는 분석들을 수행하는 것을 수반할 수 있다.
개시된 방법들은 또한 임의의 반복 확장들을 식별하기 위한 방법들을 수행하도록 적응되거나 구성되는 컴퓨터 프로세싱 시스템을 사용하여 수행될 수 있다. 일 실시형태는 본 명세서에 기술된 방법을 수행하도록 적응되거나 구성되는 컴퓨터 프로세싱 시스템을 제공한다. 일 실시형태에서, 장치는 샘플 내의 핵산 분자들의 적어도 일부분을 서열분석하여 본 명세서의 어딘가 다른 곳에 기술된 서열 정보의 유형을 획득하도록 적응되거나 구성되는 서열분석 디바이스를 포함한다. 장치는 또한 샘플을 프로세싱하기 위한 구성요소들을 포함할 수 있다. 그러한 구성요소들은 본 명세서의 다른 곳에 기술되어 있다.
서열 또는 다른 데이터가 직접 또는 간접적으로 컴퓨터 내에 입력되거나 컴퓨터 판독가능 매체 상에 저장될 수 있다. 일 실시형태에서, 컴퓨터 시스템은 샘플로부터 핵산의 서열들을 판독 및/또는 분석하는 서열분석 디바이스에 직접 결합된다. 그러한 도구들로부터의 서열들 또는 다른 정보는 컴퓨터 시스템에서의 인터페이스를 통해 제공된다. 대안적으로, 시스템에 의해 프로세싱된 서열들은 데이터베이스 또는 다른 저장소와 같은 서열 저장 소스로부터 제공된다. 일단 프로세싱 장치에 이용가능하면, 메모리 디바이스 또는 대용량 저장 장치는 핵산의 서열들을 적어도 일시적으로 버퍼링하거나 저장한다. 또한, 메모리 디바이스는 다양한 염색체 또는 게놈 등에 대한 태그 카운트들을 저장할 수 있다. 메모리는 또한 서열 또는 맵핑된 데이터의 제시를 분석하기 위한 다양한 루틴들 및/또는 프로그램들을 저장할 수 있다. 그러한 프로그램들/루틴들은 통계적 분석 등을 수행하기 위한 프로그램들을 포함할 수 있다.
하나의 예에서, 사용자는 샘플을 서열분석 장치 내로 제공한다. 데이터는 컴퓨터에 연결된 서열분석 장치에 의해 수집 및/또는 분석된다. 컴퓨터 상의 소프트웨어는 데이터 수집 및/또는 분석을 가능하게 한다. 데이터는 저장되고, (모니터 또는 다른 유사한 장치를 통해) 디스플레이되고/되거나 다른 위치로 전송될 수 있다. 컴퓨터는 원격 사용자(예컨대, 의사, 과학자 또는 분석가)에 의해 이용되는 핸드헬드 장치로 데이터를 송신하는 데 사용되는 인터넷에 연결될 수 있다. 데이터는 송신되기 전에 저장 및/또는 분석될 수 있다는 것이 이해된다. 일부 실시형태들에서, 원시 데이터가 수집되고, 데이터를 분석 및/또는 저장할 원격 사용자 또는 장치로 전송된다. 송신은 컴퓨터 판독가능 매체 상에 저장된 것을 통해 발생할 수 있고, 매체는 (예컨대, 메일을 통해) 최종 사용자에게 운송될 수 있다. 원격 사용자는 건물, 도시, 주, 국가 또는 대륙을 포함하지만 이에 제한되지 않는 동일하거나 상이한 지리적 위치에 있을 수 있다.
일부 실시형태들에서, 방법들은 또한 복수의 폴리뉴클레오티드 서열들에 관한 데이터(예컨대, 판독물들, 태그들 및/또는 기준 염색체 서열들)를 수집하는 단계 및 데이터를 컴퓨터 또는 다른 계산 시스템으로 전송하는 단계를 포함한다. 예를 들어, 컴퓨터는 실험실 장비, 예컨대, 샘플 수집 장치, 뉴클레오티드 증폭 장치, 뉴클레오티드 서열분석 장치, 또는 혼성화 장치에 연결될 수 있다. 이어서, 컴퓨터는 실험실 디바이스에 의해 수집된 적용가능한 데이터를 수집할 수 있다. 데이터는 임의의 단계에서, 예컨대, 실시간으로 수집되는 동안, 전송 전에, 전송 동안, 또는 전송과 함께, 또는 전송 후에 컴퓨터 상에 저장될 수 있다. 데이터는 컴퓨터로부터 추출될 수 있는 컴퓨터 판독가능 매체 상에 저장될 수 있다. 수집되거나 저장된 데이터는 컴퓨터로부터 원격 위치로 예컨대, 로컬 네트워크 또는 인터넷과 같은 광역 네트워크를 통해 송신될 수 있다. 원격 위치에서, 다양한 동작들이 후술되는 바와 같이 송신된 데이터에 대해 수행될 수 있다.
본 명세서에 개시된 시스템들, 장치, 및 방법들에서 저장, 송신, 분석, 및/또는 조작될 수 있는 전자적으로 포맷화된 데이터의 유형들 중에는 하기가 있다:
테스트 샘플 내의 핵산을 서열분석함으로써 획득된 판독물
판독물을 참조 게놈 또는 다른 참조 서열 또는 서열들에 정렬시킴으로써 획득된 태그
참조 게놈 또는 서열
좌위 식별, 위치, 및 구조를 나타내는 좌위 사양 판독물 커버리지
변이체들의 유전자형 서열 그래프 그래프 경로들
그래프 정렬 정보
반복 확장의 실제 호출들
진단들(호출들과 연관된 임상 상태)
호출들 및/또는 진단들로부터 유래된 추가 검사들에 대한 추천들
호출들 및/또는 진단들로부터 유래된 치료 및/또는 모니터링 계획들
이들 다양한 유형의 데이터는 별개의 장치를 사용하여 하나 이상의 위치들에서 획득, 저장, 송신, 분석, 및/또는 조작될 수 있다. 프로세싱 옵션들은 넓은 스펙트럼에 걸쳐 있다. 스펙트럼의 일단에서, 이 정보의 전부 또는 많은 것이, 테스트 샘플이 프로세싱되는 위치, 예컨대, 의사의 사무실 또는 다른 임상 설정에서 저장 및 사용된다. 다른 극단에서, 샘플은 하나의 위치에서 획득되고, 상이한 위치에서 프로세싱되고, 임의로 서열분석되고, 하나 이상의 상이한 위치들에서 판독물이 정렬되고, 호출들이 이루어지고, 또 다른 위치(샘플이 획득된 위치일 수 있음)에서 진단들, 추천들, 및/또는 계획들이 준비된다.
다양한 실시형태들에서, 판독물은 서열분석 장치로 생성되고, 이어서 반복 확장 호출들을 생성하기 위해 프로세싱되는 원격 장소로 송신된다. 이 원격 위치에서, 일례로서, 판독물은 참조 서열에 정렬되어 앵커 판독물 및 앵커링된 판독물을 생성한다. 별개의 위치들에서 이용될 수 있는 프로세싱 동작들 중에는 하기가 있다:
샘플 수집
서열분석에 대한 예비 샘플 프로세싱 서열분석
서열 데이터 분석 및 반복 확장 호출 도출
진단
환자 또는 의료인에게 진단 및/또는 호출 보고 추가 치료, 검사 및/또는 모니터링을 위한 계획 구축 계획 실행
카운슬링
이러한 동작들 중 임의의 하나 이상은 본 명세서의 다른 곳에 기술된 바와 같이 자동화될 수 있다. 전형적으로, 서열분석 및 서열 데이터의 분석, 및 반복 확장 호출들을 도출하는 것은 계산적으로 수행될 것이다. 다른 동작들은 수동으로 또는 자동으로 수행될 수 있다.
도 6은 테스트 샘플로부터 호출 또는 진단을 생성하기 위한 분산된 시스템의 일 구현예를 도시한다. 환자로부터 테스트 샘플을 획득하기 위해 샘플 수집 위치(01)가 사용된다. 이어서, 샘플은 프로세싱 및 서열 위치(03)로 제공되고, 여기서 테스트 샘플은 전술된 바와 같이 프로세싱되고 서열분석될 수 있다. 위치(03)는 샘플을 프로세싱하기 위한 장치뿐만 아니라 프로세싱된 샘플을 서열분석하기 위한 장치를 포함한다. 본 명세서의 다른 곳에 기술된 바와 같이, 서열분석의 결과는, 전형적으로 전자 포맷으로 제공되고 도 6에서 도면 부호 05로 표시된 인터넷과 같은 네트워크에 제공되는 판독물의 집합이다.
서열 데이터는 분석 및 호출 생성이 수행되는 원격 위치(07)로 제공된다. 이 위치는 컴퓨터들 또는 프로세서들과 같은 하나 이상의 강력한 계산 디바이스들을 포함할 수 있다. 위치(07)에서의 계산 리소스들이 그들의 분석을 완료하고 수신된 서열 정보로부터 호출을 생성한 후, 호출은 네트워크(05)로 다시 중계된다. 일부 구현예들에서, 위치(07)에서 호출이 생성될뿐만 아니라 연관된 진단도 생성된다. 이어서, 도 6에 예시된 바와 같이, 호출 및 또는 진단은 네트워크를 가로질러 송신되고 다시 샘플 수집 위치(01)로 송신된다. 설명된 바와 같이, 이는 단순히 호출 또는 진단을 생성하는 것과 연관된 다양한 동작들이 다양한 위치들 사이에서 분할될 수 있는 방법에 대한 많은 변형예들 중 하나이다. 하나의 일반적인 변형예는 단일 위치에서 샘플 수집 및 프로세싱 및 서열분석을 제공하는 것을 수반한다. 다른 변형예는 분석 및 호출 생성과 동일한 위치에서 프로세싱 및 서열분석을 제공하는 것을 수반한다.
실험
실시예
본 발명자들은 HTT 좌위에서 광범위한 CAG 및 CCG 반복 크기들을 함유하는 시뮬레이션된 데이터세트에 프로그램을 적용하였다. HTT 또는 헌팅틴은 선조체 뉴런의 손실을 특징으로 하는 신경퇴행성 장애인 헌팅턴 병(HD)과 관련된 질병 유전자이다. 이는 단백질 생성물에서 폴리글루타민 반복체로서 해석되는, 헌팅틴 유전자의 확장되고 불안정한 트리뉴클레오티드 반복체에 의해 야기되는 것으로 생각된다. 매우 넓은 범위의 트리뉴클레오티드 반복체들(9-35)이 정상 대조군들에서 식별되었고, 40을 초과하는 반복체 수가 병리적으로 기술되어 있다.
예상된 바와 같이, 일부 구현예들에 따른 방법들을 사용하여 획득된 정확도는, 두 반복체들을 모두 포함하는 서열 그래프에 판독물이 정렬되었을 때가 두 반복체들이 독립적으로 분석된 경우와 비교하여 상당히 높았다. 다른 STR 유전자형분석과 비교하여 유사한 개선이 관찰되었다(도 7 참조).
구현예들이 축퇴 DNA 반복체들을 유전자형분석할 수 있음을 입증하기 위하여, 150 개의 건강한 대조군들 및 알려진 병원성 확장을 지닌 하나의 샘플에서 PHOX2B 유전자의 폴리알라닌 반복체를 분석했다. PHOX2B는 선천성 중추성 수면무호흡증(congenital central hypoventilation syndrome)을 야기하도록 확장될 수 있는 20개 코돈들의 폴리알라닌 반복체를 함유한다. 이 반복체에 대해 알려진 것(Amiel et al. 2003)과 일관되게 소수의 대조군을 제외하고 모두 20/20 유전자형분석하였다. 구현예들은 20/27 확장을 갖는 유일한 샘플을 정확하게 유전자형분석하였고; 이러한 유전자형분석의 정확성을 생어 서열분석에 의해 확인하였다. 구현예들은 또한 세라케어 라이프 사이언스(SeraCare Life Sciences)로부터 획득한 샘플의 3개의 WGS 복제물에서 MSH2 유전자의 아데노신 단일중합체에 인접한 병원성 SNV를 정확하게 검출하였다(보충 자료 참조).
요약하면, 복잡한 좌위의 더욱 정확한 유전자형분석에 대한 필요성에 대처하는 신규한 방법을 개발하였다. 이러한 방법은 폴리알라닌 반복체를 유전자형분석하고, 작은 변이체들 및 다른 반복체들에 근접한 반복체들을 포함하는 곤란한 영역들을 해결할 수 있다. 이제 구현예들에 채택된 서열 그래프 프레임워크의 유연성이 다양한 신규한 변이체 호출 애플리케이션들을 가능하게 할 것으로 예상된다.
HTT 좌위에서의 CAG 및 CCG STR들의 분석
Wgsim(Li, n.d.)를 사용하여 CAG 및 CCG 반복체 유전자형들의 각각의 조합에 대해 짧은 판독물 샘플을 시뮬레이션하였다. 판독물 길이를 150, 메이트 말단들 사이의 거리를 350, 메이트 말단 거리에 대한 표준 편차를 50, 돌연변이들의 속도 및 기본 오차율을 0.0010으로, 그리고 인델의 분율을 0으로 설정하였다. 쌍들의 수를 설정하여, 좌위의 40x 커버리지를 산출하였다. 판독물을 BWA-MEM 0.7.17-r1194-dirty(문헌 [Li 2013])를 사용하여 GRCh37 참조에 대해 정렬시켰다.
몇몇 구현예들로 이들 데이터를 두 가지 방식으로 분석하였다. 먼저, 본 발명자들은 판독물이 둘 모두의 반복체들을 포함하는 서열 그래프에 정렬됨을 보장하는 표현식 (CAG)*CAACAG(CCG)*를 사용하여 HTT 좌위의 구조를 명시하였다. 이어서, 각각의 반복체를 독립적으로 분석하기 위해 몇몇 구현예들을 사용하였다. 이 모드에서, 판독물은 CAG STR을 표현하는 그래프에, 그리고 개별적으로 CCG STR을 표현하는 그래프에 정렬되었다. 최종적으로, 본 발명자들은 반복 영역에 판독물을 정렬시키기 위해 서열 그래프들을 사용하지 않는 최신 버전의 GangSTR 및 TredParse로 두 반복체들을 독립적으로 분석했다(도 7).
도 7은 시뮬레이션된 데이터로부터 HTT 좌위 내의 CAG 및 CCG STR의 유전자형분석의 정확도를 나타낸다. (a) 반복체들 둘 모두를 포함하는 서열 그래프에 판독물이 정렬될 경우의 구현예의 성능; (b) 반복체들이 독립적으로 분석되는 경우의 구현예의 성능; (c) GangSTR의 성능; (d) TredParse의 성능 각각의 시뮬레이션된 샘플에 대해, 예상된 STR 길이들로부터 예측된 STR 길이들의 최대 백분율 편차를 측정하였다. 청색 점선들은 참조 게놈에서의 유전자형에 대응하며, 적색 실선들은 병원성 확장의 임계값을 표현한다. 구현예는 반복체들 둘 모두를 공동으로 유전자형분석할 때 모든 샘플에 대해 올바른 유전자형들을 정확하게 예측한다. 공동 유전자형분석은, 특히 반복체들 중 하나가 다른 것보다 상당히 더 긴 경우 높은 상대 오차 속도를 나타낸 3개의 도구들 중 임의의 것으로 반복체들 둘 모두를 별도로 유전자형분석하는 것에 비해 높은 이점을 제공하였다.
데이터세트들
PHOX2B 폴리알라닌 반복체의 분석에 사용되는 150개의 관련되지 않은 대조군들에 대한 PCR이 없는 WGS 서열 데이터는 Polaris Diversity Cohort이다. 이는 International Genome Sample Resource(1000 Genomes Project Consortium et al. 2015)(www|.|internationalgenome|.|org/)로부터 선택된 샘플로 이루어진다. WGS 데이터는 European Genome-phenome Archive(EGA; www|.|ebi|.|ac|.|uk/ega/home; PRJEB20654) 및 NCBI Sequence Read Archive(SRA; www|.|ncbi|.|nlm|.|nih|.|gov/sra; bioproject:387148)에서 입수할 수 있다. 샘플의 설명(github|.|com/Illumina/Polaris/wiki/HiSeqX-Diversity-Cohort).
PHOX2B에서 20/27 확장을 갖는 샘플을 Genetics Laboratories Molecular Genetics, Addenbrooke's Treatment Centre 및 캠브리지 대학으로부터 입수하였다.
세라케어 라이프 사이언스 샘플, Seraseq Inherted Cancer DNA Mix v1에는 병원성이고 호출하기 어려운 것으로 알려진 변이체들이 포함되어 있다. 변이체들은 잘 특징화된 세포주 GM24385에 합성적으로 첨가되었으며, 이들 모두는 50%의 예상 변이체 빈도들을 갖는다. 이들 유전자 조작된 돌연변이들 중 하나는 MSH2 유전자에서 SNV에 대응하며, 이는 긴 단일중합체 A 영역에 직접 인접한다.
일루미나 TruSeq PCR Free 키트를 사용하여 세라케어 샘플의 3개의 복제물들을 제조하였다. XP 워크플로우를 사용하여 NovaSeq6000의 단일 레인 상에서 복제물들을 실행하고(run), 2x151 판독물 길이로 서열분석하였다. 복제물들을 'Sentieon DNASeq FASTQ to VCF' 및 'Whole Genome Resequencing v8.0.0' Basespace apps(https://basespace.illumina.com)를 사용하여 분석하였다. Sentieon은 동일한 알고리즘을 구현하므로 Broad's BWA-GATK 소프트웨어 제품군의 변형 호출 성능에 대한 프록시로서 간주될 수 있다. 소프트웨어 솔루션들 중 어느 것도 MSH2 SNV를 정확하게 식별할 수 없었다. Fastq 파일들 및 분석 결과들은 Basespace: https://basespace.illumina.com/s/HAQNxJyEtJLP를 통해 제공된다.
본 발명은 그의 사상 또는 본질적인 특성들로부터 벗어남이 없이 다른 특정 형태들로 구현될 수 있다. 기술된 실시형태들은 모든 점에서 단지 예시적인 것으로 그리고 제한적이지 않은 것으로 고려되어야 한다. 따라서, 본 발명의 범주는 전술한 설명에 의해서라기보다는 첨부된 청구범위에 의해 설명된다. 청구범위의 등가물의 의미 및 범위 내에 있는 모든 변화들은 그의 범주 내에 포함되는 것으로 간주된다.
SEQUENCE LISTING <110> Illumina, Inc. Dolzhenko, Egor <120> SEQUENCE-GRAPH BASED TOOL FOR DETERMINING VARIATION IN SHORT TANDEM REPEAT REGIONS <130> ILMNP037 <150> US 62/815,322 <151> 2019-03-07 <160> 5 <170> PatentIn version 3.5 <210> 1 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Synthesized <400> 1 cagcaacagc cg 12 <210> 2 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Synthesized <400> 2 cagcaacagc gg 12 <210> 3 <211> 14 <212> DNA <213> Artificial Sequence <220> <223> Synthesized <400> 3 tcgtcggcag cgtc 14 <210> 4 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Synthesized <400> 4 cagcagcagc agcag 15 <210> 5 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Synthesized <400> 5 ccgccgccgc cgccg 15

Claims (32)

  1. 하나 이상의 프로세서들 및 시스템 메모리를 포함하는 컴퓨터를 사용하여 구현되는, 하나 이상의 반복 하위서열들을 각각 포함하는 하나 이상의 반복 서열들을 유전자형분석하기 위한 방법으로서,
    (a) 상기 하나 이상의 프로세서들을 사용하여, 데이터베이스로부터 테스트 샘플의 서열 판독물들을 수집하는 단계;
    (b) 상기 하나 이상의 프로세서들에 의해, 서열 그래프에 의해 각각 표현된 하나 이상의 반복 서열들에 서열 판독물들을 정렬시키는 단계 - 상기 서열 그래프는 핵산 서열들을 표현하는 정점들 및 상기 정점들을 연결하는 방향성 에지들을 갖는 방향성 그래프의 데이터 구조를 갖고, 상기 서열 그래프는 하나 이상의 자가-루프들을 포함하며, 각각의 자가-루프는 반복 하위서열을 표현하고, 각각의 반복 하위서열은 하나 이상의 뉴클레오티드들의 반복 단위의 반복체들을 포함함 -; 및
    (c) 상기 하나 이상의 프로세서들에 의해, 상기 하나 이상의 반복 서열들에 정렬된 상기 서열 판독물들을 사용하여 상기 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 하나 이상의 반복 서열들의 반복 서열은 적어도 하나의 불완전하게 특정된 뉴클레오티드를 포함하는 특정 반복 단위를 포함하는, 방법.
  3. 제2항에 있어서, 상기 특정 반복 단위는 축퇴 코돈(degenerate codon)들을 포함하는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 하나 이상의 자가-루프들은 2개 이상의 반복 하위서열들을 표현하는 2개 이상의 자가-루프들을 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 서열 그래프는 2개 이상의 대립유전자들에 대한 2개 이상의 대체 경로들을 추가로 포함하는, 방법.
  6. 제5항에 있어서, 상기 2개 이상의 대립유전자들은 인델(indel) 또는 치환을 포함하는, 방법.
  7. 제5항에 있어서, 상기 치환은 단일 뉴클레오티드 변이체(single nucleotide variant, SNV) 또는 단일 뉴클레오티드 다형성(single nucleotide polymorphism, SNP)을 포함하는, 방법.
  8. 제5항에 있어서, 상기 2개 이상의 대체 경로들에 정렬된 서열 판독물들을 사용하여 상기 2개 이상의 대립유전자들을 유전자형분석하는 단계를 추가로 포함하는, 방법.
  9. 제8항에 있어서, 상기 2개 이상의 대립유전자들을 유전자형분석하는 단계는, 상기 2개 이상의 대립유전자들의 확률들을 결정하기 위해 확률 모델에 상기 2개 이상의 대체 경로들의 커버리지들을 제공하는 단계를 포함하는, 방법.
  10. 제9항에 있어서, 상기 확률 모델은 대립유전자의 상기 커버리지의 함수로서 상기 대립유전자의 확률을 시뮬레이션하며, 상기 함수는 푸아송 분포, 음-이항 분포(negative-binomial distribution), 이항 분포, 또는 베타-이항 분포로부터 선택되는, 방법.
  11. 제10항에 있어서, 상기 푸아송 분포의 레이트 파라미터는 게놈 좌위에서 관찰된 판독물 길이 및 평균 깊이로부터 추정되는, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, (b) 이전에, 상기 서열 판독물들의 게놈 좌표를 결정하기 위해 참조 게놈에 상기 서열 판독물들을 정렬시키는 단계, 및 서열 그래프에 의해 각각 표현된 상기 하나 이상의 반복 서열들에 정렬될 상기 서열 판독물들로서 서열 판독물들의 서브세트를 선택하는 단계를 추가로 포함하는, 방법.
  13. 제12항에 있어서, 상기 서열 판독물들의 서브세트는 서열 그래프에 의해 표현된 영역에 또는 그 근처에 정렬된 판독물들을 포함하는, 방법.
  14. 제12항에 있어서, 상기 서열 판독물들의 서브세트는, 메이트(mate)들이 서열 그래프에 의해 표현된 영역에 또는 그 근처에 맵핑되는, 비정렬된 판독물들을 포함하는, 방법.
  15. 제12항에 있어서, 상기 서열 판독물들의 서브세트는 판독물들을 오정렬시키는 핫스팟(hot spot)들로 알려진 하나 이상의 오프-표적 영역들에 정렬된 판독물들을 포함하는, 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 서열 판독물을 상기 서열 그래프에 정렬시키는 단계는:
    상기 서열 판독물과 상기 서열 그래프의 경로 사이의 kmer 매치를 찾는 단계; 및
    하나 이상의 자가-루프들을 포함하는 상기 서열 그래프의 노드들 및 에지들의 전체 정렬로 상기 kmer 매치를 연장하는 단계를 포함하는, 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서, 서열 판독물을 상기 서열 그래프에 정렬시키는 단계는 상기 정렬들의 낮은 신뢰도 말단들을 제거하는 것에 의한 그래프 축소를 포함하는, 방법.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서, 서열 판독물을 상기 서열 그래프에 정렬시키는 단계는:
    상기 판독물의 하위서열들을 서열 그래프에 정렬시키고;
    상기 하위서열들의 정렬을 병합하여 상기 서열 판독물의 전체 정렬을 형성하는 것에 의한 정렬 병합을 포함하는, 방법.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서, 상기 게놈 좌위의 좌위 구조를 포함하는 좌위 사양(locus specification)에 기초하여 상기 서열 그래프를 생성하는 단계를 추가로 포함하는, 방법.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서, 상기 서열 판독물들은 쌍형성된 말단 판독물(paired end read)들을 포함하고, 동작 (c)는:
    (i) 상기 쌍형성된 말단 판독물들 내의 앵커(anchor) 판독물들 및 앵커링된(ahcnored) 판독물들을 식별하는 단계 - 상기 앵커 판독물들은 상기 하나 이상의 반복 서열들에 또는 그 근처에 정렬된 판독물들이고, 상기 앵커링된 판독물들은 상기 앵커 판독물들과 쌍을 이루는 비정렬된 판독물들임 -; 및
    (ii) 적어도 상기 앵커링된 판독물들을 사용하여 상기 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하는 단계를 포함하는, 방법.
  21. 제20항에 있어서, 동작 (ii)는 상기 앵커 판독물들뿐만 아니라 상기 앵커링된 판독물들을 사용하여 상기 하나 이상의 반복 서열들에 대한 상기 하나 이상의 유전자형들을 결정하는 단계를 포함하는, 방법.
  22. 제20항 또는 제21항에 있어서, 상기 앵커 판독물들은 반복 서열의 약 5 kb 내로 정렬되는, 방법.
  23. 제20항 내지 제22항 중 어느 한 항에 있어서, 상기 비정렬된 판독물들은 상기 서열 그래프에 정렬될 수 없거나 또는 그에 불량하게 정렬된 판독물들을 포함하는, 방법.
  24. 제1항 내지 제23항 중 어느 한 항에 있어서, 상기 하나 이상의 반복 서열들은 짧은 탠덤 반복(short tandem repeat, STR) 서열을 포함하는, 방법.
  25. 제24항에 있어서, 상기 STR의 확장은 취약 X 증후군(fragile X syndrome), 근위축성 측삭 경화증(amyotrophic lateral sclerosis, ALS), 헌팅턴 병, 프리드라이히 운동실조증, 척수소뇌성 운동실조증, 척수구근 근위축증, 근긴장성 이영양증, 마카도-조셉 병, 또는 치상핵적핵 담창구시상하부 위축증과 연관되는, 방법.
  26. 제1항 내지 제25항 중 어느 한 항에 있어서, 상기 테스트 샘플로부터 쌍형성된 말단 판독물들을 생성하기 위해 서열분석기를 사용하는 단계를 추가로 포함하는, 방법.
  27. 제1항 내지 제26항 중 어느 한 항에 있어서, 개체로부터 상기 테스트 샘플을 추출하는 단계를 추가로 포함하는, 방법.
  28. 제1항 내지 제27항 중 어느 한 항에 있어서, 상기 테스트 샘플은 혈액 샘플, 소변 샘플, 타액 샘플, 또는 조직 샘플인, 방법.
  29. 제1항 내지 제28항 중 어느 한 항에 있어서, 상기 반복 단위는 1 내지 50개의 뉴클레오티드들을 포함하는, 방법.
  30. 제1항 내지 제29항 중 어느 한 항에 있어서, 상기 판독물들은 상기 하나 이상의 반복 서열들 중 적어도 하나보다 짧은, 방법.
  31. 시스템으로서,
    시스템 메모리; 및
    하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은:
    (a) 데이터베이스로부터 테스트 샘플의 서열 판독물들을 수집하고;
    (b) 서열 그래프에 의해 각각 표현된 하나 이상의 반복 서열들에 상기 서열 판독물들을 정렬시키고 - 상기 서열 그래프는 핵산 서열들을 표현하는 정점들 및 상기 정점들을 연결하는 방향성 에지들을 갖는 방향성 그래프의 데이터 구조를 갖고, 상기 서열 그래프는 하나 이상의 자가-루프들을 포함하며, 각각의 자가-루프는 반복 하위서열을 표현하고, 각각의 반복 하위서열은 하나 이상의 뉴클레오티드들의 반복 단위의 반복체들을 포함함 -;
    (c) 상기 하나 이상의 반복 서열들에 정렬된 상기 서열 판독물들을 사용하여 상기 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하도록 구성되는, 시스템.
  32. 프로그램 코드를 저장하는 비일시적 기계 판독가능 매체를 포함하는 컴퓨터 프로그램 제품으로서, 상기 프로그램 코드는, 컴퓨터 시스템의 하나 이상의 프로세서들에 의해 실행될 때, 상기 컴퓨터 시스템으로 하여금 핵산들을 포함하는 테스트 샘플에서 반복 서열을 유전자형분석하기 위한 방법을 구현하게 하며, 상기 프로그램 코드는:
    (a) 데이터베이스로부터 테스트 샘플의 서열 판독물들을 수집하기 위한 코드;
    (b) 서열 그래프에 의해 각각 표현된 상기 하나 이상의 반복 서열들에 상기 서열 판독물들을 정렬시키기 위한 코드 - 상기 서열 그래프는 핵산 서열들을 표현하는 정점들 및 상기 정점들을 연결하는 방향성 에지들을 갖는 방향성 그래프의 데이터 구조를 갖고, 상기 서열 그래프는 하나 이상의 자가-루프들을 포함하며, 각각의 자가-루프는 반복 하위서열을 표현하고, 각각의 반복 하위서열은 하나 이상의 뉴클레오티드들의 반복 단위의 반복체들을 포함함 -; 및
    (c) 상기 하나 이상의 반복 서열들에 정렬된 상기 서열 판독물들을 사용하여 상기 하나 이상의 반복 서열들에 대한 하나 이상의 유전자형들을 결정하기 위한 코드를 포함하는, 컴퓨터 프로그램 제품.
KR1020217009932A 2019-03-07 2020-03-06 짧은 탠덤 반복 영역에서의 변이를 결정하기 위한 서열-그래프 기반 툴 KR20210138556A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962815322P 2019-03-07 2019-03-07
US62/815,322 2019-03-07
PCT/US2020/021550 WO2020181254A1 (en) 2019-03-07 2020-03-06 Sequence-graph based tool for determining variation in short tandem repeat regions

Publications (1)

Publication Number Publication Date
KR20210138556A true KR20210138556A (ko) 2021-11-19

Family

ID=70009468

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217009932A KR20210138556A (ko) 2019-03-07 2020-03-06 짧은 탠덤 반복 영역에서의 변이를 결정하기 위한 서열-그래프 기반 툴

Country Status (12)

Country Link
US (1) US20200286586A1 (ko)
EP (1) EP3935637A1 (ko)
JP (1) JP2022522565A (ko)
KR (1) KR20210138556A (ko)
CN (1) CN112955958A (ko)
AU (1) AU2020231246A1 (ko)
BR (1) BR112021006402A2 (ko)
CA (1) CA3114759A1 (ko)
IL (1) IL281995A (ko)
MX (1) MX2021003718A (ko)
SG (1) SG11202103205QA (ko)
WO (1) WO2020181254A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220108773A1 (en) * 2020-10-07 2022-04-07 Baidu Usa Llc Systems and methods for genome analysis and visualization
CA3184609A1 (en) * 2020-12-11 2022-06-16 Illumina Inc. Methods and systems for visualizing short reads in repetitive regions of the genome
WO2023170091A1 (en) 2022-03-09 2023-09-14 Politecnico Di Milano Methods for the alignment of sequence reads to non-acyclic genome graphs on heterogeneous computing systems
WO2024064900A1 (en) * 2022-09-22 2024-03-28 Pacific Biosciences Of California, Inc. Systems and methods for tandem repeat mapping
CN117418001A (zh) * 2023-12-19 2024-01-19 广州嘉检医学检测有限公司 一种脊髓小脑共济失调sca3型基因检测试剂盒及检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US11049587B2 (en) * 2013-10-18 2021-06-29 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
LT3191993T (lt) * 2014-09-12 2022-05-25 Illumina Cambridge Limited Pasikartojančių išsiplėtimų aptikimas naudojant trumpos rodmenų sekos duomenis

Also Published As

Publication number Publication date
EP3935637A1 (en) 2022-01-12
BR112021006402A2 (pt) 2021-09-21
US20200286586A1 (en) 2020-09-10
IL281995A (en) 2021-05-31
WO2020181254A1 (en) 2020-09-10
AU2020231246A1 (en) 2021-04-29
CN112955958A (zh) 2021-06-11
CA3114759A1 (en) 2020-09-10
MX2021003718A (es) 2021-06-15
JP2022522565A (ja) 2022-04-20
SG11202103205QA (en) 2021-04-29

Similar Documents

Publication Publication Date Title
AU2019250200B2 (en) Error Suppression In Sequenced DNA Fragments Using Redundant Reads With Unique Molecular Indices (UMIs)
US20200335178A1 (en) Detecting repeat expansions with short read sequencing data
US20200286586A1 (en) Sequence-graph based tool for determining variation in short tandem repeat regions
US20220254442A1 (en) Methods and systems for visualizing short reads in repetitive regions of the genome
RU2799654C2 (ru) Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов