KR20220064959A - 낮은 빈도 변이의 검출 및 리포팅을 용이하게 하기 위한 dna 라이브러리 생성 방법 - Google Patents

낮은 빈도 변이의 검출 및 리포팅을 용이하게 하기 위한 dna 라이브러리 생성 방법 Download PDF

Info

Publication number
KR20220064959A
KR20220064959A KR1020227007802A KR20227007802A KR20220064959A KR 20220064959 A KR20220064959 A KR 20220064959A KR 1020227007802 A KR1020227007802 A KR 1020227007802A KR 20227007802 A KR20227007802 A KR 20227007802A KR 20220064959 A KR20220064959 A KR 20220064959A
Authority
KR
South Korea
Prior art keywords
dna
sequencing
adapter
sequence
read
Prior art date
Application number
KR1020227007802A
Other languages
English (en)
Inventor
모르간 마슈렛
크리스찬 포조리니
아드리안 윌리그
조나단 비엘러
젠위 수
Original Assignee
소피아 제네틱스 에스에이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소피아 제네틱스 에스에이 filed Critical 소피아 제네틱스 에스에이
Publication of KR20220064959A publication Critical patent/KR20220064959A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/204Modifications characterised by specific length of the oligonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

차세대 시퀀싱을 위해 단편화된 핵산에 어댑터를 추가하는 방법으로서, 단편화된 핵산의 양 측면 상에 다양한 어댑터 분자 바코드 길이를 기초로 하여 여러 코드를 제공하는 단계, 및 두 바코드 모두를 기초로 하여 동일한 단편으로부터 리드(read)를 식별하는 단계를 포함하는 방법이 개시된다. 방법 및 제품은 낮은 수율의 단리된 단편화된 핵산이 존재할 때 단편화된 핵산의 증폭을 가능하게 하고, 또한, 대상체 내 세포의 하위집단을 포함하여, 낮은 빈도의 돌연변이의 효율적이고 신뢰성 있는 검출을 가능하게 한다.

Description

낮은 빈도 변이의 검출 및 리포팅을 용이하게 하기 위한 DNA 라이브러리 생성 방법
암 치료, 법의학, 고유전체학, 진화 및 독성학과 같은 분야는 낮은 발생률 돌연변이의 고정확도 시퀀싱 및 검출을 필요로 한다. 이러한 돌연변이는 암과 같이, 세포의 1% 미만에 존재할 수도 있다. 혈장 또는 혈액 샘플로부터 무세포 데옥시리보핵산(DNA) 단편을 분석할 때, 종양 세포로부터의 DNA 단편의 비율은 전체 무세포 DNA의 최소 0.01%일 수도 있다. 이러한 낮은 발생률-유전적 다양성은 시퀀싱 자체에서 뿐만 아니라 시퀀싱 이전에 게놈 DNA의 증폭에서 높은 백그라운드 오류율(background error rate)로 인해 기존의 차세대 시퀀싱으로 평가하기 어렵다. 순환성 종양 DNA 단편은 140 내지 180 bp(염기쌍)의 평균 길이로 단편화될 수 있고, 혈액 1 밀리미터당 수천 개의 증폭 가능한 카피(copy)에서만 나타낼 수 있다. DNA 폴리머라제는 10-4 내지 10-6의 빈도로 오삽입(misinsertion)을 도입할 수 있다. 이러한 오삽입이 제1 가닥 합성 동안과 같이, DNA 라이브러리의 생성에서 초기에 일어날 때, 이러한 것은 낮은 빈도의 돌연변이와 구별할 수 없게 될 수 있다. 또한, 차세대 시퀀싱(Next-Generation-Sequencing: NGS) 시스템으로도 알려진, 고처리량 시퀀싱 시스템은 통상적으로, 염기당 10-2 내지 10-3의 비율로 오류를 형성하여, 해당 돌연변이가 유사하거나 더 낮은 빈도로 일어날 때 특정 진 변이체(true variant)를 검출할 수 없게 한다.
예를 들어, 단일 세포 시퀀싱, 단일 가닥 분자 바코딩, 및 원형 시퀀싱은 DNA의 단일 가닥으로부터 유래된 DNA를 시퀀싱하는 것을 포함할 수 있다. 제1 라운드(round)의 증폭 동안, DNA 폴리머라제는 딸 분자에게 오류를 전파할 수 있다. 단일 세포 시퀀싱에서, 랜덤 프라이머(random primer)는 2개의 가닥 중 하나를 변위시키기 위해 헬리카제 활성을 갖는 DNA 폴리머라제와 함께 사용될 수 있다. 그러나, 랜덤 프라이머와 가닥 변위의 조합은 새로이 복사된 가닥의 랜덤 프라이밍(randpm priming) 및 이에 따라, 카피의 카피의 생성을 야기시킬 수 있다. 이러한 과정에서, 임의의 초기의 오통합 오류(misincorporation error)는 카피의 카피로 진행될 것이다. 모든 유전 정보가 단일 세포로부터 유래되었기 때문에, 시퀀싱 리드(sequencing read)가 본래 단일 가닥 합성 또는 유전적 변이로부터의 오류를 나타내는 지의 여부를 구분하는 것은 불가능하다.
CircSeq 및 단일 가닥 바코딩은 또한, 제1 라운드 합성 동안 오삽입을 도입할 수 있으며, 이의 오류는 이후에, 딸 분자에게 전파될 수 있고, 돌연변이로서 잘못 스코어링될 수 있다. 동일한 단리후 오삽입 오류는 다른 세포 또는 하위-클론 집단으로부터의 동일한 DNA 서열에서 발생할 가능성이 거의 없다. 이에 따라, 본래 오류는 사후 분석을 통해 반드시 식별 및/또는 설명 및/또는 교정될 수 있는 것은 아니며, 대신 하위 클론 돌연변이인 것으로 나타날 수 있는 오류를 야기시킬 수 있다.
문헌["EEnhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations", Nature Reviews - Genetics, Vol. 18, pp. 269-285, May 2018 Salk 등]에서는 하기 NGS 기술로 낮은 빈도의 변이를 더 잘 특성화하기 위한 주요 오류 교정 전략을 검토한다: 1) 낮은 신뢰도 데이터를 필터링하고/하거나 시퀀싱 오류 프로파일의 사전 규정된 통계 모델을 적용하는 것을 기초로 한 계산 전략(computational strategy), 2) 시퀀싱전 DNA 라이브러리 제조에 의해 유발된 오류를 감소시키기 위한 실험적 전략, 및 3) 시퀀싱 데이터 리드 자체에서 오류의 귀납적 검출 및 교정을 적용하는 분자 공통 시퀀싱. 후자의 방법은 증폭 및 시퀀싱 전에 DNA 단편 각각의 분자 바코드(분자 태그, 고유 분자 식별자(Unique Molecular Identifier; UMI), 또는 단일 분자 식별자(SMI)로도 알려짐)의 고유 태그화(unique tagging)에 따르며, 이에 따라, 특정 태그와 관련된 리드의 패밀리에서 시퀀싱 리드를 그룹화하는 것이 가능하다. 이는 고유하게 태그화된 부모 DNA 단편의 모든 증폭된 및 시퀀싱된 앰플리콘 카피에 대해 매우 동일한 오류가 체계적으로 반복될 가능성이 거의 없기 때문에, 태그화 후 도입된 오류의 명시적 검출 및 교정을 용이하게 한다. Salk 등의 문헌에서는 한편으로 PCR 프라이머 또는 시퀀싱 어댑터(sequencing adaptor)에 인공적으로(물리적으로) 도입된 랜덤 또는 세미-랜덤 서열로서 외인성 분자 바코드와, 결찰을 이용하여 DNA 라이브러리를 제조할 때 DNA 분자의 말단에서 자연적으로(실제적으로) 발생하는 단편화 포인트(전단 포인트(shear point)로도 알려짐)로서 식별될 수 있는 내인성 분자 바코드를 구별한다. 지금까지 3가지 주요 분자 공통 시퀀싱 패밀리가 개발되었다: 1) 단일 가닥 공통 시퀀싱, 예를 들어, SafeSeqS, smMIP 및 CiqSed 방법, 이는 부모 DNA 단편 가닥 중 하나 또는 둘 모두를 독립적으로 태그화함(이에 따라, 다운스트림 공통 오류 검출 및 교정 단계에서 상보적 가닥으로부터 생성된 앰플리콘 리드를 그룹화하기 위한 가닥 정보를 사용할 수 없다는 한계를 가짐); 2) 2-가닥 공통 시퀀싱, 예를 들어, 관련된 리드가 시퀀싱 후 동일한 공통 서열을 그룹화할 수 있도록 부모 DNA 단편의 두 가닥 모두를 동일한 분자 식별자로 태그화하는 Ultrasensitive Deep 시퀀싱 방법 또는 CypherSeq 방법; 및 3) 이중 시퀀싱, 상보적 방식으로 본래 이중 가닥 DNA 단편의 양 말단 상에 랜덤화된 이중 태그를 도입함. 이러한 분자 식별자 서열은, 이중 가닥 DNA의 각 말단이 상이한 분자 식별자 서열을 수용하도록, 이중 가닥 DNA의 각 말단에 결찰된 어댑터로 인코딩될 수 있다. 오류가 제1 가닥-합성 또는 임의의 후속 합성/증폭 단계 동안 DNA 폴리머라제에 의해 DNA의 2개의 가닥 중 하나에 도입되는 경우에, 다른 가닥은 예를 들어, 한 세트의 단일 가닥 공통 서열을 참조한 비교의 기초를 제공한다. 모든 단일 가닥 공통 서열이 시퀀싱 동안 판독된 직후에, 본래 DNA 단편의 각 가닥의 각 말단 상의 분자 식별자 서열은 정렬 동안 매칭될 수 있다.
제1 합성 단계 이후 합성 단계 동안 발생하는 단리후 오류를 검출하기 위해, 각 가닥은 분자 식별자 서열을 사용하여 단일 가닥 공통 서열의 정렬 동안 동일한 시작 및/또는 종료 위치를 공유하는 시퀀싱 리드를 결합시킴으로써, 이의 동일한 가닥 자매와 정렬될 수 있다. 리드 서열에서 임의의 차이는 제1 합성 단계 후 합성 단계 동안 오삽입으로 인한 것일 수 있다. 제1 합성 단계 동안 발생하는 단리후 오류를 검출하기 위해, 각 가닥은 이중 공통 서열의 정렬 동안 (다시, 분자 식별자 서열을 사용하여) 이의 반대 가닥 파트너로 정렬될 수 있다. 이러한 비교에 의해 관찰된 리드 서열에서의 임의의 차이는 제1 합성 단계 동안 오삽입으로 인한 것일 수 있다. DNA의 양 말단 모두에서 동일한 분자 식별자 서열을 갖는 DNA의 두 파트너 가닥 모두에서 특정 차이가 발견되는 경우, 특정 차이는 세포로부터 추출됨에 따라 DNA에 존재하는 돌연변이 또는 다형성으로 인한 것일 수 있다. 세포의 하위 세트에서의 낮은 발생률 돌연변이는 실질적으로 유사한 서열을 갖지만 상이한 분자 식별자 서열을 갖는 가닥을 식별함으로써 전체 서열 판독의 정렬 동안 식별될 수 있다.
문헌["Error-correcting DNA barcodes for high-throughput sequencing", J.A. Hawkins et al, bioRxiv, 7 May 2018]에는 Hamming 코드, Reed-Solomon 코드 또는 Levenshtein 코드와 같은 정보 이론 코드에 대한 개선에 따라 설계된 DNA 어댑터의 라이브러리를 작제화함으로써 최대 10^6 이상의 고유 오류-교정 바코드의 사용이 제안되어 있다. WO2018/144159호에는 DNA 샘플 단편의 구별을 용이하게 하기 위해 다양성의 또 다른 축을 갖는 DNA 어댑터의 라이브러리를 작제화하기 위해 불변 3' 오버행(overhang)을 갖는 2 내지 24개의 가변 길이의 뉴클레오타이드의 사용이 제안되어 있다. 이러한 방법은 손상된 길이(corrupted length)의 바코드를 알 수 없는 경우에도 치환, 삽입, 및 결실 오류의 고유 교정을 어느 정도 용이하게 할 수 있지만, 이의 특정 설계는 다운스트림 시퀀싱 데이터 처리 및 변이 콜링 워크플로우의 오류 교정 능력을 완전히 활용하지 못한다.
문헌[A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data", Computational and Structural Biotechnology Journal 16, pp.15-24, Feb 2018, Xu]에는 가능하게, 이중 및 공통 시퀀싱을 갖는 UMI-기반 시퀀싱 데이터를 처리하는 4개의 변이 콜러를 포함하는, 단일 뉴클레오타이드 변이 검출에 적용 가능할 수 있는 46개의 공개적으로 입수 가능한 변이 콜러가 검토되어 있다. Xu에 의해 보고된 바와 같이, 현재 이중 시퀀싱 프로토콜의 하나의 한계는, 실제 실험에서, UMI의 20%만이 불충분한 결찰 효율로 인해 다른 가닥에 매칭될 수 있으며, 이에 따라, 변이 콜링은 단일 및 이중 UMI 둘 모두를 처리해야 한다. 또한, UMI 서열 자체는 PCR 오류가 발생하기 쉬우며, 이는 상보적 클러스터링 전략을 필요로 할 수 있다.
예를 들어, 매우 낮은 빈도의 돌연변이 및 다형성을 검출하기 위해 이중 DNA 샘플(예를 들어, 게놈 DNA 단편)의 두 가닥 모두를 추적함으로써, 가능하게, 명시적 분자 바코딩 공통 시퀀싱 오류 식별/교정과 독립적으로, 통합된 낮은 빈도의 변이 식별에 연결될 수 있는 DNA 라이브러리를 생성하는 개선된 방법이 요구되고 있다. 예를 들어, 암 세포, 키메라 세포, 및 다른 형태의 대상체내 유전적 다형성에서 희귀하거나 낮은 빈도의 돌연변이 및 다형성의 효율적이고 신뢰성 있는 검출 방법이 요구되고 있다. 또한, 동일한 DNA 분자의 두 가닥 모두를 추적하고, 명시적 공통 시퀀싱을 필요로 하지 않고 여러 낮은 빈도의 변이의 식별 및 리포팅을 용이하게 하는 DNA 라이브러리를 생성하는 개선된 방법이 요구되고 있다. 또한, 시퀀싱되거나 분석되는 DNA 단편의 각 말단 상에 상이한 특성의 서열을 갖는 비대칭 단편화된 DNA 라이브러리를 생성하는 개선된 방법이 요구되고 있다.
적어도 2개의 DNA 단편으로부터 DNA-어댑터 산물의 라이브러리를 생성하는 방법이 제안되며, 라이브러리에서 각 DNA-어댑터 산물은 증폭 및 시퀀싱 후 이의 부모 DNA 단편의 식별 및 게놈 변이 분석을 가능하게 하며, 상기 방법은 반응 혼합물에서, 제1 DNA-어댑터 산물을 생성하기 위해, 2개의 말단을 갖는 제1 이중 가닥 DNA 단편의 하나의 말단에 제2 어댑터를, 그리고 다른 말단에 제2 어댑터를 결찰시키는 단계로서, 각 어댑터는 복수의 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드를 포함하며, 각 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드는 어댑터의 이중 가닥 말단 상에 스페이서 서열을 포함하며, 제1 어댑터 스페이서 서열(SS 1 )은 길이 L 1 을 가지며, 제2 어댑터 스페이서 서열(SS 2 )은 길이 L 2 를 갖는 단계; 동일한 반응 혼합물에서, 제2 DNA-어댑터 산물을 생성하기 위해 2개의 말단을 갖는 제2 이중 가닥 DNA 단편의 하나의 말단에 제3 어댑터를, 그리고 다른 말단에 제4 어댑터를 결찰시키는 단계로서, 각 어댑터는 복수의 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드를 포함하며, 각 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드는 어댑터의 이중 가닥 말단 상에 스페이서 서열을 포함하며, 제3 어댑터 스페이서 서열(SS 3 )은 길이 L 3 을 가지며, 제4 어댑터 스페이서 서열(SS 4 )은 길이 L 4 를 갖는 단계를 포함하며, 여기서, 각 어댑터 스페이서 서열(SS 1 , SS 2 , SS 3 , SS 4 )은 어댑터 스페이서 서열을 생성하기 위해 길이 L S 뉴클레오타이드의 공통 불변의, 사전 규정된 뉴클레오타이드 서열(S)로부터 절단된 스페이서 하위서열을 포함하며, 어댑터 스페이서 서열(SS 1 , SS 2 , SS 3 , SS 4 )은 이의 길이 L 1 , L 2 , L 3 , L 4 의 적어도 3개 및 최대 L max 뉴클레오타이드에 의해 서로 상이하며, L max L S 보다 크거나 이와 동일하다. 사전 규정된 뉴클레오타이드 서열 길이 L S 는 5 내지 20개의 뉴클레오타이드일 수 있다. 각 어댑터 스페이서 서열(SS 1 , SS 2 , SS 3 , SS 4 )은 고정 길이 LTS의 적어도 3개의 뉴클레오타이드를 갖는 불변 종결 하위서열 TS와 절단된 스페이서 하위서열을 연결시킴으로써 형성될 수 있으며, 불변 종결 하위서열 TS는 적어도 2의 편집 거리에 의해 불변, 사전 규정된 뉴클레오타이드 서열 S와 상이하다. 스페이서 하위서열은 불변 뉴클레오타이드 서열(S)로부터의 시작 부분으로부터 좌측에서 우측으로 절단되거나, 불변 뉴클레오타이드 서열(S)로부터의 종료 부분으로부터 우측에서 좌측으로 절단될 수 있다. 불변 종결 하위서열 TS는 삼중항 뉴클레오타이드 또는 사중항 뉴클레오타이드일 수 있으며, 이는 바람직하게는, DNA 단편에 대한 결찰을 촉진하기 위해 T 오버행으로 종료된다.
증폭 및 시퀀싱 후에 고처리량 시퀀싱 데이터 게놈 데이터 분석 워크플로우에서 단편의 식별을 용이하게 하기 위해 적어도 2개의 DNA 단편으로부터 DNA-어댑터 산물의 라이브러리를 생성하는 방법으로서, DNA-어댑터의 풀(pool)을 생성하는단계로서, 어댑터는 전체 길이가 적어도 3 및 최대 L max 인 뉴클레오타이드에 의해 서로 상이하며, 각 어댑터는 길이 LTS의 불변 종결 하위서열 TS를 포함하며, LTS는 가변 스페이서 하위서열과 연접된 3개 이상의 뉴클레오타이드이며, 여기서, 가변 스페이서 하위서열은 LS 뉴클레오타이드의 길이를 갖는 공통의 불변, 사전 규정된 뉴클레오타이드 서열(S)로부터 절단되며, Ls는 3 이상 내지 20개 이상의 뉴클레오타이드인 단계; 및 반응 혼합물에서, 제1 DNA-어댑터 산물을 생성하기 위해 제1 이중 가닥 DNA 단편의 각 말단에 DNA-어댑터의 풀로부터의 제1 및 제2 어댑터를 결찰시키는 단계로서, 각 어댑터는 복수의 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드를 포함하며, 각 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드는 어댑터의 이중 가닥 말단 상에 스페이서 서열을 포함하며, 이에 따라, 제1 DNA-어댑터 산물이 개개 길이(L 1 , L 2 )의 제1 및 제2 DNA-어댑터 스페이서 서열(SS 1 , SS 2 )에 의해 형성된 수치 코드에 의해 특징될 수 있는 단계; 및 동일한 반응 혼합물에서, DNA-어댑터 풀로부터의 제3 및 제4 어댑터를, 제2 이중 가닥 DNA 단편의 각 말단에 결찰하여 제2 DNA-어댑터 산물을 생성하는 단계로서, 각 어댑터는 복수의 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드를 포함하며, 각 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드는 어댑터의 이중 가닥 말단 상에 스페이서 서열을 포함하며, 이에 따라, 제1 DNA- 어댑터 산물이 제1 및 제2 DNA-어댑터 스페이서 서열(SS3, SS4)의 개개 길이(L 3 , L 4 )에 의해 형성된 숫자 코트에 의해 특징될 수 있는 단계를 포함하는 방법이 제안된다.
DNA-어댑터 산물은 PCR 복제물을 생성하기 위해 증폭될 수 있고, 미가공 시퀀싱 리드를 생성하기 위해 시퀀싱될 수 있다. 각 시퀀싱 리드 R n 에 대하여, 게놈 데이터 분석기는 트리밍된 시퀀싱 리드를 생성하기 위해 리드의 개시부로부터 Lmax = LS + LTS 뉴클레오타이드를 트리밍할 수 있다. 게놈 데이터 분석기는 시퀀싱 리드의 제1 L max 뉴클레오타이드에서 불변 종결 하위서열 TS에 대해 검색하고, 시퀀싱 리드 R n 의 시작과 불변 종결 하위서열 TS의 시작을 분리하는 뉴클레오타이드의 수의 함수로서 스페이서 서열 SS Rn 의 길이 L n 을 측정하고, 트리밍된 시퀀싱 리드를 생성하기 위해 리드의 개시부로부터 L n 뉴클레오타이드를 트리밍할 수 있다. 게놈 데이터 분석기는 처리된 시퀀싱 리드 화일에 트리밍된 시퀀싱 리드 및 가능하게, 측정된 길이 L n 을 기록하고, 시작 위치 및 종료 위치에 각 트리밍된 리드를 맵핑하기 위해 기준 게놈에 트리밍된 시퀀싱 리드를 정렬할 수 있다. 게놈 데이터 분석기는 공통 시퀀싱 또는 확률적 시퀀싱 생물 정보학 방법으로, 가닥 및 단편 각각에 대한 게놈 변이의 식별을 용이하게 하기 위해 각 리드에 대해 측정된 가변 어댑터 길이 정보를 사용할 수 있다.
도 1은 실험실 공정("습윤 랩(wet lab)" 공정으로도 알려짐)에서 DNA-어댑터 산물에 투입 DNA 단편을 고유하게 인코딩하기 위한 결찰 어댑터로의 태그화 단계, 및 생물정보학 워크플로우("건조 랩(dry lab)" 공정으로도 알려짐)에서 각 리드에 대한 DNA 단편 소스를 고유하게 식별하기 위해 얻어진 DNA-어댑터 산물 상에서 시퀀싱 리드의 전처리 단계를 포함하는 게놈 분석 워크플로우의 개략도이다.
도 2는 DNA 라이브러리 생성에서 사용하기 위한 예시적인 DNA-어댑터 산물의 개략도이다.
도 3은 제안된 방법에서 사용될 수 있는 사전 규정된 불변 서열로부터 일부 절단된 가변 길이 스페이서 서열을 갖는 다양한 어댑터를 도시한 것이다.
도 4는 각 DNA 단편과 결합된 DNA-어댑터 산물에 대한 제안된 방법에 의해 생성될 수 있는 숫자 코드의 예를 예시한 것이다.
도 5a 및 도 5b는 각각, 제안된 방법과 함께 사용될 수 있도록 어댑터를 생성하기 위해 가변 길이 절단된 스페이서 하위서열 파생물 S i 를 종결 서열과 연결시킴으로써 형성된 한 세트의 스페이서 서열 SS의 예를 도시한 것이다.
도 6은 시퀀싱 스테이지에서 다양한 DNA-어댑터 PCR 복제물의 예를 예시한 것으로서, 이 중 2개의 복제물은 각 DNA 단편과 결합된 DNA-어댑터 산물에 대한 제안된 방법에 의해 생성될 수 있는 이의 고유 숫자 코드로 인해 동일한 부모 DNA 산물로 역추적될 수 있다.
도 7은 소스 DNA 단편을 식별하고 이에 따라 각 리드를 태그화하기 위한 미가공 시퀀싱 리드의 전처리의 일 예를 도시한 것이다.
도 8은 제안된 방법에 따라 태그화된 리드로부터 변이를 추가로 식별하기 위한 2개의 상이한 가능한 게놈 분석 워크플로우 단계의 추상적 표현(abstract representation)을 도시한 것이다.
도 9는 제안된 방법에 따라 생성된 라이브러리에서 각 가변 길이 어댑터의 밀도 분포를 도시한 것이다.
도 10은 시퀀싱 후 예상되는 어댑터 서열에 지정된 리드의 비율을 도시한 것이다.
도 11a는 제안된 어댑터 숫자 코드 태그화 정보를 고려하지 않고 정렬되고 그룹화된 리드의 NGS 데이터 뷰어 스크린 샷을 도시한 것이며, 도 11b는 이종 SNP의 식별을 용이하게 하기 위해 제안된 어댑터 숫자 코드 태그화 정보에 따라 정렬되고 그룹화된 동일한 리드의 NGS 데이터 뷰어 스크린 샷을 도시한 것이다.
도 12a 및 도 12b는 각각 종래 기술 어댑터 또는 제안된 가변 길이 어댑터를 사용할 때 각각 얻어진 변이 콜링 결과들을 비교한 것이다. 도 12c 및 도 12d는 각각 종래 기술 어댑터 또는 제안된 가변 길이 어댑터를 사용할 때 공통 시퀀싱 워크플로우 및 확률적 시퀀싱 워크플로우의 ROC 곡선들을 비교한 것이다.
본원에 나타낸 세부사항은 단지 다양한 구현예의 일 예로서 그리고 이의 예시적인 논의를 목적으로 하고, 본원에 기술되는 방법 및 조성물의 원리 및 개념적 양태에 대한 가장 유용하고 쉽게 이해할 수 있는 설명을 제공하기 위해 제시된다. 이와 관련하여, 기본적인 이해를 위해 필요한 것보다 더 많은 세부사항을 보여주려는 시도가 없으며, 설명은 여러 형태가 실제로 구현될 수 있는 방법을 당업자에게 명백하게 한다.
제안된 방법 및 시스템은 보다 상세한 구현예를 참조하여 하기에 기술될 것이다. 그러나, 제안된 방법 및 시스템은 상이한 형태로 구현될 수 있고, 본원에 기술된 구현예로 한정되는 것으로 해석되어서는 안된다. 오히려, 이러한 구현예는 본 개시가 철저하고 완전할 수 있고, 당업자에게 범위를 충분히 전달할 수 있도록 제공된다.
달리 정의하지 않는 한, 본원에서 사용되는 모든 기술 용어 및 과학 용어는 본 발명이 속하는 분야의 당업자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 본원에서 사용되는 용어는 단지 특정 구현예를 기술하기 위한 것으로서, 한정적인 것으로 의도되지 않는다. 설명 및 첨부된 청구범위에서 사용되는 단수 형태는 문맥이 달리 명확하게 명시하지 않는 한, 또한 복수 형태를 포함하는 것으로 의도된다.
달리 명시하지 않는 한, 하기 명세서 및 첨부된 청구범위에 기술된 수치 파라미터는 얻고자 하는 원하는 특성에 따라 달라질 수 있고, 이에 따라 용어 "약"에 의해 수식될 수 있는 근사치이다. 최소한, 그리고 청구범위에 대한 등가 원칙의 적용을 제한하려는 시도가 아니라, 각 수치 파라미터는 유효 자릿수 및 일반적인 반올림 방식을 고려하여 해석되어야 한다.
넓은 범위를 기술하는 수치 범위 및 파라미터가 근사치임에도 불구하고, 특정 실시예에서 기술되는 수치 값은 가능한 한 정확하게 보고된다. 그러나, 임의의 수치 값은 본질적으로 이의 개개 시험 측정에서 발견되는 표준 편차를 발생시키는 특정 오류를 필연적으로 포함한다. 본 명세서 전반에 걸쳐 제공되는 모든 수치 범위는 좁은 수치 범위가 모두 본원에 명시적으로 기술된 것처럼 더 넓은 수치 범위 내에 속하는 모든 더 좁은 수치 범위를 포함할 것이다.
정의
"DNA 샘플"은 예를 들어, 고형 종양 또는 유체로부터 추출될 수 있는 것과 같은, 유기체로부터 유래된 핵산 샘플을 지칭한다. 유기체는 인간, 동물, 식물, 균류, 또는 미생물일 수 있다. 핵산은 혈액 또는 혈장에서 태아 순환성 DNA(cfDNA) 또는 순환성 종양 DNA와 같은 제한된 양 또는 낮은 농도로 발견될 수 있다. DNA 샘플은 또한, 본원에서 역전사되고 cDNAfh 전환된 RNA 샘플을 기술하는 데에 적용된다.
"DNA 단편"은 고분자량 DNA의 단편화로부터 얻어진 DNA의 작은 조각(short piece)을 지칭한다. 단편화는 샘플 유기체에서 자연적으로 발생할 수 있거나, 예를 들어, 기계적 전단, 초음파처리, 효소적 단편화 및 다른 방법에 의해, DNA 샘플에 적용되는 DNA 단편화 방법으로부터 인공적으로 생성될 수 있다. 단편화 후에, DNA 조각은 각 분자가 블런트 말단(blunt end)을 지닐 수 있도록 말단 수리될 수 있다. 결찰 효율을 개선하기 위해, 아데닌은 단편화된 DNA의 3' 블런트 말단 각각에 첨가되어, DNA 단편을 상보적 dT-오버행을 갖는 어댑터에 결찰시킬 수 있게 한다.
"DNA 산물"은 DNA 단편을 차세대 시퀀싱 워크플로우에 대해 개작하기 위해 DNA 단편을 조작, 연장, 결찰, 복제, 증폭, 복사, 편집 및/또는 절단하여 형성된 DNA의 조작된 조각을 지칭한다.
"DNA-어댑터 산물"은 DNA 단편을 차세대 시퀀싱 워크플로우에 대해 개작하기 위해 DNA 단편을 DNA 어댑터와 결찰시킴으로써 얻어진 DNA 산물을 지칭한다.
"DNA 라이브러리"는 차세대 시퀀싱 워크플로우와의 상용성을 위해 DNA 단편을 개작하기 위한 DNA 산물 또는 DNA-어댑터 산물의 집합을 지칭한다.
"풀(pool)"은 단일 고처리량 시퀀싱 분석으로 다중화될 수 있는, 동일하거나 상이한 유기체로부터 유래된 다수의 DNA 샘플(예를 들어, 48개의 샘플, 96개의 샘플, 또는 그 이상의 샘플)을 지칭한다. 각 샘플은 고유 샘플 바코드에 의해 풀에서 식별될 수 있다.
"뉴클레오타이드 서열" 또는 "폴리뉴클레오타이드 서열"은 시토신(서열 스트링(sequence 스트링)에서 C 문자로 표현됨), 티민(서열 스트링에서 T 문자로 표현됨), 아데닌(서열 스트링에서 A 문자로 표현됨), 구아닌(서열 스트링에서 G 문자로 표현됨) 및 우라실(서열 스트링에서 U 문자로 표현됨)과 같은 뉴클레오타이드의 임의의 폴리머 또는 올리고머를 지칭한다. 이는 DNA 또는 RNA, 또는 이들의 조합일 수 있다. 이는 영구적으로 또는 일시적으로 단일 가닥 또는 이중 가닥 형상으로 발견될 수 있다. 달리 명시하지 않는 한, 핵산 서열은 5'에서 3' 방향으로 좌측에서 우측으로 기재된다.
"랜덤 서열" 또는 "부분 랜덤 서열"은 제공된 서열 길이에 대한 뉴클레오타이드의 모든 가능한 조합으로부터 적어도 부분적으로 무작위로 선택된 뉴클레오타이드의 서열을 지칭한다. 랜덤 서열의 선택은 수동 또는 자동화될 수 있다.
"불변 서열" 또는 "사전 규정된 서열"은 재공된 서열 길이에 대한 뉴클레오타이드의 모든 가능한 조합들로부터 구체적으로 선택된 뉴클레오타이드의 완전 지정, 비-랜덤, 고정 서열을 지칭한다. 비-랜덤 서열의 선택은 수동 또는 자동화될 수 있다. 비-랜덤 서열의 선택은 예를 들어, 증폭 및 시퀀싱 단계에 대한 향상된 오류 견고성 특성을 제공하기 위해, 시퀀싱 적용 및/또는 시퀀싱 기술에 대해 특이적인 특정 기준으로 기초로 할 수 있다.
"프라이머 서열"은 일부 또는 모두가 연장되거나 증폭되는 타겟 DNA에 대한 상보성 영역을 포함하는 적어도 20개 길이의 뉴클레오타이드의 뉴클레오타이드 서열을 지칭한다.
2개의 뉴클레오타이드 서열 간의 "편집 거리"는 하나의 서열이 다른 서열과 동일하게 되도록 적용하는 데 필요한 뉴클레오타이드 치환, 삽입, 또는 결실의 최소 수를 지칭한다.
"결찰"은 별개의 이중 가닥 DNA 서열의 연결을 지칭한다. 후자의 DNA 분자는 블런트 말단화될 수 있거나, 이의 결찰을 용이하게 하게 위한 상용화 가능한 오버행을 가질 수 있다. 결찰은 다양한 방법, 예를 들어, 리가제 효소의 사용, 화학적 결찰 수행, 및 다른 방법에 의해 생성될 수 있다.
"증폭"은 하나 이상의 부모 서열로부터 복제된 다수의 폴리뉴클레오타이드 서열을 생성하기 위한 폴리뉴클레오타이드 증폭 반응을 지칭한다. 증폭은 다양한 방법, 예를 들어, 폴리머라제 연쇄 반응(PCR), 선형 폴리머라제 연쇄 반응, 핵산 서열-기반 증폭, 롤링 서클 증폭(rolling circle amplication), 및 다른 방법에 의해 생성될 수 있다.
"시퀀싱(sequencing)"은 스트링(string)으로서 뉴클레오타이드의 서열의 리딩(reading)을 지칭한다. 고처리량 시퀀싱(HTS) 또는 차세대 시퀀싱(NGS)은 병렬로, 통상적으로, 50개 내지 수천 개의 염기쌍의 다수의 서열의 실시간 시퀀싱을 지칭한다. 예시적인 NGS 기술은 Illumina, Ion Torrent 시스템s, Oxford Nanopore Technologies, Complete Genomics, Pacific Biosciences 등으로부터의 기술을 포함한다. 실제 기술에 따르면, NGS 시퀀싱은 단일 부모 분자의 여러 경우가 예를 들어, 합성에 의한 시퀀싱의 경우에 유세포로 전달하기 전에 PCR 증폭으로 시퀀싱되도록, 증폭 단계뿐만 아니라 추가 시퀀싱 단계를 용이하게 하기 위해 시퀀싱 어댑터 또는 프라이머로의 샘플 제조를 필요로 할 수 있다.
"어댑터(adapter, adaptor)"는 DNA 단편에 결찰되도록 설계된 대략 10 내지 100개의 뉴클레오타이드(염기쌍)의 짧은 이중 가닥 또는 부분 이중 가닥 DNA 분자를 지칭한다. 어댑터는 블런트 말단, 3' 또는 5' 오버행으로서 점착성 말단, 또는 이들의 조합을 가질 수 있다. 예를 들어, 결찰 효율을 개선시키기 위해, 아데닌은 어댑터 결찰 전에 단편화된 DNA의 각 3' 블런트 말단에 첨가될 수 있으며, 어댑터는 단편화된 DNA의 3' 말단에 첨가된 아데닌과 염기쌍을 형성하기 위해 3' 말단 상에 티미딘 오버행을 가질 수 있다. 어댑터는 엑소뉴클레아제가 티미딘을 트리밍되는 것을 방지하기 위해 3' 말단 상에 말단 티미딘 전에 포스포로티오에이트 결합을 가질 수 있고, 이에 따라, 결찰되는 어댑터의 말단이 이중 가닥일 때 블런트 말단을 생성시킬 수 있다.
"일부 이중 가닥 어댑터"는 이중 가닥 영역 및 단일 가닥 영역 둘 모두를 포함하는 어댑터를 지칭한다. 어댑터의 이중 가닥 영역은 결찰 도메인을 함유하는 반면, 단일 가닥 영역은 후속 라이브러리 증폭, 바코딩 및/또는 시퀀싱을 위해 사용되는 프라이머화 서열을 함유한다. 단일 가닥 영역은 소위 Y-형상 어댑터에 대한 경우와 같이, 2개의 단일 가닥 아암, 5' 아암 및 3' 아암으로 이루어질 수 있거나, 일부 이중 가닥 어댑터의 단일 가닥 영역은 소위 U-형상 어댑터에 대한 경와 같이, 헤어핀 또는 루프를 형성할 수 있다. 이에 따라, 용어 일부 이중 가닥 어댑터는 Y-형상 및 U-형상 어댑터 둘 모두 또는 이들의 조합을 지칭한다.
"PCR 복제물"은 본래 DNA 단편으로부터 유래된 DNA-어댑터 산물에 속하는 단일 가닥 DNA 분자로부터 PCR 증폭에 의해 생성된 카피를 지칭한다.
"분자 태그" 또는 "분자 바코드" 또는 "분자 코드" 또는 "분자 식별자"는 이의 뉴클레오타이드의 스트링에 의해 완전히 또는 고유하게 지정된 핵산 서열과 같은 분자 배열을 지칭한다.
"숫자 코드" 또는 "비-분자 코드" 또는 "비-분자 식별자"는 분자 배열 자체가 아닌, 분자 배열의 고유 특성의 하나 이상의 수치 값으로서의 측정을 지칭한다. 핵산 분자 서열의 특성의 예는 길이, 크기, 분자량, 몰농도, 극성, 탄성, 강성, 전기 전도도, 형광, 특정 여기파에 대한 반사율, 또는 더욱 일반적으로, 분자 배열 및/또는 분자 배열의 일부에 대해 실험적으로 측정될 수 있는 임의의 물리적, 화학적 또는 생물학적 특성을 포함한다.
"가변 길이 코드(VLC)"는 뉴클레오타이드의 수, 모노머의 수, 폴리머의 수, 호모폴리머의 수, 헤테로폴리머의 수, 또는 이들의 조합으로서 측정될 수 있는 핵산 서열의 가변 길이를 지칭한다.
"리드 트리밍(Read trimming)" 또는 "리드 전처리(Read pre-processing)"는 생물 정보학 워크플로우에서, 분석되는 실제 DNA 단편 서열을 추출하기 위해, 시퀀싱 리드에서, 리드 서열 스트링의 시작에서 한 세트의 뉴클레오타이드, 예를 들어, 어댑터 서열에 해당하는 뉴클레오타이드를 필터링하는 것을 지칭한다.
"정렬(aligning, alignment)" 또는 "정렬자(aligner)"는 생물 정보학 워크플로우에서, 적용에 따라, 기준 게놈 서열에 대해 전처리된 시퀀싱 리드를 염기별로 맵핑 및 정렬하는 것을 지칭한다. 예를 들어, 실험 증폭 공정에서 사용되는 하이브리드 포획 프로브에 따라 시퀀싱 리드가 특정 타겟화된 게놈 영역에 맵핑될 것으로 예상되는 타겟화된 농축 적용에서, 정렬은 기존 게놈에서 염색체 번호, 시작 위치 및 종료 위치와 같은 게놈 좌표에 의해 정의된, 상응하는 서열에 대해 구체적으로 검색될 수 있다.
"변이 콜링(variant calling)" 또는 "변이 콜러(variant caller)" 또는 "변이 콜(variant call)"은 생물 정보학 워크플로우에서, 정렬된 리드에서 실제 변이를 식별하는 것을 지칭한다. 변이는 단일 뉴클레오타이드 순열(SNP), 삽입 또는 결실(INDEL), 카피수 변이(CNV)뿐만 아니라 대규모 재배열, 치환, 복제, 전좌 등을 포함할 수 있다. 바람직하게는, 변이 콜링은 증폭 및 시퀀싱 노이즈 인공물에서 실제 변이체를 분류하는 데 충분히 강력하다.
"공통 시퀀싱"은 생물 정보학 워크플로우에서, 동일한 이중 가닥 DNA 단편 및/또는 동일한 DNA 단편 가닥으로부터 생성된 리드의 패밀리로 시퀀싱 리드를 그룹화하고, 증폭 및/또는 시퀀싱 단게로 인한 오류를 검출하기 위해 이를 비교하고, 이중 가닥 DNA 단편 또는 DNA 단편 가닥에 대한 고유의 결정적인 공통 서열을 생성하기 위해 오류를 교정하는 것을 지칭한다. 변이 콜링은 이후에, 전체 리드보다는, 얻어진 공통 서열을 처리함으로써 수행된다.
"확률적 시퀀싱"은 생물 정보학 워크플로우에서, 데이터를 확률적 모델과 비교함으로써, 분석되는 각 게놈 위치에서 모든 가능한 유전자형을 지지하는 데이터의 확률을 계산하기 위해 상이한 패밀리로부터의 전체 리드를 처리함으로써, 동일한 이중 가닥 DNA 단편 및/또는 동일한 DNA 단편 가닥으로부터 생성된 리드의 패밀리로 시퀀싱 리드를 그룹화하고 이러한 데이터 상에서 변이 콜링을 직접적으로 수행하는 것을 지칭한다.
워크플로우(workflow)
예시적인 낮은 빈도의 DNA 변이 식별 워크플로우는 도 1을 참조하여 하기에서 더 상세히 기술될 것이다. DNA 분석의 분야의 당업자에게 명백한 바와 같이, 이러한 워크플로우는 DNA 분석 데이터를 생성하기 위해 실험실("습윤 랩"으로도 알려짐)에서 수행되는 사전 실험 단계, 예를 들어, 차세대 시퀀싱 워크플로우에서 미가공 시퀀싱 리드뿐만 아니라, 최종 사용자에게 고려되는 정보를 추가로 식별하기 위해 DNA 분석 데이터 상에서 수행되는 후속 데이터 처리 단계, 예를 들어, 생물 정보학 시스템으로, DNA 변이체 및 관련된 주석의 상세한 식별("건조 랩"으로도 알려짐)을 포함한다. 실제 적용, 실험실 셋업 및 생물 정보학 플랫폼에 따라, DNA 분석 워크플로우의 다양한 구현예가 가능하다. 도 1은 DNA 샘플을 먼저 단편화 프로토콜(50)(선택적)로 단편화시켜 DNA 단편을 생성하는 습윤 랩 공정을 포함하는 워크플로우의 예를 기술한 것이다. 이러한 DNA 단편의 DNA 말단은 이후에, 사용되는 어댑터와 상용화 가능하도록 복구되고 변형된다. 본 명세서 전반에 걸쳐 더욱 상세히 추가로 기술되는 어댑터는 이후에, 제안된 방법 중 일부에 따라, DNA-어댑터 산물의 라이브러리를 생성하기 위해, 반응 혼합물에서 DNA 단편에 결찰(100)에 의해 연결될 수 있다. DNA 라이브러리는 추가로 증폭(110) 및 시퀀싱(120)으로 수행된다. 차세대 시퀀싱 워크플로우에서, 얻어진 DNA 분석 데이터는 FASTQ 포맷으로 미가공 시퀀싱 리드의 데이터 화일로서 생성될 수 있다. 워크플로우는 이후에, 제안된 방법에 따라 결찰 어댑터로 제조된 DNA 샘플의 풀에 대한 미가공 시퀀싱 리드를 투입하고, 예를 들어, 최종 사용자에 대한 게놈 변이 리포트로서, 게놈 변이를 식별하기 위한 일련의 데이터 처리 단계를 적용하는 건조 랩 게놈 데이터 분석기 시스템(150)을 추가로 포함할 수 있다. 예시적인 게놈 데이터 분석기 시스템(150)은 2019년에 전세계에서 1000개 이상의 병원에서 이미 사용 중인 소피아 데이터 기반 의학 플랫폼(Sophia Data Driven Medicine platform; Sophia DDM)이지만, 다른 시스템이 또한 사용될 수 있다. 게놈 데이터 분석기 시스템(150)에 의해 적용될 수 있는 데이터 가공 단계의 상이한 상세한 가능한 구현예는 예를 들어, 국제 PCT 특허출원 WO2017/220508호에 기술되어 있지만, 다른 구현예가 또한 가능하다.
바람직한 구현예에서, 게놈 데이터 분석기 시스템(150)은 먼저 미가공 시퀀싱 리드 투입으로부터 전처리된 리드를 생성하기 위해 하나 이상의 전처리 단계(151)를 적용할 수 있다. 전처리 단계는 예를 들어, 본원에서 추가로 기술되는 제안된 어댑터 결찰 방법 및 수치 코딩 방법에 따라 유사한 DNA 단편으로부터 생성된 리드의 패밀리에서 리드를 분석 및 그룹화하기 위한, 어댑터 트리밍뿐만 아니라 리드 분류를 포함할 수 있다. 가능한 구현예에서, 미가공 리드뿐만 아니라 전처리된 리드는 FASTQ 화일 포맷으로 저장될 수 있지만, 다른 구현예가 또한 가능하다.
게놈 데이터 분석기 시스템(150)은 리드 정렬 데이터를 생성하기 위해 전처리된 리드에 서열 정렬(152)을 추가로 적용할 수 있다. 일 구현예에서, 리드 정렬 데이터는 예를 들어, BAM 또는 SAM 화일 포맷으로 생성될 수 있지만, 다른 구현예가 또한 가능하다.
게놈 데이터 분석기 시스템(150)은 변이 콜링 데이터를 생성하기 위해 리드 정렬 데이터에 변이 콜링(153)을 추가로 적용할 수 있다. 일 구현예에서, 변이 콜링 데이터는 예를 들어, VCF 화일 포맷으로 생성될 수 있지만, 다른 구현예가 또한 가능하다.
게놈 데이터 분석기 시스템(150)은 각 DNA 샘플에 대한 게놈 변이 리포트를 생성하기 위해 리드 정렬 데이터에 변이 주석(variant annotation)(154)을 추가로 적용할 수 있다. 일 구현예에서, 게놈 변이 리포트는 그래픽 사용자 인터페이스에서 최종 사용자에 의해 시각화될 수 있다. 다른 가능한 구현예에서, 게놈 변이 리포트는 추가 데이터 처리를 위한 텍스트 화일로서 생성될 수 있다. 다른 구현예가 또한 가능하다.
단편화
일부 구현예에서, 본원에 기술된 방법은 잠재적으로, 비설파이드 전환과 함께 유전자, 프로모터, 엑손, 인트론, 및 잠재적인 후성유전 정보, 예를 들어, CpG 섬, 및 메틸화의 위치 및 코딩으로서 이러한 정보를 시퀀싱되고 결정되는 데 게놈 및 미토콘드리아 DNA의 사용을 포함할 것이다. 게놈 DNA는 염색체 DNA 또는 원형 DNA일 수 있다. 대안적으로, mRNA는 상보성 DNA 또는 cDNA로 역전사될 수 있으며, 상기 cDNA는 단편화될 수 있거나, 이는 단편화 없이 시퀀싱될 수 있는 충분한 작은 길이를 가질 수 있다. 단편화되거나 비단편화된 상보성 cDNA는 단일 가닥일 수 있고, 이후에, 랜덤 프라이머 및/또는 다른 프라이머를 어닐링하고 cDNA와 상보성이 되도록 프라이머를 연장시키고, 이에 따라, 이중 가닥 cDNA를 형성함으로써 이중 가닥으로 제조될 수 있다. 일부 구현예에서, 이중 가닥 cDNA 및 미토콘드리아 및/또는 게놈 DNA는 시퀀싱(120) 전에 단편화되어야 한다(50). 단편화(50)는 음파처리, 초음파처리, 기계적 전단, 예를 들어, 제한 효소 소화를 통한 부분 소화 등을 포함하지만, 이로 제한되지 않는 여러 수단에 의해 달성될 수 있다. 단편화는 길이가 50 내지 10,000개의 염기쌍, 바람직하게는, 길이가 200개의 염기쌍 내지 800개의 염기쌍, 더욱 바람직하게는, 길이가 300 내지 500개의 염기쌍, 및 더욱 바람직하게는, 길이가 여전히 400개의 염기쌍인 단편화된 DNA를 형성할 수 있다. DNA 단편은, cDNA, 게놈 DNA, 또는 미토콘드리아 DNA에서 비롯된 것인지의 여부에 따라, 예를 들어, 아가로스 겔 전기영동; 겔 크로마토그래피; 수크로스 구배 원심분리, 퍼콜(percol) 구배 원심분리, 세슘-클로라이드 원심분리를 포함하는, 평형 밀도-구배 원심분리; 및 다른 수단에 의해 크기-분획될 수 있다.
어댑터 결찰/삽입
단편화 및 말단-수선(50) 후, 게놈 DNA 또는 염색체 DNA 또는 역전사 후 이중 가닥 DNA의 형성의 경우에, 어댑터는 단편화된 이중 가닥 DNA의 말단 각각에 결찰 또는 연결될 수 있다(100).
도 2는 DNA 단편(220)의 각 말단에 2개의 어댑터(200,250)의 결찰(100)의 구현예를 도시한 것이다. 도 2에 예시된 바와 같은 예시적인 구현예에 도시된 각 어댑터(200,250)는 이중 가닥 단편화된 DNA에 어닐링되는 말단에 단일 뉴클레오타이드(T) 3' 오버행을 갖는 DNA의 부분 이중 가닥 분자를 포함할 수 있다. 각 어댑터(200,250)는 후속 고처리량 시퀀싱 리드(리드1, 리드2)에서 DNA 단편(220) 뉴클레오타이드 서열로부터 어댑터(200,250)를 분리하는 스페이서 서열(SS)을 구성하는 하나의 말단에 이중 가닥 세그먼트(210,260)를 포함한다. 도 2에 예시된 가능한 구현예에서, 후자의 스페이서 서열 말단은 단일-뉴클레오타이드 T 3'-오버행을 함유할 수 있지만, 다른 구현예가 당업자에게 명백한 바와 같이 또한 가능하며, 예를 들어, 이는 타겟 이중 가닥 DNA 분자(220)(예를 들어, 게놈 DNA 또는 gDNA)에 어댑터(200,250)의 결찰(100)을 용이하게 하기 위해, 블런트 말단화될 수 있거나, 다른 3' 또는 5' 오버행에 의해 치환될 수 있다.
어댑터는 이중 가닥 DNA에 어닐링되는 말단에 이중 가닥 서열을 포함한다. 이와 관련하여, 어댑터의 이중 가닥 서열의 2개의 가닥 중 하나는 단편화된 이중 가닥 DNA의 3' 말단에 결찰될 것이며, 어댑터의 이중 가닥 서열의 2개의 가닥 중 다른 하나는 단편화된 이중 가닥 DNA의 5' 말단에 결찰될 것이다.
단편화된 이중 가닥 DNA에 결찰되는 어댑터의 이중 가닥 서열의 말단은 제한되지 않고, 블런트 말단, 3' 오버행, 및 5' 오버행을 포함할 수 있다. 이와 관련하여, 결찰되는 어댑터의 5' 말단은 5'포스페이트 또는 5'-OH로 종결될 수 있다. 5'-OH가 타겟 핵산에 결찰되게 하기 위해 어댑터 말단에 존재하는 경우에, 골격을 완성시키고 단편화된 DNA의 3'-OH에 어댑터의 5'-OH를 연결하기 위해 폴리뉴클레오타이드 키나제를 사용하는 것이 필요할 수 있다. 일부 구현예에서, T-4 박테리아파지로부터 T-4 리가제에 의해 결찰될 수 있는 하나의 뉴클레오타이드 오버행이 바람직하다. 이에 따라, 일부 구현예에서, 아데닌은 어댑터 결찰 전에 단편화된 DNA의 3' 블런트 말단 각각에 첨가될 수 있으며, 어댑터는 단편화된 DNA의 3' 말단에 아데닌이 첨가된 염기쌍에 대해 3' 말단 상에 티미딘 오버행을 가질 수 있다. 일부 구현예에서, 아데닌은 어댑터 결찰 전에 단편화된 DNA의 3' 블런트 말단 각각에 첨가될 수 있으며, 어댑터는 단편화된 DNA의 3' 말단에 아데닌이 첨가된 염기쌍에 대한 3' 말단 상의 말단 티미딘 전에 포스포로티오에이트 결합을 가질 수 있다. 말단 티미딘 전에 포스포로티오에이트 결합은 엑소뉴클레아제가 티민딘을 트리밍하는 것을 방지할 것이고, 이에 따라, 결찰되는 어댑터의 말단이 이중 가닥일 때 블런트 말단을 생성할 수 있다.
가변 길이 스페이서 서열을 갖는 어댑터
바람직한 구현예에서, 도 2에 예시된 바와 같이, 각 어댑터(200,250)는 DNA 단편(220)에 연결되도록 이의 이중 가닥 말단을 종결하는 스페이서 서열(210,260)을 포함한다. 일 구현예에서, 스페이서 서열(210,260) 중 일부 또는 전부는 다양한 가변 길이 절단된 스페이서 하위서열(Si,Sj)을 형성하기 위해 길이 LS 뉴클레오타이드의 사전 규정된, 불변 뉴클레오타이드 서열 S로부터 절단될 수 있다.
일 구현예에서, 미가공 시퀀싱 리드로부터 게놈 데이터 분석기(150)에 의한 다운스트림 리드 트리밍 전처리(151)를 용이하게 하기 위해, 최대 L S 뉴클레오타이드의 개개 길이(L Si ,L Sj )의 각 절단된 스페이서 하위서열(Si,Sj)은 예를 들어, TS 종결 하위서열과 각 절단된 가변 길이 하위서열(Si,Sj)을 연접시킴으로써, 길이 L TS 적어도 3개의 뉴클레오타이드의 불별 종결 하위서열 TS가 이어져서, 도 2에 예시된 바와 같이, 가변 길이 스페이서 서열(210,260)을 형성한다.
바람직하게는, 사전 규정된, 불변 뉴클레오타이드 서열 S 및 불변 종결 하위서열 TS는, 불변 종결 하위서열 TS가 적어도 2의 편집 거리로 서열 S의 나머지와 상이하도록 선택된다. 이에 따라, 도 2에 예시된 바와 같이, 각 어댑터 스페이서 서열 SS(210,260)는 적어도 3개의 뉴클레오타이드의 동일한, 불변 종결 하위서열 TS에 의해 종결될 수 있으며, 종결 하위서열 TS는 적어도 2의 편집 거리로 서열 S의 나머지(및 이에 따라, 임의의 이의 유도된 절단된 스페이서 하위서열(Si,Sj))와 상이하다.
도 3에 예시된 바와 같이, 구체적으로 절단된 스페이서 하위서열(Si,Sj)의 길이에 의해 서로 상이한, 복수의 어댑터가 사용될 수 있다. 이에 따라, 불변 종결 하위서열 TS과 연접된 직후에 스페이서 서열(210,260)에 대한 얻어진 전체 길이는 예를 들어, 3 뉴클레오타이드(다운스트림 리드 트리밍 전처리(151)를 용이하게 하기 위해 "삼중항 정지 코드(triplet stop code)"로서 사용될 수 있는 종결 하위서열에 대해 최소 크기인 바와 같음), 10(7+3)개의 뉴클레오타이드, 5(2+3)개의 뉴클레오타이드, 7(4+3)개의 뉴클레오타이드, 4(1+3)개의 뉴클레오타이드…일 수 있다. 보다 일반적으로, 스페이서 서열 가변 길이는 적어도 L TS =3 뉴클레오타이드, 및 최대 L max = L S + L TS 뉴클레오타이드일 수 있다. 유사하게는, 4중 종결 하위서열 TS에 대하여, 스페이서 서열 가변 길이는 적어도 L TS = 4 뉴클레오타이드, 및 최대 L max = L S + L TS 뉴클레오타이드, 등일 수 있다.
일반적으로, 불변 폴리뉴클레오타이드 서열 S의 최대 길이 L S 는 유도된 스페이서 서열(210,260)이 생물 정보학 워크플로우 관점으로부터 유사한 DNA 단편, 즉, 상이한 절단 길이를 갖는 복수의 어댑터로부터 한쌍의 어댑터와 결찰된 직후 동일한 기준 맵핑 위치를 공유하는 단편으로부터 PCR 복제물을 구별하기 위해 충분한 상이한 가변 절단된 길이가 필요한 조합 다양성을 제공하면서, 전체 시퀀싱 리드 길이에 대해 너무 긴 세그먼트를 갖지 않도록(일부 고처리량 시퀀싱 워크플로우에서 최소 150개의 염기쌍일 수 있음) 선택될 수 있다. 가능한 구현예에서, LS는 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 또는 20개의 뉴클레오타이드로서 선택될 수 있지만, 다른 구현예가 또한 가능하다. 고처리량 시퀀싱을 위해 샘플의 풀을 제조할 때, 가능한 구현예에서, 동일한 불변 폴리뉴클레오타이드 서열 S는 NGS 워크플로우에서 함께 다중화되는 샘플의 풀에서 모든 샘플에 대한 결찰 어댑터를 제조하기 위해 사용될 수 있으며, 다른 구현예에서, 상이한 불변 폴리뉴클레오타이드 서열은 동일한 풀에서 상이한 샘플에 대한 결찰 어댑터를 제조하기 위해 규정되고 사용될 수 있다. 후자의 구현예에서, 샘플의 풀에서 각 샘플에 대해 생성된 복수의 어댑터는 가변 스페이서 하위서열에 대해 절단하기 위해 사용되는 사전 규정된 뉴클레오타이드 서열(S) 또는 사전 규정된 종결 하위서열(TS)에 의해 상이할 수 있다. 이에 따라, (TS,S)의 선택은 샘플의 모든 단편에 대해 공통이고 불변이지만, 동일한 풀에서 하나의 샘플과 다른 샘플 간에 차이가 있다.
도 4는 3개의 예시적인 DNA 단편(421,422,423)에 대한 얻어진 결찰 및 해당 숫자 코드를 예시한 것이다. 제1 DNA 단편(421)은 한 말단에서 총 길이 L 1 의 3개의 뉴클레오타이드를 갖는 스페이서 서열(411)(SS 1 )을 포함하는 제1 어댑터(401)에, 및 이의 다른 말단에서 총 길이 L 2 의 10개의 뉴클레오타이드를 갖는 스페이서 서열(461)(SS 2 )을 포함하는 제2 어댑터(451)에 결찰된다. 제2 DNA 단편(422)은 한 말단에서 총 길이 L 3 의 5개의 뉴클레오타이드를 갖는 스페이서 서열(412)(SS 3 )을 포함하는 제3 어댑터(402)에 및 다른 말단에서 총 길이 L 4 = L 3 = 5개의 뉴클레오타이드를 갖는 동일한 스페이서 서열(462)(SS 4 - 이러한 특정 예에서, SS 4 = SS 3 임이 주지됨)을 포함하는 제4 어댑터(452)에 결찰된다. 제3 DNA 단편(423)은 한 말단에서 전체 길이 L5의 7개의 뉴클레오타이드를 갖는 스페이서 서열(413)(SS 5 )을 포함하는 제5 어댑터(403)에 및 이의 다른 말단에서 전체 길이 L 6 = 4 개의 뉴클레오타이드를 갖는 스페이서 서열(463)(SS 6 )을 포함하는 제6 어댑터(453)에 결찰된다. 이에 따라, DNA 단편(421)으로부터 생성된 제1 DNA-어댑터 산물은 양 말단 상에 이의 어댑터로부터 스페이서 서열의 개개 길이에 해당하는 숫자 코드 {3,10}(또는 리드 방향에 따라 {10,3})과 관련될 수 있다. 이에 따라, DNA 단편(422)으로부터 생성된 제2 DNA-어댑터 산물은 양 말단 상에 이의 어댑터로부터 스페이서 서열의 개개 길이에 해당하는 숫자 코드 {5,5}(임의의 리드 방향)과 관련될 수 있다. 이에 따라, DNA 단편(423)으로부터 생성된 제3 DNA-어댑터 산물은 양 말단 상에 이의 어댑터로부터 스페이서 서열의 개개 길이에 해당하는 숫자 코드 {7,4}(또는 리드 방향에 따라 {4,7})와 관련될 수 있다. 이에 따라, 파생물 DNA 산물의 양 말단 상에서 스페이서 서열을 식별하고, 부모 DNA-어댑터 산물로부터 유전된 숫자 코드를 식별하기 위해 이의 개개 길이를 측정함으로써, DNA 라이브러리에서 동일한 맵핑 위치를 갖는 제1, 제2 및 제3 DNA-어댑터 산물들 구별하고, 각 부모 DNA-어댑터 산물로부터 파생 DNA 산물을 역추적하는 것이 가능하다.
도 5a는 v9, v8, v7, v6, v5, v4, v3, v2, v1, v0로서 도 5a에서 식별된 10개의 가능한 스페이서 서열의 제1 예를 예시한 것이다. 각 스페이서 서열은 종결 하위서열(TS) 삼중항 T,G,T(그 자체는 결찰을 용이하게 하기 위해 T 오버행으로 말단화됨)와 추가로 연접된, 길이 L S =9의 불변 서열 S=CCACAACAC의 시작으로부터 좌측에서 우측으로 절단에 의해 형성될 수 있다. 도 5b는 종결 하위서열(TS) 삼중항 T,G,T(그 자체는 결찰을 용이하게 하기 위해 T 오버행으로 말단화됨)와 추가로 연접된, 길이 L S =9의 불변 서열 S=CCACAACAC의 말단으로부터 우측에서 좌측으로 절단될 수 있는 10개의 가능한 스페이서 서열의 대안적인, 제2 예를 예시한 것이다. 도 5a 및 도 5b 둘 모두의 예에서, 불변 서열 S=CCACAACAC는 길이 L S =9이며, 각 가능한 유도된 절단된 하위서열은 각각 9, 8, 7, 6, 5, 4, 3, 2, 1 및 0개의 뉴클레오타이드의 하위 서열 길이를 갖는다. 얻어진 시퀀싱 리드에서 삼중항 코드 TGT에 해당하는, T,G,T 뉴클레오타이드의 삼중항이 이어질 때, 얻어진 스페이서 서열 전체 길이는 이후에, 각각 12, 11, 10, 9, 8, 7, 6, 5, 4, 및 3개의 뉴클레오타이드이다.
가능한 구현예에서, 절단된 플러스(plus) 종결 하위서열의 전체 스페이서 서열 길이(절대 길이, 예를 들어, 3 내지 12 범위의 수치 값)는 숫자 코드를 형성하기 위해 사용될 수 있다. 대안적인 구현예에서, 종결 하위서열의 불변 길이를 제외한, 스페이서 서열의 절단된 하위서열의 단독 길이는 숫자 코드(상대적 길이, 예를 들어, 0 내지 7 범위의 수치 값)를 형성하기 위해 사용될 수 있다.
증폭 및 시퀀싱
DNA 산물이 어댑터 결찰로 생성된 직후에, 이러한 것은 하나 이상의 부모 서열로부터 복제된 여러 폴리뉴클레오타이드 서열을 생성하기 위해 폴리뉴클레오타이드 증폭 반응에 의해 증폭될 수 있다. 차세대 시퀀싱의 당업자에게 명백한 바와 같이, 증폭은 다양한 방법, 예를 들어, 폴리머라제 연쇄 반응(PCR), 선형 폴리머라제 연쇄 반응, 핵산 서열-기반 증폭, 롤링 서클 증폭, 및 다른 방법에 의해 생성될 수 있다. 일부 구현예에서, 이후에, 라이브러리 증폭 후, DNA-어댑터 산물은 lllumina 시퀀싱 기술, Ion Torrent 시퀀싱 기술, 454 Life Sciences 시퀀싱 기술, ABI SOliD 시퀀싱 기술, Pacific Biosciences 시퀀싱 기술 또는 Oxford nanopore 시퀀싱 기술을 포함하지만, 이로 제한되지 않는 당 분야에 공지된 임의의 기술을 이용하여 시퀀싱될 수 있다. 예를 들어, Illumina 시퀀싱 플랫폼의 경우에, 라이브러리 산물의 양 말단 상에 존재하는 시퀀서 프라이머링 서열은 유세포 서열의 유세포 올리고머에 대한 어닐링 또는 결합의 기능적 특성을 갖는다. 차세대 시퀀싱의 당업자에게 명백한 바와 같이, 브릿지-증폭 공정(110)은 이후에, 수행될 수 있으며, 여기서, 어댑터 서열(스페이서 서열을 포함함), 제1 프라이머링 서열, 및 제2 프라이머링 서열을 포함하는 단편화된 DNA는 제1 및/또는 제2 고정자 서열에 어닐링될 것이다. 제1 및/또는 제2 고정자 서열의 3'-OH는 이후에, 주형으로서, 어댑터 서열, 제1 프라이머링 서열, 및 제2 프라이머링 서열을 포함하는 단편화된 DNA를 사용하여 연장될 것이며, 어댑터 서열(제안된 스페이서 서열을 포함함), 제1 프라이머링 서열, 및 제2 프라이머링 서열을 포함하는 단편화된 DNA 내의 유전 정보는 이에 따라, 제1 또는 제2 고정자 서열로 옮겨지고, 이에 따라, 고체 상태 지지체에 결합될 것이다. 어댑터 서열(제안된 스페이서 서열을 포함함), 제1 프라이머링 서열, 및 제2 프라이머링 서열을 포함하는 단편화된 DNA는 이후에 변성되거나 탈어닐링되고 제거될 것이다. 결합된 단편화된 DNA는 이후에, 결합된 단편화된 DNA의 자유 말단에서 고정자 서열에 어닐링되고, 여러 사이클의 브릿지 증폭될 것이다.
이러한 시점에, 클러스터 생성 공정이 완료되었으며, 유세포는 자유 고정화 서열의 절단된 및 이에 따라 자유 고정자 서열에 대한 재어닐링에 의해 합성(120)에 의한 시퀀싱을 수행하는 방식으로 구성된다. 프라이밍 후, 각 뉴클레오타이드는 클러스터 생성 동안 고체 상태 지지체에 어닐링되는 주형 가닥을 기초로 한 DNA의 새로이 합성된 가닥에 도입될 수 있다. 새로이 합성된 가닥에 도입되는 각 뉴클레오타이드는 상이한 형광체와 관련되며, 각 형광단은 새로이 도입된 뉴클레오타이드가 연장 동안 이의 상보성 대응물(A 대 T, G 대 C)을 갖는 DNA 및/또는 염기쌍의 새로운 가닥에 통합될 수 있을 때 상이한 파장의 광을 방출시킬 수 있다.
엑소뉴클레아제 기반 나노포어(nanopore) 시퀀싱에서, 핵산은 소화될 수 있으며, 생성된 자유 뉴클레오타이드는 지지막을 가로질러 전기 전위에 대한 이의 효과에 의해 식별될 것이다. 단일 가닥 핵산 가닥은 또한, 전기 전위차에 의해 구동되거나 헬리카제 또는 폴리머라제와 같은 효소에 의해 보조되는 나노포어를 통과해야 할 수도 있다. 나노포어를 통한 핵산 가닥의 이동은 전기 전위의 변화를 생성시켜 핵산 서열을 식별할 수 있게 한다.
이후에, 인덱스 서열은 서열의 샘플을 식별하기 위해 사용될 수 있다. 리드 전처리(151) 및 리드 정렬(152) 후에, PCR 복제물은 DNA 단편화 후에 야기된 오삽입으로부터 실제 돌연변이체를 구별하기 위해 DNA 단편 내인성 정보 및/또는 맵핑 위치, DNA 단편 외인성 맵핑 위치 또는 이들의 조합을 이용하여 식별될 수 있다.
일부 구현예에서, 주형 가닥으로부터 DNA의 새로운 가닥의 중합 또는 연장 동안, DNA 폴리머라제는 때때로, DNA의 다른 가닥에서 이의 반대편 뉴클레오타이드를 갖는 염기쌍이 아닌 염기를 부정확하게 정위시킬 것이며, 이는 미스매치 또는 오삽입으로서 지칭된다. 이와 관련하여, DNA의 새로이 합성된 가닥은 하나 또는 여러 미스매치가 발생할 수 있더라도, 주형 가닥에 대해 상보적인 것으로 간주될 수 있다. 구현예에서, DNA 폴리머라제에 의한 이러한 미스매칭 오류가 DNA의 딸 가닥에서 발생할 수 있으며, 이러한 딸 가닥과 동일한 PCR 복제물에 속하는 모든 카피의 추적이 세포로부터 추출된 게놈 DNA에서 발견되는 유전적 다형성(예를 들어, 돌연변이)으로부터의 이러한 미스매치를 구별할 수 있다는 것이 고려된다.
리드 전처리(Read pre-processing)
증폭(110) 후에, 각 DNA-어댑터 산물은 복수의 PCR 복제물에서 복제된다. 이에 따라, 도 6에 예시된 바와 같이, 동일한 DNA-어댑터 산물, 즉, 동일한 DNA 단편으로부터 생성된 2개의 PCR 복제물(601,602)은 동일한 시작 및 종료 좌표를 가지고, 이의 말단 상에 동일한 스페이서 서열을 지니며, 이는 시퀀싱(120) 후 얻어진 미가공 시퀀싱 리드에서 발견될 것이다. 이에 따라, 이의 스페이서 서열의 개개 길이(도 6의 예에서 숫자 코드={9,7})를 측정함으로써 다운스트림 게놈 분석 워크플로우에서 이를 함께 그룹화하는 것이 가능하다.
낮은 빈도 DNA 분석의 분야의 당업자에 의해 인식되는 바와 같이, 다른 DNA-어댑터 산물로부터, 즉, 상이한 DNA 단편으로부터 생성된 PCR 복제물은 동일한 스페이서 서열 길이를 지닐 가능성이 낮으며, 단, 1) 상이한 가능한 어댑터 조합의 수는 정렬(152) 후에 동일한 시작 및 종료 위치를 갖는 리드와 구별하기 위해 충돌 가능성이 있는 DNA 단편의 수에 비해 충분히 크며, 2) 스페이서 서열에서 뉴클레오타이드의 가능한 삽입 또는 결실을 포함하는, PCR 증폭 및 시퀀싱 오류는 절단된 스페이서 하위서열이 리드에서 검색되는 것을 기초로 불변 서열 S의 사용으로 인해 검출될 수 있다.
도 2에 예시된 바와 같이, 쌍-말단 시퀀싱 기술의 경우에, 시퀀싱 후에, 2개의 상이한 리드 방향 READ1 및 READ2는 각각 FASTQ 화일에서 공통 종결 서열 TS를 갖지만 상이한 스페이서 서열을 생성할 수 있지만, 이러한 스페이서 서열은 각 DNA-어댑터 산물에 대해 상이한 길이를 가져서, 이를 다른 것과 통계적으로 구별할 수 있게 할 수 있다. 이에 따라, 정렬(152) 단계에서, 분석하는 DNA 단편 서열(220)의 시작 및 종료 위치는 상이한 DNA-어댑터 산물로부터 생성된 대부분의 리드 간에 이격되게 이동되고, 이에 따라, 추가의 내인성 다양성을 생성시킬 것이다.
예를 들어, 도 4를 참조하여, 제1 DNA 단편(421)에 대하여, 제1 스페이서 서열(411)은 3'에서 5' 방향으로 PCR 복제물 리드에 대한 미가공 시퀀싱 리드에서 제1의 3개의 뉴클레오타이드를 구성할 것이며, 제2 스페이서 서열(461)은 역 5'에서 3' 방향으로 동일한 PCR 복제물에 대한 미가공 시퀀싱 리드에서 제1의 10개의 뉴클레오타이드를 구성할 것이다. 제2 DNA 단편(422)에 대하여, 제3 스페이서 서열(412)은 3'에서 5' 방향으로 PCR 복제물에 대한 미가공 시퀀싱 리드에서 제1의 5개의 뉴클레오타이드를 구성할 것이며, 제2 스페이서 서열(462)은 역 5'에서 3' 방향으로 동일한 PCR 복제물에 대한 미가공 시퀀싱 리드에서 제1의 5개의 뉴클레오타이드를 구성할 것이다. 제3 DNA 단편(423)에 대하여, 제3 스페이서 서열(413)은 3'에서 5' 방향으로 PCR 복제물에 대한 미가공 시퀀싱 리드에서 제1의 7개의 뉴클레오타이드를 구성할 것이며, 제2 스페이서 서열(463)은 역 5'에서 3' 방향으로 동일한 PCR 복제물에 대한 미가공 시퀀싱 리드에서 제1의 4개의 뉴클레오타이드를 구성할 것이다. 이에 따라, 각 DNA 단편에 숫자 코드를 고유하게 결합시키는 것이 가능하다: 제1 DNA 단편(421)의 제1 말단 및 제2 말단 각각에 대한 스페이서 서열 길이 값의 조합 {L 1 ,L 2 }={3,10}; 제2 DNA 단편(422)의 제1 말단 및 제2 말단 각각에 대한 스페이서 서열 길이 값의 조합 {L 3 ,L 4 }={5,5}; 제3 DNA 단편(423)의 제1 말단 및 제2 말단 각각에 대한 스페이서 서열 길이 값의 조합 {L 5 ,L 6 }={7,4} 등. 이에 따라, 도 4에 예시된 바와 같이, 제안된 방법으로 생성된 DNA-어댑터 산물로부터 생성된 PCR 복제물로부터 시퀀싱된 미가공 시퀀싱 리드에서 뉴클레오타이드의 이의 시작 서열로부터 검색될 수 있기 때문에, 스페이서 서열의 가변 길이를 기초로 하여 PCR 복제물 미가공 시퀀싱 리드를 그룹화하는 것이 가능하다.
도 7은 도 5a의 예시적인 서열에 따라 작제화된 DNA-어댑터 산물의 시퀀싱으로부터 발행될 수 있는 것과 같은 3개의 상이한 리드에 대한 시작 서열의 예를 제공한다. 각 스페이서 서열은 도 5a의 예에서와 같이 종결 서열 삼중항 TGT로 종료되며, 이에 따라, 게놈 데이터 분석기(150)가 리드 전처리 단계(151)의 일부로서 이러한 삼중항에 대해 검색하는 것이 가능하다.
제1 가능한 구현예(예시되지 않음)에서, 리드 전처리(151)는 L max 뉴클레오타이드를 먼저 트리밍하는 것으로 이루어지며, L max 는 하위 서열이 절단된 불변 서열 S의 길이 L S 및 연결된 불변 종결 하위서열 TS의 길이 L TS 의 합이다. FASTQ 화일에서 리드를 트리밍한 후에, 각 리드에 대한 서열의 잔부는 전처리된 FASTQ 화일에 저장될 수 있다.
시퀀싱 분야의 당업자에게 명백한 바와 같이, 가변 길이 어댑터의 사용으로 인해, 얻어진 전처리된 리드는 후속 정렬(152) 후 상이한 시작 및 종료 위치에서 서로에 대해 이동되며, 이는 사실상 상이한 DNA-어댑터 산물로부터 생성된 정렬 결과를 통계적으로 분리할 것이다. 그러나, 후자 "내인성" 길이 구별은 실제 적용 필요성에 따라, 분석되는 DNA 단편들 간을 구별하기에 통계적으로 충분하지 않을 수 있다. 또한, 이는 더 짧은 절단된 스페이서 하위서열을 지니는 리드에 대해서도 가장 긴 가능한 어댑터의 길이로의 트리밍으로 인해 단편의 시작에서 수개의 뉴클레오타이드를 손실하는 단점을 갖는다. 이에 따라, 대안적인 구현예에서, 종결 하위서열 TS는 각 리드 서열의 시작에서 검색될 수 있다. 발견된 직후에, 스페이서 서열 스트링의 길이는 예를 들어, 종결 하위서열(TS)의 시작과 리드의 시작 사이의 거리(상대적 스페이서 서열 SS 길이)로서 측정될 수 있다. 대안적으로, 이는 리드의 시작과 종결 하위서열 TS의 말단 사이의 거리(절대 스페이서 서열 SS 길이)로서 측정될 수 있다. 이에 따라, 각 리드는 리드 전처리(151) 단계의 일부로서 상이한 스페이서 서열 길이 측정으로 지정될 수 있다. 도 7의 예에서, 제1 리드는 초기에 절대 길이 L 1 =12의 스페이서 서열 SS 1 =CCACAACACTGT를 지니며; 제2 리드는 초기에 절대 길이 L 2 =10의 스페이서 서열 SS 2 =ACAACACTGT를 지니며; 제3 리드는 초기에 절대 길이 L 3 =4의 스페이서 서열 SS 3 =CTGT를 지닌다. 이에 따라, 측정된 길이 값은 다운스트림 정렬 공정(152)에서 리드의 DNA-어댑터 산물 기원을 역 추적할 수 있는 추가 수치 정보를 제공하기 위해 전처리된 FASTQ 화일에서 기록될 수 있다. 이에 따라, 적용의 실제 필요에 따라, 정렬에 투입되는 리드 서열 잔부는 정렬 공정에 (단편 서열 자체의 시작부에서 수개의 뉴클레오타이드를 손실시키면서) 추가 "내인성" 길이 구별을 제공하기 위해, 가장 긴 가능한 스페이서 서열의 길이 L max 로 일반적으로 트리밍될 수 있거나, 대안적으로, 이는 전처리(151)에 의해 (종결 서열 TS의 말단까지) 각 시퀀싱 리드 R n 에 대해 측정된 실제 스페이서 서열 SS 길이로 개별적으로 트리밍될 수 있다.
리드 맵핑 및 정렬
이후에, 얻어진 전처리된 리드는 기준 게놈에 정렬될 수 있다(152). 이후에, 데이터 레코드에서 입수 가능한 하기 특징들 중 하나 이상을 기초로 하여 데이터 리코드(통상적으로, BAM 또는 SAM 화일 포맷으로서 저장됨)에서 상이한 본래 DNA 단편의 PCR 복제물으로부터 생성된 리드의 세트를 구별하는 것이 가능하다:
1) 리드에서 측정된 어댑터 스페이서 서열 길이를 조합함으로써 얻어진 숫자 코드;
2) 기준 게놈에 대한, DNA 단편의 맵핑 위치(즉, 시작-종료).
쌍-말단 시퀀싱의 경우에, 본래 플러스 또는 마이너스 가닥으로부터 생성된 쌍-말단 리드를 구별할 수 있는 쌍-말단 리드 방향 정보(즉, F1R2 또는 F2R1)가 사용될 수 있다. 쌍-말단 리드의 각 커플(즉, R1 및 R2)에 대하여, BAM 포맷 화일과 같은 리드 정렬 화일에서 태그로서 저장되는 숫자 코드(한 쌍의 정수로 이루어짐)를 형성하기 위해 이의 가능한 상이한 어댑터 길이를 복구하고, 이러한 숫자를 사용하는 것이 가능하다. 제1 단계에서, (기준 게놈 서열 리딩 방향에 대해) 동일한 시작 및 종료 위치에 대해 정렬되고 측정된 어댑터 길이(L1,L2) 또는 (L2,L1)의 동일한 쌍을 갖는 쌍-말단 리드는 동일한 본래 이중 가닥 DNA 단편의 2개의 가닥으로부터 발행될 수 있는 시퀀싱 리드로서 그룹화될 수 있다. 이후에, 각 그룹은 이의 기원의 가닥에 따라 2개의 하위-그룹에서 추가로 세분화될 수 있으며, 여기서, 측정된 어댑터 길이(L1,L2)의 실제 쌍은 F1R2 방향을 갖는 쌍-말단 리드의 경우에 {L n(정방향) , L m(역방향) }으로, 및 F2R1 방향을 갖는 쌍-말단 리드의 경우에 {L n(역방향) , L m(정방향) }으로 제공된다.
얻어진 정보는 BAM 또는 SAM 포맷 화일과 같은 미가공 단편-태그화된 리드 정렬 화일에서 기록될 수 있다. 이러한 화일을 이용하여, 정렬로부터 동일한 단편 결찰로부터 생성된 쌍-말단 리드의 그룹을 클러스터링하는 것이 가능하며, 이에 따라, 다운스트림 게놈 분석 단계, 예를 들어, 변이 콜링(153)이 본래 DNA 단편의 2개의 가닥으로부터 생성된 PCR 복제물에 의해 제공된 정보를 활용함으로써 수행될 수 있다.
변이 콜링
얻어진 정렬된 리드는 이후에, SNV, 인델(indel) 또는 구조 변이체(카피수 변이, 복제, 전위…)와 같은 기준 게놈에 대한 변이를 식별하기 위해 분석될 수 있다(153). 도 8에 예시된 바와 같이, 그리고 예를 들어, 문헌[A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data", Computational and Structural Biotechnology Journal 16, pp.15-24, Feb 2018]에서 검토된 바와 같이, 상이한 방법이 게놈 데이터 분석기(150)에 의해 적용될 수 있다. 도 8a는 공통 시퀀싱 방법을 예시한 것인데, 여기서, 단일 폴리뉴클레오타이드 서열은 서열 리드 공유의 각 그룹에서 붕괴되며, 정렬된 BAM 화일에서, 동일한 정렬 위치 및 숫자 코드는 제안된 방법에 따라 태그화된다. 도 8a의 원형으로 나타낸 바와 같이, 특정 위치에서 그룹 구성원이 불일치하는 경우에, 각 리드 그룹(부모 단편에 해당하는 리드의 패밀리)에 대한 단일의 공통 정렬된 서열 리드로서 공통 BAM 화일(리드 붕괴된 BAM 화일로서 공지됨)에 저장되는 공통 서열을 생성하기 위해 다양한 규칙이 사용될 수 있다. 그룹 내에서 가장 자주 발견되는 염기는 공통(단순 다수결 규칙)으로서 유지될 수 있다. 품질 점수는 또한, 공통(가중 스코어링)을 개선하기 위해 사용될 수 있다. 얻어진 공통 서열은 이후에, 임의의 통상적인 미가공-리드-기반 변이 콜러에 의해 처리될 수 있다. 보다 일반적으로, NGS 생물 정보학 워크플로우 분야의 당업자에게 명백한 바와 같이, 변이 콜링(153) 이전에 정렬된 리드를 단일 폴리뉴클레오타이드로 붕괴시키기 위한 중간 단계로서 적합한 임의의 공통 시퀀싱 방법은 MAGERI 생물 정보학 워크플로우와 함께 Xu에 의해 검토된 공공 영역 종래 기술 방법("MAGERI: Computational pipeline for molecular-barcoded targeted resequencing", Shugay et al., PLoS Comput. Biol. 2017 May; 13(5)), 또는 예를 들어, Illumina 리드 붕괴 단계와 함께 다양한 상업적 게놈 데이터 분석 워크프로우(https://support.illumina.com/help/BaseSpace_App_UMI_Error_Correction_OLH_1000000035906/Content/Source/Informatics/Apps/Read_Collapsing_appUMI.htm)에서와 같이 UMI 태그의 처리와 유사한, 제안된 숫자 코드 태그와 조합하여 사용될 수 있다.
그러나, 상기 통상적인 공통 시퀀싱 방법은 여러 제한을 갖는데, 신호 처리 또는 기계 학습 알고리즘으로부터 유도된 데이터-기반 방법과 같은 고급 통계 모델링을 기초로 한 더욱 고급의 게놈 데이터 분석 워크플로우를 사용함으로써 극복될 수 있다. 도 8b는 공통 시퀀싱 방법에 대한 대안적인 구현예로서 확률적 시퀀싱을 예시한 것이다. 확률적 시퀀싱에서, 정렬과 변이 콜링 사이의 중간 단계에서 공통 BAM 화일을 생성시키는 대신에, 게놈 데이터 분석기(150)는 통계적 변이 콜러에 입력으로서 정렬된 리드의 미가공 그룹을 공급하기 위해 미가공 단편-태그화된 정렬 화일을 직접적으로 사용할 수 있다.
경험 규칙(예를 들어, 다수결 투표)으로 얻어진 공통 서열에 따르는 것 대신에, 이러한 부류의 변이 콜러는 기기 인공물이 동일한 또는 상이한 패밀리(또는 그룹)에 속하는 리드에 어떻게 영향을 미치는 지를 기술하는 통계 모델에 의존한다. 통계 모델은 예를 들어, 하기 지식을 통합할 수 있다:
돌연변이된 DNA 분자의 존재 하에서, 변이체는 돌연변이된 분자의 2개의 가닥으로부터 생성된 모든 리드에 의해 지지됨;
시퀀싱 오류는 자주 발생할 수 있지만, 동일한 패밀리에 속하거나 속하지 않는 리드에 걸쳐 독립적으로 발생할 수 있음;
PCR-오류는 빈도가 적지만, 동일한 패밀리에서 다수의 리드에 영향을 미칠 수 있고, 동일한 DNA 분자의 플러스 및 마이너스 가닥 둘 모두 상에서 거의 발생하지 않음.
이러한 확률적 프레임워크 내에서 전체 리드를 분석하는 것은 예를 들어, 고려되는 변이 대립유전자 빈도의 사후 확률을 계산하는 것이다. 이후에, 이러한 사후 확률은 예를 들어, 변이 콜(예를 들어, 확률 p > 임계값을 갖는 변이 대립유전자 빈도의 확률 > 0인 경우)을 생성하고 이의 신뢰도 수준(즉, 신호가 기기 노이즈보다 실제 변이체에 의해 생성된 확률)을 정량화하기 위해 사용될 수 있다.
이러한 통계적 변이 콜러의 최근에 개시된 하나의 예는 백그라운드 오류율에 대한 베타 분포 및 비-참조 UMI 이상값의 수에 대한 베타-바이모달 분포를 기초로 한 오류 모델에 따라 변이 확률을 계산하기 위해 정렬된 리드를 입력으로서 취하는 SmCounter2 공개 도메인 독립 통계적 변이 콜러이다["smCounter2: an accurate low-frequency variant caller for targeted sequencing data with unique molecular identifiers", Xu et al., Bioinformatics, Vol,.35(8), April 2019]. smCounter2는 입력으로서 미가공 UMI-태그화된 BAM 화일 및 공통화된 BAM 화일 둘 모두를 수용한다. 제안된 워크플로우에서, UMI 태그 대신에, UMI-태그화된 BAM 화일은 유사하게, 본 발명의 제안된 방법의 숫자 코드 태그, 즉, 제안된 습윤 랩 방법에 따라 결찰된 단편의 각 말단 상에 결찰된 가변 어댑터의 측정된 길이에 해당하는 한 쌍의 수치 값을 포함할 수 있다. SmCounter2와 유사하게, 예를 들어, Sophia Genetics 데이터-기반 기계 소프트웨어(Sophia DDM)와 같은 데이터-기반 모델링을 기반으로 한 상업적 워크플로우로부터의 다양한 변이 콜러는 또한, 제안된 숫자 코드 태그화를 기초로 한 상이한 DNA 단편으로부터 발생된 정렬된 리드의 각 그룹에 대한 변이체를 개별적으로 콜링하도록 조정될 수 있다.
예시적인 실험
실험 1
제1 실험에서, 본 발명자는, 예를 들어, 도 5b에 예시된 바와 같은 가변 길이 스페이서 서열을 포함하는 모든 제안된 어댑터가 DNA-어댑터 산물의 라이브러리를 생성하기 위해 DNA 단편에 결찰될 수 있다는 것을 체크하였다. 도 9의 측정에 의해 예시된 바와 같이, 결찰 반응 동안 제안된 어댑터와 함께 반응 혼합물을 사용할 때, 모든 스페이서 서열 어댑터는 DNA 단편에 결찰될 수 있고, 최종 DNA 라이브러리에서 거의 동일하게 나타나 있다.
실험 2
제2 실험에서, 본 발명자는 제1 실험에서 생성된 DNA-어댑터 산물의 라이브러리가 Illumina NextSeq 시퀀서와 같은 NGS 플랫폼에서 시퀀싱되고 Sophia Genetics Data Driven Medicine(Sophia DDM) 생물 정보학 플랫폼과 같은 게놈 데이터 분석기(150)에 의해 디코딩될 수 있다. 각 스페이서 서열은 Sophia Genetics Data Driven Medicine 게놈 데이터 분석기(150)에 의해 시퀀서에 의한 미가공 FASTQ 화일로부터 디코딩될 수 있다. 얻어진 리드는 불변 종결 하위서열 TS로 말단화되는 절단된 스페이서 하위서열로 시작하는 예상된 서열을 나타낸다. 도 10은 가장 긴 길이 어댑터(염기 콜링 오류에 더욱 취약함)의 경우에도, 리드의 9% 초과가 생물 정보학 워크플로우에 의해 예상된 스페이서 서열에 할당될 수 있음을 나타낸 것이다. 평균적으로, 리드의 대략 95%에 대하 스페이서 서열을 적절하게 식별하는 것(및 이에 따라, 숫자 코드 태그를 형성하기 위해 이의 가변 길이를 측정하는 것)이 가능하다.
실험 3
제3 실험에서, 제2 실험에서 시퀀싱된 바와 같은 미가공 리드를 사용하여, 본 발명자는 NGS 데이터 뷰어로, 단편의 양 말단 상의 측정된 가변 어댑터 스페이서 서열 길이로 제조된, 제안된 방법 숫자 코드의 추가 단편 태그화 정보뿐만 아니라 정렬에서 이의 시작 및 종료 위치를 기초로 한 특정 게놈 위치에 대해 얻어진 리드를 그룹화하는 데 더욱 적합한 동일한 게놈 분석 생물 정보학 워크플로우(도 11b)와, 정렬에서 이의 시작 및 종료 위치를 기초로 한 특정 게놈 위치에 대해서만 얻어진 리드를 그룹화하는, 숫자 코드 태그화를 무시한, 게놈 분석 생물 정보학 워크플로우(Sophia Genetics DDM v5)(도 11a)에 대한 이의 정렬 결과를 비교하였다.
도 11a 및 도 11b에 나타낸 바와 같이, NGS 데이터 뷰어는 이종 SNP의 게놈 위치(1100)를 강조한다. 본래 단편을 구별하지 않는 PCR 복제물의 그룹에서, 이론적으로, 모든 리드는 SNP를 나타내야하거나(그리고 다운스트림 변이 콜러(153)는 변이 분획=1을 측정해야 함), 이를 나타내지 않아야 한다(그리고 다운스트림 변이 콜러(153)는 변이 분획=0을 측정해야 함). 그러나, 본 발명의 실제 실험에서, 도 11a에서 알 수 있는 바와 같이, 단지 이의 시작 및 종료 정보에 의한 리드의 그룹화는 SNP의 실제 변이 분획이 0 또는 1과 상이하기 때문에 PCR 복제물 그룹을 정확하게 식별할 수 없다. 이는 이러한 그룹이 적어도 2개의 본래 DNA 단편으로부터 유래된 DNA 단편을 함유함을 나타낸다. 이러한 본래 DNA 단편은 SNP의 위치에서 상이하였지만, 이러한 것이 동일한 시작 및 종료 위치를 공유하였기 때문에 함께 그룹화되었다. 반대로, 도 11b에 나타낸 바와 같이, 제안된 숫자 코드를 태그로서 첨가하면 BAM 화일에서 이의 숫자 코드에 따라 동일한 부모 단편에서 비롯한 하위세트로 동일한 시작 및 종료 위치를 갖는 PCR 복제물의 리드 그룹을 추가로 세분화 및 클러스터링시킴으로써 이러한 충돌을 해결할 수 있다. 이후에, 이러한 하위그룹에서, SNP의 변이 분획은 다운스트림 변이 콜러(153)에 의해 예상되는 바와 같이 0 또는 1로서 측정될 수 있으며, 이에 따라, 말단의 시작 및 종료 위치와 조합한 제안된 숫자 PCR 복제물이 코드가 분자와 충돌함을 구별할 수 있음을 입증한 것이다.
실험 4
자극(motivation) - 당업자에게 명백한 바와 같이, 낮은 변이 대립유전자 분획(VAF)에서 콜링 변이체는 시퀀싱 오류 및 라이브러리 제조 인공물에 의해 제한된다. NGS 검정의 분석 성능을 개선시키는 전략은 콜링 변이체에 대한 PCR 복제물에 의해 제공된 정보를 활용하는 것이다. 종래 기술 솔루션은 예를 들어, PCR 복제물을 식별하기 위한 맵핑 위치에 의해 PCR 복제물 그룹을 정확하게 식별하려고 시도한다. 그러나, 전단 포인트(및 이에 따라 맵핑 위치)의 다양성은 모든 본래 DNA 분자를 구별하기에 충분하지 않을 수 있다. 이에 따라, 외인성 분자 바코드는 PCR 복제물 그룹의 식별에 대한 추가 정보를 제공하기 위해 도입되었다. 그러나, 오늘날 최고의 산업적 방법에서, 이러한 외인성 바코드를 생성하는 것이 존재하지 않으며, 다수의 종래 기술 솔루션은 고가의 라이브러리 생성 솔루션의 사용을 필요로 하며, 이들 중 대부분은 주로 가장 최근의 확률적 변이 콜링 솔루션의 이점 없이, 공통 시퀀싱 워크플로우에서 사용하기 위해 설계된다. 반대로, 제안된 가변 길이 DNA-어댑터 작제물은 낮은 빈도의 변이 검출의 감도 및 특이성을 추가로 개선시키기 위해 단편의 외인성 식별 및 이의 효율적인 확률적 게놈 분석 둘 모두를 공동으로 촉진하는 것을 목표로 한다. 이는 하기에 상세하 기술되는 바와 같이 전용 실험에 의해 입증된다.
샘플 제조 - 하기 변이 대립유전자 빈도에서 일련의 단일 뉴클레오타이드 변이체(SNV)를 갖는 3개의 샘플을 생성하기 위해 6개의 세포주의 뉴클레오솜 DNA를 상이한 비율의 일곱 번째 세포주의 뉴클레오솜 DNA에서 스파이킹하였다: 0.5 내지 4%, 0.25 내지 2% 및 0.1 내지 0.8%.
타겟화된 라이브러리 제조 - 전체-게놈 라이브러리를 최소 변형된 제조업체의 설명서에 따라 SOPHiA GENETICS 라이브러리 제조 키트를 이용하여 25 ng의 각 DNA 믹스로부터의 복제물에서 제조하였다. 간단하게, 말단-수리 및 A-테일링 후, 각 샘플의 DNA 단편을 표준, 비-바코딩된, 어댑터에, 또는 도 5b에 예시된 가변 길이 스페이서 서열을 포함하는 한 세트의 가변 길이 어댑터(LTS=3, LS=9, 개개 길이 3 내지 12개의 뉴클레오타이드의 10개의 상이한 DNA 어댑터를 생성하기 위함)에 결찰하였다. 이후에, 라이브러리를 인덱싱된, Illumina-호환성 프라이머를 사용하여 증폭하였다. 전체-게놈 라이브러리를 SOPHiA GENETICS 캡쳐 프로토콜 및 DNA 믹스에 존재하는 SNV의 23개를 포함하는 SOPHiA GENETICS 카탈로그 패널(풋프린트: 56 Kb)을 이용하여 캡쳐하였다.
데이터 분석 - 가변 길이 어댑터 작제 실험으로부터의 라이브러리를 먼저 전처리하였다. 정방향 및 역방향 리드의 시작 부분에서 불변 하위서열이 위치를 결정하였다. 이후에, 각 DNA 단편의 양 측면 상에 존재하는 어댑터의 길이를 사용하여, 가변 길이 어댑터 서열을 트리밍하기 전에 리드 헤더에 첨가된 조합 코드를 생성하였다. 이후에, 모든 라이브러리의 리드를 BWA-MEM 정렬자를 사용하여 게놈에 할당하였다. PCR 복제물의 그룹을 단편 맵핑 위치 및 상술된 조합 코드를 이용하여 식별하였다. 변이 콜링을 확률적 시퀀싱 또는 이중 공통 시퀀싱에 의해 수행하였다. 확률적 시퀀싱을 위해, SNV를 지닌 분자로부터 생성된 PCR 복제물의 그룹의 사후 확률을 계산하고, 사용하여 각 식별된 PCR 복제물 그룹에 품질 스코어를 할당하였다.
결과
도 12는 제안된 가변 길이 어댑터가 인공 뉴클레오솜 DNA에서 변이체 비율의 검출을 용이하게 함을 도시한 것이다. 도 12a는 종래 기술 표준 어댑터가 사용될 때 3개의 별개의 VAF 범위(샘플 1: 0.5 내지 4%; 샘플 2: 0.25 내지 2%; 및 샘플 3: 0.1 내지 0.8%)에서 23개의 SNV를 보유하고 복제물에서 분석된 3개의 샘플(25 ng DNA 입력)에 대한 변이 콜링 결과를 도시한 것이다. 도 12b는 제안된 가변 길이 어댑터가 사용될 때 얻어진 변이 콜링 결과를 도시한 것이다. 이러한 실험에서 시험된 144개의 SNV 중에서, 단지 107개는 표준 어댑터를 사용할 때 검출되었다. SLA 라이브러리를 사용하여, 123개의 변이체가 콜링되어 감도가 개선된다. 도 12c는 또한 0.1 내지 0.8% 범위의 VAF를 갖는 변이체를 보유하고 종래 기술 표준 어댑터를 사용하여 처리된 샘플에서 확률적 시퀀싱(어두운 회색) 또는 이중 공통 시퀀싱(밝은 회색)을 각각 사용할 때 참양성률(TR) 대 위양성률(FP)의 측면에서 변이 콜링의 성능을 나타내는 ROC 곡선을 비교한 것이다. 도 12d는 또한 0.1 내지 0.8% 범위의 VAF를 갖는 변이체를 보유하고 제안된 가변 길이 어댑터를 사용하여 처리된 샘플에서 확률적 시퀀싱(어두운 회색) 또는 이중 공통 시퀀싱(밝은 회색)을 각각 사용할 때 참양성률(TR) 대 위양성률(FP)의 측면에서 변이 콜링의 성능을 나타내는 ROC 곡선을 비교한 것이다.
제안된 방법의 장점
이에 따라, 제안된 방법은 다양한 다운스트림 NGS 워크플로우를 위해 적합한 DNA-어댑터 산물의 라이브러리를 생성하기 위해 몇몇 사전 규정된 가변 길이 어댑터의 결찰만을 필요로 하면서, 적은 양의 입력 DNA에서도 변이체의 NGS 생물 정보학 식별을 용이하게 한다.
고처리량 시퀀싱 데이터 처리 분야의 당업자에게 명백한 바와 같이, 게놈 분석 워크플로우에서, 리드 전처리 동안 어댑터 서열의 트리밍은 정확해야 하는데, 왜냐하면, 과-트리밍이 시퀀싱 커버리지의 손실을 야기시킬 것이고, 불충분한 트리밍(under-trimming)은 시퀀싱 인공물을 도입할 수 있기 때문이다. 불변 종결 하위서열 신호(TS)를 지니지 않은 종래 기술 가변 길이 어댑터는 바코드와 삽입 DNA 단편의 시작 부분 사이의 경계를 식별하지 못할 수 있다. 결과적으로, 이러한 것은 대개 어댑터 전체 길이 L max 에서 트리밍을 필요로 하고, 커버리지의 감소를 초래하였다.
또한, 일반적인 임상 실무 워크플로우에서 어댑터의 합성이 고가이기 때문에, 특정 적용에 대한 충돌을 해결하기 위해 필요한 만큼 사용하는 것이 바람직하다. 제한된 수의 바코드를 사용할 때, 그러한 것이 최종 라이브러리에서 균일하게 나타내는 것이 중요하며, 그렇지 않으면, 효과적인 바코드 조합 수가 감소되고, 더 이상 충분하지 않을 수 있다. 각 바코드의 극단에 불변 종결 하위서열 TS를 가져서 결찰 서열-특이적 편향을 방지하고, 이에 따라, 더욱 균일한 바코드 사용을 가질 수 있다.
또한, 예를 들어, 실제 시퀀싱 기술에 따라, Illumina 시퀀서를 이용하여, 제1 시퀀싱 사이클에서 염기 불균형을 갖는 경우에는 시퀀싱 품질을 감소시킬 수 있다. 이는 제한된 수의 랜덤 바코드를 사용할 때 문제가 될 수 있다. 각 시퀀싱 사이클에서 균형 염기 조성을 갖는 것과 같이 설계될 수 있는 가변 길이의 사전결정된 스페이서 서열 세트를 사용으로 높은 시퀀싱 품질을 유지할 수 있다.

Claims (17)

  1. 증폭 및 시퀀싱 후 고처리량 시퀀싱 데이터 게놈 데이터 분석 워크플로우에서 단편의 식별을 용이하게 하기 위해 적어도 2개의 DNA 단편으로부터 DNA-어댑터 산물의 라이브러리를 생성하는 방법으로서, 상기 방법은
    (I) DNA-어댑터의 풀(pool)을 생성하는 단계, 상기 어댑터는 적어도 3 및 최대 Lmax 뉴클레오타이드의 전체 길이에 의해 서로 상이하며, 각 어댑터는 길이 LTS의 불변 종결 하위서열 TS를 포함하며, LTS는 가변 스페이서 하위서열과 연접된 3개 이상의 뉴클레오타이드이며, 상기 가변 스페이서 하위서열은 소정 길이의 LS 뉴클레오타이드의 공통 불변, 사전 규정된 뉴클레오타이드 서열(S)로부터 절단되며, LS는 5 이상 내지 20개 이상의 뉴클레오타이드인 단계;
    (II) 반응 혼합물에서, 제1 이중 가닥 DNA 단편의 각 말단에 DNA-어댑터의 풀로부터의 제1 및 제2 어댑터를 결찰시켜 제1 DNA-어댑터 산물을 생성하는 단계로서, 각 어댑터는 복수의 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드를 포함하며, 각 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드는 어댑터의 이중 가닥 말단 상에 스페이서 서열을 포함하며, 이에 따라, 상기 제1 DNA-어댑터 산물은 개개 길이(L 1 , L 2 )의 상기 제1 및 상기 제2 DNA-어댑터 스페이서 서열(SS1, SS2)에 의해 형성된 숫자 코드에 의해 특징될 수 있는 단계;
    (III) 상기 동일한 반응 혼합물에서, 제2 이중 가닥 DNA 단편의 각 말단에 DNA-어댑터의 풀로부터의 제3 및 제4 어댑터를 결찰시켜 제2 DNA-어댑터 산물을 생성하는 단계로서, 각 어댑터는 복수의 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드를 포함하며, 각 이중 가닥 또는 부분 이중 가닥 폴리뉴클레오타이드는 상기 어댑터의 이중 가닥 말단 상에 스페이서 서열을 포함하며, 이에 따라, 상기 제1 DNA-어댑터 산물은 개개 길이(L 3 , L 4 )의 상기 제1 및 상기 제2 DNA-어댑터 스페이서 서열(SS3, SS4)에 의해 형성된 숫자 코드에 의해 특징될 수 있는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 불변 종결 하위서열 TS가 적어도 2의 편집 거리에 의해, 불변, 사전 규정된 뉴클레오타이드 서열 S와 상이한 방법.
  3. 제1항 또는 제2항에 있어서, 상기 스페이서 하위서열이 상기 불변 뉴클레오타이드 서열(S)로부터의 시작에서 좌측에서 우측으로 절단되는 방법.
  4. 제1항 또는 제2항에 있어서, 상기 스페이서 하위서열이 상기 불변 뉴클레오타이드 서열(S)로부터의 말단에서 우측에서 좌측으로 절단되는 방법.
  5. 제1항 또는 제4항 중 어느 한 항에 있어서, 상기 불변 종결 하위서열 TS가 상기 DNA 단편에 대한 결찰을 용이하기 위해 T 오버행으로 종료되는 삼중항 뉴클레오타이드인 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 불변 종결 하위서열 TS가 상기 DNA 단편에 대한 결찰을 용이하게 하기 위해 T 오버행으로 종료되는 사중항 뉴클레오타이드인 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    (III) 고처리량 시퀀싱에 적합한 PCR 복제물을 생성하기 위해 상기 DNA-어댑터 산물을 증폭시키고;
    (IV) 미가공 시퀀싱 리드를 생성하기 위해 고처리량 시퀀서로 상기 PCR 복제물을 시퀀싱하는 것을 추가로 포함하는 방법.
  8. 제7항에 있어서,
    (V) 각 시퀀싱 리드 R n 에 대하여,
    a. 상기 리드의 시작으로부터 L max 뉴클레오타이드를 트리밍하여 트리밍된 시퀀싱 리드를 생성하고;
    b. 상기 트리밍된 시퀀싱 리드를 전처리된 시퀀싱 리드 화일에서 기록하고;
    (VI) 각 트리밍된 리드를 시작 위치 및 종료 위치에 맵핑하기 위해, 기준 게놈에 대해 상기 전처리된 시퀀싱 리드 화일로부터의 트리밍된 시퀀싱 리드를 정렬하는 것을 추가로 포함하는 방법.
  9. 제7항에 있어서,
    (V) 각 시퀀싱 리드 R n 에 대하여,
    c. 상기 시퀀싱 리드의 제1 L max 뉴클레오타이드에서 상기 불변 종결 하위서열 TS에 대해 검색하고, 상기 시퀀싱 리드 R n 의 시작으로부터 상기 불변 종결 하위서열 TS의 시작을 분리하는 뉴클레오타이드의 수에 따라 스페이서 서열 SSRn의 길이 L n 을 측정하고;
    d. 상기 리드의 시작으로부터 적어도 L n 뉴클레오타이드를 트리밍하여 트리밍된 시퀀싱 리드를 생성하고;
    e. 상기 측정된 길이 L n 및 상기 트리밍된 시퀀싱 리드를 전처리된 시퀀싱 리드 화일을 기록하고;
    (VI) 각 트리밍된 리드를 시작 위치 및 종료 위치에 맵핑하기 위해, 기준 게놈에 대해 상기 전처리된 시퀀싱 리드 화일로부터의 트리밍된 시퀀싱 리드를 정렬하는 것을 추가로 포함하는 방법.
  10. 제9항에 있어서, 각 시퀀싱 리드 R n 에 대하여, L max 와 동일한 뉴클레오타이드의 수가 리드의 시작으로부터 트리밍되는 방법.
  11. 제9항에 있어서, 각 시퀀싱 리드 R n 에 대하여, 이의 스페이서 서열의 측정된 길이에 해당하는 L n 뉴클레오타이드의 수가 리드의 시작으로부터 트리밍되는 방법.
  12. 제9항 내지 제11항 중 어느 한 항에 있어서, 시퀀싱이 쌍-말단 리드를 생성하며,
    동일한 본래 이중 가닥 DNA 단편의 2개의 가닥으로부터 생성된 시퀀싱 리드로서, 기준 게놈 서열 리딩 방향에 대해 동일한 시작 및 종료 위치에 정렬되고 측정된 스페이서 서열 길이(L1,L2)의 동일한 숫자 코드 쌍을 갖는 쌍-말단 리드를 그룹화하고; 이의 기원의 가닥에 따라 2개의 하위 그룹에서 이러한 쌍-말단 리드를 추가로 세분화하는 것을 추가로 포함하며, 여기서, 측정된 서열 길이(L1, L2)의 숫자 코드 쌍은 F1R2 방향을 갖는 쌍-말단 리드의 경우에 {Ln(정방향) , Lm(역방향)} 및 F2R1 방향을 갖는 쌍-말단 리드의 경우에 {Ln(역방향), Lm(정방향)}에 의해 제공되는 방법.
  13. 제12항에 있어서, 상기 동일한 시작, 종료 및 숫자 코드를 공유하는 리드의 각 그룹을 이의 부모 단편에 대한 공통 서열에 붕괴시키고, 변이 콜링 방법으로, 이러한 부모 단편에 대한 변이를 붕괴된 공통 서열로 식별하는 것을 추가로 포함하는 방법.
  14. 제12항에 있어서, 통계적 변이 콜링 방법으로, 동일한 시작, 종료 및 숫자 코드를 공유하는 리드의 각 그룹에 대해, 이의 부모 단편에 대한 변이의 확률을 식별하는 것을 추가로 포함하는 방법.
  15. 샘플 풀로부터의 적어도 2개의 환자 샘플에서 게놈 변이를 식별하기 위한 다중화 고처리량 시퀀싱 게놈 분석 방법으로서, 제1항의 방법으로 DNA-어댑터 산물의 라이브러리를 생성하는 것으로 포함하며, 상기 DNA-어댑터 산물의 라이브러리는 샘플에 걸쳐 상이한, 다중화 고처리량 시퀀싱 게놈 분석 방법.
  16. 제15항에 있어서, 상기 DNA-어댑터 산물의 라이브러리가 종결 하위서열 TS에 의해 샘플에 걸쳐 상이한 방법.
  17. 제15항 또는 제16항에 있어서, 상기 DNA-어댑터 산물의 라이브러리가 가변 스페이서 하위서열에 대해 절단하기 위해 사용되는 사전 규정된 뉴클레오타이드 서열(S)에 의해 샘플에 걸쳐 상이한 방법.
KR1020227007802A 2019-09-20 2020-09-21 낮은 빈도 변이의 검출 및 리포팅을 용이하게 하기 위한 dna 라이브러리 생성 방법 KR20220064959A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19198542.3 2019-09-20
EP19198542.3A EP3795685A1 (en) 2019-09-20 2019-09-20 Methods for dna library generation to facilitate the detection and reporting of low frequency variants
PCT/EP2020/076246 WO2021053208A1 (en) 2019-09-20 2020-09-21 Methods for dna library generation to facilitate the detection and reporting of low frequency variants

Publications (1)

Publication Number Publication Date
KR20220064959A true KR20220064959A (ko) 2022-05-19

Family

ID=67998258

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227007802A KR20220064959A (ko) 2019-09-20 2020-09-21 낮은 빈도 변이의 검출 및 리포팅을 용이하게 하기 위한 dna 라이브러리 생성 방법

Country Status (8)

Country Link
US (1) US20220364080A1 (ko)
EP (2) EP3795685A1 (ko)
JP (1) JP2022548504A (ko)
KR (1) KR20220064959A (ko)
AU (1) AU2020349622A1 (ko)
BR (1) BR112022004821A2 (ko)
CA (1) CA3149056A1 (ko)
WO (1) WO2021053208A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437978A (zh) * 2023-12-12 2024-01-23 北京旌准医疗科技有限公司 一种二代测序数据的低频基因突变分析方法、装置及其应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10844428B2 (en) * 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
US11923049B2 (en) 2016-06-22 2024-03-05 Sophia Genetics S.A. Methods for processing next-generation sequencing genomic data
WO2018144159A1 (en) * 2017-01-31 2018-08-09 Counsyl, Inc. Capture probes using positive and negative strands for duplex sequencing
WO2019084245A1 (en) * 2017-10-27 2019-05-02 Myriad Women's Health, Inc. METHODS AND COMPOSITIONS FOR PREPARING NUCLEIC ACID LIBRARIES
WO2019204702A1 (en) * 2018-04-20 2019-10-24 Board Of Regents, The University Of Texas System Error-correcting dna barcodes
WO2020043803A1 (en) * 2018-08-28 2020-03-05 Sophia Genetics S.A. Methods for asymmetric dna library generation and optionally integrated duplex sequencing

Also Published As

Publication number Publication date
BR112022004821A2 (pt) 2022-08-23
JP2022548504A (ja) 2022-11-21
CA3149056A1 (en) 2021-03-25
EP3795685A1 (en) 2021-03-24
AU2020349622A1 (en) 2022-03-24
EP4031664A1 (en) 2022-07-27
WO2021053208A1 (en) 2021-03-25
US20220364080A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
Amarasinghe et al. Opportunities and challenges in long-read sequencing data analysis
Kumar et al. Next-generation sequencing and emerging technologies
US11676682B1 (en) Methods for accurate sequence data and modified base position determination
US20230242977A1 (en) Universal short adapters with variable length non-random unique molecular identifiers
EP3271480B1 (en) Screening for structural variants
JP5389638B2 (ja) 制限断片に基づく分子マーカーのハイスループットな検出
Orton et al. Distinguishing low frequency mutations from RT-PCR and sequence errors in viral deep sequencing data
Kuster et al. ngsComposer: an automated pipeline for empirically based NGS data quality filtering
CA2964169A1 (en) Random nucleotide mutation for nucleotide template counting and assembly
CN108359723B (zh) 一种降低深度测序错误的方法
Saeed et al. Biological sequence analysis
KR20220064959A (ko) 낮은 빈도 변이의 검출 및 리포팅을 용이하게 하기 위한 dna 라이브러리 생성 방법
CN111542616A (zh) 脱氨引起的序列错误的纠正
CN116312776B (zh) 一种检测差异化rna编辑位点的方法
US20240052339A1 (en) Rna probe for mutation profiling and use thereof
Feng et al. ResSeq: enhancing short-read sequencing alignment by rescuing error-containing reads
Bolognini Unraveling tandem repeat variation in personal genomes with long reads
Löber Development of Bioinformatic Tools for Retroviral Analysis from High Throughput Sequence Data
D'Costa et al. Somrit: The Somatic Retrotransposon Insertion Toolkit
Fan et al. Widespread germline genetic heterogeneity of human ribosomal RNA genes
Schirmer Algorithms for viral haplotype reconstruction and bacterial metagenomics: resolving fine-scale variation in next generation sequencing data
Khayal et al. TRANSCRIPTOMIC CHARACTERIZATION USING RNA-SEQ DATA ANALYSIS