KR20220164753A - 플로팅 바코드 - Google Patents

플로팅 바코드 Download PDF

Info

Publication number
KR20220164753A
KR20220164753A KR1020227038200A KR20227038200A KR20220164753A KR 20220164753 A KR20220164753 A KR 20220164753A KR 1020227038200 A KR1020227038200 A KR 1020227038200A KR 20227038200 A KR20227038200 A KR 20227038200A KR 20220164753 A KR20220164753 A KR 20220164753A
Authority
KR
South Korea
Prior art keywords
sample
molecular
index position
barcode
combination
Prior art date
Application number
KR1020227038200A
Other languages
English (en)
Inventor
존 에프. 톰슨
Original Assignee
퍼스널 게놈 다이아그노스틱스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퍼스널 게놈 다이아그노스틱스 인코포레이티드 filed Critical 퍼스널 게놈 다이아그노스틱스 인코포레이티드
Publication of KR20220164753A publication Critical patent/KR20220164753A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B20/00Methods specially adapted for identifying library members
    • C40B20/04Identifying library members by means of a tag, label, or other readable or detectable entity associated with the library members, e.g. decoding processes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/161Modifications characterised by incorporating target specific and non-target specific sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/185Modifications characterised by incorporating bases where the precise position of the bases in the nucleic acid string is important
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/119Double strand sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/514Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Electrochromic Elements, Electrophoresis, Or Variable Reflection Or Absorption Elements (AREA)
  • Luminescent Compositions (AREA)
  • Bidet-Like Cleaning Device And Other Flush Toilet Accessories (AREA)

Abstract

본원에는 미리 결정된 수의 인덱스 위치를 갖는 인덱스 바코드를 포함하는 핵산 분자를 라벨링 및 분석하기 위한 시스템 및 올리고뉴클레오티드 세트가 제공된다. 또한, 본원에는 핵산 분자를 라벨링 및 분석하는 방법 뿐만 아니라 본원에 기재된 샘플 및 분자 바코드를 사용하여 오류 서열 판독물을 확인하는 방법이 제공된다.

Description

플로팅 바코드
관련 출원에 대한 상호 참조
본 출원은 2020년 4월 7일에 출원된 미국 가출원 번호 63/006,556의 35 U.S.C. §119(e) 하에서의 우선권의 이익을 주장한다. 이전 출원의 개시내용은 본 출원의 일부로 간주되고 본 출원의 개시내용에 참조로 포함된다.
서열 목록의 통합
첨부된 서열 목록의 물질은 본 출원에 참조로 포함된다. PGDX3120-1WO_SL.txt로 명명된 첨부된 서열 목록 텍스트 파일은 2021년 3월 31일에 생성되었으며 11 kb이다. 파일은 윈도우 OS를 사용하는 컴퓨터에서 마이크로소프트 워드를 사용하여 접근 가능하다.
발명의 분야
본 발명은 일반적으로 핵산 서열, 보다 구체적으로 핵산 분자를 라벨링 및 분석하기 위한 바코드로 지칭되는 서열에 관한 것이다.
바코드는 소스를 확인하기 위해 시퀀싱되는 DNA 또는 RNA 분자와 같은 핵산에 태그를 지정하는데 종종 사용된다. 바코드는 샘플, 세포, 또는 DNA 또는 RNA 분자의 다른 기원을 표시하는데 사용될 수 있다. 바코드는 분자가 어디에서 왔는지 및 특정 분자가 증폭으로 인해 풀에서 여러 번 시퀀싱되었는지의 여부에 대한 정보를 제공할 수 있다. 종종, 샘플 및 분자 기원과 같은 다수의 정보가 필요하다. 소스가 복잡할수록 정확한 서열을 갖고 소스의 오할당을 피하는 확신을 가지면서 충분한 수의 바코드 및/또는 바코드 판독물 (read)을 생성하는 것이 더 어려워진다. 특히, 불충분한 수의 바코드 및 복잡한 바코드에서 서열 오류를 수정하는데 있어서의 어려움은, 예컨대 풀링된 샘플로부터의 핵산과 같은 핵산 분자의 게놈 분석을 제한한다. 따라서, 바코드 서열 불확실성으로 인한 서열 판독물의 부정확한 할당 및 손실을 최소화하기 위해 핵산의 멀티플렉스 게놈 분석 및 개선된 오류 수정을 가능하게 하는 핵산을 바코드화하는 새로운 시스템 및 방법에 대한 필요성이 존재한다.
본 발명은 미리 결정된 수의 인덱스 위치를 갖는 인덱스 "바코드"를 포함하는 핵산 분자를 라벨링 및 분석하기 위한 시스템 및 올리고뉴클레오티드의 세트에 관한 것이다. 핵산 분자를 라벨링 및 분석하는 방법도 제공된다.
한 실시양태에서, 본 발명은 복수의 바코드를 포함하는 올리고뉴클레오티드 세트를 포함하는, 샘플 중의 핵산 분자를 라벨링하기 위한 시스템으로서, 각각의 바코드는 (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치 (sample index position)를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션 (location)은 샘플 간에 다른 것인 샘플 바코드; 및 (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치 (molecular index position)를 포함하는 분자 바코드를 포함하는 인접한 염기의 스트레치를 포함하고, 여기서 샘플 인덱스 위치는 분자 인덱스 위치 사이에 산재되어 있는 것인 시스템을 제공한다. 한 측면에서, 미리 결정된 수의 샘플 바코드 위치는 본원에 제공된 핵산을 라벨링하기 위한 시스템에서 상이한 샘플 바코드마다 다를 수 있다. 일부 측면에서, 바코드는 약 10 내지 약 35개의 뉴클레오티드를 포함한다. 다른 측면에서, 바코드는 약 12 내지 약 25개의 뉴클레오티드를 포함한다. 또 다른 측면에서, 샘플 바코드는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개의 샘플 인덱스 위치, 또는 이들의 조합을 포함한다. 일부 측면에서, 샘플 바코드는 약 4개 내지 약 12개의 샘플 인덱스 위치를 포함한다. 다른 측면에서, 분자 바코드는 약 5 내지 약 25개의 분자 인덱스 위치를 포함한다. 다양한 측면에서, 분자 바코드는 약 5 내지 약 15개의 분자 인덱스 위치를 포함한다. 한 측면에서, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드는 하기로부터 선택된다: (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임; (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임; (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임; (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임; (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임; (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임; (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임; (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임; (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는 (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임. 일부 측면에서, 각각의 바코드는 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함한다. 다수의 측면에서, 하나 이상의 추가의 인덱스 바코드는 세포 바코드 (cellular barcode), 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드, 또는 세포 바코드 및 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드 둘 다이다. 다른 측면에서, 올리고뉴클레오티드 세트 내의 각각의 올리고뉴클레오티드는 혼성화를 위한 부위, 서열 프라이머 결합을 위한 부위, 증폭을 위한 부위, 또는 이들의 임의의 조합을 포함하는 비-바코드 위치를 추가로 포함한다.
또 다른 실시양태에서, 본 발명은 복수의 바코드를 포함하는, 샘플 중의 핵산 분자를 라벨링하기 위한 올리고뉴클레오티드 세트로서, 각각의 바코드는 (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및 (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드를 포함하고, 여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 올리고뉴클레오티드 세트를 제공한다. 한 측면에서, 미리 결정된 수의 샘플 바코드 위치는 상이한 샘플 바코드마다 다르다. 일부 측면에서, 바코드는 약 10 내지 약 35개의 뉴클레오티드를 포함한다. 다른 측면에서, 바코드는 약 12 내지 약 25개의 뉴클레오티드를 포함한다. 또 다른 측면에서, 샘플 바코드는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개의 샘플 인덱스 위치, 또는 이들의 조합을 포함한다. 일부 측면에서, 샘플 바코드는 약 4개 내지 약 12개의 샘플 인덱스 위치를 포함한다. 한 측면에서, 분자 바코드는 약 5 내지 약 25개의 분자 인덱스 위치를 포함한다. 일부 측면에서, 분자 바코드는 약 5 내지 약 15개의 분자 인덱스 위치를 포함한다. 다른 측면에서, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드는 하기로부터 선택된다: (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임; (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임; (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임; (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임; (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임; (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임; (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임; (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임; (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는 (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임. 일부 측면에서, 각각의 바코드는 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함한다. 다수의 측면에서, 하나 이상의 추가의 인덱스 바코드는 세포 바코드, 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드, 또는 세포 바코드 및 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드 둘 다이다. 일부 측면에서, 올리고뉴클레오티드 세트 내의 각각의 올리고뉴클레오티드는 혼성화를 위한 부위, 서열 프라이머 결합을 위한 부위, 증폭을 위한 부위, 또는 이들의 임의의 조합을 포함하는 비-바코드 위치를 추가로 포함한다.
추가 실시양태에서, 본 발명은 샘플 중의 핵산 분자의 서열을 분석하는 방법으로서, (a) 복수의 올리고뉴클레오티드를 핵산 분자에 부착하는 단계로서, 여기서 각각의 올리고뉴클레오티드는 (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및 (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드를 포함하는 바코드를 포함하고, 여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 단계; 및 (b) 핵산 분자를 시퀀싱하는 단계로서, 여기서 서열 판독물은 바코드 서열을 포함하는 것인 단계를 포함하는 것인 방법을 제공한다. 한 측면에서, 본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 동일한 샘플 바코드를 포함하는 올리고뉴클레오티드를 샘플 중의 핵산 분자의 각각의 말단에 부착하는 단계를 추가로 포함할 수 있다. 다른 측면에서, 미리 결정된 수의 샘플 바코드 위치는 상이한 샘플 바코드마다 다르다. 일부 측면에서, 바코드는 약 10 내지 약 35개의 뉴클레오티드를 포함한다. 다른 측면에서, 바코드는 약 12 내지 약 25개의 뉴클레오티드를 포함한다. 일부 측면에서, 샘플 바코드는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개의 샘플 인덱스 위치, 또는 이들의 조합을 포함한다. 다른 측면에서, 샘플 바코드는 약 4 내지 약 12개의 샘플 인덱스 위치를 포함한다. 한 측면에서, 분자 바코드는 약 5 내지 약 25개의 분자 인덱스 위치를 포함한다. 일부 측면에서, 분자 바코드는 약 5 내지 약 15개의 분자 인덱스 위치를 포함한다. 한 측면에서, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드는 하기로부터 선택된다: (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임; (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임; (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임; (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임; (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임; (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임; (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임; (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임; (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는 (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임. 다른 측면에서, 각각의 바코드는 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함한다. 일부 측면에서, 하나 이상의 추가의 인덱스 바코드는 세포 바코드, 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드, 또는 세포 바코드 및 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드 둘 다이다. 일부 측면에서, 본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 샘플 인덱스 위치의 로케이션에 기초하여 서열 판독물을 샘플 패밀리에 할당하는 단계를 추가로 포함한다. 다른 측면에서, 본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 분자 인덱스 위치의 로케이션 및 각각의 분자 인덱스 위치의 뉴클레오티드에 기초하여 서열 판독물을 분자 패밀리에 할당하는 단계를 추가로 포함한다. 일부 측면에서, 본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 서열 판독물 내의 샘플 인덱스 위치의 수 및 로케이션을 샘플 인덱스 위치의 미리 결정된 수 및 로케이션과 비교함으로써 시퀀싱 오류를 수정하는 단계를 추가로 포함한다. 다른 측면에서, 본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 서열 판독물의 양쪽 말단에서 샘플 바코드를 비교함으로써 시퀀싱 오류를 수정하는 단계를 추가로 포함한다. 일부 측면에서, 본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 서열 판독물의 각각의 말단에서 동일하지 않은 샘플 바코드를 허용된 샘플 바코드와 비교하는 규칙을 적용하는 단계를 추가로 포함한다. 다른 측면에서, 본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 (1) 바코드 내의 오류를 수정, (2) 핵산 분자의 각각의 말단에서 바코드 간의 오류를 수정, (3) 서열 판독물을 샘플 패밀리로 디멀티플렉싱, (4) 서열 판독물을 분자 패밀리로 할당, 또는 이들의 임의의 조합을 위해 하나 이상의 규칙을 적용하는 단계를 추가로 포함한다. 일부 측면에서, 각각의 올리고뉴클레오티드는 혼성화를 위한 부위, 서열 프라이머 결합을 위한 부위, 증폭을 위한 부위, 또는 이들의 임의의 조합을 포함하는 비-바코드 위치를 추가로 포함한다. 다른 측면에서, 본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 서열 판독물 오할당을 민감하게 검출하기 위해 시험되는 각각의 올리고뉴클레오티드와 함께 상이한 게놈의 사용을 추가로 포함한다. 일부 측면에서, 본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 디멀티플렉싱 없이 핵산 서열 데이터를 저장하는 단계를 추가로 포함한다.
한 실시양태에서, 본 발명은 샘플 중의 핵산 분자를 라벨링하는 방법으로서, 복수의 올리고뉴클레오티드를 바코드를 포함하는 핵산 분자에 부착하는 단계를 포함하고, 각각의 바코드는 (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및 (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드를 포함하고, 여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 방법을 제공한다. 한 측면에서, 본원에 제공된 샘플 중의 핵산 분자를 라벨링하는 방법은 동일한 샘플 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 각각의 말단에 부착하는 단계를 추가로 포함할 수 있다. 일부 측면에서, 미리 결정된 수의 샘플 바코드 위치는 상이한 샘플 바코드마다 다르다. 다른 측면에서, 바코드는 약 10 내지 약 35개의 뉴클레오티드를 포함한다. 다양한 측면에서, 바코드는 약 12 내지 약 25개의 뉴클레오티드를 포함한다. 일부 측면에서, 샘플 바코드는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 또는 20개의 샘플 인덱스 위치를 포함한다. 다른 측면에서, 샘플 바코드는 약 4 내지 약 12개의 샘플 인덱스 위치를 포함한다. 다양한 측면에서, 분자 바코드는 약 5 내지 약 25개의 분자 인덱스 위치를 포함한다. 일부 측면에서, 분자 바코드는 약 5 내지 약 15개의 분자 인덱스 위치를 포함한다. 한 측면에서, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드는 하기 중에서 선택된다: (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임; (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임; (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임; (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임; (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임; (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임; (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임; (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임; (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는 (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임. 일부 측면에서, 각각의 바코드는 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함한다. 다양한 측면에서, 하나 이상의 추가 바코드는 세포 바코드, 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드, 또는 세포 바코드 및 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드 둘 다이다. 일부 측면에서, 각각의 올리고뉴클레오티드는 혼성화를 위한 부위, 서열 프라이머 결합을 위한 부위, 증폭을 위한 부위, 또는 이들의 임의의 조합을 포함하는 비-바코드 위치를 추가로 포함한다. 다른 측면에서, 본원에 제공된 샘플 중의 핵산 분자를 라벨링하는 방법은 라벨링된 핵산 분자를 시퀀싱하는 단계를 추가로 포함할 수 있다. 일부 측면에서, 라벨링된 핵산 분자를 시퀀싱하는 단계는 디멀티플렉싱 없이 핵산 서열 데이터를 저장하는 단계를 추가로 포함한다. 다양한 측면에서, 디멀티플렉싱 없이 핵산 서열 데이터를 저장하는 단계는 디멀티플렉싱 키의 부재 시 서열 데이터의 사용을 방지하고 데이터의 무단 사용을 방지한다.
또 다른 실시양태에서, 본 발명은 오류 서열 판독물을 확인하는 방법으로서, (a) 복수의 올리고뉴클레오티드를 샘플의 핵산 분자에 부착하는 단계로서, 여기서 각각의 올리고뉴클레오티드는 (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다르고, 동일한 샘플 바코드는 샘플 중의 핵산 분자의 각각의 말단에 부착되는 것인 샘플 바코드; 및 (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드를 포함하는 바코드를 포함하고, 여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 단계; 및 (b) 핵산 분자를 시퀀싱하는 단계로서, 여기서 서열 판독물은 바코드 서열을 포함하고, 이로써 오류 서열 판독물을 확인하는 단계를 포함하는 것인 방법을 제공한다.
한 측면에서, 오류 서열 판독물을 확인하는 단계는 불일치 샘플 바코드를 갖는 핵산 분자를 확인하는 것을 포함한다. 일부 측면에서, 시퀀싱 오류는 서열 판독물의 양쪽 말단에서 샘플 바코드를 비교함으로써 추가로 수정된다. 다른 측면에서, 불일치 샘플 바코드를 갖는 핵산 분자는 서열 판독물 및/또는 분자 패밀리로부터 추가로 제거된다. 또 다른 측면에서, 불일치 샘플 바코드를 갖는 핵산 분자를 확인하는 것은 미스프라이밍된 핵산 분자를 확인하는 것을 포함한다. 일부 측면에서, 미스프라이밍된 핵산 분자는 적절한 바코드로 수정되고 서열 품질을 개선하는데 사용된다. 다른 측면에서, 수정된 바코드를 갖는 핵산 분자는 수정된 판독물 패밀리에 할당된다. 다양한 측면에서, 수정된 판독물 패밀리는 구별되는 커버리지를 정확히 결정하는데 사용된다. 일부 측면에서, 구별되는 커버리지 결정은 핵산 분자의 라이브러리를 평가하는데 사용된다. 한 측면에서, 방법은 분자 인덱스 위치의 로케이션 및 각각의 분자 인덱스 위치의 뉴클레오티드에 기초하여 서열 판독물을 분자 패밀리에 할당하는 단계를 추가로 포함한다. 일부 측면에서, 오류 서열 판독물을 확인하는 단계는 다수의 분자 패밀리에 할당된 핵산 분자를 확인하는 것을 포함한다. 다른 측면에서, 다수의 분자 패밀리에 할당된 핵산 분자는 서열 판독물 및/또는 분자 패밀리로부터 추가로 제거된다.
도 1은 기존 제품 바코드 대 3개의 플로팅 DNA 바코드의 비교를 나타낸다.
도 2a는 7/14 기준을 이용하는 디지털 포맷의 16개 샘플 바코드를 나타낸다.
도 2b는, 7/14 기준으로, 디지털 포맷으로부터 뉴클레오티드 포맷으로의 전환을 나타낸다.
도 2c는, 7/20 bp 포맷으로, 단일 샘플 바코드에 대해 축중성 서열로부터 실제 샘플 서열로의 전환을 나타낸다.
도 3a는 표준 바코드를 나타낸다.
도 3b는 플로팅 바코드를 나타낸다.
도 4는 표준 바코드를 갖는 인공 키메라 분자의 생성을 나타낸다.
도 5는 표준 바코드 (왼쪽) 및 플로팅 바코드 (오른쪽)에 대한 인간 서열 판독물의 정렬을 나타낸다.
도 6은 라이게이션 단계에서 어댑터의 존재도에 기초하는 미스프라이밍의 수준을 나타낸다.
도 7은 어댑터 농도에 기초하는 미스프라이밍율 i7:i5의 비율을 나타낸다.
도 8은 분자 바코드 서열 반복의 빈도를 나타낸다.
본 발명은 서열보다는 뉴클레오티드 로케이션에 기초하여 바코드가 핵산 분자 및 서열 판독물을 확인하고 그룹화하는데 사용될 수 있다는 발견을 기반으로 한다.
서열 기초가 아닌 뉴클레오티드 로케이션에 기초하는 바코드는, 예컨대 하나의 인덱스에 대해 상대적으로 적은 수의 바코드 및 또 다른 인덱스에 대해 매우 많은 수의 바코드 또는 바코드당 2개 이상의 인덱스에 대해 많은 수의 바코드가 생성될 수 있다는 점에서 유연성을 가능하게 한다. 또한, 미리 결정된 인덱스 위치를 갖는 바코드는 개선된 오류 수정 방법을 가능하게 한다.
핵산을 라벨링하기 위한 시스템 및 올리고뉴클레오티드 세트
한 실시양태에서, 본 발명은 복수의 바코드를 포함하는 올리고뉴클레오티드 세트를 포함하는, 샘플 중의 핵산 분자를 라벨링하기 위한 시스템으로서, 각각의 바코드는 (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및 (ii) 샘플 인덱스 위치에서의 뉴클레오티드(들)와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드를 포함하는 인접한 염기의 스트레치를 포함하고, 여기서 분자 인덱스 위치는 샘플 인덱스 위치 사이에 산재되어 있는 것인 시스템을 제공한다.
샘플 중의 핵산 분자를 라벨링하기 위한 시스템은 올리고뉴클레오티드 세트를 포함한다. 본원에 사용된 "올리고뉴클레오티드 세트"는 함께 사용될 수 있는 올리고뉴클레오티드의 그룹 또는 무리를 의미한다. 따라서, 본원에 제공된 샘플 중의 핵산 분자를 라벨링하기 위한 시스템에서 올리고뉴클레오티드 세트를 함께 사용하여 핵산을 라벨링할 수 있다. 올리고뉴클레오티드 세트의 서브세트는 또한 샘플 중의 핵산 분자를 라벨링하기 위한 시스템에서 사용될 수 있다. 본원에 사용된 "올리고뉴클레오티드 서브세트"는 샘플 중의 핵산을 라벨링하기 위한 올리고뉴클레오티드 세트에서 올리고뉴클레오티드의 단지 일부 또는 일부를 지칭한다. 따라서, 올리고뉴클레오티드 세트에 포함된 올리고뉴클레오티드의 전부 또는 일부는 샘플 중의 핵산을 라벨링하는데 사용될 수 있다.
본원에 사용된 "핵산 분자를 라벨링하는"은, 예컨대 검출, 확인, 분석 또는 정제를 위해 핵산 분자를 변형시키는 것을 의미한다. 일부 측면에서, 핵산은 하나 이상의 올리고뉴클레오티드를 핵산 분자에 부착함으로써 라벨링된다. 올리고뉴클레오티드는 핵산 분자의 말단에 부착될 수 있다. 일부 측면에서, 올리고뉴클레오티드는 핵산 분자의 양쪽 말단에 부착된다. 다른 측면에서, 핵산 분자의 말단에 부착된 올리고뉴클레오티드는 서열이 상이하다. 일부 측면에서, 핵산 분자의 말단에 부착된 올리고뉴클레오티드의 샘플 인덱스는 동일하다. 다른 측면에서, 핵산 분자의 말단에 부착된 올리고뉴클레오티드의 분자 인덱스는 상이하다.
예컨대, DNA, RNA 및 핵산 단편을 포함하는 임의의 핵산 분자가 라벨링될 수 있다. 라벨링될 수 있는 DNA 소스는, 예컨대 염색체 DNA, 플라스미드 DNA, cDNA, 무세포 DNA (cfDNA), 순환 종양 DNA (ctDNA), 및 이들의 임의의 단편을 포함한다. 라벨링된 핵산은, 예컨대 핵산 라이브러리의 제조에 사용될 수 있다. 일부 측면에서, 라이브러리는 게놈 라이브러리이다. 라벨링된 핵산 분자를 포함하는 라이브러리는, 예컨대 본원에 제공된 올리고뉴클레오티드의 세트 또는 서브세트를 말단-복구, A-테일링, 및 어댑터 라이게이션을 통해 핵산 분자에 부착함으로써 제조될 수 있다. 일부 측면에서, 예컨대 DNA 분자와 같은 핵산 분자의 원래 말단을 결정하기 위해 말단 복구 및 A-테일링은 생략되고 특정 개체 또는 인덱스 세트와 연관된 가변 말단이 포함된다. 라벨링된 핵산 분자 및 라벨링된 핵산 분자의 라이브러리는, 예컨대 시퀀싱에 의해 분석될 수 있다. 임의의 적합한 시퀀싱 방법을 이용하여 라벨링된 핵산 분자를 분석할 수 있다.
샘플
샘플 중의 핵산은 본원에 제공된 핵산 및 올리고뉴클레오티드 세트를 라벨링하기 위한 시스템을 사용하여 라벨링될 수 있다. 라벨링될 수 있는 핵산은 임의의 샘플 또는 임의의 유형의 샘플에 있을 수 있다. 일부 측면에서, 샘플은 혈액, 타액, 혈장, 혈청, 소변, 또는 다른 생물학적 유체이다. 추가의 예시적인 생물학적 유체는 장액, 림프, 뇌척수액, 점막 분비물, 질액, 복수액, 흉막액, 심낭액, 복막액, 및 복부액을 포함한다. 다른 측면에서, 샘플은 조직 샘플이다. 일부 측면에서, 샘플은 세포 샘플 또는 단일 세포이다. 예컨대, 저장된 냉동 샘플, 포르말린-고정된 파라핀-포매된 (FFPE) 샘플, 및 임의의 다른 방법에 의해 보존된 샘플을 포함하는 신선한 샘플 또는 저장된 샘플이 사용될 수 있다.
샘플은 정상 또는 건강한 대상체로부터의 것일 수 있다. 샘플은 또한 질환 또는 장애를 갖는 대상체로부터의 것일 수 있다. 임의의 질환 또는 장애를 갖는 대상체로부터의 샘플 중의 핵산은 본원에 제공된 시스템 및 올리고뉴클레오티드 세트를 사용하여 라벨링될 수 있다. 일부 측면에서, 질환 또는 장애는 암이다. 일부 측면에서, 샘플은 암을 갖는 대상체로부터의 유체 샘플이다. 다른 측면에서, 샘플은 암을 갖는 대상체로부터의 조직 샘플이다. 일부 측면에서, 샘플은 암을 갖는 대상체로부터의 세포 샘플이다. 다른 측면에서, 샘플은 암 샘플이다. 암 샘플은 고형 종양 또는 액체 종양으로부터의 샘플일 수 있다. 암은 신장암 (kidney cancer), 신장암 (renal cancer), 방광암, 전립선암, 자궁암, 유방암, 자궁경부암, 난소암, 폐암, 결장암, 직장암, 구강암, 인두암, 췌장암, 갑상선암, 흑색종, 피부암, 두경부암, 뇌암, 조혈암, 백혈병, 림프종, 골암, 근육암, 육종, 횡문근육종 등일 수 있다.
핵산은 샘플에서 라벨링될 수 있다. 핵산은 라벨링 전에 샘플로부터 추출, 단리 또는 정제될 수도 있다. 추출, 단리 또는 정제를 위한 임의의 적합한 방법이 이용될 수 있다. 예시적인 방법은 페놀-클로로포름 추출, 구아니디늄-티오시아네이트-페놀-클로로포름 추출, 겔 정제, 및 컬럼 및 비드의 사용을 포함한다. 시판 키트가 핵산의 추출, 단리 또는 정제에 사용될 수 있다.
바코드
본원에 제공된 샘플 중의 핵산 분자를 라벨링하기 위한 올리고뉴클레오티드 세트는 복수의 바코드를 포함할 수 있으며, 각각의 바코드는 (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및 (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드를 포함하고, 여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있다.
바코드 인덱스 위치는 인접한 염기의 스트레치를 포함할 수 있다. 본원에 사용된 "인접한 염기"는 염기가 서열에서 서로 옆에 있음을 의미한다. 일부 측면에서, 인접한 염기의 스트레치는 바코드 또는 인덱스 위치 및 비-바코드 또는 비-인덱스 위치를 포함할 수 있다. 다른 측면에서, 인접한 염기의 스트레치는 바코드 또는 인덱스 위치를 포함할 수 있고 비-바코드 또는 비-인덱스 위치는 포함하지 않을 수 있다. 일부 측면에서, 미리 결정된 수의 샘플 바코드 위치는 상이한 샘플 바코드마다 다르다.
바코드는 임의의 수의 뉴클레오티드를 포함할 수 있다. 예컨대, 바코드는 약 10개 내지 약 35개의 뉴클레오티드를 포함할 수 있다. 다른 예로서, 바코드는 약 12 내지 약 25개의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 바코드는 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30, 약 31, 약 32, 약 33, 약 34, 약 35, 약 36, 약 37, 약 38, 약 39, 약 40개 또는 그 초과의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 바코드는 적어도 5, 적어도 6, 적어도 7, 적어도 8, 적어도 9, 적어도 10, 적어도 11, 적어도 12, 적어도 13, 적어도 14, 적어도 15, 적어도 16, 적어도 17, 적어도 18, 적어도 19, 적어도 20, 적어도 21, 적어도 22, 적어도 23, 적어도 24, 적어도 25, 적어도 26, 적어도 27, 적어도 28, 적어도 29, 적어도 30, 적어도 31, 적어도 32, 적어도 33, 적어도 34, 적어도 35, 적어도 36, 적어도 37, 적어도 38, 적어도 39, 적어도 40개 또는 그 초과의 뉴클레오티드를 포함할 수 있다.
인덱스 위치
본원에 제공된 바코드는 하나 이상의 인덱스 위치를 포함할 수 있다. 예시적인 인덱스 위치는 샘플 인덱스 위치, 분자 인덱스 위치, DNA 말단 인덱스 위치, 및 세포 인덱스 위치를 포함한다. 예컨대, 바코드는 샘플 인덱스 위치, DNA 말단 인덱스 위치 및 분자 인덱스 위치를 포함할 수 있다. 바코드는 또한 샘플 인덱스 위치, 분자 인덱스 위치, 세포 인덱스 위치, DNA 말단 인덱스 위치, 또는 이들의 임의의 조합을 포함할 수 있다.
본원에 사용된 용어 "인덱스 위치"는 핵산 분자의 기원 또는 소스를 확인하는데 사용될 수 있는 바코드 내의 뉴클레오티드 위치를 의미한다. 따라서, 인덱스 위치는 핵산 분자로부터 생성된 서열 판독물이 서열 판독물을 발생시킨 핵산 분자의 기원 또는 소스에 기초하여 범주 또는 그룹에 할당되도록 한다. 예컨대, 샘플 인덱스 위치를 사용하여 핵산 분자가 유래한 샘플을 확인하고 핵산 분자로부터 생성된 서열 판독물을 샘플 범주로 그룹화할 수 있다. 따라서, 동일한 샘플로부터의 핵산 분자로부터 생성된 서열 판독물은 함께 그룹화될 수 있다. 또 다른 예로서, 분자 인덱스 위치를 사용하여 서열 판독물을 발생시킨 핵산 분자를 확인할 수 있다. 따라서, 분자 인덱스 위치를 사용하여 동일한 핵산 분자로부터 생성된 서열 판독물을 함께 그룹화할 수 있다. 또 다른 예로서, 세포 인덱스 위치를 사용하여 핵산 분자가 유래한 세포를 확인하고 핵산 분자로부터 생성된 서열 판독물을 세포 범주로 그룹화할 수 있다. 따라서, 동일한 세포로부터의 핵산 분자의 서열 판독물은 함께 그룹화될 수 있다.
DNA 말단 인덱스 위치는, 예컨대 복구되지 않은 DNA 말단의 길이를 의미할 수 있다. 복구되지 않은 상이한 DNA 분자와 라이게이션할 수 있는 상이한 연장을 갖는 올리고뉴클레오티드가 제조될 수 있다. 복구되지 않은 DNA 분자에 존재했던 오버행의 길이를 확인하기 위해 상이한 길이의 오버행이 인덱싱될 수 있다. 일부 측면에서, 복구되지 않은 DNA 분자에 존재하는 상이한 길이의 오버행이 암 샘플에서 확인된다. 다른 측면에서, 암을 확인 또는 검출하기 위해 복구되지 않은 DNA 분자에 존재하는 상이한 길이의 오버행이 확인된다. 올리고뉴클레오티드는 1개의 뉴클레오티드, 2개의 뉴클레오티드, 3개의 뉴클레오티드, 4개의 뉴클레오티드, 5개의 뉴클레오티드, 6개의 뉴클레오티드, 7개의 뉴클레오티드, 8개의 뉴클레오티드, 9개의 뉴클레오티드, 10개의 뉴클레오티드, 11개의 뉴클레오티드, 12개의 뉴클레오티드, 13개의 뉴클레오티드, 14개의 뉴클레오티드, 15개의 뉴클레오티드, 16개의 뉴클레오티드, 17개의 뉴클레오티드, 18개의 뉴클레오티드, 19개의 뉴클레오티드, 20개의 뉴클레오티드, 또는 그 초과의 연장을 포함하는 임의의 길이의 연장을 가질 수 있다. 올리고뉴클레오티드는 또한 5' 또는 3' 연장을 가질 수 있다.
본원에 제공된 바코드는 샘플 바코드를 포함할 수 있다. 샘플 바코드는 미리 결정된 수의 샘플 인덱스 위치를 포함할 수 있다. 본원에 사용된 "미리 결정된 수의 샘플 인덱스 위치"는 핵산 분자가 유래한 샘플을 확인하기 위해 특정 수의 위치가 샘플 인덱스에 할당될 수 있음을 의미한다. 미리 결정된 샘플 인덱스 위치의 수는 샘플 간에 다를 수 있다. 샘플 인덱스 위치의 로케이션도 샘플 간에 다를 수 있다. 일부 측면에서, 미리 결정된 샘플 인덱스 위치의 수 및 샘플 인덱스 위치의 로케이션은 샘플 간에 다를 수 있다. 따라서, 핵산 분자에 대한 샘플 소스 및 핵산 분자가 발생시킨 서열 판독물은 샘플 바코드를 형성하는 샘플 인덱스 위치의 수, 샘플 인덱스 위치의 로케이션, 또는 샘플 인덱스 위치의 수 및 로케이션 둘 다에 의해 확인될 수 있다.
샘플 인덱스 위치의 로케이션은 일부 실시양태에서 샘플 간에 다양하기 때문에, 샘플 바코드는 "플로팅" 또는 "디지털" 바코드일 수 있다. 본원에 사용된 "플로팅 바코드" 또는 "디지털 바코드"는 로케이션이 그룹 또는 범주 간에 다른 인덱스 위치를 갖는 바코드를 지칭한다. 샘플 인덱스 위치를 포함하는 샘플 바코드, 분자 인덱스 위치를 포함하는 분자 바코드, 세포 인덱스 위치를 포함하는 세포 바코드 등과 같이 그룹 또는 범주 간에 다를 수 있는 인덱스 위치를 포함하는 임의의 바코드는 플로팅 바코드일 수 있다. 예컨대, 전술된 바와 같이 다를 수 있는 샘플 인덱스 위치의 로케이션에 더하여, 분자 바코드의 분자 인덱스 위치의 로케이션은 서열 판독물을 발생시킨 상이한 핵산 분자 간에 다를 수 있다. 또 다른 예로서, 세포 바코드의 세포 인덱스 위치의 로케이션은 상이한 세포로부터의 핵산 분자로부터 수득된 서열 판독물 간에 다를 수 있다.
일부 측면에서, 샘플 바코드에서 미리 결정된 수의 샘플 인덱스 위치는 상응하는 인덱스의 유형을 정의하는 하나 이상의 특정 뉴클레오티드를 포함한다. 예컨대, 미리 결정된 수의 샘플 인덱스 위치에 있는 하나 이상의 특정 뉴클레오티드는 A, T, G, 또는 C일 수 있다. 또 다른 예로서, 미리 결정된 수의 샘플 인덱스 위치에 있는 하나 이상의 특정 뉴클레오티드는 A 및 T, A 및 C, A 및 G, T 및 C, T 및 G, 또는 G 및 C일 수 있다.
일부 측면에서, 샘플 바코드는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 또는 그 초과의 샘플 인덱스 위치 또는 이들의 조합을 포함한다. 일부 측면에서, 샘플 바코드는 약 4 내지 약 12개의 샘플 인덱스 위치를 포함한다. 다른 측면에서, 샘플 바코드는 약 2, 약 3, 약 4, 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20개 또는 그 초과의 샘플 인덱스 위치, 또는 이들의 조합을 포함한다. 일부 측면에서, 샘플 바코드는 적어도 2, 적어도 3, 적어도 4, 적어도 5, 적어도 6, 적어도 7, 적어도 8, 적어도 9, 적어도 10, 적어도 11, 적어도 12, 적어도 13, 적어도 14, 적어도 15, 적어도 16, 적어도 17, 적어도 18, 적어도 19, 적어도 20개 또는 그 초과의 샘플 인덱스 위치, 또는 이들의 조합을 포함한다.
본원에 제공된 바코드는 분자 바코드를 포함할 수 있다. 분자 바코드는 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드(들)를 포함하는 분자 인덱스 위치를 포함할 수 있다. 예컨대, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드는 하기로부터 선택될 수 있다: (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임; (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임; (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임; (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임; (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임; (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임; (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임; (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임; (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는 (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임.
본원에 제공된 샘플 바코드의 샘플 인덱스 위치는 분자 인덱스 위치와 함께 산재될 수 있다. 따라서, 본원에 제공된 바코드는 뉴클레오티드의 특정한 인접한 스트레치 또는 블록에 국한될 필요가 없는 샘플 인덱스 위치 및 분자 인덱스 위치를 포함할 수 있다. 예컨대, 모든 샘플 인덱스 위치가 서로 옆에 있을 필요는 없으며, 모든 분자 인덱스 위치가 서로 옆에 있을 필요도 없다. 샘플 인덱스 위치 및 분자 인덱스 위치는 교대식일 수 있다. 임의의 수의 분자 인덱스 위치가 샘플 인덱스 위치 사이에 있을 수 있다. 임의의 수의 분자 인덱스 위치가 임의의 수의 샘플 인덱스 위치 사이에 있을 수 있다. 임의의 수의 분자 인덱스 위치 및 분자 인덱스 또는 다른 인덱스 위치가 아닌 임의의 수의 뉴클레오티드가 샘플 인덱스 위치 사이에 있을 수 있다. 임의의 수의 분자 인덱스 위치 및 분자 인덱스 또는 다른 인덱스 위치가 아닌 임의의 수의 뉴클레오티드가 임의의 수의 샘플 인덱스 위치 사이에 있을 수 있다. 샘플 인덱스 위치 또는 분자 인덱스 위치가 아닌 임의의 수의 뉴클레오티드가 샘플 인덱스 위치와 분자 인덱스 위치 사이에 있을 수 있다.
일부 샘플 인덱스 위치는 서로 옆에 있을 수 있고, 다른 샘플 인덱스 위치는 샘플 인덱스 위치가 아닌 바코드의 임의의 다른 뉴클레오티드 옆에 위치될 수 있다. 샘플 인덱스 위치 및 분자 인덱스 위치는, 예컨대 모든 샘플 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다. 샘플 인덱스 위치 및 분자 인덱스 위치는, 예컨대 모든 분자 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다. 샘플 인덱스 위치 및 분자 인덱스 위치는 또한, 예컨대 모든 샘플 인덱스 위치 및 모든 분자 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다. 임의의 인덱스 바코드의 위치는 인덱스 바코드의 모든 뉴클레오티드가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다. 예시적인 바코드 인덱스는 샘플 바코드, 분자 바코드, 세포 바코드 등을 포함한다.
본원에 제공된 분자 바코드는 약 5 내지 약 25개의 분자 인덱스 위치를 포함할 수 있다. 일부 측면에서, 본원에 제공된 분자 바코드는 약 5 내지 약 15개의 분자 인덱스 위치를 포함한다. 다른 측면에서, 본원에 제공된 분자 바코드는 약 2, 약 3, 약 4, 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30개 또는 그 초과의 분자 인덱스 위치를 포함한다. 일부 측면에서, 본원에 제공된 분자 바코드는 적어도 2, 적어도 3, 적어도 4, 적어도 5, 적어도 6, 적어도 7, 적어도 8, 적어도 9, 적어도 10, 적어도 11, 적어도 12, 적어도 13, 적어도 14, 적어도 15, 적어도 16, 적어도 17, 적어도 18, 적어도 19, 적어도 20, 적어도 21, 적어도 22, 적어도 23, 적어도 24, 적어도 25, 적어도 26, 적어도 27, 적어도 28, 적어도 29, 적어도 30개 또는 그 초과의 분자 인덱스 위치를 포함한다. 일부 측면에서, 본원에 제공된 분자 바코드는 약 20개의 분자 인덱스 위치 또는 약 20개 미만의 분자 인덱스 위치를 포함한다.
본원에 제공된 바코드는 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함할 수 있다. 일부 측면에서, 하나 이상의 추가의 인덱스 바코드는 세포 바코드이다. 따라서, 본원에 제공된 바코드는 샘플 바코드, 분자 바코드, 세포 바코드, 복구되지 않은 DNA 말단 길이의 측정치를 제공하는 바코드, 임의의 다른 인덱스 바코드, 또는 이들의 임의의 조합을 포함할 수 있다. 따라서, 본원에 제공된 바코드는 샘플 인덱스 위치, 분자 인덱스 위치, 및 예컨대 서로 산재된 세포 인덱스 위치와 같은 임의의 다른 인덱스 위치를 포함할 수 있다. 본원에 제공된 바코드의 인덱스 위치는 뉴클레오티드의 특정한 인접한 스트레치 또는 블록에 국한될 필요가 없다. 인덱스 바코드 및 인덱스 위치는 모든 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다.
올리고뉴클레오티드 세트의 각각의 올리고뉴클레오티드는 비-바코드 위치를 추가로 포함할 수 있다. 올리고뉴클레오티드에 포함된 비-바코드 위치는 혼성화를 위한 부위, 증폭을 위한 부위, 서열 프라이머 결합을 위한 부위, 및 혼성화, 서열 프라이머 결합 및 증폭을 위한 부위를 포함할 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30개 또는 그 초과의 뉴클레오티드를 포함할 수 있다. 혼성화를 위한 부위는, 예컨대 프로브의 결합을 위한 부위를 포함할 수 있다. 증폭을 위한 부위는, 예컨대 프라이머 결합 부위를 포함할 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 서로 다를 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 또한 겹칠 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 어느 정도 겹칠 수 있다. 일부 측면에서, 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 약 1, 약 2, 약 3, 약 4, 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30개 또는 그 초과의 뉴클레오티드가 겹친다. 일부 측면에서, 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 완전히 겹친다. 다른 측면에서, 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 겹치지 않는다.
핵산 서열을 분석하는 방법
또 다른 실시양태에서, 본 발명은 샘플 중의 핵산 분자의 서열을 분석하는 방법을 제공한다. 본원에 제공된 핵산 서열을 분석하는 방법은 (a) 복수의 올리고뉴클레오티드를 핵산 분자에 부착하는 단계로서, 여기서 각각의 올리고뉴클레오티드는 (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및 (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드를 포함하는 바코드를 포함하고, 여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 단계; 및 (b) 핵산 분자를 시퀀싱하는 단계로서, 여기서 일부 서열 판독물은 바코드 서열을 포함하는 것인 단계를 포함할 수 있다.
본원에 제공된 핵산 서열을 분석하는 방법은 복수의 올리고뉴클레오티드를 핵산 분자에 부착하는 단계를 포함할 수 있다. 부착될 수 있는 복수의 올리고뉴클레오티드는 올리고뉴클레오티드 세트를 포함할 수 있다. 일부 측면에서, 부착될 수 있는 복수의 올리고뉴클레오티드는 올리고뉴클레오티드 서브세트를 포함한다. 올리고뉴클레오티드의 세트 및 서브세트를 포함하는 본원에 제공된 임의의 올리고뉴클레오티드는 본원에 제공된 핵산 분자 또는 이의 단편의 서열을 분석하는 방법에 사용될 수 있다. 따라서, 부착될 수 있는 복수의 올리고뉴클레오티드의 각각의 올리고뉴클레오티드는 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함할 수 있다. 미리 결정된 수의 샘플 인덱스 위치의 로케이션은 샘플 간에 다를 수 있다. 복수의 올리고뉴클레오티드의 각각의 올리고뉴클레오티드는 또한 분자 인덱스 위치를 포함하는 분자 바코드를 포함할 수 있다. 분자 인덱스 위치는 샘플 인덱스 위치의 뉴클레오티드와 다른 뉴클레오티드를 포함할 수 있다. 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재될 수 있다.
다른 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법은 동일한 샘플 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 각각의 말단에 부착하는 단계를 포함한다. 일부 측면에서, 미리 결정된 수의 샘플 바코드 위치는 상이한 샘플 바코드마다 다르다. 인접한 동일한 염기의 스트레치는, 샘플 바코드에 포함된 뉴클레오티드가 분자 바코드에 포함되거나 분자 인덱스 위치를 구성하는 뉴클레오티드, 세포 바코드에 포함되거나 세포 인덱스 위치를 구성하는 뉴클레오티드, 임의의 다른 인덱스 바코드에 포함되거나 임의의 다른 인덱스 위치를 구성하는 뉴클레오티드, 인덱스 바코드에 포함되지 않거나 인덱스 위치를 구성하지 않는 뉴클레오티드, 또는 이들의 임의의 조합과 함께 산재될 수 있기 때문에, 동일한 샘플 바코드를 포함하는 올리고뉴클레오티드에 부재할 수 있다. 따라서, 일부 측면에서, 동일한 샘플 바코드를 포함하는 핵산 분자의 각각의 말단에 부착된 올리고뉴클레오티드는 교차-혼성화되지 않고, 예컨대 증폭 동안 키메라 분자와 같은 인공물의 생성을 초래하지 않는다. 일부 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법은 상이한 샘플 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 각각의 말단에 부착하는 단계를 포함한다.
한 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법은 동일한 분자 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 각각의 말단에 부착하는 단계를 포함한다. 인접한 동일한 염기의 스트레치는, 분자 바코드에 포함된 뉴클레오티드가 샘플 바코드에 포함되거나 샘플 인덱스 위치를 구성하는 뉴클레오티드, 세포 바코드에 포함되거나 세포 인덱스 위치를 구성하는 뉴클레오티드, 임의의 다른 인덱스 바코드에 포함되거나 임의의 다른 인덱스 위치를 구성하는 뉴클레오티드, 인덱스 바코드에 포함되지 않거나 인덱스 위치를 구성하지 않는 뉴클레오티드, 또는 이들의 임의의 조합과 함께 산재될 수 있기 때문에, 동일한 분자 바코드를 포함하는 올리고뉴클레오티드에 부재할 수 있다. 따라서, 일부 측면에서, 동일한 분자 바코드를 포함하는 핵산 분자의 각각의 말단에 부착된 올리고뉴클레오티드는 교차-혼성화되지 않고, 예컨대 증폭 동안 키메라 분자와 같은 인공물의 생성을 초래하지 않는다. 다른 측면에서, 본원에 제공된 방법은 상이한 분자 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 각각의 말단에 부착하는 단계를 포함한다.
일부 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법은 동일한 샘플 바코드 및 동일한 분자 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 각각의 말단에 부착하는 단계를 포함한다. 인접한 동일한 염기의 스트레치는, 샘플 바코드 및 분자 바코드에 포함된 뉴클레오티드가 세포 바코드에 포함되거나 세포 인덱스 위치를 구성하는 뉴클레오티드, 임의의 다른 인덱스 바코드에 포함되거나 임의의 다른 인덱스 위치를 구성하는 뉴클레오티드, 인덱스 바코드에 포함되지 않거나 인덱스 위치를 구성하지 않는 뉴클레오티드, 또는 이들의 임의의 조합과 함께 산재될 수 있기 때문에, 동일한 샘플 바코드 및 동일한 분자 바코드를 포함하는 올리고뉴클레오티드에 부재할 수 있다. 따라서, 일부 측면에서, 동일한 샘플 바코드 및 동일한 분자 바코드를 포함하는 핵산 분자의 각각의 말단에 부착된 올리고뉴클레오티드는 교차-혼성화되지 않으며, 예컨대 증폭 동안 키메라 분자와 같은 인공물의 생성을 초래하지 않는다. 다른 측면에서, 본원에 제공된 방법은 상이한 샘플 바코드 및 상이한 분자 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 각각의 말단에 부착하는 단계를 포함한다.
일부 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법은 동일한 샘플 바코드, 동일한 분자 바코드, 동일한 세포 바코드, 복구되지 않은 DNA 말단 길이의 측정치를 제공하는 동일한 바코드, 임의의 다른 인덱스 뉴클레오티드를 포함하는 동일한 인덱스 바코드, 또는 이들의 임의의 조합을 포함하는 올리고뉴클레오티드를 샘플 중의 핵산 분자의 각각의 말단에 부착하는 단계를 포함한다. 샘플 바코드, 분자 바코드, 세포 바코드, 임의의 다른 인덱스 위치 또는 인덱스 바코드를 포함하는 뉴클레오티드, 또는 이들의 임의의 조합을 포함하는 바코드에서 인접한 동일한 염기의 스트레치는 산재된 뉴클레오티드로 인해 부재할 수 있다. 산재된 뉴클레오티드는 인덱스 바코드에 포함되지 않거나 인덱스 위치를 구성하지 않는 뉴클레오티드, 또는 뉴클레오티드가 산재되어 있는 인덱스 바코드 또는 인덱스 위치 이외의 인덱스 바코드에 포함되거나 인덱스 위치를 구성하는 뉴클레오티드를 포함할 수 있다. 따라서, 증폭 동안 키메라 분자와 같은 인공물의 교차-혼성화 및 생성이 방지될 수 있다. 한 측면에서, 본원에 제공된 방법은 상이한 샘플 바코드, 상이한 분자 바코드, 상이한 세포 바코드, 임의의 다른 인덱스 뉴클레오티드를 포함하는 상이한 인덱스 바코드, 또는 이들의 임의의 조합을 포함하는 올리고뉴클레오티드를 샘플 중의 핵산 분자의 각각의 말단에 부착하는 단계를 포함한다.
바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 말단에 부착하기 위해 임의의 적합한 방법이 이용될 수 있다. 다양한 측면에서, 올리고뉴클레오티드는 공유적으로 부착된다.
본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 임의의 수의 뉴클레오티드를 포함할 수 있다. 예컨대, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 약 10 내지 약 35개의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 약 12개 내지 약 25개의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30, 약 31, 약 32, 약 33, 약 34, 약 35, 약 36, 약 37, 약 38, 약 39, 약 40개 또는 그 초과의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 적어도 5, 적어도 6, 적어도 7, 적어도 8, 적어도 9, 적어도 10, 적어도 11, 적어도 12, 적어도 13, 적어도 14, 적어도 15, 적어도 16, 적어도 17, 적어도 18, 적어도 19, 적어도 20, 적어도 21, 적어도 22, 적어도 23, 적어도 24, 적어도 25, 적어도 26, 적어도 27, 적어도 28, 적어도 29, 적어도 30, 적어도 31, 적어도 32, 적어도 33, 적어도 34, 적어도 35, 적어도 36, 적어도 37, 적어도 38, 적어도 39, 적어도 40개 또는 그 초과의 뉴클레오티드를 포함할 수 있다.
본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 하나 이상의 인덱스 위치를 포함할 수 있다. 예시적인 인덱스 위치는 샘플 인덱스 위치, 분자 인덱스 위치, 및 세포 인덱스 위치를 포함한다. 예컨대, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 샘플 인덱스 위치 및 분자 인덱스 위치를 포함할 수 있다. 본원에 제공된 핵산 분자의 서열을 분석하는 방법의 바코드는 또한 샘플 인덱스 위치, 분자 인덱스 위치, 세포 인덱스 위치, 복구되지 않은 DNA 말단 길이의 측정치를 제공하는 인덱스 위치, 또는 이들의 임의의 조합을 포함할 수 있다.
본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 샘플 바코드를 포함할 수 있다. 샘플 바코드는 미리 결정된 수의 샘플 인덱스 위치를 포함할 수 있다. 미리 결정된 샘플 인덱스 위치의 수는 샘플 간에 다를 수 있다. 샘플 인덱스 위치의 로케이션도 샘플마다 다를 수 있다. 일부 측면에서, 미리 결정된 샘플 인덱스 위치의 수 및 샘플 인덱스 위치의 로케이션은 샘플 간에 다를 수 있다. 따라서, 핵산 분자에 대한 샘플 소스 및 핵산 분자가 발생시킨 서열 판독물은 샘플 바코드를 형성하는 샘플 인덱스 위치의 수, 샘플 인덱스 위치의 로케이션, 또는 샘플 인덱스 위치의 수 및 로케이션 둘 다로 확인될 수 있다.
본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 샘플 바코드의 미리 결정된 수의 샘플 인덱스 위치는 하나 이상의 특정 뉴클레오티드를 포함할 수 있다. 예컨대, 미리 결정된 수의 샘플 인덱스 위치에 있는 하나 이상의 특정 뉴클레오티드는 A, T, G, 또는 C일 수 있다. 또 다른 예로서, 미리 결정된 수의 샘플 인덱스 위치에 있는 하나 이상의 특정 뉴클레오티드는 A 및 T, A 및 C, A 및 G, T 및 C, T 및 G, 또는 G 및 C일 수 있다.
일부 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 샘플 바코드는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 또는 그 초과의 샘플 인덱스 위치, 또는 이들의 조합을 포함한다. 일부 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 샘플 바코드는 약 4 내지 12개의 샘플 인덱스 위치를 포함한다. 다양한 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 샘플 바코드는 약 2, 약 3, 약 4, 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20개 또는 그 초과의 샘플 인덱스 위치, 또는 이들의 조합을 포함한다. 한 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 샘플 바코드는 적어도 2, 적어도 3, 적어도 4, 적어도 5, 적어도 6, 적어도 7, 적어도 8, 적어도 9, 적어도 10, 적어도 11, 적어도 12, 적어도 13, 적어도 14, 적어도 15, 적어도 16, 적어도 17, 적어도 18, 적어도 19, 적어도 20개 또는 그 초과의 샘플 인덱스 위치, 또는 이들의 조합을 포함한다.
본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 분자 바코드를 포함할 수 있다. 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 분자 바코드는 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함할 수 있다. 예컨대, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드는 하기로부터 선택될 수 있다: (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임; (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임; (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임; (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임; (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임; (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임; (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임; (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임; (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는 (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임.
본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 샘플 바코드의 샘플 인덱스 위치는 분자 인덱스 위치와 함께 산재될 수 있다. 따라서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 뉴클레오티드의 특정한 인접한 스트레치 또는 블록에 국한될 필요가 없는 샘플 인덱스 위치 및 분자 인덱스 위치를 포함할 수 있다. 예컨대, 모든 샘플 인덱스 위치가 서로 옆에 있을 필요는 없으며 모든 분자 인덱스 위치가 서로 옆에 있을 필요도 없다. 샘플 인덱스 위치 및 분자 인덱스 위치는 교대식일 수 있다. 임의의 수의 분자 인덱스 위치가 샘플 인덱스 위치 사이에 있을 수 있다. 임의의 수의 분자 인덱스 위치가 임의의 수의 샘플 인덱스 위치 사이에 있을 수 있다. 임의의 수의 분자 인덱스 위치 및 분자 인덱스 또는 다른 인덱스 위치가 아닌 임의의 수의 뉴클레오티드가 샘플 인덱스 위치 사이에 있을 수 있다. 임의의 수의 분자 인덱스 위치 및 분자 인덱스 또는 다른 인덱스 위치가 아닌 임의의 수의 뉴클레오티드가 임의의 수의 샘플 인덱스 위치 사이에 있을 수 있다. 샘플 인덱스 위치 또는 분자 인덱스 위치가 아닌 임의의 수의 뉴클레오티드가 샘플 인덱스 위치와 분자 인덱스 위치 사이에 있을 수 있다.
일부 샘플 인덱스 위치는 서로 옆에 있을 수 있고, 다른 샘플 인덱스 위치는 샘플 인덱스 위치가 아닌 바코드의 임의의 다른 뉴클레오티드 옆에 위치될 수 있다. 샘플 인덱스 위치 및 분자 인덱스 위치는, 예컨대 모든 샘플 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다. 샘플 인덱스 위치 및 분자 인덱스 위치는, 예컨대 모든 분자 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다. 샘플 인덱스 위치 및 분자 인덱스 위치는 또한, 예컨대 모든 샘플 인덱스 위치 및 모든 분자 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다. 임의의 인덱스 바코드의 위치는 인덱스 바코드의 모든 뉴클레오티드가 서로 옆에 있을 필요가 없는 구성일 수 있다. 예시적인 바코드 인덱스는 샘플 바코드, 분자 바코드, 세포 바코드 등을 포함한다.
본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 분자 바코드는 약 5 내지 25개의 분자 인덱스 위치를 포함할 수 있다. 한 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 분자 바코드는 약 5 내지 약 15개의 분자 인덱스 위치를 포함한다. 일부 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 분자 바코드는 약 2, 약 3, 약 4, 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30개 또는 그 초과의 분자 인덱스 위치를 포함한다. 다른 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 분자 바코드는 적어도 2, 적어도 3, 적어도 4, 적어도 5, 적어도 6, 적어도 7, 적어도 8, 적어도 9, 적어도 10, 적어도 11, 적어도 12, 적어도 13, 적어도 14, 적어도 15, 적어도 16, 적어도 17, 적어도 18, 적어도 19, 적어도 20, 적어도 21, 적어도 22, 적어도 23, 적어도 24, 적어도 25, 적어도 26, 적어도 27, 적어도 28, 적어도 29, 적어도 30개 또는 그 초과의 분자 인덱스 위치를 포함한다.
본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 각각의 바코드는 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함할 수 있다. 일부 측면에서, 하나 이상의 추가의 인덱스 바코드는 세포 바코드이다. 따라서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 샘플 바코드, 분자 바코드, 세포 바코드, 임의의 다른 인덱스 바코드, 또는 이들의 임의의 조합을 포함할 수 있다. 따라서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법에서 바코드는 샘플 인덱스 위치, 분자 인덱스 위치, 및 예컨대 서로 산재된 세포 인덱스 위치와 같은 임의의 다른 인덱스 위치를 포함할 수 있다. 본원에 제공된 바코드의 인덱스 위치는 뉴클레오티드의 특정한 인접한 스트레치 또는 블록에 국한될 필요가 없다. 인덱스 바코드 및 인덱스 위치는 모든 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다.
본원에 제공된 올리고뉴클레오티드가 부착된 핵산 분자는, 예컨대 시퀀싱에 의해 분석될 수 있다. 수득된 서열 판독물은 바코드 서열을 포함할 수 있다. 임의의 적합한 시퀀싱 방법을 이용하여 핵산 분자를 분석할 수 있다. 예시적인 시퀀싱 방법은, 예컨대 차세대 시퀀싱 (NGS)을 포함한다. 예시적인 NGS 방법론은 로쉬 (Roche) 454 시퀀서, 라이프 테크놀로지즈 (Life Technologies) SOLiD 시스템, 라이프 테크놀로지즈 이온 토렌트 (Life Technologies Ion Torrent), BGI/MGI 시스템, 게납시스 (Genapsys) 시스템, 및 일루미나 (Illumina) 시스템, 예컨대 일루미나 게놈 어낼라이저 (Illumina Genome Analyzer) II, 일루미나 MiSeq, 일루미나 HiSeq, 일루미나 NextSeq, 및 일루미나 NovaSeq 기구를 포함한다. 시퀀싱은, 예컨대 적어도 2x 커버리지, 적어도 10x 커버리지; 적어도 20x 커버리지; 적어도 30x 커버리지; 적어도 40x 커버리지; 적어도 50x 커버리지; 적어도 60x 커버리지; 적어도 70x 커버리지; 적어도 80x 커버리지; 적어도 90x 커버리지; 적어도 100x 커버리지; 적어도 200x 커버리지; 적어도 300x 커버리지; 적어도 400x 커버리지; 적어도 500x 커버리지; 적어도 600x 커버리지; 적어도 700x 커버리지; 적어도 800x 커버리지; 적어도 900x 커버리지; 적어도 1,000x 커버리지; 적어도 2,000x 커버리지; 적어도 3,000x 커버리지; 적어도 4,000x 커버리지; 적어도 5,000x 커버리지; 적어도 6,000x 커버리지; 적어도 7,000x 커버리지; 적어도 8,000x 커버리지; 적어도 9,000x 커버리지; 적어도 10,000x 커버리지; 적어도 15,000x 커버리지; 적어도 20,000x 커버리지; 및 그 사이의 임의의 숫자 또는 범위를 포함하는 각각의 뉴클레오티드에 대한 깊은 커버리지에 대해 수행될 수 있다.
일부 측면에서, 시퀀싱은 전체 게놈 시퀀싱을 포함한다. 다양한 측면에서, 시퀀싱은 엑솜 시퀀싱 또는 표적화된 패널을 포함한다. 본원에 사용된 용어 "엑솜 시퀀싱"은 게놈 내 유전자의 모든 단백질 코딩 엑손을 시퀀싱하는 것을 지칭한다. 엑솜 시퀀싱은, 예컨대 어레이-기반 캡처 및 용액 내 핵산 캡처와 같은 표적 농축 방법을 포함할 수 있다. 표적화된 패널은 관심 영역의 서브세트를 포함하며 단백질 코딩 및 비-코딩 영역을 모두 포함할 수 있다.
임의의 샘플 또는 샘플 유형의 핵산 서열은 본원에 제공된 방법을 이용하여 분석될 수 있다. 일부 측면에서, 샘플은 혈액, 타액, 혈장, 혈청, 소변, 또는 다른 생물학적 유체이다. 추가의 예시적인 생물학적 유체는 장액, 림프, 뇌척수액, 점막 분비물, 질액, 복수액, 흉막액, 심낭액, 복막액, 및 복부액을 포함한다. 일부 측면에서, 샘플은 조직 샘플이다. 다른 측면에서, 샘플은 세포 샘플이다. 예컨대, 저장된 냉동 샘플, 포르말린-고정된 파라핀-포매된 (FFPE) 샘플, 및 임의의 다른 방법에 의해 보존된 샘플을 포함하는 신선한 샘플 또는 저장된 샘플이 사용될 수 있다.
샘플은 정상 또는 건강한 대상체로부터의 것일 수 있다. 샘플은 또한 질환 또는 장애를 갖는 대상체로부터의 것일 수 있다. 임의의 질환 또는 장애를 갖는 대상체로부터의 샘플 중의 핵산의 서열은 본원에 제공된 방법에 의해 분석될 수 있다. 일부 측면에서, 질환 또는 장애는 암이다. 다른 측면에서, 샘플은 암을 갖는 대상체로부터의 유체 샘플이다. 일부 측면에서, 샘플은 암을 갖는 대상체로부터의 조직 샘플이다. 다른 측면에서, 샘플은 암을 갖는 대상체로부터의 세포 샘플이다. 일부 측면에서, 샘플은 암 샘플이다. 암 샘플은 고형 종양 또는 액체 종양으로부터의 샘플일 수 있다. 암은 신장암 (kidney cancer), 신장암 (renal cancer), 방광암, 전립선암, 자궁암, 유방암, 자궁경부암, 난소암, 폐암, 결장암, 직장암, 구강암, 인두암, 췌장암, 갑상선암, 흑색종, 피부암, 두경부암, 뇌암, 조혈암, 백혈병, 림프종, 골암, 근육암, 육종, 횡문근육종 등일 수 있다.
핵산은 시퀀싱 전에 샘플로부터 추출, 단리 또는 정제될 수 있다. 추출, 단리 또는 정제를 위한 임의의 적합한 방법이 이용될 수 있다. 예시적인 방법은 페놀-클로로포름 추출, 구아니디늄-티오시아네이트-페놀-클로로포름 추출, 겔 정제, 및 컬럼 및 비드의 사용을 포함한다. 시판 키트가 핵산의 추출, 단리 또는 정제에 사용될 수 있다.
본원에 제공된 핵산 분자의 서열을 분석하는 방법은 핵산 분자의 라이브러리를 시퀀싱하는 단계를 포함할 수 있다. 본원에 제공된 올리고뉴클레오티드가 부착된 핵산 분자의 라이브러리가 제조될 수 있다. 일부 측면에서, 게놈 라이브러리가 제조된다. 일부 측면에서, 본원에 제공된 바코드를 포함하는 올리고뉴클레오티드가 부착된 핵산 분자 또는 이의 단편의 라이브러리는 증폭에 의해 제조된다. 본원에 제공된 바코드를 포함하는 부착된 올리고뉴클레오티드를 포함하는 핵산 분자 및 핵산 분자의 단편은 폴리머라제 연쇄 반응 (PCR)에 의해 증폭될 수 있다. 본원에 제공된 바코드를 포함하는 부착된 올리고뉴클레오티드를 포함하는 핵산 분자의 앰플리콘 및 핵산 분자의 단편은 시퀀싱될 수 있다. 임의의 적합한 시퀀싱 방법을 이용하여 본원에 제공된 바코드를 포함하는 올리고뉴클레오티드가 부착된 핵산 분자 및 핵산 분자의 단편을 시퀀싱할 수 있다.
본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 서열 판독물을 그룹 또는 범주에 할당하는 단계를 추가로 포함할 수 있다. 예컨대, 서열 판독물은 샘플 인덱스 위치의 로케이션 및 수에 기초하여 샘플 패밀리에 할당될 수 있다. 따라서, 서열 판독물을 발생시킨 핵산 분자는 핵산 분자가 유래된 샘플에 할당될 수 있다. 일부 측면에서, 샘플 인덱스 위치의 수는 오류 수정에 사용될 수 있다. 서열 판독물은 또한 분자 인덱스 위치의 로케이션 및 각각의 분자 인덱스 위치의 뉴클레오티드에 기초하여 분자 패밀리에 할당될 수 있다. 분자 인덱스 위치의 수 및 로케이션은 또한 서열 판독물을 분자 패밀리에 할당하는데 사용될 수 있다. 따라서, 서열 판독물은 서열 판독물을 발생시킨 핵산 분자에 할당될 수 있다. 일부 측면에서, 분자 인덱스 위치의 수는 오류 수정에 사용될 수 있다. 또 다른 예로서, 서열 판독물은 각각의 세포 인덱스 위치에서의 로케이션, 수, 및 뉴클레오티드, 및 이들의 조합과 같은 세포 인덱스 위치에 기초하여 세포 패밀리에 할당될 수 있다. 따라서, 서열 판독물 및 서열 판독물을 발생시킨 핵산 분자는 기원 세포에 할당될 수 있다. 한 측면에서, 세포 인덱스 위치의 수는 오류 수정에 사용될 수 있다. 서열 판독물의 임의의 할당은 본원에 제공된 올리고뉴클레오티드 및 올리고뉴클레오티드 세트의 바코드에 포함된 인덱스 위치에 따라 이루어질 수 있다.
본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법은 시퀀싱 오류를 수정하는 단계를 추가로 포함할 수 있다. 오류의 소스는, 예컨대 증폭 단계 동안 합성 오류, 시퀀싱 인공물 또는 폴리머라제 슬리피지를 포함할 수 있다. 시퀀싱 오류는 서열 판독물 내의 샘플 인덱스 위치의 수 및 로케이션을 샘플 인덱스 위치의 미리 결정된 수 및 로케이션과 비교하여 수정될 수 있다.
시퀀싱 오류는 또한 서열 판독물의 양쪽 말단에서 샘플 바코드를 비교함으로써 수정될 수 있다. 서열 판독물의 각각의 말단에서 동일하지 않은 샘플 바코드를 허용된 샘플 바코드와 비교하는 규칙이 적용될 수 있다. 한 측면에서, 동일한 샘플 바코드를 포함하는 올리고뉴클레오티드가 핵산 분자 또는 이의 단편의 각각의 말단에 부착되어 있는 시퀀싱 판독물의 양쪽 말단에서 동일하지 않은 샘플 바코드를 비교하는 규칙이 적용될 수 있다. 일부 측면에서, 동일하지 않은 샘플 바코드를 포함하는 올리고뉴클레오티드가 핵산 분자 또는 이의 단편의 각각의 말단에 부착되어 있는 시퀀싱 판독물의 양쪽 말단에서 동일하지 않은 샘플 바코드를 비교하는 규칙이 적용될 수 있다. 다른 측면에서, 본원에 제공된 핵산 분자의 서열을 분석하는 방법은 판독물 오할당을 민감하게 검출하기 위해 시험되는 각각의 올리고뉴클레오티드와 함께 상이한 게놈의 사용을 포함한다.
샘플 중의 핵산 분자의 서열을 분석하는 방법은 (1) 바코드 내의 오류를 수정, (2) 핵산 분자의 각각의 말단에서 바코드 간의 오류를 수정, (3) 서열 판독물을 샘플 패밀리로 디멀티플렉싱, (4) 서열 판독물을 분자 패밀리로 할당, 또는 이들의 임의의 조합을 위해 하나 이상의 규칙을 적용하는 단계를 추가로 포함할 수 있다. 본원에 사용된 "디멀티플렉싱 (demultiplexing)"은 서열 판독물을 다수의 샘플이 시퀀싱을 위해 풀링된 샘플 패밀리 또는 기원 샘플, 예컨대 분자 패밀리, 세포 패밀리, 또는 임의의 다른 원하는 그룹 또는 그룹의 조합과 같은 그룹 또는 범주에 할당하는 것을 의미한다.
본원에 제공된 샘플 중의 핵산 분자의 서열을 분석하는 방법에서 올리고뉴클레오티드 세트의 각각의 올리고뉴클레오티드는 비-바코드 위치를 추가로 포함할 수 있다. 올리고뉴클레오티드에 포함된 비-바코드 위치는 혼성화를 위한 부위, 증폭을 위한 부위, 서열 프라이머 결합을 위한 부위, 및 혼성화, 서열 프라이머 결합 및 증폭을 위한 부위를 포함할 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30개 또는 그 초과의 뉴클레오티드를 포함할 수 있다. 혼성화를 위한 부위는, 예컨대 프로브의 결합을 위한 부위를 포함할 수 있다. 증폭을 위한 부위는, 예컨대 프라이머 결합 부위를 포함할 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 서로 다를 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 또한 겹칠 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 어느 정도 겹칠 수 있다. 일부 측면에서, 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 약 1, 약 2, 약 3, 약 4, 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30개 또는 그 초과의 뉴클레오티드가 겹친다. 다른 측면에서, 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 완전히 겹친다. 한 측면에서, 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 겹치지 않는다.
본원에 제공된 핵산 서열을 분석하는 방법은 디멀티플렉싱 없이 핵산 서열 데이터를 저장하는 단계를 추가로 포함할 수 있다. 예컨대, 디멀티플렉싱 키를 사용하여 서열 데이터를 시퀀싱 판독물 그룹에 할당할 수 있다. 디멀티플렉싱 없이 핵산 서열 데이터를 저장하는 단계는 서열 데이터를 보호할 수 있다. 예컨대, 핵산 서열 데이터를 저장하면 정확한 디멀티플렉싱 키를 보유하지 않은 개체가 서열 데이터를 사용하는 것을 방지할 수 있으므로 데이터의 무단 사용을 방지할 수 있다.
핵산 분자를 라벨링하는 방법
한 실시양태에서, 본 발명은 샘플 중의 핵산 분자를 라벨링하는 방법으로서, 복수의 올리고뉴클레오티드를 바코드를 포함하는 핵산 분자에 부착하는 단계를 포함하고, 각각의 바코드는 (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및 (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드를 포함하고, 여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 방법을 제공한다.
올리고뉴클레오티드의 세트 및 서브세트를 포함하는 본원에 제공된 임의의 올리고뉴클레오티드는 본원에 제공된 핵산 분자를 라벨링하는 방법에서 핵산 분자 또는 이의 단편을 라벨링하는데 사용될 수 있다. 한 측면에서, 본원에 제공된 방법은 동일한 샘플 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 각각의 말단에 부착하는 단계를 포함한다. 일부 측면에서, 본원에 제공된 방법은 상이한 샘플 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 각각의 말단에 부착하는 단계를 포함한다. 다른 측면에서, 미리 결정된 수의 샘플 바코드 위치는 상이한 샘플 바코드마다 다르다.
임의의 적합한 방법이 하나 이상의 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 말단에 부착하는데 이용될 수 있다. 일부 측면에서, 올리고뉴클레오티드는 공유적으로 부착된다.
임의의 샘플 중의 핵산은 본원에 제공된 방법을 이용하여 라벨링될 수 있다. 라벨링될 수 있는 핵산은 임의의 샘플 또는 임의의 유형의 샘플에 있을 수 있다. 일부 측면에서, 샘플은 혈액, 타액, 혈장, 혈청, 소변, 또는 다른 생물학적 유체이다. 추가적인 예시적인 생물학적 유체는 장액, 림프, 뇌척수액, 점막 분비물, 질액, 복수액, 흉막액, 심낭액, 복막액, 및 복부액을 포함한다. 일부 측면에서, 샘플은 조직 샘플이다. 다른 측면에서, 샘플은 세포 샘플이다. 예컨대, 저장된 냉동 샘플, 포르말린-고정된 파라핀-포매된 (FFPE) 샘플, 및 임의의 다른 방법에 의해 보존된 샘플을 포함하는 신선한 샘플 또는 저장된 샘플이 사용될 수 있다.
샘플은 정상 또는 건강한 대상체로부터의 것일 수 있다. 샘플은 또한 질환 또는 장애를 갖는 대상체로부터의 것일 수 있다. 임의의 질환 또는 장애를 갖는 대상체로부터의 샘플 중의 핵산은 본원에 제공된 방법에 의해 라벨링될 수 있다. 한 측면에서, 질환 또는 장애는 암이다. 일부 측면에서, 샘플은 암을 갖는 대상체로부터의 유체 샘플이다. 다른 측면에서, 샘플은 암을 갖는 대상체로부터의 조직 샘플이다. 일부 측면에서, 샘플은 암을 갖는 대상체로부터의 세포 샘플이다. 다른 측면에서, 샘플은 암 샘플이다. 암 샘플은 고형 종양 또는 액체 종양으로부터의 샘플일 수 있다. 암은 신장암 (kidney cancer), 신장암 (renal cancer), 방광암, 전립선암, 자궁암, 유방암, 자궁경부암, 난소암, 폐암, 결장암, 직장암, 구강암, 인두암, 췌장암, 갑상선암, 흑색종, 피부암, 두경부암, 뇌암, 조혈암, 백혈병, 림프종, 골암, 근육암, 육종, 횡문근육종 등일 수 있다.
핵산은 샘플에서 라벨링될 수 있다. 핵산은 또한 라벨링 전에 샘플로부터 추출, 단리 또는 정제될 수 있다. 추출, 단리 또는 정제를 위한 임의의 적합한 방법을 이용될 수 있다. 예시적인 방법은 페놀-클로로포름 추출, 구아니디늄-티오시아네이트-페놀-클로로포름 추출, 겔 정제, 및 컬럼 및 비드의 사용을 포함한다. 시판 키트가 핵산의 추출, 단리 또는 정제에 사용될 수 있다.
라벨링된 핵산은, 예컨대 핵산 라이브러리의 제조에 사용될 수 있다. 일부 측면에서, 라이브러리는 게놈 라이브러리이다. 라벨링된 핵산 분자를 포함하는 라이브러리는, 예컨대 말단 복구, A-테일링 및 어댑터 라이게이션을 통해 핵산 분자 또는 이의 단편에 본원에 제공된 올리고뉴클레오티드의 세트 또는 서브세트를 부착함으로써 제조될 수 있다. 일부 측면에서, 예컨대 DNA 분자와 같은 핵산 분자의 원래 말단을 결정하기 위해 말단 복구 및 A-테일링은 생략되고 특정 개체 또는 인덱스 세트와 연관된 가변 말단이 포함된다. 라벨링된 핵산 분자 및 이의 단편 및 라벨링된 핵산 분자 및 이의 단편의 라이브러리는, 예컨대 시퀀싱에 의해 분석될 수 있다. 임의의 적합한 시퀀싱 방법을 이용하여 라벨링된 핵산 분자를 분석할 수 있다. 시퀀싱 방법은 디멀티플렉싱 없이 핵산 서열 데이터를 저장하는 단계를 추가로 포함할 수 있다. 예컨대, 디멀티플렉싱 키를 사용하여 서열 데이터를 시퀀싱 판독물 그룹에 할당할 수 있다. 디멀티플렉싱 없이 핵산 서열 데이터를 저장하는 단계는 서열 데이터를 보호할 수 있다. 예컨대, 핵산 서열 데이터를 저장하면 정확한 디멀티플렉싱 키를 보유하지 않는 개체가 서열 데이터를 사용하는 것을 방지할 수 있으므로 데이터의 무단 사용을 방지할 수 있다.
본원에 제공된 핵산 분자를 라벨링하는 방법에서 바코드는 임의의 수의 뉴클레오티드를 포함할 수 있다. 예컨대, 바코드는 약 10개 내지 약 35개의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 바코드는 약 12 내지 약 25개의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 바코드는 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30, 약 31, 약 32, 약 33, 약 34, 약 35, 약 36, 약 37, 약 38, 약 39, 약 40개 또는 그 초과의 뉴클레오티드를 포함할 수 있다. 또 다른 예로서, 바코드는 적어도 5, 적어도 6, 적어도 7, 적어도 8, 적어도 9, 적어도 10, 적어도 11, 적어도 12, 적어도 13, 적어도 14, 적어도 15, 적어도 16, 적어도 17, 적어도 18, 적어도 19, 적어도 20, 적어도 21, 적어도 22, 적어도 23, 적어도 24, 적어도 25, 적어도 26, 적어도 27, 적어도 28, 적어도 29, 적어도 30, 적어도 31, 적어도 32, 적어도 33, 적어도 34, 적어도 35, 적어도 36, 적어도 37, 적어도 38, 적어도 39, 적어도 40개 또는 그 초과의 뉴클레오티드를 포함할 수 있다.
본원에 제공된 핵산 분자를 라벨링하는 방법에서 바코드는 하나 이상의 인덱스 위치를 포함할 수 있다. 예시적인 인덱스 위치는 샘플 인덱스 위치, 분자 인덱스 위치, DNA 말단 인덱스 위치, 및 세포 인덱스 위치를 포함한다. 예컨대, 바코드는 샘플 인덱스 위치 및 분자 인덱스 위치를 포함할 수 있다. 바코드는 또한 샘플 인덱스 위치, 분자 인덱스 위치, 세포 인덱스 위치, DNA 말단 인덱스 위치, 또는 이들의 임의의 조합을 포함할 수 있다.
본원에 제공된 핵산 분자를 라벨링하는 방법에서 바코드는 샘플 바코드를 포함할 수 있다. 샘플 바코드는 미리 결정된 수의 샘플 인덱스 위치를 포함할 수 있다. 미리 결정된 샘플 인덱스 위치의 수는 샘플 간에 다를 수 있다. 샘플 인덱스 위치의 로케이션도 샘플 간에 다를 수 있다. 일부 측면에서, 미리 결정된 샘플 인덱스 위치의 수 및 샘플 인덱스 위치의 로케이션은 샘플 간에 다를 수 있다. 따라서, 핵산 분자에 대한 샘플 소스 및 핵산 분자가 발생시킨 서열 판독물은 샘플 바코드를 형성하는 샘플 인덱스 위치의 수, 샘플 인덱스 위치의 로케이션, 또는 샘플 인덱스 위치의 수 및 로케이션 둘 다에 의해 확인될 수 있다.
본원에 제공된 핵산 분자를 라벨링하는 방법에서 샘플 바코드의 미리 결정된 수의 샘플 인덱스 위치는 하나 이상의 특정 뉴클레오티드를 포함할 수 있다. 예컨대, 미리 결정된 수의 샘플 인덱스 위치에 있는 하나 이상의 특정 뉴클레오티드는 A, T, G, 또는 C일 수 있다. 또 다른 예로서, 미리 결정된 수의 샘플 인덱스 위치에 있는 하나 이상의 특정 뉴클레오티드는 A 및 T, A 및 C, A 및 G, T 및 C, T 및 G, 또는 G 및 C일 수 있다.
일부 측면에서, 본원에 제공된 핵산 분자를 라벨링하는 방법에서 샘플 바코드는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 또는 그 초과의 샘플 인덱스 위치 또는 이들의 조합을 포함한다. 일부 측면에서, 본원에 제공된 핵산 분자를 라벨링하는 방법에서 샘플 바코드는 약 4 내지 약 12개의 샘플 인덱스 위치를 포함한다. 일부 측면에서, 본원에 제공된 핵산 분자를 라벨링하는 방법에서 샘플 바코드는 약 2, 약 3, 약 4, 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20개 또는 그 초과의 샘플 인덱스 위치, 또는 이들의 조합을 포함한다. 다른 측면에서, 본원에 제공된 핵산 분자를 라벨링하는 방법에서 샘플 바코드는 적어도 2, 적어도 3, 적어도 4, 적어도 5, 적어도 6, 적어도 7, 적어도 8, 적어도 9, 적어도 10, 적어도 11, 적어도 12, 적어도 13, 적어도 14, 적어도 15, 적어도 16, 적어도 17, 적어도 18, 적어도 19, 적어도 20개 또는 그 초과의 샘플 인덱스 위치, 또는 이들의 조합을 포함한다.
본원에 제공된 핵산 분자를 라벨링하는 방법에서 바코드는 분자 바코드를 포함할 수 있다. 분자 바코드는 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함할 수 있다. 예컨대, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드는 하기로부터 선택될 수 있다: (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임; (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임; (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임; (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임; (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임; (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임; (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임; (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임; (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는 (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임.
본원에 제공된 핵산 분자를 라벨링하는 방법에서 샘플 바코드의 샘플 인덱스 위치는 분자 인덱스 위치와 함께 산재될 수 있다. 따라서, 본원에 제공된 핵산 분자를 라벨링하는 방법에서 바코드는 뉴클레오티드의 특정한 인접한 스트레치 또는 블록에 국한될 필요가 없는 샘플 인덱스 위치 및 분자 인덱스 위치를 포함할 수 있다. 예컨대, 모든 샘플 인덱스 위치가 서로 옆에 있을 필요는 없으며, 모든 분자 인덱스 위치가 서로 옆에 있을 필요도 없다. 샘플 인덱스 위치 및 분자 인덱스 위치는 교대식일 수 있다. 임의의 수의 분자 인덱스 위치가 샘플 인덱스 위치 사이에 있을 수 있다. 임의의 수의 분자 인덱스 위치가 임의의 수의 샘플 인덱스 위치 사이에 있을 수 있다. 임의의 수의 분자 인덱스 위치 및 분자 인덱스 또는 다른 인덱스 위치가 아닌 임의의 수의 뉴클레오티드가 샘플 인덱스 위치 사이에 있을 수 있다. 임의의 수의 분자 인덱스 위치 및 분자 인덱스 또는 다른 인덱스 위치가 아닌 임의의 수의 뉴클레오티드가 임의의 수의 샘플 인덱스 위치 사이에 있을 수 있다. 샘플 인덱스 위치 또는 분자 인덱스 위치가 아닌 임의의 수의 뉴클레오티드가 샘플 인덱스 위치와 분자 인덱스 위치 사이에 있을 수 있다.
일부 샘플 인덱스 위치는 서로 옆에 있을 수 있고, 다른 샘플 인덱스 위치는 샘플 인덱스 위치가 아닌 바코드의 임의의 다른 뉴클레오티드 옆에 위치될 수 있다. 샘플 인덱스 위치 및 분자 인덱스 위치는, 예컨대 모든 샘플 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다. 샘플 인덱스 위치 및 분자 인덱스 위치는, 예컨대 모든 분자 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다. 샘플 인덱스 위치 및 분자 인덱스 위치는 또한, 예컨대 모든 샘플 인덱스 위치 및 모든 분자 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다. 임의의 인덱스 바코드의 위치는 인덱스 바코드의 모든 뉴클레오티드가 서로 인접할 필요가 없는 구성일 수 있다. 예시적인 바코드 인덱스는 샘플 바코드, 분자 바코드, 세포 바코드, DNA 말단 인덱스 위치 등을 포함한다.
본원에 제공된 핵산 분자를 라벨링하는 방법에서 분자 바코드는 약 5 내지 약 25개의 분자 인덱스 위치를 포함할 수 있다. 일부 측면에서, 본원에 제공된 핵산 분자를 라벨링하는 방법에서 분자 바코드는 약 5 내지 약 15개의 분자 인덱스 위치를 포함한다. 다른 측면에서, 본원에 제공된 핵산 분자를 라벨링하는 방법에서 분자 바코드는 약 2, 약 3, 약 4, 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30개 또는 그 초과의 분자 인덱스 위치를 포함한다. 다양한 측면에서, 본원에 제공된 핵산 분자를 라벨링하는 방법에서 분자 바코드는 적어도 2, 적어도 3, 적어도 4, 적어도 5, 적어도 6, 적어도 7, 적어도 8, 적어도 9, 적어도 10, 적어도 11, 적어도 12, 적어도 13, 적어도 14, 적어도 15, 적어도 16, 적어도 17, 적어도 18, 적어도 19, 적어도 20, 적어도 21, 적어도 22, 적어도 23, 적어도 24, 적어도 25, 적어도 26, 적어도 27, 적어도 28, 적어도 29, 적어도 30개 또는 그 초과의 분자 인덱스 위치를 포함한다.
본원에 제공된 핵산 분자를 라벨링하는 방법에서 바코드는 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함할 수 있다. 일부 측면에서, 하나 이상의 추가의 인덱스 바코드는 세포 바코드이다. 다른 측면에서, 하나 이상의 추가의 인덱스 바코드는 복구되지 않은 DNA 말단 길이의 측정치를 제공하는 바코드이다. 따라서, 본원에 제공된 핵산 분자를 라벨링하는 방법에서 바코드는 샘플 바코드, 분자 바코드, 세포 바코드, 복구되지 않은 DNA 말단 길이의 측정치를 제공하는 바코드, 임의의 다른 인덱스 바코드, 또는 이들의 임의의 조합을 포함할 수 있다. 따라서, 본원에 제공된 핵산 분자를 라벨링 위한 방법에서 바코드는 샘플 인덱스 위치, 분자 인덱스 위치, 및 예컨대 서로 산재된 세포 인덱스 위치와 같은 임의의 다른 인덱스 위치를 포함할 수 있다. 본원에 제공된 핵산 분자를 라벨링 위한 방법에서 바코드의 인덱스 위치는 뉴클레오티드의 특정한 인접한 스트레치 또는 블록에 국한될 필요가 없다. 인덱스 바코드 및 인덱스 위치는 모든 인덱스 위치가 서로 옆에 있을 필요가 없는 임의의 구성일 수 있다.
본원에 제공된 샘플 중의 핵산 분자를 라벨링하는 방법에서 올리고뉴클레오티드 세트의 각각의 올리고뉴클레오티드는 비-바코드 위치를 추가로 포함할 수 있다. 올리고뉴클레오티드에 포함된 비-바코드 위치는 혼성화를 위한 부위, 증폭을 위한 부위, 서열 프라이머 결합을 위한 부위, 및 혼성화, 서열 프라이머 결합 및 증폭을 위한 부위를 포함할 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30개 또는 그 초과의 뉴클레오티드를 포함할 수 있다. 혼성화를 위한 부위는, 예컨대 프로브의 결합을 위한 부위를 포함할 수 있다. 증폭을 위한 부위는, 예컨대 프라이머 결합 부위를 포함할 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 서로 다를 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 또한 겹칠 수 있다. 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 어느 정도 겹칠 수 있다. 일부 측면에서, 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 약 1, 약 2, 약 3, 약 4, 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 21, 약 22, 약 23, 약 24, 약 25, 약 26, 약 27, 약 28, 약 29, 약 30개 또는 그 초과의 뉴클레오티드가 겹친다. 일부 측면에서, 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 완전히 겹친다. 다른 측면에서, 혼성화, 서열 프라이머 결합을 위한 부위, 및 증폭을 위한 부위는 겹치지 않는다.
오류 서열 판독물을 확인하는 방법
한 실시양태에서, 본 발명은 오류 서열 판독물을 확인하는 방법으로서, (a) 복수의 올리고뉴클레오티드를 샘플의 핵산 분자에 부착하는 단계로서, 여기서 각각의 올리고뉴클레오티드는 (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다르고, 동일한 샘플 바코드는 샘플 중의 핵산 분자의 각각의 말단에 부착되는 것인 샘플 바코드; 및 (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드를 포함하는 바코드를 포함하고, 여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 단계; 및 (b) 핵산 분자를 시퀀싱하는 단계로서, 여기서 서열 판독물은 바코드 서열을 포함하고, 이로써 오류 서열 판독물을 확인하는 단계를 포함하는 것인 방법을 제공한다.
본원에 사용된 용어 "오류 서열 판독물"은 본원에 기재된 방법에 의해 확인될 수 있는 임의의 시퀀싱 오류를 지칭하는 것을 의미한다.
한 측면에서, 오류 서열 판독물을 확인하는 단계는 불일치 샘플 바코드를 갖는 핵산 분자를 확인하는 것을 포함한다.
본원에 기재된 방법은 핵산 분자의 각각의 말단에 동일한 샘플 바코드의 부착에 의존한다. 용어 "불일치 샘플 바코드"는 시퀀싱을 위한 핵산을 제조하는 과정에서 오류가 발생하여 핵산 분자의 각각의 말단이 상이한 바코드에 핵산 분자가 부착된 경우를 의미한다. 이로 인해 분자 패밀리에 오류 할당이 발생할 수 있으며, 이는 서열 판독물의 적절한 분석을 방해할 수 있다.
일부 측면에서, 시퀀싱 오류는 서열 판독물의 양쪽 말단에서 샘플 바코드를 비교함으로써 추가로 수정된다. 다른 측면에서, 불일치 샘플 바코드를 갖는 핵산 분자는 서열 판독물 및/또는 분자 패밀리로부터 추가로 제거된다.
또 다른 측면에서, 불일치 샘플 바코드를 갖는 핵산 분자를 확인하는 것은 미스프라이밍된 핵산 분자를 확인하는 것을 포함한다.
본원에 사용된 "미스프라이밍된 핵산 분자"는 다수의 쌍의 분자 바코드를 함유하는 핵산 분자를 지칭할 수 있다. 이러한 경우, 분자 수가 잘못 과장될 수 있고/또는 잘못된 샘플이 부정확한 분자 판독물에 할당될 수 있으며, 이는 판독물 변이체의 빈도 및/또는 정체에 부정적인 영향을 미칠 수 있다. 두 경우 모두 분석 및 결과의 임상 해석에 문제를 초래한다.
일부 측면에서, 미스프라이밍된 핵산 분자는 적절한 바코드로 수정되고 서열 품질을 개선하는데 사용된다. 다른 측면에서, 수정된 바코드를 갖는 핵산 분자는 수정된 판독물 패밀리에 할당된다.
다양한 측면에서, 수정된 판독물 패밀리는 구별되는 커버리지를 정확하게 결정하는데 사용된다. 일부 측면에서, 구별되는 커버리지 결정은 핵산 분자의 라이브러리를 평가하는데 사용된다.
한 측면에서, 방법은 분자 인덱스 위치의 로케이션 및 각각의 분자 인덱스 위치의 뉴클레오티드에 기초하여 서열 판독물을 분자 패밀리에 할당하는 단계를 추가로 포함한다. 일부 측면에서, 오류 서열 판독물을 확인하는 단계는 다수의 분자 패밀리에 할당된 핵산 분자를 확인하는 것을 포함한다. 다른 측면에서, 다수의 분자 패밀리에 할당된 핵산 분자는 서열 판독물 및/또는 분자 패밀리로부터 추가로 제거된다.
본원에 사용된 바와 같이, 단수형태는 문맥이 명백하게 달리 지시하지 않는 한 복수 참조를 포함한다. 따라서, 예컨대 "방법"에 대한 언급은 본원에 기재된 유형의 하나 이상의 방법 및/또는 단계를 포함하며, 이는 본 개시내용 등을 읽을 때 관련 기술분야의 통상의 기술자에게 명백해질 것이다.
달리 정의되지 않는 한, 본원에 사용된 모든 기술 및 과학 용어는 본 발명이 속하는 관련 기술분야의 통상의 기술자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다.
양, 시간적 기간 등과 같은 측정 가능한 값을 언급할 때 본원에서 사용된 "약"은 명시된 값으로부터 ±20% 또는 ±10%, 또는 ±5%, 또는 심지어 ± 1%의 변동을 포괄하는 것을 의미하며, 이러한 변동은 개시된 조성물에 적합하거나 개시된 방법을 수행하는데 적합하기 때문이다.
본원에 사용된 용어 "핵산"은 임의의 데옥시리보핵산 (DNA) 분자, 리보핵산 (RNA) 분자, 또는 핵산 유사체를 지칭한다. DNA 또는 RNA 분자는 이중-가닥 또는 단일-가닥일 수 있으며 임의의 크기일 수 있다. 예시적인 핵산은 염색체 DNA, 플라스미드 DNA, cDNA, 무세포 DNA (cfDNA), 순환 종양 DNA (ctDNA), mRNA, tRNA, rRNA, siRNA, 마이크로 RNA (miRNA 또는 miR), hnRNA를 포함하지만 이에 제한되지 않는다. 예시적인 핵산 유사체는 펩티드 핵산, 모르폴리노- 및 잠금 핵산, 글리콜 핵산, 및 트레오스 핵산을 포함한다. 본원에 사용된 용어 "핵산 분자"는, 예컨대 핵산 분자의 단편 뿐만 아니라 임의의 전장 또는 비-단편화된 핵산 분자를 포함하는 것을 의미한다.
본원에 사용된 용어 "뉴클레오티드"는 리보핵산 및 데옥시리보핵산의 개별 단위 뿐만 아니라 뉴클레오시드 및 뉴클레오티드 유사체, 및 라벨링된 뉴클레오티드와 같은 변형된 뉴클레오티드를 포함한다. 또한, "뉴클레오티드"는 슈가, 포스페이트, 및/또는 염기 단위가 없거나 다른 화학 구조로 대체된 것과 같은 비-자연 발생 유사체 구조를 포함한다. 따라서, 용어 "뉴클레오티드"는 개별 펩티드 핵산 (PNA) ((Nielsen et al., Bioconjug. Chem. 1994; 5(l):3-7) 및 잠금 핵산 (LNA) (Braasch and Corey, Chem. Biol. 2001; 8(1): 1-7) 단위 뿐만 아니라 다른 유사한 단위를 포괄한다.
본원에 사용된 용어 "대상체"는 본원에 개시된 방법이 수행되는 임의의 개체 또는 환자를 지칭한다. 용어 "대상체"는 용어 "개체" 또는 "환자"와 상호교환적으로 사용될 수 있다. 대상체는 동물일 수 있지만, 대상체는 인간일 수 있고, 이는 관련 기술분야의 통상의 기술자에 의해 이해될 것이다. 따라서, 포유동물, 예컨대 설치류 (마우스, 래트, 햄스터 및 기니피그 포함), 고양이, 개, 토끼, 소, 말, 염소, 양, 돼지 등을 포함한 농장 동물, 및 영장류 (원숭이, 침팬지, 오랑우탄 및 고릴라)를 포함한 다른 동물이 본 발명의 정의에 포함된다. 대상체는 식물 또는 미생물일 수도 있다.
본원에 사용된 용어 "치료하다", "치료", "요법", "치료적" 등은 진행을 완화, 지연 또는 늦추는 것, 효과 또는 증상을 감소시키는 것, 발병을 예방하는 것, 질환 또는 장애의 발병을 억제, 개선하는 것, 질환, 장애, 또는 의학적 병태와 관련하여 유익한 또는 원하는 결과, 예컨대 치료적 이익 및/또는 예방적 이익을 얻는 것을 포함하지만 이에 제한되지 않는 원하는 약리학적 및/또는 생리학적 효과를 얻는 것을 지칭한다. 본원에 사용된 "치료"는 포유동물, 특히 인간에서 임의의 질환 치료를 포함하며, 하기를 포함한다: (a) 질환에 걸리기 쉽거나 질환에 걸릴 위험이 있을 수 있지만 아직 질환에 걸린 것으로 진단되지 않는 대상체에서 질환이 발생하는 것을 예방하는 것; (b) 질환을 억제하는 것, 즉 질환의 발달을 저지하는 것; 및 (c) 질환을 경감시키는 것, 즉 질환의 퇴행을 유발하는 것. 치료적 이익은 치료 중인 기저 장애의 근절 또는 개선을 포함한다. 또한, 치료적 이익은 대상체가 여전히 기저 장애를 앓을 수 있음에도 불구하고 대상체에서 개선이 관찰되도록 기저 장애와 연관된 하나 이상의 생리학적 증상의 근절 또는 개선과 함께 달성된다. 일부 경우에서, 예방적 이익을 위해, 질환의 진단이 내려지지 않았을지라도 특정 질환이 발병할 위험이 있는 대상체 또는 질환의 생리학적 증상 중 하나 이상을 보고하는 대상체에게 치료제가 투여된다. 본 개시내용의 방법은 임의의 포유동물 또는 다른 동물과 함께 이용될 수 있다. 일부 경우에서, 치료로 증상이 감소되거나 중단될 수 있다. 예방 효과는 질환 또는 병태의 출현을 지연 또는 제거하는 것, 질환 또는 병태의 증상의 발병을 지연 또는 제거하는 것, 질환 또는 병태의 진행을 지연, 정지 또는 역전시키는 것, 또는 이들의 임의의 조합을 포함한다.
실시예
실시예 1
본 실시예는 다중 인덱싱된 샘플에 대한 플로팅/디지털 바코드의 설계를 설명한다.
플로팅 또는 디지털 바코드의 주어진 위치에서 뉴클레오티드의 존재 또는 부재는 소비자 제품 바코드 (UPC)와 유사한 정보 콘텐츠를 제공한다 (도 1). 상이한 인덱스의 경우, 뉴클레오티드 또는 "막대"가 상이한 위치로 이동하거나 플로팅하며, 이러한 새 위치는 교대식 인덱스를 나타낸다. 이용 가능한 서열 로케이션이 증가함에 따라 가능한 바코드의 수는 빠르게 증가한다. 1차 인덱스에 사용되지 않는 위치는 2차 또는 추가 인덱스에 사용될 수 있다. 단일 세포 시퀀싱과 같은 방법에 유용할 추가 수준의 인덱싱을 포함하는 것도 가능하다. 단일 세포 시퀀싱의 경우, 예컨대 단일 바코드 내에 샘플 인덱스, 세포 인덱스 및 분자 인덱스가 모두 있을 수 있다. 바코드 생성 조건의 선택에 따라, 상이한 수의 1차 및 2차 바코드가 이용 가능하며, 필요에 따라 오류 검출 및 오류 수정 강도를 조정할 수 있다.
샘플에서 상이한 분자의 수는 전형적으로 매우 많으며, 각각의 샘플에 대해 수백만 개 이상의 분자가 시퀀싱된다. 이러한 많은 수의 분자로 인해, 일반적으로 각각의 분자 바코드에 대한 개별 올리고뉴클레오티드를 합성 및 정제하는 것이 불가능하다. 다수의 위치의 축중성 뉴클레오티드는 종종 상이한 분자를 구별하는데 필요한 다양성을 제공하는데 사용된다. 전형적으로, 정의된 샘플 바코드 및 무작위 분자 바코드는 분석을 위해 서로 분리된다. 플로팅/디지털 바코드 시스템을 사용하면 다수 유형의 바코드가 영역 내에서 혼합된다.
표준 고정 길이 바코드와 비교하여, 이는 서열이 참조와 직접 비교되지 않는 로케이션-기반 방법을 이용하는 샘플을 인덱싱하기 위한 근본적으로 상이한 방법을 나타낸다. 샘플 바코드의 로케이션은 샘플에 따라 다르며, 해당 로케이션은 샘플 패밀리를 확인하는데 사용된다. 표준 바코드를 사용하면 서열이 서로 비교되고 완벽하거나 거의 완벽한 서열 정체가 샘플 패밀리로 함께 그룹화된다. 플로팅/디지털 바코드를 사용하면 서열이 서로 직접 비교되지 않고 디지털 +/- 방식으로 로케이션을 표시하는데 사용된다. 이어서, +/- 로케이션 데이터는 기존 제품 바코드와 유사한 샘플을 구별하는데 사용된다 (도 1). 도 1에 나타낸 예에서, 뉴클레오티드 "A"가 있는 임의의 위치는 샘플 바코드의 일부이고 임의의 다른 뉴클레오티드는 분자 바코드의 일부이다. "A"가 시퀀싱될 때마다 이의 로케이션이 기록되고 샘플 패밀리를 결정하는데 사용된다.
새로운 유형의 바코드는, 예컨대 하기를 포함하는 다수의 요건을 기반으로 설계되었다: (1) 임의의 실행에서 샘플 및 분자 수를 수용할 수 있는 고유한 바코드가 충분해야 하며; (2) 각각의 분자 판독물의 상이한 말단 상의 조합된 샘플/분자 바코드는 상이해야 하지만 고용량 시퀀서에서 인덱스 호핑을 검출하기 위해 예측 가능한 샘플 바코드여야 하며; (3) 바코드는 서열 품질에 영향을 미치는 염기 조성에서 광범위한 폴리뉴클레오티드 반복 또는 익스트림을 함유하지 않아야 하며; (4) 분자 인덱스는 가능한 모든 분자를 구별하기 위해 매우 다양해야 하며; (5) 샘플 바코드 설계는 실행 가능한 수의 올리고뉴클레오티드 합성에 적합해야 한다.
플로팅 또는 디지털 바코드의 새로운 설계는 상기 기준을 충족한다. 예컨대, 새로운 바코드 설계는 이미 NextSeq 및 NovaSeq 일루미나 시퀀서 둘 다에 적합한 비교적 짧은 서열 내에 이러한 모든 특색을 통합할 수 있다. 동일하거나 유사한 설계가 다른 시퀀싱 시스템에 적합하게 만들어질 수 있다.
새로운 플로팅/디지털 바코드는 인접한 위치에서 샘플 및 분자 바코드를 혼합하고 샘플 패밀리를 할당하기 위해 직접적인 서열 비교가 아닌 로케이션 정보를 사용한다. 임의의 주어진 위치에서 뉴클레오티드 서열은 해당 위치가 샘플 또는 분자 위치로 지정되어야 하는지의 여부를 결정하는데 사용된다. 이어서, 이 로케이션 정보는 바코드를 결정하고 샘플 패밀리를 할당하는데 사용된다. 샘플 바코드 로케이션의 수가 예상된 수 또는 위치와 일치하지 않는 경우, 분자는 폐기되거나 바코드를 수정하기 위한 시도가 이루어질 할 수 있다. 이러한 바코드의 설계는 바코드 및 클래스를 유연하게 할당할 수 있으므로 특정 샘플 및 세포에 판독물을 할당해야 하는 시퀀싱 실행 또는 단일 세포 접근 방식 시 멀티플렉스 샘플을 포함한 다양한 적용에 사용될 수 있다.
바코드의 많은 구성이 가능하다. 많은 가능성의 한 예로서, 샘플 인덱스는 항상 뉴클레오티드 "A"일 수 있는 반면, 분자 인덱스는 임의의 다른 뉴클레오티드 (C, G, T)일 수 있다. IUPAC 명명법을 이용하여, C, G 또는 T는 기호 "B"로 표시되고 A, C 또는 G는 기호 "V"로 표시된다. 이러한 방식으로 잠재적으로 사용될 수 있는 서열의 예는 도 2a-2c에 나타나 있다.
주어진 위치 수 (n)에 대해 가능한 바코드의 수는 하기 수학식으로부터 계산될 수 있다.
Cr = n! / r! (n - r)!
상기 식에서, n은 가능한 위치의 수이고, r은 채워질 위치의 수이다. 다양한 서열 크기에 대한 최대 가능성 수는 표 1에 나타나 있다.
<표 1>
Figure pct00001
각각의 위치에서 이진 선택은 위치가 분자 인덱스 또는 샘플 인덱스 위치로 사용되는지의 여부를 결정한다. 서열이 샘플 인덱스 서열 (예컨대, A)과 일치하는 경우, 이는 샘플 바코드의 일부이다. 서열이 일치하지 않는 경우 (예컨대, C, G 또는 T), 이는 축중성 분자 인덱스의 일부이다. 도 2c에 나타낸 예에서, 각각의 20 nt 세그먼트 내에 최대 7개의 위치가 샘플 인덱스 위치에 할당되고 13개 이상은 3배 축중되어 각각의 샘플 바코드 20 nt 스트레치는 3^13 또는 1,594,323배 축중된다. 각각의 분자는 이러한 2개의 바코드를 갖기 때문에, 임의의 개별 분자는 1,594,323^2 또는 2조 5천억배 축중될 수 있다.
도 3a에 나타난 바와 같이, 많은 유형의 표준 어댑터는 상이한 어댑터 올리고뉴클레오티드에 위치된 축중성 분자 바코드 및 고정된 샘플 바코드를 갖는다 (서열식별번호 (SEQ ID NO): 1 및 2 참조). 이는 도 3b에 나타난 바와 같이 2개가 혼합된 플로팅 바코드의 경우는 아니다 (서열식별번호: 5 및 6 참조).
오류 수정 및 샘플 및 분자 바코드의 패턴은 다양한 형태를 취할 수 있다. 체세포 변이체의 시퀀싱과 같은 일부 경우에는 판독물이 오할당되지 않는 것이 중요하다. 따라서, 강력한 오류 검출 및 수정을 갖는 것이 중요하다. 예컨대 고정된 수의 샘플 바코드 위치가 있는 경우, 해당 수를 일치시키면 한 가지 유형의 품질 체크가 제공된다. 바코드가 선택된 길이가 아닌 경우, 해당 특정 분자에 시퀀싱 오류가 있을 것이다. 예상된 바코드에 기초하여 오류를 수정할 수 있거나 오할당을 피하기 위해 전체 결과로부터 서열을 제거해야 할 수 있다. 대안적으로, 다양한 수의 샘플 바코드 위치를 사용할 수 있지만 허용 가능한 패턴에 기초하여 임의의 단일 시퀀싱 오류를 검출하고 고정할 수 있는 방식으로 생성할 수 있다. 이러한 경우, 모든 샘플 바코드는 다른 모든 샘플 바코드와 적어도 2개 또는 적어도 3개 이상의 변경으로 구분된다. 다른 경우에서, 일시적 오할당은 중요한 문제가 아닐 수 있으며 최대 바코드 수를 제공하는 것이 더 중요하다. 이는 일부 유형의 오류 검출/수정을 방지하지만 여전히 동일한 분자의 양쪽 말단에서 바코드의 비교를 허용한다.
샘플 바코드를 나타내는 단일 뉴클레오티드 이외에, 다른 변형이 가능하다. 예컨대, 샘플 (또는 세포) 바코드는 고정된 A 또는 T로 표시되고 분자 바코드는 축중성 G/C로 표시될 수 있다. 이 구성은 더 적은 수의 분자 바코드로 더 많은 샘플/세포 바코드를 생성한다. 샘플/분자 바코드 위치의 수 및 축중성을 변경하면 당면한 적용에 대해 둘 다의 수를 최적화할 수 있다.
플로팅 또는 디지털 바코드 시스템은 동일한 샘플 바코드가 동일한 핵산 분자의 양쪽 말단에 놓이도록 한다. 기존의 DNA 바코드를 사용하면 동일한 분자의 양쪽 말단에 동일한 샘플 바코드를 사용할 수 없다. 동일한 표준 샘플 바코드가 동일한 분자의 양쪽 말단에 배치되면 상이한 분자가 교차-혼성화될 수 있어 증폭 동안 인공 키메라 분자가 생성될 위험이 높다. 분자의 양쪽 말단에 동일한 바코드 서열이 있으면 2개의 3' 대부분의 영역이 혼성화되어 부분적으로 중복된 분자를 생성할 수 있다. 표준 샘플 바코드는 증폭되는 샘플에서 수백만 번 존재할 수 있기 때문에 키메라 분자 형성 가능성이 높다 (도 4 및 서열식별번호: 7 및 8 참조). 플로팅 바코드의 경우에는 그렇지 않으며, 이는 동일한 샘플 바코드를 사용하더라도 인접한 동일한 염기의 긴 스트레치가 없기 때문이다. 플로팅 어댑터에 대한 샘플 바코드는 상동성 영역이 짧기 때문에 비-특이적 상호작용 및 키메라 형성 위험이 거의 없다. 따라서, 동일한 샘플 바코드를 동일한 분자의 양쪽 말단에 배치하여 다른 것에서의 오류에 대해 두 바코드를 비교할 수 있다. 오류가 발견되지 않으면 샘플은 자신 있게 할당될 수 있다. 두 바코드가 동일하지 않은 경우, 이들은 허용된 바코드 목록과 비교되고 이에 따라 수정될 수 있다. 각각의 인덱스에 사용되는 바코드의 수는 오류가 수정될 수 있는 정도를 결정한다.
따라서, 키메라 형성 위험이 낮은 동일한 분자의 양쪽 말단에 동일한 샘플 바코드를 배치하는 기능은 간단하지만 강력한 오류 수정 가능성을 제공한다. 분자의 각각의 말단에 있는 샘플 바코드를 간단히 비교하여 정체를 확인한다. 동일한 경우, 분자는 적절한 샘플 패밀리에 배치될 수 있다. 일치하지 않으면, 둘 다 허용 가능한 샘플 바코드 세트와 비교될 수 있고 오류 바코드는 잠재적으로 수정될 수 있다. 이 방법은 판독물 손실을 최소화하면서 분자가 적절한 샘플 패밀리에 할당되도록 하는 강력한 방법을 제공한다. 샘플 바코드 수정의 예가 표 2에 나타나 있다. 바코드 사이의 편집 거리는 편집 거리가 더 길 때 바코드를 수정하고 판독물을 유지하는 더 나은 기능으로 바코드가 수정되는 방식을 결정할 것이다.
동일한 분자의 상이한 말단에서 샘플 바코드의 일치 결여는 샘플 제조에서 문제가 있는 프로세스에 대한 증거를 제공한다. 비-일치 샘플 바코드로 입증되는 바와 같은 키메라 분자의 빈도를 모니터링하여 라이브러리 제조 및 시퀀싱 방법론을 개선할 수 있다.
특정 분자 바코드가 다수의 상이한 분자 바코드와 일치하고 불일치 수가 단순한 시퀀싱 오류로 인한 것이 아님을 나타내는 경우, 이는 하나 이상의 분자 판독물이 불일치함을 나타낸다. 분자 쌍의 상대적 빈도는 어떤 것이 우세한 종이고 있는 그대로 사용될 수 있는지 및 어떤 것이 인공물일 가능성이 있고 수정 또는 제거가 필요한지를 결정하는데 사용될 수 있다. 한 쌍의 샘플에 대해 i5 및 i7 어댑터가 분배되는 방식에 대한 분석은 표 3을 참조한다. 정확한 및 수정 가능한 바코드는 간단한 방식으로 사용될 수 있지만 미스프라이밍된 분자는 판독물을 복구하려면 더 복잡한 분석이 필요하다. 어떤 판독물이 미스프라이밍되었는지를 알지 못하면 부정확한 정보가 분석에 포함될 수 있다. 미스프라이밍이 발생한 위치를 알면 서열 판독물을 적절하게 처리할 수 있다. 미스프라이밍은 확실하게 검출될 수 있을 만큼 충분히 낮은 수준일 때만 수정될 수 있다.
도 6에 나타난 바와 같이, 라이게이션 단계에서 어댑터의 과잉은 잔류 어댑터가 PCR 프라이머 (예컨대, 서열식별번호: 3 및 4)에 의해 연장되고 이후 증폭의 후기 단계에서 사용될 때 심각한 문제를 초래할 수 있다. 0.2 μM 이하에서는 미스프라이밍이 상대적으로 낮지만 0.5 μM 이상에서는 실질적으로 증가한다.
<표 2>
Figure pct00002
<표 3>
Figure pct00003
요약하면, 새로운 플로팅 또는 디지털 바코드를 설계하는 접근 방식의 근본적인 차이는 특정 뉴클레오티드 서열이 아닌 뉴클레오티드 로케이션을 바코드로 사용하는 것이었다. 이 테마에는 바코드 수 및 오류 수정 방법에서 유연성을 허용하는 다수의 가능한 변형이 있다. 새로운 바코드의 이점 중 일부는 (1) 샘플 및 분자 패밀리에 대한 NGS 판독물 할당 개선; (2) 복잡한 샘플에 대한 올리고 합성/정제 횟수의 감소; (3) 축중성 영역에서 문제가 있는 단독중합체 및 GC-풍부 스트레치의 수의 감소.
실시예 2
본 실시예는 샘플로 플로팅 바코드의 시험을 설명한다.
플로팅 바코드를 시험하기 위해 최대 감도로 판독물 불일치를 검출하도록 실험을 설계하였다. 표준 라이브러리 제조 프로토콜이 이용되었다. 표준 바코드와 플로팅 바코드 간에 수율의 유의한 차이는 관찰되지 않았다.
오할당을 검출하기 위해 3개의 샘플을 제조하고 표준 바코드 및 플로팅 바코드 모두와 병렬로 시퀀싱하였다. 각각의 샘플은 상이한 바코드를 사용하여 제조되었다. 3개의 샘플은 인간 DNA에 대해 표적화된 패널을 사용하여 포획된 인간 DNA 및 절단되었지만 선택적으로 포획되지 않은 이. 콜라이 (E. coli) 및 아라비도프시스 탈리아나 (Arabidopsis thaliana)로부터의 게놈 DNA였다. 6개 샘플 모두 20nt 인덱스 시퀀싱을 위해 설정된 동일한 NextSeq 시퀀싱 실행에서 실행되었다. 생성된 판독물은 한 번은 표준 바코드를 사용하고 한 번은 플로팅 바코드를 사용하여 2회 디멀티플렉싱되었다. 이어서, 판독물을 별도로 분석하여 어떤 게놈 판독물이 정렬되었는지를 확인하였다. 인간 정렬된 서열의 경우 초기 알고리즘은 표준 정렬과 같거나 더 우수하였으며, 도 5에 나타난 바와 같이 0.002% 미만의 판독물이 이. 콜라이 및 아라비도프시스 탈리아나에 할당된 바코드에 정렬되었다. 오프-타겟 판독물 매핑이 낮을수록 판독물 할당에 대한 오류율이 더 낮아졌다.
이러한 데이터는 플로팅 또는 디지털 바코드가 표준 바코드와 비교할 때 잘 수행됨을 나타낸다. 예컨대, 변경 블로커를 포함한 실험실 프로토콜의 최적화 및 디멀티플렉싱, 및 예컨대, 디멀티플럭싱, 오류 수정 및 판독물 패밀리 생성을 위한 소프트웨어를 포함한 소프트웨어/알고리즘은 서열 분석을 위한 플로팅 또는 디지털 바코드로 수득되는 결과를 더욱 향상시킬 것이다. 또한, 플로팅 또는 디지털 바코드는, 예컨대 단일-세포 분석에서 세포를 표시하는 것과 같이 다수의 인덱스가 유용한 다수의 적용 및 1, 2, 3개 또는 그 초과의 인덱스가 분자, 세포, 및/또는 샘플 특성을 표시하고 각각의 범주로 그룹화하는데 유용한 시스템에 사용될 수 있다.
요약하면, 새로운 플로팅 또는 디지털 바코드 시스템은, 예컨대 분석을 위한 다수의 이점, 예컨대 유연성, 올리고 합성의 낮은 비용, 및 정확한 샘플 및 분자 패밀리로 판독물을 더 잘 할당하는 예상외로 놀랍게도 현재의 오류 수정 방법보다 개선된 오류 수정을 위한 쉬운 방법을 제공한다.
실시예 3
본 실시예는 플로팅 바코드를 사용하여 샘플로부터 부정확하게 할당된 분자 판독물을 확인하고 제거할 수 있는 방법을 설명한다.
샘플 바코드가 각각의 분자의 양쪽 말단에 코딩되기 때문에, 바코드는 오류 수정 및 다수의 샘플로부터 발생하는 원하지 않는 키메라 분자가 유의미한 정도로 발생하지 않았다는 것의 확인 모두를 위해 비교될 수 있다. 도 6에 나타난 바와 같이, 키메라 분자의 형성은 표준 조건을 이용하더라도 중요한 문제가 될 수 있다. 문제는 동일한 분자가 다수의 쌍의 분자 바코드를 획득하고 분자 수를 인공적으로 부풀리거나 잘못된 샘플이 분자 판독물에 할당되어 변이체의 부정확한 빈도 또는 정체를 초래하는 형태를 취할 수 있다. 두 상황은 모두 결과의 임상적 해석에 영향을 줄 수 있는 분석 문제로 이어진다.
라이브러리 제조에서 증폭 프라이머의 절대적 및 상대적 농도는 바코드의 효율 및 정확도에 변동을 초래한다. 어댑터의 초기 농도가 높을수록 라이게이션이 더 효율적이고 회수될 수 있는 샘플의 비율이 더 높아진다. 불행히도, 어댑터가 과도하면 어댑터가 증폭되거나 프라이머로 사용되는 증폭 문제가 초래되고 추가된 바코드가 단지 라이게이션 단계 보다는 증폭 동안 추가될 수 있다 (도 7). 증폭 동안 새로운 샘플 바코드가 추가되면 판독물이 잘못된 샘플에 할당될 것이고 변이체의 빈도 또는 존재가 덜 정확해진다. 증폭 동안 새로운 분자 바코드가 추가되면 각각의 분자는 다수의 쌍의 바코드를 가지므로 분자 다양성이 과대 평가되고 해당 판독물의 오류 수정이 더 어렵거나 불가능해진다. 표준 바코드로는 이러한 문제의 정도를 측정하는 것조차 불가능하다. 플로팅 바코드를 사용하면 이러한 문제가 쉽게 검출되고 정확도를 최적화하기 위해 방법이 개선될 수 있다.
실시예 4
분자 바코드는 무작위이지만 샘플 바코드 내에 산재되어 있기 때문에 문제를 일으킬 수 있는 완전 무작위 염기의 긴 스트레치를 함유하지 않는다. 완전 무작위 바코드는 100% GC일 수 있는 반면 20 nt 전체 서열은 모두 A 또는 모두 T일 수 있는 샘플 바코드를 함유해야 하므로 GC 함량에 대한 상한선 (전형적으로 65%)을 설정해야 한다. 이는 또한 긴 단독중합체를 방지한다. 완전 무작위 바코드는 대부분의 서열은 몇 번만 발생하는 반면 수백 카피로 발생할 수 있는 특정 서열을 갖는 것으로 나타났다 [Kinde I, Wu J, Papadopoulos N, Kinzler KW, Vogelstein B. Detection and quantification of rare mutations with massively parallel sequencing. Proc Natl Acad Sci U S A. 2011 Jun 7;108(23):9530-5. doi: 10.1073/pnas.1105422108. Epub 2011 May 17. PMID: 21586637; PMCID: PMC3111315]. 이러한 분자 바코드의 보다 균일한 콘텐츠가 도 8에 나타나 있으며, 여기서 소수의 바코드는 상당히 과도하게 표현된다.
본 발명은 상기 실시예를 참조하여 설명되었지만, 변형 및 변경이 본 발명의 취지 및 범위 내에 포괄된다는 것이 이해될 것이다. 따라서, 본 발명은 하기 청구범위에 의해서만 제한된다.
SEQUENCE LISTING <110> PERSONAL GENOME DIAGNOSTICS INC. THOMPSON, JOHN F. <120> FLOATING BARCODES <130> PGDX3120-1WO <140> <141> <150> 63/006,556 <151> 2020-04-07 <160> 8 <170> PatentIn version 3.5 <210> 1 <211> 72 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (30)..(39) <223> a, c, t, g, unknown or other <400> 1 aatgatacgg cgaccaccga gatctacacn nnnnnnnnna cactctttcc ctacacgacg 60 ctcttccgat ct 72 <210> 2 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 2 gatcggaaga gcacacgtct gaactccagt cactggagta gatctcgtat gccgtcttct 60 gcttg 65 <210> 3 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 3 aatgatacgg cgaccaccga gatctaca 28 <210> 4 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 4 caagcagaag acggcatacg agat 24 <210> 5 <211> 82 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 5 aatgatacgg cgaccaccga gatctacacb bbbbabbabb abababaaba cactctttcc 60 ctacacgacg ctcttccgat ct 82 <210> 6 <211> 77 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 6 gatcggaaga gcacacgtct gaactccagt cacbbbbbab babbababab aabatctcgt 60 atgccgtctt ctgcttg 77 <210> 7 <211> 168 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <221> modified_base <222> (83)..(90) <223> a, c, t, g, unknown or other <400> 7 aatgatacgg cgaccaccga gatctacaca aaaaaaaaaa aaaaaaaaaa cactctttcc 60 ctacacgacg ctcttccgat ctnnnnnnnn agatcggaag agcacacgtc tgaactccag 120 tcacaaaaaa aaaaaaaaaa aaaaatctcg tatgccgtct tctgcttg 168 <210> 8 <211> 169 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <221> modified_base <222> (79)..(87) <223> a, c, t, g, unknown or other <400> 8 caagcagaag acggcatacg agattttttt tttttttttt ttttgtgact ggagttcaga 60 cgtgtgctct tccgatctnn nnnnnnnaga tcggaagagc gtcgtgtagg gaaagagtgt 120 tttttttttt tttttttttt gtgtagatct cggtggtcgc cgtatcatt 169

Claims (71)

  1. 복수의 바코드를 포함하는 올리고뉴클레오티드 세트를 포함하는, 샘플 중의 핵산 분자를 라벨링하기 위한 시스템으로서, 각각의 바코드는
    (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및
    (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드
    를 포함하는 인접한 염기의 스트레치를 포함하고,
    여기서 샘플 인덱스 위치는 분자 인덱스 위치 사이에 산재되어 있는 것인 시스템.
  2. 제1항에 있어서, 미리 결정된 수의 샘플 바코드 위치가 상이한 샘플 바코드마다 다른 것인 시스템.
  3. 제1항에 있어서, 바코드가 약 10 내지 약 35개의 뉴클레오티드를 포함하는 것인 시스템.
  4. 제1항에 있어서, 바코드가 약 12 내지 약 25개의 뉴클레오티드를 포함하는 것인 시스템.
  5. 제1항에 있어서, 샘플 바코드가 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개의 샘플 인덱스 위치 또는 이들의 조합을 포함하는 것인 시스템.
  6. 제1항에 있어서, 샘플 바코드가 약 4 내지 약 12개의 샘플 인덱스 위치를 포함하는 것인 시스템.
  7. 제1항에 있어서, 분자 바코드가 약 5 내지 약 25개의 분자 인덱스 위치를 포함하는 것인 시스템.
  8. 제1항에 있어서, 분자 바코드가 약 5 내지 약 15개의 분자 인덱스 위치를 포함하는 것인 시스템.
  9. 제1항에 있어서, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드가 하기로부터 선택되는 것인 시스템:
    (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임;
    (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임;
    (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임;
    (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임;
    (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임;
    (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임;
    (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임;
    (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임;
    (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는
    (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임.
  10. 제1항에 있어서, 각각의 바코드가 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함하는 것인 시스템.
  11. 제10항에 있어서, 하나 이상의 추가의 인덱스 바코드가 세포 바코드, 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드, 또는 세포 바코드 및 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드 둘 다인 시스템.
  12. 제1항에 있어서, 올리고뉴클레오티드 세트 내의 각각의 올리고뉴클레오티드가 혼성화를 위한 부위, 서열 프라이머 결합을 위한 부위, 증폭을 위한 부위, 또는 이들의 임의의 조합을 포함하는 비-바코드 위치를 추가로 포함하는 것인 시스템.
  13. 복수의 바코드를 포함하는, 샘플 중의 핵산 분자를 라벨링하기 위한 올리고뉴클레오티드 세트로서, 각각의 바코드는
    (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및
    (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드
    를 포함하고,
    여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 올리고뉴클레오티드 세트.
  14. 제13항에 있어서, 미리 결정된 수의 샘플 바코드 위치가 상이한 샘플 바코드마다 다른 것인 올리고뉴클레오티드 세트.
  15. 제13항에 있어서, 바코드가 약 10 내지 약 35개의 뉴클레오티드를 포함하는 것인 올리고뉴클레오티드 세트.
  16. 제13항에 있어서, 바코드가 약 12 내지 약 25개의 뉴클레오티드를 포함하는 것인 올리고뉴클레오티드 세트.
  17. 제13항에 있어서, 샘플 바코드가 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개의 샘플 인덱스 위치, 또는 이들의 조합을 포함하는 것인 올리고뉴클레오티드 세트.
  18. 제13항에 있어서, 샘플 바코드가 약 4 내지 약 12개의 샘플 인덱스 위치를 포함하는 것인 올리고뉴클레오티드 세트.
  19. 제13항에 있어서, 분자 바코드가 약 5 내지 약 25개의 분자 인덱스 위치를 포함하는 것인 올리고뉴클레오티드 세트.
  20. 제13항에 있어서, 분자 바코드가 약 5 내지 약 15개의 분자 인덱스 위치를 포함하는 것인 올리고뉴클레오티드 세트.
  21. 제13항에 있어서, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드가 하기로부터 선택되는 것인 올리고뉴클레오티드 세트:
    (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임;
    (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임;
    (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임;
    (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임;
    (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임;
    (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임;
    (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임;
    (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임;
    (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는
    (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임.
  22. 제13항에 있어서, 각각의 바코드가 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함하는 것인 올리고뉴클레오티드 세트.
  23. 제22항에 있어서, 하나 이상의 추가의 인덱스 바코드가 세포 바코드, 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드, 또는 세포 바코드 및 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드 둘 다인 올리고뉴클레오티드 세트.
  24. 제13항에 있어서, 올리고뉴클레오티드 세트 내의 각각의 올리고뉴클레오티드가 혼성화를 위한 부위, 서열 프라이머 결합을 위한 부위, 증폭을 위한 부위, 또는 이들의 임의의 조합을 포함하는 비-바코드 위치를 추가로 포함하는 것인 올리고뉴클레오티드 세트.
  25. 샘플 중의 핵산 분자의 서열을 분석하는 방법으로서,
    (a) 복수의 올리고뉴클레오티드를 핵산 분자에 부착하는 단계로서, 여기서 각각의 올리고뉴클레오티드는
    (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및
    (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드
    를 포함하는 바코드를 포함하고,
    여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 단계; 및
    (b) 핵산 분자를 시퀀싱하는 단계로서, 여기서 서열 판독물은 바코드 서열을 포함하는 것인 단계
    를 포함하는 방법.
  26. 제25항에 있어서, 동일한 샘플 바코드를 포함하는 올리고뉴클레오티드를 샘플 중의 핵산 분자의 각각의 말단에 부착하는 단계를 추가로 포함하는 방법.
  27. 제25항에 있어서, 미리 결정된 수의 샘플 바코드 위치가 상이한 샘플 바코드마다 다른 것인 방법.
  28. 제25항에 있어서, 바코드가 약 10 내지 약 35개의 뉴클레오티드를 포함하는 것인 방법.
  29. 제25항에 있어서, 바코드가 약 12 내지 약 25개의 뉴클레오티드를 포함하는 것인 방법.
  30. 제25항에 있어서, 샘플 바코드가 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개의 샘플 인덱스 위치, 또는 이들의 조합을 포함하는 것인 방법.
  31. 제25항에 있어서, 샘플 바코드가 약 4 내지 약 12개의 샘플 인덱스 위치를 포함하는 것인 방법.
  32. 제25항에 있어서, 분자 바코드가 약 5 내지 약 25개의 분자 인덱스 위치를 포함하는 것인 방법.
  33. 제25항에 있어서, 분자 바코드가 약 5 내지 약 15개의 분자 인덱스 위치를 포함하는 것인 방법.
  34. 제25항에 있어서, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드가 하기로부터 선택되는 것인 방법:
    (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임;
    (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임;
    (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임;
    (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임;
    (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임;
    (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임;
    (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임;
    (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임;
    (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는
    (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임.
  35. 제25항에 있어서, 각각의 바코드가 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함하는 것인 방법.
  36. 제35항에 있어서, 하나 이상의 추가의 인덱스 바코드가 세포 바코드, 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드, 또는 세포 바코드 및 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드 둘 다인 방법.
  37. 제25항에 있어서, 샘플 인덱스 위치의 로케이션에 기초하여 서열 판독물을 샘플 패밀리에 할당하는 단계를 추가로 포함하는 방법.
  38. 제25항에 있어서, 분자 인덱스 위치의 로케이션 및 각각의 분자 인덱스 위치의 뉴클레오티드에 기초하여 서열 판독물을 분자 패밀리에 할당하는 단계를 추가로 포함하는 방법.
  39. 제25항에 있어서, 서열 판독물 내의 샘플 인덱스 위치의 수 및 로케이션을 샘플 인덱스 위치의 미리 결정된 수 및 로케이션과 비교함으로써 시퀀싱 오류를 수정하는 단계를 추가로 포함하는 방법.
  40. 제25항에 있어서, 서열 판독물의 양쪽 말단에서 샘플 바코드를 비교함으로써 시퀀싱 오류를 수정하는 단계를 추가로 포함하는 방법.
  41. 제40항에 있어서, 서열 판독물의 각각의 말단에서 동일하지 않은 샘플 바코드를 허용된 샘플 바코드와 비교하는 규칙을 적용하는 단계를 포함하는 방법.
  42. 제25항에 있어서, (1) 바코드 내의 오류를 수정, (2) 핵산 분자의 각각의 말단에서 바코드 간의 오류를 수정, (3) 서열 판독물을 샘플 패밀리로 디멀티플렉싱, (4) 서열 판독물을 분자 패밀리로 할당, 또는 이들의 임의의 조합을 위해 하나 이상의 규칙을 적용하는 단계를 추가로 포함하는 방법.
  43. 제25항에 있어서, 각각의 올리고뉴클레오티드가 혼성화를 위한 부위, 서열 프라이머 결합을 위한 부위, 증폭을 위한 부위, 또는 이들의 임의의 조합을 포함하는 비-바코드 위치를 추가로 포함하는 것인 방법.
  44. 제25항에 있어서, 서열 판독물 오할당을 민감하게 검출하기 위해 시험되는 각각의 올리고뉴클레오티드와 함께 상이한 게놈의 사용을 추가로 포함하는 것인 방법.
  45. 샘플 중의 핵산 분자를 라벨링하는 방법으로서,
    복수의 올리고뉴클레오티드를 바코드를 포함하는 핵산 분자에 부착하는 단계를 포함하고, 각각의 바코드는
    (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다른 것인 샘플 바코드; 및
    (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드
    를 포함하고,
    여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 방법.
  46. 제45항에 있어서, 동일한 샘플 바코드를 포함하는 올리고뉴클레오티드를 핵산 분자의 각각의 말단에 부착하는 단계를 추가로 포함하는 방법.
  47. 제45항에 있어서, 미리 결정된 수의 샘플 바코드 위치가 상이한 샘플 바코드마다 다른 것인 방법.
  48. 제45항에 있어서, 바코드가 약 10 내지 약 35개의 뉴클레오티드를 포함하는 것인 방법.
  49. 제45항에 있어서, 바코드가 약 12 내지 약 25개의 뉴클레오티드를 포함하는 것인 방법.
  50. 제45항에 있어서, 샘플 바코드가 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개의 샘플 인덱스 위치를 포함하는 것인 방법.
  51. 제45항에 있어서, 샘플 바코드가 약 4 내지 약 12개의 샘플 인덱스 위치를 포함하는 것인 방법.
  52. 제45항에 있어서, 분자 바코드가 약 5 내지 약 25개의 분자 인덱스 위치를 포함하는 것인 방법.
  53. 제45항에 있어서, 분자 바코드가 약 5 내지 약 15개의 분자 인덱스 위치를 포함하는 것인 방법.
  54. 제45항에 있어서, 샘플 인덱스 위치 뉴클레오티드 및 분자 인덱스 위치 뉴클레오티드가 하기로부터 선택되는 것인 방법:
    (A) 샘플 인덱스 위치 뉴클레오티드는 A이고, 분자 인덱스 위치 뉴클레오티드는 C, G, T, 또는 이들의 조합임;
    (B) 샘플 인덱스 위치 뉴클레오티드는 T이고, 분자 인덱스 위치 뉴클레오티드는 C, G, A, 또는 이들의 조합임;
    (C) 샘플 인덱스 위치 뉴클레오티드는 C이고, 분자 인덱스 위치 뉴클레오티드는 G, A, T, 또는 이들의 조합임;
    (D) 샘플 인덱스 위치 뉴클레오티드는 G이고, 분자 인덱스 위치 뉴클레오티드는 C, A, T, 또는 이들의 조합임;
    (E) 샘플 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 C, G, 또는 이들의 조합임;
    (F) 샘플 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합임;
    (G) 샘플 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합임;
    (H) 샘플 인덱스 위치 뉴클레오티드는 T, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, G, 또는 이들의 조합임;
    (I) 샘플 인덱스 위치 뉴클레오티드는 T, G, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, C, 또는 이들의 조합임; 또는
    (J) 샘플 인덱스 위치 뉴클레오티드는 G, C, 또는 이들의 조합이고, 분자 인덱스 위치 뉴클레오티드는 A, T, 또는 이들의 조합임.
  55. 제45항에 있어서, 각각의 바코드가 인덱스 위치를 포함하는 하나 이상의 추가의 인덱스 바코드를 포함하는 것인 방법.
  56. 제55항에 있어서, 하나 이상의 추가 바코드가 세포 바코드, 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드, 또는 세포 바코드 및 복구되지 않은 말단의 DNA 길이의 측정치를 제공하는 바코드 둘 다인 방법.
  57. 제45항에 있어서, 각각의 올리고뉴클레오티드가 혼성화를 위한 부위, 서열 프라이머 결합을 위한 부위, 증폭을 위한 부위, 또는 이들의 임의의 조합을 포함하는 비-바코드 위치를 추가로 포함하는 것인 방법.
  58. 제25항 내지 제44항 중 어느 한 항에 있어서, 디멀티플렉싱 없이 핵산 서열 데이터를 저장하는 단계를 추가로 포함하는 방법.
  59. 제58항에 있어서, 디멀티플렉싱 없이 핵산 서열 데이터를 저장하는 단계가 디멀티플렉싱 키의 부재 시 서열 데이터의 사용을 방지하고 데이터의 무단 사용을 방지하는 것인 방법.
  60. 오류 서열 판독물을 확인하는 방법으로서,
    (a) 복수의 올리고뉴클레오티드를 샘플의 핵산 분자에 부착하는 단계로서, 여기서 각각의 올리고뉴클레오티드는
    (i) 하나 이상의 특정 뉴클레오티드를 포함하는 미리 결정된 수의 샘플 인덱스 위치를 포함하는 샘플 바코드로서, 여기서 샘플 인덱스 위치의 로케이션은 샘플 간에 다르고, 동일한 샘플 바코드는 샘플 중의 핵산 분자의 각각의 말단에 부착되는 것인 샘플 바코드; 및
    (ii) 샘플 인덱스 위치의 뉴클레오티드와 상이한 뉴클레오티드를 포함하는 분자 인덱스 위치를 포함하는 분자 바코드
    를 포함하는 바코드를 포함하고,
    여기서 샘플 인덱스 위치 및 분자 인덱스 위치는 인접한 염기의 스트레치에 산재되어 있는 것인 단계; 및
    (b) 핵산 분자를 시퀀싱하는 단계로서, 여기서 서열 판독물은 바코드 서열을 포함하고,
    이로써 오류 서열 판독물을 확인하는 단계를 포함하는 방법.
  61. 제60항에 있어서, 오류 서열 판독물을 확인하는 단계가 불일치 샘플 바코드를 갖는 핵산 분자를 확인하는 것을 포함하는 것인 방법.
  62. 제60항에 있어서, 서열 판독물의 양쪽 말단에서 샘플 바코드를 비교함으로써 시퀀싱 오류를 정정하는 단계를 추가로 포함하는 방법.
  63. 제61항에 있어서, 서열 판독물 및/또는 분자 패밀리로부터 불일치 샘플 바코드를 갖는 핵산 분자를 제거하는 단계를 추가로 포함하는 방법.
  64. 제61항에 있어서, 불일치 샘플 바코드를 갖는 핵산 분자를 확인하는 단계가 미스프라이밍된 핵산 분자를 확인하는 것을 포함하는 것인 방법.
  65. 제64항에 있어서, 미스프라이밍된 핵산 분자가 적절한 바코드로 수정되고 서열 품질을 개선하는데 사용되는 것인 방법.
  66. 제65항에 있어서, 수정된 바코드를 갖는 핵산 분자가 수정된 판독물 패밀리에 할당되는 것인 방법.
  67. 제66항에 있어서, 수정된 판독물 패밀리가 구별되는 커버리지를 정확하게 결정하는데 사용되는 것인 방법.
  68. 제67항에 있어서, 구별되는 커버리지 결정이 핵산 분자의 라이브러리를 평가하는데 사용되는 것인 방법.
  69. 제60항에 있어서, 분자 인덱스 위치의 로케이션 및 각각의 분자 인덱스 위치의 뉴클레오티드에 기초하여 서열 판독물을 분자 패밀리에 할당하는 단계를 추가로 포함하는 방법.
  70. 제69항에 있어서, 오류 서열 판독물을 확인하는 단계가 다수의 분자 패밀리에 할당된 핵산 분자를 확인하는 것을 포함하는 것인 방법.
  71. 제70항에 있어서, 서열 판독물 및/또는 분자 패밀리로부터 다수의 분자 패밀리에 할당된 핵산 분자를 제거하는 단계를 추가로 포함하는 방법.
KR1020227038200A 2020-04-07 2021-04-06 플로팅 바코드 KR20220164753A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063006556P 2020-04-07 2020-04-07
US63/006,556 2020-04-07
PCT/US2021/026043 WO2021207267A1 (en) 2020-04-07 2021-04-06 Floating barcodes

Publications (1)

Publication Number Publication Date
KR20220164753A true KR20220164753A (ko) 2022-12-13

Family

ID=78023484

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227038200A KR20220164753A (ko) 2020-04-07 2021-04-06 플로팅 바코드

Country Status (11)

Country Link
US (1) US20230151356A1 (ko)
EP (1) EP4133110A1 (ko)
JP (1) JP2023521687A (ko)
KR (1) KR20220164753A (ko)
CN (1) CN115698339A (ko)
AU (1) AU2021251780A1 (ko)
BR (1) BR112022020164A2 (ko)
CA (1) CA3176915A1 (ko)
GB (1) GB2609801A (ko)
MX (1) MX2022012594A (ko)
WO (1) WO2021207267A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113999893B (zh) * 2021-11-09 2022-11-01 纳昂达(南京)生物科技有限公司 兼容双测序平台的建库元件、试剂盒及建库方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9902950B2 (en) * 2010-10-08 2018-02-27 President And Fellows Of Harvard College High-throughput single cell barcoding
CA3042434A1 (en) * 2016-11-15 2018-05-24 Personal Genome Diagnostics Inc. Non-unique barcodes in a genotyping assay

Also Published As

Publication number Publication date
AU2021251780A1 (en) 2022-10-20
US20230151356A1 (en) 2023-05-18
GB202215530D0 (en) 2022-12-07
CN115698339A (zh) 2023-02-03
CA3176915A1 (en) 2021-10-14
JP2023521687A (ja) 2023-05-25
GB2609801A (en) 2023-02-15
MX2022012594A (es) 2023-02-16
WO2021207267A1 (en) 2021-10-14
BR112022020164A2 (pt) 2022-11-22
EP4133110A1 (en) 2023-02-15

Similar Documents

Publication Publication Date Title
US11795501B2 (en) Methods for next generation genome walking and related compositions and kits
Chen et al. Alternative polyadenylation: methods, findings, and impacts
EP3247804B1 (en) High multiplex pcr with molecular barcoding
US20160017320A1 (en) Semi-random barcodes for nucleic acid analysis
CN105121664A (zh) 混合物及其相关组合物中的核酸的测序方法
JP7051677B2 (ja) 次世代シークエンシングのための高分子量dnaサンプル追跡タグ
US20230081899A1 (en) Modular nucleic acid adapters
CA3053302A1 (en) Pcr primer set for hla gene, and sequencing method using same
CN110546272A (zh) 将衔接子附接至样品核酸的方法
CN110603327A (zh) Pcr引物对及其应用
CN116024308A (zh) 肺癌相关基因高通量扩增子文库的制备方法、多重pcr引物对及应用
CN109913458B (zh) circRNA及其在检测缺氧缺血性脑损伤中的应用
CN108359723B (zh) 一种降低深度测序错误的方法
KR20220164753A (ko) 플로팅 바코드
WO2019180528A1 (en) Methods of labelling nucleic acids
EP3698369A1 (en) Method of tagging nucleic acid sequences, composition and use thereof
CN114144188B (zh) 放大及检测核糖核酸(rna)片段的方法
WO2023119252A1 (en) Compositions and methods for identification of gene fusions
CN113667716A (zh) 基于滚环扩增的测序文库构建方法及其应用
Barry Overcoming the challenges of applying target enrichment for translational research
Supek et al. Supplemental Information Synonymous Mutations Frequently Act as Driver Mutations in Human Cancer
Devonshire et al. Application of next generation qPCR and sequencing platforms to mRNA
SBA Isoform discovery by targeted cloning,‘deep-well’pooling and parallel sequencing

Legal Events

Date Code Title Description
A201 Request for examination