KR20200080252A - 단일 분자 서열분석 및 핵산서열 특성화를 위한 고유한 분자 식별자 - Google Patents

단일 분자 서열분석 및 핵산서열 특성화를 위한 고유한 분자 식별자 Download PDF

Info

Publication number
KR20200080252A
KR20200080252A KR1020207013176A KR20207013176A KR20200080252A KR 20200080252 A KR20200080252 A KR 20200080252A KR 1020207013176 A KR1020207013176 A KR 1020207013176A KR 20207013176 A KR20207013176 A KR 20207013176A KR 20200080252 A KR20200080252 A KR 20200080252A
Authority
KR
South Korea
Prior art keywords
nucleic acid
sequencing
target
umi
molecule
Prior art date
Application number
KR1020207013176A
Other languages
English (en)
Inventor
자카리 압테
제시카 리치만
다니엘 알모나치드
에두아르도 모랄레스
루이스 레온
사라 더블유. 버드
후안 우갈데
Original Assignee
소마젠 인크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소마젠 인크 filed Critical 소마젠 인크
Publication of KR20200080252A publication Critical patent/KR20200080252A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/161Modifications characterised by incorporating target specific and non-target specific sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/159Reduction of complexity, e.g. amplification of subsets, removing duplicated genomic regions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)

Abstract

방법 및/또는 시스템의 구현예(예를 들어, 개선된 단일 분자 서열분석을 위한 것, 등)는 표적 핵산서열 세트와 관련된 고유한 분자 식별자(unique molecular identifier; UMI)-기반 분자 세트를 준비하는 단계; 상기 UMI-기반 분자 세트에 기초한 태그된 핵산 분자 세트, 및 상기 표적 핵산서열 세트에 상응하는 (예를 들어, 포함하는, 등) 핵산 분자 세트에 기초하여 태그된 핵산 분자 세트의 생성을 용이하게 하는 단계 (예를 들어, 생성 단계); 및/또는 상기 태그된 핵산 분자로 단일 분자 서열분석을 용이하게 하는 단계 (예를 들어, 수행하는 단계, 등)를 포함할 수 있다.

Description

단일 분자 서열분석 및 핵산서열 특성화를 위한 고유한 분자 식별자
본 출원과 관련된 상호 참조
본 출원은 2017년 10월 9일자로 출원된 U.S. 가출원 제 62/569,853호의 이익을 주장하며, 이의 내용은 본원에 그 전체가 참고로 포함된다.
기술분야
본 개시 내용은 일반적으로 유전체학 및 분자 생물학에 관련된 것이다.
복합 혼합물(complex mixtures)에서 표적을 식별하기 위한 고 처리량 서열분석 (high throughput sequencing) 기술을 사용함에 있어 해결해야 할 한 가지 핵심 과제는 과대 표시된(overrepresented) 핵산 표적들이 여러 번 서열분석되어, 최초 핵산 풀(nucleic acid pool)에서 과소 표시된(underrepresented) 분자의 탐지를 방해한다는 것이다. 과대 표시된 주형(template) 분자는 여러 번 서열분석 되므로 1회의 서열분석 실행(sequencing run)에서 출력되는 서열분석 리드(sequencing reads)의 상당 부분을 차지할 수 있고, 이는 과소 표시된 주형 분자를 서열 분석하는 데 사용될 수 있었던 사이클(cycle)을 낭비하게 할 수 있다.
단일분자 서열분석(Single molecule sequencing; SMS)은 다른 장점 (예를 들어, 합성에-의한-시퀀싱(sequencing-by-synthesis) 전략과 비교할 때)을 포함할 수 있다. 예를 들어, SMS는 DNA 분자를 직접 특성화(characterization) 할 수 있다. SMS의 최근의 응용 사례로는 Pacific Bioscience 사 및 Oxford Nanopore 사에 의해 개발된 기술을 포함할 수 있다. 이러한 플랫폼은 적절한 컴퓨터 하드웨어 및 소프트웨어와 연동하여 DNA 분자의 실시간 서열분석을 가능케 할 수 있으며, 상기 서열분석 데이터를 실시간 처리(real time processing)할 수 있도록 한다.
도 1은 방법의 일 구현예의 변형을 나타내는 순서도(flowchart)를 포함하고;
도 2는 방법의 일 구현예의 변형을 나타내는 순서도를 포함하고;
도 3은 방법의 일 구현예의 변형을 나타내는 순서도를 포함한다.
이하 구현예의 설명은 당업자가 제조 및 사용할 수 있도록 하기 위한 것일 뿐 구현예를 제한하기 위한 것이 아니다.
1. 개요
도 1 내지 도 3에 나타낸 바와 같이, 방법 (100)의 구현예 (예를 들어, 개선된 단일 분자 서열분석용, 등)는 표적 핵산서열 세트와 관련된 고유한 분자 식별자(unique molecular identifier; UMI)-기반 분자 세트를 제조하며(S110); 상기 UMI-기반 분자 세트 및 상기 표적 핵산서열 세트에 해당하는(예를 들어, 포함하는, 등) 핵산 분자 세트에 기초한 태그된 핵산 분자 세트의 생성을 용이하게 하며(예를 들어, 생성하는 단계, 등) (S120); 및/또는 상기 태그된 핵산 분자 세트로 단일 분자 서열분석을 용이하게 하는 단계(예를 들어, 수행하는 단계, 등) (S130) 를 포함할 수 있다. 추가적으로, 또는 대안적으로, 상기 방법 (100)의 구현예는 상기 단일분자 서열분석에 기초하여 분자 카운트(molecule counts)를 결정하는 단계 (S140); 및/또는 다른 적절한 공정을 포함할 수 있다.
일 구체예에서, 상기 방법 (100) (예를 들어, 개선된 단일 분자 서열분석용)은 하기를 포함할 수 있다: 표적 핵산서열 세트와 관련된 UMI-기반 분자 세트 (예를 들어, 표적 핵산 서열의 표적 서열 영역에 상보적인 표적-관련 영역을 포함하는 UMI-기반 분자; 등)를 제조하는 단계; 상기 표적 핵산서열 세트에 해당하는(예를 들어, 포함하는, 등) 핵산 분자 세트 및 상기 UMI-기반 분자 세트에 기초한 태그된 핵산 분자 세트의 생성을 용이하게 하는 단계로서, 상기 태그된 핵산 분자 세트의 각 태그된 핵산 분자는 각각 "A" 염기, "G" 염기, "T" 염기, 및 "C" 염기 중 선택되는 랜덤 "N" 염기들의 세트를 포함하는 적어도 하나의 UMI 영역, 및 상기 표적 핵산서열 세트의 표적 핵산 서열에 해당하는 적어도 하나의 표적 영역을 포함하며; 및/또는 상기 태그된 핵산 분자 세트로 하기를 포함하는 단일 분자 서열 분석을 용이하게 하는 단계로서 상기 포함하는 단일 분자 서열 분석을 용이하게 하는 단계는 다음 단계를 포함한다: 제1 서열 영역 세트와 제2 서열 영역 세트 간의 비교를 결정하는 단계(예를 들어, 상기 제1 서열 영역 세트 및 상기 제2 서열 영역 세트 간의 서열 유사도를 비교하는 단계; 등)로서, 상기 제1 서열 영역 세트는 제1 UMI 영역 및 상기 태그된 핵산 분자 세트의 서열분석된 태그된 핵산 분자(예를 들어, 상기 단일 분자 서열 분석과 동일한 서열분석 실행(run)에서 이전에 서열분석된 것; 등)의 제1 표적 영역을 포함하며, 상기 제2 서열 영역 세트는 제2 UMI 영역 및 상기 태그된 핵산 분자 세트의 태그된 핵산 분자의 제2 표적 영역을 포함하는 것이며, 그리고 상기 제1 서열 영역 세트 및 제2 서열 영역 세트 사이의 비교에 기초한 상기 태그된 핵산 분자의 서열분석(예를 들어, 서열분석 실행(run) 도중에; 등)을 중단하는 단계(예를 들어, 상기 태그된 핵산 분자가, 상응한 분자 카운트(molecule count)에 기여하지 않도록; 상기 태그된 핵산 분자에 상응하는 상기 핵산 서열이 과도하게 나타나지(overrepresented) 않도록; 등).
일 구체예에서, 상기 방법 (100) (예를 들어, 개선된 단일 분자 서열분석용)은 하기를 포함할 수 있다: UMI-기반 분자 세트 및 표적 핵산서열 세트에 해당하는 핵산 분자 세트에 기초한 태그된 핵산 분자 세트의 생성을 용이하게 하는 단계; 및/또는 상기 태그된 핵산 분자 세트로 단일 분자 서열분석을 용이하게 하는 단계를 포함하며, 상기 단일 분자 서열분석을 용이하게 하는 단계는, 제1 UMI 영역과 제2 UMI 영역 간의 비교를 결정하는 단계로서, 상기 제1 UMI 영역은 상기 태그된 핵산 분자 세트의 서열분석된 태그된 핵산 분자의 것이고 상기 제2 UMI 영역은 상기 태그된 핵산 분자 세트의 태그된 핵산 분자의 것이며; 제1 서열 영역 세트와 제2 서열 영역 세트 사이의 비교를 결정하는 단계로서, 상기 제1 서열 영역 세트는 상기 태그된 핵산 분자 세트의 서열분석된 태그된 핵산 분자의 제1 UMI 영역을 포함하며, 상기 제2 서열 영역 세트는 제2 UMI 영역 및 상기 태그된 핵산 분자의 태그된 핵산 분자의 제2 표적 영역을 포함하며; 및 상기 제1 UMI 영역 및 제2 UMI 영역 간의 비교에 기초한 태그된 핵산 분자의 서열분석을 중단하는 단계를 포함한다.
추가적으로 또는 대안적으로, 상기 방법 (100) 및/또는 시스템의 구현예는, 장 부위(예를 들어, 대변 시료를 기반으로 분석되는, 등), 피부 부위, 코 부위, 입 부위, 생식기 부위, 및/또는 기타 적절한 생리적 부위 중 하나 이상을 포함할 수 있는 하나 이상의 수집 부위(collection sites)로부터 수집된 생물학적 시료와 같이, 하나 이상의 사용자(user; 예를 들어, 대상; 인간; 동물; 환자; 식물; 등)로부터 하나 이상의 샘플 (예를 들어, 생물학적 시료)을 가공(processing)하는 단계(예를 들어, 수집하는 단계; 상기 방법 (100)의 구현예의 일부를 용이하게 하기 위한 샘플 준비하는 단계; 상기 방법 (100)의 구현예의 일부를 수행하는 단계; 등); 미생물 서열 데이터세트(예를 들어, 상기 방법 (100)의 구현예의 일부와 관련된 것과 같은, 태그된 핵산 분자를 이용한 단일 분자 서열분석에 기초한 미생물 서열 데이터세트; 태그된 핵산 분자의 UMI 영역과 같은, 서열 분석된 UMI 영역과 관련된 생물정보학적 분석(bioinformatics analysis)으로부터 생성된 미생물 서열 데이터세트; 표적 핵산 서열과 관련된 핵산 분자에 대한 분자 카운트(molecule counts)를 포함하는 미생물 서열 데이터세트; 등)에 기초한 마이크로바이옴 특성을 결정하는 단계 (예를 들어, 미생물 분포 특성; 미생물 기능 특성; 진단 및/또는 치료와 관련된 것과 같은, 미생물-관련 상태(condition)와 관련된 특성; 등);를 포함 및/또는 관련될 수 있다. 그러나, 상기 방법 (100)의 구현예는 추가적으로 또는 대안적으로 임의의 적절한 공정(processes)을 포함할 수 있다.
상기 방법 (100) 및/또는 시스템의 구현예는, 예컨대 과대 표시된(overrepresented) 주형 핵산 분자 및 과소 표시된(underrepresented) 주형 핵산 분자를 포함하는 샘플에 대한 서열분석 결과(sequencing outcomes)를 개선; 증폭 프로세스(예를 들어, PCR 프로세스) 및/또는 농축(enrichment) 프로세스와 관련된 편향의 감소; DNA 중합효소와 관련된(예를 들어, 클러스터 형성 프로세스 과정; 등) 오류의 감소; 서열분석 효율의 개선 (예를 들어, 과대 표시된 주형 핵산 분자에 사용되어 낭비되는 서열분석 사이클의 감소를 통해;등); 핵산 분자의 직접 특성화 가능; 및/또는 다른 적절한 개선을 가능하게 하는 것과 같은 것들을 통해, UMI 분자를 사용함으로써 단일 분자 서열분석(및/또는 기타 서열분석 기술)을 개선하기 위해 기능할 수 있다. 일 구체예에서, 상기 방법 (100) 및/또는 시스템은, 서열분석 기술(예를 들어, 리드-언틸(read-until)-기반 서열분석 기술, Oxford Nanopore 기술과 같은 나노포어(nanopore) 기술, Pacific Biosciences 단일 분자 서열분석 기술과 같은 단일 분자 서열분석 기술, 등) 및 UMI 분자를 활용하여 실시간(real-time) 서열분석 및/또는 프로세싱(예를 들어, 동일 서열분석 실행(same sequencing run) 중에 현재 서열 분석 중인 태그된 핵산 분자를 먼저 서열분석된 태그된 핵산 분자와 비교; 등)을 수행하면서, 과대 표시된 주형 핵산 분자 및 과소 표시된 주형 핵산 분자의 서열분석과 관련된 문제를 극복할 수 있다.
추가적으로 또는 대안적으로, 상기 방법 (100) 및/또는 시스템의 구현예는, 샘플 내에 존재하는 미생물을 정량화하는 기능(예를 들어, 서열분석 및/또는 태그된 핵산 분자의 UMI 영역의 분석으로부터 결정된 분자 카운트(molecule counts)에 기초하여; 등), 예컨대 미생물-관련 특성화(예를 들어, 마이크로바이옴 조성과의 관계; 마이크로바이옴 기능; 등)의 결정에 사용될 수 있다. 그러나 미생물 정량은 임의의 적절한 방식으로 수행될 수 있다.
추가적으로 또는 대안적으로, 상기 방법 (100) 및/또는 시스템의 구현예는, 미생물-관련 탐지(예를 들어, 상기 동일 샘플 내에 존재 또는 발현하는 유전자의 탐지뿐 아니라 샘플의 생물체의 분류학적 탐지 및/또는 정량; 하나 이상의 생물학적 시료에서, 지시된 방법으로 보존된 분류학적 유전자로 생물체의 탐지 및/또는 정량, 및/또는 특성화된 또는 기존에 특성화되지 않은(non-previously characterized) DNA로 다른 진핵생물(eukaryotes), 원핵생물(prokaryotes), 바이러스 유기체(viral organisms), 및/또는 기타 적절한 미생물의 비편파적 탐지 및/또는 정량; 신규의(new), 미지의(unknown), 및/또는 미상의(unidentified) 잠재적 핵산 표적의 탐지 및/또는 정량; 항생제 내성, 병독인자(virulence factors), 분자적 마커, 바이러스 캡시드 유전자, 적절한 관심 표적(targets of interest) 등과 같은, 알려진 또는 식별된 핵산 표적의 비편파적인 방식으로의 탐지 및/또는 정량; 등)를 용이하기 위해 기능할 수 있다.
상기 방법 (100) 및/또는 시스템의 구현예의 임의의 적절한 일부는 하기 중 하나 이상을 포함하거나, 하기 중 하나 이상을 위해 수행되거나(be for), 표적하거나, 사용하거나, 처리(process)하거나, 상응하거나, 및/또는 아니면 관련될 수 있다: 항생제 내성, 병독인자(virulence factors), 분자적 마커, 바이러스 캡시드 유전자, 적절한 관심 표적(targets of interest). 일 구체예에서, 상기 방법 (100) 및/또는 시스템의 구현예는, 서열 분석, 분자 카운트(molecule counts)를 결정(예를 들어, 용이한 정량을 위해, 태그된 핵산 분자의 UMI 영역에 기초하여 절대 분자 카운트(absolute molecules counts)를 결정하는 단계; 등), 서로 다른 표적 서열 사이를 구별 (예를 들어, UMI 영역을 리드 언틸-기술 및/또는 적절한 서열분석 기술과 결합하여 사용함으로써; 등), 특이적인 DNA 단편을 선택(예를 들어, 16S와 18S; 16S와 HPV(예를 들어, HPV의 E1 유전자); 및/또는 기타 적절한 분류학적 또는 분류학-비의존적(taxonomic-independent) 서열의 조합과 같은 둘 이상의 상이한 라이브러리 유래의; 샘플 내 DNA 분자의 풍부도를 정규화하기 위해; 등), 및/또는 부분 및/또는 전장(full-length) 분류학적 마커 유전자 (예를 들어, 16S rRNA, 18S rRNA, 등), 부분 및/또는 전장(full-length) 유전자 및/또는 마커 (예를 들어, 바이러스 캡시드 유전자; 항생제 내성과 관련된 유전자 및/또는 마커; 등), 및/또는 임의의 적절한 유전자, 마커, 및/또는 표적에 대한 적절한 프로세스 포함할 수 있다. 일 구체예에서, 상기 표적 핵산서열 세트는 제1 표적 세트 및 제2 표적 세트 중 적어도 하나를 포함하며, 상기 제1 표적 세트는 16S rRNA 표적과 18S rRNA 표적을 포함하며, 상기 제2 표적 세트는 16S rRNA 표적 및 HPV-관련 표적을 포함할 수 있다. 일 구체예에서, 상기 표적 핵산서열 세트는 항생제 내성 및 바이러스 캡시드 유전자 중 적어도 하나와 관련된 표적 핵산 서열을 포함할 수 있다.
그러나, 상기 방법 (100) 및/또는 시스템의 구현예는 임의의 적절한 기능성을 포함할 수 있다.
상기 방법 (100) 예를 들어, 단일 분자 서열분석 (S130)을 용이하게 하는 단계, 등) 및/또는 시스템의 구현예의 일부는 바람직하게는 단일 분자 서열분석을 포함하거나, 수행하거나(perform), 관련되거나 (예를 들어, 이의 라이브러리 제조를 용이하게 함, 등), 및/또는 용이하게 한다. 단일 분자 서열분석은 하기 중 임의의 하나 이상을 포함할 수 있다: 단일 분자 실시간(single molecule real time, SMRT) 서열분석 (예를 들어, Pacific Bioscience SMART 서열분석, 등), 나노포어 서열분석 (예를 들어, Oxford nanopore 서열분석, 등), 롱-리드(long-read) 서열분석 (예를 들어, Pacific Bioscience long-read 서열분석; 등), 헬리스코프(Heliscope) 단일 분자 서열분석, 단일 분자 서열분석과 관련된 서열분석 기술의 임의의 세대 수 (예를 들어, 2세대 서열분석 기술, 3세대 서열분석 기술, 4세대 서열분석 기술, 등), 및/또는 임의의 다른 적절한 단일 분자 서열 분석의 유형.
변형예에서, 단일 분자 서열분석은 증폭-독립적(amplification-independent) 방식으로 사용될 수 있으며, 이에 PCR-증폭 및/또는 다른 적절한 증폭 프로세스 동안 발생하는 편향을 제거할 수 있다. 변형예에서, 단일 분자 서열분석은 DNA 중합효소와 독립적으로 수행될 수 있어, 클러스터 생성 단계에서 DNA 중합효소에 의해 도입되는 임의의 잠재적인 실수(mistake)를 방지할 수 있다.
구체예에서, Oxford Nanopore 서열분석 기술 및/또는 다른 적절한 리드 언틸-기반 기술 (예를 들어, 조건이 충족될 때까지 서열분석 리드의 읽기가 허용되는 것; 등)이 사용될 수 있으며, 이에 멤브레인 위의 나노기공(nanopore)을 사용하여, 특정한 기공(pore)에 대한 서열분석을 종결하여, 그리고 분석 완료된 DNA 분자를 방출하여 분자의 서열분석을 수행한다. 구체예에서, Oxford Nanopore 서열분석 기술 및/또는 다른 적절한 리드 언틸-기반 기술은, 적어도 특이적인 DNA 조각을 선택 (예를 들어, 두 개의 다른 라이브러리) 할 수 있어, 샘플 내에서 DNA 분자의 풍부도를 정규화 및/또는 균형을 맞출 수 있으며(예를 들어, 과소 표시된(underrepresented) DNA 분자; 과대 표시된 DNA 분자; 등); 및/또는 특이적인 DNA 분자의 서열분석을 특정 수치로 제한 할 수 있으며, 예컨대 특이적인 DNA 분자에 대한 큰 수치의 리드들을 생성하는 대신에, UMI 영역, 표적 영역, 및/또는 태그된 핵산 분자 및/또는 기타 적절한 분자의 다른 적절한 영역에 기초하여 주어진 분자의 서열분석이 될 수 있는 시간 수치를 제한할 수 있다.
추가적으로 또는 대안적으로, 상기 방법 (100) 및/또는 시스템의 구현예는, 바람직하게는 차세대 서열분석(next generation sequencing; NGS) 기술, 모세관 서열분석(capillary sequencing), 생거 서열분석(Sanger sequencing) (예를 들어, 미세유체 생거 서열분석(microfluidic Sanger sequencing), 등), 파이로시퀀싱(pyrosequencing), 및/또는 기타 적절한 서열분석 기술 중 임의의 하나 이상을 포함하는 임의의 적절한 서열분석 기술을 포함하거나, 수행하거나, 관련되거나 (예를 들어, 이의 라이브러리 제조 용이, 등), 및/또는 용이하게 한다. NGS 기술은 고-처리량(high-throughput) 서열분석 (예를 들어, 고-처리량 서열분석 기술을 통해 용이하게 된; 대용량 병렬 시그너처 서열분석 (MPSS, massively parallel signature sequencing), 폴로니(Polony) 서열분석, 454 파이로시퀀싱, 일루미나(Illumina) 서열분석, SOLiD 서열분석, 이온 토렌트 반도체(Ion Torrent semiconductor) 서열분석, DNA 나노볼(DNA nanoball) 서열분석, 헬리스코프(Heliscope) 단일 분자 서열분석, 등), 임의의 세대 수(generation number)의 서열분석 기술 (예를 들어, 2세대 서열분석 기술, 3세대 서열분석 기술, 4세대 서열분석 기술, 등), 앰플리콘-관련 서열분석 (예를 들어, 표적된 앰플리콘 서열분석(targeted amplicon sequencing)), 메타게놈-관련 서열분석 (예를 들어, 메타전사체(metatranscriptomic) 서열분석, 메타유전체(metagenomics) 서열분석, 등), 합성에-의한-서열분석(sequencing-by-synthesis), 터널링 전류(tunneling currents) 서열분석, 혼성화에 의한 서열분석, 질량 스펙트로메트리 서열분석, 현미경-기반 기술, 및/또는 임의의 적절한 NGS 기술 중 임의의 하나 이상을 포함할 수 있다.
상기 방법 (100) 및/또는 시스템의 구현예는, 하나 이상의 미생물-관련 상태(condition)에 관한 특성화 및/또는 처치를 용이하게 하기 위한(예를 들어, 태그된 핵산 분자를 이용한 단일 분자 서열분석에서 유래한 미생물 서열 데이터세트에 기초하여; 등), 단일 분자 서열분석 및/또는 다른 기타 적절한 양태(예를 들어, 본 명세서에 기술된)를 향상시킬 수 있으며, 상기 미생물-관련 상태(condition)는 질병, 증상, 원인 (예를 들어, 질병의 촉발자 (trigger), 등), 장애(disorder), 관련 위험 (예를 들어, 성향 스코어, 등), 관련 중증도, 행동 (예를 들어, 카페인 섭취, 습관, 식이(diets), 등), 및/또는 미생물-관련 상태와 관련된 임의의 다른 적절한 양태 중에서 하나 이상을 포함할 수 있다. 미생물-관련 상태는 하나 이상의 질병-관련 상태를 포함할 수 있으며, 이는 하기 중 임의의 하나 이상을 포함할 수 있다: 위장-관련 상태 (예를 들어, 과민성 장 증후군(IBD), 염증성 장 질환, 궤양성 대장염, 셀리악 병(celiac disease), 크론 병, 팽만감(bloating), 치질 질환, 변비, 역류(reflux), 혈변, 설사 등); 알레르기-관련 상태 (예를 들어, 밀, 글루텐, 유제품(dairy), 콩, 땅콩, 갑각류, 너트류(tree nut), 계란, 등과 관련된 알레르기 및/또는 불내증(intolerance)); 피부-관련 상태 (예를 들어, 여드름, 피부염, 습진, 장미증(rosacea), 건조 피부, 건선, 비듬, 광민감성(photosensitivity), 등); 운동(locomotor)-관련 상태 (예를 들어, 통풍, 류마티스 관절염, 골관절염, 반응성 관절염, 다발성 경화증, 파킨슨 병, 등); 암-관련 상태 (예를 들어, 림프종; 백혈병; 아세포종; 생식세포종; 암종; 육종; 유방암; 전립선암; 기저세포암; 피부암; 결장암; 폐암; 임의의 적절한 생리학적 영역과 관련된 암 상태; 등), 심혈관-관련 상태 (예를 들어, 관동맥성 심장병, 염증성 심장 질환, 판막 심장 질환, 비만, 뇌졸중, 등), 빈혈 상태 (예를 들어, 지중해 빈혈; 겸상 적혈구; 악성(pernicious); 판코니(fanconi); 용혈성(haemolyitic); 재생불량성(aplastic); 철분 결핍; 등), 신경-관련 상태 (예를 들어, ADHD, ADD, 불안, 아스퍼거 증후군, 자폐증, 만성 피로 증후군, 우울증, 등), 자가면역-관련 상태 (예를 들어, 스프루(Sprue), 에이즈(AIDS), 쇼그렌증후군(Sjogren 's), 루푸스(Lupus), 등), 내분비-관련 상태 (예를 들어, 비만, 그레이브스 병, 하시모토 갑상선염, 대사 질환, I형 당뇨병, II형 당뇨병, 등), 라임병 상태, 의사소통-관련 상태, 수면-관련 상태, 대사-관련 상태, 체중-관련 상태, 통증-관련 상태, 유전-관련 상태, 만성 질환 및/또는 임의의 다른 적합한 유형의 질병 관련 상태. 추가적으로 또는 대안적으로, 미생물-관련 상태는 하기 중 하나 이상을 포함할 수 있는 하나 이상의 인간 행동 상태를 포함할 수 있다: 카페인 섭취, 알코올 섭취, 기타 식품 섭취, 식이 보충제 섭취, 프로바이오틱-관련 행동 (예를 들어, 섭취, 기피, 등), 기타 식이 행동, 습관적 행동 (예를 들어, 흡연; 낮은, 중간 및/또는 격렬한 운동 상태와 같은 운동 상태; 등), 폐경기(menopause), 기타 생물학적 프로세스, 사회적 행동, 기타 행동 및/또는 기타 적절한 인간 행동 상태. 상태는 임의의 적절한 표현형 (예를 들어, 인간, 동물, 식물, 곰팡이 균체(fungi body), 등에 대해 측정 가능한 표현형)과 관련될 수 있다.
상기 방법 (100) 및/또는 시스템의 구현예는 단일 사용자 유래의 하나 이상의 생물학적 시료로부터 서열분석 라이브러리의 제조를 촉진하기 위해 상기 방법 (100)의 구현예의 일부를 수행하는 단계, 및/또는 상기 서열분석 라이브러리(예를 들어, 태그된 핵산 분자를 포함하는 서열분석 라이브러리; 등)로 단일 분자 서열분석을 용이하게 하는 단계와 관련되는 것과 같이, 상기 단일 사용자 유래의 하나 이상의 생물학적 시료에 대해 구현될 수 있다. 추가적으로 또는 대안적으로, 구현예는 사용자 세트(예를 들어, 상기 사용자를 포함하는, 상기 사용자를 포함하지 않는, 등의 대상(subjects) 집단)에서 유래한 생물학적 시료에 대해 구현될 수 있으며, 상기 사용자 세트는 임의의 적절한 특성 유형 (예를 들어, 미생물-관련 상태와 관련하여, 인구학적(demographic) 특징 행동, 마이크로바이옴 조성 및/또는 기능, 등)에 대한 임의의 다른 대상과 유사한 및/또는 비유사한; 사용자의 서브그룹에 대해 구현된 (예를 들어, 상기 방법 (100)의 구현예의 일부에 영향을 미치는 특성과 같은, 공유 특성; 등); 식물, 동물, 미생물 (예를 들어, 환경 미생물 군집; 등), 및/또는 임의의 다른 적절한 양태를 위해 구현된 대상을 포함할 수 있다. 따라서, 따라서, 사용자 세트 (예를 들어, 대상 집단(population), 대상 세트, 사용자의 서브 그룹, 등)로부터 유래된 정보는 후속적인 사용자에 대한 추가적인 통찰력을 제공하기 위해 사용될 수 있다 (예를 들어, 방법 (100)의 구현예의 일부를 수행하는데 사용된 실험적 파라미터와 관련하여; 특정 태그된 핵산 분자에 대해 서열분석 중단에 사용된 서열 영역 기준과 관련하여; 등). 변형에서, 생물학적 시료의 집합체 세트(aggregate set)는 하기 중 하나 이상의 사용자를 포함하는 것과 같은, 광범위한 사용자들과 관련되고, 처리(processed for, 가공)될 수 있다: 상이한 인구통계학(demographics) (예를 들어, 성별, 연령, 결혼 상태, 민족성, 국적, 사회경제적 지위, 성적 지향, 등), 상이한 미생물-관련 상태 (예를 들어, 건강 및 질병 상태; 상이한 유전적 배열(genetic disposition); 등), 상이한 생활 상황 (예를 들어 독거(living alone), 애완 동물과 동거, 배우자와 동거(living with a significant other), 자녀와 동거(living with children), 등), 상이한 식습관 (예를 들어, 잡식성, 채식주의자(vegetarian), 엄격한 채식주의자(vegan), 당 섭취, 산 섭취, 카페인 섭취, 등), 상이한 행동 경향 (예를 들어, 신체 활동 수준, 약물 사용, 알코올 사용, 등), 상이한 이동성 수준 (예를 들어, 주어진 시간 내에 이동하는 거리와 관련), 및/또는 임의의 기타 적절한 특성 (예를 들어, 마이크로바이옴 조성 및/또는 기능에 영향을 주는, 상관관계가 있는, 및/또는 그렇지 않으면 이와 연관된 특성, 등). 예를 들어, 사용자의 수가 증가함에 따라, 상기 방법 (100)의 구현예의 일부에서 실행된 프로세스의 예측력은, 마이크로바이옴-관련 특성이 본 명세서에 기술된 단일 분자 서열분석으로부터 서열분석 아웃풋에 기초하여 결정될 수 있는 경우와 같이, 사용자들의 마이크로바이옴에 기초하여 다양한 사용자를 특성화하는 것과 관련하여(예를 들어, 사용자를 위한 샘플을 위한 상이한 수집 위치와 관련된, 등) 증가할 수 있다. 그러나, 상기 방법 (100) 및/또는 시스템의 구현예의 일부는 임의의 적절한 실체 또는 실체들에 대해 임의의 적절한 방식으로 수행 및/또는 구성될 수 있다.
본 명세서에서 기술된 데이터 (예를 들어, 표적 핵산 서열과 같은 핵산 서열 ; UMI 서열; UMI-기반 분자용과 같은 분자 디자인(molecular design) 데이터; 서열분석 인풋 및/또는 아웃풋과 같은 서열분석 데이터; 예를 들어, 서열분석 중단용 서열분석 파라미터와 같은 서열분석 데이터; UMI-관련 태깅(tagging)과 관련된 데이터; 미생물 서열 데이터세트; 마이크로바이옴 특성(microbiome features); 사용자 데이터; 보충(supplementary) 데이터; 미생물-관련 상태와 관련된 데이터; 미생물-관련 특성; 등)는 하기의 하나 이상을 포함하는 임의의 적절한 시간 지표(temporal indicators)(예를 들어, 초, 분, 시간, 일, 주, 등)와 관련될 수 있다: 상기 데이터가 수집된(예를 들어, 샘플이 수집된 시점을 나타내는 시간 지표), 결정된 (예를 들어, 샘플 처리 작업(sample processing operation)이 시작, 종료된 시점을 나타내는 시간 지표; 태그된 표적 분자가 서열분석된, 및/또는 관련 데이터가 저장된 시점을 나타내는 시간 지표; 등), 전송된(transmitted), 수신된(received), 및/또는 기타 처리된(processed) 시점을 나타내는 시간 지표; 상기 데이터에 의해 기술된 콘텐츠에 컨텍스트를 제공하는 시간 지표; 시간 지표의 변화; 및/또는 시간과 관련된 임의의 다른 적절한 지표. 본 명세서에서 기술되는 분자 및/또는 임의의 적절한 생물학적 구성은 임의의 적절한 크기 (예를 들어, 서열 길이, 등)를 포함할 수 있다. 서열 영역 및/또는 기타 적절한 구성간의 비교는 하기의 하나 이상을 포함하는 임의의 적절한 양태를 따를 수 있다: 서열 유사도 (예를 들어, 백분율로; 염기의 수로; UMI 영역 및/또는 표적 영역을 포함하는 임의의 적절한 서열 영역에 대한 비율로; 등), 완전한 서열 일치(complete sequence match), 서열 비유사성(sequence dissimilarity), 서열 위치(sequence position), 표적의 유형, 서열 영역의 유형, 관련된 미생물의 유형, 미생물-관련 상태의 유형, 및/또는 임의의 다른 적절한 양태.
추가적으로 또는 대안적으로, 파라미터, 메트릭스(metrics), 인풋(inputs), 아웃풋(outputs) 및/또는 다른 적절한 데이터가 점수, 개별 값, 총계 값, 이진 값, 상대 값, 분류, 신뢰 수준, 식별자, 스펙트럼에 따른 값 및/또는 다른 적절한 유형의 값 중 하나 이상을 포함하는 값 유형과 관련될 수 있다. 본 명세서에 기술된 임의의 적절한 유형의 데이터, 성분(예를 들어, 생물학적 성분), 산물(예를 들어, 샘플 처리 작업, 등)은 인풋 (예를 들어, 상이한 샘플 처리 작업; 모델; 혼합물; 서열분석 기술; 등), 산출된 아웃풋으로서(예를 들어, 상이한 모델; 모듈; 샘플 처리 작업의 산물 등) 사용될 수 있고, 및/또는 상기 방법 (100) 및/또는 시스템과 관련된 임의의 적절한 구성에 대해 임의의 적절한 방식으로 조작(manipulated)될 수 있다.
본 명세서에 기술된 상기 방법 (100) 및/또는 프로세서의 하나 이상의 예시 및/또는 구현예의 일부는 비동기식(asynchronously)으로(예를 들어, 순차적으로), 동시에(예를 들어, 다중화(multiplexing); 상기 방법 (100)의 구현예의 부분에서 복수 샘플의 처리; 상기 방법 (100)의 시퀀싱 분석 및/또는 이의 구현예들의 일부들과 관련된 병렬 데이터 처리; 등), 시간 관계로(in temporal relation)(예를 들어, 실질적으로 동시에, 응하여(in response to), 연속적으로, 우선적으로(prior to), 후속적으로, 등) 계기(triggers) 이벤트 (예를 들어, 상기 방법 (100)의 구현예의 일부의 수행)에 대하여, 및/또는 시스템, 구성요소, 및/또는 본 명세서에 기술된 실체의 사례 중 하나 이상을 사용하여 의해 및/또는 임의의 적절한 시간 및 빈도로 임의의 다른 적절한 순서로, 수행될 수 있다.
그러나, 상기 방법 (100) 및/또는 시스템은 임의의 적절한 방식으로 구성될 수 있다.
2.1 UMI-기반 분자의 제조
상기 방법 (100)의 구현예는 하나 이상의 표적(예를 들어, 표적 핵산서열 세트; 미생물과 관련된 표적; 등)과 관련된 UMI-기반 분자 세트(예를 들어, UMI-기반 프라이머, 등)를 제조(예를 들어, 결정, 생성 등)하는 단계 (S110)를 포함할 수 있으며, 이는 태그된 핵산 분자 세트의 생성을 용이하게 하는 단계와 같이, 하나 이상의 표적의 태깅(tagging) 촉진(예를 들어, UMI-기반 분자; UMI 영역; 어댑터 영역; 링커 영역; 등으로), 증폭 및/또는 적합한 다른 처리를 위해 사용되는 분자를 준비하는 것으로 기능할 수 있다.
표적 (예를 들어, 관심 표적; 공지 또는 확인된 표적; 미지 또는 이전에 미확인된 표적; 등)은, 바이오마커; 유전자 (예를 들어, 유전자 발현 마커, 등); 서열 영역 (예를 들어, 유전자 서열; 유전자, 염색체, 미생물-관련 상태, 보존 서열, 돌연변이, 다형성을 식별하는 서열; 아미노산 서열; 뉴클레오티드 서열 등); 핵산 (예를 들어, 유전체 DNA, 염색체 DNA, 염색체 외 DNA, 미토콘드리아 DNA, 플라스티드 DNA, 플라스미드 DNA, 코스미드 DNA, 파지미드 DNA, 합성 DNA, RNA로부터 획득한 cDNA, 단일 및 이중 가닥 DNA, 등); 세포; 소분자; 단백질; 펩티드; 하나 이상의 미생물-관련 상태와 관련된 표적 (예를 들어, 하나 이상의 미생물-관련 상태와 관련된 진단, 예후, 예측 및/또는 치료의 정보를 제공하는 표적; 등); 미생물 조성과 관련된 표적 (예를 들어, 샘플에 존재하는 미생물의 분류학적 분류를 지시하는 표적; 임의의 적절한 분류군의 미생물의 존재, 풍부도(abundance) 및/또는 부재를 지시하는 마커 등) 및/또는 미생물 기능 (예를 들어, 미생물과 관련된 기능적 특징을 나타내는 표적 등); 지질; 총 핵산(total nucleic acids); 전체 미생물; 대사 산물(metabolites); 탄수화물; 및/또는 임의의 적절한 조합(예를 들어, 다중 라이브러리로부터, 등) 및/또는 표적의 유형 중 임의의 하나 이상을 포함할 수 있다. 구체예에서, 표적은 일부 및/또는 전장 분류학적 마커 유전자 (예를 들어, 16S rRNA, 18S rRNA, 등), 일부 및/또는 전장 유전자 및/또는 마커 (예를 들어, 바이러스 캡시드 유전자; 항생제 내성과 관련된 유전자 및/또는 마커; 등), 및/또는 임의의 적절한 유전자 및/또는 마커를 포함할 수 있다.
UMI-기반 분자는 바람직하게는 하나 이상의 표적(예를 들어, 미생물-관련 핵산 표적, 등)과 관련되나(예를 들어, 상기 하나 이상의 표적(예를 들어, 핵산 표적, 등)의 하나 이상의 서열 영역에 상보적인 하나 이상의 서열 영역을 포함하는 표적 관련 영역을 포함하는; 타게팅하는; 증폭 가능한; 처리 가능한; 태그할 수 있는; 등), 추가적으로 또는 대안적으로 임의의 적절한 구성과 관련될 수 있다.
변형에서, UMI-기반 분자는 UMI-기반 프라이머 (예를 들어, 하나 이상의 PCR 프로세스와 같은, 하나 이상의 증폭 프로세스에 사용하기 위한; 하나 이상의 UMI 영역을 포함하는 프라이머; 등)를 포함할 수 있으나, 추가적으로 또는 대안적으로 임의의 적절한 목적에서 임의의 적절한 UMI-기반 분자 유형을 포함할 수 있다. 예를 들어, UMI-기반 프라이머는 퇴화된(degenerate) 프라이머를 생략할 수 있다 (예를 들어, 이러한 퇴화된 프라이머는 PCR 프로세스 과정에서 퇴화된 프라이머의 서열과 더 유사하게 매칭되는 표적의 증폭을 선호하게 되어 상이한 PCR 효율 및 상이한 주형의 탐지 한계에 영향을 주는 결과를 초래하는 것과 같은, 편향을 야기할 수 있다; minION과 같은 이러한 플랫폼은 상기 플랫폼이 보존 영역을 표적하는 정의된 서열을 갖는 프라이머와 함께 사용될 수 있는 것과 같은 더 긴 리드의 생성을 가능하게 한다.). 일 구체예에서, 상기 UMI-기반 분자 세트는 복수된 미생물 분류군과 관련된 보존 영역을 타게팅하는 정의된 서열 영역을 포함하는 UMI-기반 프라이머를 포함할 수 있다 (예를 들어, 이러한 프라이머의 이용은 편향의 감소 및/또는 표적 서열에 대한 우선 증폭의 감소가 가능하다; 등). 예에서, UMI-기반 프라이머 (예를 들어, 복수의 미생물 분류군과 관련된 보존 영역을 타게팅하는 정의된 서열 영역을 포함하는; 등)는 다른 주형 표적에 걸쳐 동일한 또는 유사한 친화도를 포함할 수 있으며, 이는 태그된 핵산 분자의 생성 단계에서 PCR-기반 umi 혼입에 의한 부정적인 영향을 감소시킬 수 있다. 예에서, UMI-기반 프라이머의 사용은 상이한 표적에서 상기 서열분석의 양을 조절하는 데에 사용될 수 있으며, 예를 들어 이러한 서열분석은 상기 생성된 데이터의 분량이 다른 미생물 분류군의 식별 및/또는 임의의 적절한 표적의 식별이 가능해질 때까지 진행이 허용될 수 있다 (예를 들어, 이러한 서열분석된 핵산 분자의 수 및/또는 서열분석 리드 심도(depth)와 같은, 표적을 식별하는 데 요구되는 서열분석의 양은 특이적 표적에 따라 달라질 수 있다; 등)
UMI-기반 분자 (및/또는 프라이머 및/또는 본 명세서에서 기술된 기타 분자와 같은, 기타 적절한 분자)는 바람직하게는 하나 이상의 UMI 영역을 포함한다 (예를 들어, 이러한 UMI-기반 분자는 단일 UMI 영역을 포함할 수 있음; 이러한 UMI-기반 분자는 복수의 UMI 영역을 포함할 수 있음; 등). UMI 영역은 랜덤 "N" 염기 세트 (예를 들어, N 디옥시뉴클레오티드 염기)를 포함할 수 있으며, 여기서 각각의 랜덤 "N" 염기는 "A" 아데닌 염기, "G" 구아닌 염기, "T" 티민 염기, 및 "C" 시토신 염기중 선택된다. "N" 염기는 연속적 (예를 들어, 강한 "N" 염기, 등), 분리 (예를 들어, 정의된 염기에 의해; 임의의 적절한 서열 영역에 의해; 등), 및/또는 상기 UMI- 기반 분자의 임의의 적절한 서열 위치에 위치할 수 있다. UMI 영역은 임의의 적절한 서열 길이 (예를 들어, 적어도 2개의 "N" 염기; 21개 보다 적은 "N" 염기; 임의의 적절한 수의 "N" 염기; 등)를 포함할 수 있다. 구체예에서, UMI 영역(예를 들어, 주어진 반응에 대해; 주어진 태깅 프로세스에 대해; 등)은 각각 고정된 길이(예를 들어, 10 뉴클레오티드 길이; 등)를 포함할 수 있다. 일 구체예에서, 상이한 반응은 상이한 길이의 UMI 영역에 기초하는 것일 수 있다 (예를 들어, 제1 반응에서는 10 뉴클레오티드 길이를 포함하는 모든 UMI 영역; 제2 반응에서는 15 뉴클레오티드 길이를 포함하는 모든 UMI 영역; 다양한 길이의 UMI 영역을 포함하는 기타 반응, 예를 들어, 제3 반응에서는 3 내지 15 뉴클레오티드 길이를 포함하는 UMI 영역; 등). 그러나, 임의의 적절한 길이 (예를 들어, 고정된 길이; 가변(variable) 길이; 등)를 갖는 UMI 영역의 임의의 수 및/또는 유형은 하나 이상의 반응에 사용될 수 있다. 추가적으로 또는 대안적으로, UMI 서열 영역은 고정된 (예를 들어, 비-랜덤, 등) 뉴클레오티드 서열 단독, 랜덤 뉴클레오티드 서열과 고정된 뉴클레오티드 서열의 조합 (예를 들어,"ATCNNNNN" 서열, "NNATCNNNN" 서열, "NNNNATC" 서열, "NNATCNNGTNNN" 서열, 여기서 "N" 염기는 랜덤 "N" 염기일 수 있음, 등), 및/또는 랜덤 뉴클레오티드 서열 단독을 포함할 수 있다.
UMI 영역 서열 길이는 처리되는(예를 들어, 정량되는, 구별되는, 시작 핵산 물질, 등) 표적의 양 및/또는 유형에 기초하여 결정될 수 있으며, 예를 들어, 더 긴 UMI 영역은 더 큰 수의 랜덤 염기 조합 및 더 큰 고유한 식별자 세트를 촉진할 수 있다 (예를 들어, 더 큰 수의 구별 대상인 표적의 유형을 분석하는 데에 사용되는; 더 큰 수의 주형, 핵산 물질, 및/또는 유전자 변형체를 포함하는 샘플을 분석하는 데에 사용되는; 등). 일 예에서, 다른 길이 및/또는 서열의 UMI 영역은 상기 시작(starting) 핵산 물질 (예를 들어, 내장, 입, 피부, 생식기, 및/또는 코 샘플로부터 얻은 미생물로부터 추출된 핵산, 등)의 성질(nature) 및 양에 따라 사용 및/또는 통합될 수 있다. 구체예에서, UMI-기반 분자 세트(예를 들어, 상기 UMI-기반 분자 세트의 UMI 영역; 등)의 길이 및/또는 기타 특성에 의해 허용되는 조합의 수는, 최소한 단일 분자부터 최대 임의의 조합까지, 상기 개시 핵산 물질에 존재하는 주형 핵산분자의 수보다 높을 것이 요구된다.
일 예에서, 상기 UMI 영역은 4N UMI 영역 (예를 들어, 4개의 "N" 염기를 포함하는 UMI 영역, 등)을 포함할 수 있다. 일 구체예에서, 상기 UMI 영역은 MgCl2, 디메틸 설폭사이드(dimethyl sulfoxide; DMSO), 열안정적(thermostable) 핵산 결합 단백질 (예를 들어, 극도의(extreme) 열안정적 단일-가닥 DNA 결합 단백질, 등), 및/또는 기타 적절한 구성 중 하나 이상과 같은, 하나 이상의 태깅(tagging) 촉진 분자의 추가와 같은, 16S 유전자의 증폭 프로세스에서와 같이, 8N UMI 영역을 포함할 수 있다. 그러나, UMI 영역은 임의의 적절한 방식으로 구성될 수 잇다.
UMI-기반 분자 (및/또는 기타 적절한 분자, 예를 들어, 프라이머 및/또는 본 명세서에서 기술되는 기타 분자)는 바람직하게는 하나 이상의 표적-관련 영역을 포함한다. 표적-관련 영역은 바람직하게는 서열 영역(예를 들어, 유전자 서열, 등)을 포함할 수 있으나, 추가적으로 또는 대안적으로 임의의 적절한 구성의 유형 (예를 들어, 결합할 수 있는, 커플링할 수 있는, 연결할 수 있는, 영향을 주는, 정보를 주는, 변형하는, 및/또는 표적과 임의의 적합한 관계를 갖는 것과 같은, 표적과 관련된 임의의 적절한 구성; 등)을 포함할 수 있다. 표적-관련 영역은 바람직하게는 하나 이상의 표적 (예를 들어, 핵산 표적의 서열 영역; 핵산 표적의 기타 적절한 구성; 등)과 관련되는(예를 들어, 서열 상보적인; 표적하는(targeting); 증폭 가능한; 처리 가능한; 등) 것일 수 있다. 일 예에서, 표적-관련 영역은 상보적 표적 DNA 서열(예를 들어, 핵산 표적)과 어닐링 가능한 DNA 서열을 포함할 수 있다. 변형에서, 표적-관련 영역은 복수의 미생물 분류군에 걸쳐 보존된 서열과 관련될 수 있다. 변형에서, 표적-관련 영역은 중합효소(예를 들어, DNA 중합효소)가 핵산 표적 및/또는 기타 적절한 구성을 복제 및 증폭할 수 있도록 하지만, 표적-관련 영역 임의의 적절한 기능성을 포함할 수 있다. 표적-관련 영역은 임의의 적절한 길이 (예를 들어, 최소한 15 염기 길이; 임의의 적절한 염기 수; 등)를 포함할 수 있다. 또한, UMI-기반 분자는 표적-관련 영역을 배제할 수 있다. 그러나, 표적-관련 영역 (및/또는 기타 적절한 분자)는 임의의 적절한 방식으로 구성될 수 있다.
UMI-기반 분자 (및/또는 프라이머 및/또는 본 명세서에서 기술된 기타 분자와 같은, 기타 적절한 분자)는 하나 이상의 링커 영역(예를 들어, 핵산 분자의 표적 서열에 결합하는 프라이머에 관한 것과 같이, 태그된 핵산 분자의 생성을 촉진하기 위해 기능할 수 있는 것; 등)을 포함할 수 있다. 링커 영역은 바람직하게는 하나 이상의 핵산 표적 (예를 들어, 상기 표적 관련 영역과 관련된 핵산 표적; 등)에 완전한 상보성이 결여된 것일 수 있다 (예를 들어, 상보성 없음, 일부 상보성, 등). 링커 영역은 임의의 적절한 길이 (예를 들어, UMI-기반 프라이머 세트의 각각의 UMI-기반 프라이머와 같이, 상기 링커 영역이 21개 보다 적은 염기를 포함하는; 임의의 적절한 염기 수의 길이; 등)를 포함할 수 있다. 링커 영역은 바람직하게는 UMI 영역 및 표적-관련 영역 사이에 위치할 수 있으나 (예를 들어, UMI 서열 영역 및 표적-관련 서열 영역을 분리하는; 등), 임의의 적절한 위치(예를 들어, 임의의 적절한 서열 위치; 등)에 위치할 수 있으며, 예를 들어, 각각의 UMI-기반 분자 (예를 들어, UMI-기반 프라이머 세트의 각각의 UMI-기반 프라이머; 등)에 대해, 상기 링커 영역은 상기 UMI 영역 및 상기 UMI-기반 분자의 상기 표적-관련 영역 사이에 위치한다. 구체예에서, 링커 영역은 PCR 증폭에서 UMI-기반 분자의 임의의 잠재적인 부정적 효과를 제한하는 길이의 서열을 포함할 수 있다. 또는, UMI-기반 분자 (및/또는 기타 적절한 분자)는 링커 영역을 제외할 수 있다. 그러나, 링커 영역은 임의의 적절한 방식으로 구성될 수 있다.
UMI-기반 분자는 임의의 적절한 크기(예를 들어, 임의의 적절한 서열 길이, 등)를 포함할 수 있으며, UMI-기반 분자의 임의의 적절한 수 및/또는 유형은 상기 방법 (100)의 구현예의 일부에서 제조 및/또는 사용될 수 있다.
변형에서, UMI-기반 분자를 제조하는 단계는, 거리 측정의 고전적 또는 변형된 버전을 포함하는 컴퓨터적 접근 및/또는 분석적 기술(예를 들어, Hamming 및/또는 Levenshtein, 등)에 기초하여 UMI-기반 분자를 설계하는 단계(designing), 및 다른 주형 분자의 식별을 가능하게 하는 단계뿐 아니라 오류(error) 정정을 허용하는 단계를 포함할 수 있다. 구체예에서, UMI-기반 분자는 상이한 주형 분자들간에 상이하도록 설계된다. 구체예에서, 상기 거리 측정의 사용은 UMI 영역을 다른 UMI 영역으로 변환하는 데 필요한 뉴클레오티드 변화의 수 조절을 가능하게 한다. 일 구체예에서, 제1 UMI 영역 ("AAA")을 제2 UMI 영역 ("TTT")으로 변환하기 위해서는, 적어도 세 종류의 변화가 필요하다; 여기서 상기 구체예에 대하여, 상기 변환을 완료하기 위한 가장 단순한 방법은 제1 UMI 영역에서 모든 A를 T로 치환하는 것이다. 구체예에서, 상기 거리 측정의 사용은 다른 분자의 계수(count)에 사용할 수 있는 다른 UMI 수의 조절을 가능하게 하며, 추가적으로 또는 대안적으로, 오류 정정 시스템으로 조절할 수 있다. 추가적으로 또는 대안적으로, 임의의 적절한 거리 측정 및/또는 분석적 기술은 UMI-기반 분자의 수를 를 설계하는 단계 및/또는 결정하는 단계에서 사용될 수 있다. 일 구체예에서, 상기 UMI-기반 분자 세트를 제조하는 단계는 상기 표적 핵산서열 세트 및 상기 태그된 핵산 분자의 서열분석을 위해 정의된 한계 (예를 들어, 표적 핵산 서열에 대한 원하는 양의 서열 분석과 관련된, 사전 정의된 한계, 등)에 기초한, 상기 태그된 핵산 분자 세트의 생성을 촉진하기 위해 다른 UMI 영역의 수를 결정하는 단계(예를 들어, 조절하는 단계)를 포함한다.
UMI-기반 분자를 제조하는 단계는 상기 방법 (100)의 구현예의 임의의 적절한 일부의 이전 및/또는 이후에 (예를 들어, 태그된 표적 분자의 반복 생성을 위해, 태그된 표적 분자의 생성 이전 또는 도중에; 태그된 표적 분자 생성 이후에; 등), 및/또는 임의의 적절한 시간 및 빈도로 수행될 수 있다. UMI-기반 분자를 제조하는 단계는 UMI-기반 분자 세트를 임의의 적절한 실체 (예를 들어, 제3자 실체가 태그된 표적 분자 세트를 생성 및 상기 태그된 표적 분자 세트로 단일 분자 서열분석을 수행할 수 있도록 하기 위한, 제3자 실체; 등)에 제공하는 단계를 포함할 수 있다.
그러나, UMI-기반 분자를 제조하는 단계 (S110)는 임의의 적절한 방식으로 수행될 수 있다.
2.2 태그된 표적 분자의 생성 촉진 단계
상기 방법 (100)의 구현예는 상기 UMI-기반 분자 세트 및 상기 표적 핵산 서열 세트 해당하는(예를 들어, 포함하는, 등) 핵산 분자 세트에 기초하여 태그된 핵산 분자 세트의 생성을 용이하게 하는 단계 (예를 들어, 생성하는 단계, 등) (S120)을 포함할 수 있으며, 이는 하류(downstream) 서열분석(예를 들어, 단일 분자 서열분석; 등)을 촉진하기 위한 태그된 표적 분자 및/또는 미생물-관련 특성(예를 들어, 하나 이상의 미생물-관련 상태에 대한 진단 및/또는 치료의 결정)을 결정하기 위한 생물정보학 분석을 획득 및/또는 적절한 분석 (예를 들어, 분자 계수(counting))을 수행하는 기능을 할 수 있다.
핵산 분자 (예를 들어, 태깅되는 것인; 등)는 바람직하게는 하나 이상의 샘플로부터 (예를 들어, 하나 이상의 내장 부위, 피부 부위, 생식기 부위, 코 부위, 입 부위, 및/또는 기타 적절한 신체 부위로부터 수집된 샘플; 생물학적 시료; 등) 유래한 것일 수 있다.
태그된 표적 분자 (예를 들어, 태그된 표적 핵산 분자)는 바람직하게는 하나 이상의 UMI-기반 분자 (예를 들어, UMI 영역, 링커 영역, 및/또는 적절한 UMI-기반 분자의 영역; 등)로 태그된 (예를 들어, 부착된 (attached with); 연결된(connected to); 커플링된(coupled with); 등) 하나 이상의 표적 (예를 들어, 전체 핵산 및/또는 표적 서열 영역을 포함하는 핵산 조각과 같이, 표적을 포함하는 구성, 등)을 포함할 수 있으나, 추가적으로 또는 대안적으로 하나 이상의 표적과 관련된 및 임의의 적절한 분자로 태그된 임의의 적절한 구성을 포함할 수 있다. 태그된 표적 분자 세트를 생성하는 단계는 바람직하게는 UMI-기반 분자 세트 (예를 들어, UMI-기반 프라이머, 등) 및 하나 이상의 생물학적 시료 (예를 들어, 상기 UMI-기반 분자 세트와 상기 하나 이상의 생물학적 시료의 태깅 구성, 및/또는 상기 UMI-기반 분자 세트의 구성; 등)에 기초(예를 들어, 사용; 이의 처리(process); 이의 증폭 프로세스 수행; 등)할 수 있으나, 추가적으로 또는 대안적으로 임의의 적절한 구성에 기초할 수 있다.
상기 태그된 표적 분자 세트의 생성을 용이하게 하는 단계는 하나 이상의 증폭 프로세스에 기초(예를 들어, 포함; 이의 아웃풋 사용; 등) 할 수 있다. 증폭 프로세스 (예를 들어, 상기 태그된 표적 분자 세트를 생성하는 단계와 관련된; 상기 방법 (100)의 구현예의 임의의 적절한 일부와 관련된; 등) 하나 이상의 PCR 프로세스 (예를 들어, 고체상(solid-phase) PCR, RT-PCR, qPCR, 다중(multiplex) PCR, 터치다운(touchdown) PCR, 나노PCR(nanoPCR), 네스티드(nested) PCR, 핫 스타트 PCR, 등)를 포함할 수 있으나, 추가적으로 또는 대안적으로 헬리케이즈-의존적 증폭 (helicase-dependent amplification; HDA), 루프 매개 등온 증폭(loop mediated isothermal amplification; LAMP), 자가-지속형 서열 복제(self-sustained sequence replication; 3SR), 핵산 서열 기반 증폭 (Nucleic acid sequence based amplification; NASBA), 가닥 변위 증폭 (strand displacement amplification; SDA), 롤링 서클 증폭 (rolling circle amplification; RCA), 리가아제 연쇄 반응(ligase chain reaction; LCR), 및/또는 임의의 다른 적절한 증폭 프로세스 중 하나 이상을 포함할 수 있다. 구체예에서, 다중-단계(multi-step) PCR 프로세스는, 본 참조에 의해 이의 전체가 본 명세서에 포함되는, 2018년 6월 20일자로 출원된 미국 특허출원 제16/013,858호에 기술된 및/또는 이와 유사한 임의의 적절한 방식과 같이, 태그된 표적 분자(예를 들어, 태그된 핵산 분자, 등)의 생성을 용이하게 하는 단계에서 사용될 수 있다, 추가적으로 또는 대안적으로, 상기 방법 (100) 및/또는 시스템의 구현예의 임의의 적절한 일부 는 포함, 적용, 사용, 및/또는 2018년 6월 20일자로 출원된 미국 특허출원 제16/013,858호에 기술된 및/또는 유사한 임의의 적절한 접근과 관련될 수 있으며, 본 참조에 의해 이의 전체가 본 명세서에 포함된다.
그러나, 임의의 적절한 PCR 프로세스 및/또는 기타 증폭 프로세스를 수행하는 단계 (예를 들어, 상기 태그된 표적 분자 세트를 생성하는 단계와 관련된; 상기 방법 (100)의 구현예의 임의의 적절한 일부와 관련된; 등)는 임의의 적절한 방식으로 수행될 수 있다. 추가적으로 또는 대안적으로, 증폭-독립적 프로세스는 태그된 핵산 분자의 생성에 사용될 수 있다. 일 예에서, 태그된 표적 핵산 분자의 다른 서브세트 (예를 들어, 하나 이상의 PCR-생성된 태그된 표적 핵산 분자의 서브세트 및 하나 이상의 PCR-독립적 태그된 표적 핵산 분자 서브세트를 포함하는 태그된 표적 핵산 분자 세트; 등)가 생성될 수 있다. 일 구체예에서, 상기 태그된 핵산 분자 세트의 생성을 용이하게 하는 단계는 하기를 포함한다: 상기 핵산 분자 세트의 제1 서브 핵산 분자 세트로 PCR 증폭 프로세스의 수행하는 단계에 기초하여 PCR-증폭된 서브 핵산 분자 세트를 생성하는 단계; 및 상기 핵산 분자 세트의 상기 PCR-증폭된 서브 핵산 분자 세트 및 PCR-독립적 서브 핵산분자 세트에 기초하여 상기 태그된 핵산 분자 세트를 생성하는 단계.
태그된 표적 분자 세트를 생성하는 단계는 추가적으로 또는 대안적으로 하나 이상의 태깅 촉진 분자 (예를 들어, UMI-기반 분자를 핵산 표적에 혼입하는 것과 같이, 태깅과 관련된 효율 및/또는 다목적성을 개선하기 위해 사용될 수 있는 것; 효율과 관련하여 증폭 프로세스를 개선하기 위해 사용될 수 있는 것; 등)에 기초할 수 있다(예를 들어, 사용; 이용하여 처리; 처리; 이용하여 증폭 공정 수행, 등). 태깅 촉진 분자는 하나 이상의 MgCl2, 디메틸 설폭사이드 (DMSO), 열안정성(Thermostable) 핵산 결합 단백질, 베타인, 포름아미드, 트윈(tween), 트리톤(triton), NP-40, 테트라메틸 암모늄 클로라이드(Tetramethyl ammonium chloride; TMAC), 소 혈청 알부민(bovine serum albumin; BSA), 유기 및/또는 무기 인핸서 요소, 화합물, 염, 소분자, 생체 분자(biomolecules) 및/또는 태깅을 용이하게 하도록 구성된 임의의 다른 적합한 분자를 포함할 수 있다.
태그된 표적 분자의 생성을 용이하게 하는 단계 (및/또는 임의의 적절한 분자를 태깅하는 단계)는 임의의 적절한 시간 및 빈도로(예를 들어, 반복적 제품 생성 방식에서와 같이, 서열분석-준비된 태그된 표적 분자를 생성하는 단계에 앞서; 서열분석-준비된 태그된 표적 분자를 생성하는 단계의 도중 또는 이후에, 등)수행될 수 있다. 태그된 표적 분자의 생성을 용이하게 하는 단계는 제3자 실체 및/또는 적절한 실체에 UMI-기반 분자를 제공하는 것(예를 들어, 상기 태그된 표적 분자를 생성하기 위해 요구되는 샘플 처리 단계를 수행하는 것인; 등)에 기초할 수 있다.
변형에서, 태그된 표적 분자 세트를 생성하는 단계는 하나 이상의 단편화 프로세스, 라이게이션(ligation) 프로세스, 및/또는 상기 UMI-기반 분자로 핵산 표적(및/또는 상기 하나 이상의 생물학적 시료의 기타 적절한 구성, 등)과 같은, 하나 이상의 표적을 태그하기 위한 것과 같은 기타 적절한 프로세스를 수행하는 단계 (예를 들어, PCR 기반 프로세스에 추가로 또는 대안적으로, 등)를 포함할 수 있다. 일 예에서, 상기 태그된 표적 분자 세트를 생성하는 단계는 하나 이상의 생물학적 샘플(예를 들어, 관심 있는 표적에 상응하는 표적 서열과 같은, 하나 이상의 핵산 표적을 포함하는 단편을 생성하는 것; 하나 이상의 생물학적 샘플로부터 단편을 생성하는 것; 등)을 이용하여 효소적 공정 및 기계적 공정(예를 들어, 효소적 및/또는 기계적 단편화 등) 중 적어도 하나에 기초하여 단편을 생성하는 단계; 및 표적 분자의 증폭 단계 이전과 같이 (예를 들어, 표적 NDA; 서열분석 라이브러리 구축을 위해; 등) 상기 UMI-기반 분자 및 상기 단편에 대한 라이게이션(ligation) 프로세스 (예를 들어, 리가아제 효소를 이용한 블런트-엔드 라이게이션(blunt-end ligation); 등)를 수행하는 단계 (예를 들어, 상기 UMI-기반 분자를 상기 단편에 라이게이션하는 단계; 등)를 포함할 수 있다. 일 예에서, 상기 태그된 표적 분자 세트를 생성하는 단계는 적어도 하나의 생물학적 시료로부터 핵산 단편을 생성하는 단계; 및 상기 UMI-기반 분자 세트를 상기 핵산 단편에 라이게이션하는 단계를 포함할 수 있다. 예에서, 상기 하나 이상의 단편화 프로세스 및/또는 연결(ligation) 프로세스를 수행하는 단계는 모든 가능한 분자 (예를 들어, 용액 내)를 가리지 않고 태그하는 결과를 도출할 수 있는 반면, 예를 들어, PCR 프로세스로 상기 태그된 표적 분자 세트를 생성하는 단계 (예를 들어, 본 명세서에 기술된 것)는 UMI 태깅을 위한 특이적인 타게팅 (예를 들어, 표적 DNA 서열에 대해)을 촉진할 수 있다. UMI 태깅에 사용된 라이게이션(ligation) 프로세스는 단편화 프로세스를 수행하는 태그된 표적 분자를 생성하기 위한 PCR 프로세스에서 사용되는 UMI-기반 분자의 유형과 동일한, 유사한, 또는 구별되는 UMI-기반 분자 (예를 들어, 생성된 단편, 및/또는 기타 분자를 태깅하기 위한; 등)를 사용할 수 있다. 구체예에서, 핵산 분자 (예를 들어, 표적 핵산 서열에 해당하는; 등)는 효소적 및/또는 기계적 단편화 이후에, 태그된 표적 핵산 분자를 증폭하는 단계 이전에 리가아제 효소를 이용하여 블런트-엔드 라이게이션을 사용하여 UMI-기반 분자를 이용해 태그될 수 있다 (예를 들어, 서열분석 라이브러리 구축을 위해, 등). 변형에서, PCR-기반 표지의, 단편화 방법 중에 오버행(overhang) 및/또는 스티키 엔드(sticky ends)를 생성하는 효소는 추가적으로 또는 대안적으로 임의의 블런트-엔드(blunt-end) 및 스티키-엔드 단편화 및/또는 적절한 라이게이션 프로세스의 조합을 포함하는, 임의의 적절한 라이게이션(ligation) 프로세스와의 조합으로 사용될 수 있다. 변형에서, PCR 기반 표지의, 핵산 분자에 DNA 서열을 삽입하는 효소 (예를 들어, 트랜스포존)는 임의의 적절한 라이게이션(ligation) 프로세스 (예를 들어, 본 명세서에 기술된, 등)와의 조합으로와 같이 UMI-기반 분자로 태그하기 위해 사용될 수 있다.
그러나, 분절화 프로세스 및/또는 라이게이션(ligation) 프로세스 중 하나 이상, 및/또는 태그된 표적 핵산 분자의 생성을 용이하게 하기 위해 임의의 적절한 프로세스를 수행하는 단계는 임의의 적절한 방식으로 수행될 수 있다.
추가적으로 또는 대안적으로, 태그된 핵산 분자의 생성을 용이하게 하는 단계는 본 참조에 의해 이의 전체가 본 명세서에 포함되는, 2018년 9월 7일 출원된 미국 특허 출원 제16/125,619호에 기술된 것과 같은 및/또는 이와 유사한 방식으로와 같이, 상이한 앰플리콘의 라이브러리를 밸런싱(balancing) (예를 들어, 정규화)하는 단계를 포함할 수 있다. 상이한 앰플리콘의 라이브러리를 밸런싱하는 단계, 및/또는 상기 방법 (100)의 구현예의 적절한 일부를 수행하는 단계는, 식별되기 전에 다수 사이클의 서열분석을 요구하는 과대 표시된 주형 분자가 과소 표시된 분자의 서열 분석을 방지할 수 있는 것과 같이, 과대 표시된 분자가 덜 풍부한 주형의 서열분석을 지연시키는 것을 예방할 수 있다. 일 구체예에서, 태그된 핵산 분자 세트의 형성을 용이하게 하는 단계는 상기 핵산 분자 세트의 과소 표시된(underrepresented) 핵산 분자 및 과대 표시된(overrepresented) 핵산 분자와 관련된 앰플리콘 세트의 밸런싱을 위해 상기 UMI-기반 분자 세트 및 상기 핵산 분자 세트에 기초한 적어도 하나의 증폭 프로세스를 수행하는 단계를 포함할 수 있다. 변형에서, 추가적인 PCR 프로세스 (예를 들어, 3단계 PCR 프로세스에서; 등) 및/또는 적절한 증폭 프로세스는 상이한 앰플리콘의 라이브러리의 밸런싱을 가능하게 할 수 있다. 그러나, 앰플리콘 라이브러리 및/또는 기타 적절한 구성의 밸런싱은 임의의 적절한 방식으로 수행될 수 있다.
변형에서, 상기 태그된 표적 분자 세트를 생성하는 단계는 적어도 하나의 PCR 프로세스 및 적어도 하나의 라이게이션(ligation) 프로세스의 조합 (예를 들어, 순차 조합; 병렬 조합; 등)을 포함할 수 있다. 예를 들어, 상기 태그된 표적 분자 세트를 생성하는 단계는, PCR 효율 및 표적 증폭을 증가시키기 위한 것과 같이, 프라이머 세트 (예를 들어, 하나 이상의 표적-관련 영역, 링커 영역, 및/또는 임의의 다른 적절한 구성을 포함하는, 등)로 PCR 프로세스를 수행하는 단계; 및 상기 UMI-기반 분자를 상기 PCR 프로세스 결과물에(예를 들어, 증폭된 핵산 표적; 등) 추가하기 위한 것과 같이, 하나 이상의 UMI-기반 분자 (예를 들어, 하나 이상의 UMI 영역, 어댑터 영역, 및/또는 기타 적절한 구성을 포함하는, 등)로 라이게이션(ligation) 프로세스를 수행하는 단계를 포함할 수 있다. 일 예에서, 상기 태그된 표적 분자 세트를 생성하는 단계는 적어도 하나의 생물학적 시료 및 상기 표적 세트의 적어도 하나의 표적과 관련된 표적-관련 영역을 포함하는 프라이머 세트에 기초하여 PCR 프로세스를 수행하는 단계; 및 UMI-기반 분자 세트를 상기 PCR 프로세스의 결과물에 라이게이션하는 단계를 포함할 수 있다. 그러나, 적어도 하나의 PCR 프로세스 및 적어도 하나의 라이게이션(ligation) 프로세스의 조합을 수행하는 단계 임의의 적절한 방식으로 수행될 수 있다.
상기 태그된 표적 분자 세트(및/또는 상기 방법 (100)의 구현예의 적절한 일부)를 생성하는 단계는 하나 이상의 정제 프로세스 (예를 들어, 임의의 적절한 구성을 정제하기 위해; 임의의 적절한 구성을 제거하기 위해; 등)를 수행하는 단계를 포함할 수 있다. 일 예에서, 상기 태그된 표적 분자 세트를 생성하는 단계는 상기 제1 증폭 프로세스의 결과물에서 상기 UMI-기반 프라이머 세트의 UMI-기반 프라이머를 제거하기 위해 (및/또는 기타 적절한 구성을 제거하기 위해) 상기 제1 증폭 프로세스의 결과물로 정제 프로세스를 수행하는 단계를 포함할 수 있다. 예에서, 상기 방법 (100)은 상기 제1 UMI-기반 프라이머 세트로 수행된 PCR-기반 증폭 프로세스에서 얻어진 산물(product)의 정제와 같은, 본 명세서에 기술된 증폭 프로세스 (예를 들어, 태그된 표적 분자산물의 풀을 생성하기 위해 사용된 PCR 프로세스, 등)에서 얻어진 산물에 대해 프로세스를 수행하는 단계를 포함할 수 있다. 정제 프로세스는 하기 중 하나 이상을 포함할 수 있다: 실리카-기반 DNA 결합 미니-컬럼, SPRI(Solid Phase Reversible Immobilization) 자기 비드 (예를 들어, 업스케일링 및 자동화 등을 위해), 생물학적 시료로부터 핵산의 침적(precipitation) (예를 들어, 알코올-기반 침적 방법의 사용), 액체-액체 기반 정제 기술 (예를 들어, 페놀-클로로포름 추출), 크로마토그래피-기반 정제 기술 (예를 들어, 컬럼 흡착), 핵산에 결합하도록 구성되고 용리 환경(elution environment)(예를 들어, 용리 용액을 갖는, pH 이동을 제공하는, 온도 변화를 제공하는 등)의 존재에서 핵산을 방출하도록 구성된 결합 부(moiety)-결합 입자 (예를 들어, 자성 비드, 부력(buoyant) 비드, 크기 분포를 갖는 비드, 초음파 반응성 비드, 등)의 사용을 포함하는 정제 기술 및/또는 임의의 적합한 정제 프로세스. 일 구체예에서, 자성 비드는 DNA와 카르복실 코팅된 비드의 정전기적 상호 작용에 의하는 등에 의해, 소량의 PCR 공정 산물의 정제를 가능하게 할 수 있다. 추가적으로 또는 대안적으로, 정제 프로세스는 임의의 적절한 방식 (예를 들어, 상기 방법 (100)의 구현예의 임의의 적절한 일부와 관련하여, 등)으로 수행될 수 있다.
그러나, 태그된 표적 분자 (예를 들어, 태그된 핵산 분자; 등) 를 생성하는 단계 (S120)는 임의의 적절한 방식으로 수행될 수 있다.
2.3. 단일 분자 서열분석을 용이하게 하는 단계
상기 방법 (100)의 구현예는 상기 태그된 핵산 분자 세트로 단일 분자 서열분석을 용이하게 하는 단계 (S130)를 포함할 수 있으며, 이는 과소표시된 주형 분자와의 관계에서 과대표시된 주형 분자 및/또는 특이적 표적 주형 분자의 서열분석과 관련된 문제를 극복하기 위해(예를 들어, 농축에 대해; 등) UMI와 함께 단일 분자 서열분석(예를 들어, 리드 언틸-기반 서열분석, 등)을 활용하는 기능을 수행할 수 있다. 구체예에서, 단일 분자 서열분석을 용이하게 하는 단계 (S130)는 서열분석 실행 중 실시간으로와 같이 서열분석 되는 각각의 핵산 분자를 식별하는 기능을 수행할 수 있다. 일 구체예에서, 상기 태그된 핵산 분자 세트로 상기 단일 분자 서열분석을 용이하게 하는 단계는 탐지의 향상, 서열분석 에러율(error rate)의 감소, 및/또는 상기 핵산 분자 세트 유래의 과소 표시된(underrepresented) 핵산 분자의 정확한 분자 카운트 향상을 위해, 상기 단일 분자 서열분석을 용이하게 하는 단계를 포함한다. 일 구체예에서, 상기 태그된 핵산 분자 세트로 상기 단일 분자 서열분석을 용이하게 하는 단계는 리드 언틸-기반 기술 (및/또는 적절한 서열분석 기술; 등)로 상기 단일 분자 서열분석을 용이하게 하는 단계를 포함한다.
변형에서, 상기 태그된 핵산 분자 세트로 단일 분자 서열분석을 용이하게 하는 단계 (S130)는 서열분석된 태그된 핵산 분자의 제1 서열 영역 세트 및 태그된 핵산 분자의 제2 서열 영역 세트 사이의 비교를 결정하는 단계 (S132); 태그된 핵산 분자의 서열분석을 중단하는 단계 (S134) (예를 들어, 상기 비교에 기초하여; Oxford Nanopore 서열분석을 위한 멤브레인상의 나노포어 중의 포어(pore)로부터 상기 태그된 핵산 분자를 방출하는 것과 같이, 태그된 핵산 분자를 방출함으로써; 등); 특이적 표적 핵산 서열에 대한 서열분석을 제한하는 단계 (S136) (예를 들어, 특이적 표적 핵산 서열과 관련된 태그된 핵산 분자 서열에 대해; 등); 및/또는 기타 적절한 공정(process)을 포함할 수 있다.
단일 분자 서열분석을 용이하게 하는 단계 (S130)는 서열분석 실행 도중과 같이 실질적으로 실시간으로 및/또는 실시간으로 단일 분자 서열분석을 용이하게 하는 단계 (S130) (예를 들어, S132, S134, S136과 관련된)의 임의의 적절한 일부를 수행하는 단계를 포함할 수 있다. 구체예에서, 상기 서열분석기(sequencer)에 의해 생성된 상기 데이터의 생물정보학 처리는 태그된 핵산 분자 서열 데이터를 현재의 서열분석 중인 태그된 핵산 분자데이터와 비교할 수 있도록 하기 위해, 실시간으로 수행될 수 있으며, 이는 특이적인 태그된 핵산 분자의 서열분석 중단을 가능하게 할 수 있다 (예를 들어, 과대 표시된(overrepresented) 핵산 분자의 중단, 과소 표시된(underrepresented) 핵산 분자의 서열분석의 허용; 등).
단일 분자 서열분석을 용이하게 하는 단계 (S130)는 추가적으로 또는 대안적으로 서열 영역 사이의 비교를 결정하는 단계 (S132) (예를 들어, 기-서열분석된(already-sequenced) 태그된 핵산 분자 및 현재 서열분석 중인 태그된 핵산 분자와 같이, 상이한 태그된 핵산 분자들의, 등)를 포함할 수 있으며, 이는 하나 이상의 핵산 분자에 대한 서열분석, 및/또는 임의의 적절한 공정(process)의 종료 여부를 결정하는 단계에 대한 하나 이상의 상태를 평가하는 기능을 수행할 수 있다.
서열 영역을 비교하는 단계는 바람직하게는 제1 UMI 영역 및/또는 서열분석된 태그된 핵산 분자의 제1 표적 영역을 제2 UMI 영역 및/또는 태그된 핵산 분자의(예를 들어, 현재 서열분석 중인) 제2 표적 영역과 비교하는 단계를 포함한다.
일 구체예에서, 상기 제1 UMI 영역의 서열은 상기 제2 UMI 영역의 서열에 비교될 수 있고, 상기 제1 표적 영역의 서열은 상기 제2 표적 영역의 서열에 비교될 수 있다. 일 구체예에서, 비교를 결정하는 단계는 제1 서열 영역 세트 및 제2 서열 영역 세트 사이의 비교를 결정하는 단계를 포함할 수 있고, 여기서 상기 제1 서열 영역 세트는 제1 UMI 영역 및 상기 태그된 핵산 분자 세트의 서열분석된 태그된 핵산 분자의 제1 표적 영역을 포함하고, 및 상기 제2 서열 영역 세트는 제2 UMI 영역 및 상기 태그된 핵산 분자 세트의 태그된 핵산 분자의 제2 표적 영역을 포함한다; 예를 들어, 여기서 상기 태그된 핵산 분자의 서열분석을 중단하는 단계는 상기 제1 서열 영역 세트 및 상기 제2 서열 영역 세트 사이의 비교에 기초할 수 있다.
일 구체예에서, 상기 비교를 결정하는 단계는 상기 제1 UMI 영역, 상기 서열분석된 태그된 핵산 분자의 제1 표적 영역, 상기 제2 UMI 영역, 및 상기 태그된 핵산 분자의 제2 표적 영역 사이의 비교를 결정하는 단계를 포함한다, 여기서 제1 및 제2 표적 영역은 상기 표적 핵산서열 세트의 표적 핵산 서열과 관련되고 (예를 들어, 동일한 표적 핵산 서열, 등), 예를 들어 상기 태그된 핵산 분자의 서열분석을 중단하는 단계는, 상기 제1 UMI 영역, 제1 표적 영역, 상기 제2 UMI 영역, 및 상기 제2 표적 영역에 기초하여 서열분석을 중단하는 단계를 포함할 수 있다 (예를 들어, 제1 UMI 영역 및 제2 UMI 영역 사이의 일치(match), 및 상기 제1 표적 영역 및 상기 제2 표적 영역 사이의 일치(match)에 기반하여 등).
일 구체예에서, 상기 단일 분자 서열분석을 용이하게 하는 단계는 상기 서열분석된 태그된 핵산 분자의 상기 제1 서열 영역 세트 (예를 들어, 하나 이상의 UMI 영역 및/또는 하나 이상의 표적 영역, 등)를 결정하는 단계; 및 상기 제1 서열 영역 세트 (예를 들어, 상기 서열분석 시스템과 관련된 컴퓨팅 시스템에서; 상기 서열분석 시스템의 컴퓨팅 서브시스템에서; 등)를 저장하는 단계를 포함할 수 있으며, 여기서 상기 제1 서열 영역 세트 및 상기 제2 서열 영역 세트 사이의 비교를 결정하는 단계는 상기 제2 서열 영역 세트와 비교하기 위해 상기 제1 서열 영역 세트를 구하는(retrieving) 단계를 포함한다 (예를 들어, 하나 이상의 UMI 영역 및/또는 현재 서열분석 중인 상기 태그된 핵산 분자의 하나 이상의 표적 영역; 등). 그러나, 서열 영역 사이의 하나 이상의 비교를 결정하는 단계 (S132)는 임의의 적절한 방식으로 수행될 수 있다.
단일 분자 서열분석을 용이하게 하는 단계 (S130)는 추가적으로 또는 대안적으로 하나 이상의 핵산 분자(예를 들어, 태그된 핵산 분자; 등)의 서열분석의 중단을 결정하는 단계 (S134)를 포함할 수 있으며, 이는 과소 표시된 주형 분자의, 특이적 표적 분자의, 및/또는 임의의 적절한 분자 유형의 충분한 서열 분석을 가능하게 하기 위한 것과 같이, 하나 이상의 분자의 서열분석의 중단 기능을 할 수 있다.
도 3에서 볼 수 있는 바와 같이, 하나 이상의 핵산 분자의 서열분석을 중단하는 단계는 바람직하게는 서열 영역 사이의 하나 이상의 비교 (예를 들어, S132에서 결정된 비교, 등)에 기초한 것일 수 있다. 일 구체예에서, 만약 UMI 영역 및 표적 영역 (및/또는 적절한 비-UMI 영역)의 주어진 조합이 이미 서열분석되고 현재 UMI 영역 및 서열분석 되는 표적 영역의 조합과 일치한다면, 상기 서열분석기에게 신호(예를 들어, 디지털 신호, 등)가 제공될 수 있고, 상기 반응이 멈춘다 (예를 들어, 따라서 서열분석 시스템 자체 기능의 향상이 가능하다; 등). 일 구체예에서, 상기 제2 UMI 영역 및 제2 표적 영역과 일치하는 상기 제1 UMI 영역 및 상기 제1 표적 영역에 대한 응답으로 상기 태그된 핵산 분자의 서열분석을 중단하는 단계는, 상기 태그된 핵산 분자의 서열 분석을 중단하는 단계를 포함하는 상기 비교에 기초할 수 있다. 구체예에서, 리드 언틸-기반 기술은 특이적 UMI 영역, 표적 영역, 및/또는 태그된 핵산 분자의 적절한 영역을 스캐닝하는 단계, 및 (예를 들어, 서열분석 리드를 거절하는 단계 및/또는 기타 적절한 아웃풋) 특이적 영역 또는 구성이 없는 핵산 분자(예를 들어, UMI 영역이 없는; 등)에 대해 서열분석을 중단하는 단계에 사용될 수 있다. 일 구체예에서, 임의의 적절한 영역(예를 들어, 서열분석된 태그된 핵산 분자의 제1 UMI 영역 및 태그 및 핵산 분자의 제2 UMI 영역 사이; 기타 적절한 핵산 분자의 영역의 유형들 사이; 등) 사이의 일치는, 서열분석을 중단을 위한 상태로 사용될 수 있다. 일 구체예에서, 상기 태그된 핵산 분자 서열분석을 중단하는 단계는 상기 제2 UMI 영역과 일치하는 상기 제1 UMI 영역에 기초하여 상기 태그된 핵산 분자의 서열 분석을 중단하는 단계를 포함하는 비교에 기초하는 것일 수 있다.
구체예에서, 상기 단일 분자 서열분석을 용이하게 하는 단계는, 서열 영역 사이의 비교를 결정하는 단계(예를 들어, S132와 같은)에서 분석되는 서열분석 시스템(예를 들어, 단일 분자 서열분석 시스템; 등)에 의해 생성되는 상기 데이터 스트림을 읽기 위해 (예를 들어, 실시간으로, 등), 처리(processing) 소프트웨어를 이용하는 단계, 및/또는 하나 이상의 핵산 분자의 서열분석을 중단하는 단계 (예를 들어, 상기 비교에 기초한 것과 같은, S134와 같이; 등) 및/또는 상기 핵산 분자 읽기를 계속하는 단계를 포함할 수 있다. 일 구체예에서, 상기 제1 서열 영역 세트 (예를 들어, 서열분석된 태그된 핵산 분자의; 등)를 결정하는 단계, 상기 제1 서열 영역 세트 및 상기 제2 서열 영역 세트 사이의 비교를 결정하는, 상기 제1 서열 영역 세트를 저장하는 단계 (예를 들어, 현재 서열분석 중인 태그된 핵산 분자와 같은, 태그된 핵산 분자의 제2 서열 영역 세트; 등), 및/또는 상기 태그된 핵산 분자의 서열 분석을 중단하는 단계는 상기 단일 분자 서열분석의 단독(single) 서열분석 실행 중에는 적어도 실질적으로 실시간으로 수행되는 것일 수 있다.
추가적으로 또는 대안적으로, 서열분석을 중단하는 단계는 서열 리드, 서열 영역, 정의된 한계, 및/또는 임의의 적절한 조건에 기초한 것과 같은, 임의의 적절한 조건 (예를 들어, 서열분석-관련 조건)에 기초할 수 있다. 그러나, 서열분석을 중단하는 단계 (S134)는 임의의 적절한 방식으로 수행될 수 있다.
단일 분자 서열분석을 용이하게 하는 단계는 추가적으로 또는 대안적으로 UMI 영역, 표적 영역, 및/또는 상기 특이적 핵산 분자의 적절한 영역의 식별에 기초한 것과 같이, 상기 특이적인 핵산 분자(예를 들어, 특이적인 태그된 핵산 분자)의 서열 분석을 특정한 양(예를 들어, 수, 등)으로 제한하는 기능을 할 수 있는, 핵산 분자의 서열 분석을 제한하는 단계를 포함할 수 있다. 핵산 분자의 서열분석을 제한하는 단계는 다른 정의된 한계가 주어진 표적 핵산 서열에서 서열분석 될 핵산 분자의 양에 한계를 설정할 수 있는 것과 같이, 상기 핵산 분자에 대응하는 표적 핵산 영역에 대해 정의된 한계에 기초하는 것일 수 있다. 일 구체예에서, 상기 태그된 핵산 분자의 서열 분석을 중단하는 단계는 상기 비교 및 상기 제1 서열 영역세트와 관련된(예를 들어, 제1 서열 영역 세트의 서열에 해당하는 서열 영역을 포함하는 태그된 핵산 분자에 대해) 상기 태그된 핵산 분자의 서열분석을 위해 정의된 한계 (예를 들어, 상기 정의된 한계가 상기 태그된 핵산 분자에 해당하는 상기 표적 핵산 분자 서열에 도달한 때; 상기 정의된 한계가 태그된 핵산 분자의 유형에 이르른 때; 등) 에 기초하여 서열분석을 중단하는 단계를 포함하며, 여기에서 상기 태그된 핵산 분자 세트는 상기 제1 서열 영역 세트와 관련된 상기 태그된 핵산 분자를 포함한다. 그러나, 핵산 분자의 서열분석을 제한하는 단계 (S136)는 임의의 적절한 방식으로 수행될 수 있다.
단일 분자 서열분석을 용이하게 하는 단계 (S130)는 임의의 적절한 시간 및 빈도로 수행될 수 있다. 단일 분자 서열분석을 용이하게 하는 단계는 제3자 실체 및/또는 적절한 실체(예를 들어, 상기 태그된 표적 분자의 생성에 요구되는 상기 샘플 처리를 수행하는 것인; 샘플 로딩과 관련된 부분과 같은, 상기 단일 분자 서열분석의 일부를 수행하는 것인; 여기서 비교 결정, 서열분석 중단, 및/또는 서열분석 제한과 관련된 상기 프로세스를 수행할 수 있는 제1자(a first party); 등)에 대한 UMI-기반 분자 및/또는 태그된 핵산 분자의 생성을 용이하게 하는 단계의 제공에 기초할 수 있다.
그러나, 단일 분자 서열분석을 용이하게 하는 단계 (S130)는 임의의 적절한 방식으로 수행될 수 있다.
2.4. 분자 카운트 (molecule count) 결정 단계
추가적으로 또는 대안적으로, 상기 방법 (100)의 구현예는 상기 단일 분자 서열분석에 기초하여 분자 카운트(molecule counts)를 결정하는 단계(S140)를 포함할 수 있으며, 이는 하나 이상의 표적 (예를 들어, 표적 핵산 서열; 태그된 핵산 분자와 관련된 표적; 등)에서 분자 카운트-관련 측정 항목(metrics)을 결정하는 기능을 할 수 있다. 분자 카운트는 정확한 분자 카운트; 서열분석 리드 양과 관련된 수; 및/또는 임의의 적절한 분자 카운트-관련 측정 항목 중 임의의 하나 이상을 포함할 수 있다. 분자 카운트(molecule counts)를 결정하는 단계는 바람직하게는 태그된 핵산 분자의 UMI 영역의 식별 및/또는 분석에 기초하는 것일 수 있으며, 예를 들어, 상기 UMI 영역의 UMI 서열은 하나 이상의 샘플에 존재하는 하나 이상의 표적의 식별 및/또는 정량화에 사용될 수 있다.
일 구체예에서, 상기 방법 (100)은 상기 태그된 핵산 분자 세트의 상기 UMI 영역의 상기 단일 분자 서열분석에 기초한 상기 핵산 분자 세트를 포함하는 샘플에서 유래한 미생물과 관련된 정확한 분자 카운트를 결정하는 단계를 포함할 수 있다. 일 구체예에서, 정확한 분자 카운트를 결정하는 상기 방법 (100)은 상기 표적 핵산 서열과 관련된 태그된 핵산 분자의 상기 서열분석을 위해 정의된 한계에 기초한 상기 표적 핵산 서열과 관련되며, 예를 들어 상기 정의된 한계 (예를 들어, 추가적으로 또는 대안적으로 서열분석의 중단 및/또는 핵산 분자의 서열분석 제한에 사용되는; 등)는 하나 이상의 분자 카운트-관련 측정항목의 결정에 정보를 제공 및/또는 사용될 수 있다 (예를 들어, 상기 정의된 한계는 상기 분자 카운트가 상기 정의된 한계에 의해 지시된 수보다 크지 않을 것임을 지시할 수 있는 것인; 등).
분자 카운트(molecule counts)를 결정하는 단계 임의의 적절한 시간 및 빈도로 (예를 들어, 서열분석 실행(run)도중 실시간으로; 서열분석 실행 직후와 같은, 실질적인 실시간으로; 서열분석 및/또는 UMI 영역의 분석 후 임의의 시간에; 등) 수행될 수 있다.
그러나, 분자 카운트(molecule counts)를 결정하는 단계 (S140)는 임의의 적절한 방식으로 수행될 수 있다.
3. 기타
상기 방법 (100)의 구현예는, 그러나, 대상으로부터 얻은 생물학적 시료의 수신을 촉진, 대상으로부터 얻은 생물학적 시료의 처리, 생물학적 시료로부터 얻은 데이터의 분석, 및 대상의 특이적 마이크로바이옴 조성 및/또는 기능적 특징에 따라 맞춤형 진단 및/또는 프로바이오틱-기반 치료제를 제공하기 위해 사용될 수 있는 모델을 생성하기 위해 구성된 임의의 다른 적절한 블록 또는 단계를 포함할 수 있다.
상기 방법 (100) 및/또는 시스템의 구현예는 모든 조합 및 상기 다양한 시스템 구성의 순열 및 임의의 변수를 포함하는 상기 다양한 방법 공정(예를 들어, 구현예, 변형, 예, 구체예, 도면, 등)을 포함할 수 있으며, 여기서 상기 방법 (100) 및/또는 본 명세서에서 기술된 공정(process)의 구체예의 일부가 하나 이상의 사례, 요소, 구성 및/또는 시스템(200) 및/또는 본 명세서에 기술된 다른 실체의 다른 측면에 의해 및/또는 이의 사용에 의해, 비동기적으로 (예를 들어, 순차적으로), 동시에 (예를 들어, 병렬로), 또는 임의의 다른 적절한 순서로 수행될 수 있다.
본 명세서에 기재된 임의의 변이체 (예를 들어, 구현예, 변형, 예, 구체예, 도면 등) 및/또는 본 명세서에 기재된 변이체의 임의의 부분은 추가적으로 또는 대안적으로 조합, 집합, 배제, 사용, 연속적으로 수행, 병렬로 수행 및/또는 다른 방식으로 적용될 수 있다.
상기 방법 (100) 및/또는 시스템의 구현예의 일부는 컴퓨터-판독 가능한 명령을 저장하는 컴퓨터-판독가능 매체를 수신하도록 구성된 기계로서 적어도 부분적으로 구현(embodied) 및/또는 이행(implemented)될 수 있다. 상기 명령은 시스템과 통합될 수 있는 컴퓨터-실행가능(executable) 구성에 의해 실행될 수 있다. 상기 컴퓨터-판독가능 매체는 RAMs, ROMs, 플래시 메모리, EEPROMs, 광학 장치(CD 또는 DVD), 하드 드라이브, 플로피 드라이브, 또는 임의의 적절한 장치와 같은 임의의 적합한 컴퓨터-판독가능 매체 상에 저장될 수 있다. 상기 컴퓨터-실행가능 구성은 일반적인 또는 애플리케이션 특이적 프로세서(processor)일 수 있지만, 임의의 적합한 전용 하드웨어 또는 하드웨어/펌웨어 조합 장치가 대안적으로 또는 추가적으로 명령을 실행할 수 있다.
당업자가 상기 상세한 설명 및 상기 도면 및 청구범위로부터 인식할 수 있는 바와 같이, 청구항에 정의된 견지를 벗어나지 않는 범위에서, 상기 방법 (100), 시스템, 및/또는 변형의 구현예에 대한 수정 및 변경이 이루어질 수 있다.

Claims (20)

  1. 표적 핵산서열 세트와 관련된 고유한 분자 식별자 (unique molecular identifier; UMI)-기반 분자 세트를 제조하는 단계;
    상기 UMI-기반 분자에 기초한 태그된 핵산 분자 세트, 및 상기 표적 핵산서열 세트에 상응하는 핵산 분자 세트의 생성을 용이하게 하는 단계로서, 상기 태그된 핵산 분자 세트의 각 태그된 핵산 분자는 하기를 포함하며:
    각각의 랜덤 "N" 염기가 "A" 염기, "G" 염기, "T" 염기 및 "C" 염기 중 어느 하나로부터 선택되는, 랜덤 "N" 염기 세트를 포함하는 UMI 영역; 및
    상기 표적 핵산서열 세트의 표적 핵산서열에 상응하는 표적 영역; 및
    상기 태그된 핵산 분자 세트로 단일 분자 서열분석을 용이하게 하는 단계로서, 단일 분자 서열분석을 용이하게 하는 단계는 하기를 포함하며:
    제1 UMI 영역 및 상기 태그된 핵산 분자 세트의 서열분석된 태그된 핵산 분자의 제1 표적 영역을 포함하는 제1 서열 영역 세트와, 제2 UMI 영역 및 상기 태그된 핵산 분자 세트의 서열분석된 태그된 핵산 분자의 제2 표적 영역을 포함하는 제2 서열 영역 세트 간의 비교를 결정하는 단계; 및
    상기 제1 서열 영역 세트 및 제2 서열 영역 세트의 비교에 기초하여 상기 태그된 핵산 분자의 서열분석을 중단하는 단계;
    를 포함하는, 개선된 단일 분자 서열분석 방법.
  2. 제1항에 있어서, 상기 비교에 기초하여 태그된 핵산 분자의 서열분석을 중단하는 단계는, 상기 제2 UMI 영역 및 상기 제2 표적 영역에 매칭되는(matching) 상기 제1 UMI 영역 및 상기 제1 표적 영역에 반응하여 상기 태그된 핵산 분자의 서열분석을 중단하는 단계를 포함하는 것인, 방법.
  3. 제2항에 있어서, 상기 단일 분자 서열분석을 용이하게 하는 단계는, 상기 서열분석된 태그된 핵산 분자의 상기 제1 서열 영역 세트를 결정하는 단계; 및 상기 제1 서열 영역 세트를 저장하는 단계를 포함하는 것으로서, 상기 제1 서열 영역 세트 및 상기 제2 서열 영역 세트의 비교를 결정하는 단계는 제2 서열 영역 세트와 비교를 위해 제1 서열 영역 세트를 구하는 단계(retrieving)를 포함하는 것인, 방법.
  4. 제3항에 있어서, 상기 제1 서열 영역 세트를 결정하는 단계, 상기 제1 서열 영역 세트를 저장하는 단계, 상기 제1 서열 영역 세트 및 상기 제2 서열 영역 세트 사이의 비교를 결정하는 단계, 및 상기 태그된 핵산 분자의 서열분석을 중단하는 단계 각각은, 단일 분자 서열분석의 단일 서열분석 실행 중 (single sequencing run of the single molecule sequencing) 적어도 실질적으로 실시간으로 수행되는 것인, 방법.
  5. 제1항에 있어서, 상기 태그된 핵산 분자의 서열분석을 중단하는 단계는, 상기 비교; 및 상기 제1 서열 영역 세트와 관련된 태그된 핵산 분자의 서열분석을 위해 정의된 한계에 기초하여 서열분석을 중단하는 단계를 포함하는 것인, 방법.
  6. 제5항에 있어서, 상기 UMI-기반 분자 세트를 제조하는 단계, 상기 표적 핵산서열 및 상기 태그된 핵산 분자의 서열분석을 위한 정의된 한계에 기초하여, 상기 태그된 핵산 분자 세트의 생성을 용이하게 하기 위해, 상이한 UMI 영역들의 수(number)를 결정하는 단계를 포함하는 것인, 방법.
  7. 제1항에 있어서, 상기 태그된 핵산 분자 세트의 UMI 영역의 단일 분자 서열분석에 기초하여, 상기 핵산 분자 세트를 포함하는 샘플에서 유래한 미생물과 관련된 절대 분자 카운트(absolute molecule counts)를 결정하는 단계를 추가로 포함하는 것인, 방법.
  8. 제7항에 있어서, 상기 태그된 핵산 분자 세트를 이용하여 상기 단일 분자 서열분석을 용이하게 하는 단계는, 상기 핵산 분자 세트로부터 과소 표시된(underrepresented) 핵산 분자의 탐지 및 절대 계수(counting)를 향상시키기 위해 단일 분자 서열분석을 용이하게 하는 것을 포함하는 것인, 방법.
  9. 제1항에 있어서, 상기 표적 핵산서열 세트는 제1 표적 세트 및 제2 표적 세트 중 적어도 하나를 포함하며, 상기 제1 표적 세트는 16S rRNA 표적 및 18SrRNA 표적을 포함하고, 상기 제2 표적 세트는 16S rRNA 표적 및 HPV-관련 표적을 포함하는 것인, 방법.
  10. 제1항에 있어서, 상기 태그된 핵산 분자 세트로 단일 분자 서열분석을 용이하게 하는 단계는, 리드 언틸(read until)-기반 기술로 상기 단일 분자 서열분석을 용이하게 하는 것을 포함하는 것인, 방법.
  11. 고유한 분자 식별자(unique molecular identifier; UMI)-기반 분자 세트에 기초한 태그된 핵산 분자 세트와 상기 태그된 표적 핵산서열 세트에 상응하는 핵산 분자 세트의 생성을 용이하게 하는 단계; 및
    상기 태그된 핵산 분자 세트로 단일 분자 서열분석을 용이하게 하는 단계를 포함하며, 상기 단일 분자 서열분석을 용이하게 하는 단계는
    상기 태그된 핵산 분자 세트에서 서열분석된 태그된 핵산 분자의 것인 제1 UMI 영역, 및 상기 태그된 핵산 분자 세트에서 태그된 핵산 분자의 것인 제2 UMI 영역 간의 비교를 결정하는 단계; 상기 태그된 핵산 분자 세트의 서열분석된 태그된 핵산 분자의 제1 UMI 영역을 포함하는 제1 서열 영역 세트, 및 제2 UMI 영역 및 상기 태그된 핵산 분자 세트의 태그된 핵산 분자의 제2 표적 영역을 포함하는 제2 서열 영역 세트 간의 비교를 결정하는 단계; 및
    상기 제1 UMI 영역 및 제2 UMI 영역 간의 비교에 기초하여 상기 태그된 핵산분자의 서열분석을 중단하는 단계;
    를 포함하는, 개선된 단일 분자 서열분석 방법.
  12. 제11항에 있어서, 상기 비교를 결정하는 단계는, 상기 제1 UMI 영역, 상기 서열분석된 태그된 핵산 분자의 제1 표적 영역, 상기 제2 UMI 영역, 및 상기 태그된 핵산 분자의 제2 표적 영역 간의 비교를 결정하는 것을 포함하며, 상기 제1 및 제2 표적 영역은 상기 표적 핵산 서열 세트의 표적 핵산 서열과 관련되며,
    상기 태그된 핵산 분자의 서열분석을 중단하는 단계는, 상기 제1 UMI 영역, 제1 표적 영역, 제2 UMI 영역, 및 제2 표적 영역 간의 비교에 기초하여 서열분석을 중단하는 단계를 포함하는 것인, 방법.
  13. 제12항에 있어서, 상기 태그된 핵산 분자의 서열분석을 중단하는 단계는,
    상기 비교 및 상기 표적 핵산 서열과 관련된 태그된 핵산 분자의 서열분석을 위해 정의된 한계에 기초하여 서열분석을 중단하는 것을 포함하며, 상기 태그된 핵산 분자 세트는 상기 표적 핵산 서열과 관련된 태그된 핵산 분자를 포함하는 것인, 방법.
  14. 제13항에 있어서, 상기 표적 핵산 서열과 관련된 태그된 핵산 분자의 서열분석을 위해 정의된 한계에 기초하여 표적 핵산서열로 절대 분자 카운트(absolute molecule count)를 결정하는 단계를 추가로 포함하는 것인, 방법.
  15. 제11항에 있어서, 상기 비교에 기초한 태그된 핵산 분자의 서열분석을 중단하는 단계는, 상기 제2 UMI 영역에 매칭되는(match) 제1 UMI 영역에 기초하여 상기 태그된 핵산 분자의 서열분석을 중단하는 것을 포함하는 것인, 방법.
  16. 제11항에 있어서, 상기 UMI-기반 분자 세트는 복수의 미생물 분류군과 관련된 보존 영역을 표적화하는 정의된 서열 영역을 포함하는 UMI-기반 프라이머를 포함하는 것인, 방법.
  17. 제11항에 있어서, 상기 태그된 핵산 분자 세트의 생성을 용이하게 하는 단계는, 상기 핵산 분자 세트의 과소 표시된(underrepresented) 핵산 분자 및 과대 표시된(overrepresented) 핵산 분자와 관련된 앰플리콘(amplicon) 세트의 균형을 위해 상기 UMI-기반 분자 세트 및 상기 핵산 분자 세트에 기초하여, 적어도 하나의 증폭 프로세스를 수행하는 것을 포함하는 것인, 방법.
  18. 제11항에 있어서, 상기 태그된 핵산 분자 세트의 생성을 용이하게 하는 단계는,
    상기 핵산 분자 세트의 제1 핵산 분자 서브세트로 PCR 증폭 프로세스의 수행에 기초한 PCR-증폭된 핵산분자의 서브세트를 생성하는 단계; 및
    상기 핵산 분자 세트의 PCR-증폭된 핵산 분자의 서브세트 및 PCR-독립적인(PCR-independent) 핵산 분자 서브세트에 기초하여, 태그된 핵산 분자 세트를 생성하는 단계를 포함하는 것인, 방법.
  19. 제11항에 있어서, 상기 표적 핵산서열 세트는, 항생제 내성 및 바이러스 캡시드 유전자(viral capsid gene) 중 적어도 하나와 관련된 표적 핵산서열을 포함하는 것인, 방법.
  20. 제11항에 있어서, 상기 태그된 핵산 분자 세트로 단일 분자 서열분석을 용이하게 하는 단계는, 리드 언틸(read until)-기반 기술로 상기 단일 분자 서열분석을 용이하게 하는 것을 포함하는 것인, 방법.
KR1020207013176A 2017-10-09 2018-10-09 단일 분자 서열분석 및 핵산서열 특성화를 위한 고유한 분자 식별자 KR20200080252A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762569853P 2017-10-09 2017-10-09
US62/569,853 2017-10-09
PCT/US2018/055067 WO2019074960A1 (en) 2017-10-09 2018-10-09 SEQUENCING A SINGLE MOLECULE AND UNIQUE MOLECULAR IDENTIFIERS FOR CHARACTERIZING NUCLEIC ACID SEQUENCES

Publications (1)

Publication Number Publication Date
KR20200080252A true KR20200080252A (ko) 2020-07-06

Family

ID=63966155

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207013176A KR20200080252A (ko) 2017-10-09 2018-10-09 단일 분자 서열분석 및 핵산서열 특성화를 위한 고유한 분자 식별자

Country Status (8)

Country Link
US (2) US20190136310A1 (ko)
EP (1) EP3695008B1 (ko)
JP (1) JP7208230B2 (ko)
KR (1) KR20200080252A (ko)
CN (1) CN111201324B (ko)
AU (1) AU2018348092B2 (ko)
SG (1) SG11202001858PA (ko)
WO (1) WO2019074960A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11046969B2 (en) 2017-05-24 2021-06-29 Epiplanta Biotech Ltd. Transgenic plant and the method for producing the same
CN111020061B (zh) * 2019-12-31 2021-01-05 广州迈景基因医学科技有限公司 基于高通量测序检测hpv的多重pcr引物组、试剂盒及其方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070190557A1 (en) * 2006-01-27 2007-08-16 Zs Genetics, Inc. Systems and methods of analyzing nucleic acid polymers and related components
US9323888B2 (en) * 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
WO2014081456A1 (en) * 2012-11-26 2014-05-30 Illumina, Inc. Efficient comparison of polynucleotide sequences
EP2749654A1 (en) * 2012-12-28 2014-07-02 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Method of analysis of composition of nucleic acid mixtures
EP3134536B1 (en) * 2014-04-21 2019-12-18 President and Fellows of Harvard College Systems and methods for barcoding nucleic acids
GB201409282D0 (en) * 2014-05-23 2014-07-09 Univ Sydney Tech Sequencing process
US20170228496A1 (en) * 2014-07-25 2017-08-10 Ontario Institute For Cancer Research System and method for process control of gene sequencing
EP3218519B1 (en) * 2014-11-11 2020-12-02 BGI Shenzhen Multi-pass sequencing
CN107849606A (zh) * 2015-04-20 2018-03-27 尼欧基因组学实验室股份有限公司 提高下一代测序灵敏度的方法
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)

Also Published As

Publication number Publication date
AU2018348092A1 (en) 2020-05-14
JP7208230B2 (ja) 2023-01-18
JP2021500879A (ja) 2021-01-14
US20200299763A1 (en) 2020-09-24
CN111201324A (zh) 2020-05-26
EP3695008B1 (en) 2021-11-24
US11987841B2 (en) 2024-05-21
US20190136310A1 (en) 2019-05-09
CN111201324B (zh) 2024-03-29
SG11202001858PA (en) 2020-04-29
EP3695008A1 (en) 2020-08-19
AU2018348092B2 (en) 2024-07-11
WO2019074960A1 (en) 2019-04-18

Similar Documents

Publication Publication Date Title
Lowe et al. Transcriptomics technologies
KR102683229B1 (ko) 고유 분자 식별자를 갖는 라이브러리 제조 방법 및 시스템
Grün et al. Design and analysis of single-cell sequencing experiments
Hegedűs et al. Deep sequencing of the zebrafish transcriptome response to mycobacterium infection
EP3679135B1 (en) Normalization for sequencing libraries
He et al. The conservation and signatures of lincRNAs in Marek’s disease of chicken
Koch et al. Inference and evolutionary analysis of genome-scale regulatory networks in large phylogenies
US20070031843A1 (en) Bioinformatically detectable group of novel regulatory bacterial and bacterial associated oligonucleotides and uses thereof
Feau et al. Genome-Enhanced Detection and Identification (GEDI) of plant pathogens
Matsumura et al. SuperSAGE: a modern platform for genome-wide quantitative transcript profiling
JP2016103999A (ja) ゲノム位置に標的濃縮配列リードを割り当てるための方法
AU2018348092B2 (en) Single molecule sequencing and unique molecular identifiers to characterize nucleic acid sequences
WO2012156515A1 (en) Molecular analysis of acute myeloid leukemia
Ohta et al. Using nanopore sequencing to identify fungi from clinical samples with high phylogenetic resolution
CN109385468B (zh) 检测链特异性效率的成套试剂与方法
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
Tripathy et al. Massively parallel sequencing technology in pathogenic microbes
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
WO2024133893A1 (en) Nucleotide sequencing data compression
Uziela Making microarray and RNA-seq gene expression data comparable

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal