KR20200128194A - 합성 핵산 스파이크-인 - Google Patents

합성 핵산 스파이크-인 Download PDF

Info

Publication number
KR20200128194A
KR20200128194A KR1020207031598A KR20207031598A KR20200128194A KR 20200128194 A KR20200128194 A KR 20200128194A KR 1020207031598 A KR1020207031598 A KR 1020207031598A KR 20207031598 A KR20207031598 A KR 20207031598A KR 20200128194 A KR20200128194 A KR 20200128194A
Authority
KR
South Korea
Prior art keywords
nucleic acid
cases
sample
nucleic acids
sequencing
Prior art date
Application number
KR1020207031598A
Other languages
English (en)
Other versions
KR102326769B1 (ko
Inventor
프레드 씨. 크리스티안스
이고르 디. 빌판
미카엘 커테츠
티모티 에이. 블라우와캄프
쉬프쿠마르 벤카타수브라만얌
미카엘 로센
렌 시트
Original Assignee
카리우스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 카리우스, 인코포레이티드 filed Critical 카리우스, 인코포레이티드
Priority to KR1020217036722A priority Critical patent/KR102531487B1/ko
Publication of KR20200128194A publication Critical patent/KR20200128194A/ko
Application granted granted Critical
Publication of KR102326769B1 publication Critical patent/KR102326769B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2545/00Reactions characterised by their quantitative nature
    • C12Q2545/10Reactions characterised by their quantitative nature the purpose being quantitative analysis
    • C12Q2545/101Reactions characterised by their quantitative nature the purpose being quantitative analysis with an internal standard/control
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/166Oligonucleotides used as internal standards, controls or normalisation probes

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 개시내용은 숙주로부터의 샘플 내 하나 이상의 비-숙주 종의 상대 존재비를 결정하는 방법을 제공한다. 또한 기지의 농도의 합성 핵산을 샘플에 첨가하는 것을 수반하고 서열분석 검정을 수행하여 비-숙주 종 예컨대 병원체를 식별하는 방법이 제공된다. 또한 서열분석 검정에서 샘플을 트래킹하고, 시약을 트래킹하고, 다양성 손실을 트래킹하는 방법이 제공된다.

Description

합성 핵산 스파이크-인 {SYNTHETIC NUCLEIC ACID SPIKE-INS}
상호 참조
본 출원은 2016년 3월 25일자로 출원된 미국 특허 가출원 62/313,668, 2016년 9월 21일자로 출원된 미국 특허 가출원 62/397,873, 및 2017년 1월 27일자로 출원된 미국 특허 가출원 62/451,363의 이익을 주장하며, 그들의 전문이 본원에 참조로 포함된다.
차세대 서열분석은 샘플의 유전자 함량에 관한 방대한 양의 데이터를 모으는데 사용될 수 있다. 이는 특히 복합 샘플, 예컨대 임상 샘플 내 핵산을 분석하는데 및 전체 게놈의 서열분석에 유용할 수 있다. 그러나, 핵산, 특히 낮은 존재비 핵산 또는 환자 샘플 내 핵산을 검출 및 정량화하는 더 효율적이고 정확한 방법에 대한 관련 기술분야에서의 필요가 있다.
스파이크-인 합성 핵산을 사용하여, 차세대 서열분석 검정 및 다른 검정에서의 핵산의 개선된 식별 또는 정량화를 위한 방법 및 조성물이 본원에 제공된다. 일부 경우에, 스파이크-인 합성 핵산은 특수한 특색 예컨대 특이적 서열, 길이, GC 함량, 축중성 정도, 다양성 정도, 및/또는 기지의 출발 농도를 갖는다. 본원에 제공된 방법은 특히 임상 샘플 예컨대 혈장 내 병원체 핵산의 검출에 유용하지만, 또한 다른 유형의 표적을 검출하는데 사용될 수 있다.
한 측면에서, (a) 적어도 1000개의 합성 핵산의 출발 양을 샘플에 첨가하며, 여기서 적어도 1000개의 합성 핵산 각각은 고유한 가변 영역을 포함하는 것인 단계; (b) 샘플 내 표적 핵산의 일부 상에서 및 적어도 1000개의 합성 핵산의 일부 상에서 서열분석 검정을 수행하며, 그에 의해 표적 및 합성 핵산 서열 판독물을 수득하며, 여기서 합성 핵산 서열 판독물은 고유한 가변 영역 서열을 포함하는 것인 단계; (c) (i) 합성 핵산 서열 판독물 내의 상이한 가변 영역 서열의 수를 정량화하여 고유한 서열분석된 값을 수득하는 것, 및 (ii) 적어도 1,000개의 합성 핵산의 다양성 손실을 수득하기 위해 적어도 1,000개의 합성 핵산의 출발 양을 고유한 서열분석된 값과 비교하는 것에 의해 적어도 1000개의 합성 핵산의 다양성 손실을 검출하는 단계; 및 (d) 적어도 1000개의 합성 핵산의 다양성 손실을 사용하여 초기 샘플 내 표적 핵산의 존재비를 계산하는 단계를 포함하는, 표적 핵산을 포함하는 초기 샘플 내 핵산의 존재비를 결정하는 방법이 본원에 제공된다. 일부 경우에, 비교되는 출발 양은 출발 농도이다.
일부 실시양태에서, 표적 핵산은 병원체 핵산을 포함한다. 일부 경우에, 표적 핵산은 적어도 5개의 상이한 병원체로부터의 병원체 핵산을 포함한다. 일부 경우에, 표적 핵산은 적어도 2종의 상이한 병원체로부터의 병원체 핵산을 포함한다. 일부 경우에, 표적 핵산은 적어도 10종의 상이한 병원체로부터의 병원체 핵산을 포함한다.
일부 경우에, 적어도 1,000개의 합성 핵산은 DNA를 포함한다. 일부 경우에, 적어도 1,000개의 합성 핵산은 RNA, ssRNA, dsDNA, ssDNA, 또는 그의 일부 조합을 포함한다. 일부 경우에, 적어도 1,000개의 합성 핵산 각각은 500개 미만의 염기 쌍 또는 뉴클레오티드 길이이다. 일부 경우에, 적어도 1,000개의 합성 핵산 각각은 200개 미만의 염기 쌍 또는 뉴클레오티드 길이이다. 일부 경우에, 적어도 1,000개의 합성 핵산 각각은 100개 미만의 염기 쌍 또는 뉴클레오티드 길이이다. 일부 경우에, 샘플은 혈액, 혈장, 혈청, 뇌척수액, 활액, 기관지-폐포 세척액, 소변, 대변, 타액, 또는 비강 샘플이다. 일부 경우에, 샘플은 인간 대상체로부터의 것이다. 일부 경우에, 샘플은 단리된 핵산의 샘플이다.
일부 경우에, 방법은 샘플로부터 서열분석 라이브러리를 생성하는 것을 추가로 포함하며, 여기서 적어도 1,000개의 합성 핵산은 서열분석 라이브러리를 생성하기 전에 샘플에 첨가된다. 일부 경우에, 적어도 1,000개의 합성 핵산의 다양성 손실은 샘플의 샘플 가공 동안 1개 이상의 핵산의 손실을 나타낸다.
일부 경우에, 적어도 1,000개의 합성 핵산 각각은 식별 태그 서열을 포함한다. 일부 경우에, 고유한 가변 영역 서열의 수를 정량화하는 것은 태그 서열을 함유하는 서열을 검출하는 것을 포함한다. 일부 경우에, 제1 서열 판독물 내의 적어도 1,000개의 고유한 서열을 정량화하는 것은 제1 서열 판독물 내의 고유한 서열의 판독물 카운트를 결정하는 것을 포함한다. 일부 경우에, 적어도 1,000개의 고유한 합성 핵산은 적어도 104개의 고유한 합성 핵산을 포함한다.
일부 경우에, 방법은 적어도 3개의 상이한 길이를 갖는 추가적인 합성 핵산을 첨가하는 것을 추가로 포함한다. 일부 경우에, 방법은 제1 길이를 갖는 추가적인 합성 핵산의 제1 군, 제2 길이를 갖는 추가적인 합성 핵산의 제2 군, 및 제3 길이를 갖는 추가적인 합성 핵산의 제3 군을 첨가하는 것을 추가로 포함하며, 여기서 추가적인 합성 핵산의 제1, 제2 및 제3 군 각각은 적어도 3개의 상이한 GC 함량을 갖는 합성 핵산을 포함한다. 일부 경우에, 방법은 추가적인 합성 핵산을 사용하여 샘플 내 표적 핵산의 절대 존재비 값을 계산하는 것을 추가로 포함한다. 일부 경우에, 방법은 추가적인 합성 핵산을 사용하여 추가적인 합성 핵산의 길이, GC 함량, 또는 길이 및 GC 함량 둘 다를 기반으로 하여 샘플 내 표적 핵산의 절대 또는 상대 존재비를 계산하는 것을 추가로 포함한다.
일부 경우에, 적어도 1,000개의 합성 핵산은 제1 샘플 가공 단계에서 샘플에 첨가된다. 일부 경우에, 방법은 제2 샘플 가공 단계에서 적어도 1,000개의 고유한 합성 핵산의 추가적인 풀을 샘플에 첨가하는 것을 추가로 포함하며, 여기서 제2 샘플 가공 단계는 제1 샘플 가공 단계와 상이하다. 일부 경우에, 방법은 적어도 1,000개의 합성 핵산의 추가적인 풀에 대한 다양성 손실을 계산하는 것을 추가로 포함한다. 일부 경우에, 방법은 적어도 1,000개의 합성 핵산의 풀에 대한 다양성 손실을 적어도 1,000개의 합성 핵산에 대한 추가적인 풀에 대한 다양성 손실과 비교함으로써 비교적 높은 다양성 손실을 갖는 샘플 가공 단계를 식별하는 것을 추가로 포함한다.
일부 경우에, 적어도 1,000개의 고유한 합성 핵산의 추가적인 풀 내 고유한 합성 핵산 각각은 적어도 1,000개의 합성 핵산의 추가적인 풀의 구성원으로서 합성 핵산을 식별하는 도메인을 포함한다. 일부 경우에, 방법은 샘플 식별자 핵산을 샘플에 첨가하는 것을 추가로 포함한다. 일부 경우에, 상기 (a)는 비-고유한 합성 핵산을 샘플에 첨가하는 것을 추가로 포함한다.
일부 실시양태에서, 계산된 존재비는 상대 존재비이다. 일부 실시양태에서, 계산된 존재비는 절대 존재비이다.
또 다른 측면에서, (a) 병원체에 의해 감염된 또는 그에 의해 감염된 것으로 의심되는 대상체로부터 샘플을 수득하며, 여기서 샘플은 복수의 병원체 핵산을 포함하는 것인 단계; (b) 샘플이 합성 핵산의 기지의 초기 존재비를 포함하도록 복수의 합성 핵산을 샘플에 첨가하며, 여기서 (i) 합성 핵산은 500개 미만의 염기 쌍 길이이고, (ii) 합성 핵산은 제1 길이를 갖는 합성 핵산, 제2 길이를 갖는 합성 핵산, 및 제3 길이를 갖는 합성 핵산을 포함하며, 여기서 제1, 제2 및 제3 길이는 상이하고; (iii) 제1 길이를 갖는 합성 핵산은 적어도 3개의 상이한 GC 함량을 갖는 합성 핵산을 포함하는 것인 단계; (c) 복수의 합성 핵산을 포함하는 샘플 상에서 서열분석 검정을 수행하며, 그에 의해 합성 핵산의 최종 존재비 및 복수의 병원체 핵산의 최종 존재비를 결정하는 단계; (d) 합성 핵산에 대한 회수 프로파일을 생성하기 위해 합성 핵산의 최종 존재비 및 그의 기지의 초기 존재비를 비교하는 단계; 및 (e) 합성 핵산에 대한 회수 프로파일을 사용하여 병원체 핵산을 가장 근접한 GC 함량 및 길이를 갖는 합성 핵산과 비교함으로써 복수의 병원체 핵산의 최종 존재비를 정규화하며, 그에 의해 복수의 병원체 핵산의 상대 존재비 또는 초기 존재비를 결정하는 단계를 포함하는, 샘플 내 병원체 핵산의 상대 존재비 또는 초기 존재비를 결정하는 방법이 본원에 제공된다.
일부 경우에, 적어도 3개의 상이한 GC 함량은 10% 내지 40%인 제1 GC 함량, 40% 내지 60%인 제2 GC 함량, 및 60% 내지 90%인 제3 GC 함량을 포함한다. 일부 경우에, 적어도 3개의 상이한 GC 함량은 각각 10% 내지 50%이다. 일부 경우에, 적어도 3개의 상이한 GC 함량은 각각 5% 내지 40%이다. 일부 경우에, 합성 핵산은 200개 미만의 염기 쌍 또는 뉴클레오티드 길이이다. 일부 경우에, 합성 핵산은 100개 미만의 염기 쌍 또는 뉴클레오티드 길이이다. 일부 경우에, 적어도 3개의 상이한 GC 함량은 적어도 4개의 상이한, 적어도 5개의 상이한, 적어도 6개의 상이한, 적어도 7개의 상이한 또는 적어도 8개의 상이한 GC 함량이다. 일부 경우에, 합성 핵산은 적어도 제4 길이, 적어도 제5 길이, 적어도 제6 길이, 적어도 제7 길이, 적어도 제9 길이, 적어도 제10 길이, 적어도 제12 길이 또는 적어도 제15 길이를 갖는다. 일부 실시양태에서, 각각의 길이는 적어도 3, 4, 5, 6, 7, 8, 9, 10개의 상이한 GC 함량, 또는 50개 이하의 상이한 GC 함량을 갖는 합성 핵산을 포함한다.
일부 경우에, 합성 핵산은 이중-가닥 DNA를 포함한다. 일부 경우에, 방법은 합성 핵산을 사용하여 병원체 핵산의 변성을 모니터링하는 것을 추가로 포함한다. 일부 경우에, 방법은 가중 인자를 사용함으로써 병원체 핵산의 상대 존재비 또는 초기 존재비를 정규화하는 것을 추가로 포함한다. 일부 경우에, 가중 인자는 제1 합성 핵산의 기지의 농도 및 제2 합성 핵산의 기지의 농도와 비교하여 복수의 합성 핵산 중 제1 합성 핵산의 원시 측정치 및 복수의 합성 핵산 중 제2 합성 핵산의 원시 측정치를 분석함으로써 수득된다.
또 다른 측면에서, (a) 제1 병원체 핵산을 포함하는 제1 샘플을 수득하며, 여기서 제1 샘플은 제1 병원체에 의해 감염된 제1 대상체로부터 수득되는 것인 단계; (b) 제2 샘플을 제2 대상체로부터 수득하는 단계; (c) 각각이 제1 병원체 핵산에 혼성화할 수 없는 상이한 합성 핵산을 포함하는 제1 및 제2 샘플 식별자를 수득하고, 제1 샘플 식별자를 제1 샘플에 및 제2 샘플 식별자를 제2 샘플에 할당하는 단계; (d) 제1 샘플 식별자를 제1 샘플에 첨가하고 제2 샘플 식별자를 제2 샘플에 첨가하는 단계; (e) 제1 샘플 식별자를 포함하는 제1 샘플 상에서 및 제2 샘플 식별자를 포함하는 제2 샘플 상에서 서열분석 검정을 수행하며, 그에 의해 제1 및 제2 샘플에 대한 서열 결과를 수득하는 단계; (f) 제1 샘플에 대한 서열 결과에서 제1 샘플 식별자, 제2 샘플 식별자, 및 제1 병원체 핵산의 존재 또는 부재를 검출하는 단계; 및 (g) 서열분석 검정이 제1 샘플에서 (i) 제1 샘플 식별자, (ii) 제1 병원체 핵산, 및 (iii) 제2 샘플 식별자 부재 또는 역치 수준 미만의 제2 샘플 식별자를 검출하는 경우에 검출된 제1 병원체 핵산이 제1 샘플에 원래 존재하는 것으로 결정하는 단계를 포함하는, 병원체로부터 핵산을 검출하는 방법이 본원에 제공된다.
또 다른 측면에서, (a) 제1 핵산을 포함하는 제1 핵산 샘플을 수득하는 단계; (b) 제1 양성 대조군 핵산을 포함하는 제1 대조군 핵산 샘플을 수득하는 단계; (c) 제1 대조군 핵산에, 제1 핵산에 혼성화할 수 없는 합성 핵산을 포함하는 제1 샘플 식별자에 첨가하는 단계; (d) 제1 핵산 샘플, 및 제1 샘플 식별자를 포함하는 제1 대조군 핵산 샘플 상에서 서열분석 검정을 수행하며, 그에 의해 제1 및 대조군 핵산 샘플에 대한 서열 판독물을 수득하는 단계; (e) 제1 핵산 샘플에 대한 서열 판독물 내 제1 샘플 식별자의 존재 또는 부재를 검출하기 위해 제1 핵산 샘플에 대한 서열 판독물을 참조 서열과 정렬시키는 단계; 및 (f) 서열 판독물의 정렬을 기반으로 하여, 제1 양성 대조군 핵산이 제1 핵산 샘플에 존재하는지 여부를 결정하는 단계를 포함하는, 핵산을 검출하는 방법이 본원에 제공된다.
일부 경우에, 제1 샘플 식별자의 합성 핵산은 150개 미만의 염기 쌍 또는 뉴클레오티드 길이이다. 일부 경우에, 제1 양성 대조군 핵산은 병원체 핵산이다. 일부 경우에, 제1 샘플 식별자는 변형된 핵산을 포함한다. 일부 경우에, 제1 샘플 식별자는 DNA를 포함한다. 일부 경우에, 샘플은 무세포 체액을 포함한다. 일부 경우에, 샘플은 병원체에 의해 감염된 대상체로부터의 것이다.
또 다른 측면에서, (a) 제1 합성 핵산을 시약에 첨가하며, 여기서 제1 합성 핵산은 고유한 서열을 포함하는 것인 단계; (b) 제1 합성 핵산을 포함하는 시약을 핵산 샘플에 첨가하는 단계; (c) 서열분석 검정을 위한 핵산 샘플을 제조하는 단계; (d) 핵산 샘플 상에서 서열분석 검정을 수행하며, 그에 의해 핵산 샘플에 대한 서열 결과를 수득하는 단계; 및 (e) 핵산 샘플에 대한 서열 결과를 기반으로 하여, 샘플 내 제1 합성 핵산의 존재 또는 부재를 결정함으로써 샘플에서 시약을 검출하는 단계를 포함하는, 샘플에서 시약을 검출하는 방법이 본원에 제공된다.
일부 경우에, 제1 합성 핵산은 150개 미만의 염기 쌍 또는 뉴클레오티드 길이이다. 일부 경우에, 제1 합성 핵산은 제1 시약 로트에 첨가되며, 제2 합성 핵산을 제2 시약 로트에 첨가하는 것을 추가로 포함한다. 일부 경우에, 샘플에서 시약을 검출하는 것은 시약의 특정한 로트를 검출하는 것을 포함한다. 일부 경우에, 합성 핵산은 뉴클레아제에 의해 분해가능하지 않다. 일부 경우에, 시약은 수성 완충제를 포함한다. 일부 경우에, 시약은 추출 시약, 효소, 리가제, 폴리머라제, 또는 dNTP를 포함한다.
또 다른 측면에서, (a) (i) 표적 핵산; (ii) 서열분석 어댑터; 및 (iii) DNA를 포함하고 핵산에 대한 라이게이션에 저항하는 적어도 1개의 합성 핵산을 포함하는 샘플을 수득하는 단계; 및 (b) 서열분석 어댑터가 적어도 1개의 합성 핵산에 비해 표적 핵산에 우선적으로 라이게이션하도록 샘플 상에서 라이게이션 반응을 수행하는 단계를 포함하는, 서열분석 라이브러리를 생성하는 방법이 본원에 제공된다.
또 다른 측면에서, (a) 표적 핵산 및 적어도 1개의 합성 핵산을 포함하는 샘플을 수득하는 단계; 및 (b) 적어도 1개의 합성 핵산을 샘플로부터 제거하며, 그에 의해 표적 핵산을 포함하고 적어도 1개의 합성 핵산을 포함하지 않는 서열분석 샘플을 수득하는 단계; 및 (c) 서열분석 어댑터를 서열분석 샘플 내 표적 핵산에 부착하는 단계를 포함하는, 서열분석 라이브러리를 생성하는 방법이 본원에 제공된다.
또 다른 측면에서, (a) 표적 핵산 및 적어도 1개의 합성 핵산을 포함하는 샘플을 수득하며, 여기서 적어도 1개의 합성 핵산은 (i) 단일-가닥 DNA, (ii) 합성 핵산의 증폭을 억제하는 뉴클레오티드 변형, (iii) 고정화 태그, (iv) DNA-RNA 하이브리드, (v) 표적 핵산의 길이보다 더 긴 길이를 갖는 핵산, 또는 (vi) 그의 임의의 조합을 포함하는 것인 단계; 및 (b) 서열분석 반응을 위해 샘플로부터 서열분석 라이브러리를 생성하며, 여기서 적어도 1개의 합성 핵산의 적어도 일부는 서열분석 반응에서 서열분석되지 않는 것인 단계를 포함하는, 서열분석 라이브러리를 생성하는 방법이 본원에 제공된다.
또 다른 측면에서, (a) (i) 표적 핵산, (ii) 서열분석 어댑터, 및 (iii) 적어도 1개의 합성 핵산을 포함하는 샘플을 수득하며, 여기서 적어도 1개의 합성 핵산은 DNA를 포함하고 말단-복구에 저항하는 것인 단계; 및 (b) 표적 핵산이 적어도 1개의 합성 핵산에 비해 우선적으로 말단-복구되도록 샘플 상에서 말단-복구 반응을 수행하는 단계를 포함하는, 서열분석 라이브러리를 생성하는 방법이 본원에 제공된다.
또 다른 측면에서, (a) 서열분석 어댑터; 및 (b) DNA를 포함하고 핵산에 대한 말단-복구에 저항하는 적어도 1개의 합성 핵산을 포함하는, 서열분석 라이브러리를 생성하는 키트가 본원에 제공된다.
한 측면에서, (a) 적어도 1000개의 고유한 합성 핵산의 출발 양을 샘플에 첨가하며, 여기서 적어도 1000개의 고유한 합성 핵산 각각은 (i) 식별 태그 및 (ii) 가변 영역을 포함하는 것인 단계; (b) 샘플 내 표적 핵산의 일부 상에서 및 적어도 1000개의 고유한 합성 핵산의 일부 상에서 서열분석 검정을 수행하며, 그에 의해 표적 및 합성 핵산 서열 판독물을 수득하며, 여기서 합성 핵산 서열 판독물은 식별 태그 서열 및 가변 영역 서열을 포함하는 것인 단계; (c) (i) 제1 서열 판독물의 세트를 수득하기 위해 식별 태그 서열의 적어도 일부에 상응하는 서열 판독물을 검출하는 것; (ii) 제1 서열 판독물 내의 상이한 가변 영역 서열의 수를 정량화하여 고유한 서열분석된 값을 수득하는 것에 의해 적어도 1000개의 고유한 합성 핵산의 다양성 손실을 검출하는 단계; 및 (iii) 적어도 1,000개의 고유한 합성 핵산의 다양성 손실을 수득하기 위해 적어도 1,000개의 고유한 합성 핵산의 출발 양을 고유한 서열분석된 값과 비교하는 것; 및 (d) 적어도 1000개의 고유한 합성 핵산의 다양성 손실을 사용하여 초기 샘플 내 표적 핵산의 절대 또는 상대 존재비 값을 계산하는 단계를 포함하는, 표적 핵산을 포함하는 초기 샘플 내 핵산의 절대 또는 상대 존재비를 결정하는 방법이 본원에 제공된다. 일부 경우에, 비교되는 출발 양은 출발 농도이다.
일부 경우에, 표적 핵산은 병원체 핵산을 포함한다. 일부 경우에, 표적 핵산은 적어도 5개의 상이한 병원체로부터의 병원체 핵산을 포함한다. 일부 경우에, 여기서 적어도 1,000개의 고유한 합성 핵산이 DNA를 포함한다.
일부 경우에, 적어도 1,000개의 고유한 합성 핵산 각각은 500개 미만의 염기 쌍 또는 뉴클레오티드 길이이다. 일부 경우에, 적어도 1,000개의 고유한 합성 핵산 각각은 200개 미만의 염기 쌍 또는 뉴클레오티드 길이이다. 일부 경우에, 적어도 1,000개의 고유한 합성 핵산 각각은 100개 미만의 염기 쌍 또는 뉴클레오티드 길이이다.
일부 경우에, 샘플은 혈액, 혈장, 혈청, 뇌척수액, 활액, 기관지-폐포 세척액, 소변, 대변, 타액, 또는 비강 샘플이다. 일부 경우에, 샘플은 단리된 핵산의 샘플이다. 일부 경우에, 샘플은 인간 대상체로부터의 것이다.
일부 경우에, 방법은 샘플로부터 서열분석 라이브러리를 생성하는 것을 추가로 포함하며, 여기서 적어도 1,000개의 고유한 합성 핵산은 서열분석 라이브러리를 생성하기 전에 샘플에 첨가된다. 일부 경우에, 적어도 1,000개의 고유한 합성 핵산의 다양성 손실은 샘플의 샘플 가공 동안 1개 이상의 핵산의 손실을 나타낸다. 일부 경우에, 식별 태그는 공통 서열을 포함한다. 일부 경우에, 제1 서열 판독물 내의 적어도 1,000개의 고유한 서열을 정량화하는 것은 제1 서열 판독물 내의 고유한 서열의 판독물 카운트를 결정하는 것을 포함한다.
일부 경우에, 적어도 1,000개의 고유한 합성 핵산은 적어도 104개의 고유한 합성 핵산을 포함한다. 일부 경우에, 적어도 1,000개의 고유한 합성 핵산은 적어도 105개의 고유한 합성 핵산을 포함한다. 일부 경우에, 방법은 적어도 3개의 상이한 길이를 갖는 추가적인 합성 핵산을 첨가하는 것을 추가로 포함한다.
일부 경우에, 방법은 제1 길이를 갖는 추가적인 합성 핵산의 제1 군, 제2 길이를 갖는 추가적인 합성 핵산의 제2 군, 및 제3 길이를 갖는 추가적인 합성 핵산의 제3 군을 첨가하는 것을 추가로 포함하며, 여기서 추가적인 합성 핵산의 제1, 제2 및 제3 군 각각은 적어도 3개의 상이한 GC 함량을 갖는 합성 핵산을 포함한다. 일부 경우에, 방법은 추가적인 합성 핵산을 사용하여 샘플 내 표적 핵산의 절대 또는 상대 존재비 값을 계산하는 것을 추가로 포함한다. 일부 경우에, 방법은 추가적인 합성 핵산을 사용하여 추가적인 합성 핵산의 길이, GC 함량, 또는 길이 및 GC 함량 둘 다를 기반으로 하여 샘플 내 표적 핵산의 절대 또는 상대 존재비 값을 계산하는 것을 추가로 포함한다.
일부 경우에, 적어도 1,000개의 고유한 합성 핵산은 제1 샘플 가공 단계에서 샘플에 첨가된다. 일부 경우에, 방법은 적어도 1,000개의 고유한 합성 핵산의 추가적인 풀을 제2 샘플 가공 단계에서 샘플에 첨가하는 것을 추가로 포함하며, 여기서 제2 샘플 가공 단계는 제1 샘플 가공 단계와 상이하다. 일부 경우에, 방법은 적어도 1,000개의 고유한 합성 핵산의 추가적인 풀에 대한 다양성 손실을 계산하는 것을 추가로 포함한다. 일부 경우에, 방법은 적어도 1,000개의 고유한 합성 핵산에 대한 다양성 손실을 적어도 1,000개의 고유한 합성 핵산의 추가적인 풀에 대한 다양성 손실과 비교함으로써 비교적 높은 다양성 손실을 갖는 샘플 가공 단계를 식별하는 것을 추가로 포함한다.
일부 경우에, 적어도 1,000개의 고유한 합성 핵산의 추가적인 풀 내 고유한 합성 핵산 각각은 적어도 1,000개의 고유한 합성 핵산의 추가적인 풀의 구성원으로서 합성 핵산을 식별하는 도메인을 포함한다. 일부 경우에, 방법은 샘플 식별자 핵산을 샘플에 첨가하는 것을 추가로 포함한다. 일부 경우에, 상기 (a)는 비-고유한 합성 핵산 샘플에 첨가하는 것을 추가로 포함한다. 일부 경우에, 가변 서열 판독물은 참조 서열과 정렬시킴으로써 검출된다. 일부 경우에, 상이한 가변 서열 판독물의 수는 가변 서열 판독물을 서로와 정렬시키고 중복 서열 판독물을 폐기함으로써 정량화된다.
핵산의 샘플 내 병원체 핵산의 상대 존재비 또는 농도를 결정하는 방법이 본원에 제공된다. 일부 경우에, 방법은 병원체에 의해 감염된 또는 그에 의해 감염된 것으로 의심되는 대상체로부터 샘플을 수득하며, 여기서 샘플은 2개 이상의 병원체 핵산을 포함하며, 여기서 2개 이상의 병원체 핵산은 상이한 길이를 갖는 제1 및 제2 병원체 핵산을 포함하는 것인 단계; 기지의 농도의 2개 이상의 합성 핵산을 샘플에 첨가하며, 여기서 2개 이상의 합성 핵산은 제1 병원체 핵산의 65% 내지 135%, 75% 내지 125%, 또는 85% 내지 115% 길이를 갖는 제1 합성 핵산 및 제2 병원체 핵산의 65% 내지 135%, 75% 내지 125%, 또는 85% 내지 115% 길이를 갖는 제2 합성 핵산을 포함하고, 여기서 2개 이상의 합성 핵산은 제1 또는 제2 병원체 핵산에 혼성화하지 않는 것인 단계; 샘플 상에서 서열분석 검정을 수행하며, 그에 의해 2개 이상의 합성 핵산, 제1 병원체 핵산, 및 제2 병원체 핵산에 대한 원시 측정치를 수득하는 단계; 제1 합성 핵산에 대한 회수 프로파일을 생성하기 위해 제1 합성 핵산의 원시 측정치를 제1 합성 핵산의 기지의 농도와 비교하는 단계; 및 제1 합성 핵산에 대한 회수 프로파일을 사용하여 제1 병원체 핵산에 대한 원시 측정치를 정규화하며, 그에 의해 제1 병원체 핵산의 상대 존재비 또는 출발 농도를 결정하는 단계를 포함할 수 있다.
일부 경우에, 제1 및 제2 병원체 핵산은 동일한 병원체로부터 유래된다. 일부 경우에, 제1 및 제2 병원체 핵산은 상이한 병원체로부터 유래된다. 일부 경우에, 본원에 기재된 방법은 가중 인자를 사용함으로써 제1 병원체 핵산의 상대 존재비 또는 출발 농도를 정규화하는 것을 추가로 포함한다. 일부 경우에, 가중 인자는 제1 합성 핵산의 기지의 농도 및 제2 합성 핵산의 기지의 농도와 비교하여 제1 합성 핵산의 원시 측정치 및 제2 합성 핵산의 원시 측정치를 분석함으로써 수득된다.
(a) 대상체로부터 핵산 샘플을 수득하며, 여기서 핵산 샘플은 상이한 길이를 갖는 제1 및 제2 핵산을 포함하는 것인 단계; 기지의 농도의 2개 이상의 합성 핵산을 핵산에 첨가하며, 여기서 (i) 2개 이상의 합성 핵산은 제1 핵산의 길이의 65% 내지 135%, 75% 내지 125%, 또는 85% 내지 115% 길이를 갖는 제1 합성 핵산 및 제2 합성 핵산의 길이의 65% 내지 135%, 75% 내지 125%, 또는 85% 내지 115% 길이를 갖는 제1 합성 핵산을 포함하고; (ii) 제1 합성 핵산은 특정한 길이의 로드 도메인 및 로드 도메인의 특정한 길이를 식별하도록 코딩된 고유한 서열을 갖는 식별자 도메인을 포함하고; (iii) 2개 이상의 합성 핵산은 제1 핵산 또는 제2 핵산에 혼성화할 수 없는 것인 단계; (b) 샘플 상에서 서열분석 검정을 수행하며, 그에 의해 2개 이상의 합성 핵산, 제1 핵산 및 제2 핵산에 대한 원시 측정치를 수득하는 단계; (c) 회수 프로파일을 생성하기 위해 제1 합성 핵산의 원시 측정치를 제1 합성 핵산의 기지의 농도와 비교하는 단계; 및 (d) 회수 프로파일을 사용하여 제1 핵산을 위한 원시 측정치를 정규화하며, 그에 의해 제1 핵산의 상대 존재비 또는 출발 농도를 결정하는 단계를 포함하는, 샘플 내 핵산의 상대 존재비 또는 출발 농도를 결정하는 방법이 본원에 제공된다.
일부 경우에, 제1 핵산은 병원체 핵산이다. 일부 경우에, 2개 이상의 합성 핵산의 기지의 농도는 2개 이상; 3개 이상; 5개 이상; 10개 이상; 50개 이상; 100개 이상; 또는 1,000개 이상의 상이한 농도를 포함한다. 일부 경우에, 2개 이상의 합성 핵산의 기지의 농도는 등몰 농도이다. 일부 경우에, 2개 이상의 합성 핵산은 DNA 또는 변형된 DNA를 포함한다. 일부 경우에, 2개 이상의 합성 핵산은 RNA 또는 변형된 RNA를 포함한다. 일부 경우에, 2개 이상의 합성 핵산은 2개 이상; 3개 이상; 5개 이상; 8개 이상; 10개 이상; 50개 이상; 100개 이상; 또는 1,000개 이상의 상이한 길이의 핵산을 포함한다. 일부 경우에, 2개 이상의 합성 핵산은 2개 이상; 3개 이상; 5개 이상; 8개 이상; 10개 이상; 50개 이상; 100개 이상; 또는 1,000개 이상의 상이한 서열의 핵산을 포함한다. 일부 경우에, 2개 이상의 합성 핵산은 최대 50, 최대 100, 최대 200, 최대 300, 최대 350, 최대 400, 최대 450, 최대 500, 최대 750, 또는 최대 1,000개의 뉴클레오티드 길이이다. 일부 경우에, 2개 이상의 합성 핵산은 적어도 10, 적어도 20, 또는 적어도 30, 적어도 50, 적어도 100, 또는 적어도 150개의 뉴클레오티드 길이이다. 일부 경우에, 2개 이상의 합성 핵산은 합성 핵산으로서 2개 이상의 합성 핵산을 식별하는 핵산 서열을 포함한다. 일부 경우에, 합성 핵산으로서 2개 이상의 합성 핵산을 식별하는 핵산 서열은 최대 10, 최대 20, 최대 30, 최대 40, 최대 50, 최대 100, 최대 200, 또는 최대 500개의 뉴클레오티드 길이이다. 일부 경우에, 2개 이상의 합성 핵산은 합성 핵산의 길이를 식별하는 핵산 서열을 포함한다. 일부 경우에, 합성 핵산의 길이를 식별하는 핵산 서열은 최대 10, 최대 20, 최대 30, 최대 40, 최대 50, 최대 100, 최대 200, 또는 최대 500개의 뉴클레오티드 길이이다.
일부 경우에, 샘플은 혈액, 혈장, 혈청, 뇌척수액, 활액, 기관지-폐포 세척액, 소변, 대변, 타액, 비강 스왑, 및 그의 임의의 조합으로 이루어진 군으로부터 선택된다. 일부 경우에, 샘플은 무세포 핵산을 포함한다. 일부 경우에, 샘플은 순환 무세포 핵산을 포함한다. 일부 경우에, 대상체는 인간이다. 일부 경우에, 병원체는 박테리아, 바이러스, 진균, 또는 기생충이다. 일부 경우에, 대상체는 패혈증을 갖거나, 또는 그를 갖는 것으로 의심된다. 일부 경우에, 병원체는 패혈증과 연관된다. 일부 경우에, 2개 이상의 병원체 핵산은 3개 이상; 5개 이상; 10개 이상; 50개 이상; 100개 이상; 1,000개 이상; 2,000개 이상; 5,000개 이상; 8,000개 이상; 10,000개 이상; 15,000개 이상; 또는 20,000개 이상의 병원체 핵산 서열을 포함한다.
일부 경우에, 제1 병원체 핵산의 상대 존재비를 결정하는 것은 하나 이상의 게놈 카피를 생성하는 것을 포함한다. 일부 경우에, 1개 이상의 게놈 카피를 생성하는 것은 부피당 게놈 카피로서 표현된다. 일부 경우에, 본원에 기재된 방법은 핵산을 샘플로부터 추출하는 것을 추가로 포함한다. 일부 경우에, 핵산을 샘플로부터 추출하는 것은 자기 비드를 사용하여 수행된다. 일부 경우에, 본원에 기재된 방법은 저품질 서열분석 판독물을 제거하는 것을 추가로 포함한다. 일부 경우에, 본원에 기재된 방법은 대상체의 종의 참조 서열에 정렬 또는 맵핑된 서열분석 판독물을 제거하는 것을 추가로 포함한다. 일부 경우에, 본원에 기재된 방법은 1개 이상의 상이한 길이의 핵산을 회수하는데 있어서 상대 효율을 결정하는 것을 추가로 포함한다. 일부 경우에, 본원에 기재된 방법은 1개 이상의 합성 핵산의 측정된 농도를 결정하는 것을 추가로 포함한다. 일부 경우에, 본원에 기재된 방법은 1개 이상의 합성 핵산의 측정된 농도를 기지의 농도와 비교하는 것을 추가로 포함한다. 일부 경우에, 본원에 기재된 방법은 서열분석 검정에서 1개 이상; 2개 이상; 3개 이상; 5개 이상; 10개 이상; 50개 이상; 100개 이상; 1,000개 이상; 2,000개 이상; 5,000개 이상; 8,000개 이상; 10,000개 이상; 15,000개 이상; 또는 20,000개 이상의 병원체 핵산을 검출하는 것을 추가로 포함한다. 일부 경우에, 본원에 기재된 방법은 서열분석 검정에서 항균, 항박테리아, 항바이러스, 또는 항진균 내성을 나타내는 1개 이상; 2개 이상; 3개 이상; 5개 이상; 10개 이상; 50개 이상; 100개 이상; 1,000개 이상; 2,000개 이상; 5,000개 이상; 8,000개 이상; 10,000개 이상; 15,000개 이상; 또는 20,000개 이상의 병원체 핵산을 검출하는 것을 추가로 포함한다. 일부 경우에, 본원에 기재된 방법은 샘플 내의 2개 이상; 3개 이상; 5개 이상; 10개 이상; 50개 이상; 또는 100개 이상의 병원체의 공동-발생을 식별하는 것을 추가로 포함한다.
일부 경우에, 2개 이상의 합성 핵산은 샘플로부터 핵산의 추출 전에 또는 동안 샘플에 첨가된다. 일부 경우에, 2개 이상의 합성 핵산은 샘플로부터의 핵산의 추출 후에 및 핵산의 라이브러리 제조 전에 샘플에 첨가된다. 일부 경우에, 2개 이상의 합성 핵산의 길이는 적어도 약 20개의 염기 쌍만큼 차이가 있다. 일부 경우에, 2개 이상의 합성 핵산은 3개 이상, 5개 이상, 8개 이상, 10개 이상, 20개 이상, 또는 50개 이상의 합성 핵산을 포함한다. 일부 경우에, 2개 이상의 합성 핵산은 서열식별번호: 111 - 서열식별번호: 118, 및 그의 임의의 조합으로 이루어진 군으로부터 선택된다. 일부 경우에, 2개 이상의 합성 핵산은 공통 정방향 서열을 공유한다. 일부 경우에, 공통 정방향 서열은 최대 약 20개의 염기 쌍 길이이다. 일부 경우에, 2개 이상의 합성 핵산은 공통 역방향 서열을 공유한다. 일부 경우에, 공통 역방향 서열은 최대 약 20개의 염기 쌍 길이이다.
일부 경우에, 본원에 기재된 방법은 제2 합성 핵산에 대한 회수 프로파일을 생성하기 위해 제2 합성 핵산의 원시 측정치를 제2 합성 핵산의 기지의 농도와 비교하는 단계; 및 제2 합성 핵산에 대한 회수 프로파일을 사용하여 제2 병원체 핵산에 대한 원시 측정치를 정규화하며, 그에 의해 제2 병원체 핵산의 상대 존재비 또는 출발 농도를 결정하는 단계를 추가로 포함한다.
일부 경우에, 2개 이상의 병원체 핵산은 상이한 길이를 갖는 5개 이상의 병원체 핵산을 포함하고; 2개 이상의 합성 핵산은 5개 이상의 병원체 핵산의 각각의 길이의 65% 내지 135%, 75% 내지 125%, 또는 85% 내지 115% 길이를 갖는 1개 이상의 합성 핵산을 포함하고, 여기서 2개 이상의 합성 핵산은 5개 이상의 병원체 핵산에 혼성화하지 않고; 샘플 상에서 서열분석 검정을 수행하는 것은 2개 이상의 합성 핵산 및 5개 이상의 병원체 핵산에 대한 원시 측정치를 수득하는 것이고/거나; 원시 측정치를 비교하는 것은 각각의 합성 핵산에 대한 회수 프로파일을 생성하기 위해 각각의 합성 핵산의 원시 측정치와 기지의 농도를 비교하는 것을 포함하고/거나; 회수 프로파일을 사용하는 것은 각각의 합성 핵산에 대한 회수 프로파일을 사용하여 5개 이상의 병원체 핵산 각각에 대한 원시 측정치를 정규화하며, 그에 의해 5개 이상의 병원체 핵산 각각의 상대 존재비 또는 출발 농도를 결정하는 것을 포함한다. 일부 경우에, 5개 이상의 병원체 핵산은 10개 이상, 50개 이상; 100개 이상; 1,000개 이상; 2,000개 이상; 5,000개 이상; 8,000개 이상; 10,000개 이상; 15,000개 이상; 또는 20,000개 이상의 병원체 핵산을 포함한다. 일부 경우에, 본원에 기재된 방법은 핵산 및 2개 이상의 합성 핵산의 샘플에서 핵산을 추출 또는 정제하는 것을 추가로 포함한다. 일부 경우에, 핵산 및 2개 이상의 합성 핵산의 샘플에서 핵산을 추출 또는 정제하는 것은 핵산 또는 2개 이상의 합성 핵산의 샘플 내 핵산의 상대 농도를 변화시킨다. 일부 경우에, 원시 측정치는 판독물 카운트이다.
(a) 제1 병원체 핵산을 포함하는 제1 핵산 샘플을 수득하며, 여기서 제1 핵산 샘플은 제1 병원체에 의해 감염된 또는 제1 병원체에 의해 감염된 것으로 의심되는 제1 대상체로부터 수득되는 것인 단계; (b) 제2 병원체 핵산을 포함하는 제2 핵산 샘플을 수득하며, 여기서 제2 핵산 샘플은 제2 병원체에 의해 감염된 또는 제2 병원체에 의해 감염된 것으로 의심되는 제2 대상체로부터 수득되는 것인 단계; (c) 각각이 병원체 핵산에 혼성화할 수 없는 상이한 합성 핵산을 포함하는 제1 및 제2 샘플 식별자를 수득하고, 제1 샘플 식별자를 제1 핵산 샘플에 및 제2 샘플 식별자를 제2 핵산 샘플에 할당하는 단계; (d) 제1 샘플 식별자를 제1 핵산 샘플에 첨가하고 제2 샘플 식별자를 제2 핵산 샘플에 첨가하는 단계; (e) 제1 샘플-식별자를 포함하는 제1 핵산 샘플 상에서 및 제2 핵산 식별자를 포함하는 제2 핵산 샘플 상에서 서열분석 검정을 수행하며, 그에 의해 제1 및 제2 샘플에 대한 서열 결과를 수득하는 단계; (f) 서열 결과에서 제1 샘플 식별자, 제2 샘플 식별자, 및 병원체 핵산의 존재 또는 부재를 검출하는 단계; 및 (g) 서열분석 검정이 제1 샘플 식별자 및 표적 핵산을 검출하지만 제2 샘플 식별자를 검출하지 않는 경우에 표적 핵산이 제1 샘플에 원래 존재하는 것으로 결정하는 단계를 포함하는, 병원체로부터 핵산을 검출하는 방법이 본원에 제공된다.
일부 경우에, 합성 핵산은 최대 약 500개의 염기 쌍 길이이다. 일부 경우에, 합성 핵산은 최대 약 100개의 염기 쌍 길이이다. 일부 경우에, 합성 핵산은 적어도 약 50개의 염기 쌍 길이이다. 일부 경우에, 합성 핵산은 적어도 약 100개의 염기 쌍 길이이다. 일부 경우에, 합성 핵산은 DNA 또는 변형된 DNA를 포함한다. 일부 경우에, 합성 핵산은 RNA 또는 변형된 RNA를 포함한다. 일부 경우에, 합성 핵산은 변형된 핵산이다. 일부 경우에, 합성 핵산은 서열식별번호: 1 - 서열식별번호: 110, 및 그의 임의의 조합으로 이루어진 군으로부터 선택된 서열을 포함한다. 일부 경우에, 제1 샘플은 무세포 체액을 포함한다.
제1 합성 핵산을 시약에 첨가하며, 여기서 제1 합성 핵산은 고유한 서열을 포함하는 것인 단계; 제1 합성 핵산을 포함하는 시약을 핵산 샘플에 첨가하는 단계; 서열분석 검정을 위한 핵산 샘플을 제조하는 단계; 핵산 샘플 상에서 서열분석 검정을 수행하며, 그에 의해 핵산 샘플에 대한 서열 결과를 수득하는 단계; 및 핵산 샘플에 대한 서열 결과를 기반으로 하여, 샘플 내 제1 합성 핵산의 존재 또는 부재를 결정함으로써 샘플에서 시약을 검출하는 단계를 포함하는, 샘플에서 시약을 검출하는 방법이 본원에 제공된다.
일부 경우에, 단계 a에서 제1 합성 핵산을 시약에 첨가하는 것은 제1 합성 핵산을 시약의 특정한 로트에 첨가하는 것을 포함한다. 일부 경우에, 본원에 기재된 방법은 핵산 샘플에 대한 서열 결과를 기반으로 하여 시약의 특정한 로트를 검출하는 것을 추가로 포함한다. 일부 경우에, 제1 합성 핵산은 병원체로부터의 핵산에 혼성화하지 않는다. 일부 경우에, 본원에 기재된 방법은 제2 합성 핵산을 시약의 상이한 로트에 첨가하는 것을 추가로 포함하며, 여기서 제2 합성 핵산은 시약의 상이한 로트를 고유하게 식별한다. 일부 경우에, 본원에 기재된 방법은 핵산 샘플의 서열분석 검정으로부터의 결과를 기반으로 하여 표적 핵산을 검출하는 것을 추가로 포함한다. 일부 경우에, 본원에 기재된 방법은 하기를 추가로 포함한다: (i) 표적 핵산이 정확하게 검출되면 후속 서열분석 검정에서 시약의 특정한 로트를 사용하는 것; 또는 (ii) 표적 핵산이 정확하게 검출되지 않으면 후속 서열분석 검정에서 시약의 특정한 로트를 사용하는 것을 자제하는 것. 일부 경우에, 시약은 수용액을 포함한다. 일부 경우에, 합성 핵산은 약 50 내지 약 500개의 염기 쌍 길이이다. 일부 경우에, 합성 핵산은 DNA 또는 변형된 DNA를 포함한다. 일부 경우에, 합성 핵산은 RNA 또는 변형된 RNA를 포함한다. 일부 경우에, 합성 핵산은 서열식별번호: 1 - 서열식별번호: 110, 및 그의 임의의 조합으로 이루어진 군으로부터 선택된다. 일부 경우에, 합성 핵산은 DNase에 의해 분해가능하지 않을 수 있다.
기지의 농도의 1,000개의 고유한 합성 핵산을 표적 핵산을 포함하는 샘플에 첨가하는 단계; 샘플 상에서 서열분석 검정을 수행하며, 그에 의해 표적 핵산 및 1,000개의 고유한 합성 핵산의 적어도 일부의 서열 판독물 카운트를 수득하는 단계; 1,000개의 고유한 핵산의 적어도 일부의 서열 판독물 카운트를 단계 a에서 표적 핵산을 포함하는 샘플에 첨가된 1,000개의 고유한 핵산의 서열과 정렬시키고 정렬된 서열 판독물 카운트를 1,000개 이상의 고유한 합성 핵산의 다양성과 비교함으로써 1,000개의 고유한 합성 핵산의 다양성 손실을 검출하는 단계; 및 1,000개의 고유한 합성 핵산의 다양성 손실을 사용하여 샘플 내 표적 핵산에서의 다양성 손실, 또는 그의 존재비를 계산하는 단계를 포함하는, 샘플 내 핵산의 다양성 손실 또는 존재비를 결정하는 방법이 본원에 제공된다.
일부 경우에, 1,000개의 고유한 합성 핵산은 최대 약 500개의 염기 쌍 길이 또는 최대 약 100개의 염기 쌍 길이이다. 일부 경우에, 1,000개의 고유한 합성 핵산은 등몰 농도로 첨가된다. 일부 경우에, 1,000개의 고유한 합성 핵산은 적어도 약 1x106의 다양성을 갖는다. 일부 경우에, 1,000개의 고유한 합성 핵산은 적어도 약 1x107의 다양성을 갖는다. 일부 경우에, 1,000개의 고유한 합성 핵산은 적어도 약 1x108의 다양성을 갖는다. 일부 경우에, 1,000개의 고유한 합성 핵산은 무작위화된 섹션을 갖는다. 일부 경우에, 1,000개의 고유한 합성 핵산은 DNA, 변형된 DNA, RNA 또는 변형된 RNA를 포함한다. 일부 경우에, 1,000개의 고유한 합성 핵산은 서열식별번호: 119 및 서열식별번호: 120에 식별된 서열을 포함한다. 일부 경우에, 1,000개의 고유한 합성 핵산은 제1 샘플 가공 단계에서 샘플에 첨가된다. 일부 경우에, 본원에 기재된 방법은 제2 샘플 가공 단계에서 1,000개의 고유한 합성 핵산의 추가적인 풀을 샘플에 첨가하는 것을 추가로 포함하며, 여기서 제2 샘플 가공 단계는 제1 샘플 가공 단계와 상이하다. 일부 경우에, 다양성 손실은 1,000개의 고유한 합성 핵산의 추가적인 풀에 대해 계산된다. 일부 경우에, 본원에 기재된 방법은 1,000개의 고유한 합성 핵산에 대한 다양성 손실을 1,000개의 고유한 합성 핵산의 추가적인 풀에 대한 다양성 손실과 비교함으로써 비교적 높은 다양성 손실을 갖는 샘플 가공 단계를 식별하는 것을 포함한다. 일부 경우에, 1,000개의 고유한 합성 핵산은 1,000개의 고유한 합성 핵산을 포함하는 풀의 구성원으로서 합성 핵산을 식별하는 도메인을 포함한다. 일부 경우에, 1,000개의 고유한 합성 핵산의 추가적인 풀은 1,000개의 고유한 합성 핵산의 추가적인 풀의 구성원으로서 합성 핵산을 식별하는 도메인을 포함한다. 일부 경우에, 1,000개의 고유한 합성 핵산은 표적 핵산의 추출 전에 샘플에 첨가된다. 일부 경우에, 1,000개의 고유한 합성 핵산은 표적 핵산의 라이브러리 제조 전에 샘플에 첨가된다. 일부 경우에, 본원에 기재된 방법은 기지의 농도의 5,000개의 고유한 합성 핵산을 표적 핵산을 포함하는 샘플에 첨가하는 것을 추가로 포함한다.
분자를 분석하기 위한 방법 및 조성물이 본원에 추가로 개시된다. 한 측면에서, a) (i) 표적 핵산; (ii) 서열분석 어댑터; 및 (iii) DNA를 포함하고 핵산에 대한 라이게이션에 저항하는 적어도 1개의 합성 핵산을 포함하는 샘플을 수득하는 단계; 및 b) 서열분석 어댑터가 적어도 1개의 합성 핵산에 비해 표적 핵산에 우선적으로 라이게이션하도록 샘플 상에서 라이게이션 반응을 수행하는 단계를 포함하는, 서열분석 라이브러리를 생성하는 방법이 본원에 기재된다.
일부 경우에, 적어도 1개의 합성 핵산은 포스포디에스테르 결합을 통해 핵산에 대한 라이게이션에 저항한다. 일부 경우에, 적어도 1개의 합성 핵산은 서열분석 어댑터에 대한 라이게이션에 저항한다. 또 다른 측면에서, a) 표적 핵산 및 적어도 1개의 합성 핵산을 포함하는 샘플을 수득하는 단계; b) 적어도 1개의 합성 핵산을 샘플로부터 제거하며, 그에 의해 표적 핵산을 포함하고 적어도 1개의 합성 핵산을 포함하지 않는 서열분석 샘플을 수득하는 단계; 및 c) 서열분석 어댑터를 서열분석 샘플 내의 표적 핵산에 부착하는 단계를 포함하는, 서열분석 라이브러리를 생성하는 방법이 본원에 개시된다. 일부 경우에, 적어도 1개의 합성 핵산을 제거하는 것은 엔도뉴클레아제 소화에 의해 수행되지 않는다. 일부 경우에, 샘플로부터 제거된 적어도 1개의 합성 핵산은 또 다른 합성 핵산에 부착되지 않는다. 일부 경우에, 적어도 1개의 합성 핵산은 말단-복구에 저항한다.
또 다른 측면에서, a) 표적 핵산 및 적어도 1개의 합성 핵산을 포함하는 샘플을 수득하는 단계; b) 서열분석 어댑터를 샘플 내의 표적 핵산에 부착하며, 그에 의해 서열분석 샘플을 수득하는 단계; 및 c) 적어도 1개의 합성 핵산을 친화도-기반 고갈, RNA-가이드 DNase 소화, 또는 그의 조합에 의해 서열분석 샘플로부터 제거하며, 여기서 적어도 1개의 합성 핵산을 서열분석 샘플로부터 제거하는 것은 서열분석 어댑터에 비해 및 서열분석 어댑터의 멀티머에 비해 적어도 1개의 합성 핵산을 우선적으로 제거하는 것을 포함하는 것인 단계를 포함하는, 서열분석 라이브러리를 생성하는 방법이 본원에 개시된다.
일부 경우에, 방법은 적어도 1개의 합성 핵산을 엔도뉴클레아제 소화, 크기-기반 고갈, 또는 그의 조합에 의해 제거하는 것을 추가로 포함한다. 일부 경우에, 서열분석 어댑터는 핵산이다. 일부 경우에, 적어도 1개의 합성 핵산을 제거하는 것은 친화도-기반 고갈에 의해 수행되고, 적어도 1개의 합성 핵산은 고정화 태그를 포함한다. 일부 경우에, 적어도 1개의 합성 핵산을 제거하는 것은 RNA-가이드 DNase 소화에 의해 수행된다. 일부 경우에, RNA-가이드 DNase는 CRISPR-연관 단백질을 포함한다. 일부 경우에, 적어도 1개의 합성 핵산을 제거하는 것은 엔도뉴클레아제 소화에 의해 수행된다. 일부 경우에, 적어도 1개의 합성 산을 제거하는 것은 크기-기반 고갈에 의해 수행되고, 적어도 1개의 합성 핵산은 표적 핵산의 길이보다 더 큰 길이를 갖는다. 일부 경우에, 적어도 1개의 합성 산을 제거하는 것은 RNase로 수행되고, 적어도 1개의 합성 핵산은 DNA-RNA 하이브리드이다. 일부 경우에, 서열분석 어댑터를 표적 핵산에 부착하는 것은 서열분석 어댑터를 표적 핵산에 라이게이션하는 것을 포함한다. 일부 경우에, 서열분석 어댑터를 표적 핵산에 부착하는 것은 서열분석 어댑터를 표적 핵산에 라이게이션하는 것을 포함한다.
또 다른 측면에서, a) 표적 핵산 및 적어도 1개의 합성 핵산을 포함하는 샘플을 수득하며, 여기서 적어도 1개의 합성 핵산은 (i) 단일-가닥 DNA, (ii) 합성 핵산의 증폭을 억제하는 뉴클레오티드 변형, (iii) 고정화 태그, (iv) DNA-RNA 하이브리드, (v) 표적 핵산의 길이보다 더 긴 길이를 갖는 핵산, 또는 (vi) 그의 임의의 조합을 포함하는 것인 단계; 및 b) 서열분석 반응을 위해 샘플로부터 서열분석 라이브러리를 생성하며, 여기서 적어도 1개의 합성 핵산의 적어도 일부는 서열분석 반응에서 서열분석되지 않는 것인 단계를 포함하는, 서열분석 라이브러리를 생성하는 방법이 본원에 개시된다.
일부 경우에, 적어도 1개의 합성 핵산은 엔도뉴클레아제 인식 부위를 추가로 포함한다. 일부 경우에, 샘플을 수득하는 것은 표적 핵산을 시험 샘플로부터 추출하는 것을 포함하고, 표적 핵산을 시험 샘플로부터 추출한 후에 적어도 1개의 합성 핵산을 시험 샘플에 첨가하는 것을 추가로 포함한다. 일부 경우에, 샘플을 수득하는 것은 표적 핵산을 시험 샘플로부터 추출하는 것을 포함하고, 표적 핵산을 시험 샘플로부터 추출하기 전에 적어도 1개의 합성 핵산을 시험 샘플에 첨가하는 것을 추가로 포함한다. 일부 경우에, 여기서 적어도 1개의 합성 핵산은 라이게이션 반응을 억제하는 차단 기를 포함하고, 차단 기는 변형된 뉴클레오티드를 포함한다. 일부 경우에, 변형된 뉴클레오티드는 역전된 데옥시-당을 포함한다. 일부 경우에, 역전된 데옥시-염기는 3' 역전된 데옥시-당을 포함한다. 일부 경우에, 변형된 뉴클레오티드는 역전된 티미딘, 역전된 아데노신, 역전된 구아노신, 또는 역전된 시티딘을 포함한다. 일부 경우에, 변형된 뉴클레오티드는 역전된 디데옥시-당을 포함한다. 일부 경우에, 역전된 디데옥시-당은 5' 역전된 디데옥시-당을 포함한다. 일부 경우에, 변형된 뉴클레오티드는 역전된 디데옥시-티미딘, 역전된 디데옥시-아데노신, 역전된 디데옥시-구아노신, 또는 역전된 디데옥시-시티딘을 포함한다. 일부 경우에, 변형된 뉴클레오티드는 디데옥시-시티딘이다. 일부 경우에, 적어도 1개의 합성 핵산은 라이게이션 반응을 억제하는 차단 기를 포함하고, 차단 기는 스페이서를 포함한다. 일부 경우에, 스페이서는 C3 스페이서 또는 스페이서 18을 포함한다. 일부 경우에, 적어도 1개의 합성 핵산은 라이게이션 반응을 억제하는 차단 기를 포함하고, 차단 기는 헤어핀 구조를 포함한다. 일부 경우에, 합성 핵산은 적어도 1개의 합성 핵산의 증폭을 억제하는 뉴클레오티드 변형을 포함하고, 뉴클레오티드 변형은 적어도 1개의 무염기성 부위를 포함한다. 일부 경우에, 적어도 1개의 무염기성 부위는 적어도 1개의 내부 무염기성 부위이다. 일부 경우에, 뉴클레오티드 변형은 8 내지 10개의 무염기성 부위를 포함한다. 일부 경우에, 적어도 1개의 무염기성 부위는 단일 무염기성 부위이다. 일부 경우에, 적어도 1개의 무염기성 부위는 변형된 리보스 상에 있다. 일부 경우에, 적어도 1개의 무염기성 부위는 1'-, 2'-디데옥시리보스, 잠금된 핵산, 가교된 핵산, 또는 트위스트된 삽입성 핵산을 포함한다. 일부 경우에, 적어도 1개의 합성 핵산은 고정화 태그를 포함하고, 고정화 태그는 비오틴, 디곡시게닌, 폴리히스티딘, 또는 Ni-니트릴로트리아세트산을 포함한다. 일부 경우에, 적어도 1개의 합성 핵산은 DNA를 포함하고 내부 우라실로 표지된다. 일부 경우에, 적어도 1개의 합성 핵산은 우라실-특이적 절제 시약 효소로 서열분석 샘플로부터 제거된다.
일부 경우에, 시험 샘플은 생물학적 샘플이다. 일부 경우에, 생물학적 샘플은 전혈, 혈장, 혈청, 또는 소변이다. 일부 경우에, 표적 핵산은 무세포 핵산이다. 일부 경우에, 무세포 핵산은 무세포 DNA이다. 일부 경우에, 무세포 핵산은 병원체 핵산이다. 일부 경우에, 무세포 핵산은 순환 무세포 핵산이다. 일부 경우에, 적어도 1개의 합성 핵산은 이중-가닥 핵산을 포함한다. 일부 경우에, 적어도 1개의 합성 핵산은 단일-가닥 핵산을 포함한다. 일부 경우에, 적어도 1개의 합성 핵산은 DNA, RNA, DNA-RNA 하이브리드, 또는 그의 임의의 유사체를 포함한다.
일부 경우에, 방법은 중 하나 이상을 추가로 포함한다: (a) 표적 핵산을 샘플로부터 추출하는 것; (b) 표적 핵산을 샘플로부터 정제하는 것; (c) 표적 핵산을 말단-복구하는 것; (d) 표적 핵산을 단편화하는 것; (e) 표적 핵산을 증폭시키는 것; (f) 서열분석 어댑터를 표적 핵산에 부착하는 것; 및 (g) 표적 핵산을 서열분석하는 것. 일부 경우에, 방법은 서열분석 어댑터를 표적 핵산에 부착하는 것을 포함하고, 서열분석 어댑터를 표적 핵산에 부착하기 전에 서열분석 샘플을 엔도뉴클레아제로 처리하는 것을 추가로 포함한다. 일부 경우에, 방법은 서열분석 어댑터를 표적 핵산에 부착하는 것을 포함하고, 서열분석 어댑터를 표적 핵산에 부착한 후에 서열분석 샘플을 엔도뉴클레아제로 처리하는 것을 추가로 포함한다. 일부 경우에, 방법은 표적 핵산을 말단-복구하는 것을 포함하며, 여기서 적어도 1개의 합성 핵산은 표적 핵산을 말단-복구하기 전에 샘플에 첨가된다. 일부 경우에, 방법은 표적 핵산을 말단-복구하는 것을 포함하며, 여기서 적어도 1개의 합성 핵산은 표적 핵산을 말단-복구한 후에 샘플에 첨가된다. 일부 경우에, 방법은 서열분석 어댑터를 표적 핵산에 부착하는 것을 포함하고, 적어도 1개의 합성 핵산은 서열분석 어댑터를 표적 핵산에 부착하기 전에 샘플에 첨가된다. 일부 경우에, 샘플 내 적어도 1개의 합성 핵산의 농도 대 샘플 내의 표적 핵산의 농도의 비는 1:1 내지 1000:1이다.
일부 경우에, 적어도 1개의 합성 핵산의 크기 및 표적 핵산의 크기 사이의 차이는 표적 핵산으로부터의 적어도 1개의 합성 핵산의 크기-기반 분리를 가능하게 한다. 일부 경우에, 합성 핵산은 라이게이션 반응을 억제하는 차단 기, 및 증폭 반응을 억제하는 뉴클레오티드 변형을 포함한다. 일부 경우에, 라이게이션 반응을 억제하는 차단 기는 3' 역전된 데옥시-T를 포함하고, 증폭 반응을 억제하는 뉴클레오티드 변형은 내부 무염기성 부위를 포함한다. 일부 경우에, 차단 기는 5' 역전된 디데옥시-T를 추가로 포함한다. 일부 경우에, 방법은 샘플을 엔도뉴클레아제 VIII과 함께 인큐베이션하는 것을 추가로 포함한다. 일부 경우에, 샘플은 1시간 이하 동안 엔도뉴클레아제 VIII과 함께 인큐베이션된다. 일부 경우에, 방법은 표적 핵산을 샘플로부터 추출하는 것을 포함하고, 표적 핵산을 추출하는 것은 적어도 1개의 합성 핵산을 함유하지 않는 샘플로부터 표적 핵산을 추출하는 것과 비교하여 더 높은 수율을 갖는다. 일부 경우에, 방법은 표적 핵산을 말단-복구하는 것을 포함하고, 표적 핵산을 말단-복구하는 것은 적어도 1개의 합성 핵산을 함유하지 않는 샘플 내 표적 핵산을 말단-복구하는 것과 비교하여 더 높은 효율을 갖는다. 일부 경우에, 표적 핵산은 자연 발생 핵산 또는 그의 카피를 포함한다. 일부 경우에, 방법은 컴퓨터를 사용하여 표적 핵산 중 적어도 1개의 서열 정보를 수득하는 것을 추가로 포함한다.
또 다른 측면에서, (a) (i) 표적 핵산, (ii) 서열분석 어댑터, 및 (iii) 적어도 1개의 합성 핵산을 포함하는 샘플을 수득하며, 여기서 적어도 1개의 합성 핵산은 DNA를 포함하고 말단-복구에 저항하는 것인 단계; 및 b) 표적 핵산이 적어도 1개의 합성 핵산에 비해 우선적으로 말단-복구되도록 샘플 상에서 말단-복구 반응을 수행하는 단계를 포함하는, 서열분석 라이브러리를 생성하는 방법이 본원에 개시된다.
일부 실시양태에서, 임의의 상기 방법은 방법의 결과를 환자, 보호자, 또는 다른 사람에게 보고하는 것을 포함할 수 있다.
또 다른 측면에서, a) 서열분석 어댑터; 및 b) DNA를 포함하고 핵산에 대한 말단-복구에 저항하는 적어도 1개의 합성 핵산을 포함하는, 서열분석 라이브러리를 생성하는 키트가 본원에 개시된다. 일부 경우에, 적어도 1개의 합성 핵산의 양 대 서열분석 어댑터의 양의 비는 1:1 이하이다.
개시된 대상의 신규 특색은 특히 첨부된 청구범위에 제시되어 있다. 본 개시된 대상의 특색 및 이점의 보다 우수한 이해는, 개시된 대상의 원리를 활용한 예시적 실시양태를 제시하고 있는 하기 상세화된 설명, 및 하기 첨부된 도면을 참조하여 수득될 것이다:
도 1은 본 개시내용의 기본 방법의 개략도를 제시한다.
도 2는 예시적인 감염의 개략도를 제시한다.
도 3은 본원에 제공된 방법 중 일부의 일반 도식을 도시한다.
도 4는 8개의 예시적인 Spark 크기 세트 스파이크-인의 디자인을 도시한다.
도 5는 다양성 손실을 결정하기 위한 본원에 제공된 방법의 일반 도식을 도시한다.
도 6은 예시적인 Spank 스파이크-인의 디자인을 도시한다.
도 7은 본원에 제공된 방법을 구현하도록 프로그래밍된 또는 달리 구성된 컴퓨터 제어 시스템을 제시한다.
도 8은 담체 핵산이 첨가될 수 있는 서열분석 라이브러리 제조에서의 단계를 제시한다.
도 9는 110개의 예시적인 ID Spike에 대한 정규화된 판독물 카운트를 도시한다.
도 10은 110개의 신호-정규화된 예시적인 ID Spike에 대한 정규화된 판독물 카운트를 도시한다.
도 11은 병원체 트레이서를 사용하여 시겔라 플렉스네리(Shigella flexneri)의 양성 대조군으로부터의 교차-오염을 식별하는 방법으로부터의 결과를 제시한다.
도 12는 병원체 트레이서를 사용하여 살모넬라 엔테리카(Salmonella enterica)의 양성 대조군으로부터의 교차-오염을 식별하는 방법으로부터의 결과를 제시한다.
도 13은 병원체 트레이서를 사용하여 스타필로코쿠스 아우레우스(Staphylococcus aureus)의 양성 대조군으로부터의 교차-오염을 식별하는 방법으로부터의 결과를 제시한다.
도 14는 병원체 트레이서를 사용하여 슈도모나스 아에루기노사(Pseudomonas aeruginosa)의 양성 대조군으로부터의 교차-오염을 식별하는 방법으로부터의 결과를 제시한다.
도 15는 병원체 트레이서를 사용하여 클로스트리디움 스포로게네스(Clostridium sporogenes)의 양성 대조군으로부터의 교차-오염을 식별하는 방법으로부터의 결과를 제시한다.
도 16은 예시적인 Spark 크기 스파이크-인의 상대 수율에 대한 크기 선택 라이브러리 가공 방법의 효과를 도시한다.
도 17은 상이한 GC 함량의 핵산을 사용하여, 효소 열-사멸 단계를 함유하는, 서열분석 라이브러리를 제조하는 방법으로부터의 결과를 제시한다.
도 18은 상이한 GC 함량의 핵산을 사용하여, 효소 열-사멸 단계가 결여된, 서열분석 라이브러리를 제조하는 방법으로부터의 결과를 제시한다.
도 19는 양쪽 말단 상의 라이게이션을 방지하는 큰 크기를 갖는 담체 합성 핵산을 사용하여 서열분석 라이브러리를 제조하는 예시적인 방법을 제시한다.
도 20a는 무염기성 부위 및 변형을 갖는 담체 합성 핵산을 사용하여 서열분석 라이브러리를 제조하는 예시적인 방법을 제시한다.
도 20b는 엔도뉴클레아제 VIII 소화 없이 담체 합성 핵산을 사용한 서열분석 라이브러리 생성으로부터의 결과를 제시한다. 레인 A1: 테이프스테이션 래더(TapeStation Ladder). 레인 B1: CNA 없음, 제1 복제물. 레인 C1: CNA 없음, 제2 복제물. 레인 D1: CNA 없음, 제3 복제물. 레인 E1: 10 ng CNA, 제1 복제물. 레인 F1: 10 ng CNA, 제2 복제물. 레인 G1: 10 ng CNA, 제3 복제물.
도 20c는 엔도뉴클레아제 VIII 소화와 함께 담체 합성 핵산을 사용한 서열분석 라이브러리 생성으로부터의 결과를 제시한다. 레인 A1: 테이프스테이션 래더. 레인 B1: CNA 없음, 제1 복제물. 레인 C1: CNA 없음, 제2 복제물. 레인 D1: CNA 없음, 제3 복제물. 레인 E1: 10 ng CNA, 제1 복제물. 레인 F1: 10 ng CNA, 제2 복제물. 레인 G1: 10 ng CNA, 제3 복제물.
도 21a는 엔도뉴클레아제 VIII 소화 없이 무염기성 부위를 갖는 담체 합성 핵산을 사용하여 서열분석 라이브러리를 제조하는 결과를 제시한다.
도 21b는 엔도뉴클레아제 VIII 소화와 함께 무염기성 부위를 갖는 담체 합성 핵산을 사용하여 서열분석 라이브러리를 제조하는 결과를 제시한다.
도 22는 DNA-RNA 하이브리드를 갖는 담체 합성 핵산의 예시적인 서열을 제시한다. 문자 "rX" (예를 들어, rG, rC, rA)는 RNA 서열을 나타낸다.
도 23a는 DNA-RNA 하이브리드를 갖는 담체 합성 핵산을 사용하여 서열분석 라이브러리를 제조하는 예시적인 방법을 제시한다.
도 23b는 DNA-RNA 하이브리드를 갖는 담체 합성 핵산을 사용한 서열분석 라이브러리 생성으로부터의 결과를 제시한다.
참조로 포함
본 명세서에 언급된 모든 공개, 특허, 및 특허 출원은, 각각의 개별 공개, 특허, 또는 특허 출원이 참조로 포함되는 것으로 구체적이고 개별적으로 나타내어진 바와 동일한 정도로 그의 전문이 본원에 참조로 포함된다.
개관
본 개시내용은 차세대 서열분석 검정 및 다른 검정에서의 핵산의 개선된 식별 또는 정량화를 위한 다중 방법 및 접근법을 제공한다. 일반적으로, 본원에 제공된 방법은 특수한 특색 예컨대 특이적 서열, 길이, GC 함량, 축중성 정도, 다양성 정도, 및/또는 기지의 출발 농도를 갖는 스파이크-인 합성 핵산의 사용을 수반한다. 이러한 스파이크-인 합성 핵산의 사용은 절대 존재비 결정, 상대 존재비 결정, 존재비 정규화, 범용 정량화, 편향 제어, 샘플 식별, 교차-오염 검출, 정보 전달 효율, 시약 트래킹, 다양성 손실 정규화, 절대 또는 상대 손실 결정, 품질 제어 및 많은 다른 적용을 가능하게 하고 개선시킬 수 있다. 본원에 제공된 스파이크-인 합성 핵산은 또한 샘플 내 핵산의 총 농도를 증가시킬 수 있지만, 서열분석 또는 다른 검정에 의한 검출을 피하는 능력을 갖는 특수 디자인된 담체 핵산을 포함한다.
바람직한 실시양태에서, 본 개시내용은 스파이크-인 합성 핵산의 종의 세트를 제공하며, 여기서 각각의 종의 길이 및/또는 GC 함량은 분석될 표적 핵산의 세트의 예상된 또는 관찰가능한 길이 및/또는 GC 함량에 일치하거나 또는 거의 근접하도록 디자인된다. 예를 들어, 스파이크-인 합성 핵산의 길이는 이러한 병원체에 의해 감염된 인간 환자로부터 수득된 샘플 (예를 들어, 혈장) 내 질환-특이적 또는 병원체-특이적 무세포 핵산의 길이에 근접할 수 있다. 다른 바람직한 실시양태에서, 본 개시내용은 샘플, 시약, 또는 시약 로트를 고유하게 식별하기 위한 서열을 포함하는 스파이크-인 합성 핵산을 제공한다. 또 다른 바람직한 실시양태에서, 본 개시내용은 고처리량 서열분석 검정의 과정, 특히 샘플 가공 단계 예컨대 핵산 추출 및/또는 라이브러리 제조 동안 고유한 스파이크-인 서열의 다양성에서의 감소를 통해 샘플에서의 절대 핵산 손실을 트래킹하는데 사용될 수 있는 고유한 서열 (예를 들어, 104, 105, 106, 107, 108, 109 또는 1010개의 고유한 스파이크-인 합성 핵산)을 갖는 많은 수의 스파이크-인 합성 핵산을 포함하는 풀을 제공한다.
절대 핵산 손실을 트래킹하는 능력은 초기 샘플 내 표적 핵산의 절대 존재비의 결정을 허용할 수 있다. 예를 들어, 임상 샘플 내 병원체의 절대 양은 해당 병원체에 기인한 서열분석 판독물의 수를 기반으로 하여 결정될 수 있다. 의학적 치료는 시간 경과에 따라, 예컨대 항생제 또는 제약 조성물로의 치료 전에, 동안, 및 후에 취해진 임상 샘플 내 병원체의 절대 존재비를 결정함으로써 모니터링 또는 조정될 수 있다. 특이적 병원체가 존재하는지 여부를 결정하는 것 이외에도, 감염 또는 질병의 정도 또는 스테이지가 또한 결정될 수 있다.
방법은 임상 샘플, 가공된 샘플 (예를 들어, 추출된 핵산, 추출된 무세포 DNA, 추출된 무세포 RNA, 혈장, 혈청), 미가공된 샘플 (예를 들어, 전혈) 및 임의의 다른 유형의 샘플, 특히 핵산을 포함하는 샘플을 포함하나 이에 제한되지는 않는 다양한 상이한 샘플에 스파이크-인 합성 핵산을 첨가하는 것을 수반할 수 있다. 방법은, 일부 경우에, 시약, 특히 서열분석 (예를 들어, 차세대 서열분석)에 의한 샘플의 분석의 임의의 스테이지에서 사용된 실험실 시약 (또는 특이적 시약 로트)에의 스파이크-인 합성 핵산의 첨가를 수반할 수 있다. 바람직한 실시양태에서, 방법은 기지의 농도의 합성 핵산을 시약 및 샘플에 도입하는 것을 포함할 수 있다. 방법은 임상 샘플 내 병원체로부터 유래된 저-존재비 병원체 또는 핵산을 검출, 식별, 모니터링, 또는 정량화하도록 디자인된 검정의 정확도 및 효율을 증가시키는데 특히 도움이 될 수 있다. 방법은 또한 샘플 트래킹에서의 오류와 함께; 샘플 제조, 핵산 정제, 또는 서열분석 라이브러리 제조 동안 핵산 서열의 불균등 손실로부터; 또는 상이한 표적 핵산 또는 상이한 샘플의 분석의 비교 시 내부 정규화 표준의 결여로부터 발생하는 바람직하지 않은 결과를 감소시킬 수 있다.
도 1은, 특히 본원에 제공된 방법이 존재비 정규화에 관한 것일 때 이들 중 다수의 단계의 일반적인 개관을 제공한다. 방법은 대상체(110), 예컨대 인간 환자로부터 샘플을 수득하는 것을 수반할 수 있다. 일부 특정한 실시양태에서, 대상체는 감염성 질환을 갖거나, 또는 달리 병원체로 감염된 것으로 의심된다. 샘플은, 도시된 바와 같은, 혈액 샘플(120) 또는 혈장 샘플(130), 또는 임의의 다른 유형의 생물학적 샘플, 특히 체액, 조직, 및/또는 세포를 함유하는 생물학적 샘플, 또는 무세포 생물학적 샘플일 수 있다.
샘플(140)로부터의 핵산 (예를 들어, 무세포 핵산)은 추출되고 검정, 예컨대 서열분석 검정 (예를 들어, 차세대 서열분석 검정)에 사용될 수 있다. 하나 이상의 유형의 합성 핵산(150)이 방법에서의 하나 이상의 단계에서, 예를 들어 혈액 샘플(120)에, 혈장 샘플(130)에, 또는 샘플 핵산(140)에 첨가 (또는 스파이크-인)될 수 있다. 합성 핵산은 분석될 표적 핵산의 세트의 길이에 근접하도록 디자인된 길이 및/또는 분석될 표적 핵산의 세트의 GC-함량에 근접하도록 디자인된 GC-함량을 가질 수 있다. 일반적으로, 합성 핵산은 또한 기지의 출발 농도를 갖는다. 이어서 합성 핵산을 포함하는 샘플은 서열분석 검정(160) 예컨대 차세대 서열분석 검정에 의해 분석될 수 있다. 일부 경우에, 서열분석 검정에 의해 식별된 합성 핵산의 양은 판독물 카운트를 기지의 출발 농도와 상관시키기 위해 합성 핵산의 기지의 출발 농도와 비교된다. 결과로서, 샘플 핵산 내의 표적 핵산은, 특히 검출된 표적 핵산의 존재비를 이러한 표적 핵산(170)과 길이 및/또는 GC-함량에서 가장 근접한 합성 핵산의 것과 비교함으로써 식별 또는 정량화될 수 있다. 이러한 방법, 및 본원에 제공된 다른 방법의 사용에 의해, 대상체의 상태는 더 높은 정확도 및 수준의 확실성으로 식별될 수 있다. 일부 특정한 실시양태에서, 서열분석 검정 (예를 들어, 차세대 서열분석 검정)은 인간 환자로부터 유래된 무세포 핵산 (예를 들어, DNA)의 샘플 내의 병원체 핵산을 검출한다.
단계는 임의의 순서로 및 임의의 조합으로 수행될 수 있다. 일부 경우에, 특정 단계는 수회 반복된다. 일부 경우에, 특정 단계는 수행되지 않는다. 일부 경우에, 새로운 단계는 도시된 단계에 첨가되거나, 또는 그 사이에 배치된다.
도 2는 예시적인 감염의 개략도를 제공한다. 병원체 감염의 근원은, 예를 들어 폐에 있을 수 있다. 병원체로부터 유래된 무세포 핵산, 예컨대 무세포 DNA는 혈류를 통해 이동할 수 있고 분석을 위한 혈장 샘플에서 수집될 수 있다. 이어서 샘플 내 핵산은 도 1에 제시된 바와 같은 서열분석 검정에 의해 분석될 수 있다.
도 3은 본원에 제공된 방법 중 일부의 일반 도식을 도시한다. 방법은 숙주 (예를 들어, 인간) 및 비-숙주 (예를 들어, 병원체) 핵산을 함유하는 샘플을 수득하는 것을 수반할 수 있다. 샘플은 대상체, 예컨대 환자로부터 수득될 수 있다. 일부 특정한 실시양태에서, 대상체는 감염성 질환을 갖거나, 또는 달리 병원체로 감염된 것으로 의심된다. 샘플은 혈액 샘플 또는 혈장 샘플, 또는 임의의 다른 유형의 생물학적 샘플, 특히 체액, 조직, 및/또는 세포를 함유하는 생물학적 샘플일 수 있다. 샘플로부터의 핵산 (예를 들어, 무세포 핵산)은 기지의 양의 합성 핵산과 조합될 수 있다. 이어서 합성 핵산을 포함하는 샘플은 서열분석 검정 예컨대 차세대 서열분석 검정에 의해 분석될 수 있다. 서열분석 결과는 기지의 숙주 및 비-숙주 참조 서열에 맵핑될 수 있다. 일부 경우에, 서열분석 검정에 의해 식별된 합성 핵산의 양은 판독물 카운트를 기지의 출발 농도와 상관시키기 위해 합성 핵산의 기지의 출발 농도와 비교된다. 결과로서, 비-숙주 서열의 상대 존재비가 결정될 수 있다. 단계는 임의의 순서로 및 임의의 조합으로 수행될 수 있다. 일부 경우에, 특정 단계는 수회 반복된다. 일부 경우에, 특정 단계는 수행되지 않는다. 일부 경우에, 새로운 단계는 도시된 단계에 첨가되거나, 또는 그 사이에 배치된다.
본원에 제공된 방법은, 특히 표적 핵산이 샘플에서 낮은 존재비로 존재할 때 또는 다중 샘플 또는 다중 표적 핵산이 비교 또는 트래킹될 때, 차세대 서열분석에 의한 표적 핵산의 개선된 식별 또는 정량화를 가능하게 할 수 있다. 예를 들어, 차세대 서열분석에 의한 임상 샘플 내 표적 병원체, 종양 세포 또는 종양원성 마커의 정확한 검출 및 정량화는 샘플이 부적절하게 트래킹되거나 또는 표적 핵산이 부정확하게 정규화 또는 정량화되면 손상되거나 또는 부정적으로 영향을 받을 수 있다. 따라서 본원에 제공된 방법은 샘플 트래킹 또는 식별에서 또는 핵산 정량화 또는 달리 서열분석 데이터의 클라우드 분석에서 오류로부터 발생하는 위험을 피하는데 도움이 될 수 있다.
본원에 제공된 방법 및 조성물은, 특히 출발 샘플이 비교적 낮은 양의 핵산을 가질 때, 서열분석 라이브러리의 수율, 품질, 또는 효율을 증가시키도록 서열분석 라이브러리 제조 동안 합성 핵산을 첨가 및/또는 제거하는데 사용될 수 있다. 일반적으로, 일부 경우에, 합성 핵산은 샘플 제조 프로세스 동안 총 핵산의 농도를 올리기 위해 이들 적용에서 담체 핵산으로서 작용할 수 있다. 합성 핵산을 샘플에 첨가하는 것은 서열분석 라이브러리 생성의 하나 이상의 단계의 수율 및/또는 효율을 증가시킬 수 있다. 하나 이상의 단계는 핵산 농도 감수성일 수 있다. 예를 들어, 단계의 수율 및/또는 효율은 샘플 내 핵산 농도에 의존할 수 있다. 이러한 단계는 핵산 추출, 정제, 라이게이션, 및 말단-복구를 포함할 수 있다. 일부 경우에, 합성 핵산은 서열분석 라이브러리로부터 제거될 수 있다. 합성 핵산은 그들이 서열분석 라이브러리 생성에서 하나 이상의 단계에 참여하는 것을 방지하는 특정 특색을 포함할 수 있다. 따라서, 합성 핵산은 서열분석 단계에서 서열분석되지 않을 수 있다.
방법 및 조성물은 다중 대상체로부터의 샘플을 분석하는데 (예를 들어, 샘플 내 표적 핵산으로부터 서열분석 라이브러리를 생성하는데) 사용될 수 있다. 이들 샘플 내 표적 핵산의 농도는 대상체 중에서 다를 수 있다. 본원에서의 합성 핵산을 이들 샘플에 첨가하는 것은 샘플 중에서 농도 변경을 감소시킬 수 있으며, 따라서 분석의 정확도를 개선시킨다.
방법 및 조성물은 적어도 1개의 합성 핵산을 첨가함으로써 샘플로부터 서열분석 라이브러리를 제조하는데 사용될 수 있다. 합성 핵산은 이들이 서열분석 반응에서 서열분석되지 않도록 하나 이상의 특징을 가질 수 있다. 일부 경우에, 합성 핵산은 서열분석 라이브러리 생성에 있어서 하나 이상의 반응, 예를 들어, 어댑터 라이게이션 및 핵산 증폭을 억제하는 변형을 포함한다. 예를 들어, 핵산은 한쪽 또는 양쪽 말단, 및/또는 하나 이상의 무염기성 부위에서 역전된 당을 포함할 수 있다.
일부 경우에, 합성 핵산은 서열분석 전에 서열분석 라이브러리로부터 제거될 수 있다. 일부 경우에, 합성 핵산은 효소 소화에 의해 제거될 수 있다. 예를 들어, 합성 핵산은 제한 효소 인식 부위를 포함할 수 있고, 제한 효소에 의해 분해될 수 있다. 일부 경우에, 합성 핵산은 친화도-기반 고갈에 의해 제거될 수 있다. 예를 들어, 합성 핵산은 하나 이상의 고정화 태그를 포함할 수 있고, 친화도-기반 고갈에 의해 제거될 수 있다. 특정 경우에, 합성 핵산은 크기-기반 고갈에 의해 제거될 수 있다. 합성 핵산은 또한 서열분석 라이브러리에서 다른 분자와 상이한 크기를 가질 수 있어, 합성 핵산은 크기-기반 고갈에 의해 제거될 수 있다. 일부 경우에, 합성 핵산은 본원에서의 특징 및/또는 변형의 조합을 포함할 수 있어, 이들은 서열분석 라이브러리 생성의 하나 이상의 단계에 참여하지 않고 또한 서열분석 전에 제거될 수 있다.
샘플
본원에 제공된 방법은 매우 다양한 샘플의 개선된 분석을 가능하게 할 수 있다. 본원에 제공된 합성 핵산은 이러한 샘플을 분석하는데 사용될 수 있으며, 이는 합성 핵산을 샘플에 또는 샘플의 가공된 버전, 예를 들어 임상 혈장 샘플로부터 추출된 무세포 핵산에 직접 첨가하는 것을 수반할 수 있다.
본원에 제공된 방법에서 분석된 샘플은 바람직하게는 임의의 유형의 임상 샘플이다. 일부 경우에, 샘플은 세포, 조직, 또는 체액을 함유한다. 바람직한 실시양태에서, 샘플은 액체 또는 유체 샘플이다. 일부 경우에, 샘플은 체액 예컨대 전혈, 혈장, 혈청, 소변, 대변, 타액, 림프, 척수액, 활액, 기관지폐포 세척액, 비강 스왑, 호흡기 분비물, 질액, 양수, 정액 또는 월경액을 함유한다. 일부 경우에, 샘플은, 전체적으로 또는 부분적으로, 세포 또는 조직으로 구성된다. 일부 경우에, 세포, 세포 단편, 또는 엑소솜은 샘플로부터, 예컨대 원심분리 또는 여과에 의해 제거된다. 본원의 샘플은 생물학적 샘플일 수 있다.
샘플은 임의의 농도의 핵산을 포함할 수 있다. 본원의 조성물 및 방법은 낮은 농도의 총 핵산을 갖는 샘플에 유용할 수 있다. 일부 경우에, 샘플은 최대 100 ng/μL, 50 ng/μL, 10 ng/μL, 5 ng/μL, 2 ng/μL, 1.5 ng/μL, 1.2 ng/μL, 1 ng/μL, 0.8 ng/μL, 0.4 ng/μL, 0.2 ng/μL, 0.1 ng/μL, 0.05 ng/μL, 0.01 ng/μL, 10 ng/mL, 5 ng/mL, 2 ng/mL, 1 ng/mL, 0.8 ng/mL, 0.6 ng/mL, 0.5 ng/mL, 또는 0.1 ng/mL의 핵산의 총 농도를 갖는다. 일부 경우에, 샘플은 적어도 0.1 ng/mL, 0.5 ng/mL, 0.6 ng/mL, 0.8 ng/mL, 1 ng/mL, 2 ng/mL, 5 ng/mL, 10 ng/mL, 0.01 ng/μL, 0.05 ng/μL, 0.1 ng/μL, 0.2 ng/μL, 0.4 ng/μL, 0.8 ng/μL, 1 ng/μL, 1.2 ng/μL, 1.5 ng/μL, 2 ng/μL, 5 ng/μL, 10 ng/μL, 50 ng/μL, 또는 100 ng/μL의 핵산의 총 농도를 포함한다. 일부 경우에, 샘플은 약 0.1 ng/mL 내지 약 10,000 ng/mL (즉, 약 0.1 ng/mL 내지 약 10 ng/μL) 범위 이내의 핵산의 총 농도를 갖는다.
샘플은 하나 이상의 대조군을 포함할 수 있다. 일부 경우에, 샘플은 하나 이상의 음성 대조군을 포함한다. 예시적인 음성 대조군은 오염물을 식별하도록 제조된 샘플 (예를 들어, 혈장-마이너스 샘플), 건강한 대상체로부터의 혈장, 및 저-다양성 샘플 (예를 들어, 명백하게 건강한 대상체로부터 수집된 샘플)을 포함한다. 일부 경우에, 샘플은 하나 이상의 양성 대조군을 포함한다. 예시적인 양성 대조군은 기지의 병원체로부터의 게놈 DNA를 갖는 건강한 대상체로부터의 샘플 (예를 들어, 혈장 샘플)을 포함한다. 기지의 병원체로부터의 게놈 DNA는 무손상 게놈 DNA일 수 있다. 일부 경우에, 기지의 병원체로부터의 게놈 DNA는, 예를 들어, 다양한 평균 길이로 전단될 수 있다. 전단은 기계적 전단 (예를 들어 초음파, 유체역학 전단력), 효소적 전단 (예를 들어 엔도뉴클레아제), 열 단편화 (예를 들어 고온에서 인큐베이션), 화학적 단편화 (예를 들어 알칼리성 용액, 2가 이온)에 의해 수행될 수 있다.
샘플은 표적 핵산을 포함할 수 있다. 표적 핵산은 샘플 내 분석될 핵산을 지칭할 수 있다. 예를 들어, 표적 핵산은 샘플에 원래 있을 수 있는 것, 예를 들어, 자연 핵산일 수 있다. 샘플은 본원에 개시된 1개 이상의 합성 핵산을 추가로 포함할 수 있다. 일부 경우에, 표적 핵산은 본원에 기재된 무세포 핵산이다. 예를 들어, 표적 핵산은 무세포 DNA, 무세포 RNA (예를 들어, 무세포 mRNA, 무세포 miRNA, 무세포 siRNA), 또는 그의 임의의 조합일 수 있다. 특정 경우에, 무세포 핵산은 병원체 핵산, 예를 들어 병원체로부터의 핵산이다. 무세포 핵산은 순환 핵산, 예를 들어, 순환 종양 DNA 또는 순환 태아 DNA일 수 있다. 샘플은 병원체, 예를 들어, 바이러스, 박테리아, 진균류, 및/또는 진핵 기생충으로부터의 핵산을 포함할 수 있다.
특정 경우에, 샘플은 또한 어댑터를 포함한다. 어댑터는 기지의 또는 미지의 서열을 갖는 핵산일 수 있다. 어댑터는 핵산의 3'말단, 5'말단, 또는 양쪽 말단에 부착될 수 있다. 어댑터는 기지의 서열 및/또는 미지의 서열을 포함할 수 있다. 어댑터는 이중-가닥 또는 단일-가닥일 수 있다. 일부 경우에, 어댑터는 서열분석 어댑터이다. 서열분석 어댑터는 표적 핵산에 부착되고 표적 핵산의 서열분석을 도울 수 있다. 예를 들어, 서열분석 어댑터는 하기 중 하나 이상을 포함할 수 있다: 서열분석 프라이머 결합 부위, 고유한 식별자 서열, 비-고유한 식별자 서열, 및 고체 지지체 상에 표적 핵산을 고정화하기 위한 서열. 서열분석 어댑터로 부착된 표적 핵산은 서열분석기 상에서 고체 지지체 상에 고정화될 수 있다. 서열분석 프라이머는 어댑터에 혼성화할 수 있고 서열분석 반응에서 주형으로서 표적 핵산을 사용하여 연장될 수 있다. 일부 경우에, 어댑터에서의 식별자는 상이한 표적 서열의 서열분석 판독물을 표지하는데 사용되며, 따라서 복수의 표적 핵산의 고처리량 서열분석을 가능하게 한다.
용어 "부착하다" 및 그의 문법적 등가물은 임의의 모드의 부착을 사용하여 2개의 분자를 연결하는 것을 지칭할 수 있다. 예를 들어, 부착은 2개의 분자를 화학적 결합 또는 새로운 분자를 생성하는 다른 방법에 의해 연결하는 것을 지칭할 수 있다. 어댑터를 핵산에 부착하는 것은 어댑터 및 핵산 사이에 화학적 결합을 형성하는 것을 지칭할 수 있다. 일부 경우에, 부착은 라이게이션에 의해, 예를 들어, 리가제를 사용함으로써 수행된다. 예를 들어, 핵산 어댑터는 라이게이션에 의해 리가제에 의해 촉매된 포스포디에스테르 결합을 형성하는 것을 통해 표적 핵산에 부착될 수 있다.
서열분석 라이브러리는 본원에 제공된 방법 및 조성물을 사용하여 샘플로부터 생성될 수 있다. 서열분석 라이브러리는 사용될 서열분석 시스템과 상용성인 복수의 핵산을 포함할 수 있다. 예를 들어, 서열분석 라이브러리 내 핵산은 하나 이상의 어댑터로 부착된 표적 핵산을 포함할 수 있다. 서열분석 라이브러리를 제조하는 단계는 하기 중 하나 이상을 포함할 수 있다: 표적 핵산을 샘플로부터 추출하는 것, 표적 핵산을 단편화하는 것, 어댑터를 표적 핵산에 부착하는 것, 표적 핵산-어댑터 복합체를 증폭시키는 것 및 증폭된 표적 핵산-어댑터 복합체를 서열분석하는 것.
샘플 (특히 세포 샘플 또는 조직 생검)은 신체의 임의의 부분 또는 영역으로부터의 것일 수 있다. 예시적인 샘플은, 예를 들어, 혈액, 중추 신경계, 뇌, 척수, 골수, 췌장, 갑상선, 담낭, 간, 심장, 비장, 결장, 직장, 폐, 호흡기계, 인후, 비강, 위, 식도, 귀, 눈, 피부, 사지, 자궁, 전립선, 생식 기관, 또는 신체의 임의의 다른 기관 또는 영역으로부터 수득될 수 있다.
일반적으로, 샘플은 인간 대상체, 특히 인간 환자로부터의 것이다. 그러나 샘플은 또한 임의의 포유동물, 비-인간 포유동물, 비-인간 영장류, 가축 동물 (예를 들어, 실험 동물, 가정용 애완동물, 또는 가축), 또는 비-가축 동물 (예를 들어, 야생동물)을 포함한 임의의 다른 유형의 대상체로부터의 것일 수 있다. 일부 특정한 실시양태에서, 대상체는 개, 고양이, 설치류, 마우스, 햄스터, 소, 조류, 닭, 돼지, 말, 염소, 양, 토끼, 유인원, 원숭이, 또는 침팬지이다.
바람직한 실시양태에서, 대상체는 병원체로 감염되거나, 병원체에 의한 감염의 위험이 있거나, 또는 병원성 감염을 갖는 것으로 의심되는 숙주 유기체 (예를 들어, 인간)이다. 일부 경우에, 대상체는 특정한 감염을 갖는 것으로, 예를 들어, 결핵을 갖는 것으로 의심된다. 다른 경우에, 대상체는 미지의 기원의 감염을 갖는 것으로 의심된다. 일부 경우에, 숙주 또는 대상체는 (예를 들어, 하나 이상의 미생물, 병원체, 박테리아, 바이러스, 진균, 또는 기생충으로) 감염된다. 일부 경우에, 숙주 또는 대상체는 하나 이상의 유형의 암으로 진단되었거나 또는 그를 발생시킬 위험이 있다. 일부 경우에, 숙주 또는 대상체는 (예를 들어, 하나 이상의 미생물, 병원체, 박테리아, 바이러스, 진균, 또는 기생충으로) 감염되지 않는다. 일부 경우에, 숙주 또는 대상체는 건강하다. 일부 경우에, 숙주 또는 대상체는 감염되기 쉽거나 또는 그의 위험이 있다.
일부 경우에, 대상체는 항균, 항박테리아, 항바이러스 또는 항기생충 약물로 치료되었을 수 있거나 또는 그로 치료될 수 있다. 대상체는 (예를 들어, 하나 이상의 미생물, 병원체, 박테리아, 바이러스, 진균, 또는 기생충으로의) 실제 감염을 가질 수 있다. 일부 경우에, 대상체는 (예를 들어, 하나 이상의 미생물, 병원체, 박테리아, 바이러스, 진균, 또는 기생충으로) 감염되지 않는다. 일부 경우에, 대상체는 건강하다. 일부 경우에, 대상체는 감염되기 쉽거나 또는 그의 위험이 있다 (예를 들어, 환자는 면역손상됨). 대상체는 또 다른 질환 또는 장애를 갖거나, 또는 가질 위험이 있을 수 있다. 예를 들어, 대상체는 질환 예컨대 암 (예를 들어, 유방암, 폐암, 췌장암, 혈액암 등)을 갖거나, 그를 가질 위험이 있거나, 또는 그를 갖는 것으로 의심될 수 있다.
샘플은 핵산 샘플일 수 있으며; 일부 경우에, 샘플은 소정량의 핵산을 함유한다. 샘플 내의 핵산은 이중-가닥 (ds) 핵산, 단일 가닥 (ss) 핵산, DNA, RNA, cDNA, mRNA, cRNA, tRNA, 리보솜 RNA, dsDNA, ssDNA, miRNA, siRNA, 순환 핵산, 순환 무세포 핵산, 순환 DNA, 순환 RNA, 무세포 핵산, 무세포 DNA, 무세포 RNA, 순환 무세포 DNA, 무세포 dsDNA, 무세포 ssDNA, 순환 무세포 RNA, 게놈 DNA, 엑소솜, 무세포 병원체 핵산, 순환 병원체 핵산, 미토콘드리아 핵산, 비-미토콘드리아 핵산, 핵 DNA, 핵 RNA, 염색체 DNA, 순환 종양 DNA, 순환 종양 RNA, 원형 핵산, 원형 DNA, 원형 RNA, 원형 단일-가닥 DNA, 원형 이중-가닥 DNA, 플라스미드, 또는 그의 임의의 조합을 포함할 수 있다. 일부 경우에, 샘플 핵산은 합성 핵산을 포함할 수 있다. 일부 경우에, 합성 핵산은 본원에 개시된 임의의 유형의 핵산, 예를 들어, DNA, RNA, DNA-RNA 하이브리드를 포함한다. 예를 들어, 합성 핵산은 DNA일 수 있다.
일부 경우에, 상이한 유형의 핵산이 샘플에 존재할 수 있다. 예를 들어, 샘플은 무세포 RNA 및 무세포 DNA를 포함할 수 있다. 마찬가지로, 본원에 제공된 방법은 샘플에 존재하는 RNA 및 DNA 둘 다가 단독으로 또는 조합하여 분석되는 방법을 포함할 수 있다.
본원에 사용된 바와 같은, 용어 "무세포"는 샘플이 신체로부터 수득되기 전에 신체에서 나타났던 바와 같은 핵산의 상태를 지칭한다. 예를 들어, 샘플 내 순환 무세포 핵산은 인간 신체의 혈류에서 순환하는 무세포 핵산으로서 기원될 수 있다. 대조적으로, 고형 조직, 예컨대 생검으로부터 추출된 핵산은, 일반적으로 "무세포"인 것으로 고려되지 않는다.
일부 경우에, 샘플은 무세포 또는 세포-연관 핵산을 함유하는 미가공된 샘플 (예를 들어, 전혈) 또는 가공된 샘플 (예를 들어, 혈청, 혈장)일 수 있다. 일부 경우에, 샘플은 특정 유형의 핵산, 예를 들어, DNA, RNA, 무세포 DNA, 무세포 RNA, 무세포 순환 DNA, 무세포 순환 RNA 등에 대해 풍부화되어 있다. 일부 경우에, 샘플은 샘플 내의 다른 구성성분으로부터 핵산을 단리하거나 또는 핵산을 분리하는 일부 방식으로 가공되어 있다. 일부 경우에, 샘플은 병원체-특이적 핵산에 대해 풍부화되어 있다.
종종, 샘플은 신선한 샘플이다. 일부 경우에, 샘플은 동결된 샘플이다. 일부 경우에, 샘플은, 예를 들어, 화학적 고정제로 고정된, 예컨대 포르말린-고정된 파라핀-포매된 조직이다.
표적 핵산
본원에 제공된 방법은 임의의 수의 표적 핵산을 검출하는데 사용될 수 있다. 표적 핵산은 전체 또는 부분 게놈, 엑솜, 유전자 로커스, 유전자, 엑손, 인트론, 변형된 핵산 (예를 들어, 메틸화된 핵산), 및/또는 미토콘드리아 핵산을 포함하나 이에 제한되지는 않는다. 종종, 본원에 제공된 방법은 병원체 표적 핵산을 검출하는데 사용될 수 있으며; 일부 경우에, 병원체 표적 핵산은 대상체로부터의 핵산을 함유하는 복합 임상 샘플에 존재한다. 병원체 표적 핵산은 감염성 질환, 예컨대 인플루엔자, 결핵, 또는 본원에 추가로 기재된 것들을 포함한, 임의의 다른 기지의 감염성 질환 또는 장애와 연관될 수 있다. 일부 경우에, 본원에 기재된 표적 핵산은 표적 핵산일 수 있다.
일부 경우에, 병원체 표적 핵산은 조직 샘플, 예컨대 감염 부위로부터의 조직 샘플에 존재한다. 다른 경우에, 병원체 표적 핵산은 감염 부위로부터 이동되며; 예를 들어, 이는 순환 무세포 핵산 (예를 들어, DNA)을 함유하는 샘플로부터 수득될 수 있다.
일부 경우에, 표적 핵산은 암 조직으로부터 유래한다. 표적 핵산은 조직 또는 종양으로부터 직접적으로 수득될 수 있다. 일부 경우에, 표적 암 핵산은 순환 무세포 핵산으로부터 또는 순환 종양 세포 (CTC)로부터 수득된다.
일부 경우에, 표적 핵산은 전체 샘플의 단지 매우 작은 비율, 예를 들어, 샘플 내 총 핵산의 1% 미만, 0.5% 미만, 0.1% 미만, 0.01% 미만, 0.001% 미만, 0.0001% 미만, 0.00001% 미만, 0.000001% 미만, 또는 0.0000001% 미만을 구성할 수 있다. 일부 경우에, 표적 핵산은 샘플 내 총 핵산의 약 0.00001% 내지 약 0.5%를 구성할 수 있다. 종종, 원래 샘플 내 총 핵산은 달라질 수 있다. 예를 들어, 총 무세포 핵산 (예를 들어, DNA, mRNA, RNA)은 1-100 ng/mL의 범위 내, 예를 들어, (약 1, 5, 10, 20, 30, 40, 50, 80, 100 ng/mL)일 수 있다. 일부 경우에, 샘플 내 무세포 핵산의 총 농도는 이러한 범위 밖이다 (예를 들어, 1 ng/mL 미만; 다른 경우에, 총 농도는 100 ng/mL 초과임). 이는 주로 인간 DNA 및/또는 RNA로 구성된 무세포 핵산 (예를 들어, DNA) 샘플의 경우일 수 있다. 이러한 샘플에서, 병원체 표적 핵산 또는 암 표적 핵산은 인간 또는 건강한 핵산, 예를 들어 예를 들어 화학요법을 받고 있는 대상체로부터의 샘플과 비교하여 부족하게 존재할 수 있다. 예를 들어, 병원체 표적 핵산은 샘플 내 총 핵산의 0.001% 미만을 구성할 수 있고, 암 표적 핵산은 샘플 내 총 핵산의 1% 미만을 구성할 수 있다.
표적 핵산의 길이는 달라질 수 있다. 일부 경우에, 표적 핵산은 약 또는 적어도 약 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 250, 300, 350, 400, 450, 500, 750, 1000, 1500, 2000, 3000, 4000, 5000, 10000, 15000, 20000, 25000, 또는 50000개의 뉴클레오티드 (또는 염기 쌍) 길이일 수 있다. 일부 경우에, 표적 핵산은 최대 약 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 250, 300, 350, 400, 450, 500, 750, 1000, 1500, 2000, 3000, 4000, 5000, 10000, 15000, 20000, 25000, 또는 50000개의 뉴클레오티드 (또는 염기 쌍) 길이일 수 있다. 일부 특정한 실시양태에서, 표적 핵산은 비교적 짧은, 예를 들어 500개 미만의 염기 쌍 (또는 뉴클레오티드) 또는 1000개 미만의 염기 쌍 (또는 뉴클레오티드) 길이이다. 일부 경우에, 표적 핵산은 비교적 긴, 예를 들어, 1000개 초과, 1500개 초과, 2000개 초과, 2500개 초과, 3000개 초과, 또는 5000개 초과의 염기 쌍 (또는 뉴클레오티드) 길이이다. 일부 경우에, 표적 핵산은 약 20 내지 약 120개의 염기 쌍 범위 내일 수 있다. 일부 경우에, 표적 핵산은 약 40 내지 약 100개의 염기 쌍 범위 내일 수 있다.
샘플 핵산의 경우와 마찬가지로, 표적 핵산은 하기를 포함한 임의의 유형의 핵산일 수 있다: 이중-가닥 (ds) 핵산, 단일 가닥 (ss) 핵산, DNA, RNA, cDNA, mRNA, cRNA, tRNA, 리보솜 RNA, dsDNA, ssDNA, miRNA, siRNA, 순환 핵산, 순환 무세포 핵산, 순환 DNA, 순환 RNA, 무세포 핵산, 무세포 DNA, 무세포 RNA, 순환 무세포 DNA, 무세포 dsDNA, 무세포 ssDNA, 순환 무세포 RNA, 게놈 DNA, 엑소솜, 무세포 병원체 핵산, 순환 병원체 핵산, 미토콘드리아 핵산, 비-미토콘드리아 핵산, 핵 DNA, 핵 RNA, 염색체 DNA, 순환 종양 DNA, 순환 종양 RNA, 원형 핵산, 원형 DNA, 원형 RNA, 원형 단일-가닥 DNA, 원형 이중-가닥 DNA, 플라스미드, 또는 그의 임의의 조합. 표적 핵산은 바람직하게는 바이러스, 박테리아, 진균류, 기생충 및 임의의 다른 미생물, 특히 감염성 미생물을 포함하나 이에 제한되지는 않는 병원체로부터 유래된 핵산이다. 표적 핵산은 특정한 기관 또는 조직으로부터 유래된 핵산일 수 있다. 일부 경우에, 표적 핵산은, 병원체와는 대조적으로, 대상체로부터 직접적으로 유래된다.
스파이크-인 합성 핵산
본 개시내용은, 특히 고처리량 또는 차세대 서열분석 검정과 관련된 다양한 적용에 사용하기 위한 단일 합성 핵산 및 합성 핵산의 세트를 기재한다. 일부 경우에, 기재된 방법에 사용될 때, 스파이크-인 합성 핵산은, 샘플에 걸친 핵산 (예를 들어, 질환-특이적 핵산, 병원체 핵산), 사전-분석 샘플 취급 상태, 핵산 추출의 방법, 분자 생물학 도구 및 방법으로의 핵산 조작, 핵산 정제의 방법, 측정 그 자체의 작용, 저장 조건, 및 시간의 경과의 효율적인 정규화, 예를 들어, 샘플이 유래된 개체와는 독립적으로 가능하게 할 수 있다. 일부 경우에, 본 개시내용은 특정한 특징, 예컨대 높은 수의 고유한 서열을 갖는 합성 핵산의 풀 또는 세트를 제공한다. 합성 핵산의 세트는 샘플 분석 과정 동안 다양성 손실을 모니터링하는데 사용될 수 있으며, 이는 차례로 출발 핵산의 존재비를 결정하는데 사용될 수 있다. 본원에 제공된 합성 핵산은 또한 샘플을 트래킹하기 위해, 샘플 사이의 교차 오염을 모니터링하기 위해, 시약을 트래킹하기 위해, 시약 로트를 트래킹하기 위해, 및 수많은 다른 적용에 사용될 수 있다. 종종, 합성 핵산의 디자인, 길이, 양, 농도, 다양성 수준, 및 서열은 특정한 적용을 위해 맞춤화될 수 있다. 일부 경우에, 스파이크-인 합성 핵산은 본원에 기재된 담체 합성 핵산 (예를 들어, 담체 합성 핵산)을 포함한다.
본원에 제공된 합성 핵산의 수집 (또는 세트)은 여러 종의 합성 핵산을 함유할 수 있다. 일부 경우에, 종의 길이, 농도, 및/또는 서열은 동일하거나 유사할 수 있다. 일부 경우에, 종의 길이, 농도, 및/또는 서열은 상이할 수 있다.
바람직한 실시양태에서, 합성 핵산의 종은 길이가 상이하다. 예를 들어, 합성 핵산 종의 수집은 집합적으로 샘플 내 특정 표적 핵산의 길이의 관찰가능한 범위, 또는 이러한 관찰가능한 범위의 적어도 일부에 걸쳐 있을 수 있다. 예를 들어, 종은 집합적으로 샘플, 특히 병원체에 의해 감염되거나, 또는 그에 의해 감염된 것으로 의심되는 대상체로부터 수득된 샘플 내 질환-특이적 또는 병원체-특이적 핵산의 길이에 걸쳐 있을 수 있다. 일부 경우에, 샘플 내 질환-특이적 또는 병원체-특이적 핵산의 길이는 약 40 내지 약 100개의 염기 쌍 범위 내일 수 있다. 일부 경우에, 종은 집합적으로 샘플 내 다양한 상이한 질환-특이적 또는 병원체-특이적 핵산의 길이에 걸쳐 있을 수 있다. 종은, 일부 경우에, 집합적으로 특정한 병원체-특이적 핵산, 예컨대 특정한 병원체 게놈 내의 핵산의 길이에 걸쳐 있을 수 있다. 일부 경우에, 핵산은 병원체 게놈 내의 특이적 핵산, 예컨대 병원체의 병독성 영역, 병원체의 항생제-저항 영역, 또는 다른 영역 또는 특이적 핵산 또는 유전자 내의 핵산일 수 있다. 일부 경우에, 핵산의 길이는 특정한 유형의 감염 (예를 들어, 급성, 만성, 활성, 또는 잠재성)에 특이적일 수 있다. 다른 예에서, 종은 집합적으로 (예를 들어, 감염된 대상체로부터의) 샘플 내 특정 대상체 핵산 및/또는 병원체 핵산의 길이에 걸쳐 있을 수 있다.
수집 내의 합성 핵산의 종의 길이는 특정한 표적 핵산의 길이 (예를 들어, 샘플 내 병원체- 또는 질환-특이적 핵산의 관찰가능한 범위)와 정확하게 일치할 수 있다. 다른 경우에, 합성 핵산의 수집 내의 합성 핵산의 종의 길이는 표적 핵산의 길이와 근접하게 일치할 수 있거나, 또는 이러한 길이와 실질적으로 일치할 수 있다. 예를 들어, 합성 핵산의 종의 길이는 표적 핵산의 길이의 50%-150% 이내, 표적 핵산의 길이의 55%-145% 이내, 표적 핵산의 길이의 60%-140% 이내, 표적 핵산의 길이의 65%-135% 이내, 표적 핵산의 길이의 70%-130% 이내, 표적 핵산의 길이의 75%-125% 이내, 표적 핵산의 길이의 80%-120% 이내, 표적 핵산의 길이의 85%-115% 이내, 표적 핵산 길이의 90%-110% 이내, 표적 핵산 길이의 95%-105% 이내, 표적 핵산 길이의 96%-104% 이내, 표적 핵산 길이의 99%-101% 이내, 또는 표적 핵산 길이의 99.5%-100.5% 이내일 수 있다. 일부 경우에, 합성 핵산의 종의 길이는 표적 핵산의 길이의 50%-150% 이내일 수 있다. 일부 경우에, 합성 핵산의 종의 길이는 표적 핵산의 길이의 최대 2배, 3배, 4배, 또는 5배일 수 있다. 일부 경우에, 합성 핵산의 종의 길이는 표적 핵산의 길이의 1, 2, 3, 4, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 125, 150, 또는 200 뉴클레오티드 이내일 수 있다. 일부 경우에, 수집 내의 합성 핵산의 종은 가장 근접하게 일치된 표적 핵산의 길이의 65%, 75%, 80%, 85%, 90%, 92%, 95%, 97%, 또는 99% 초과이다.
본원에 개시된 합성 핵산의 수집 (또는 풀) 내의 각각의 또는 대부분의 핵산 "종"은 하나 이상의 관심 도메인 또는 영역을 함유할 수 있다. 일부 경우에, 관심 도메인 또는 영역은 길이 식별자 서열이다. 길이 식별자 서열은 특정한 길이를 나타내거나 또는 의미하도록 미리 결정된 코드를 함유할 수 있으며; 종종 이러한 길이 식별자는 짧은 서열, 예를 들어, 10개의 염기 쌍 (bp), 9 bp, 8 bp, 7 bp, 6 bp, 5 bp, 4 bp, 또는 3 bp; 9 bp 미만, 8 bp 미만, 7 bp 미만, 또는 6 bp 미만; 또는 6-15 bp, 5-10 bp, 4-8 bp, 또는 6-9 bp일 수 있다. 종은 1, 2개 또는 그 초과의 길이 식별자 서열을 함유할 수 있다. 일부 경우에, 길이 식별자는 정방향 및/또는 역방향 서열로서 존재한다.
일부 경우에, 합성 핵산의 수집 내의 핵산 종 내의 도메인은, 존재하는 경우에, 일반적으로 합성 핵산 내 길이-식별 서열에 의해 코딩된 길이에 상응하는 특정한 길이의 로드 서열일 수 있다. 스파이크-인 핵산 또는 로드의 길이는 달라질 수 있다. 일부 경우에, 전체 스파이크-인 핵산은 약 또는 적어도 약 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 250, 300, 350, 400, 450, 또는 500개의 뉴클레오티드 길이일 수 있다. 일부 경우에, 스파이크-인 핵산은 최대 약 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 250, 300, 350, 400, 450, 또는 500개의 뉴클레오티드 길이일 수 있다. 일부 경우에, 스파이크-인 핵산은 약 20 내지 약 200개의 염기 쌍, 예컨대 약 20 내지 약 120개의 염기 쌍 범위 내일 수 있다. 일부 경우에, 스파이크-인 핵산 내의 로드 서열 도메인의 길이는 약 또는 적어도 약 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 250, 300, 350, 400, 450, 또는 500개의 뉴클레오티드 길이일 수 있다. 일부 경우에, 스파이크-인 핵산 내의 로드 서열 도메인의 길이는 최대 약 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 250, 300, 350, 400, 450, 또는 500개의 뉴클레오티드 길이일 수 있다. 일부 경우에, 스파이크-인 핵산 내의 로드 서열 도메인의 길이는 0 내지 약 200 bp 범위 이내일 수 있다.
합성 핵산의 수집 내의 핵산 종 내의 도메인은 핵산이 원래 샘플의 부분과는 대조적으로 스파이크-인이라는 것을 의미하는 고유한 코드를 포함하는 합성 핵산 식별 서열 (예를 들어, Spark-식별 서열, Spank-식별 서열)일 수 있다. 일반적으로, 고유한 코드는 원래 샘플에 또는 표적 핵산의 풀에 존재하지 않는 코드이다. 합성-핵산 식별 서열은 특정한 수의 bp, 예를 들어, 25 bp, 20 bp, 19 bp, 18 bp, 16 bp, 15 bp, 12 bp, 10 bp, 또는 다른 길이를 포함할 수 있다. 종은 1, 2개 또는 그 초과의 합성 핵산 식별 서열 또는 도메인을 함유할 수 있다. 일부 경우에, 합성-핵산 식별 서열은 정방향 및/또는 역방향 서열로서 존재한다.
일부 경우에, 합성 핵산의 수집 내의 핵산 종 내의 도메인은 합성 산의 전체 풀 또는 수집과 연관된 "다양성 코드"일 수 있다. 다양성 코드 도메인은 합성 핵산의 풀 내의 다양성의 양을 의미하는 고유한 코드일 수 있다. 이러한 경우에, 다양성 풀 내의 모든 합성 핵산은 풀의 다양성 정도를 의미하는 서열 (예를 들어, 108개의 고유한 서열)로 코딩될 수 있다. 일부 경우에, 예컨대 2개 이상의 다양성 풀이 동일한 샘플에 대해 사용될 때, 다양성 코드는 2개 이상의 풀 내 다양성 손실을 식별하는데 사용될 수 있다.
일부 경우에, 합성 핵산의 수집 내의 핵산 종 내의 도메인은 적용에 따라, 샘플, 또는 시약의 하나 이상의 특색과 연관된 특색 도메인일 수 있다. 예를 들어, 특색 도메인은 특정한 시약; 특정한 시약 로트; 또는 특정한 샘플 (예를 들어, 샘플 번호, 환자 번호, 환자 이름, 환자 연령, 환자 성별, 환자 인종, 샘플이 환자로부터 수득된 위치)을 의미하도록 코딩된 서열을 포함할 수 있다.
관심 도메인 또는 영역은 임의의 조합 및 수로 존재할 수 있다. 예를 들어, 합성 핵산은 하기를 포함할 수 있다: 1개 이상의 길이-식별자 서열, 1개 이상의 로드 서열, 1개 이상의 합성 핵산-식별자 서열, 1개 이상의 다양성 코드, 및/또는 임의의 조합 또는 비의 1개 이상의 특색 도메인. 예를 들어, 일부 경우에 합성 핵산은 길이-식별자 서열 및 로드 서열을 함유한다. 일부 경우에, 합성 핵산은 합성 핵산-식별자 서열 및 특색 도메인 서열을 함유한다. 일부 경우에, 합성 핵산은 합성 핵산 식별자 서열을 함유하는 반면, 다른 경우에, 이는 이러한 서열을 함유하지 않는다.
합성 핵산은, 일부 경우에, 중첩 목적을 갖는 도메인을 함유할 수 있다. 예를 들어, 일부 경우에, 합성 핵산은 또한 로드 서열로서도 역할을 하는 1개 이상의 길이-식별자 서열을 함유한다. 일부 경우에, 길이 식별자 서열 및/또는 로드 서열은 또한 합성 핵산 식별자 서열로서도 역할을 한다.
합성 또는 스파이크-인 핵산은 핵산 라이브러리와 상용성이도록 선택 또는 디자인될 수 있다. 일부 경우에, 합성 핵산 또는 스파이크-인은 어댑터, 공통 서열, 무작위 서열, 폴리-(A) 테일, 평활 말단, 또는 비정렬된 말단, 또는 그의 임의의 조합을 함유할 수 있다. 일부 경우에, 합성 핵산 또는 스파이크-인은 하나 이상의 이들 또는 다른 특징으로 샘플 내 핵산을 모방하도록 디자인된다.
본원에 제공된 합성 핵산 (예를 들어, 스파이크-인 합성 핵산)은 임의의 유형의 핵산 또는 핵산 유형의 조합을 함유할 수 있다. 바람직한 실시양태에서, 합성 또는 스파이크-인 핵산은 DNA이다. 일부 경우에, 합성 또는 스파이크-인 핵산은 단일-가닥 DNA이다. 일부 경우에, 합성 또는 스파이크-인 핵산은 이중-가닥 DNA이다. 일부 경우에, 합성 또는 스파이크-인 핵산은 RNA이다. 일부 경우에, 합성 또는 스파이크-인 핵산은 변형된 염기 또는 인공 염기를 함유할 수 있다. 이중-가닥 합성 또는 스파이크-인 핵산은 평활 말단 또는 오목 말단을 가질 수 있다. 합성 또는 스파이크-인 핵산은 인산화 또는 탈인산화된 말단을 가질 수 있다. 일부 경우에, 합성 핵산은 이중-가닥 (ds) 핵산, 단일 가닥 (ss) 핵산, DNA, RNA, cDNA, mRNA, cRNA, tRNA, 리보솜 RNA, dsDNA, ssDNA, snRNA, 게놈 DNA, 올리고뉴클레오티드, 듀플렉스 올리고뉴클레오티드, 더 긴 어셈블리된 듀플렉스 DNA (예를 들어, 인티그레이티드 DNA 테크놀로지스(Integrated DNA Technologies)로부터의 gBlocks), 플라스미드, PCR 산물, 시험관내 합성된 전사체, 바이러스 입자, 단편화된 또는 비단편화된 게놈 DNA, 원형 핵산, 원형 DNA, 원형 RNA, 원형 단일-가닥 DNA, 원형 이중-가닥 DNA, 플라스미드, 또는 그의 임의의 조합을 함유할 수 있다. 합성 핵산은 종종 핵염기, 예컨대 아데닌 (A), 시토신 (C), 구아닌 (G), 티민 (T) 및/또는 우라실 (U)을 포함할 수 있다.
합성 핵산은 임의의 합성 핵산 또는 핵산 유사체일 수 있거나 또는 그를 포함할 수 있다. 합성 핵산은 변형된 또는 변경된 포스페이트 백본; 변형된 펜토스 당 (예를 들어, 변형된 리보스 또는 데옥시리보스); 또는 변형된 또는 변경된 핵염기 (예를 들어, 변형된 아데닌 (A), 시토신 (C), 구아닌 (G), 티민 (T), 우라실 (U))를 포함할 수 있다. 일부 경우에, 합성 핵산은 1개 이상의 변형된 염기 예컨대 5-메틸시토신 (m5C), 슈도우리딘 (Ψ), 디히드로우리딘 (D), 이노신 (I), 및/또는 7-메틸구아노신 (m7G)을 포함할 수 있다. 일부 경우에, 합성 핵산은 펩티드 핵산 (PNA), 가교된 핵산 (BNA), 유사체 핵산, 글리세롤 핵산 (GNA), 트레오스 핵산 (TNA), 잠금된 핵산 (LNA), 2'-O-메틸-치환된 RNA, 모르폴리노, 또는 뉴클레오티드 측쇄를 갖는 다른 합성 중합체를 포함할 수 있다. 일부 경우에, 합성 핵산은 DNA, RNA, PNA, LNA, BNA, 또는 그의 임의의 조합을 포함할 수 있다. 일부 경우에, 합성 핵산은 이중 나선 또는 삼중 나선 또는 다른 구조를 포함할 수 있다.
합성 핵산은 임의의 뉴클레오티드의 임의의 조합을 포함할 수 있다. 뉴클레오티드는 자연 발생 또는 합성일 수 있다. 일부 경우에, 뉴클레오티드는 산화 또는 메틸화될 수 있다. 뉴클레오티드는 아데노신 모노포스페이트 (AMP), 아데노신 디포스페이트 (ADP), 아데노신 트리포스페이트 (ATP), 구아노신 모노포스페이트 (GMP), 구아노신 디포스페이트 (GDP), 구아노신 트리포스페이트 (GTP), 티미딘 모노포스페이트 (TMP), 티미딘 디포스페이트 (TDP), 티미딘 트리포스페이트 (TTP), 우리딘 모노포스페이트 (UMP), 우리딘 디포스페이트 (UDP), 우리딘 트리포스페이트 (UTP), 시티딘 모노포스페이트 (CMP), 시티딘 디포스페이트 (CDP), 시티딘 트리포스페이트 (CTP), 5-메틸시티딘 모노포스페이트, 5-메틸시티딘 디포스페이트, 5-메틸시티딘 트리포스페이트, 5-히드록시메틸시티딘 모노포스페이트, 5-히드록시메틸시티딘 디포스페이트, 5-히드록시메틸시티딘 트리포스페이트, 시클릭 아데노신 모노포스페이트 (cAMP), 시클릭 구아노신 모노포스페이트 (cGMP), 데옥시아데노신 모노포스페이트 (dAMP), 데옥시아데노신 디포스페이트 (dADP), 데옥시아데노신 트리포스페이트 (dATP), 데옥시구아노신 모노포스페이트 (dGMP), 데옥시구아노신 디포스페이트 (dGDP), 데옥시구아노신 트리포스페이트 (dGTP), 데옥시티미딘 모노포스페이트 (dTMP), 데옥시티미딘 디포스페이트 (dTDP), 데옥시티미딘 트리포스페이트 (dTTP), 데옥시우리딘 모노포스페이트 (dUMP), 데옥시우리딘 디포스페이트 (dUDP), 데옥시우리딘 트리포스페이트 (dUTP), 데옥시시티딘 모노포스페이트 (dCMP), 데옥시시티딘 디포스페이트 (dCDP) 및 데옥시시티딘 트리포스페이트 (dCTP), 5-메틸-2'-데옥시시티딘 모노포스페이트, 5-메틸-2'-데옥시시티딘 디포스페이트, 5-메틸-2'-데옥시시티딘 트리포스페이트, 5-히드록시메틸-2'-데옥시시티딘 모노포스페이트, 5-히드록시메틸-2'-데옥시시티딘 디포스페이트 및 5-히드록시메틸-2'-데옥시시티딘 트리포스페이트를 포함할 수 있으나 이에 제한되지는 않는다.
합성 또는 스파이크-인 핵산은 샘플에 첨가된 임의의 분자를 지칭할 수 있고, 예를 들어, 칼럼 상에서, 화학적으로 합성된 분자에 제한되지는 않는다. 일부 경우에, 합성 또는 스파이크-인 핵산은, 예를 들어, PCR 증폭, 시험관내 전사, 또는 다른 주형-기반 복제에 의해 합성될 수 있다. 일부 경우에, 합성 또는 스파이크-인 핵산은 전단된 또는 달리 단편화된 핵산이거나 또는 그를 포함한다. 전단된 또는 단편화된 핵산은 게놈 핵산 예컨대 인간 또는 병원체 게놈 핵산을 포함할 수 있다. 일부 경우에, 합성 핵산은 어떠한 인간 핵산도 함유하지 않는다. 일부 경우에, 합성 핵산은 자연에서 발견될 수 있는 어떠한 핵산도 함유하지 않는다. 일부 경우에, 합성 핵산은 어떠한 샘플 핵산도 함유하지 않는다.
스파이크-인 또는 합성 핵산의 구아닌-시토신 함량 (GC-함량)은 달라질 수 있다. 일부 경우에, 스파이크-인 또는 합성 핵산의 GC-함량은 약 또는 적어도 약 0%, 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%일 수 있다. 일부 경우에, GC-함량은 최대 약 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%일 수 있다. 일부 경우에, 스파이크-인 또는 합성 핵산의 GC-함량은 약 15% 내지 약 85%, 예컨대 약 20% 내지 약 80% 범위 이내일 수 있다. 수집 내의 합성 핵산의 종의 GC-함량은 특정한 표적 핵산의 GC-함량 (예를 들어, 샘플 내 병원체- 또는 질환-특이적 핵산의 관찰가능한 범위)과 정확하게 일치할 수 있다. 다른 경우에, 합성 핵산의 수집 내의 합성 핵산의 종의 GC-함량은 표적 핵산의 GC-함량과 근접하게 일치할 수 있거나, 또는 이러한 GC-함량과 실질적으로 일치한다. 예를 들어, 합성 핵산의 종의 GC-함량은 표적 핵산의 GC-함량의 75%-125% 이내, 표적 핵산의 GC-함량의 80%-120% 이내, 표적 핵산의 GC-함량의 85%-115% 이내, 표적 핵산의 GC-함량의 90%-110% 이내, 표적 핵산의 GC 함량의 95%-105% 이내, 표적 핵산의 GC-함량의 96%-104% 이내, 표적 핵산의 GC-함량의 99%-101% 이내, 또는 표적 핵산의 GC-함량의 99.5%-100.5% 이내일 수 있다.
스파이크-인 핵산은 상이한 분자 예컨대 비드, 형광단, 중합체에 부착, 라이게이션 또는 접합될 수 있다. 형광단의 예는 형광 단백질, 녹색 형광 단백질 (GFP), 알렉사 염료, 플루오레세인, 적색 형광 단백질 (RFP), 및 황색 형광 단백질 (YFP)을 포함하나 이에 제한되지는 않는다. 스파이크-인 핵산은 단백질 (예를 들어, 히스톤, 핵산 결합 단백질, DNA-결합 단백질, RNA-결합 단백질)과 연관될 수 있다. 다른 경우에, 스파이크-인 핵산은 단백질과 연관되지 않는다. 스파이크-인 핵산은 입자-보호될 수 있다 (예를 들어, 비리온에서의 핵산과 유사함). 일부 경우에, 스파이크-인 핵산은 입자에 캡슐화되거나 또는 그와 연관될 수 있다. 일부 경우에, 입자는 단백질, 지질, 금속, 산화금속, 플라스틱, 중합체, 생체중합체, 세라믹, 또는 복합 물질을 포함한다.
스파이크-인 핵산은 샘플 또는 숙주에서 잠재적으로 발견된 서열과 상이한 서열을 가질 수 있다. 일부 경우에, 스파이크-인 핵산 서열은 자연 발생이다. 일부 경우에, 스파이크-인 핵산 서열은 자연 발생이 아니다. 일부 경우에, 스파이크-인 핵산 서열은 숙주로부터 유래된다. 일부 경우에, 스파이크-인 핵산 서열은 숙주로부터 유래되지 않는다. 일부 경우에, 스파이크-인 또는 합성 핵산은 1개 이상의 표적 핵산 (예를 들어, 병원체 핵산, 질환-특이적 핵산)에 및/또는 1개 이상의 샘플 핵산에 혼성화할 수 없다 (또는 상보적이지 않음).
샘플 내 스파이크-인 핵산의 농도는 달라질 수 있다. 스파이크-인은 광범위한 농도로 첨가될 수 있으며, 이는 감수성 및 샘플 손실을 결정하는데 유용할 수 있다. 일부 경우에, 각각의 스파이크-인 핵산의 약 또는 적어도 약 0.1백만, 0.5백만, 1백만, 2백만, 3백만, 4백만, 5백만, 6백만, 7백만, 8백만, 9백만, 10백만, 20백만, 30백만, 40백만, 50백만, 60백만, 70백만, 80백만, 90백만, 100백만, 500백만 또는 1,000백만개 (10억개) 분자는 혈장 또는 샘플 각각의 mL에 첨가된다. 일부 경우에, 각각의 스파이크-인 핵산의 약 10백만 내지 약 1000백만개 분자는 혈장 또는 샘플 각각의 mL에 첨가된다. 일부 경우에, 합성 핵산은 등몰 농도로 스파이크-인된다. 다른 경우에, 합성 핵산은 상이한 농도로 샘플에 스파이크-인된다.
샘플에 첨가된 상이한 스파이크-인 핵산의 수는 달라질 수 있다. 다중 스파이크-인 핵산은 샘플 또는 시약에 첨가될 수 있다. 일부 경우에, 약 또는 적어도 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개의 스파이크-인 핵산이 샘플 또는 시약에 첨가된다. 일부 경우에, 최대 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개의 스파이크-인 핵산이 샘플 또는 시약에 첨가된다. 일부 경우에, 샘플 또는 시약에 첨가된 스파이크-인 핵산은 동일한 길이이다. 일부 경우에, 샘플 또는 시약에 첨가된 스파이크-인 핵산은 상이한 길이이다. 일부 경우에, 스파이크-인 핵산은 서열식별번호: 1-120 및 그의 임의의 조합으로 이루어진 군으로부터 선택된다.
스파이크-인 핵산의 고유성의 수준은 달라질 수 있다. 본질적으로 비제한된 수의 스파이크-인 (예를 들어, ID Spike)이 디자인 또는 사용될 수 있다.
스파이크-인 핵산이 첨가되는 프로세스에서의 단계는 달라질 수 있다. 샘플 트래킹을 위해, 스파이크-인 핵산의 더 초기 첨가가 더 우수할 수 있고 오퍼레이터 또는 시스템 오류의 후속 가능성을 감소시킨다. 일부 경우에, 샘플 (예를 들어, 혈액)이 먼저 첨가된 튜브는 이미 스파이크-인 핵산을 함유할 수 있다. 이들 튜브의 제조는 클리닉 또는 실험실에서 샘플에 스파이크-인 핵산을 첨가하는 것과 비교하여 보다 체계적으로 제어 및 시험될 수 있으며, 그에 의해 샘플 혼동의 기회를 감소시킬 수 있다. 일부 경우에, ID Spike는 모든 외부 표지 ("백색 표지")를 대체할 수 있다.
일부 경우에, 식별 핵산 마커는 샘플 내 각각의 핵산 단편에 첨가될 수 있어, 모든 서열 판독물은 식별 마커를 함유한다. 이러한 방법은 초기 대 하류 교차-오염을 구별하는 것을 가능하게 할 것이다. 단편의 태깅이 완전히 충분하다면, 이는 또한 바코드가 샘플 단편에 첨가되자마자 샘플을 의도적으로 멀티플렉스화하는 것을 가능하게 할 수 있다. 태그를 혼입하는 방법은 트랜스포손, 말단 트랜스퍼라제, 메틸화된 부위에서의 절단, 및 탈메틸화된 부위에서의 절단을 포함하나 이에 제한되지는 않는다.
프로세스 품질 제어 또는 개발 작업을 수반하는 것들을 포함하나 이에 제한되지는 않는 다른 적용을 위해, 스파이크-인 핵산은 프로세스에서 상이한 단계에서 첨가될 수 있다. 예를 들어, RNA 분석을 위해, 다중 RNA 스파이크-인은, 상이한 농도, 길이, 서열, 및/또는 GC 함량으로 각각 샘플 제조의 초기에 첨가될 수 있고, DNA 스파이크-인은 RNA가 DNA로 전환된 후에 첨가될 수 있다. DNA 라이브러리를 위해, 상이한 형태의 DNA는 라이브러리 생성 프로세스의 상이한 단계에서 첨가될 수 있다. 예를 들어, 말단 복구 단계를 시험하기 위해, 비-평활 말단, +/- 5'-포스페이트, 및 +/- 3'-아데닌 연장을 갖는 DNA 스파이크-인이 사용될 수 있다. 말단-복구된 단편 어댑터를 라이게이션하는 단계를 시험하기 위해, +/- 사전-어댑터 스파이크-인이 사용될 수 있다. 서열분석 또는 qPCR은 개별 단계에서 샘플 손실을 정량화할 수 있다. 스파이크-인의 qPCR이 또한 서열분석 전에 최종 라이브러리 평가를 위한 다른 라이브러리 정량화 방법과 함께 사용될 수 있다.
용어 "스파이크-인", "스파이크-인 합성 핵산", "스파이크", 및 "합성 핵산"은 본원에 상호교환가능하게 사용되고, 문맥이 상이한 해석을 나타내는 경우를 제외하고는, 상기와 같이 해석되어야 한다. 용어 "ID Spike" 또는 "트레이서"는, 예를 들어, 샘플 식별 트래킹을 위해, 교차-오염 검출을 위해, 시약 트래킹, 또는 시약 로트 트래킹을 위해 사용될 수 있는 식별 스파이크를 지칭하기 위해 일반적으로 본원에 사용된다. 용어 "Spark"는 크기 또는 길이 마커인 핵산을 지칭하기 위해 일반적으로 본원에 사용되며, 이는 존재비 정규화, 개발 및/또는 분석 목적, 및 다른 목적을 위해 사용될 수 있다. 용어 "Spank"는 풀, 또는 다양한 서열을 갖는 핵산의 풀을 축중하는 것을 지칭하기 위해 일반적으로 본원에 사용되고, 종종 다양성 평가 및 존재비 계산을 위해 사용될 수 있다.
핵산 측정의 범용 정규화
본 개시내용은, 기재된 방법에 사용될 때, 샘플 내 질환-특이적 핵산, 병원체-특이적 핵산, 또는 다른 표적 핵산의 양의 효율적이고 개선된 정규화를 가능하게 할 수 있는 합성 핵산의 세트를 기재한다. 스파이크된 핵산 종의 수집이 집합적으로 측정될 병원체 핵산, 질환-특이적 핵산 또는 다른 표적 핵산에서의 길이의 관찰가능한 범위에 걸쳐 있도록, 스파이크된 핵산의 세트는 길이가 상이한 여러 "종"의 핵산을 함유할 수 있다.
스파이크-인 합성 핵산은 샘플을 다수의 상이한 방식으로 정규화하는데 사용될 수 있다. 종종, 정규화는, 샘플이 유래되었던 대상체, 사전-분석 샘플 취급 상태, 핵산 추출의 방법, 분자 생물학 도구 및 방법으로의 핵산 조작, 핵산 정제의 방법, 측정 자체의 작용, 저장 조건, 및/또는 계대 시간과는 독립적으로, 샘플에 걸칠 수 있다.
일부 바람직한 실시양태에서, 스파이크-인 핵산은 모든 샘플 및 질환-특이적 핵산, 병원체-특이적 핵산 또는 다른 표적 핵산을 측정하는 모든 방법에 걸쳐 정규화할 수 있다. 일부 경우에, 스파이크-인은 다른 병원체 핵산과 비교하여 샘플 내 병원체 핵산 (또는 질환-특이적 핵산 또는 표적 핵산)의 상대 존재비를 결정하는데 사용될 수 있다.
일반적으로, 본원에 제공된 방법은 합성 핵산의 하나 이상의 세트를 샘플에 스파이크-인 또는 도입하는 것을 수반한다. 이러한 스파이크-인 단계는 전체 방법 중 임의의 시점에서 예컨대 프로세스에서의 초기에, 중반에, 또는 종료 무렵에 발생할 수 있다. 예를 들어, 합성 핵산은 샘플이 대상체로부터 수집된 당시에, 또는 직후에, 샘플의 저장 전에 또는 동안, 샘플의 전달 전에, 핵산 추출 전에 또는 동안, 라이브러리 제조 전에 또는 동안, 서열분석 검정 직전에 또는 방법의 임의의 다른 단계에 도입될 수 있다. 일부 경우에, 방법은 프로세스에서의 초기에 생물학적 샘플을 동일한 방법에 의해 측정되지만, 병원체-특이적 또는 질환-특이적 핵산, 또는 다른 샘플 핵산으로부터 용이하게 구별되는 고유한 핵산 분자의 기지의 양에 스파이크하는 것을 포함할 수 있다. 일부 경우에, 생물학적 샘플은 프로세스에서의 단일 단계에서, 예를 들어, 샘플이 대상체로부터 수집될 때, 샘플이 분석을 수행하기 위해 수득될 때, 샘플 저장 동안, 핵산 추출 전에 또는 동안, 라이브러리 제조 전에 또는 동안, 또는 서열분석 검정 직전에 합성 핵산에 스파이크된다. 다른 경우에, 동일하거나 상이한 스파이크-인 합성 핵산은 프로세스의 상이한 단계에서 도입된다. 예를 들어, 고유한 합성 핵산은 프로세스에서의 초기에, 예컨대 샘플 수집 시 도입될 수 있고, 고유한 합성 핵산의 상이한 세트는 프로세스에서의 후기에 예컨대 추출, 정제, 또는 라이브러리 제조 전에 또는 후에 도입될 수 있다. 스파이크-인 단계는 또한 스파이크-인 핵산의 동일한 수집, 또는 일부 측면에서 상이한 수집을 사용하여 방법의 상이한 단계에서 반복될 수 있다.
일반적으로, 합성 핵산의 종의 기지의 농도 (또는 농도들)가 각각의 샘플에 스파이크될 수 있다. 많은 경우에, 합성 핵산의 종은 각각의 종의 등몰 농도로 스파이크-인된다. 일부 경우에, 합성 핵산의 종의 농도는 상이하다.
샘플이 가공되고 궁극적으로 측정된 바와 같이, 핵산 종의 상대 존재비는 샘플 취급, 제조, 및 측정의 고유한 편향으로 인해 변경될 수 있다. 측정 후에, 각각의 길이의 핵산을 회수하는 효율은 스파이크된 핵산의 각각의 "종"의 측정된 존재비를 원래 스파이크-인된 양과 비교함으로써 결정될 수 있다. 이는 "길이-기반 회수 프로파일"을 산출할 수 있다.
"길이-기반 회수 프로파일"은 질환-특이적 핵산 존재비 (또는 병원체 핵산 또는 다른 표적 핵산의 존재비)를 가장 근접한 길이의 스파이크된 분자에, 또는 상이한 길이의 스파이크된 분자에 피팅된 함수에 대해 정규화함으로써 모든 (또는 대부분의 또는 일부) 질환-특이적 핵산, 병원체 핵산, 또는 다른 표적 핵산의 존재비를 정규화하는데 사용될 수 있다. 이러한 프로세스는 질환-특이적 핵산에 적용될 수 있고, 샘플을 스파이크하는 시점에 "모든 질환-특이적 핵산의 원래 길이 분포"의 추정을 유발할 수 있다. 유사하게, 이러한 프로세스는 다른 표적 핵산 예컨대 병원체-특이적 핵산에 적용될 수 있고, 샘플을 스파이크하는 시점에 "모든 병원체-특이적 핵산의 원래 길이 분포"의 추정을 유발할 수 있다. "모든 표적 핵산의 원래 길이 분포"는 샘플을 스파이크하는 시점에 표적 핵산 (예를 들어, 질환-특이적 핵산, 병원체-특이적 핵산)에 대한 길이 분포 프로파일을 제시할 수 있다. 이는 스파이크된 핵산이 완벽하거나 또는 거의 완벽한 존재비 정규화를 달성하기 위해 재현하도록 추구할 수 있는 이러한 길이 분포이다.
해당 특이적 샘플 내 질환-특이적 핵산, 병원체 핵산, 또는 다른 표적 핵산의 상대 존재비 프로파일을 정확하게 재현하는 기지의 핵산의 혼합물로 샘플을 스파이크하는 것이 가능하지 않을 수 있으므로, 부분적으로 샘플이 전부 사용되었거나 또는 시간이 상대 존재비 프로파일을 변경했을 수 있기 때문에, 스파이크-인의 각각의 "종"은 "모든 질환-특이적 핵산의 원래 길이 분포" 내에서 그의 상대 존재비에 비례하여 가중될 수 있다. 모든 "가중 인자"의 합계는 1.0일 수 있다.
정규화는 단일 단계 또는 일련의 단계를 수반할 수 있다. 일부 경우에, 질환-특이적 핵산 (또는 병원체 핵산 또는 다른 표적 핵산)의 존재비는 "정규화된 질환-특이적 핵산 (또는 병원체 핵산 또는 다른 표적 핵산) 존재비"를 산출하기 위해 가장 근접한 크기로 스파이크된 핵산 존재비의 원시 측정을 사용하여 정규화될 수 있다. 이어서, "정규화된 질환-특이적 핵산 존재비" (또는 병원체 핵산 또는 다른 표적 핵산 존재비)는 해당 길이를 회수하는데 있어서 상대 중요성을 조정하기 위해 "가중 인자"가 곱해져, "가중된 정규화된 질환-특이적 (또는 병원체-특이적 또는 다른 표적) 핵산 존재비"를 산출할 수 있다. 이러한 정규화 방법의 하나의 이점은, 방법에 상관없이, 질환-특이적 핵산 존재비를 측정하는 모든 (또는 대부분의) 방법에 걸쳐 표적 핵산 (예를 들어, 질환-특이적 핵산, 병원체 핵산) 존재비의 필적할만한 측정을 가능하게 하는 것일 수 있다.
표적 핵산 존재비, 또는 상대 존재비의 측정은 검출, 예측, 모니터링 및 진단 검정에 특히 유용할 수 있다. 이러한 검정은 병원체의 존재를 검출하거나 또는 질환 상태를 식별하기 위해 생물학적 샘플 (예를 들어, 혈장) 내 표적 핵산 (예를 들어, 질환-특이적 핵산)의 양을 측정하는 것을 수반할 수 있다. 본원에 기재된 방법은 이들 측정을 샘플, 측정 시간, 핵산 추출 방법, 핵산 조작 방법, 핵산 측정 방법, 및/또는 다양한 샘플 취급 조건에 걸쳐 필적할만하게 만들 수 있다.
스파이크된 분자의 정확한 서열, "종"의 정확한 수, "종"의 길이 범위, 스파이크된 분자의 농도, 각각의 분자의 상대 양, 스파이크된 각각의 분자의 실제량, 및 분자가 스파이크된 스테이지는 샘플을 기반으로 하여 최적화 또는 맞춤화될 수 있다. 길이는 GC 함량, 핵산 구조, DNA 손상, 또는 DNA 변형 상태로 대체 또는 분석될 수 있다.
일부 경우에, 본원에 제공된 방법은, 종종 주로 고정된 서열 조성으로 (일부 방법에서 일부 짧은 무작위화된 부분은 제외함), 핵산의 단일 길이를 함유하는 스파이크된 핵산의 사용을 포함할 수 있다. 이러한 방법은 질환-특이적 핵산, 병원체-특이적 핵산, 또는 다른 표적 핵산이 스파이크된 핵산과 거의 동일한 길이의 것일 때 잘 작동할 수 있다.
단일-길이 핵산은 단리에서 사용될 수 있거나, 또는 방법은 다중-길이 핵산의 사용을 수반하는 또 다른 방법과 조합될 수 있다. 예를 들어, 다중-길이 핵산의 풀은 샘플이 수득될 때 또는 핵산의 추출 전에 샘플에 스파이크될 수 있고, 단일-길이 핵산의 풀은 프로세스에서 상이한 시점에서 예컨대 핵산의 추출 후에 및 라이브러리 제조 전에 샘플에 스파이크될 수 있다. 단일-길이 및/또는 다중-길이 핵산이 사용될 때, 질환-특이적 핵산, 병원체 핵산, 또는 다른 표적 핵산의 양은 방법의 종료 시 측정된 스파이크된 핵산의 양에 대해 정규화될 수 있다.
많은 경우에, 본원에 기재된 바와 같은, 다중 길이를 갖는 합성 핵산의 사용은 단일 길이의 합성 핵산의 사용을 수반하는 방법을 사용하는 것이 바람직할 수 있다. 본원에 제공된 방법은 표적 핵산이 다중 길이를 가질 때 특히 유용하다. 예를 들어, 질환-특이적 (또는 병원체-특이적) 핵산은 길이가 광범위하게 달라질 수 있다. 이와 같이, 질환-특이적 핵산의 관찰가능한 길이에 걸쳐 있는 스파이크-인 핵산의 사용은 특히 유용할 수 있다. 게다가, 측정된 질환-특이적 핵산의 길이는 또한 다수의 인자, 예컨대 그것이 유래되었던 개체의 대사, 사전-분석된 샘플 취급 조건, 핵산 추출 방법, 분자 생물학 도구 및 방법으로의 핵산 조작, 핵산 정제 방법, 측정 그 자체의 작용, 저장 조건, 및 계대 시간에 의해 현저하게 영향을 미칠 수 있다. 이들 인자는 상이한 길이의 핵산에 대한 차등 효과를 갖고, 따라서 단일 스파이크된 핵산은 혼합된 길이의 핵산 상에서 수행된 프로세스의 전체 효율을 충분히 반영할 수 없다.
"부피당 게놈 카피"의 계산
본원에 제공된 방법 및 합성 핵산은 특정 계산, 예컨대 차세대 서열분석 결과로부터 샘플 내 미생물 또는 병원체의 부피당 게놈 카피를 결정하는 것을 보조하는데 사용될 수 있다. 일반적으로, 부피당 게놈 카피는 유체 (예를 들어, 혈장, 소변, 완충제 등) 1 ml당 표적 핵산 (예를 들어, 특이적 병원체로부터 유래된 표적 핵산)의 양의 절대 척도를 지칭할 수 있고 종종 개별 병원체의 존재비, 또는 상대 존재비를 나타내기 위한 표현으로서 사용될 수 있다. 판독물의 총 수 및/또는 병원체 존재비의 규모는 샘플마다 달라질 수 있다. 감염의 생물학적 수준에 상응하고 샘플-대-샘플 비교에 유용할 수 있는 값을 보고하는 것이 바람직할 수 있다.
특정한 예에서, 방법은 샘플, 특히 병원체에 의해 감염된 또는 병원체에 의해 감염된 것으로 의심되는 대상체로부터 수득된 샘플 내 병원체 핵산의 부피당 게놈 카피를 결정하는데 사용될 수 있다. 부피당 게놈 카피는 통계적 프레임워크를 사용하여 결정 또는 추정될 수 있다. 통계적 프레임워크는 어떤 상대 존재비가 샘플로부터의 서열분석 결과에서 비-인간 판독물 (예를 들어, 병원체 판독물)의 수집을 야기하는 하나 이상의 게놈의 것인지를 추정하는데 사용될 수 있다.
본원에 제공된 스파이크-인 합성 핵산을 사용하여, 샘플 내 1종 이상의 병원체/유기체의 "부피당 게놈 카피"의 수의 추정치가 산출될 수 있다. 일반적으로, 다양한 길이의 핵산은 기지의 농도의 샘플에 스파이크될 수 있다. 일부 경우에, 서열분석 데이터에서 실제로 관찰되는 샘플로부터의 정보의 분율은 각각의 스파이크-인 길이에 대해 관찰될 수 있다 (예를 들어, 관찰된 판독물을 스파이크된 핵산과 연관된 판독물과 비교함으로써, 또는 관찰된 판독물을 스파이크 판독물로 나눔으로써). 각각의 길이에서의 비-숙주 또는 병원체 분자의 원래 수가 또한 역-계산될 수 있다 (예를 들어, 각각의 길이에서 스파이크-인 판독물의 수로부터의 일부로 추론됨). 각각의 병원체의 게놈 길이가 기지의 것일 때, 이러한 로드는 "부피당 게놈 카피" 척도로 전환될 수 있다.
많은 경우에, 부피당 게놈 카피를 검출하는 방법 (뿐만 아니라 본원에 제공된 다른 방법)은 저품질 판독물의 제거 또는 격리를 수반할 수 있다. 저품질 판독물의 제거는 본원에 제공된 방법의 정확도 및 신뢰도를 개선시킬 수 있다. 일부 경우에, 방법은 (임의의 조합으로) 비-맵핑가능한 판독물, PCR 중복물로부터 생성된 판독물, 저품질 판독물, 어댑터 이량체 판독물, 서열분석 어댑터 판독물, 비-고유한 맵핑된 판독물, 및/또는 비정보적 서열에 맵핑하는 판독물의 제거 또는 격리를 포함할 수 있다.
일부 경우에, 서열 판독물은 참조 게놈에 맵핑되고, 이러한 참조 게놈에 맵핑되지 않은 판독물은 표적 또는 병원체 게놈 또는 게놈들에 맵핑된다. 판독물은, 일부 경우에, 인간 참조 게놈 (예를 들어, hg19)에 맵핑될 수 있는 반면, 남아있는 판독물은 바이러스, 박테리아, 진균류, 및 다른 진핵 병원체 (예를 들어, 진균, 원충, 기생충)의 큐레이팅된 참조 데이터베이스에 맵핑된다.
일부 특정한 예에서, 방법은 샘플 (예를 들어, 혈장 샘플)을 DNA 추출 (예를 들어, 무세포 DNA 추출, 무세포 RNA 추출) 전에 또는 검정의 상이한 스테이지에서 (예를 들어, 추출 후에, 라이브러리 제조 전에, 서열분석 전에, 샘플의 저장 동안) 기지의 농도의 합성 핵산 (예를 들어, DNA)에 스파이크하는 것을 포함할 수 있다. 합성 핵산은 또한 음성 및/또는 양성 대조군 샘플에 첨가될 수 있다. 대조군 샘플은, 일부 경우에, 샘플과 함께 가공될 수 있다. 방법은 샘플 (예를 들어, 혈장 샘플, 양성 대조군, 음성 대조군)에 대한 서열분석 라이브러리를 생산하는 것을 추가로 포함할 수 있다. 라이브러리는 관련 기술분야에 알려진 서열분석 장치, 특히 차세대 서열분석이 가능한 장치 상에서 멀티플렉스화 및 서열분석될 수 있다. 방법은 저품질 판독물을 폐기하는 것 및 인간 참조 서열 (예를 들어, hg19)에 정렬시킴으로써 인간 판독물을 제거하는 것을 추가로 포함할 수 있다. 이어서 남아있는 판독물은 병원체 서열의 데이터베이스에 정렬될 수 있다. 일부 경우에, 관심 표적 서열 (예를 들어, 병원체 서열)에 상응하는 판독물은 NGS 판독물 세트로부터 정량화된다. 이러한 정보로부터, 표적 핵산 (예를 들어, 병원체 핵산)의 상대 존재비는 부피당 게놈 카피로서 표현될 수 있다. 부피 값당 게놈 카피는, 예를 들어, 샘플 (예를 들어, 혈장)에 스파이크된 올리고뉴클레오티드의 기지의 양에 대해 정규화된 각각의 유기체 (예를 들어, 병원체)에 존재하는 서열의 수를 결정함으로써 결정될 수 있다. 부피당 게놈의 계산은 또한 개별 병원체 게놈의 상대 길이를 고려할 수 있다. 일부 경우에, 부피 값당 게놈 카피는 각각의 유기체 (예를 들어, 병원체)에 존재하는 서열의 수를 정량화하며, 샘플에 스파이크된 합성 핵산의 기지의 양에 대해 정규화함으로써 결정될 수 있으며, 여기서 병원체 서열의 정규화는 병원체 서열에 대한 가장 근접한 길이인 합성 핵산을 고려한다. 유사하게, 정규화는 상이한 길이 (예를 들어, 2, 3, 4, 5, 6, 10, 15, 20개 또는 그 초과의 상이한 길이)의 스파이크-인 합성 핵산의 수집의 사용을 포함할 수 있으며, 여기서 병원체 핵산은 스파이크-인의 수집 내의 각각의 가장 근접한 길이의 스파이크-인 핵산에 대해서 정규화된다.
샘플 트래킹 및/또는 분석을 위한 스파이크-인
분자는 샘플에 스파이크되어 고유한 식별자 및 트레이서를 제공할 수 있다. 이들 분자는 샘플의 부분이 될 수 있고 적절한 측정 장치, 레이저 스캐너에 의해 판독되는 샘플 튜브의 외부 상의 1D 또는 2D 바코드와 유사한 개념에 의해 판독될 수 있다. 광학, 방사선, 및 다른 트레이서가 가능하지만, 핵산 샘플을 분석하기 위해, 스파이크-인의 식별은 샘플의 핵산을 평가하는 동일한 프로세스 (예를 들어, DNA 또는 RNA 서열분석)에서 입증될 수 있기 때문에 핵산 트레이서가 가장 적절한 선택일 수 있다.
외부에서 유래된 핵산은 올리고뉴클레오티드, 듀플렉스 올리고뉴클레오티드, 더 긴 어셈블리된 듀플렉스 DNA (예를 들어, 인티그레이티드 DNA 테크놀로지스로부터의 gBlocks), 플라스미드, PCR 산물, 시험관내 합성된 전사체, 바이러스 입자, 및 단편화된 또는 비단편화된 게놈 DNA를 포함할 수 있으나 이에 제한되지는 않고, 이들은 샘플 예컨대 대상체로부터의 체액에 첨가될 수 있다. 스파이크-인을 사용하는 것에 대한 이점은 샘플 또는 적용을 위한 핵산 서열, 길이, 다양성, 및 농도를 맞춤화하는 능력을 포함하나 이에 제한되지는 않는다.
적용은 하기를 포함하나 이에 제한되지는 않는다: 샘플 트래킹 (예를 들어, ID Spike는 종래 표지 바코드 이외에, 또는 잠재적으로 그 대신에 사용될 수 있음), 샘플 교차-오염 (예를 들어, ID Spike가 임의의 샘플에서 자연적으로 발견되지 않으면 및 상이한 ID Spike가 상이한 샘플에 첨가되면, 샘플의 혼합이 결정될 수 있음), 시약 트래킹 (예를 들어, ID Spike는 또한 시약에 첨가될 수 있음. 예를 들어, 모든 시약 로트는 그것이 사용되는 모든 샘플에 대해 트래킹될 수 있으며, 이는 적은 오류-경향 시약-트래킹 분자 실험실 정보 관리 시스템 (LIMS)을 제공함), 품질 제어 또는 개발 작업 (예를 들어, 상이한 스파이크-인은 샘플 취급 프로세스에서 다양한 시점에서 첨가되어 라이브러리 복잡성 (예를 들어, PCR 중복물), 샘플 손실, 또는 감수성을 모니터링할 수 있음), 정규화 또는 수율 (예를 들어, 기지의 유입량을 스파이크-인의 측정된 유출량과 비교하는 것은 (예를 들어, 샘플 내) 미지의 유입량의 그의 측정된 유출량에의 간섭을 가능하게 할 수 있음. 이들 측정 및 계산은, 예를 들어, 샘플의 병원체 로드를 통지할 수 있음), 및 증가하는 핵산 농도 (예를 들어, 바코드가 핵산이라면, 이들은 핵산 농도가 제한되는 샘플에 대해 높은 농도로 사용될 수 있으며, 이는 샘플 회수를 개선시킬 수 있음).
일부 바람직한 실시양태에서, 스파이크-인은 특정한 관심 핵산 서열이 그가 관찰되었던 샘플로부터 기원하였을 가능성, 또는 관찰된 샘플 내 그의 존재가 상이한 샘플로부터의 교차-오염 또는 캐리-오버의 결과일 수 있었는지 여부를 추정하는데 사용될 수 있다. 고유한 스파이크-인 분자를 특정한 병원체 (또는 다른 관심 서열 부류)로부터 분자에 대해 합리적으로 예상된 농도보다 더 높은 농도로 각각의 샘플에 도입함으로써, 교차-오염 또는 캐리-오버에 의해 의도적으로 도입된 임의의 병원체 서열 (또는 다른 관심 서열 부류)은 오염 또는 캐리-오버 서열의 근원으로부터 스파이크-인 분자의 훨씬 더 큰 수에 의해 동반될 것이라는 가능성이 있다. 따라서, 교차-오염 또는 캐리-오버 스파이크-인 분자 카운트에 대한 병원체 서열 카운트 (또는 서열의 다른 부류)의 비는 샘플-대-샘플 교차-오염 또는 캐리-오버의 결과일 수 있는 임의의 병원체 서열을 식별하는데 사용될 수 있다. 일부 경우에, 교차-오염 또는 캐리-오버 스파이크-인 분자의 부재, 또는 역치 수준 미만의 수준으로의 그의 존재는, 샘플이 오염되어 있지 않다는 것을 나타내는데 사용된다.
일부 적용을 위해, 샘플이 유래된 대상체의 유전자형은, 특히 샘플-트래킹에 사용될 수 있다. 일부 경우에, 유전자형은 분석 절차 동안 또는 분취물을 제거하고 분리 유전자형결정 프로세스를 수행함으로써 결정될 수 있다. 일부 경우에, 샘플의 유전자형은 이미 알려져 있다. 대상체의 DNA의 서열분석 유출물은 독립적으로 유래된 유전자형과 비교될 수 있다. 유전자형을 사용하는 것의 이점은 그것이 이미 샘플의 일부이고 그에 본질적이라는 것이다. 예시적인 직교 유전자형결정 방법은 짧은 탠덤 반복 (STR) 분석이고, 예를 들어, ATCC의 시험 서비스를 참조한다.
일부 경우에, 표현형 특징은 샘플 식별을 보조할 수 있다. 예를 들어, 대상체의 눈 색상, 혈액형, 성별, 인종, 및 다른 형질은 유전자형에 대한 단서를 제공할 수 있었다.
ID Spike
고유한 샘플 식별자는 완전히 스크램블링될 수 있거나 (예를 들어, DNA의 경우에 A, C, G, 및 T, 또는 RNA의 경우에 A, C, G, 및 U) 또는 이들은 공유된 서열의 일부 영역을 가질 수 있다. 예를 들어, 각각 말단 상의 공유된 영역은 라이게이션 이벤트에서 서열 편향을 감소시킬 수 있다. 일부 경우에, 공유된 영역은 약 또는 적어도 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 또는 20개의 공통 염기 쌍이다. 일부 경우에, 공유된 영역은 최대 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 또는 20개의 공통 염기 쌍이다. 예시적인 서열에 대해 표 1을 참조한다.
ID Spike의 조합은 압도적인 수의 ID Spike를 사용하지 않으면서 다양성을 증가시키기 위해 첨가될 수 있다. 예를 들어, ID Spike는 마이크로타이터 플레이트에서 웰 위치에 대한 식별자 (예를 들어, 96-웰 플레이트에 대한 96개의 상이한 ID Spike)로서 사용될 수 있고, 또 다른 ID Spike는 플레이트 수에 대한 식별자 (예를 들어, 24개의 상이한 플레이트에 대한 24개의 상이한 ID Spike)로서 사용될 수 있으며, 이는 단지 96+24 = 120개의 서열을 사용하여 96x24 = 2,304개의 조합을 제공한다. 샘플당 3개 이상의 ID Spike를 사용하여 훨씬 더 극적으로 달성가능한 다양성을 증가시킬 수 있다.
표 1: 예시적인 ID Spike 서열
Figure pat00001
Figure pat00002
Figure pat00003
Figure pat00004
Figure pat00005
Figure pat00006
Figure pat00007
Figure pat00008
Figure pat00009
Figure pat00010
Figure pat00011
Spark 편향 제어 스파이크-인
핵산 서열 다중 길이에 걸쳐 있는 세트 ("Spark")는 크기 마커로서 작용할 수 있다. 이들 서열은 샘플에 스파이크되고 샘플 핵산과 함께 가공될 수 있다 (예를 들어, 추출, 정제, 서열분석). 특정 프로세스는 상이한 길이의 핵산에 차등적으로 영향을 미칠 수 있다. 예를 들어, 실리카 막 칼럼을 사용하는 핵산 정제는 더 긴 길이 서열을 향해 편향되거나 또는 특정한 길이의 서열을 보유하도록 최적화될 수 있다. 핵산 서열분석은 전형적으로 핵산이 샘플로부터 추출된 후에 발생하므로, 서열분석 결과에서 길이의 출현율 또는 분포는 원래 샘플을 대표하지 않을 수 있다. Spark 서열의 기지의 양 및 길이를 스파이크함으로써, 상이한 길이의 샘플 핵산에 대한 가공 및 서열분석의 효과는 모니터링되고 정량화될 수 있다. 게다가, 원래 샘플 내 상이한 길이의 샘플 핵산의 상대 및/또는 절대 양은 샘플 핵산에 대한 서열분석 판독물의 최종 수 및 Spark 크기 세트 핵산을 측정하고 원래 샘플에 스파이크된 Spark 크기 세트 핵산의 기지의 양에 대해 정규화함으로써 추정될 수 있다.
일부 경우에, Spark 크기 세트는 약 또는 적어도 약 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 25, 30, 35, 40, 45, 50, 100, 200, 250, 300, 350, 400, 500, 600, 700, 800, 1000개 또는 그 초과의 핵산을 포함할 수 있다. 일부 경우에, Spark 크기 세트는 최대 약 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 25, 30, 35, 40, 45, 50, 100, 또는 200개의 핵산을 포함할 수 있다. 일부 경우에, Spark 크기 세트는 약 3 내지 약 50개의 핵산, 예컨대 약 3 내지 약 30개의 핵산을 포함한다. 일부 경우에, Spark 크기 세트 내 핵산은 하나 이상의 상이한 특성, 예컨대 상이한 길이, 상이한 GC 함량, 및/또는 상이한 서열을 갖는다.
Spark 핵산은 길이-식별 서열, 로드 서열, 합성 핵산 식별 서열 (이는, 여기서 Spark-식별 서열일 것임), 및 특색 도메인을 포함한, 본원에 기재된 합성 스파이크-인 핵산의 임의의 특색을 포함할 수 있다. 일부 경우에, Spark 크기 세트 내 핵산은 고정된 정방향 서열 및/또는 고정된 역방향 서열을 함유한다. 고정된 정방향 서열 및/또는 고정된 역방향 서열은 Spark 크기 세트에서의 모든 핵산에 대해 공통이고 Spark로서 서열을 식별할 수 있다. 일부 경우에, 고정된 정방향 서열 및/또는 고정된 역방향 서열은 약 또는 적어도 약 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 32, 40, 50, 60, 70, 80, 90, 또는 100개의 염기 쌍 길이이다. 일부 경우에, 고정된 정방향 서열 및/또는 고정된 역방향 서열은 최대 약 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 32, 40, 50, 60, 70, 80, 90, 또는 100개의 염기 쌍 길이이다. 일부 경우에, 고정된 정방향 서열 및/또는 고정된 역방향 서열은 약 8 bp 내지 약 50 bp, 예컨대 약 8 bp 내지 약 20 bp 또는 약 16 bp 내지 약 40 bp 범위 이내이다. 일부 경우에, Spark-식별 서열은 자연 발생하지 않거나 또는 샘플에서 발견되지 않는다. 일부 경우에, 고정된 정방향 서열은 고정된 역방향 서열과 상이하다.
일부 경우에, Spark 크기 세트 내 핵산은 고유한 정방향 서열 및/또는 고유한 역방향 서열을 함유한다. 고유한 정방향 서열 및/또는 고유한 역방향 서열은 크기 세트에서의 Spark를 서로 구별할 수 있다. 일부 경우에, 고유한 정방향 서열 및/또는 고유한 역방향 서열은 약 또는 적어도 약 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 32, 40, 50, 60, 70, 80, 90, 또는 100개의 염기 쌍 길이이다. 일부 경우에, 고유한 정방향 서열 및/또는 고유한 역방향 서열은 최대 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 32, 40, 50, 60, 70, 80, 90, 100, 200, 300, 306, 400, 또는 500개의 염기 쌍 길이이다. 일부 경우에, 고유한 정방향 서열 및/또는 고유한 역방향 서열은 약 4 내지 약 10개의 염기 쌍 길이 범위 이내이다. 일부 경우에, Spark 크기 세트 내 각각의 핵산은 상이한 고유한 정방향 서열 및/또는 고유한 역방향 서열을 갖는다. 일부 경우에, Spark 크기 세트 내 각각의 핵산은 동일한 길이를 갖는 고유한 정방향 서열 및/또는 고유한 역방향 서열을 갖는다. 일부 경우에, Spark 크기 세트 내 각각의 핵산은 상이한 길이를 갖는 고유한 정방향 서열 및/또는 고유한 역방향 서열을 갖는다.
일부 경우에, Spark 크기 세트 내 핵산은 필러 서열을 함유한다. 일부 경우에, 필러 서열은 크기 세트 내 Spark를 서로 구별할 수 있다. 일부 경우에, 필러 서열은 약 또는 적어도 약 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 32, 40, 50, 60, 70, 80, 90, 또는 100개의 염기 쌍 길이이다. 일부 경우에, 필러 서열은 최대 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 32, 40, 50, 60, 70, 80, 90, 100, 200, 300, 306, 400, 또는 500개의 염기 쌍 길이이다. 일부 경우에, 필러 서열은 0 내지 약 350 bp 범위 이내이다. 일부 경우에, Spark 크기 세트 내 각각의 핵산은 상이한 길이를 갖는 필러 서열을 갖는다. 일부 경우에, 필러 서열 길이는 0, 8, 31, 56, 81, 106, 131 및 306 bp로 이루어진 군으로부터 선택된다.
일부 경우에, Spark 크기 세트 내 핵산은 약 또는 적어도 약 10, 20, 30, 32, 40, 50, 60, 70, 80, 90, 또는 100개의 염기 쌍 길이이다. 일부 경우에, Spark 크기 세트 내 핵산은 약 100, 200, 300, 350, 400, 500, 600, 700, 800, 900 또는 1,000개의 염기 쌍 길이이다. 일부 경우에, Spark 크기 세트 내 핵산은 약 20 내지 약 500개의 염기 쌍 길이 범위 이내의, 약 20 내지 약 400개의 염기 쌍 길이 범위 이내의, 또는 약 20 내지 약 200개의 염기 쌍 길이 범위 이내이다.
예를 들어, 8개의 듀플렉스 DNA 서열의 세트 (표 2 내 서열식별번호: 111-118, 도 4)는 하기 특징으로 디자인될 수 있다: 32-350 bp의 크기 범위 (예를 들어, 각각, 0, 8, 31, 56, 81, 106, 131, 및 306 bp의 필러 서열 길이를 갖는 32, 52, 75, 100, 125, 150, 175, 및 350 bp의 단편), 고정된 16 bp 정방향 서열, 정방향 서열과 상이한 고정된 16 bp 역방향 서열, 및 고유한 6 bp 정방향 및 역방향 서열.
표 2: 예시적인 Spark 크기 세트 서열
Figure pat00012
Figure pat00013
GC 함량 스파이크-인 패널
기지의 농도로 샘플에 스파이크되고 이어서 가공 후에 측정된 핵산 (예를 들어, DNA)은 수율 및 프로세스에 관한 다른 정보를 제공할 수 있으며, 이는 수율 및 샘플 그 자체에 관한 추가적인 특성을 추론하는데 사용될 수 있다. 예를 들어, 크기의 범위를 포함하는 핵산 스파이크-인 세트는 샘플 (예를 들어, 혈장)에 첨가되고 이어서 추출 및 이어서 차세대 서열분석 (NGS)에 적용될 수 있다. 각각의 크기의 스파이크의 수율은, 의도적인 크기 선택, 온도 및 다른 변성 인자, 및 PCR 편향을 포함한, 가공 동안의 많은 인자에 따라 달라질 수 있다. 이러한 정보는 목적한 크기 범위의 회수를 극대화하는 것을 목표로 하는 새로운 절차를 개발하는데, 또는 종래 프로세스 (예를 들어, 품질 제어)를 모니터링하는데 유용할 수 있다.
이중-가닥 DNA 라이브러리 제조를 위해, 비교적 낮은 용융 온도 (Tm) DNA 듀플렉스의 변성은 이들 듀플렉스의 수율을 Tm에 대해 역비례로 감소시킨다. 주어진 조건 (예를 들어, 염 농도, 온도, pH 등)에 의해, 듀플렉스의 Tm에 영향을 미치는 기여 인자는 길이 및 GC 함량을 포함한다. 각각의 크기가 단일 GC 함량을 갖는 단일 종으로 나타내어진, 듀플렉스의 크기 범위는 상이한 조건에 대한 Tm 반응에 관한 단지 부분적인 정보를 제공할 수 있다.
핵산 길이 및/또는 GC 함량이 핵산 Tm 및 가공에 얼마나 영향을 미치는지에 관한 정보는, 예를 들어, 혈액에서 상이한 병원체로부터의 짧은 무세포 단편의 회수를 추론하기 위한 대용물로서 스파이크-인을 사용할 때, 중요할 수 있다. 병원체 핵산은 그의 GC 함량에서 극적으로 달라질 수 있고 따라서 짧은 단편 길이에서 매우 상이한 Tm을 가질 수 있다. 많은 cfDNA 단편의 짧은 길이 (예를 들어, 30, 40, 50 bp)가 주어지면, 이들은, 예를 들어 NGS를 위한 가공 동안 변성에 감수성일 수 있다. 큰 Tm 범위에 걸친 회수를 트래킹하기 위한 더 상세화된 스파이크-인 세트는 미지의 샘플의 출발 양의 더 우수한 추론을 가능하게 할 수 있다.
Tm, GC, 및/또는 길이의 범위에 걸쳐 있는 스파이크-인 핵산의 패널은 절대 존재비 값 결정을 위해 사용되고/거나 변성의 상세화된 모니터링을 가능하게 할 수 있다. 예를 들어, 표 3에 제시된, 4개의 상이한 길이 (예를 들어, 32, 42, 52, 및 75 bp) 및 각각의 길이에 대해 7개의 상이한 GC 함량 (대략 20, 30, 40, 50, 60, 70, 또는 80 %GC)을 갖는 핵산을 함유하는 28개의 상이한 핵산의 패널 (예를 들어, 듀플렉스)이 사용될 수 있다. 이와 함께 패널은 각각의 크기에 대해 단일 GC 함량을 갖는 세트보다 높은 세분성을 제공할 수 있다. 일부 경우에, 합성 핵산 (dsDNA, ssDNA, dsRNA, ssRNA)의 패널은 적어도 3개의 상이한 길이 및 각각의 길이에 대해 적어도 2개의 상이한 GC 함량, 적어도 3개의 GC 함량, 적어도 4개의 GC 함량, 적어도 5개의 GC 함량, 적어도 7개의 GC 함량 또는 적어도 10개의 GC 함량의 핵산을 함유할 수 있다. 일부 경우에, 합성 핵산 (dsDNA, ssDNA, dsRNA, ssRNA)의 패널은 적어도 5개의 상이한 길이 및 각각의 길이에 대해 적어도 2개의 상이한 GC 함량, 적어도 3개의 GC 함량, 적어도 4개의 GC 함량, 적어도 5개의 GC 함량, 적어도 7개의 GC 함량 또는 적어도 10개의 GC 함량의 핵산을 함유할 수 있다.
일부 경우에, 스파이크-인 패널은 적어도 3, 5, 10, 15, 20, 25 또는 30개의 고유한 핵산을 포함한다. 일부 경우에, 스파이크-인 패널은 최대 15, 20, 25, 30, 35, 40, 45, 50, 또는 100개의 고유한 핵산을 포함한다.
상이한 GC 함량을 갖는 스파이크-인 핵산이 사용될 수 있다. 일부 경우에, 스파이크-인 패널은 약 40-60 %GC, 약 45-65 %GC, 약 30-70 %GC, 약 25-75 %GC, 또는 약 20-80 %GC의 범위에 걸쳐 있는 GC 함량을 갖는 핵산을 포함한다. 일부 경우에, 스파이크-인 패널은 적어도 2, 3, 4, 5, 6, 7, 8, 9 또는 10개의 상이한 GC 함량을 갖는 핵산을 포함한다. 일부 경우에, 스파이크-인 패널은 최대 3, 4, 5, 6, 7, 8, 9, 10, 15 또는 20개의 상이한 GC 함량을 갖는 핵산을 포함한다. 일부 경우에, 스파이크-인 패널은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 또는 20 %GC만큼 차이가 있는 상이한 GC 함량을 갖는 핵산을 포함한다. 백분율 GC는 서열 내 G 및 C 뉴클레오티드의 수의 합계를 총 뉴클레오티드의 수로 나눔으로써 계산될 수 있다. 예를 들어, 서열 ACTG의 경우에, %GC는 (1+1)/4 = 50 %GC로서 계산될 것이다.
상이한 길이를 갖는 스파이크-인 핵산이 사용될 수 있다. 일부 경우에, 스파이크-인 패널은 적어도 3, 4, 5, 6, 7, 8, 9, 10, 또는 15개의 상이한 길이를 갖는 핵산을 포함한다. 일부 경우에, 스파이크-인 패널은 최대 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 또는 100개의 상이한 길이를 갖는 핵산을 포함한다. 일부 경우에, 스파이크-인 패널은 약 40-50 bp, 약 35-55 bp, 약 30-60 bp, 약 35-60 bp, 약 35-65 bp, 약 35-70 bp, 약 35-75 bp, 약 30-70 bp, 약 30-80 bp, 약 30-90 bp, 약 30-100 bp, 약 25-150 bp, 약 20-300 bp, 또는 약 20-500 bp의 범위에 걸쳐 있는 길이를 갖는 핵산을 포함한다. 일부 경우에, 스파이크-인 패널은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 또는 20 bp의 차이가 있는 상이한 길이를 갖는 핵산을 포함한다. 일부 경우에, 스파이크-인 패널은 32, 42, 52, 및 75 bp의 길이 또는 27, 37, 47, 57, 62, 및 67 bp의 길이를 갖는 핵산을 포함한다.
값의 세트로부터 선택된 길이 및 GC 함량을 갖는 스파이크-인 핵산이 사용될 수 있다. 예를 들어, 합성 핵산의 세트는 2개 이상의 길이 및 2개 이상의 GC 함량으로부터 선택될 수 있다. 표 3 내 28개 합성 핵산의 세트 (서열식별번호: 125 - 서열식별번호: 152)는 4개의 상이한 길이 (예를 들어, 32, 42, 52, 및 75 bp) 및 7개의 상이한 GC 함량 (예를 들어, 약 20, 30, 40, 50, 60, 70, 및 80 %GC)으로부터 형성된다. 유사한 세트의 합성 핵산은 상이한 길이 (예를 들어, 27, 37, 47, 57, 62, 및 67 bp) 및 상이한 GC 함량 (예를 들어, 약 15, 25, 35, 45, 55, 65, 및 75 %GC)을 사용하여 생성될 수 있다.
상이한 용융 온도 (Tm)를 갖는 스파이크-인 핵산이 사용될 수 있다. 일부 경우에, 스파이크-인 패널은 약 40-50℃, 약 35-55℃, 약 30-60℃, 약 35-60℃, 약 35-65℃, 약 35-70℃, 약 35-75℃, 또는 약 30-70℃의 범위에 걸쳐 있는 용융 온도 (Tm)를 갖는 핵산을 포함한다. 일부 경우에, 스파이크-인 패널은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 또는 30℃만큼 차이가 있는 상이한 용융 온도 (Tm)를 갖는 핵산을 포함한다.
일부 경우에, Tm은 듀플렉스 길이와 GC 함량 이외에도 하나 이상의 파라미터, 예컨대 듀플렉스 농도, 뉴클레오티드 서열의 최단-이웃 효과, 고차원 DNA 구조, 1가 및/또는 2가 양이온 농도, 및 뉴클레오티드 농도를 기반으로 하여 계산될 수 있다. 일부 경우에, Tm은 주어진 조건에 대해, 예를 들어, 듀플렉스 DNA-특이적 염료 및 염료 신호의 온도 및 검출에서의 점진적인 증가로 실험적으로 계산될 수 있다.
상이한 서열을 갖는 스파이크-인 핵산이 사용될 수 있다. 바람직하게는, 비-천연 또는 비-자연, 또는 샘플 핵산에 혼성화할 수 없는 서열이 사용된다. 일부 경우에, 스파이크-인 패널은 적어도 3, 4, 5, 6, 7, 8, 9, 10, 또는 15개의 상이한 서열을 갖는 핵산을 포함한다. 일부 경우에, 스파이크-인 패널은 최대 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 또는 100개의 상이한 서열을 갖는 핵산을 포함한다.
상이한 수의 스파이크-인 핵산이 사용될 수 있다. 일부 경우에, 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 또는 50개의 핵산이 사용된다. 예를 들어, 표 3에 열거된 28개 서열의 하위세트, 예를 들어 32/42/52/75 bp x 20/50/80 %GC가 사용될 수 있다.
RNA 패널은 RNA 적용을 위해 사용될 수 있다. 본원에 논의된 바와 같이, RNA 패널은 동일한 분자 또는 길이, GC 함량, 및/또는 다른 특성에 관하여 차이가 있는 다양한 분자를 포함할 수 있다.
8개 DNA 서열의 세트 (표 2에서 서열식별번호: 111-118, 각각 대략 50 %GC)는 표 3에 열거된 28-구성원 GC 패널의 부분 커버리지를 제공한다.
표 3: 예시적인 GC 스파이크 서열
Figure pat00014
Figure pat00015
Figure pat00016
축중성 스파이크-인: Spank
스파이크-인 합성 핵산은 핵산의 축중성 풀, 또는 고도의 다양성을 갖는 핵산의 풀일 수 있다 (본원에서 때때로 "Spank"로서 지칭됨). 일반적으로, Spank는 서열분석 반응에 이르는 및/또는 그를 포함한 샘플 가공 단계 동안 발생할 수 있는 절대 또는 상대 핵산 손실 또는 다양성 손실을 결정하는데 사용될 수 있다. Spank 서열의 고유한 풀의 경우에, 풀 내 서열 다양성에서의 손실은, 증폭 또는 PCR 편향의 효과에서의 인자를 필요로 하지 않으면서, 핵산 존재비에서의 손실에 직접적으로 상응하여야 한다. 예를 들어, 108개의 고유한 Spank 서열이 샘플에 스파이크되고 단지 104개의 고유한 Spank 서열이 서열분석 후에 회수되면, 핵산의 존재비 및 핵산의 다양성 둘 다는 104배만큼 감소된다. 일부 경우에, Spank는 중복 분자의 회수 정도를 결정하는데 사용될 수 있다. 예를 들어, 추출 및 라이브러리 가공 후에, 이는 PCR 및 다양한 유입 분자의 잠재적 불균일 증폭을 포함할 수 있으며, 개별 Spank의 서열분석 및 정렬은 중복 분자의 회수 정도를 밝힐 수 있다.
이어서 결정된 다양성 손실은 하나 이상의 샘플 가공 또는 서열분석 단계 전에 초기 샘플 내 핵산 (예를 들어, 표적 핵산)의 절대 존재비를 결정하는데 사용될 수 있다. 일부 경우에, 결정된 다양성 손실은 초기 샘플 내 핵산의 상대 존재비를 결정하는데 사용된다. 도 5에 제시된 바와 같이, 샘플 핵산 (S1, S2, ..., Sm)은 하나 이상의 샘플 가공 단계 전에 Spank 스파이크-인 합성 핵산 (SP1, SP2, ..., SPn)과 조합될 수 있다. 예를 들어, 대략 108개의 고유한 Spank가 샘플에 첨가될 수 있다. 샘플 가공 (예를 들어, 핵산 추출, 정제, 라이게이션, 및/또는 말단-복구) 동안, 샘플 핵산의 일부 및 합성 핵산의 일부가 손실될 수 있다. 샘플 가공 후에, 초기 108개의 고유한 서열 중 대략 106개의 고유한 서열이 남아있을 수 있다. 이어서 이들 서열의 일부, 예를 들어 104개의 고유한 서열이 서열분석될 수 있다. 절대 다양성 손실은 고유한 서열의 초기 수를 고유한 서열의 서열분석된 또는 회수된 수로 나눔으로써 계산될 수 있다 (예를 들어, 108 / 104 = 104). 유사하게, 회수 값은 고유한 서열의 서열분석된 또는 회수된 수를 고유한 서열의 초기 수로 나눔으로써 계산될 수 있다 (예를 들어, 104 / 108 = 10-4). 계산된 다양성 손실은 초기 샘플 내 핵산의 절대 존재비를 결정하는데 사용될 수 있다. 예를 들어, Spank 서열에 대한 및 샘플 서열에 대한 서열분석 판독물 카운트는 서열분석 분석으로부터 결정될 수 있고, 샘플에 스파이크된 Spank 서열의 초기 농도 또는 양은 기지의 것이다. 결정된 다양성 손실을 사용하여, 초기 샘플 내 핵산 (예를 들어, 특정한 유기체, 병원체, 종양, 또는 기관으로부터의 핵산)의 초기 농도 또는 양이 결정될 수 있다. 원래 샘플 내 샘플 핵산의 절대 양은 샘플 핵산 및 Spank 핵산 및/또는 Spank 핵산의 최종 다양성에 대한 서열분석 판독물의 최종 수를 측정하고 원래 샘플에 스파이크된 Spank 핵산의 기지의 양 또는 다양성에 대해 정규화함으로써 추정될 수 있다.
고유한 서열 판독물의 수는 다양한 방법을 통해 결정될 수 있다. 예를 들어, 식별 태그를 갖는 서열 판독물이 식별될 수 있다. 이어서 식별 태그를 갖는 서열 판독물 내의 고유한 서열의 수는 중복 서열을 탈중복 ("중복제거") 또는 제거함으로써 결정될 수 있다. 예를 들어, 서열은 중복물인지 및 고유하거나 또는 상이한지를 결정하기 위해 가능한 서열의 참조 데이터베이스에 또는 서로에 정렬될 수 있다. 식별 태그는 전형적으로 서열 중에 보존되므로, 각각의 스파이크된 분자 내에 포매된 무작위화 서열 영역이 분석될 수 있다. 일부 경우에, Spank 핵산은 식별 태그를 포함하지 않으며; 이러한 경우에, Spank는 다른 방법에 의해, 예컨대 기지의 서열을 함유하는 데이터베이스에 대한 참조 또는 정렬에 의해 식별될 수 있다.
Spank 서열은 상대 손실 및/또는 절대 손실을 모니터링하는데 사용될 수 있다. 일부 경우에, Spank 서열의 다양성이 충분히 높으면, 샘플에 스파이크된 Spank 서열은 본질적으로 모두 고유한 것으로 가정될 수 있다. 따라서, 서열분석되는 임의의 중복 Spank 서열은 PCR 증폭으로 인하고 샘플에 첨가되는 동일한 Spank 서열의 다중 카피에 기인하지 않을 가능성이 있고 분석으로부터 제거될 수 있다. 게다가, 각각의 Spank 서열이 고유하다면, 샘플에 원래 첨가된 Spank 서열의 총 수는 샘플에 첨가된 핵산 농도 및 부피를 기반으로 한 기지의 것이고, 서열분석 후에의 고유한 Spank 서열 판독물의 총 수는 기지의 것이며; 이와 함께 이들 값은 다양성 손실 값 또는 회수 값을 계산하는데 사용될 수 있다.
본원에 제공된 방법은 다양성의 집단 병목현상 또는 손실과 연관된 샘플 가공 동안 단계를 식별하는 방법을 포함한다. 일부 경우에, 집단 병목현상이 식별될 때, 보정 인자는 출발 집단 내 다른, 원래 미지의 분자에 적용될 수 있다. 예를 들어, 유입 Spank 분자가 본질적으로 모두 고유하지만, 회수된 Spank가 단지 50%만 고유하다면, 이는 샘플로부터 다른 분자의 다양성의 해석을 통지할 수 있는 다양성의 병목현상 및 손실을 나타낸다.
Spank의 수집은 병목현상이 발생하는 단계를 식별하기 위해 샘플 가공 동안의 임의의 단계에서 샘플에 스파이크-인될 수 있다. 예를 들어, Spank의 제1 수집은 샘플 (예를 들어, 체액)이 대상체로부터 수집될 때 도입될 수 있고/거나, Spank의 제2 수집은 수집된 샘플의 후속 가공 (예를 들어, 잔류 세포의 제거, 저장) 전에 또는 동안 샘플에 도입될 수 있고/거나, Spank의 제3 수집은 라이브러리 제조 전에 도입될 수 있다. 일부 경우에, 샘플 가공 동안의 상이한 단계에서 샘플에 스파이크된 Spank의 수집은 동일하거나 유사한 조성을 가질 수 있다. 일부 경우에, Spank의 상이한 수집은 샘플 가공 동안의 상이한 단계에서 샘플에 스파이크된다.
일부 경우에, Spank 핵산은 고유한 서열을 갖는 무작위화된 섹션을 각각 함유할 수 있다. Spank는 하나 이상의 상이한 도메인을 포함할 수 있다. 일부 경우에, Spank는 하나 이상의 프로세스 코드, 하나 이상의 다양성 코드, 하나 이상의 길이-식별자 서열, 하나 이상의 로드 서열, 1개 이상의 합성 핵산-식별자 서열 (또는 Spank 식별자 서열), 및/또는 하나 이상의 특색 도메인을 포함할 수 있다. 일부 경우에, Spank는 식별 태그 및 고유한 핵산 서열을 포함할 수 있다.
Spank의 상이한 수집이 사용될 때, 각각의 수집은 특정한 단계에서 (예를 들어, 샘플 수집, 추출, 라이브러리 가공에서) 샘플에 도입되어 있는 Spank 수집을 식별하기 위해 "프로세스 코드"로 코딩될 수 있다. 이러한 경우에, 동일한 프로세스 코드를 갖는 Spank는 생물정보학적으로 그룹화되고 다양성 손실에 대해 분석될 수 있다. 이어서 특정한 단계와 연관된 다양성 손실 정도가 결정되고 이어서 각각의 샘플 가공 단계에 걸쳐 비교될 수 있다.
Spank는 합성 산 또는 Spank의 전체적 풀 또는 수집과 연관된 "다양성 코드"를 포함할 수 있다. 다양성 코드 도메인은 합성 핵산의 풀 내의 다양성의 양을 의미하는 고유한 코드일 수 있다. 이러한 경우에, 다양성 풀 내의 모든 합성 핵산은 풀의 다양성 정도를 의미하는 서열 (예를 들어, 108개의 고유한 서열)로 코딩될 수 있다. 일부 경우에, 예컨대 2개 이상의 다양성 풀이 동일한 샘플에 대해 사용될 때, 다양성 코드는 2개 이상의 풀 내 다양성 손실을 식별하는데 사용될 수 있다.
일부 경우에, Spank는 특정한 Spank 풀 또는 수집의 구성원으로서 Spank를 식별하는 하나 이상의 코드 (예를 들어, 프로세스 코드)를 포함할 수 있다. 일부 경우에, Spank는 샘플에 처음에 존재했던 핵산과는 대조적으로, Spank로서 Spank를 식별하는 하나 이상의 Spank-식별 도메인을 포함할 수 있다. Spank는 또한, 본원에 추가로 기재된 바와 같은, 특색 도메인, 길이-식별자 도메인, 및 로드 도메인을 포함할 수 있다.
Spank는 핵산의 존재비를 계산하기 위해 또는 다른 적용을 위해 단독으로 또는 다른 합성 핵산과 조합하여 사용될 수 있다. 일부 경우에, Spank는 다른 합성 핵산과 함께 사용될 수 있다. 예를 들어, 일부 경우에, Spank의 패널 및 Spark의 패널이 샘플에 첨가될 수 있다. 일부 경우에, 샘플 식별 핵산이 또한 샘플에 첨가될 수 있다.
Spank 풀은 바람직하게는 핵산 서열의 다양한 믹스를 포함하며; 이에 따라, Spank 풀은 다양성을 극대화하도록 디자인될 수 있다. 일부 경우에, Spank 풀은 훨씬 더 큰 Spank 풀로부터 유래된다. 예를 들어, 일부 경우에, 75-bp 올리고뉴클레오티드는 N의 2개의 8-bp 스트링 (예를 들어, 동일 비율의 A/C/G/T)으로 합성될 수 있다. Spank는 (i) 하나 이상의 식별 태그 및 (ii) 고유한 핵산 서열을 포함하는 합성 핵산일 수 있다. 일부 경우에, 고유한 핵산 서열은 다중 축중성 또는 무작위 위치, 예를 들어, 도 6에 제시된 바와 같은, 하나 이상의 뉴클레오티드에 의해 분리된 8-bp 스트링의 축중성 위치의 2개 군일 수 있다. 2개의 예시적인 서열은 표 4에 열거된다. N의 2개의 8-bp 스트링을 갖는 올리고뉴클레오티드 디자인은 416 = 4.3x109개의 상이한 올리고뉴클레오티드의 풀에 대한 16개의 총 N을 함유한다. 이러한 풀의 1x108개의 분자가, 예를 들어, 1 mL의 혈장에 스파이크되고 ID Spike 및 Spark에 대해 상기 기재된 바와 같이 가공된다면, 거의 모든 Spank는 고유할 것이다. 예를 들어, Spank의 90%, 95%, 99% 초과는 이러한 경우에 고유할 수 있다.
일부 경우에, Spank 핵산은 약 또는 적어도 약 20, 30, 40, 50, 60, 70, 75, 80, 90, 100, 110, 120, 125, 130, 140, 150, 160, 170, 175, 180, 190, 200, 250, 300, 350, 400, 450, 500, 600, 700, 800, 900 또는 1000개의 뉴클레오티드 길이일 수 있다. 일부 경우에, Spank 핵산은 최대 약 20, 30, 40, 50, 60, 70, 75, 80, 90, 100, 110, 120, 125, 130, 140, 150, 160, 170, 175, 180, 190, 200, 250, 300, 350, 400, 450, 500, 600, 700, 800, 900 또는 1000개의 뉴클레오티드 길이일 수 있다. 일부 경우에, Spank 핵산은 약 20 내지 약 175개의 염기 쌍 범위 이내의 길이를 가질 수 있다. 일부 경우에, Spank 세트 내 핵산은 동일한 길이를 갖는다. 일부 경우에, Spank 세트 내 핵산은 2개 이상의 상이한 길이 (예를 들어, 2, 3, 4, 5개, 또는 그 초과의 길이)를 갖는다.
일부 경우에, Spank 핵산은 약 또는 적어도 약 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 또는 30개의 축중성 위치를 가질 수 있다. 일부 경우에, Spank 핵산은 최대 약 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 또는 30개의 축중성 위치를 가질 수 있다. 일부 경우에, Spank 핵산은 약 5 내지 약 25개 범위 이내의 다수의 축중성 위치를 가질 수 있다. 일부 경우에, 축중성 위치는 2개 이상의 군, 예컨대 2, 3, 4 또는 5개의 군으로 연속적, 분리된, 또는 분할될 수 있다. 일부 경우에, 축중성 위치가 군으로 분할되는 경우에, 축중성 위치는 군 중에서 균등하게 분할될 수 있거나 (예를 들어, 총 16개 축중성 위치의 경우에 8-bp 스트링의 축중성 위치의 2개 군) 또는 군 중에서 비균등하게 분할될 수 있다 (예를 들어, 총 16개 축중성 위치의 경우에 10개 축중성 위치의 1개 군 및 6개 축중성 위치의 또 다른 군). 일부 경우에, 축중성 위치가 군으로 분할되는 경우에, 군은 하나 이상의 뉴클레오티드에 의해 분리될 수 있다. 일부 경우에, 군은 약 또는 적어도 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40 또는 50개의 뉴클레오티드에 의해 분리된다. 일부 경우에, 군은 최대 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40, 또는 50개의 뉴클레오티드에 의해 분리된다.
일부 경우에, Spank 핵산은 약 또는 적어도 약 1x103, 1x104, 1x105, 1x106, 2x106, 3x106, 4x106, 5x106, 6x106, 7x106, 8x106, 9x106, 1x107, 2x107, 3x107, 4x107, 5x107, 6x107, 7x107, 8x107, 9x107, 1x108, 2x108, 3x108, 4x108, 5x108, 6x108, 7x108, 8x108, 9x108, 1x109, 2x109, 3x109, 4x109, 5x109, 6x109, 7x109, 8x109, 9x109, 1x1010, 또는 1x1011개의 고유한 서열의 다양성을 가질 수 있다. 일부 경우에, Spank 핵산은 최대 약 1x106, 2x106, 3x106, 4x106, 5x106, 6x106, 7x106, 8x106, 9x106, 1x107, 2x107, 3x107, 4x107, 5x107, 6x107, 7x107, 8x107, 9x107, 1x108, 2x108, 3x108, 4x108, 5x108, 6x108, 7x108, 8x108, 9x108, 1x109, 2x109, 3x109, 4x109, 5x109, 6x109, 7x109, 8x109, 9x109, 1x1010, 또는 1x1011개의 고유한 서열의 다양성을 가질 수 있다. 일부 경우에, Spank 핵산은 약 1x104 내지 약 1x1011개의 고유한 서열 범위 이내의 다양성을 가질 수 있다.
표 4: 예시적인 Spank 다양성 서열
Figure pat00017
트레이서 서열
실험실-유래 핵산 (예를 들어, 병원체 게놈 DNA)은 감염성 질환 진단 시험을 위한 개발, 식별, 검증, 검정 대조군 등을 위한 표준으로서 유용하다. 그러나, 이들 동일한 유기체는 임상 샘플 (예를 들어, 병원체-감염된 샘플)에 존재할 수 있기 때문에, 실험실-유래 물질은 시험 동안 임상 샘플을 교차-오염시킬 수 있고 따라서 가양성 결과를 생성하는 위험이 있으며, 이는 환자 및 의사에게 잘못된 정보를 제공할 수 있을 뿐만 아니라, 특정 병원체 종에 대해, 보건 기관에 필요한 보고를 촉발시킬 수 있다. 실제 참조 핵산 (예를 들어, 실제 병원체 게놈 DNA, 암 핵산, 종양 핵산, 또는 다른 질환-연관 핵산)은 양성 대조군으로서 유용하거나 또는 심지어 필수적인 반면, 그것을 취급하는데 있어서 일상적 또는 심지어 극도의 주의가, 특히 감수성 검정 예컨대 차세대 서열분석 (NGS)의 경우에, 교차-오염을 방지하는데 불충분할 수 있다.
자연에서 발견되지 않거나 또는 달리 샘플 핵산에 혼성화할 수 없는 합성 트레이서 핵산은 적어도 양성 대조군 핵산만큼 높은 유효 농도로 양성 대조군 핵산 스톡에 첨가될 수 있다. 트레이서 및 양성 대조군 핵산은 이들이 동일한 방식으로 가공 및 검출되도록 하는 형태이다. 따라서 종점 (예를 들어, NGS의 경우에 정렬된 서열 판독물)은 트레이서 및 양성 대조군 핵산 둘 다에 대해 동일하고, 그의 더 높은 유효 농도 때문에 트레이서는 적어도 양성 대조군 핵산만큼 용이하게 검출된다. 일부 경우에, 양성 대조군 핵산은 병원체 게놈 DNA이다. 일부 경우에, 양성 대조군 핵산은 질환-연관 핵산, 예컨대 종양유전자를 포함한다.
트레이서 서열은 하나 이상의 특성, 예컨대 서열, 길이, 농도, GC 함량 등에서 달라질 수 있다. 표 5에 제시되고 실시예 6에 사용된 서열은 대략 50% GC 함량을 갖지만, 트레이서 서열은 이들이 짝형성된 양성 대조군 또는 게놈의 조성, 예를 들어 30% GC 함량, 35% GC 함량, 40% GC 함량, 45% GC 함량, 50% GC 함량, 55% GC 함량, 60% GC 함량, 65% GC 함량, 또는 70% GC 함량에 일치하도록 달라질 수 있다.
일부 경우에, 트레이서 서열은, 예를 들어 실시예 6에 기재된 바와 같이, 단편화 후에 양성 대조군 핵산 또는 게놈 DNA에 첨가될 수 있다. 일부 경우에, 트레이서 서열은 양성 대조군 핵산 또는 샘플 핵산 상에서 수행된 완전 가공을 더 잘 나타내기 위해 단편화 전에 양성 대조군 핵산 또는 게놈 DNA에 첨가될 수 있다. 임상 샘플 (예를 들어, 병원체 DNA)에서 희귀하고 낮은 농도로 발견되는 양성 대조군 핵산은 비표지된 핵산과의 교차-오염을 최소화하기 위해 가능한 한 초기에 트레이서 서열로 표지될 수 있다.
일부 경우에, 1개 초과의 트레이서 서열이 각각의 양성 대조군 핵산에 첨가된다. 일부 경우에, 2개 이상, 3개 이상, 4개 이상, 또는 5개 이상의 트레이서 서열이 동일한 농도로 또는 상이한 농도로 첨가된다.
트레이서 서열의 상이한 형태는 상이한 적용에 사용될 수 있다. 예를 들어, 트레이서 서열의 길이는 대조군 서열(들)의 길이(들), 예를 들어 평균 또는 중간 길이에 일치할 수 있다. 일부 경우에, 트레이서 서열의 길이는 대조군 서열(들)의 평균 또는 중간 길이의 5%, 10%, 또는 20% 이내일 수 있다.
RNA 트레이서 서열은 RNA 적용을 위해 사용될 수 있다.
표 5: 예시적인 트레이서 서열
Figure pat00018
Figure pat00019
분자 LIMS
실험실 정보 관리 시스템 (LIMS)은 소비 및 소모품 사용을 트래킹하고, 일부 경우에, 주어진 실험에 필요한 화학물질 또는 시약, 및 주어진 실험에 필요한 단지 화학물질 또는 시약이 해당 실험에 사용되었다는 것을 보장하기 위한 방식이다. LIMS는 또한 실험의 각각의 반복에 사용된 화학물질의 로트 번호를 트래킹하는데 도움을 줄 수 있다. 모든 이들 관능기 (예를 들어, 트래킹 로트 번호)는, 예를 들어, 단일 화학물질이 품질에서 감소되었을 때 또는 잘못된 시약이 실험에 사용되었을 경우, 실패한 실험의 문제해결에 도움이 될 수 있다.
LIMS 시스템은 실험실 직원이 프로세스에서 사용된 각각의 소모품에 대한 카탈로그 및 로트 번호를 입력하는 경우에 일렉트로닉 또는 웹 어플리케이션으로서 디자인될 수 있다. 전형적으로, 바코딩은 프로세스를 가속화하고 그의 정확도를 증가시키는데 사용된다. 그러나, 인간 오류는 여전히 반응의 주어진 반복에 대한 미완료 기록을 생성할 수 있다.
시약, 특히 시약, 시약 로트, 분취물, 또는 수송물을 분자적으로 표지화하는 방법이 본원에 제공된다. 일부 경우에, 방법은 상이한 용기에 다양한 시약을 분자적으로 바코딩하기 위해 스파이크-인 합성 핵산의 사용을 포함한다. 예를 들어, 고유한 서열 (예를 들어, 비-인간, 비-병원체)을 갖는 스파이크-인 핵산 또는 짧은 핵산 올리고머 (예를 들어, 50 내지 100 bp)를 각각의 시약, 시약 로트, 시약 분취물, 또는 시약 수송물에 첨가하는 것은 특정한 라이브러리를 제조하는데 사용된 시약의 물품목록을 트래킹하는데 도움이 될 수 있다. 일부 경우에, 하나 이상의 ID Spike, Spark, 또는 Spank 서열은 분자 LIMS에 사용될 수 있다. 이어서 각각의 샘플의 가공에 사용된 로트 번호 및 시약은 서열분석에 의해 자동적으로 검출될 수 있고, 예를 들어, 성공적인 실행에 사용된 로트 번호에 대해 비교하거나 또는 해당 샘플의 가공에 사용된 누락 또는 여분 시약을 식별함으로써, 문제가 되는 실행을 문제해결하는데 사용될 수 있다.
유사하게, 특정한 시약, 시약 로트 번호, 분취물, 또는 수송물과 연관된 스파이크-인 핵산의 검출은 성공적인 서열분석 실행에 사용된 시약의 로트 번호, 분취물, 또는 수송물을 식별하는데 사용될 수 있다. 일부 경우에, 핵산 또는 스파이크-인은 서열분석 이외의 방법을 통해 검출될 수 있으며, 예를 들어, 하나 이상의 형광 프로브로 표지된 일반적인 중합체는 형광을 사용하여 검출될 수 있다.
DNA 올리고머는 많은 수용액에 대해 작업할 수 있는 반면, DNase 작용에 면역된 핵산 올리고머 (예를 들어, 변형된 백본을 갖는 RNA, DNA 올리고머)는 DNase-함유 용액에 대해 디자인될 수 있다. 유사하게, RNase에 대해 저항성인 합성 핵산 (예를 들어, DNA)은 RNase-함유 용액을 트래킹하는데 사용될 수 있다.
핵산 풍부화 및 라이브러리 제조
본원에 제공된 방법에서, 핵산은 관련 기술분야에 알려진 임의의 수단을 사용하여 샘플로부터 단리될 수 있다. 예를 들어, 핵산은 액체 추출 (예를 들어, 트리졸, DNAzol) 기술을 사용하여 추출될 수 있다. 핵산은 또한 상업적으로 입수가능한 키트 (예를 들어, QIAamp 순환 핵산 키트, 퀴아젠 DNeasy 키트, QIAamp 키트, 퀴아젠 Midi 키트, QIAprep 스핀 키트)를 사용하여 추출될 수 있다.
핵산은, 단지 예로서, 원심분리를 포함한, 알려진 방법에 의해 농축 또는 침전될 수 있다. 핵산은 정제의 목적을 위해 선택적 막 (예를 들어, 실리카)에 결합될 수 있다. 핵산은 또한 목적한 길이의 단편, 예를 들어, 1000, 500, 400, 300, 200 또는 100개 미만의 염기 쌍 길이인 단편에 대해 풍부화될 수 있다. 크기에 기반한 이러한 풍부화는, 예를 들어, PEG-유도된 침전, 전기영동 겔 또는 크로마토그래피 물질 (Huber et al. (1993) Nucleic Acids Res. 21:1061-6), 겔 여과 크로마토그래피, 또는 TSK겔 (Kato et al. (1984) J. Biochem, 95:83- 86)을 사용하여 수행될 수 있으며, 이들 공개는 모든 목적을 위해 그의 전문이 본원에 참조로 포함된다.
핵산 샘플은 표적 폴리뉴클레오티드, 특히 염증 또는 감염과 연관된 표적 핵산에 대해 풍부화될 수 있다. 일부 바람직한 경우에, 표적 핵산은 병원체 핵산 (예를 들어, 무세포 병원체 핵산)이다. 일부 바람직한 경우에, 표적 핵산은 자궁, 심장, 폐, 신장, 태아 뇌, 간, 또는 자궁경부 조직을 포함하나 이에 제한되지는 않는 특정한 기관 또는 조직과 연관된 무세포 RNA이다.
표적 풍부화는 관련 기술분야에 알려진 임의의 수단에 의한 것일 수 있다. 예를 들어, 핵산 샘플은 표적-특이적 프라이머 (예를 들어, 병원체 핵산에 특이적인 프라이머)를 사용하여 표적 서열을 증폭시킴으로써 풍부화될 수 있다. 표적 증폭은 관련 기술분야에 알려진 임의의 방법 또는 시스템을 사용하여, 디지털 PCR 포맷에서 발생할 수 있다. 핵산 샘플은 표적-선택적 올리고뉴클레오티드 상에 고정화된 어레이 상에서의 표적 서열의 포획에 의해 풍부화될 수 있다. 핵산 샘플은 용액 중에 또는 고체 지지체 상에 유리된 표적-선택적 올리고뉴클레오티드에 혼성화함으로써 풍부화될 수 있다. 올리고뉴클레오티드는 포획 시약에 의해 포획을 가능하게 하는 포획 모이어티를 포함할 수 있다. 일부 실시양태에서, 핵산 샘플은 표적 폴리뉴클레오티드에 대해 풍부화되지 않으며, 예를 들어, 전체 게놈을 나타낸다.
일부 경우에, 표적 (예를 들어, 병원체, 기관) 핵산은, 예를 들어, 풀-다운 (예를 들어, 비오틴 태그와 같은 표지에 접합된 상보적인 올리고뉴클레오티드에 그들에 혼성화함으로써 풀-다운 어세이에서 표적 핵산을 우선적으로 풀링 다운하고, 예를 들어, 고체 지지체 상에 부착된 아비딘 또는 스트렙타비딘을 사용함), 표적화된 PCR, 또는 다른 방법에 의해, 샘플 내 백그라운드 (예를 들어, 대상체, 건강한 조직) 핵산에 비해 풍부화될 수 있다. 풍부화 기술의 예는 하기를 포함하나 이에 제한되지는 않는다: (a) 핵산의 샘플 내 주요 집단이 샘플 내 미량의 집단보다 더 신속하게 자가-혼성화하는 자가-혼성화 기술; (b) 유리 DNA로부터의 뉴클레오솜-연관 DNA의 고갈; (c) 특정한 길이 간격의 DNA를 제거 및/또는 단리; (d) 엑소솜 고갈 또는 풍부화; 및 (e) 관심 영역의 전략적 포획.
일부 경우에, 풍부화 단계는 하기를 포함한다: (a) 숙주로부터의 핵산의 샘플을 제공하는 것, 여기서 숙주로부터의 핵산의 샘플은 숙주로부터의 단일-가닥 핵산의 샘플이고 숙주 핵산 및 비-숙주 핵산을 포함함; (b) 숙주로부터의 단일-가닥 핵산의 적어도 일부를 재생하며, 그에 의해 샘플 내 이중-가닥 핵산의 집단을 생산하는 것; 및 (c) 뉴클레아제를 사용하여 샘플 내 이중-가닥 핵산의 적어도 일부를 제거하며, 그에 의해 숙주로부터의 핵산의 샘플 내 비-숙주 서열을 풍부화시키는 것. 일부 경우에, 풍부화 단계는 하기를 포함한다: (a) 숙주로부터의 핵산의 샘플을 제공하는 것, 여기서 숙주로부터의 핵산의 샘플은 뉴클레오솜과 연관된 숙주 핵산 및 비-숙주 핵산을 포함함; 및 (b) 뉴클레오솜과 연관된 숙주 핵산의 적어도 일부를 제거하며, 그에 의해 숙주로부터의 핵산의 샘플 내 비-숙주 핵산을 풍부화시키는 것. 일부 경우에, 풍부화 단계는 하기를 포함한다: (a) 숙주로부터의 핵산의 샘플을 제공하는 것, 여기서 숙주로부터의 핵산의 샘플은 숙주 핵산 및 비-숙주 핵산을 포함함; 및 (b) 하나 이상의 길이 간격의 DNA를 제거 또는 단리하며, 그에 의해 숙주로부터의 핵산의 샘플 내 비-숙주 핵산을 풍부화시키는 것. 일부 경우에, 풍부화 단계는 하기를 포함한다: (a) 숙주로부터의 핵산의 샘플을 제공하는 것, 여기서 숙주로부터의 핵산의 샘플은 숙주 핵산, 비-숙주 핵산, 및 엑소솜을 포함함; 및 (b) 엑소솜의 적어도 일부를 제거 또는 단리하며, 그에 의해 숙주로부터의 핵산의 샘플 내 비-숙주 서열을 풍부화시키는 것. 일부 경우에, 풍부화 단계는 샘플로부터 약 300개의 염기 초과인 길이를 갖는 핵산을 우선적으로 제거하는 것을 포함한다. 일부 경우에, 풍부화 단계는 샘플로부터 비-숙주 핵산을 우선적으로 증폭 또는 포획하는 것을 포함한다.
풍부화 단계는 약 120, 약 150, 약 200, 또는 약 250개의 염기 길이를 초과하는 샘플로부터 핵산을 우선적으로 제거하는 것을 포함할 수 있다. 일부 경우에, 풍부화 단계는 약 10개의 염기 내지 약 60개의 염기 길이, 약 10개의 염기 내지 약 120개의 염기 길이, 약 10개의 염기 내지 약 150개의 염기 길이, 약 10개의 염기 내지 약 300개의 염기 길이, 약 30개의 염기 내지 약 60개의 염기 길이, 약 30개의 염기 내지 약 120개의 염기 길이, 약 30개의 염기 내지 약 150개의 염기 길이, 약 30개의 염기 내지 약 200개의 염기 길이, 또는 약 30개의 염기 내지 약 300개의 염기 길이인 샘플로부터 핵산을 우선적으로 풍부화시키는 것을 포함한다. 일부 경우에, 풍부화 단계는 숙주 (예를 들어, 대상체)로부터 유래된 핵산을 우선적으로 소화하는 것을 포함한다. 일부 경우에, 풍부화 단계는 비-숙주 핵산을 우선적으로 복제하는 것을 포함한다.
일부 경우에, 풍부화 단계는 적어도 2X, 적어도 3X, 적어도 4X, 적어도 5X, 적어도 6X, 적어도 7X, 적어도 8X, 적어도 9X, 적어도 10X, 적어도 11X, 적어도 12X, 적어도 13X, 적어도 14X, 적어도 15X, 적어도 16X, 적어도 17X, 적어도 18X, 적어도 19X, 적어도 20X, 적어도 30X, 적어도 40X, 적어도 50X, 적어도 60X, 적어도 70X, 적어도 80X, 적어도 90X, 적어도 100X, 적어도 1000X, 적어도 5000X, 또는 적어도 10,000X만큼 숙주 (예를 들어, 대상체) 핵산 대비 비-숙주 핵산의 비를 증가시킨다. 일부 경우에, 풍부화 단계는 적어도 10X만큼 숙주 (예를 들어, 대상체) 핵산 대비 비-숙주 핵산의 비를 증가시킨다. 일부 경우에, 풍부화 단계는 약 10X 내지 약 100X의 범위 이내의 숙주 (예를 들어, 대상체) 핵산 대비 비-숙주 핵산의 비를 증가시킨다.
일부 경우에, 핵산 라이브러리가 제조된다. 핵산 라이브러리는 단일-가닥 핵산 라이브러리 또는 이중-가닥 핵산 라이브러리일 수 있다. 일부 경우에, 단일-가닥 핵산 라이브러리는 단일-가닥 DNA 라이브러리 (ssDNA 라이브러리) 또는 RNA 라이브러리일 수 있다. 일부 경우에, 이중-가닥 핵산 라이브러리는 이중-가닥 DNA 라이브러리 (dsDNA 라이브러리)이다. ssDNA 라이브러리를 제조하는 방법은 이중 가닥 DNA 단편을 ssDNA 단편으로 변성시키는 것, ssDNA 단편의 한쪽 말단 상의 프라이머 도킹 서열을 라이게이션하는 것, 및 프라이머 도킹 서열에 프라이머를 혼성화하는 것을 포함할 수 있다. 프라이머는 차세대 서열분석 플랫폼에 커플링하는 어댑터 서열의 적어도 일부를 포함할 수 있다. 방법은 듀플렉스를 생성하기 위한 혼성화된 프라이머의 연장을 추가로 포함할 수 있으며, 여기서 듀플렉스는 원래 ssDNA 단편 및 연장된 프라이머 가닥을 포함한다. 연장된 프라이머 가닥은 원래 ssDNA 단편으로부터 분리될 수 있다. 연장된 프라이머 가닥은 수집될 수 있으며, 여기서 연장된 프라이머 가닥은 ssDNA 라이브러리의 구성원이다. RNA 라이브러리를 제조하는 방법은 RNA 단편의 한쪽 말단 상의 프라이머 도킹 서열을 라이게이션하는 것 및 프라이머 도킹 서열에 프라이머를 혼성화하는 것을 포함할 수 있다. 프라이머는 차세대 서열분석 플랫폼에 커플링하는 어댑터 서열의 적어도 일부를 포함할 수 있다. 방법은 듀플렉스를 생성하기 위해 혼성화된 프라이머의 연장을 추가로 포함할 수 있으며, 여기서 듀플렉스는 원래 RNA 단편 및 연장된 프라이머 가닥을 포함한다. 연장된 프라이머 가닥은 원래 RNA 단편으로부터 분리될 수 있다. 연장된 프라이머 가닥은 수집될 수 있으며, 여기서 연장된 프라이머 가닥은 RNA 라이브러리의 구성원이다. dsDNA 라이브러리를 제조하는 방법은 dsDNA 단편의 한쪽 또는 양쪽 말단 상의 어댑터 서열을 라이게이션하는 것을 포함할 수 있다.
다양한 측면에서, dsDNA는 관련 기술분야에 알려져 있거나 또는 본원에 기재된 바와 같은 임의의 수단에 의해 단편화될 수 있다. 일부 경우에, dsDNA는 물리적 수단에 의해 (예를 들어, 기계적 전단, 연무화, 또는 초음파처리에 의해), 효소적 수단에 의해, 또는 화학적 수단에 의해 단편화될 수 있다.
일부 실시양태에서, cDNA는 RNA로부터 생성된다. 예를 들어, cDNA는 무작위로 크기화된 cDNA를 생성하기 위해 무작위 프라이밍된 역전사 (RNaseH+)를 사용하여 생성될 수 있다.
핵산의 길이는 달라질 수 있다. 핵산 또는 핵산 단편 (예를 들어, dsDNA 단편, RNA, 또는 무작위로 크기화된 cDNA)은 1000 bp 미만, 800 bp 미만, 700 bp 미만, 600 bp 미만, 500 bp 미만, 400 bp 미만, 300 bp 미만, 200 bp 미만, 또는 100 bp 미만일 수 있다. DNA 단편은 약 40 내지 약 100 bp, 약 50 내지 약125 bp, 약 100 내지 약 200 bp, 약 150 내지 약 400 bp, 약 300 내지 약 500 bp, 약 100 내지 약500, 약 400 내지 약 700 bp, 약 500 내지 약 800 bp, 약 700 내지 약 900 bp, 약 800 내지 약 1000 bp, 또는 약 100 내지 약 1000 bp일 수 있다. 일부 경우에, 핵산 또는 핵산 단편 (예를 들어, dsDNA 단편, RNA, 또는 무작위로 크기화된 cDNA)은 약 20 내지 약 200 bp 범위 이내, 예컨대 약 40 내지 약 100 bp 범위 이내일 수 있다.
dsDNA 단편의 말단은 연마될 수 있다 (예를 들어, 평활-말단). DNA 단편의 말단은 폴리머라제로의 처리에 의해 연마될 수 있다. 연마는 3' 오버행의 제거, 5' 오버행의 채우기, 또는 그의 조합을 수반할 수 있다. 폴리머라제는 교정 폴리머라제일 수 있다 (예를 들어, 3' 에서 5' 엑소뉴클레아제 활성을 포함함). 교정 폴리머라제는, 예를 들어, T4 DNA 폴리머라제, Pol 1 클레나우 단편, 또는 Pfu 폴리머라제일 수 있다. 연마는 관련 기술분야에 알려져 있는 임의의 수단을 사용하여, 손상된 뉴클레오티드 (예를 들어, 무염기성 부위)의 제거를 포함할 수 있다.
핵산 단편의 3' 말단에 대한 어댑터의 라이게이션은 단편의 3' OH 기 및 어댑터의 5' 포스페이트 사이의 결합의 형성을 포함할 수 있다. 따라서, 핵산 단편으로부터의 5' 포스페이트의 제거는 2개의 라이브러리 구성원의 이상 라이게이션을 최소화할 수 있다. 따라서, 일부 실시양태에서, 5' 포스페이트는 핵산 단편으로부터 제거된다. 일부 실시양태에서, 5' 포스페이트는 샘플 내 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 95% 초과의 핵산 단편으로부터 제거된다. 일부 실시양태에서, 실질적으로 모든 포스페이트 기는 핵산 단편으로부터 제거된다. 일부 실시양태에서, 실질적으로 모든 포스페이트는 샘플 내 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 95% 초과의 핵산 단편으로부터 제거된다. 핵산 샘플로부터의 포스페이트 기의 제거는 관련 기술분야에 알려져 있는 임의의 수단에 의할 수 있다. 포스페이트 기의 제거는 샘플을 열-불안정성 포스파타제로 처리하는 것을 포함할 수 있다. 일부 실시양태에서, 포스페이트 기는 핵산 샘플로부터 제거되지 않는다. 일부 실시양태에서 핵산 단편의 5' 말단에 대한 어댑터의 라이게이션이 수행된다.
서열분석
본 개시내용은 핵산을 분석하는 방법을 제공한다. 이러한 분석 방법은 핵산을 서열분석하는 것 뿐만 아니라 서열분석 결과의 생물정보학적 분석을 포함한다. 본 방법에 따라 생산된 핵산은 게놈, 후성적 (예를 들어, 메틸화), 및 RNA 발현을 포함한 다양한 유형의 정보를 수득하기 위해 분석될 수 있다. 메틸화 분석은, 예를 들어, 메틸화된 염기의 전환 이어서 DNA 서열분석에 의해 수행될 수 있다. RNA 발현 분석은, 예를 들어, 폴리뉴클레오티드 어레이 혼성화, RNA 서열분석 기술, 또는 RNA로 생산된 cDNA를 서열분석하는 것에 의해 수행될 수 있다.
바람직한 실시양태에서, 서열분석은 차세대 서열분석 검정을 사용하여 수행된다. 본원에 사용된 바와 같은, 용어 "차세대"는 관련 기술분야에서 널리 이해되고, 일반적으로 하기 중 하나 이상을 포함하나 이에 제한되지는 않는 임의의 고처리량 서열분석 접근법을 지칭한다: 대규모 병렬 서명 서열분석, 파이로시퀀싱 (예를 들어, 로슈(Roche) 454 서열분석 장치를 사용함), 일루미나(Illumina) (솔렉사(Solexa)) 서열분석, 합성에 의한 서열분석 (일루미나), 이온 토렌트 서열분석, 라이게이션에 의한 서열분석 (예를 들어, SOLiD 서열분석), 단일 분자 실시간 (SMRT) 서열분석 (예를 들어, 퍼시픽 바이오사이언스(Pacific Bioscience)), 폴로니 서열분석, DNA 나노볼 서열분석, 헬리스코프 단일 분자 서열분석 (헬리코스 바이오사이언시스(Helicos Biosciences)), 및 나노포어 서열분석 (예를 들어, 옥스포트 나노포어(Oxford Nanopore)). 일부 경우에, 서열분석 검정은 나노포어 서열분석을 사용한다. 일부 경우에, 서열분석 검정은 생어 서열분석의 일부 형태를 포함한다. 일부 경우에, 서열분석은 샷건 서열분석을 포함하며; 일부 경우에, 서열분석은 브리지 PCR을 포함한다. 일부 경우에, 서열분석은 광범위한 스펙트럼이다. 일부 경우에, 서열분석은 표적화된다.
일부 경우에, 서열분석 검정은 길버트의 서열분석 방법을 포함한다. 이러한 접근법에서, 핵산 (예를 들어, DNA)은 특정한 염기에서 화학적으로 변형되고 이어서 절단된다. 일부 경우에, 서열분석 검정은 디데옥시뉴클레오티드 쇄 종결 또는 생어-서열분석을 포함한다.
합성에 의한 서열분석 접근법은 본원에 제공된 방법에 사용될 수 있다. 일부 경우에, 형광으로 표지된 가역성-종결인자 뉴클레오티드는 유리 플로우셀의 표면 상에 고정화된 클론-증폭된 DNA 주형에 도입된다. 각각의 서열분석 사이클 동안, 단일 표지된 데옥시뉴클레오시드 트리포스페이트 (dNTP)가 핵산 쇄에 첨가될 수 있다. 표지된 종결인자 뉴클레오티드는 염기를 식별하기 위해 첨가되고 이어서 후속 뉴클레오티드의 혼입이 가능하도록 효소적으로 절단될 수 있을 때 영상화될 수 있다. 모든 4개의 가역성 종결인자-결합된 dNTP (A, C, T, G)는 일반적으로 단일, 별개의 분자로서 존재하므로, 자연적 경쟁은 혼입 편향을 최소화할 수 있다.
일부 경우에, 단일-분자 실시간 (SMRT)이라 명명된 방법이 사용된다. 이러한 접근법에서, 핵산 (예를 들어, DNA)은 제로-모드 웨이브 가이드 (ZMW)에서 합성되며, 이는 웰의 저부에서 위치된 포획 도구를 갖는 작은 웰-유사 용기이다. 서열분석은 비변형된 폴리머라제 (ZMW 저부에 부착됨) 및 용액에서 자유롭게 유동하는 형광으로 표지된 뉴클레오티드의 사용으로 수행된다. 형광 표지는 DNA 가닥에 그의 혼입 시 뉴클레오티드로부터 탈착되어, 비변형된 DNA 가닥을 남긴다. 이어서 검출기 예컨대 카메라를 사용하여 발광을 검출할 수 있고; 데이터는 생물정보학적으로 분석하여 서열 정보를 수득할 수 있다.
일부 경우에, 라이게이션 접근법에 의한 서열분석은 샘플 내 핵산을 서열분석하는데 사용된다. 하나의 예는 SOLiD (올리고뉴클레오티드 라이게이션 및 검출에 의한 서열분석) 서열분석 (라이프 테크놀로지스(Life Technologies))의 차세대 서열분석 방법이다. 이러한 차세대 기술은 한번에 수억 내지 수십억개의 작은 서열 판독물을 생성할 수 있다. 서열분석 방법은 서열분석될 샘플로부터 DNA 단편의 라이브러리를 제조하는 것을 포함할 수 있다. 일부 경우에, 라이브러리는 단지 단편의 하나의 종이 각각의 비드 (예를 들어, 자기 비드)의 표면 상에 존재하는 클론 비드 집단을 제조하는데 사용된다. 자기 비드에 부착된 단편은 모든 단편의 출발 서열이 둘 다 기지의 것이고 동일하도록 부착된 범용 P1 어댑터 서열을 가질 수 있다. 일부 경우에, 방법은 PCR 또는 에멀젼 PCR을 추가로 수반할 수 있다. 예를 들어, 에멀젼 PCR은 PCR을 위한 시약을 함유하는 마이크로반응기의 사용을 수반할 수 있다. 이어서 비드에 부착된 생성된 PCR 산물은 유리 슬라이드에 공유적으로 결합될 수 있다. 서열분석 검정 예컨대 SOLiD 서열분석 검정 또는 라이게이션 검정에 의한 다른 서열분석은 프라이머의 사용을 수반하는 단계를 포함할 수 있다. 프라이머는 라이브러리 주형 내에서 P1 어댑터 서열 또는 다른 서열에 혼성화할 수 있다. 방법은 서열분석 프라이머에 대한 라이게이션을 위해 경쟁하는 4개의 형광으로 표지된 이중-염기 프로브를 도입하는 것을 추가로 수반할 수 있다. 이중-염기 프로브의 특이성은 각각의 라이게이션 반응에서 모든 제1 및 제2 염기의 신호를 조사함으로써 달성될 수 있다. 라이게이션, 검출 및 절단의 다중 사이클은 최종 판독물 길이를 결정하는 사이클의 수로 수행될 수 있다. 일부 경우에, 일련의 라이게이션 사이클 후에, 연장 산물은 제거되고 주형은 라이게이션 사이클의 제2 라운드를 위한 n-1 위치에 상보적인 프라이머로 의해 리셋된다. 프라이머 리셋의 다중 라운드 (예를 들어, 5 라운드)는 각각의 서열 태그에 대해 완료될 수 있다. 프라이머 리셋 프로세스를 통해, 각각의 염기는 2개의 상이한 프라이머에 의해 2개의 독립적인 라이게이션 반응에서 조사될 수 있다. 예를 들어, 판독물 위치 5에서의 염기는 라이게이션 사이클 2에서 프라이머 번호 2에 의해 및 라이게이션 사이클 1에서 프라이머 번호 3에 의해 검정된다.
임의의 실시양태에서, 올리고뉴클레오티드의 검출 또는 정량화 분석은 서열분석에 의해 달성될 수 있다. 서브유닛 또는 전체 합성된 올리고뉴클레오티드는 본원에 기재된 서열분석 방법을 포함한, 관련 기술분야에 알려진 임의의 적합한 방법, 예를 들어, 일루미나 HiSeq 2500에 의해 모든 올리고뉴클레오티드의 완전 서열분석을 통해 검출될 수 있다.
서열분석은 관련 기술분야에 널리 알려져 있는 전형적 생어 서열분석 방법을 통해 달성될 수 있다. 서열분석은 또한 고처리량 시스템을 사용하여 달성될 수 있으며, 이들 중 일부는 성장 가닥 내로의 그의 혼입 직후에 또는 그의 혼입 시 서열분석된 뉴클레오티드의 검출, 예를 들어, 실시간으로 또는 실질적으로 실시간으로 서열의 검출을 가능하게 한다. 일부 경우에, 고 처리량 서열분석은 시간당 적어도 1,000, 적어도 5,000, 적어도 10,000, 적어도 20,000, 적어도 30,000, 적어도 40,000, 적어도 50,000 적어도 100,000, 또는 적어도 500,000개의 서열 판독물을 생성한다. 일부 경우에, 각각의 판독물은 판독물당 적어도 50, 적어도 60, 적어도 70, 적어도 80, 적어도 90, 적어도 100, 적어도 120, 또는 적어도 150개의 염기이다. 일부 경우에, 각각 판독물은 판독물당 최대 2000, 최대 1000, 최대 900, 최대 800, 최대 700, 최대 600, 최대 500, 최대 400, 최대 300, 최대 200, 또는 최대 100개의 염기이다. 긴 판독물 서열분석은 예를 들어 500개 초과의 염기, 800개 초과의 염기, 1000개 초과의 염기, 1500개 초과의 염기, 2000개 초과의 염기, 3000개 초과의 염기, 또는 4500개 초과 염기의 연속 서열 판독물을 제공하는 서열분석을 포함할 수 있다.
일부 경우에, 고처리량 서열분석은 일루미나의 게놈 애널라이저 IIX, MiSeq 퍼스널 서열분석기, 또는 HiSeq 시스템, 예컨대 HiSeq 2500, HiSeq 1500, HiSeq 2000, 또는 HiSeq 1,000을 사용하는 것들에 의해 이용가능한 기술의 사용을 수반한다. 이들 기계는 합성 화학에 의한 가역성 종결인자-기반 서열분석을 사용한다. 이들 기계는 8일 내에 2000억개 DNA 또는 그 초과의 판독물도 할 수 있다. 더 작은 시스템은 3, 2, 또는 1일 또는 그 미만의 시간 이내에서 실행을 위해 활용될 수 있다. 짧은 합성 사이클은 서열분석 결과를 수득하는데 걸린 시간을 최소화하는데 사용될 수 있다.
일부 경우에, 고처리량 서열분석은 ABI 솔리드 시스템에 의해 이용가능한 기술의 사용을 수반한다. 이러한 유전 분석 플랫폼은 비드에 연결된 클론-증폭된 DNA 단편의 대규모 병렬 서열분석을 가능하게 할 수 있다. 서열분석 방법론은 염료-표지된 올리고뉴클레오티드로의 순차적 라이게이션을 기반으로 한다.
차세대 서열분석은 이온 반도체 서열분석 (예를 들어, 라이프 테크놀로지스로부터의 기술 (이온 토렌트)을 사용함)을 포함할 수 있다. 이온 반도체 서열분석은 뉴클레오티드가 DNA의 가닥에 혼입될 때, 이온이 방출될 수 있다는 사실의 이점을 취할 수 있다. 이온 반도체 서열분석을 수행하기 위해, 마이크로기계화된 웰의 고밀도 어레이가 형성될 수 있다. 각각의 웰은 단일 DNA 주형을 보유할 수 있다. 웰 아래는 이온 감수성 층일 수 있고, 이온 감수성 층 아래는 이온 센서일 수 있다. 뉴클레오티드가 DNA에 첨가될 때, H+가 방출될 수 있으며, 이는 pH에서의 변화로서 측정될 수 있다. H+ 이온은 전압으로 변환되고 반도체 센서에 의해 기록될 수 있다. 어레이 칩은 하나의 뉴클레오티드 뒤에 또 하나로 순차적으로 플러딩될 수 있다. 어떠한 스캐닝, 광, 또는 카메라도 요구되지 않을 수 있다. 일부 경우에, 이온프로톤(IONPROTON)™ 서열분석기가 핵산을 서열분석하는데 사용된다. 일부 경우에, 이온피지엠(IONPGM)™ 서열분석기가 사용된다. 이온 토렌트 퍼스널 게놈 머신 (PGM)은 2시간 내에 1,000만개의 판독물을 할 수 있다.
일부 경우에, 고처리량 서열분석은 헬리코스 바이오사이언시즈 코포레이션(Helicos BioSciences Corporation) (매사추세츠주 캠브리지)에 의해 이용가능한 기술 예컨대 합성에 의한 단일 분자 서열분석 (SMSS) 방법의 사용을 수반한다. SMSS는 최대 24시간 내에서 전체 인간 게놈을 서열분석하는 것을 가능하게 할 수 있다. MIP 기술과 같은 SMSS는 혼성화 전에 사전 증폭 단계를 요구하지 않을 수 있다. SMSS는 임의의 증폭을 요구하지 않을 수 있다. SMSS는 미국 특허 출원 번호 20060024711; 20060024678; 20060012793; 20060012784; 및 20050100932에 부분적으로 기재되어 있다.
일부 경우에, 고처리량 서열분석은 454 라이프사이언시즈, 인크.(454 Lifesciences, Inc.) (코네티컷주 브랜포드)에 의해 이용가능한 기술 예컨대 기기에서 CCD 카메라에 의해 기록될 서열분석 반응에 의해 생성된 화학발광 신호를 전송하는 섬유 광학 플레이트를 포함하는 피코 타이터 플레이트(Pico Titer Plate) 장치의 사용을 수반한다. 섬유 광학의 이러한 사용은 4.5시간 내에 최소 20백만개의 염기 쌍의 검출을 가능하게 할 수 있다.
비드 증폭 이어서 섬유 광학 검출을 사용하는 방법은 문헌 [Marguiles, M., et al. "Genome sequencing in microfabricated high-density picolitre reactors", Nature, doi: 10.1038/nature03959]; 및 또한 미국 특허 출원 번호 20020012930; 20030058629; 20030100102; 20030148344; 20040248161; 20050079510, 20050124022; 및 20060078909에 기재되어 있다.
일부 경우에, 고처리량 서열분석은 클로날 단일 분자 어레이 (솔렉사, 인크.(Solexa, Inc.)) 또는 가역성 종결인자 화학물질을 활용하는 합성에 의한 서열분석 (SBS)을 사용하여 수행된다. 이들 기술은 미국 특허 번호 6,969,488; 6,897,023; 6,833,246; 6,787,308; 및 미국 특허 출원 번호 20040106110; 20030064398; 20030022207; 및 문헌 [Constans, A., The Scientist 2003, 17(13):36]에 부분적으로 기재되어 있다.
일부 경우에, 차세대 서열분석은 나노포어 서열분석이다 (예를 들어, 문헌 [Soni GV and Meller A. (2007) Clin Chem 53: 1996-2001] 참조). 나노포어는, 예를 들어, 대략적으로 약 1 나노미터 직경의 작은 홀일 수 있다. 전도성 유체 중의 나노포어의 침지 및 그에 걸친 전위의 적용은 나노포어를 통한 이온의 전도성으로 인해 약간의 전기 전류를 생성할 수 있다. 흐르는 전류의 양은 나노포어의 크기에 대해 감수성일 수 있다. DNA 분자가 나노포어를 통해 통과할 때, DNA 분자 상의 각각의 뉴클레오티드는 상이한 정도로 나노포어를 폐쇄한다. 따라서, DNA 분자가 나노포어를 통해 통과할 때 나노포어를 통해 통과하는 전류에서의 변화는 DNA 서열의 판독을 나타낼 수 있다. 나노포어 서열분석 기술은 옥스포드 나노포어 테크놀로지스(Oxford Nanopore Technologies)로부터의 것: 예를 들어, GridION 시스템일 수 있다. 단일 나노포어는 마이크로웰의 상부를 가로질러 중합체 막에 삽입될 수 있다. 각각의 마이크로웰은 개별 센싱을 위한 전극을 가질 수 있다. 마이크로웰은 칩당 100,000개 이상의 마이크로웰 (예를 들어, 200,000, 300,000, 400,000, 500,000, 600,000, 700,000, 800,000, 900,000 또는 1,000,000개 초과)을 갖는, 어레이 칩으로 제작될 수 있다. 기기 (또는 노드)는 칩을 분석하는데 사용될 수 있다. 데이터는 실시간으로 분석될 수 있다. 하나 이상의 기기가 한번에 작동될 수 있다. 나노포어는 단백질 나노포어, 예를 들어, 단백질 알파-용혈소, 칠량체성 단백질 포어일 수 있다. 나노포어는 제조된 고체-상태 나노포어, 예를 들어, 합성 막 (예를 들어, SiNx, 또는 SiO2)에 형성된 나노미터 크기화된 홀일 수 있다. 나노포어는 하이브리드 포어 (예를 들어, 단백질 포어의 고체-상태 막으로의 통합)일 수 있다. 나노포어는 통합된 센서 (예를 들어, 터널링 전극 검출기, 전기 용량 검출기, 또는 그래핀 기반 나노-갭 또는 에지 상태 검출기 (예를 들어, 문헌 [Garaj et al. (2010) Nature vol. 67, doi: 10.1038/nature09379] 참조))를 갖는 나노포어일 수 있다. 나노포어는 특정한 유형의 분자 (예를 들어, DNA, RNA, 또는 단백질)를 분석하기 위해 관능화될 수 있다. 나노포어 서열분석은 DNA가 포어를 전위시키므로 무손상 DNA 중합체가 실시간 서열분석으로 단백질 나노포어를 통해 통과될 수 있는 "가닥 서열분석"을 포함할 수 있다. 효소는 이중 가닥 DNA의 가닥을 분리하고 나노포어를 통해 가닥을 공급할 수 있다. DNA는 한쪽 말단에서 헤어핀을 가질 수 있고, 시스템은 양쪽 가닥을 판독할 수 있다. 일부 경우에, 나노포어 서열분석은 개별 뉴클레오티드가 진행성 엑소뉴클레아제에 의해 DNA 가닥으로부터 절단될 수 있고, 뉴클레오티드가 단백질 나노포어를 통해 통과될 수 있는 "엑소뉴클레아제 서열분석"이다. 뉴클레오티드는 포어 내 분자 (예를 들어, 시클로덱스트란)에 일시적으로 결합할 수 있다. 전류에서의 특징적인 단절은 염기를 식별하는데 사용될 수 있다.
게니아(GENIA)로부터의 나노포어 서열분석 기술이 사용될 수 있다. 조작된 단백질 포어는 지질 이중층 막에 포매될 수 있다. "활성 제어" 기술은 효율적인 나노포어-막 어셈블리 및 채널을 통한 DNA 운동의 제어를 가능하게 하는데 사용될 수 있다. 일부 경우에, 나노포어 서열분석 기술은 NABsys로부터의 것이다. 게놈 DNA는 약 100 kb의 평균 길이의 가닥으로 단편화될 수 있다. 100 kb 단편은 단일 가닥으로 제조되고 후속적으로 6-mer 프로브에 혼성화될 수 있다. 프로브를 갖는 게놈 단편은 나노포어를 통해 구동될 수 있으며, 이는 전류-대-시간 트레이싱을 생성할 수 있다. 전류 트레이싱은 각각의 게놈 단편 상에 프로브의 위치를 제공할 수 있다. 게놈 단편은 게놈을 위한 프로브 맵을 생성하도록 배열될 수 있다. 프로세스는 프로브의 라이브러리에 대해 병렬로 수행될 수 있다. 각각의 프로브에 대한 게놈-길이 프로브 맵이 생성될 수 있다. 오류는 "혼성화에 의한 운동 위도우 서열분석 (mwSBH)"이라 명명된 프로세스로 고정될 수 있다. 일부 경우에, 나노포어 서열분석 기술은 IBM/로슈(Roche)로부터의 것이다. 전자 빔은 마이크로칩에서 나노포어 크기화된 개구를 제조하는데 사용될 수 있다. 전기장은 나노포어를 통한 DNA의 풀링 또는 스레딩에 사용될 수 있다. 나노포어에서의 DNA 트랜지스터 장치는 금속 및 유전체의 나노미터 크기화된 층을 교대하는 것을 포함할 수 있다. DNA 백본에서의 불연속 전하는 DNA 나노포어 안에서 전기장에 의해 포획될 수 있다. 터닝 오프 및 온 게이트 전압은 DNA 서열을 판독하는 것을 가능하게 할 수 있다.
차세대 서열분석은 DNA 나노볼 서열분석을 포함할 수 있다 (예를 들어, 완전 유전체학에 의해 수행된 바와 같음; 예를 들어, 문헌 [Drmanac et al. (2010) Science 327: 78-81) 참조). DNA는 단리되고, 단편화되고, 크기 선택될 수 있다. 예를 들어, DNA는 약 500 bp의 평균 길이로 단편화될 수 있다 (예를 들어, 초음파처리에 의함). 어댑터 (Adl)는 단편의 말단에 부착될 수 있다. 어댑터는 서열분석 반응을 위해 앵커에 혼성화하는데 사용될 수 있다. 각각의 말단에 결합된 어댑터를 갖는 DNA는 PCR 증폭될 수 있다. 어댑터 서열은 상보적 단일 가닥 말단이 서로 결합하여 원형 DNA를 형성하도록 변형될 수 있다. DNA는 후속 단계에서 사용된 유형 IIS 제한 효소에 의한 절단으로부터 이를 보호하도록 메틸화될 수 있다. 어댑터 (예를 들어, 우측 어댑터)는 제한 인식 부위를 가질 수 있고, 제한 인식 부위는 비-메틸화된 채 남아있을 수 있다. 어댑터 내 비-메틸화된 제한 인식 부위는 제한 효소 (예를 들어, Acul)에 의해 인식될 수 있고, DNA는 우측 어댑터의 우측으로 Acul 13 bp만큼 절단되어 선형 이중 가닥 DNA를 형성할 수 있다. 우측 및 좌측 어댑터의 제2 라운드 (Ad2)는 선형 DNA의 어느 한 쪽의 말단 상의 라이게이션될 수 있고, 결합된 양쪽 어댑터를 갖는 모든 DNA는 PCR 증폭될 수 있다 (예를 들어, PCR에 의함). Ad2 서열은 그들이 서로 결합하고 선형 DNA를 형성하는 것을 가능하게 하도록 변형될 수 있다. DNA는 메틸화될 수 있지만, 제한 효소 인식 부위는 좌측 Adl 어댑터 상에 비-메틸화된 채 남아있을 수 있다. 제한 효소 (예를 들어, Acul)가 적용될 수 있고, DNA는 Adl의 좌측으로 13 bp 절단되어 선형 DNA 단편을 형성할 수 있다. 우측 및 좌측 어댑터의 제3 라운드 (Ad3)는 선형 DNA의 우측 및 좌측 플랭크에 라이게이션될 수 있고, 생성된 단편은 PCR 증폭될 수 있다. 어댑터는 이들이 서로 결합하고 선형 DNA를 형성할 수 있도록 변형될 수 있다. 유형 III 제한 효소 (예를 들어, EcoP15)가 첨가될 수 있으며; EcoP15는 DNA를 Ad3의 좌측으로 26 bp 및 Ad2의 우측으로 26 bp 절단할 수 있다. 이러한 절단은 DNA의 큰 절편을 제거하고 DNA를 다시 한 번 선형화할 수 있다. 우측 및 좌측 어댑터의 제4 라운드 (Ad4)는 DNA에 라이게이션될 수 있으며, DNA는 증폭되고 (예를 들어, PCR에 의함), 이들이 서로 결합하고 완성된 원형 DNA 주형을 형성하도록 변형될 수 있다.
롤링 서클 복제 (예를 들어, Phi 29 DNA 폴리머라제를 사용함)는 DNA의 작은 단편을 증폭시키는데 사용될 수 있다. 4개의 어댑터 서열은 혼성화할 수 있는 팔린드롬성 서열을 함유할 수 있고 단일 가닥은 그 자체 위에 폴딩되어 평균 직경이 대략 200-300 나노미터일 수 있는 DNA 나노볼 (DNB™)를 형성할 수 있다. DNA 나노볼은 마이크로어레이 (서열분석 플로우셀)에 의해 부착될 수 있다 (예를 들어, 흡착에 의함). 플로우 셀은 이산화규소, 티타늄 및 헥사메틸디실라잔 (HMDS)으로 코팅된 실리콘 웨이퍼, 및 포토레지스트 물질일 수 있다. 서열분석은 DNA에 형광 프로브를 라이게이션함으로써 언체인드 서열분석에 의해 수행될 수 있다. 조사된 위치의 형광의 색은 고해상도 카메라에 의해 시각화될 수 있다. 어댑터 서열 사이의 뉴클레오티드 서열의 아이덴티티가 결정될 수 있다.
본원에 제공된 방법은 시스템 예컨대 DNA 또는 RNA 서열 정보를 생성하기 위한 핵산 서열분석기 (예를 들어, DNA 서열분석기, RNA 서열분석기)를 함유하는 시스템의 사용을 포함할 수 있다. 시스템은 DNA 또는 RNA 서열 정보에 대한 생물정보학적 분석을 수행하는 소프트웨어를 포함하는 컴퓨터를 포함할 수 있다. 생물정보학적 분석은, 제한 없이, 서열 데이터를 어셈블리하는 것, 샘플 내 유전자 변이체 예컨대 배선 변이체 및 체세포 변이체 (예를 들어, 암 또는 전암성 병태와 연관된 유전자 변이, 감염과 연관된 유전자 변이)를 검출 및 정량화하는 것을 포함할 수 있다.
서열분석 데이터는 유전자 서열 정보, 배수성 상태, 하나 이상의 유전자 변이체의 아이덴티티, 뿐만 아니라 상대 및 절대 상대 척도를 포함한, 변이체의 정량적 척도를 결정하는데 사용될 수 있다.
일부 경우에, 게놈의 서열분석은 전체 게놈 서열분석 또는 부분 게놈 서열분석을 수반한다. 서열분석은 비편향될 수 있고 샘플 내 모든 또는 실질적으로 모든 (예를 들어, 70%, 80%, 90% 초과) 핵산을 서열분석하는 것을 수반할 수 있다. 게놈의 서열분석은, 예를 들어, 관심 게놈의 부분에 관하여 선택적일 수 있다. 예를 들어, 많은 유전자 (및 이들 유전자의 돌연변이체 형태)는 다양한 암과 연관되는 것으로 알려져 있다. 선택 유전자, 또는 유전자의 부분의 서열분석은 목적한 분석에 충분할 수 있다. 관심 대상인 게놈에서의 특이적 로커스에 맵핑하는 폴리뉴클레오티드는, 예를 들어, 서열 포획 또는 부위-특이적 증폭에 의해 서열분석을 위해 단리될 수 있다.
적용
본원에 제공된 방법은 다양한 목적을 위해, 예컨대 병태 (예를 들어, 감염)를 진단 또는 검출하기 위해, 병태가 발생 또는 재발할 것인지를 예측하기 위해, 치료를 모니터링하기 위해, 치료 레지멘을 선택 또는 변형하기 위해, 또는 요법을 최적화하는데 사용될 수 있다. 이러한 접근법으로, 치료적 및/또는 진단적 레지멘은 치료의 과정에 걸쳐 상이한 시간에서 수득된 데이터에 따라 개별화 및 맞춤화되며, 그에 의해 개별적으로 적절한 레지멘을 제공할 수 있다.
검출/진단/예후 조건
본원에 제공된 방법은 환자 샘플, 예컨대 인간 혈액 샘플에서 감염 또는 질환을 검출, 진단, 또는 예후하는데 사용될 수 있다. 방법은 우세하게 인간 핵산으로 구성된 샘플에서 희귀한 미생물 핵산 단편을 검출하는데 사용될 수 있다. 예를 들어, 혈액에서의 무세포 DNA (cfDNA)는 숙주로부터 유래된 DNA 단편으로 주로 이루어지지만 또한 신체에서 미생물로부터의 소량의 단편을 함유한다. cfDNA의 추출 이어서 심층 서열분석 (예를 들어, 차세대 서열분석 또는 NGS)은 숙주 및 비-숙주 게놈 데이터베이스에 대해 맵핑될 수 있는 수백만 또는 수십억개의 서열 판독물을 생성할 수 있다. 마찬가지로, 방법은 또한 특정한 기관으로부터의 순환 또는 무세포 RNA의 희귀한 집단을 검출하는데 사용될 수 있다. 비-숙주 판독물이 총 매우 작은 비율인 샘플의 경우에, 본원에 제공된 방법은 검정의 감수성 및 특이성을 개선시킬 수 있으며, 이는 달리 상이한 표적 핵산 (예를 들어, 상이한 미생물 또는 유기체로부터 유래됨)을 비교하거나 또는 상이한 샘플 또는 시약을 트래킹하는 것에 대한 내부 정규화 표준의 결여에 의해 손상될 것이다. 게다가, 방법은 표적 핵산이 핵산의 총 집단의 더 큰 부분을 구성하는 셋팅에 사용될 수 있다.
본원에 제공된 방법은 매우 다양한 질환 및 장애를 검출, 모니터링, 진단, 예후, 치료, 또는 예방하는데 사용될 수 있다. 특히, 방법은 감염성 질환 또는 장애와 연관된 병원체로부터 유래된 하나 이상의 표적 핵산을 검출하는데 사용될 수 있다. 예시적인 질환 및 장애는 감염과 연관된 임의의 질환 또는 장애, 예를 들어, 패혈증, 폐렴, 결핵, HIV 감염, 간염 감염 (예를 들어, Hep A, B, 또는 C), 인간 유두종 바이러스 (HPV) 감염, 클라미디아 감염, 매독성 감염, 에볼라 감염, 스타필로코쿠스 아우레우스 감염, 및 인플루엔자를 포함한다. 본원에 제공된 방법은 다중-약물 내성 미생물을 포함한 약물-내성 미생물, 또는 용이하게 배양되거나 또는 그에 대해 전형적으로 시험되지 않는 미생물에 의한 감염을 검출하는데 특히 유용하다. 본 발명의 방법으로 검출될 수 있는 질환 및 장애의 일부 비제한적인 예는 하기를 포함한다: 암, 확장성 심근병증, 길랑-바레 증후군, 다발성 경화증, 결핵, 탄저병 중독, 수면병, 이질, 톡소플라스마증, 백선, 칸디다증, 히스토플라스마증, 에볼라, 아시네토박터 감염, 방선균증, 아프리카 수면병 (아프리카 트리파노소마증), AIDS (후천성 면역결핍 증후군), HIV 감염, 아메바증, 아나플라스마증, 탄저병, 아르카노박테리움 헤몰리티쿰 감염, 아르헨티나 출혈열, 회충증, 아스페르길루스증, 아스트로바이러스 감염, 바베시아증, 바실루스 세레우스 감염, 박테리아성 폐렴, 박테리아성 질증 (BV), 박테로이데스 감염, 발란티디움증, 바일리사스카리스 감염, BK 바이러스 감염, 흑색 사모증, 블라스토시스티스 호미니스 감염, 블라스토미세스증, 볼리비아 출혈열, 보렐리아 감염, 보툴리눔독소증 (및 영유아 보툴리눔독소증), 브라질 출혈열, 브루셀라증, 림프절 페스트, 부르크홀데리아 감염, 부룰리 궤양, 칼리시바이러스 감염 (노로바이러스 및 사포바이러스), 캄필로박터증, 칸디다증 (모닐리아증; 아구창), 고양이 할큄병, 연조직염, 샤가스병 (아메리카 트리파노소마증), 연성하감, 수두, 치쿤구니야 바이러스병, 클라미디아, 클라미도필라 뉴모니아에 감염 (타이완 급성 호흡기제 또는 TWAR), 콜레라, 색소모세포진균증, 간흡충증, 클로스트리디움 디피실레 감염, 콕시디오이데스진균증, 콜로라도 진드기열 (CTF), 감기 (급성 바이러스 비인두염; 급성 코리자), 크로이츠펠트-야콥병 (CJD), 크림-콩고 출혈열 (CCHF), 크립토코쿠스증, 크립토스포리디움증, 피부 유충 이행증 (CLM), 원포자충증, 낭미충증, 시토메갈로바이러스 감염, 뎅기열, 디엔트아메바증, 디프테리아, 긴촌충증, 용선충증, 에볼라 출혈열, 포충증, 에를리히아증, 요충증 (요충 감염), 장구균 감염, 엔테로바이러스 감염, 유행성 발진티푸스, 감염 홍반 (제5병), 돌발진 (제6병), 비대흡충증, 간질증, 사상충증, 클로스트리디움 페르프린겐스에 의한 식중독, 유생활 아메바 감염, 푸소박테리움 감염, 가스 괴저 (클로스트리디움 근괴사), 게오트리쿰증, 게르스트만-스트로이슬러-샤잉커 증후군 (GSS), 편모충증, 마비저, 악구충증, 임질, 사타구니 육아종 (도너반증), A군 스트렙토코쿠스 감염, B군 스트렙토코쿠스 감염, 헤모필루스 인플루엔자에 감염, 손, 발 및 구강 질환 (HFMD), 한타바이러스 폐 증후군 (HPS), 하트랜드 바이러스 질환, 헬리코박터 필로리 감염, 용혈성-요독성 증후군 (HUS), 출혈열 신 증후군 (HFRS), A형 간염, B형 간염, C형 간염, D형 간염, E형 간염, 단순 포진, 히스토플라스마증, 구충 감염, 인간 보카바이러스 감염, 인간 에윈기이 에를리히아증, 인간 과립구 아나플라즈마증 (HGA), 인간 메타뉴모바이러스 감염, 인간 단핵구성 에를리히아증, 인간 유두종바이러스 (HPV) 감염, 인간 파라인플루엔자바이러스 감염, 왜소조충증, 엡스타인-바르 바이러스 감염성 단핵구증 (모노), 인플루엔자 (플루), 포자충증, 가와사키병, 각막염, 킨겔라 긴가에 감염, 쿠루병, 라사 열, 레지오넬라증 (레지오넬라병), 레지오넬라증 (폰티악열병), 리슈마니아증, 나병, 렙토스피라증, 리스테리아증, 라임병 (라임병 보렐리아증), 림프 사상충증 (상피증), 림프구성 맥락수막염, 말라리아, 마르부르크 출혈열 (MHF), 홍역, 중동 호흡기 증후군 (MERS), 멜리오이도시스 (휘트모어병), 수막염, 수막구균성 질환, 요코가와흡충증, 미포자충증, 전염성 연속종 (MC), 원숭이마마, 볼거리, 발진열 (풍토병 발진티푸스), 미코플라스마 뉴모니아, 균종, 구더기증, 네오나탈 결막염 (신생아 안염), (새로운) 변이체 크로이츠펠트-야콥병 (vCJD, nvCJD), 노카르디아증, 회선사상충증 (강변 실명증), 파라콕시디오이데스진균증 (남미 블라스토미세스증), 폐흡충증, 파스퇴렐라증, 이감염증 카피티스 (머리이), 이감염증 코르포리스 (몸이), 이감염증 푸비스 (사면발이, 사면발니), 골반 염증성 질환 (PID), 백일해 (백일기침), 흑사병, 폐렴알균 감염, 페포자충 폐렴 (PCP), 폐렴, 회색질척수염, 프레보텔라 감염, 원발성 아메바성 수막뇌염 (PAM), 진행성 다초점성 백질뇌병증, 앵무새병, Q 열, 광견병, 호흡기 세포융합 바이러스 감염, 리노스포리디움증, 리노바이러스 감염, 리케치아 감염, 리케치아폭스, 리프트 밸리 열 (RVF), 로키산열 (RMSF), 로타바이러스 감염, 풍진, 살모넬라증, SARS (중증 급성 호흡기 증후군), 옴, 주혈흡충증, 패혈증, 시겔라증 (세균성 이질), 대상포진 (대상 포진), 천연두 (두창), 스포로트리쿰증, 스타필로코쿠스 식중독, 스타필로코쿠스 감염, 분선충증, 아급성 경화성 범뇌염, 매독, 조충증, 파상풍 (개구불능), 백선성 모창 (이발소 양진), 두부 백선 (두피의 백선), 체부 백선 (몸의 백선), 고부 백선 (완선), 수부 백선 (손의 백선), 흑색 백선, 족부 백선 (무좀), 조갑 백선 (조갑진균증), 전풍 (어루러기), 톡소카라증 (안구 유충 이행증 (OLM)), 톡소카라증 (내장 유충 이행증 (VLM)), 트라코마, 톡소플라스마증, 선모충증, 트리코모나스증, 편충증 (편충 감염), 결핵, 야토병, 장티푸스열, 우레아플라스마 우레아리티쿰 감염, 밸리 열, 베네수엘라 말 뇌염, 베네수엘라 출혈열, 바이러스성 폐렴, 웨스트 나일 열, 백색 사모증 (백색 백선), 예르시니아 슈도투베르쿨로시스 감염, 예르시니아증, 황열, 지카 바이러스, 및 접합진균증.
일부 경우에, 본원에 기재된 방법은 감염이 활성인지 또는 잠재성인지를 결정하는 것을 포함한다. 일부 경우에, 유전자 발현 정량화는 활성 감염을 검출, 예측, 진단, 또는 모니터링하는 방법을 제공할 수 있다. 일부 경우에, 본원에 기재된 방법은 활성 감염을 검출하는 것을 포함한다. 일부 경우에, 유전자 발현은 하나 이상의 관심 표적 핵산의 검출 또는 서열분석을 통해 정량화될 수 있다. 일부 경우에, 유전자 발현 정량화는 잠복 감염을 검출, 예측, 진단, 또는 모니터링하는 방법을 제공할 수 있다. 일부 경우에, 본원에 기재된 방법은 잠복 감염을 검출하는 것을 포함한다.
본원에 제공된 방법은 암을, 특히 이러한 암을 갖거나, 이러한 암을 가질 위험이 있거나, 또는 달리 이러한 암을 갖는 것으로 의심되는 대상체에서 검출하는데 사용될 수 있다. 암의 예는 하기를 포함하나 이에 제한되지는 않는다: 뇌암, 두경부 암, 인후암, 구강암, 유방암, 골암, 혈액암, 백혈병, 림프종, 폐암, 신장암, 췌장암, 위암, 결장암, 직장암, 피부암, 생식관암, 전립선암 등. 일부 경우에, 본원에 제공된 방법은 비-혈액암, 예컨대 실질 기관의 암 (예를 들어, 폐암, 유방암, 췌장암 등)을 검출하는데 특히 유용하다.
방법은 또한 대상체의 임의의 다른 유형의 질환 또는 병태를 검출하는데 유용할 수 있다. 종종, 이들은 희귀한 유전자 변이; 또는 샘플 내 총 핵산 집단의 단지 매우 작은 부분을 구성하는 핵산 서열을 검출하는데 유용하다.
병원체 또는 기관 핵산의 검출은 병원체 또는 기관 핵산의 존재 또는 부재 및/또는 병원체 또는 기관 핵산의 양을 결정하기 위해 병원체 또는 기관 핵산의 수준을 대조군 또는 참조 값과 비교하는 것을 수반할 수 있다. 수준은 정성적 또는 정량적 수준일 수 있다. 일부 경우에, 대조군 또는 참조 값은 무세포 병원체 핵산 또는 무세포 기관-유래 핵산의 존재 또는 부재를 나타내는 미리 결정된 절대값이다. 예를 들어, 대조군 값을 초과하는 무세포 병원체 핵산의 수준을 검출하는 것은 병원체 또는 감염의 존재를 나타낼 수 있지만, 대조군 값 미만의 수준은 병원체 또는 감염의 부재를 나타낼 수 있다. 대조군 값은 감염 없이 대상체의 무세포 핵산 수준을 분석함으로써 수득된 값일 수 있고; 일부 경우에, 대조군 값은 양성 대조군 값일 수 있고 특정한 감염을 갖거나, 또는 특정한 기관의 특정한 감염을 갖는 대상체로부터의 무세포 핵산을 분석함으로써 수득될 수 있다.
일부 경우에, 감염이 존재하는지 또는 존재하지 않는지 여부를 결정하기 위해 - 및 종종 결과를 정확하게 수득하기 위해 - 하기 방법 중 하나 이상이 적용될 수 있다: (i) 특허 WO 2015070086 A1에 기재된 바와 같이, 서열분석에 의해 수득된 판독물의 전체성은, 인간, 개, 고양이, 영장류로부터 또는 임의의 다른 숙주로부터의 것일 수 있는, 예를 들어 진뱅크 hg19 인간 참조 서열을 포함한, 큐레이팅된 숙주 게놈 참조 데이터베이스에 대해 정렬될 수 있음; (ii) 생물정보학 분석을 위한 데이터 프로세서는 병원체-관련 서열을 포함한, 단지 비-숙주 서열이 추가로 분석될 수 있도록 숙주 서열을 빼거나 격리시킬 수 있음; (iii) 데이터 프로세서는, 예를 들어 진뱅크 및 Refseq로부터의 참조 서열을 포함한, 큐레이팅된 미생물 참조 서열 데이터베이스에 비-숙주 서열을 정렬시킴으로써 하나 이상의 병원체의 존재를 결정할 수 있음; (iv) 통계적 분석 프레임워크는 하나 이상의 병원체의 존재가 통계적으로 유의한지 여부를 결정하기 위해 적용될 수 있음; 및/또는 (v) 일부 경우에 데이터 프로세서는 서열분석 전에 기지의 농도로 샘플에 스파이크된 대조군 분자에 의해 수득된 판독물의 수와 비교하여 병원체에 대해 수득된 판독물의 수를 기반으로 하여 존재하는 병원체의 양을 정량화할 수 있음.
대조군 값은 상이한 시점, 예컨대 시험 시점 전의 시점에서 대상체 (예를 들어, 감염을 갖거나, 또는 감염을 갖는 것으로 의심되는 대상체)로부터 수득된 무세포 병원체 또는 기관-특이적 핵산의 수준일 수 있다. 이러한 경우에, 상이한 시점에서의 수준의 비교는 감염의 존재, 특정한 기관에서의 감염의 존재, 개선된 감염, 또는 악화되는 감염을 나타낼 수 있다. 예를 들어, 시간 경과에 따라 특정 양에 의한 무세포 병원체 핵산의 증가는 감염의 존재 또는 악화되는 감염의 존재를 나타낼 수 있으며, 예를 들어, 원래 값과 비교하여 적어도 5%, 10%, 20%, 25%, 30%, 50%, 75%, 100%, 200%, 300%, 또는 400%의 병원체 또는 기관-특이적 무세포 핵산의 증가는 감염의 존재, 또는 악화되는 감염의 존재를 나타낼 수 있다. 다른 예에서, 원래 값과 비교하여 적어도 5%, 10%, 20%, 25%, 30%, 50%, 75%, 100%, 200%, 300%, 또는 400%의 병원체 또는 기관-특이적 무세포 핵산의 감소는 감염의 부재, 또는 개선된 감염의 부재를 나타낼 수 있다. 종종, 이러한 측정은 특정한 기간, 예컨대 매일, 격일, 매주, 격주, 매월, 또는 격월에 걸쳐 취해질 수 있다. 예를 들어, 1주에 걸쳐 적어도 50%의 병원체 또는 기관 무세포 핵산의 증가는 감염의 존재를 나타낼 수 있다.
대조군 또는 참조 값은 농도로서 또는 서열분석 판독물의 수로서 측정될 수 있다. 대조군 또는 참조 값은 병원체-의존성일 수 있다. 예를 들어, 에스케리키아 콜라이(Escherichia coli)의 대조군 값은 미코플라스마 호미니스(Mycoplasma hominis)에 대한 대조군 값보다 상이할 수 있다. 수준 또는 대조군 값의 데이터베이스는 하나 이상의 대상체로부터 수득된 샘플을 기반으로 하여, 하나 이상의 병원체에 대해, 하나 이상의 기관에 대해, 및/또는 하나 이상의 시점에 대해 생성될 수 있다. 이러한 데이터베이스는 큐레이팅되거나 또는 독점적일 수 있다. 권장된 처리 옵션은 상이한 역치 수준을 기반으로 할 수 있다. 예를 들어, 낮은 수준은 감염을 의미할 수 있지만 처리는 필요하지 않을 수 있고; 중간 수준은 항생제 처리로 이어질 수 있고; 높은 수준은 즉각 또는 심각한 개입을 요구할 수 있다.
본원에 제공된 방법은 높은 효율, 높은 정확도, 및/또는 높은 감수성을 갖는 서열분석 데이터의 생성을 가능하게 할 수 있다. 종종, 이러한 방법은 다른 방법, 예컨대 플레이트 배양 또는 폴리머라제 연쇄 반응 (PCR)에 의해 검출되지 않거나 또는 검출가능하지 않은 병원체 또는 감염을 검출할 수 있다. 방법은 일반적으로 매우 높은 감수성, 예를 들어, 80%, 85%, 90%, 95%, 99%, 또는 99.5% 초과의 감수성을 가질 수 있다. 방법은 일반적으로 매우 낮은 가양성률, 예를 들어, 5%, 4%, 3%, 2%, 1%, 0.1%, 0.05%, 0.01% 미만의 가양성률을 가질 수 있다.
본원에 제공된 방법은 높은 특이성, 높은 감수성, 높은 양성 예측치, 및/또는 낮은 음성 예측치를 제공할 수 있다. 본원에 제공된 방법은 적어도 70%, 75%, 80%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 또는 그 초과인 특이성 (또는 음성 퍼센트 일치) 및/또는 감수성 (또는 양성 퍼센트 일치)을 제공할 수 있다. 일부 경우에, 공칭 특이성은 70% 이상이다. 공칭 음성 예측치 (NPV)는 95% 이상이다. 일부 경우에, NPV는 적어도 95%, 95.5%, 96%, 96.5%, 97%, 97.5%, 98%, 98.5%, 99%, 99.5% 또는 그 초과이다.
감수성, 양성 퍼센트 일치 (PPA), 또는 진양성률 (TPR)은 TP/(TP+FN) 또는 TP/(감염된 대상체의 총 수)의 방정식을 지칭할 수 있으며, 여기서 TP는 진양성의 수이고, FN은 가음성의 수이다. 이전 방정식에 대한 분모를 계산할 때, 값은 감염을 검출하는 특정한 독립적인 방법 (예를 들어, 혈액 배양 또는 PCR)을 기반으로 하여 감염 결과의 총 수를 반영할 수 있다.
특이성, 음성 퍼센트 일치 또는 진음성률은 방정식 예컨대 TN/(TN+FP) 또는 TN/(비감염된 대상체의 총 수)를 지칭할 수 있으며, 여기서 TN은 진음성이고, FP는 가양성이다. 이전 방정식에 대한 분모를 계산할 때, 값은 감염을 검출하는 독립적인 방법 (예를 들어, 혈액 배양 또는 PCR)에 의해 결정된 바와 같은 실제 "비-감염"의 총 수를 반영할 수 있다.
일부 경우에, 샘플은 75%, 80%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.5% 또는 그 초과의 정확도로 감염된 것으로서 식별된다. 일부 경우에, 샘플은 95% 초과의 감수성으로 감염된 것으로서 식별된다. 일부 경우에, 샘플은 95% 초과의 특이성으로 감염된 것으로서 식별된다. 일부 경우에, 샘플은 95% 초과의 감수성 및 95% 초과의 특이성으로 감염된 것으로서 식별된다. 일부 경우에, 정확도는 훈련된 알고리즘을 사용하여 계산된다. 본원에 사용된 바와 같은 진단 정확도는 특이성, 감수성, 양성 예측치, 음성 예측치, 및/또는 오류 발견율을 포함한다. 일부 경우에, 본원에 기재된 방법은 70%, 75%, 80%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 또는 99.5% 초과의 특이성 및 감수성, 또는 적어도 95%, 95.5%, 96%, 96.5%, 97%, 97.5%, 98%, 98.5%, 99%, 99.5% 또는 그 초과의 양성 예측치 또는 음성 예측치를 갖는다.
감염의 진단을 위한 샘플을 분류할 때, 전형적으로 이원 분류기로부터의 4가지 가능한 결과가 있다. 예측으로부터의 결과가 p이고 실제 값이 또한 p이면, 그것은 진양성 (TP)이라 불리지만; 실제 값이 n이면 그것은 가양성 (FP)이라고 한다. 반대로, 진음성은 예측 결과 및 실제 값 둘 다가 n일 때 생성되고, 가음성은 예측 결과가 n이지만 실제 값이 p일 때이다. 질환 또는 장애 예컨대 감염을 검출하는 시험의 경우, 이러한 경우에 가양성은 대상체 시험이 양성이지만 실제로 감염을 갖지 않을 때 발생할 수 있다. 가음성은, 다른 한편으로는, 대상체가 실제 감염을 갖지만 시험이 이러한 감염에 대해 음성일 때 발생할 수 있다.
양성 예측치 (PPV), 또는 정밀도 비율, 또는 질환의 시험-후 확률은 정확하게 진단된 양성 시험 결과를 갖는 환자의 비율이다. 이는 하기 방정식을 적용함으로써 계산될 수 있다: PPV= TP/(TP+FP). PPV는 양성 시험이 그에 대해 시험되는 기본적인 조건을 반영하는 확률을 반영할 수 있다. 그러나 그의 값은 질환의 출혈율에 의존할 수 있으며, 이는 달라질 수 있다. 음성 예측치 (NPV)는 하기 방정식에 의해 계산될 수 있다: TN/(TN+FN). 음성 예측치는 정확하게 진단된 음성 시험 결과를 갖는 환자의 비율일 수 있다. PPV 및 NPV 측정은 적절한 질환 출현율 추정을 사용하여 유래될 수 있다.
일부 경우에, 본원에 기재된 방법의 서열분석 분석의 결과는 주어진 진단이 정확하다는 통계적 신뢰 수준을 제공한다. 일부 경우에, 이러한 통계적 신뢰 수준은 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 99.5% 초과이다.
모니터링 및 치료
방법은 대상체가 시간 경과에 따라 감염을 갖는지 여부를 모니터링하는 것을 포함할 수 있다. 예를 들어, 샘플은 감염의 존재 또는 부재를 결정하기 위해 다양한 시점에서 연속적으로 수집될 수 있다. 다른 예에서, 방법은 시간 경과에 따라 감염의 과정을 모니터링하는 것을 포함할 수 있다. 이러한 경우에, 샘플은 감염 또는 질병 동안 다양한 시점에서 연속적으로 수집될 수 있고; 일부 경우에, 연속-수집된 샘플은 감염이 개선되거나 또는 악화되는지 여부를 결정하기 위해 서로 비교된다.
본원에 제공된 방법은 대상체, 예를 들어, 감염을 갖거나, 또는 감염을 갖는 것으로 의심되는 대상체를 치료하는 방법을 포함한다. 치료는 대상체에서 감염을 감소, 예방 또는 제거할 수 있다. 일부 경우에, 치료는 감염 및/또는 염증을 감소, 예방 또는 제거할 수 있다.
치료는 염증 및/또는 감염을 감소 또는 제거하기 위해 약물 또는 다른 요법을 투여하는 것을 수반할 수 있다. 일부 경우에, 대상체는, 예를 들어, 감염 또는 염증의 생성을 예방하기 위해 약물로 예방적으로 치료된다.
감염 또는 염증의 증상을 개선 또는 감소시키는 임의의 요법 (약물을 포함함)이 대상체에게 투여될 수 있다. 예시적인 약물은 항생제, 항바이러스 약물, 암피실린, 술박탐, 페니실린, 반코마이신, 겐타마이신, 아미노글리코시드, 클린다마이신, 세팔로스포린, 메트로니다졸, 티멘틴, 티카르실린, 클라불란산 산, 세폭시틴, 항레트로바이러스 약물 (예를 들어, 고도로 활성인 항레트로바이러스 요법 (HAART), 리버스 트랜스크립타제 억제제, 뉴클레오시드/뉴클레오티드 리버스 트랜스크립타제 억제제 (NRTI), 비-뉴클레오시드 RT 억제제, 및/또는 프로테아제 억제제), 항체-약물 접합체, 및 이뮤노글로불린을 포함하나 이에 제한되지는 않는다.
방법은 치료 레지멘을 조정하는 방법을 포함할 수 있다. 예를 들어, 대상체는 기지의 감염을 가질 수 있고 감염을 치료하기 위해 약물을 투여받았을 수 있다. 본원에 제공된 방법은 약물 치료의 효능을 트래킹 또는 모니터링하는데 사용될 수 있다. 일부 경우에, 치료 레지멘은 이러한 모니터링의 결과에 따라 조정될 수 있다. 예를 들어, 감염이 약물 치료의 결과로서 개선되지 않는 것으로 본원에 제공된 방법이 나타내면, 치료 레지멘은 환자에게 주어진 약물 또는 치료의 유형을 바꾸거나, 이전 약물의 사용을 중지하거나, 약물의 사용을 계속하거나, 약물 치료의 용량을 증가시키거나, 또는 대상체의 치료 레지멘에 새로운 약물 또는 다른 치료를 첨가함으로써 조정될 수 있다. 일부 경우에, 치료 레지멘은 특정한 절차를 수반할 수 있다. 마찬가지로, 감염이 개선 또는 해결되는 것으로 방법이 나타내면, 조정하는 것은 약물 치료를 감소 또는 중지하는 것을 수반할 수 있다.
본원에 기재된 방법은 RNA 서열분석 (RNA-Seq)를 추가로 포함하거나 또는 RNA-Seq을 포함하는 방법과 조합될 수 있다. 조직 손상 또는 감염은 특정한 기관 또는 조직으로부터의 무세포 핵산의 방출로 이어질 수 있다. 예를 들어, RNA는 조직에서 아폽토시스 세포에 의해 방출될 수 있다. 무세포 RNA의 RNA-Seq는 신체의 상이한 조직의 건강 또는 상태를 나타낼 수 있다.
RNA 서열분석을 포함하는 방법은 감염되어 있는 특정한 기관 또는 조직의 검출을 가능하게 할 수 있고 기관의 건강을 검출 또는 모니터링하는데 사용될 수 있다. RNA-Seq는 기관의 건강을 조사하도록 독립적으로 사용될 수 있거나 또는 본원에 기재된 방법에 의해 검출된 감염이 특정한 기관의 감염이라는 증가된 신뢰를 제공할 수 있다. RNA-Seq 시험은 감염을 검출하는 방법과 동시에, 감염을 검출하는 방법 이후에, 또는 감염을 검출하는 방법 이전에 수행될 수 있다.
본원에 제공된 병원체를 검출하는 방법이 체액에서 무세포 RNA의 RNA 서열분석에 의해 감염의 부위를 검출하는 방법과 조합될 수 있는 많은 잠재적인 시나리오가 있다. 예를 들어, 본원에 제공된 방법은 병원체로부터 순환 무세포 핵산을 검출하는데 사용될 수 있다. 방법은 대상체의 혈액에서 기관-특이적 무세포 RNA의 증가를 검출하기 위해 RNA-Seq 시험을 수행하는 것을 추가로 포함할 수 있다. 시험 결과의 조합은 병원체가 기관에 감염되어 있다는 것을 나타낼 수 있고 심지어 기관 조직이 감염되는지를 결정할 수도 있다.
RNA-Seq 시험 (또는 일련의 RNA-Seq 시험)은 때때로 본원에 기재된 방법이 양성 시험 결과 (예를 들어, 병원체 감염의 검출)를 생산한 후에 수행될 수 있다. RNA-Seq 시험은 감염을 확증하는데 또는 감염의 위치를 식별하는데 특히 유용할 수 있다. 예를 들어, 방법은 순환 무세포 핵산을 분석함으로써 대상체에서 병원체의 존재를 검출할 수 있지만, 감염 부위는 불명확할 수 있다. 이러한 경우에, 방법은 감염이 기관 내에 있다는 것을 확증하기 위해 (예컨대 기관 조직으로부터 유래된 순환 무세포 RNA의 증가된 수준의 검출에 의해) 대상체로부터의 무세포 RNA를 서열분석하는 것을 추가로 포함할 수 있다. 이어서 RNA 서열분석 시험은 감염이 특정한 기관 또는 조직에서 악화되거나 또는 개선되고 있는지 여부, 또는 그것이 상이한 기관 또는 조직으로 퍼지고 있는지 여부를 결정하기 위해 시간 경과에 따라 반복될 수 있다. 마찬가지로, 병원체 검출 검정이 또한 시간 경과에 따라 반복될 수 있다.
일부 경우에, 본원에 기재된 병원체를 검출하는 방법은 RNA-Seq 시험의 수행 후에 수행된다. 예를 들어, 기관과 연관된 무세포 RNA의 혈장 수준에서의 증가는 기관의 감염과 같은 장애를 나타낼 수 있다. 이러한 경우에, 방법은 기관 감염과 연관된 순환 무세포 핵산의 수준을 검출하는 것을 추가로 포함할 수 있다.
본원에 기재된 방법은, 예를 들어, 시간 경과에 따라 감염 또는 치료를 모니터링하기 위해 반복될 수 있다. 본원에 기재된 방법은 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10일마다; 1, 2, 3, 4, 5, 또는 6주마다; 또는 1, 2, 3, 4, 5, 6, 7, 8, 또는 9개월마다 반복될 수 있다.
일부 경우에, 본원에 기재된 방법이 음성 시험 결과를 제공할 때 (예를 들어, 어떠한 병원체도 검출되지 않음), 방법은 대상체에서 병원체 핵산을 모니터링하기 위해 시간 경과에 따라 연속적으로 반복될 수 있다. 일부 경우에, RNA-Seq 검정은 또한 음성 병원체 시험 결과 또는 음성 RNA-Seq 결과 후에 시간 경과에 따라 연속적으로 반복된다.
일부 경우에, 본원에 기재된 방법이 양성 시험 결과 (예를 들어, 병원체의 검출)를 제공할 때, 치료 레지멘은 대상체에게 투여될 수 있다. 치료 레지멘은 약물 투여, 항생제 투여, 또는 항바이러스 투여를 포함할 수 있나 이에 제한되지는 않는다.
일부 경우에, 본원에 기재된 방법이 양성 시험 결과를 제공할 때, 방법 또는 시험은 감염의 과정을 모니터링하기 위해 시간 경과에 따라 연속적으로 반복될 수 있다. 예를 들어, 치료 레지멘은 감염의 상향 또는 하향 과정에 따라 조정될 수 있다. 다른 경우에, 어떠한 치료 레지멘도 처음에 수행되지 않을 수 있으며; 예를 들어, 감염은 감염이 추가적인 의학적 개입 없이 소거되는지를 보기 위해 "예의주시 대기" 또는 "주시 및 대기" 접근법으로 모니터링될 수 있다. 일부 경우에, 본원에 기재된 방법이 양성 시험 결과를 제공할 때, 약물은 투여될 수 있고, 감염의 과정은 약물이 얼마나 잘 작용하는지 또는 약물 치료가 언제 중단되는지를 검출하기 위해 모니터링될 수 있다. 일부 경우에, 요법은 필요에 따라 변경될 수 있다.
컴퓨터 제어 시스템
본 개시내용은 개시내용의 방법을 구현시키도록 프로그래밍되어 있는 컴퓨터 제어 시스템을 제공한다. 도 7은 본 개시내용의 방법을 구현하도록 프로그래밍되어 있거나 또는 달리 구성되어 있는 컴퓨터 시스템(701)을 제시한다.
컴퓨터 시스템(701)은 중앙 처리 유닛 (CPU, 또한 본원에서 "프로세서" 및 "컴퓨터 프로세서")(705)을 포함하며, 이는 싱글 코어 또는 멀티 코어 프로세서, 또는 병렬 처리를 위한 복수의 프로세서일 수 있다. 컴퓨터 시스템(701)은 또한 메모리 또는 메모리 위치(710) (예를 들어, 랜덤-액세스 메모리, 읽기-전용 메모리, 플래시 메모리), 전자 저장 유닛(715) (예를 들어, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스(720) (예를 들어, 네트워크 어댑터), 및 주변 장치(725), 예컨대 캐시, 다른 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터를 포함한다. 메모리(710), 저장 유닛(715), 인터페이스(720) 및 주변 장치(725)는 마더보드와 같은, 통신 버스 (실선)를 통해 CPU(705)와 통신한다. 저장 유닛(715)은 데이터를 저장하기 위한 데이터 저장 유닛 (또는 데이터 저장소)일 수 있다. 컴퓨터 시스템(701)은 통신 인터페이스(720)의 도움으로 컴퓨터 네트워크 ("네트워크")(730)에 작동가능하게 커플링될 수 있다. 네트워크(730)은 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 네트워크(730)은 일부 경우에 전기통신 및/또는 데이터 네트워크이다. 네트워크(730)는 하나 이상의 컴퓨터 서버를 포함할 수 있으며, 이는 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있다. 네트워크(730)는, 일부 경우에 컴퓨터 시스템(701)의 도움으로, 피어-투-피어 네트워크를 구현할 수 있으며, 이는 컴퓨터 시스템(701)에 커플링된 장치가 클라이언트 또는 서버로서 동작하는 것을 가능하게 할 수 있다.
CPU(705)는 기계-판독가능 명령어의 서열을 실행할 수 있으며, 이는 프로그램 또는 소프트웨어 내에서 구현될 수 있다. 명령어는 메모리(710)와 같은 메모리 위치 내에서 저장될 수 있다. 명령어는 CPU(705)에 관한 것일 수 있으며, 이는 후속적으로 프로그래밍하거나 또는 달리 본 개시내용의 방법을 구현하도록 CPU(705)를 구성할 수 있다. CPU(705)에 의해 수행된 작동의 예는 호출, 해독, 실행, 및 라이트백을 포함할 수 있다.
CPU(705)는 회로, 예컨대 집적 회로의 일부일 수 있다. 시스템(701)의 하나 이상의 다른 구성성분은 회로 내에서 포함될 수 있다. 일부 경우에, 회로는 주문형 집적 회로 (ASIC)이다.
저장 유닛(715)은 드라이버, 라이브러리 및 저장된 프로그램과 같은 파일을 저장할 수 있다. 저장 유닛(715)은 사용자 데이터, 예를 들어, 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 컴퓨터 시스템(701)은 일부 경우에 컴퓨터 시스템(701) 외부에 있는, 예컨대 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(701)과 통신하는 원격 서버 상에 위치된 하나 이상의 추가적인 데이터 저장 유닛을 포함할 수 있다.
컴퓨터 시스템(701)은 네트워크(730)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템(701)은 사용자의 원격 컴퓨터 시스템 (예를 들어, 건강관리 제공자)과 통신할 수 있다. 원격 컴퓨터 시스템의 예는 개인용 컴퓨터 (예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC (예를 들어, 애플(Apple)® 아이패드 (iPad), 삼성(Samsung)® 갤럭시 탭 (Galaxy Tab)), 전화기, 스마트폰 (예를 들어, 애플® 아이폰 (iPhone), 안드로이드(Android)-사용가능 장치, 블랙베리(Blackberry)®), 또는 개인 휴대정보 단말기를 포함한다. 사용자는 네트워크(730)를 통해 컴퓨터 시스템(701)에 액세스할 수 있다.
본원에 기재된 바와 같은 방법은 컴퓨터 시스템(701)의 전자 저장 위치, 예컨대, 예를 들어, 메모리(710) 또는 전자 저장 유닛(715) 상에 저장된 기계 (예를 들어, 컴퓨터 프로세서) 실행가능 코드에 의해 구현될 수 있다. 기계 실행가능 또는 기계 판독가능 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 동안, 코드는 프로세서(705)에 의해 실행될 수 있다. 일부 경우에, 코드는 저장 유닛(715)으로부터 검색되고 프로세서(705)에 의한 레디 액세스를 위해 메모리(710) 상에 저장될 수 있다. 일부 상황에서, 전자 저장 유닛(715)은 배제될 수 있고, 기계-실행가능 명령어는 메모리(710) 상에 저장된다.
코드는 프리-컴파일링되고 코드를 실행하도록 채택된 프로세서를 갖는 기계와 함께 사용하도록 구성될 수 있거나, 또는 런타임 동안 컴파일링될 수 있다. 코드는 코드가 프리-컴파일링된 또는 컴파일링된 방식으로 실행되도록 하기 위해 선택될 수 있는 프로그래밍 언어로 공급될 수 있다.
본원에 제공된 시스템 및 방법, 예컨대 컴퓨터 시스템(701)의 측면은, 프로그래밍으로 구현될 수 있다. 기술의 다양한 측면은 전형적으로 기계 판독가능 매체의 유형 상에서 운반되거나 또는 그러한 유형 내에서 구현되는 기계 (또는 프로세서) 실행가능 코드 및/또는 연관된 데이터의 형태의 "생산품" 또는 "제조품"으로서 생각될 수 있다. 기계-실행가능 코드는 전자 저장 유닛, 예컨대 메모리 (예를 들어, 판독 전용 메모리, 랜덤-액세스 메모리, 플래시 메모리) 또는 하드 디스크 상에 저장될 수 있다. "저장" 유형 매체는 컴퓨터, 프로세서 등의 임의의 또는 모든 유형의 메모리, 또는 그의 연관된 모듈, 예컨대 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등을 포함할 수 있으며, 이는 소프트웨어 프로그래밍을 위해 언제든지 비일시적 저장을 제공할 수 있다. 소프트웨어의 전부 또는 일부는 때때로 인터넷 또는 다양한 다른 전기통신 네트워크를 통해 통신될 수 있다. 이러한 통신은, 예를 들어, 하나의 컴퓨터 또는 프로세서로부터 또 다른 것으로, 예를 들어, 관리 서버 또는 호스트 컴퓨터로부터 어플리케이션 서버의 컴퓨터 플랫폼으로 소프트웨어의 로딩을 가능하게 할 수 있다. 따라서, 소프트웨어 요소를 보유할 수 있는 또 다른 유형의 매체는 지역 장치 사이의 물리적 인터페이스를 가로질러, 유선 및 광학 지상통신망 네트워크를 통해 및 다양한 에어링크를 넘어 사용된 것과 같은 광학, 전기 및 전자기파를 포함한다. 이러한 파장을 운반하는 물리적 요소, 예컨대 유선 또는 무선 링크, 광학 링크 등은 또한 소프트웨어를 보유하는 매체로서 간주될 수 있다. 본원에 사용될 때, 비일시적, 유형의 "저장" 매체에 제한되지 않으면, 컴퓨터 또는 기계 "판독가능 매체"와 같은 용어는 실행을 위해 프로세서에 명령어를 제공하는데 참여하는 임의의 매체를 지칭한다.
따라서, 기계 판독가능 매체, 예컨대 컴퓨터-실행가능 코드는 유형의 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하나 이에 제한되지는 않는 많은 형태를 취할 수 있다. 비휘발성 저장 매체는, 예를 들어, 광학 또는 자기 디스크, 예컨대 임의의 컴퓨터(들) 내의 임의의 저장 장치 등을 포함하며, 예컨대 도면에 제시된 데이터베이스 등을 구현하는데 사용될 수 있다. 휘발성 저장 매체는 다이나믹 메모리, 예컨대 이러한 컴퓨터 플랫폼의 메인 메모리를 포함한다. 유형의 전송 매체는 컴퓨터 시스템 내에서 버스를 포함하는 전선을 포함한, 동축 케이블; 구리 전선 및 광섬유를 포함한다. 반송파 전송 매체는 전기 또는 전자기 신호, 또는 음파 또는 광파 예컨대 고주파 (RF) 및 적외선 (IR) 데이터 통신 동안 생성된 것들의 형태를 취할 수 있다. 따라서 컴퓨터-판독가능 매체의 일반적 형태는 예를 들어 하기를 포함한다: 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 천공 카드 종이 테이프, 홀의 패턴을 갖는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령어를 수송하는 반송파, 그러한 반송파를 수송하는 케이블 또는 링크, 또는 그로부터 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체. 이들 형태의 많은 컴퓨터 판독가능 매체는 실행을 위해 프로세서에 하나 이상의 명령어의 하나 이상의 서열을 전달하는데 있어서 수반될 수 있다.
컴퓨터 시스템(701)은 대상체의 진단 또는 대상체를 위한 치료적 개입을 포함할 수 있는 리포트의 출력을 제공하기 위한 사용자 인터페이스 (UI)(740)를 포함하는 전자 디스플레이(735)를 포함하거나 또는 그와 통신될 수 있다. UI의 예는, 제한 없이, 그래픽 사용자 인터페이스 (GUI) 및 웹-기반 사용자 인터페이스를 포함한다. 분석은 리포트로서 제공될 수 있다. 리포트는 대상체에게, 건강 관리 전문가, 실험실-노동자, 또는 다른 개인에게 제공될 수 있다.
본 개시내용의 방법 및 시스템은 하나 이상의 알고리즘에 의해서 구현될 수 있다. 알고리즘은 중앙 처리 유닛(705)에 의해 실행 시 소프트웨어의 방식에 의해 구현될 수 있다. 알고리즘은, 예를 들어, 병원체 또는 다른 표적 핵산의 풍부화, 서열분석 및/또는 검출을 용이하게 할 수 있다.
환자 또는 대상체에 관한 정보는 컴퓨터 시스템, 예를 들어, 환자 배경, 환자 의료 병력, 또는 의료 스캔에 입력될 수 있다. 컴퓨터 시스템은 본원에 기재된 방법으로부터의 결과를 분석하거나, 환자 또는 의사에게 결과를 보고하거나, 또는 치료 계획을 제안하는데 사용될 수 있다.
시약 및 키트
본원에 기재된 방법 중 하나 이상을 실행하기 위한 시약 및 그의 키트가 또한 제공된다. 대상 시약 및 그의 키트는 크게 달라질 수 있다. 관심 시약은 대상체로부터 수득된 샘플 내 하나 이상의 병원체 또는 다른 표적 핵산의 식별, 검출, 및/또는 정량화에 사용하도록 특이적으로 디자인된 시약을 포함한다. 키트는 본원에 기재된 방법 예컨대 PCR 및 서열분석을 사용하여 핵산 추출 및/또는 핵산 검출을 수행하는데 필요한 시약을 포함할 수 있다. 키트는 데이터 분석을 위한 소프트웨어 패키지를 추가로 포함할 수 있으며, 이는 시험 프로파일과의 비교를 위한 참조 프로파일을 포함할 수 있고, 특히 참조 데이터베이스를 포함할 수 있다. 키트는 완충제 및 물과 같은 시약을 포함할 수 있다.
이러한 키트는 또한 정보, 예컨대 과학 문헌 참고물, 패키지 삽입 물질, 임상 시험 결과, 및/또는 이들의 요약서 등을 포함할 수 있으며, 이는 조성물의 활성 및/또는 이점을 나타내거나 수립하고/하거나, 용량, 투여, 부작용, 약물 상호작용, 또는 건강 관리 제공자에게 유용한 다른 정보를 기재한다. 이러한 키트는 또한 데이터베이스에 액세스하기 위한 명령어를 포함할 수 있다. 이러한 정보는 다양한 연구, 예를 들어, 생체내 모델을 수반하는 실험 동물을 사용한 연구 및 인간 임상 실험을 기반으로 하는 연구의 결과를 기반으로 할 수 있다. 본원에 기재된 키트는 전문의, 간호사, 약사, 처방전 취급인 등을 포함한, 건강 관리 제공자에게 제공, 판매 및/또는 홍보될 수 있다. 키트는 또한, 일부 실시양태에서, 소비자에게 직접적으로 판매될 수 있다.
본 개시내용은 또한 서열분석 라이브러리를 생성하는 키트를 제공한다. 키트는 본원에 기재된 적어도 1개의 합성 핵산 및 서열분석 라이브러리 반응을 위한 시약을 포함할 수 있다. 일부 경우에, 키트는 하나 이상의 서열분석 어댑터 및 하나 이상의 담체 핵산을 포함한다. 키트 내 담체 핵산은 하기를 포함할 수 있다: i) 말단-복구에 저항하는 하나 이상의 담체 핵산; ii) 라이게이션에 저항하는 하나 이상의 담체 핵산; iii) 증폭에 저항하는 하나 이상의 담체 핵산; iv) 고정화 태그를 포함한 하나 이상의 담체 핵산; v) 크기-기반 고갈을 가능하게 하는 크기를 갖는 하나 이상의 담체 핵산; 및/또는 vi) 그의 임의의 조합. 예를 들어, 키트는 하나 이상의 서열분석 어댑터 및 말단-복구에 저항하는 하나 이상의 담체 핵산을 포함할 수 있다.
키트에서 서열분석 라이브러리 어댑터의 양 및 하나 이상의 담체 핵산의 양은 일정한 비로 있을 수 있다. 일부 경우에, 서열분석 라이브러리 어댑터의 양 대 하나 이상의 담체 핵산의 양의 비는 1:10, 1:5, 1:1, 5:1, 10:1, 20:1, 50:1, 100:1, 500:1, 또는 1000:1 이하이다. 예를 들어, 서열분석 라이브러리 어댑터의 양 대 하나 이상의 담체 핵산의 양의 비는 1:1 이하일 수 있다.
담체 핵산 (CNA)
본 개시내용은 담체 핵산 (CNA), 특히 서열분석 검정의 하나 이상의 단계로부터 그들을 배제하도록 디자인된 특색을 함유하는 은밀한 CNA를 제공한다. 본 개시내용은 또한 서열분석 검정의 하나 이상의 단계를 피할 수 있는 CNA를 사용하는 방법이 제공된다. 본원에 제공된 CNA가 은밀하게 거동할 수 있을지라도, 이들은 일반적으로 여전히 샘플 내 총 핵산 양을 증가시킬 수 있으며, 그에 의해 전형적인 "담체" 핵산으로서 역할을 한다. 담체 핵산은 일반적으로 샘플로부터 서열분석 라이브러리를 제조할 때 수율 및/또는 효능을 개선시키기 위해 핵산 양을 부스트하고 궁극적으로 서열분석 검정의 정확도 및/또는 감수성을 개선시킬 수 있다. 본원에 제공된 변형된 CNA를 포함한, 담체 핵산의 첨가는 샘플이 적은 양, 예를 들어, 1 ng 미만의 표적 핵산을 함유할 때 특히 유용할 수 있는데, 이는 적은 양의 핵산이 라이브러리 생성의 하나 이상의 단계 (예를 들어, 핵산 추출, 핵산 정제, 핵산 말단-복구, 어댑터 라이게이션 등) 또는 서열분석 검정에서의 나중 단계 예컨대 증폭의 효능 및/또는 수율을 감소시킬 수 있기 때문이다. DNA- 및/또는 RNA-기반 핵산은, 임의의 그의 구조적인 형태에서 및/또는 하나 이상의 화학적 변형이 있거나 없이, CNA로서 관심 핵산의 샘플에 첨가될 수 있다. 전형적으로, CNA는, 예를 들어, 억제에 의해 또는 서열분석 처리량의 금지 부분을 취함으로써 핵산 서열분석을 방해하지 않는다. 일부 경우에, DNA CNA는 DNA 샘플 및/또는 RNA 샘플에 첨가된다. 일부 경우에, RNA CNA는 DNA 샘플 및/또는 RNA 샘플에 첨가된다.
표 6: 예시적인 담체 핵산 서열
Figure pat00020
본원에 제공된 CNA는 서열분석 라이브러리 생성의 하나 이상의 단계, 예컨대 말단-복구, 단편화, 증폭, 라이게이션, 및 서열분석을 피하도록 디자인 또는 변형될 수 있다. CNA는 서열분석 라이브러리 제조에서의 하나 이상의 단계에 첨가될 수 있다. 예를 들어, 도 8에 제시된 바와 같이, CNA는 샘플 수집(802) 동안 또는 직후에, 샘플 제조, 예컨대 혈장의 단리(803) 동안 또는 후에; 핵산 단리(804) 또는 추출(805) 전에, 동안 또는 후에; 핵산 정제 전에, 동안, 또는 후에; 핵산의 말단 복구(806) 전에, 동안, 또는 후에; 라이게이션(807) 또는 핵산에 어댑터를 부착하기 위한 다른 절차 전에, 동안 또는 후에; 및/또는 증폭(808) 전에 또는 동안 첨가될 수 있다. 특정 경우에, CNA는 서열분석 검정에서, 예를 들어, 효소 소화, 친화도-기반 고갈, 및/또는 크기-기반 고갈에 의해 단계로부터 제거될 수 있다. 예를 들어, 본원에 제공된 CNA는 서열분석 라이브러리에 포함되는 것으로부터 그들을 배제하려는 방식으로 서열분석 검정에서의 단계로부터 물리적으로 제거될 수 있다. 일부 경우에, CNA는 서열분석 라이브러리 그 자체로부터 물리적으로 제거될 수 있다.
부착에 저항하는 CNA
본원에 제공된 CNA는 하나 이상의 서열분석 어댑터에 및/또는 다른 분자 예컨대 표적 핵산에 부착 또는 라이게이되는 것에 저항할 수 있다. 일부 경우에, CNA는 어댑터가 CNA에 비해 표적 핵산에 우선적으로 라이게이션하도록 디자인될 수 있다. 어댑터 또는 표적 핵산에 대한 라이게이션 또는 부착을 회피함으로써, CNA는 또한 서열분석되는 것을 회피할 수 있다.
일부 경우에, 특히 라이게이션이 샘플 내 핵산에 어댑터를 부착하는데 사용될 때, CNA는 라이게이션 반응에 포함되는 것에 저항하도록 디자인될 수 있다. 일반적으로, 라이게이션 반응은 포스포디에스테르 결합을 통해 연결 2개의 핵산을 연결하는 것을 수반한다. 일부 경우에, CNA는 라이게이션 반응에 저항하는 2차 구조 (예를 들어, 단일-가닥 구조, 헤어핀 구조)를 갖도록 디자인될 수 있다. 2차 구조는 RNA, DNA, ssDNA, dsDNA, DNA-RNA 하이브리드, 및/또는 다른 특색을 함유할 수 있다. 일부 경우에, CNA는 차단 기 또는 라이게이션을 저해하도록 디자인된 다른 구조를 함유할 수 있다.
본원에 제공된 CNA는 부착 또는 라이게이션에 저항하거나 또는 그를 감소시키도록 디자인된 단일-가닥 및/또는 이중-가닥 2차 구조를 함유할 수 있다. CNA는 하나 이상의 단일-가닥 영역을 함유할 수 있거나, 또는 전체적으로 단일-가닥일 수 있다. 단일-가닥 영역은 CNA의 임의의 위치에서 발생할 수 있지만, 일부 바람직한 경우에, CNA는 그의 말단 근처에서 또는 그 중 한쪽 또는 양쪽에서 단일-가닥 영역을 함유한다. 예를 들어, CNA는 한쪽 또는 양쪽 말단으로부터 50개의 뉴클레오티드 이내, 예를 들어, 한쪽 또는 양쪽 말단으로부터 50 nt, 45 nt, 40 nt, 35 nt, 30 nt, 25 nt, 20 nt, 15 nt, 10 nt, 또는 5 nt 이내의 단일-가닥 영역을 함유할 수 있다. 일부 바람직한 경우에, CNA는 그의 말단의 한쪽 또는 양쪽에서 (예를 들어, 5' 말단에서, 3' 말단에서) 단일-가닥 영역을 함유할 수 있다. 일부 경우에, CNA는 전체적으로 이중-가닥일 수 있거나 또는 간단히 이중-가닥인 영역을 함유한다. 2차 구조 (특히 헤어핀 루프)는 리가제에 의한 CNA의 결합 및/또는 인식을 방지할 수 있다. 일부 경우에, CNA는 Y-형 이중-가닥 핵산을 함유할 수 있어, CNA의 Y-형 부분은 또 다른 핵산에 라이게이션 또는 부착되지 않을 수 있다.
본원에 제공된 CNA에 존재할 수 있는 헤어핀 구조는 일반적으로 루프 및 혼성화 영역, 예를 들어, 헤어핀 스템을 보유한다. 예를 들어, 헤어핀은 이중-가닥 혼성화 영역을 형성하는 2개의 상보적 영역 및 2개의 상보적 영역을 연결하는 루프를 포함할 수 있다. 상보적 영역은 적어도 5, 10, 15, 20, 30, 40, 50개의 뉴클레오티드를 포함할 수 있다. 루프 영역은 적어도 3, 4, 5, 10, 15, 20, 30, 40, 50개의 뉴클레오티드를 포함할 수 있다. 일반적으로, 헤어핀 구조는 이들이 종종 단지 단일-가닥 핵산이므로, 부착 없이 제조하는 것이 비교적 쉬울 수 있다. 헤어핀은 RNA 또는 DNA를 함유할 수 있다.
본원에 제공된 CNA는 부착 또는 라이게이션에 저항하거나 또는 그를 감소시키는 원형 구조를 함유할 수 있다. 원형 구조는 원형 DNA, 원형 RNA, 또는 원형 DNA-RNA 하이브리드일 수 있다. 일부 경우에, 원형 구조는 원형 DNA이다. 원형 구조는 이중-가닥 또는 단일-가닥일 수 있다. 원형 구조는 특정 길이, 예를 들어, 적어도 5 nt, 10 nt, 20 nt, 30 nt, 32 nt, 40 nt, 50 nt, 60 nt, 70 nt, 80 nt, 90 nt, 100 nt, 120 nt, 140 nt, 160 nt, 180 nt, 200 nt, 250 nt, 300 nt, 400 nt, 500 nt, 또는 1000 nt일 수 있다. 일부 경우에, 원형 구조는 약 30 내지 약 100개의 뉴클레오티드를 포함한다. 일부 경우에, 원형 구조는 약 10개의 뉴클레오티드 내지 약 10,000개의 뉴클레오티드 범위 이내, 예컨대 약 100 뉴클레오티드 내지 약 1,000개의 뉴클레오티드 범위 이내의 크기를 가질 수 있다. 원형 구조가 이중-가닥인 경우에, 원형 구조는 적어도 10 bp, 20 bp, 30 bp, 40 bp, 50 bp, 60 bp, 70 bp, 80 bp, 90 bp, 100 bp, 120 bp, 140 bp, 160 bp, 180 bp, 200 bp, 250 bp, 300 bp, 400 bp, 500 bp, 또는 1000 bp의 크기를 가질 수 있다. 일부 경우에, 이중-가닥 원형 구조는 약 30 bp 내지 100 bp를 포함한다. 일부 경우에, 이중-가닥 원형 구조는 약 10개의 염기 쌍 내지 약 10,000개의 염기 쌍 이내, 예컨대 약 100개의 염기 쌍 내지 약 1,000개의 염기 쌍 범위 이내의 크기를 가질 수 있다. 일부 경우에, 원형 구조는 CNA가 특정 효소, 예를 들어, 엔도뉴클레아제로부터의 소화에 저항할 수 있게 할 수 있다. 예를 들어, CNA는 이중-가닥 원형 구조를 함유할 수 있고, 엔도뉴클레아제, 예컨대 이중-가닥 선형 DNA를 소화하지만 이중-가닥 원형 DNA를 소화하지 않는 엔도뉴클레아제에 의한 소화에 저항할 수 있다. 일부 경우에, CNA는 주로 또는 전체적으로 원형, 예를 들어, 원형 이중-가닥 DNA, 원형 단일-가닥 DNA이다. 일부 경우에, CNA는 엔도뉴클레아제, 예를 들어, CNA의 2차 구조에 결합하고/거나 그를 인식하지 않는 엔도뉴클레아제에 의한 소화에 저항하는 2차 구조를 포함한다. 예를 들어, CNA는 단일-가닥 DNA를 인식하지만 이중-가닥 DNA를 인식하지 않는 엔도뉴클레아제에 의한 소화에 저항하는 이중-가닥 DNA를 포함할 수 있다. 또 다른 예를 들어, CNA는 이중-가닥 DNA를 인식하지만 단일-가닥 DNA를 인식하지 않는 엔도뉴클레아제에 의한 소화에 저항하는 단일-가닥 DNA를 포함할 수 있다.
일부 경우에, CNA는 하나 이상의 닉을 갖는 이중-가닥이다. 닉은 가닥 중 하나의 인접한 뉴클레오티드 사이에 어떠한 포스포디에스테르 결합도 없는 이중-가닥 핵산 분자에서의 불연속성일 수 있다. 닉은 효소, 예를 들어, 닉킹 엔도뉴클레아제에 의해 생성될 수 있다. 일부 경우에, 닉은 효소, 예를 들어, 리가제에 의해 라이게이션될 수 있다. 특정 경우에, 닉은 엑소뉴클레아제 소화 및/또는 라이게이션에 대해 보호된다.
CNA는 라이게이션 반응에 저항하는 하나 이상의 변형 (예를 들어, 변형된 뉴클레오티드)을 포함할 수 있다. 일부 경우에, 변형은 CNA가 핵산에 라이게이션하는 것을 방지하는 차단 기일 수 있다. 예를 들어, CNA는 3' 말단, 5' 말단, 또는 양쪽 말단에서 차단 기를 가질 수 있다. 차단 기는 역전된 데옥시-당을 포함할 수 있다. 역전된 데옥시-당은 역전된 데옥시-당, 역전된 디데옥시-당, 또는 다른 역전된 데옥시 당일 수 있다. 역전된 데옥시-당은 3'역전된 데옥시-당 또는 5' 역전된 디데옥시-당일 수 있다. 예를 들어, 차단 기는 3' 역전된 티미딘 (dT), 3' 역전된 아데노신 (dA), 3' 역전된 구아노신 (dG), 3' 역전된 시티딘 (dC), 3' 역전된 데옥시유라실 (dU), 5' 역전된 디데옥시티미딘 (ddT), 5' 역전된 디데옥시아데노신 (ddA), 5' 역전된 디데옥시구아노신 (ddG), 5' 역전된 디데옥시시티딘 (ddC), 5' 역전된 디데옥시우라실 (ddU), 또는 그의 임의의 유사체일 수 있다. 일부 경우에, CNA는 3' 역전된 티미딘을 포함한다. 일부 경우에, CNA는 5' 역전된 디데옥시티미딘을 포함한다. 일부 경우에, CNA는 3' 역전된 티미딘 및/또는 5' 역전된 디데옥시티미딘을 포함한다. 일부 경우에, 차단 기는 디데옥시시티딘을 포함한다. 일부 경우에, 변형은 우라실 (U) 염기, 2'OMe 변형된 RNA, C3-18 스페이서 (예를 들어, 3-18개의 연속적 탄소 원자를 갖는 구조), 비오틴, 디-데옥시뉴클레오티드 트리포스페이트, 에틸렌 글리콜, 아민, 및/또는 포스페이트를 포함한다.
증폭에 저항하는 담체 핵산
CNA는 핵산 증폭을 억제하는 1개 이상의 핵산 변형을 포함할 수 있으며, 그에 의해 CNA가 서열분석 반응에서 증폭되는 것을 방지한다. 일부 경우에, 변형은 핵산 폴리머라제가 기능화하는 것을, 예를 들어, 멈추거나 억제하는 것 (예를 들어, 지연시키는 것)에 의해 핵산 폴리머라제가 방지할 수 있다. 일부 경우에, 변형은 하나 이상의 무염기성 부위를 포함할 수 있다. 무염기성 부위는 염기를 갖지 않는 핵산에서의 위치를 지칭할 수 있다. 예를 들어, 핵산에서의 무염기성 부위는 염기 없이 1'-말단에 있을 수 있다. 무염기성 부위는 아퓨린 또는 아피리미딘 구조, 염기 유사체, 또는 포스페이트 백본의 유사체를 가질 수 있다. 일부 경우에, 무염기성 부위는 아미드 결합에 의해 연결된 N-(2-아미노에틸)-글리신의 백본, 테트라히드로푸란, 또는 1', 2'-디데옥시리보스 (디스페이서(dSpacer))를 갖는다. 일부 경우에, 변형은 무염기성 부위 및 변형된 당 잔기, 예를 들어, 3개의 탄소 원자를 갖는 당 잔기, 예컨대 백본을 따라 연결성을 보유하기 위한 부분 리보스 구조 (예를 들어, 단지 3', 4', 5' 말단 탄소 원자가 보유됨)를 포함할 수 있다.
무염기성 부위는 폴리머라제가 CNA를 증폭시키는 것을 방지할 수 있다. 일부 경우에, CNA에서의 무염기성 부위는 무염기성 부위당 한 자릿수만큼 폴리머라제 (예를 들어, Taq 폴리머라제)를 억제할 수 있다.
본원에 제공된 CNA는 다중 무염기성 부위, 예를 들어, 다중 내부 무염기성 부위 및 하나 이상의 다른 특색을 포함할 수 있다. CNA는 또한 하나 이상의 라이브러리 제조 반응에의 참여를 방지하는 특색을 함유할 수 있다. 예를 들어, CNA는 임의의 조합으로 하나 이상의 내부 무염기성 부위, 3' 역전된 dT, 및/또는 5' 역전된 ddT를 포함할 수 있다.
일부 경우에, CNA는 핵산 증폭을 억제하는 다른 변형을 함유할 수 있다. 일부 경우에, 핵산 증폭을 억제하는 변형은 우라실 (U) 염기, 2'OMe 변형된 RNA, C3-18 스페이서 (예를 들어, 3-18개의 연속적 탄소 원자를 갖는 구조, 예컨대 C3 스페이서), 에틸렌글리콜 다량체 스페이서 (예를 들어, 스페이서 18 (헥사-에틸렌글리콜 스페이서)), 비오틴, 디-데옥시뉴클레오티드 트리포스페이트, 에틸렌 글리콜, 아민, 및/또는 포스페이트를 포함한다.
변형
CNA는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개, 또는 그 초과의 수의 변형 (예를 들어, 무염기성 부위)을 포함할 수 있다. CNA가 다중 변형 (예를 들어, 핵산 증폭을 억제하는 변형)을 포함하는 경우에, 변형은 클러스터링될 수 있다 (예를 들어, 변형은 연속적으로 서로 옆에 위치함). 일부 경우에, 하나 이상의 변형은 CNA의 5' 말단에 있다. 일부 경우에, 하나 이상의 변형은 CNA의 3' 말단에 있다. 일부 경우에, 하나 이상의 변형은 CNA의 3' 말단 및 5' 말단 양쪽에 있다. 일부 경우에, 하나 이상의 변형은 CNA의 내부 위치에 있다. 예를 들어, CNA는 하나 이상의 내부 디스페이서 (idsp)를 포함할 수 있다.
본원에 기재된 변형은 2-아미노퓨린, 2,6-디아미노퓨린, 5-브로모 dU, 데옥시우리딘, 역전된 dT, 역전된 디데옥시-T, 디데옥시-C, 5-메틸 dC, 데옥실노신, 범용 염기 예컨대 5-니트로인돌, 2'-O-메틸 RNA 염기, 이소-dC, 이소-dG, 리보뉴클레오티드, 모르폴리노, 단백질 뉴클레오티드 유사체, 글리콜 뉴클레오티드 유사체, 잠금된 뉴클레오티드 유사체, 트레오스 뉴클레오티드 유사체, 쇄 종결 뉴클레오티드 유사체, 티오우리딘, 슈도우리딘, 디히드로우리딘, 퀘오신, 와이오신 뉴클레오티드, 무염기성 부위, 관능기, 예를 들어, 알킨 관능기, 아지드 관능기 예컨대 아지드 (NHS 에스테르, 비자연 결합, 예를 들어, 포스포로티오에이트 결합, 스페이서, 예를 들어, 2'-디데옥시리보스 (디스페이서), 헥산디올, 광-절단가능한 스페이서, 상이한 수의 탄소 원자를 갖는 상이한 길이 스페이서, 예를 들어, C3 스페이서 포스포르아미다이트, C9 스페이서, 예를 들어, 트리에틸렌 글리콜 스페이서, CI8 18-원자 헥사-에틸렌글리콜 스페이서를 포함할 수 있다. 이러한 스페이서는 CNA 또는 어댑터의 5'-말단 또는 3'-말단에서 또는 내부에서 혼입될 수 있다. 게다가, CNA의 적어도 1개의 가닥은, 예를 들어, 5' 포스페이트, 또는 3' 포스페이트 (예를 들어, 상보적 가닥 상에서) 중 어느 하나, 또는 둘 다를 포함하는 인산화에 의해 변형될 수 있다.
효소 인식 부위
CNA는 CNA가 서열분석 라이브러리로부터 제거되는 것을 가능하게 하는 특징을 포함할 수 있다. 이러한 특징은 효소 인식 부위를 포함할 수 있다. 예를 들어, CNA는 하나 이상의 효소 인식 부위를 포함할 수 있어, 합성 핵산은 효소에 의해 분해될 수 있다. 일부 경우에, CNA는 표적 핵산 및 어댑터에 존재하지 않는 하나 이상의 효소 인식 부위를 포함할 수 있다. 따라서, 담체 핵산은 표적 핵산 또는 어댑터의 효소적 분해에서 생성되지 않으면서 인식 부위를 표적하는 효소에 의해 제거될 수 있다.
일부 경우에, CNA는 뉴클레아제 인식 부위를 포함할 수 있다. 예를 들어, 뉴클레아제 인식 부위는 엔도뉴클레아제 인식 부위일 수 있다. 엔도뉴클레아제는 유형 I, 유형 II (유형 IIS, 유형 IIG를 포함함), 유형 III 또는 유형 IV 엔도뉴클레아제일 수 있다. 일부 경우에, 엔도뉴클레아제 인식 부위는 제한 뉴클레아제 인식 부위이다. 예를 들어, 엔도뉴클레아제 인식 부위는 AatII, Acc65I, AccI, AclI, AatII, Acc65I, AccI, AclI, AfeI, AflII, AgeI, ApaI, ApaLI, ApoI, AscI, AseI, AsiSI, AvrII, BamHI, BclI, BglII, Bme1580I, BmtI, BsaHI, BsiEI, BsiWI, BspEI, BspHI, BsrGI, BssHII, BstBI, BstZ17I, BtgI, ClaI, DraI, EaeI, EagI, EcoRI, EcoRV, FseI, FspI, HaeII, HincII, HindIII, HpaI, KasI, KpnI, MfeI, MluI, MscI, MspA1I, MfeI, MluI, MscI, MspA1I, NaeI, NarI, NcoI, NdeI, NgoMIV, NheI, NotI, NruI, NsiI, NspI, PacI, PciI, PmeI, PmlI, PsiI, PspOMI, PstI, PvuI, PvuII, SacI, SacII, SalI, SbfI, ScaI, SfcI, SfoI, SgrAI, SmaI, SmlI, SnaBI, SpeI, SphI, SspI, StuI, SwaI, XbaI, XhoI, 또는 XmaI에 대한 인식 부위일 수 있다. 효소 인식 부위는 상기 언급되지 않은 DNase, 예를 들어, 엑소데옥시리보뉴클레아제에 대한 부위일 수 있다. 효소 인식 부위는 우라실 DNA 글리코실라제 (UDG), DNA 글리코실라제-리아제 (엔도뉴클레아제 VIII), 또는 그의 혼합물 (예를 들어, 우라실-특이적 절제 시약 (USER) 효소)에 대한 부위일 수 있다. 예를 들어, CNA는 하나 이상의 우라실 (예를 들어, 내부 우라실)을 포함할 수 있다. 효소 인식 부위는 RNA-가이드 DNase, 예를 들어, CRISPR-연관 단백질 뉴클레아제, 예를 들어, Cas9에 대한 부위일 수 있다. 특정 경우에, 뉴클레아제 인식 부위는 RNase, 예를 들어, 엔도리보뉴클레아제, 예컨대 RNase A, RNase H, RNase III, RNase L, RNase P, RNase PhyM, RNase T1, RNase T2, RNase U2, RNase V, 또는 엑소리보뉴클레아제, 예컨대 폴리뉴클레오티드 포스포릴라제, RNase PH, RNase R, RNase D, RNase T, 올리고리보뉴클레아제, 엑소리보뉴클레아제 I, 또는 엑소리보뉴클레아제 II에 대한 인식된 부위일 수 있다. 일부 특정한 경우에, CNA는 제한 효소 인식 부위를 함유할 수 있고 본원에 제공된 방법은 이러한 부위를 인식하는 제한 효소로 CNA를 소화하는 것을 포함할 수 있다. 일부 경우에, CNA는 효소 (예를 들어, CNA에 결합하고/거나 그를 분해하는 효소)에 의해 인식될 수 있는 2차 또는 3차 구조, 리보자임, 압타머, 및 DNA-기반 촉매 또는 결합 중합체를 포함한다. 일부 경우에, CNA는 효소에 의해 인식될 수 있는 하나 이상의 특이적 결합 핵산 서열을 포함한다.
일부 경우에, CNA는 DNase 또는 RNase에 의해 분해될 수 있는 DNA-RNA 하이브리드를 포함할 수 있다. 일부 경우에, CNA는 DNA-RNA-DNA 하이브리드를 포함한다. 이러한 분자는 이중-가닥일 수 있다. CNA의 말단 영역은 데옥시리보뉴클레오티드를 포함할 수 있다. 내부 영역은 리보뉴클레오티드를 포함할 수 있다. 일부 경우에, DNA-RNA 하이브리드는 표적 핵산 또는 어댑터에 라이게이션을 할 수 있으며; 이어서 DNA-RNA 하이브리드는 서열분석 전에 (예를 들어, 증폭 단계 전에) RNase에 의해 소화될 수 있다. 일부 특정한 경우에, DNA-RNA 하이브리드는 (예를 들어, RNase에 의해) 소화되는 반면, 표적 핵산 (예를 들어, DNA, 예컨대 무세포 DNA)는 RNase에 의해 소화되지 않는다.
CNA의 DNA 섹션이 증폭에 저항하기에 충분히 긴 경우에, RNase 소화 단계는 서열분석 전에 DNA-RNA 하이브리드를 제거할 필요가 없을 수 있다. 대안적으로, DNA-RNA 하이브리드 분자가 증폭 전에 효소적 소화에 의해 분해되는 경우에, DNA-RNA 하이브리드는 증폭에 저항하는 크기 또는 길이를 가질 필요가 없을 수 있다.
크기-기반 고갈을 위한 CNA
CNA는 이들이 크기-기반 고갈에 의해 서열분석 라이브러리로부터 분리될 수 있도록 하는 크기를 가질 수 있다. 일부 경우에, CNA는 표적 핵산의 길이보다, 또는 표적 핵산의 평균 길이보다 더 큰 길이를 갖는다. 예를 들어, CNA는 표적 핵산의 길이, 또는 표적 핵산의 평균 길이보다 적어도 1.5, 2, 3, 4, 5, 10, 20 또는 50배 더 큰 길이를 가질 수 있다. CNA는 적어도 150 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 800 bp, 1kb, 2kb, 5kb 또는 10 kb의 길이를 가질 수 있다. 예를 들어 CNA는 적어도 500 bp의 길이를 가질 수 있다. 일부 경우에, CNA는 약 150 bp 내지 약 1000 bp 범위 이내의 크기를 가질 수 있다. 일부 경우에, CNA는 최대 2 kb 크기를 가질 수 있다. 일부 경우에, CNA의 길이는 표적 핵산의 길이보다, 또는 표적 핵산의 평균 길이보다 더 짧은 길이이다. 예를 들어, CNA는 표적 핵산의 길이, 또는 표적 핵산의 평균 길이의 최대 99%, 95%, 90%, 80%, 60%, 50%, 40%, 20%, 또는 10%인 길이를 가질 수 있다. 일부 경우에, CNA는 표적 핵산의 크기, 또는 표적 핵산의 평균 크기의 최대 50%인 크기를 가질 수 있다. 특정 경우에, CNA는 표적 핵산, 또는 표적 핵산의 평균 길이와 실질적으로 동일한 길이를 갖는다.
크기-기반 고갈을 가능하게 하는 크기 또는 길이를 갖는 CNA는 또한 본 개시내용에 기재된 임의의 변형, 예를 들어, 라이게이션, 증폭, 말단-복구, 또는 그의 조합을 방지하기 위한 변형을 함유할 수 있다. 일부 경우에, CNA의 한쪽 또는 양쪽 말단은 하나 이상의 변형을 함유할 수 있다. 일부 경우에, 변형은 내부 변형, 예를 들어, 내부 무염기성 부위 또는 말단 변형 및 내부 변형의 조합일 수 있다.
일부 구체적 예에서, CNA는 크기-기반 고갈 뿐만 아니라 변형 (예를 들어, 말단 변형) 예컨대 라이게이션을 방해하는 역전된 염기를 가능하게 하는 더 긴 길이를 가질 수 있다. 라이게이션을 방지 또는 방해하는 구조의 다른 조합이 또한 가능하다 (예를 들어, 헤어핀 루프, 말단 변형과 조합된 헤어핀 루프). 일부 경우에, CNA는 하나 이상의 헤어핀 구조 및 하나 이상의 무염기성 부위를 포함할 수 있다. 일부 경우에, CNA는 500 bp 초과의 크기 또는 길이를 가질 수 있고 한쪽 말단 상에 3'역전된 dT, 5' 역전된 ddT, C3 스페이서, 또는 스페이서 18, 또는 헤어핀 구조를 가질 수 있다. 일부 특정한 경우에, CNA는 600 bp 초과의 크기 또는 길이를 가질 수 있고 하나 이상의 내부 무염기성 부위에서 한쪽 말단 상에 3'역전된 dT, 5' 역전된 ddT를 가질 수 있다.
고정화 태그
CNA는 하나 이상의 고정화 태그를 포함할 수 있다. 고정화 태그는 친화도-기반 고갈에 의해 용액 (예를 들어, 서열분석 라이브러리의 용액)으로부터 CNA를 제거하는데 사용될 수 있다. 예를 들어, 고정화 태그는 고체 지지체, 예를 들어, 비드 또는 플레이트에 부착할 수 있다. CNA는 용액이 고체 지지체와 접촉할 때 용액으로부터 제거될 수 있다. 하나 이상의 고정화 태그를 포함하는 CNA는 표적 핵산보다 더 짧을 수 있다. 대안적으로, CNA 분자는, 예를 들어, CNA의 서열분석 반응의 캐리-오버를 최소화하기 위해 표적 핵산보다 더 길 수 있다.
고정화 태그는 비오틴, 디곡시게닌, Ni-니트릴로트리아세트산, 데스티오비오틴, 히스티딘, 폴리히스티딘, myc, 헤마글루티닌 (HA), FLAG, 형광 태그, 탠덤친화도 정제 (TAP) 태그, 글루타티온 S 트랜스퍼라제 (GST), 폴리뉴클레오티드, 압타머, 폴리펩티드 (예를 들어, 항원 또는 항체), 또는 그의 유도체를 포함할 수 있다. 예를 들어, CNA는 비오틴, 예를 들어, 내부에서 또는 말단에서 비오티닐화된 가닥을 포함할 수 있다. 일부 경우에, 고정화 태그는 자기적으로 감수성인 물질, 예를 들어, 자석 또는 자기적으로 감수성인 금속을 포함할 수 있다. 일부 특정한 예에서, 비오티닐화된 CNA는 증폭 단계 전에 샘플 또는 서열분석 라이브러리로부터 CNA의 자기성 비드-기반 고갈 (예를 들어, 아비딘-자기성 비드를 통해)을 가능하게 할 수 있다. 일부 경우에, CNA는 고체 지지체 상에 부착하거나 또는 고정화 태그에 결합할 수 있는 2차 또는 3차 구조를 포함한다.
일부 경우에, 표적 핵산 및/또는 서열분석 라이브러리 핵산은 하나 이상의 고정화 태그를 포함한다. 이들 경우에, CNA는 표적 핵산과 비교하여 어떠한 고정화 태그 또는 상이한 고정화 태그도 포함하지 않는다. 따라서, CNA는 상이한 고정화 태그를 사용하여 친화도-기반 고갈에 의해 표적 핵산 및/또는 서열분석 라이브러리 핵산으로부터 분리될 수 있다. 예를 들어, 표적 핵산 및/또는 서열분석 라이브러리 핵산은 고체 지지체 상에 고정화될 수 있는 반면, CNA는 세척 제거될 수 있다. 일부 경우에, CNA는 고정화 태그에 직접적으로 또는 간접적으로 연결된다. 일부 경우에, CNA는 고정화 태그로부터 절단된다.
CNA는 본원에 개시된 특징 및 구조의 조합을 포함할 수 있다. 일부 경우에, CNA는 핵산 증폭을 억제하는 하나 이상의 변형 및 라이게이션 반응에 저항하는 하나 이상의 변형을 포함한다. 예를 들어, CNA는 하나 이상의 무염기성 부위 (예를 들어, 내부 디스페이서) 및 역전된 데옥시-염기 (예를 들어, 3' 역전된 티미딘)을 포함할 수 있다. 변형을 포함하는 CNA는 효소 인식 부위 및/또는 고정화 태그를 추가로 포함할 수 있다. 특정 경우에, CNA는 하나 이상의 고정화 태그와 DNA-RNA 하이브리드, 예를 들어, 비오티닐화된 DNA-RNA-DNA 하이브리드 분자를 포함한다. CNA는 또한 특이적 효소 또는 단백질에 대한 높은 친화도를 갖는 핵산의 2차 및/또는 3차 구조, 또는 임의의 비-아미노산-기반 촉매 또는 친화도 유닛, 예를 들어, 리보자임, DNA-기반 촉매 중합체, 및 분자 각인 중합체를 가질 수 있다.
샘플 내 핵산에 대한 담체 핵산의 비
CNA의 특정 양은, 예를 들어, 샘플 내 핵산으로부터 서열분석 라이브러리를 제조하기 위해, 핵산을 포함하는 샘플에 첨가될 수 있다. 일부 경우에, 샘플 내 총 핵산의 양 대 샘플에 첨가된 CNA의 양의 비는 적어도 1:100, 1:50, 1:10, 1:1, 10:1, 50:1, 100:1, 500:1, 1000:1, 2000:1, 또는 5000:1이다. 일부 경우에, 샘플 내 표적 핵산의 양 대 샘플에 첨가된 CNA의 양의 비는 적어도 1:100, 1:50, 1:10, 1:1, 10:1, 50:1, 100:1, 500:1, 1000:1, 2000:1, 또는 5000:1이다. 일부 경우에, 샘플 내 총 핵산의 양 대 샘플에 첨가된 CNA의 양의 비는 최대 10:1, 1:1, 1:10, 1:50, 1:100, 1:500, 1:1000, 1:2000, 또는 1:5000이다. 일부 경우에, 샘플 내 표적 핵산의 양 대 샘플에 첨가된 CNA의 양의 비는 최대 10:1, 1:1, 1:10, 1:50, 1:100, 1:500, 1:1000, 1:2000, 또는 1:5000이다. 일부 경우에, 샘플 내 총 핵산의 양 대 샘플에 첨가된 CNA의 양의 비는 약 1:1 내지 약 1:100 범위 이내이다. 일부 경우에, 샘플 내 표적 핵산의 양 대 샘플에 첨가된 CNA의 양의 비는 약 1:1 내지 약 1:100 범위 이내이다. 일부 경우에, 비는 몰비이다.
서열분석 라이브러리의 생성 시 CNA를 사용하는 방법
본원에 개시된 것은 서열분석 라이브러리를 제조하는 방법을 포함한다. 방법은 본원에 개시된 CNA를 첨가하여 서열분석 라이브러리 생성의 효율 및/또는 수율을 개선시키는 것을 포함할 수 있다. 서열분석 라이브러리는 서열분석에 대한 핵산 분자 대상체의 집단을 지칭할 수 있다. 방법은 표적 핵산 및/또는 어댑터 (예를 들어, 서열분석 어댑터)를 포함하는 샘플, 및 하나 이상의 CNA를 수득하는 것을 수반할 수 있다. 방법은 서열분석 라이브러리를 생성하기 위한 하나 이상의 단계를 추가로 포함할 수 있다. 방법은 또한 서열분석 라이브러리 내 하나 이상의 핵산을 서열분석하는 것을 포함할 수 있다. CNA는 서열분석되지 않을 수 있으며, 예를 들어, CNA는 라이브러리로부터 물리적으로 제거될 수 있거나 또는 이들이 서열분석 라이브러리 생성에서의 하나 이상의 단계에 참여하지 않도록 디자인될 수 있다.
방법은 표적 핵산 및/또는 어댑터를 포함하는 샘플에 CNA를 첨가하는 것을 포함할 수 있다. 샘플에 첨가된 CNA의 양은 적어도 0.1 ng, 0.5 ng, 1 ng, 5 ng, 10 ng, 20 ng, 30 ng, 40 ng, 50 ng, 60 ng, 70 ng, 80 ng, 90 ng, 100 ng, 150 ng, 200 ng, 300 ng, 400 ng, 또는 500 ng일 수 있다. 일부 경우에, CNA의 양은 0.1 ng 내지 200 ng, 1 ng 내지 100 ng, 5 ng 내지 80 ng, 10 내지 60 ng, 또는 20 ng 내지 50 ng일 수 있다. 샘플 내 CNA의 농도는 적어도 0.1 ng/mL, 0.5 ng/mL, 0.6 ng/mL, 0.8 ng/mL, 1 ng/mL, 2 ng/mL, 5 ng/mL, 10 ng/mL, 0.01 ng/μL, 0.05 ng/μL, 0.1 ng/μL, 0.2 ng/μL, 0.4 ng/μL, 0.8 ng/μL, 1 ng/μL, 1.2 ng/μL, 1.5 ng/μL, 2 ng/μL, 5 ng/μL, 또는 10 ng/μL일 수 있다. 일부 경우에, 샘플에 첨가된 CNA의 양은 15 μL당 약 1 ng 내지 15 μL당 약 5 ng 범위 이내일 수 있다. 일부 경우에, 샘플에 첨가된 CNA의 양은 약 0.05 ng/μL 내지 약 0.5 ng/μL 범위 이내일 수 있다.
본원에서의 방법은 개시내용 전반에 걸쳐 기재된 임의의 유형의 합성 핵산을 첨가하는 것을 포함할 수 있다. 예를 들어, 방법은 하기 합성 핵산 중 하나 이상을 첨가하는 것을 포함할 수 있다: 서열분석 라이브러리 생성을 위한 합성 핵산, 표적 핵산의 상대 존재비를 정규화하기 위한 합성 핵산 (예를 들어, 기지의 농도의 합성 핵산), 및/또는 샘플 내 핵산의 다양성 손실을 결정하기 위한 합성 핵산.
핵산 추출
방법은 샘플로부터 핵산 (예를 들어, 표적 핵산, 무세포 핵산)을 추출하는 것을 포함할 수 있다. 추출은 샘플, 예를 들어, 생물학적 유체 또는 조직 샘플에 존재할 수 있는 다른 세포 구성성분 및 오염물로부터 핵산을 분리하는 것을 포함할 수 있다. 일부 경우에, 추출은 페놀 클로로포름 추출 또는 유기 용매 (예를 들어, 에탄올, 또는 이소프로판올)에 의한 침전에 의해 수행된다. 일부 경우에, 추출은 핵산-결합 칼럼을 사용하여 수행된다. 일부 경우에, 추출은 상업적으로 입수가능한 키트 예컨대 퀴아젠 Qiamp 순환 핵산 키트, 퀴아젠 Qubit dsDNA HS 검정 키트, 애질런트(Agilent)™ DNA 1000 키트, TruSeq™ 서열분석 라이브러리 제조, 또는 핵산-결합 스핀 칼럼 (예를 들어, 퀴아젠 DNA 미니-프렙 키트)을 사용하여 수행된다. 일부 경우에, 무세포 핵산의 추출은 여과 또는 한외-여과를 수반할 수 있다.
CNA는 추출 전에 또는 동안 샘플에 첨가될 수 있다. 예를 들어, 담체 핵산은 그것이 추출 시약, 예를 들어, 추출 완충제와 혼합되기 전에 샘플에 첨가될 수 있다. 대안적으로, 담체 핵산은 추출 시약, 예를 들어 추출 완충제에 첨가될 수 있으며 이어서 샘플과 혼합된다. 특정한 경우에, CNA는 또한 샘플 및 추출 시약, 예를 들어, 추출 완충제의 혼합물에 첨가될 수 있다. 이들 경우에, 표적 핵산 및 CNA는 동시에 추출될 수 있다.
CNA를 샘플에 첨가하는 것은 핵산 추출의 수율을 증가시킬 수 있다. 표적 핵산을 CNA와 함께 추출하는 수율은 CNA 없이 표적 핵산을 추출하는 수율보다, 예를 들어, 적어도 10%, 20%, 40%, 60%, 80%, 100%, 2배, 4배, 6배, 8배, 또는 10배만큼 더 높을 수 있다. 일부 경우에, CNA는 핵산 추출 후에 표적 핵산을 포함하는 샘플에 첨가될 수 있다. 추출은 적어도 10 ng, 50 ng, 100 ng, 200 ng, 300 ng, 400 ng, 500 ng, 600 ng, 700 ng, 800 ng, 900 ng, 또는 1000 ng 핵산을 산출할 수 있다.
핵산 정제
방법은 표적 핵산을 정제하는 것을 포함할 수 있다. 예시적인 정제 방법은 에탄올 침전, 이소프로판올 침전, 페놀 클로로포름 정제, 및 칼럼 정제 (예를 들어, 친화도-기반 칼럼 정제), 투석, 여과, 또는 한외여과를 포함한다.
CNA는 정제 전에 또는 동안 샘플에 첨가될 수 있다. 예를 들어, 담체 핵산은 그것이 정제 시약, 예를 들어, 정제 완충제와 혼합되기 전에 샘플에 첨가될 수 있다. 대안적으로, 담체 핵산은 정제 시약, 예를 들어, 정제 완충제에 첨가될 수 있으며 이어서 샘플과 혼합된다. 특정한 경우에, CNA는 또한 샘플 및 정제 시약, 예를 들어 정제 완충제의 혼합물에 첨가될 수 있다. 이들 경우에, 표적 핵산 및 CNA는 동시에 정제될 수 있다.
CNA를 샘플에 첨가하는 것은 핵산 정제의 수율을 증가시킬 수 있다. 표적 핵산과 함께 CNA를 정제하는 수율은 CNA 없이 표적 핵산을 정제하는 수율보다, 예를 들어, 적어도 10%, 20%, 40%, 60%, 80%, 100%, 2배, 4배, 6배, 8배, 또는 10배만큼 더 높을 수 있다. 일부 경우에, CNA는 핵산 정제 후에 표적 핵산을 포함하는 샘플에 첨가될 수 있다. 일부 경우에, 샘플 내 핵산의 첨가된 CNA로의 정제는 샘플 내 총 핵산의 적어도 1 pg, 10 pg, 50 pg, 100 pg, 500 pg, 1 ng, 5 ng, 10 ng, 50 ng, 100 ng, 200 ng, 300 ng, 400 ng, 500 ng, 600 ng, 700 ng, 800 ng, 900 ng, 또는 1000 ng을 산출한다. 일부 경우에, 샘플 내 핵산의 첨가된 CNA로의 정제는 샘플 내 표적 핵산의 적어도 1 pg, 10 pg, 50 pg, 100 pg, 500 pg, 1 ng, 5 ng, 10 ng, 50 ng, 100 ng, 200 ng, 300 ng, 400 ng, 500 ng, 600 ng, 700 ng, 800 ng, 900 ng, 또는 1000 ng을 산출한다.
단편화
방법은 표적 핵산을 단편화하는 것을 포함할 수 있다. 표적 핵산의 단편화는, 예를 들어, 기계적 전단, 시린지를 통한 샘플의 통과, 초음파처리, 열 처리, 또는 그의 조합에 의해 수행될 수 있다. 일부 경우에, 표적 핵산의 단편화는 뉴클레아제, 또는 트랜스포사제를 포함한, 효소를 사용함으로써 수행된다. 단편화에 사용된 뉴클레아제는 제한 엔도뉴클레아제, 귀소 엔도뉴클레아제, 니킹 엔도뉴클레아제, 고충실도 제한 효소, 또는 본원에 개시된 임의의 효소를 포함할 수 있다. 방법은 표적 핵산을 특정 길이, 예를 들어 적어도 50, 60, 80, 100, 120, 140, 160, 180, 200, 300, 400, 500, 1000, 2000, 4000, 6000, 8000, 또는 10000 bp 길이의 단편으로 단편화하는 것을 포함할 수 있다. CNA는 표적 핵산의 단편화 전에 샘플에 첨가될 수 있다. CNA는 표적 핵산의 단편화 후에 샘플에 첨가될 수 있다.
A-테일링
방법은 표적 핵산 상에서 A-테일링을 수행하는 것을 포함할 수 있다. A-테일링 반응은 하나 이상의 A-테일링 효소를 사용함으로써 수행될 수 있다. 예를 들어, 아데닌 (A) 잔기는 DNA 단편을 dATP 및 비-교정 DNA 폴리머라제와 함께 인큐베이션함으로써 첨가될 수 있으며, 이는 단일 3' A 잔기를 첨가할 것이다. CNA는 A-테일링 전에 표적 핵산을 포함하는 샘플에 첨가될 수 있다. 대안적으로, CNA는 A-테일링 후에 표적 핵산을 포함하는 샘플에 첨가될 수 있다.
말단 복구
방법은 표적 핵산 상에서 말단 복구를 수행하는 것을 포함할 수 있다. 예를 들어, 말단 복구는 표적 핵산 상에서 실행될 수 있어 이들은 서열분석 라이브러리 제조의 다른 단계에 적합할 수 있다. 말단 복구 반응은 하나 이상의 말단 복구 효소를 사용함으로써 수행될 수 있다. DNA를 복구하기 위한 효소는 폴리머라제 및 엑소뉴클레아제를 포함할 수 있다. 예를 들어, 폴리머라제는 5'에서 3' 방향으로 DNA 가닥에 대한 누락 염기를 채울 수 있다. 생성된 이중-가닥 DNA는 원래 가장 긴 DNA 가닥과 실질적으로 동일한 길이를 가질 수 있다. 엑소뉴클레아제는 3' 오버행을 제거할 수 있다. 생성된 이중-가닥 DNA는 원래 가장 짧은 DNA 가닥과 실질적으로 동일한 길이를 가질 수 있다.
CNA는 말단 복구 전에 표적 핵산을 포함하는 샘플에 첨가될 수 있다. 일부 경우에, CNA를 첨가하는 것은 말단 복구 반응의 효율을, 예를 들어, 적어도 10%, 20%, 40%, 60%, 80%, 또는 100%만큼 증가시킨다. 일부 경우에, CNA는 말단 복구 후에 표적 핵산을 포함하는 샘플에 첨가될 수 있다. 특정한 경우에, CNA를 첨가하는 것은 효소, 예를 들어, 말단-복구 효소의 활성 및/또는 기능을 보존할 수 있다. 예를 들어, 효소는 적은 양의 핵산을 갖는 샘플에서 감소된 활성 및/또는 비정상적인 기능을 가질 수 있고, CNA를 첨가하는 것은 효소가 샘플에서 정상적으로 기능할 수 있도록 샘플 내 총 핵산의 양을 증가시킬 수 있다.
어댑터 부착
방법은 하나 이상의 어댑터를 표적 핵산에 부착하는 것을 포함할 수 있다. 어댑터는 프라이머 연장, 역전사, 또는 혼성화에 의해 표적 핵산에 부착될 수 있다. 일부 경우에, 어댑터는 라이게이션에 의해 표적 핵산에 부착된다. 예를 들어, 어댑터는 리가제에 의해 표적 핵산에 부착될 수 있다. 예를 들어, 어댑터는 점착성-말단 라이게이션 또는 평활-말단 라이게이션에 의해 표적 핵산에 부착될 수 있다. 일부 경우에, 어댑터는 트랜스포사제에 의해 표적 핵산에 부착될 수 있다. 표적 핵산에는 3' 말단, 5' 말단, 또는 양쪽 말단에서 어댑터가 부착될 수 있다. 일부 경우에, 표적 핵산에는 양쪽 말단에서 동일한 어댑터 또는 상이한 어댑터가 부착된다. 일부 경우에, 표적 핵산에는 한쪽 말단 상에 하나 이상의 어댑터가 부착될 수 있다.
CNA는 부착 단계 전에 첨가될 수 있다. 대안적으로, CNA는 부착 단계 후에 첨가될 수 있다. CNA는 라이게이션 반응에 저항할 수 있다. 예를 들어, CNA는 표적 핵산 및/또는 어댑터에 대한 라이게이션에 저항할 수 있다. 이들 경우에, CNA가 부착 단계 전에 첨가될 때, 이들은 표적 핵산 또는 어댑터 중 어느 하나에 라이게이션하지 않고, 서열분석 단계에서 서열분석되지 않는다. 추가의 경우에, CNA는 부착 단계 전에 샘플로부터 제거될 수 있다. 대안적으로, CNA는 샘플 추출 후에 및 부착 단계 전에 제거될 수 있다.
어댑터를 샘플 내 표적 핵산에 부착하기 전에, 샘플은 효소로 처리될 수 있다. 예를 들어, 샘플은 엔도뉴클레아제로 처리되어 라이게이션 부위, 예를 들어, 점착성 말단 또는 평활 말단을 형성할 수 있다. 대안적으로, 샘플은 어댑터가 표적 핵산에 부착한 후에 효소로 처리될 수 있다.
증폭
방법은 표적 핵산을 증폭시키는 것을 포함할 수 있다. 증폭은 핵산 서열의 카피 수를 증가시키는 임의의 방법을 지칭할 수 있다. 예를 들어, 증폭은, 예를 들어, 하나 이상의 폴리머라제 연쇄 반응에서 폴리머라제로 수행될 수 있다. 증폭은 관련 기술분야에 알려진 방법을 사용하여 수행될 수 있다. 이들 방법은 종종 핵산 또는 그의 보체의 다중 카피의 생성물 촉매화된 형성에 의존한다. 이러한 방법 중 하나는 폴리머라제 연쇄 반응 (PCR), 예컨대 AFLP (증폭된 단편 길이 다형성) PCR, 대립유전자-특이적 PCR, Alu PCR, 어셈블리, 비대칭 PCR, 콜로니 PCR, 헬리카제 의존성 PCR, 핫 스타트 PCR, 리버스 PCR, 인 시튜 PCR, 상호서열-특이적 PCR 또는 IS SR PCR, 디지털 PCR, 드롭렛 디지털 PCR, 선형-후-지수형 PCR 또는 Late PCR, 롱 PCR, 네스티드 PCR, 실시간 PCR, 듀플렉스 PCR, 멀티플렉스 PCR, 정량적 PCR, 또는 단세포 PCR이다. 리가제 연쇄 반응 (LCR), 핵산 서열 기반 증폭 (NASBA), 선형 증폭, 등온 선형 증폭, Q-베타-레플리카제 방법, 3SR, 전사 매개된 증폭 (TMA), 가닥 변위 증폭 (SDA), 또는 롤링 서클 증폭 (RCA)을 포함한, 다른 증폭 방법이 또한 사용될 수 있다.
CNA는 증폭 전에 첨가될 수 있다. 대안적으로, CNA는 증폭 후에 첨가될 수 있다. CNA는 증폭되지 않을 수 있다. 예를 들어, CNA는 증폭을 억제하는 변형을 포함할 수 있다. 이들 경우에, CNA가 증폭 전에 첨가될 때, 이들은 증폭되지 않는다. 따라서, CNA는 서열분석 라이브러리에 있지 않거나 또는 서열분석되지 않을 수 있다.
CNA의 제거
방법은 샘플로부터 CNA를 제거하는 것을 추가로 포함할 수 있으며, 이는 종종 CNA가 서열분석되는 것을 방지한다. 일부 경우에, 방법은 샘플로부터 CNA의 일부 또는 모두를 제거하여 서열분석 샘플을 제조하는 것을 포함한다. 생성된 서열분석 샘플은 CNA를 함유하지 않을 수 있고 서열분석을 위해 준비될 수 있다. 일부 경우에, 방법은 샘플 내 다른 핵산에 비해 적어도 1개의 CNA, 예를 들어, 표적 핵산, 어댑터, 또는 어댑터의 다량체를 우선적으로 제거하는 것을 포함한다.
CNA를 제거하는 것은 효소를 사용하여 수행될 수 있다. 예를 들어, CNA는 효소에 의해, 예를 들어, 효소 소화에 의해 분해될 수 있다. 일부 경우에, 방법은 뉴클레아제를 사용하여 CNA를 제거하는 것을 포함한다. 예를 들어, 방법은 엔도뉴클레아제, 예를 들어, 유형 I, 유형 II (유형 IIS, 유형 IIG를 포함함), 유형 III 또는 유형 IV 엔도뉴클레아제를 사용하여 CNA를 제거하는 것을 포함할 수 있다. 방법은 제한성 엔도뉴클레아제, 예를 들어, AatII, Acc65I, AccI, AclI, AatII, Acc65I, AccI, AclI, AfeI, AflII, AgeI, ApaI, ApaLI, ApoI, AscI, AseI, AsiSI, AvrII, BamHI, BclI, BglII, Bme1580I, BmtI, BsaHI, BsiEI, BsiWI, BspEI, BspHI, BsrGI, BssHII, BstBI, BstZ17I, BtgI, ClaI, DraI, EaeI, EagI, EcoRI, EcoRV, FseI, FspI, HaeII, HincII, HindIII, HpaI, KasI, KpnI, MfeI, MluI, MscI, MspA1I, MfeI, MluI, MscI, MspA1I, NaeI, NarI, NcoI, NdeI, NgoMIV, NheI, NotI, NruI, NsiI, NspI, PacI, PciI, PmeI, PmlI, PsiI, PspOMI, PstI, PvuI, PvuII, SacI, SacII, SalI, SbfI, ScaI, SfcI, SfoI, SgrAI, SmaI, SmlI, SnaBI, SpeI, SphI, SspI, StuI, SwaI, XbaI, XhoI, XmaI, 또는 그의 임의의 조합을 사용하여 CNA를 제거하는 것을 포함할 수 있다. 방법은 상기 언급되지 않은 DNase, 예를 들어, 엑소데옥시리보뉴클레아제를 사용하여 CNA를 제거하는 것을 포함할 수 있다. 방법은 우라실 DNA 글리코실라제 (UDG), DNA 글리코실라제-리아제 (엔도뉴클레아제 VIII), 또는 그의 혼합물 (예를 들어, 우라실-특이적 절제 시약 (USER) 효소)를 사용하여 CNA를 제거하는 것을 포함할 수 있다. 방법은 RNA-가이드 DNase, 예를 들어, CRISPR-연관 단백질 뉴클레아제, 예를 들어, Cas9를 사용하여 CNA를 제거하는 것을 포함할 수 있다. RNase, 방법은 RNase, 예를 들어, 엔도리보뉴클레아제, 예컨대 RNase A, RNase H, RNase III, RNase L, RNase P, RNase PhyM, RNase T1, RNase T2, RNase U2, RNase V, 또는 엑소리보뉴클레아제, 예컨대 폴리뉴클레오티드 포스포릴라제, RNase PH, RNase R, RNase D, RNase T, 올리고리보뉴클레아제, 엑소리보뉴클레아제 I, 또는 엑소리보뉴클레아제 II, 또는 그의 임의의 조합을 사용하여 담체 합성 핵산을 제거하는 것을 포함할 수 있다. 일부 경우에, 방법은 관련 기술분야에 알려진 임의의 핵산-분해 시약을 사용하여 CNA를 제거하는 것을 포함한다. 일부 경우에, 방법은 CNA를 물리적 처리, 예를 들어, 가열, 냉각, 또는 전단에 적용함으로써 CNA를 제거하는 것을 포함할 수 있다. 일부 경우에, CNA를 제거하는 방법은 샘플로부터 서열분석 라이브러리 내 표적 핵산, 어댑터, 또는 임의의 다른 분자를 제거하지 않는다. 특정 경우에, CNA의 제거는 효소 분해, 예를 들어, 엔도뉴클레아제 소화에 의해 수행되지 않는다.
CNA를 제거하기 위해, 방법은 효소가 기능하는 온도에서 효소와 함께 CNA를 인큐베이션하는 것을 포함할 수 있다. 예를 들어, 방법은 10℃ 내지 80℃, 예를 들어, 20℃ 내지 60℃, 20℃ 내지 40℃, 30℃ 내지 40℃, 또는 20℃ 내지 25℃의 온도에서 효소와 함께 CNA를 인큐베이션하는 것을 포함할 수 있다. 방법은 적어도 10℃, 20℃, 25℃, 30℃, 31℃, 32℃, 33℃, 34℃, 35℃, 36℃, 37℃, 38℃, 39℃, 40℃, 50℃, 60℃, 또는 70℃의 온도에서 효소와 함께 CNA를 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 방법은 약 20℃, 21℃, 22℃, 23℃, 24℃, 25℃, 26℃, 27℃, 28℃, 29℃, 30℃, 31℃, 32℃, 33℃, 34℃, 35℃, 36℃, 37℃, 38℃, 39℃, 40℃, 41℃, 또는 42℃의 온도에서 효소와 함께 CNA를 인큐베이션하는 것을 포함할 수 있다.
CNA를 제거하기 위해, 방법은 효소가 기능할 기간 동안 효소와 함께 CNA를 인큐베이션하는 것을 포함할 수 있다. 일부 경우에, 방법은 적어도 1분, 5분, 10분, 15분, 20분, 30분, 40분, 50분, 1시간, 2시간, 5시간, 12시간, 24시간, 48시간, 또는 72시간 동안 효소와 함께 CNA를 인큐베이션하는 것을 포함할 수 있다.
방법은 친화도-기반 고갈에 의해 담체 합성 핵산을 제거하는 것을 포함할 수 있다. 친화도-기반 고갈은 담체 합성 핵산 상에서 수행될 수 있고 하나 이상의 고정화 태그를 포함할 수 있다. 이들 경우에서, 방법은 고체 지지체 상에 고정화 태그를 부착함으로써 CNA를 제거하는 것을 포함할 수 있다. 이러한 고체 지지체는 종이, 유리 (예를 들어, 제어 공극 유리 (CPG)), 플라스틱 (예를 들어, 폴리메틸아크릴, 폴리에틸렌, 폴리프로필렌, 폴리아크릴레이트, 폴리메틸메타크릴레이트, 폴리비닐클로라이드, 폴리테트라플루오로에틸렌, 폴리스티렌, 폴리카르보네이트 거대다공성 폴리스티렌 (MPPS), 또는 나일론), 폴리아크릴아미드, 셀룰로스 아세테이트, 셀룰로스 니트레이트, 니트로셀룰로스, 규소 또는 다른 금속, 또는 광섬유일 수 있다.
친화도-기반 고갈을 위한 고체 지지체는 임의의 형상 및 형태로 성형될 수 있다. 일부 경우에, 고체 지지체는 웰, 트로프, 페데스탈, 소수성 또는 친수성 패치, 다이-컷 접착제 저장소 또는 유체 유동에 대한 다른 물리적 장벽의 형태로 별개의 단리된 영역을 갖는 평면 장치의 형태로 제작될 수 있다. 이러한 고체 지지체의 예는 슬라이드, 마이크로플레이트, 시트, 필름, 딥스틱 등을 포함한다.
다른 경우에, 고체 지지체는 코팅된 양이온성 표면을 함유하는 비드 또는 펠릿 형태일 수 있다. 비드는 코팅된 고체 지지체 상에서 프로브 밀도를 증가시키기 위한 수단을 제공할 수 있다. 비드는 예를 들어, 아미노화에 의해 비드 양이온성을 제공하기에 적합한 다양한 표면 화학물질 또는 관능기 (예를 들어, 아민, 카르복실, 또는 히드록실)를 제공할 수 있다. 적합한 비드 조성물은, 예를 들어, 플라스틱, 예컨대 폴리스티렌, 메틸스티렌, 아크릴 중합체, 세라믹, 유리, 중합체 물질, 예컨대 가교 덱스트란, 셀룰로스, 나일론, 및 라텍스, 상자성 물질, 이산화티타늄, 라텍스를 포함한다. 비드는 임의의 유형의 고체 또는 중공 구체, 볼, 베어링, 실린더, 또는 다른 고체 구성을 포괄할 수 있다. 비드는 사실상 다공성 또는 비-다공성일 수 있다. 다공성 비드의 사용은 핵산 검출에 이용가능한 비드의 표면적을 증가시킬 수 있다. 비드 크기는 100 nm 내지 5 mm, 예를 들어, 0.2 μm 내지 200 μm, 또는 0.5 μm 내지 5 μm 범위일 수 있다. 일부 경우에, 고체 지지체는 자기성이거나 또는 자기적으로 감수성일 수 있다. 고체 지지체는 코팅될 수 있다. 코팅은 고정화 태그에 결합할 수 있다. 예를 들어, 고체 지지체는 고정화 태그의 결합 파트너, 예를 들어, 스트렙타비딘, 항원, 항체 (예를 들어, 항-폴리히스티딘 항체), 글루타티온 S 트랜스퍼라제, 또는 그의 유사체로 코팅될 수 있다.
방법은 크기-기반 고갈에 의해 CNA를 제거하는 것을 포함할 수 있다. 예를 들어, 크기-기반 고갈은 다공성 비드 (예를 들어, 고체 상 가역성 고정화 (SPRI) 자기 비드), 전기영동 겔 정제 (예를 들어, 아가로스 겔 정제), 및/또는 겔 여과를 사용하여 수행될 수 있다. 일부 경우에, 방법은 적어도 50 bp, 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kp, 5 kb, 또는 10 kb의 길이를 갖는 합성 핵산을 제거하는 것을 포함할 수 있다. 예를 들어, 방법은 적어도 500 bp의 길이를 갖는 합성 핵산을 제거하는 것을 포함할 수 있다.
서열분석
방법은 서열분석 라이브러리 내 표적 핵산 및/또는 어댑터를 서열분석하는 것을 포함할 수 있다. 서열분석은 맥심-길버트 서열분석, 쇄-종결 서열분석, 샷건 서열분석 또는 브리지 PCR을 포함한, 기본 서열분석 방법에 의해 수행될 수 있다. 서열분석은 또한 고처리량 서열분석, 피로-서열분석, 합성에 의한 서열분석, 단일-분자 서열분석, 나노포어 서열분석, 반도체 서열분석, 라이게이션에 의한 서열분석, 혼성화에 의한 서열분석, RNA-Seq (일루미나), 디지털 유전자 발현 (헬리코스), 차세대 서열분석, 합성에 의한 단일 분자 서열분석 (SMSS) (헬리코스), 대규모 병렬 서열분석, 클로날 단일 분자 어레이 (솔렉사), 샷건 서열분석, 맥심-길버트 또는 생어 서열분석, 프라이머 워킹, 일루미나, PacBio, SOLiD, 이온 토렌트, 454, 또는 나노포어 플랫폼을 사용한 서열분석을 포함한, 대규모 병렬형 서열분석 방법 (예를 들어, 차세대 서열분석)에 의해 수행될 수 있다. 서열분석이 차세대 서열분석 방법에 의해 수행되는 경우에, 본원에 생성된 서열분석 라이브러리는 차세대 서열분석 라이브러리이다.
본 명세서 전반에 걸쳐 사용된 바와 같은, 용어 "약"은 수 또는 수치 범위를 지칭할 때 지칭된 수 또는 수치 범위가 실험 변동성 내에서 (또는 통계적 실험 오차 내에서) 근사치임을 의미하고, 수 또는 수치 범위는, 예를 들어, 언급된 수 또는 수치 범위의 1% 내지 15%로 달라질 수 있다. 예에서, 용어 "약"은 언급된 수 또는 값의 ±10%를 지칭한다.
본원에 사용된 바와 같은, 용어 "또는"은, 달리 나타내지 않는 한, 비배타적인 것을 지칭하는데 사용되거나, 또는 예컨대 "A 또는 B"는 "A이지만 B는 아님", "B이지만 A는 아님", 및 "A 및 B"을 포함한다.
실시예
실시예 1: 무세포 DNA 서열분석 검정에 의한 진단
무세포 혈장 샘플을 제조한다. 차세대 서열분석을 위한 DNA 라이브러리를 이전에 기재된 바와 같이 제조한다 (De Vlaminck I, Khush KK, Strehl C, et al. Temporal response of the human virome to immunosuppression and antiviral therapy. Cell 2013; 155(5): 1178-87.; De Vlaminck I, Martin L, Kertesz M, et al. Noninvasive monitoring of infection and rejection after lung transplantation. Proceedings of the National Academy of Sciences of the United States of America 2015; 112(43): 13336-41.; 이들 각각은 그 전문이 참조로 본원에 포함됨). 서열분석을 일루미나 NextSeq 기기 상에서 수행하고 분석한다. 간략하게, 저품질 판독물을 제거한 후에, 판독물을 인간 참조 게놈 (예를 들어, hg19)에 맵핑한다. 남아있는 판독물을 바이러스, 박테리아, 진균류, 및 다른 진핵 병원체의 큐레이팅된 참조 데이터베이스에 맵핑한다. 개별 병원체의 존재비를 부피당 게놈 카피, 혈장 1 ml당 특이적 병원체로부터의 핵산의 양의 절대 척도로서 표현한다. 추가의 분석을 수행하여 저항성을 부여하는 것으로 기지의 서열을 식별할 수 있다.
환자 혈장의 직접 차세대 서열분석 (NGS)
혈장 샘플을 DNA 추출 전에 기지의 농도의 합성 DNA 분자에 스파이크한다. DNA를 변형된 자기 비드-기반 방법 (오메가 바이오텍(Omega Biotek), 조지아주 노르크로스)을 사용하여 추출한다. NGS 라이브러리를 변형된 라이브러리 제조 키트 (누겐(NuGEN), 캘리포니아주 산 카를로스)를 사용하여 구축한다. 음성 (완충제를 함유하지만 혈장은 함유하지 않음) 및 양성 (건강한 공여자(들)로부터의 혈장 플러스 기지의 농도의 전단된, 실험실 유래 병원체 DNA를 함유함) 대조군 샘플을 샘플과 함께 가공한다. 모든 3개 유형의 DNA 라이브러리를 75-사이클, 단일-말단, 이중-색인 서열분석 키트를 사용하여 일루미나 NextSeq 상에서 멀티플렉스화 및 서열분석한다.
생물정보학 분석
병원체 판독물을 NGS 판독물 세트로부터 정량화한다. 간략하게, 저품질 판독물을 폐기한 후에, 인간 판독물을 인간 참조 서열 (예를 들어, hg19)에 정렬시킴으로써 제거한다. 합성 스파이크-인 판독물을 완전 스파이크-인 서열의 데이터베이스에 정렬시킴으로써 식별한다. 남아있는 판독물을 바이러스, 원핵생물, 및 진균, 원충, 및 기생충을 포함한 진핵생물의 8000개 이상의 참조 서열의 큐레이팅된 데이터베이스에 정렬시킨다. PCR 중복 또는 서열분석 기기 오류로부터 유래되는 것으로 가정된 중복 판독물을 정렬을 기반으로 하여 식별하고 제거한다. 유기체의 상대 존재비를 추정된 중복제거 판독물 (EDR), 또는 백만개당 판독물 (RPM, 샘플에 대한 총 판독물에 대해 정규화됨), 또는 샘플의 부피당 판독물 (MPM, 마이크로리터당 분자)로서 표현한다. MPM은 혈장 1 마이크로리터 내 각각의 유기체에 대해 나타내어진 핵산 단편의 추정된 수를 계산하는 정규화된 양이다. 이러한 계산은 추출 초기에 혈장에 스파이크된 합성 DNA의 기지의 양에 대해 정규화된 각각의 유기체에 대해 존재하는 서열의 수로부터 유래된다.
2개의 환자 샘플 가공에 대한 설명은 하기와 같다: 혈장을 Spank-75B (서열식별번호: 120), Spark-32/52/75/100/125/150/175/350 (서열식별번호: 111-118), 및 ID-Spike (혈장 마이크로리터당 각각의 스파이크-인의 3 x 105개 분자)의 혼합물에 스파이크한다. 각각의 샘플은 동일한 Spank/Spark 혼합물이지만 상이한 ID-Spike를 제공받는다. 스파이크된 혈장을 16,000 g에서 10분 동안 원심분리하고, 무세포 혈장으로 이루어진 상청액을 신선한 튜브로 옮긴다. 이중-색인된 일루미나 어댑터를 첨가하기 위한 무세포 DNA 추출 및 라이브러리 제조 후에, 샘플을 병렬로 가공된 음성 및 양성 대조군 샘플과 함께 풀링하고 이어서 일루미나 NextSeq 상에서 서열분석한다. 전형적으로, 대략 400백만개 판독물이 배치에서 샘플 중에 분포되고, 임의의 개별 샘플에 대한 판독물의 수는 샘플을 포함하는 총 라이브러리 풀의 분율에 비례하고, 이러한 분율은 차례로 무세포 혈장 내 DNA의 양에 비례한다.
컴퓨터 분석: 개별 샘플에 대한 판독물을 상응하는 어댑터 바코드 서열 ("디먹싱")에 기반하여 식별하였다. 어댑터 이량체 서열 및 품질-기반 판독물 트리밍의 제거 후에, 판독 서열의 가능성있는 기원을 인간 게놈, 스파이크-인 및 병원체 게놈 참조 서열에 대한 정렬에 의해 결정하였다. ID-spike 및 SPANK-75B 판독물의 수를 스파이크-인 정렬을 사용하여 계산하였으며; SPANK-75B 판독물을 각각의 스파이크된 분자 내에서 포매된 무작위화된 서열 태그를 사용하여 탈중복하였다 ("중복제거"). 병원체 정렬을 게놈 위치를 기반으로 하여 중복제거하였고, 각각의 판독물의 가장 가능성있는 분류 기원을 기계 학습 접근법을 사용하여 결정하여, 특이적 병원체에 기인한 추정된 중복제거 판독물에 이르렀다. 정규화된 병원체 존재비를 마이크로리터당 병원체 분자 (MPM-Spank)로서의 농도에 관하여 표현하고, 하기와 같이 계산한다: MPM-Spank = (추정된 중복제거 판독물 / SPANK-75B 판독물의 수) x c, 여기서 c는 샘플에 스파이크된 바와 같은 SPANK-75B의 농도, 즉 마이크로리터당 3 x 105개 판독물이다.
ID-spike는 서열분석 배치에서 각각의 샘플에 대해 고유한 스파이크-인의 유형일 수 있다. SPANK 분자는 모든 라이브러리에 걸쳐 일정한 농도로 스파이크-인될 수 있다. 따라서, 특정한 라이브러리에서 검출된 중복제거된 SPANK 분자의 수는 해당 라이브러리에서 검출가능한 최소 농도에 대한 프록시일 수 있다. 보다 일반적으로, 이는 해당 라이브러리가 원래 샘플 내 핵산 (예를 들어, DNA) 분자를 핵산 서열분석 데이터 내 판독물로 변환시키는 효율에 비례할 수 있다. SPANK 분자의 목적은 샘플에서 나타내어진 혼합물 내의 표적 (예를 들어, 병원체 또는 질환-연관) 분자의 상대 존재비를 달성하는 것을 돕는 것일 수 있다.
Figure pat00021
실시예 2: ID Spike의 합성 및 가공
110개의 예시적인 ID Spike (ID Spike 28-137, 서열은 표 1에 열거됨)를 인티그레이티드 DNA 테크놀로지스에 의해 합성된 상보적 100mer 올리고뉴클레오티드의 쌍을 어닐링함으로써 구축하였다. 이어서 이들 서열을 4개 군으로 서브-풀링하고, 인간 혈장의 4개의 분취물에 첨가하고, 추출하고 혈장의 무세포 DNA와 함께 서열분석 라이브러리로 가공하고, 일루미나 NextSeq500 기기 상에서 서열분석하였다. 110개 ID Spike 각각에 맵핑하는 판독물의 수를 결정하고 이어서 총 판독물 백만개당 정규화하였다. 총 판독물 백만개당 최소 ~12,000개 및 최대 ~88,000개를 입증하는 플롯이 표 9에 제시된다.
ID Spike로부터의 신호를 조정할 수 있다. ID Spike는, 예를 들어, 도 9에 제시된 중간 신호를 기반으로 하여 각각의 ID Spike의 유입 양을 조정함으로써 신호-정규화할 수 있다. 신호-정규화된 ID Spike를 재시험하는 것은, 도 10에 제시된 바와 같은, 보다 균일한 판독물 카운트를 생성한다. 이러한 경우에, 각각의 ID Spike에 맵핑하는 판독물의 수는 총 판독물 백만개당 10,000 내지 25,000개의 범위 이내이고, 대부분의 ID Spike는 총 판독물 백만개당 15,000 내지 20,000개의 범위 이내의 판독물의 수를 갖는다. 상이한 ID Spike의 신호를 균등화 또는 정규화하는 것의 이익은 그것이 교차-오염 검출의 정밀도를 개선시킬 수 있다는 것이다. 예를 들어, 하나의 ID Spike가 전형적으로 백만개당 70,000개의 판독물을 제공하고 또 다른 ID Spike가 19,000개를 제공한다면, 후자는 적은 감수성 교차-오염 트레이서일 수 있으며, 2개의 ID Spike 사이의 신호를 정규화하는 것은 보다 높은 균일성을 제공할 수 있다.
실시예 3: ID Spike를 사용한 샘플의 교차-오염의 측정
*4개의 샘플을 제조한다. ID Spike 124-127을 샘플 1에 첨가한다. ID Spike 128-131을 샘플 2에 첨가한다. ID Spike 132-134를 샘플 3에 첨가한다. ID Spike 135-137을 샘플 4에 첨가한다. 4개의 샘플을 처리하고 서열분석한다. 교차-오염 (예를 들어, ID Spike가 의도적으로 첨가되지 않았던 샘플 내 ID Spike에 기인한 판독물)은, 표 7에서 ID Spike의 하위세트에 대해 제시된 바와 같이, 1:10,000 미만인 것으로 입증된다.
표 7:
Figure pat00022
실시예 4: ID Spike를 사용한 샘플의 교차-오염의 식별
4개의 샘플을 제조한다. ID Spike 124를 샘플 A에 첨가한다. ID Spike 123을 샘플 B에 첨가한다. ID Spike 122를 샘플 C에 첨가한다. ID Spike 119를 샘플 D에 첨가한다. 4개의 샘플을 가공하고 서열분석한다. 샘플 A 및 B에서 ID Spike 123 및 ID Spike 124 둘 다로부터의 상당한 수의 판독물은, 표 8에서 제시된 바와 같이, 2개의 ID Spike 스톡 사이의 또는 샘플 A 및 B 사이의 교차-오염을 나타낸다.
표 8:
Figure pat00023
실시예 5: ID Spike를 사용한 교차-오염 근원의 식별
일부 샘플에서 본질적으로 단지 1개의 ID Spike가 식별되지만, 다른 것에서 여러 오염 ID Spike가 상당한 수준으로 관찰된다. 이러한 상황에서, 오염 ID Spike의 아이덴티티는, 표 9에 제시된 바와 같이, 예를 들어, 마이크로타이터 플레이트의 인접한 웰로부터의 교차-오염의 근원을 통지할 수 있다.
표 9:
Figure pat00024
실시예 6: 병원체 DNA의 양성 대조군으로부터의 교차-오염을 식별하는 트레이서 서열
실험실 병원체 DNA 샘플은 양성 대조군으로서 사용되지만 교차-오염 임상 샘플 및 가양성 판독물 또는 진단 생성의 위험을 보유한다. 트레이서를 교차-오염 검출이 가능하도록 실험실 병원체 DNA 샘플에 첨가한다. 혈액으로부터의 무세포 병원체 DNA 단편의 NGS 검출의 경우에, 무세포 병원체 단편은 비교적 짧고, 예를 들어 20-120 bp이고 종종 평균 약 75 bp이기 때문에 비교적 짧은 트레이서가 사용될 수 있다. 여기서, 75 bp 합성 DNA 듀플렉스의 세트가 병원체 대조군당 1개의 고유한 트레이서 서열을 갖는, 트레이서로서 사용된다. 병원체 단편을, 실험실-생산된 게놈 DNA (ATCC 또는 NIST)를 DNaseI (뉴잉글랜드 바이오랩스(New England Biolabs)) 또는 프레그멘타제 뉴클레아제 혼합물 (뉴잉글랜드 바이오랩스)로 전단함으로써 생산하였다.
표 10-12에 열거된 바와 같이, 11개의 상이한 병원체로부터의 게놈 DNA를 대략 75 bp 평균 단편 길이로 개별적으로 전단하고, 정제하고, 정량화하였다 (Qubit, 써모 피셔(Thermo Fisher)). 각각의 단편 풀에, 개별 75-bp 합성 DNA 듀플렉스 (인티그레이티드 DNA 테크놀로지스)를 대략 10x 더 높은 질량 (Qubit, 써모 피셔)으로 첨가하였고, 따라서 고유한 트레이서와 함께 각각의 단편화된 병원체를 제공하였다. 바람직하게는, 적어도 약 5x 더 높은 신호가 게놈 DNA 대비 트레이서에 대해 달성된다. 병원체/트레이서 쌍을 3개의 다양한 조합물과 함께 혼합하여 공동-감염을 모의하고 (표 10-12에 나열된 바와 같이, 믹스 1은 4개의 병원체를 함유하고, 믹스 2는 4개의 병원체를 함유하고, 믹스 3은 3개의 병원체를 함유함), 인간 혈장에 첨가하고, 인간 혈장에서 추가로 희석하여 농도 시리즈를 제공하고, 이어서 무세포 DNA 추출, 라이브러리 제조, 및 NGS에 적용하였다. 데이터베이스에 대한 정렬을 모든 샘플 내 모든 11개 트레이서 및 모든 11개 병원체의 검출된 농도를 계산하였다.
표 10-12 및 도 11-도 15에 제시된 결과는 트레이서 및 병원체의 1:1 쌍형성을 입증한다. 각각의 경우에, 트레이서는 병원체보다 더 높은 농도로 검출되고, 농도 차이는 희석 시리즈 전체에 걸쳐 일관되게 유지된다. 매우 낮은 농도로의 외삽, 예컨대 저수준 교차-오염 이벤트로부터 예상될 것은 트레이서가 병원체 전에 검출될 것이라는 것을 강력하게 시사한다. 표 10-12는 모든 샘플로부터의 데이터를 제시하고, 도 11-도 15는 각각 시겔라 플렉스네리, 살모넬라 엔테리카, 스타필로코쿠스 아우레우스, 슈도모나스 아에루기노사, 및 클로스트리디움 스포로게네스에 대한 대표적인 트레이서:병원체 쌍을 플롯팅한다. 트레이서는 단지 이들이 의도적으로 첨가되었던 샘플에서만 관찰되었다. 단지 1개의 병원체, 이. 콜라이(E. coli)는 비-스파이크된 샘플에서 관찰되었다. 이. 콜라이 트레이서 #143은 그러한 샘플에서 관찰되지 않았기 때문에, 이. 콜라이가 인간 혈장에서 낮은 수준으로 존재하였다는 것으로 결론지을 수 있으며, 이는 이러한 공생 유기체에 대해 통상적인 발생이다.
표 10: 병원체 트레이서 믹스 1
Figure pat00025
표 11: 병원체 트레이서 믹스 2
Figure pat00026
표 12: 병원체 트레이서 믹스 3
Figure pat00027
실시예 7: Spark 서열을 사용한 상이한 길이를 갖는 핵산의 상대 수율의 결정
8개의 Spark를 인간 혈장에 등몰량으로 첨가하고, 추출하고 혈장의 무세포 DNA와 함께 서열분석 라이브러리로 가공하고, 일루미나 NextSeq500 기기 상에서 서열분석하였다. 상이한 가공 방법, 예컨대 도 16에 제시된 바와 같은 상이한 크기 범위를 갖는 라이브러리의 하위세트를 선택하는 것은, 상이한 Spark의 상대 수율을 결정함으로써 모니터링할 수 있다. 게다가, 모든 샘플이 동일한 양의 Spark, 예를 들어 혈장의 각각의 mL에 첨가된 8개의 Spark 각각의 100백만개 분자에 스파이크된다면, 주어진 Spark의 판독물의 수를 사용하여 샘플 내 다른 유사한 크기의 단편, 예컨대 감염원으로부터의 무세포 DNA의 출발 농도를 추론할 수 있다.
실시예 8: 다양한 GC 함량을 갖는 합성 핵산을 사용한 서열분석 라이브러리의 제조
무세포 병원체 핵산은 그의 GC 함량에서 달라질 수 있고 짧은 단편 길이에서 매우 상이한 Tm을 가질 수 있다. 무세포 병원체 단편의 비교적 짧은 길이로 인해 (예를 들어, 20-120 bp 및 종종 평균 약 75 bp), 더 짧은 단편이, 예를 들어, NGS를 위한 가공 동안 변성에 보다 감수성일 수 있고, 따라서 심지어 샘플에 존재할 때에도 서열분석 또는 검출될 수 없다. 낮은 Tm 단편 (예를 들어, 낮은 GC 게놈으로부터의 짧은 단편), 특히 32 내지 75 bp 범위 내의 회수를 트래킹하는 방법을 사용하여 더 큰 백분율의 낮은 Tm 단편을 유지하도록 핵산 가공을 최적화할 수 있다.
28개 듀플렉스 각각을 2개의 올리고뉴클레오티드를 어닐링함으로써 제조하였다. 듀플렉스 DNA의 농도를 Qubit (써모 피셔)에 의해 결정하고, 28개의 등몰량을 하나의 혼합물로 조합하였다. 혼합물 중 8개의 복제 샘플을 표준 라이브러리 제조 방법 1 (효소 열-사멸 단계를 함유함)로 가공하였고, 또 다른 8개를 변형된 라이브러리 제조 방법 2 (효소 열-사멸 단계가 결여됨)로 처리하였다. 라이브러리 제조 후에, 16개의 샘플을 단일 서열분석 실행으로 조합하고, 각각의 샘플에 대한 28개 스파이크 각각의 수율을 계산하고 각각의 라이브러리에 대해 백만개당 판독물로 정규화하였다.
정규화된 판독물 카운트는 표준 방법 1 (도 17에 제시됨)과 비교하여 변형된 방법 2 (도 18에 제시됨)에서 낮은 Tm 종의 회수에서의 증가, 예를 들어, 해당 스파이크-인의 경우에 20% GC 함량을 갖는 32 bp 길이, 30% GC 함량을 갖는 32 bp 길이, 40% GC 함량을 갖는 32 bp 길이, 20% GC 함량을 갖는 42 bp 길이, 30% GC 함량을 갖는 42 bp 길이, 또는 20% GC 함량을 갖는 52 bp 길이를 제시한다. GC 패널의 이러한 입도 없이, 차이는 훨씬 덜 명백할 것이며; 예를 들어, 50% GC 함량에서, 단지 32 bp 길이는 4개의 시험된 길이 중에서 회수 수준에서의 차이를 제시한다.
실시예 9: 크기-기반 고갈을 가능하게 하는 긴 길이를 갖는 담체 합성 핵산을 사용한 서열분석 라이브러리의 제조
본 실시예는 샘플 내 표적 핵산보다 더 긴 합성 DNA (예를 들어, PCR에 의해 합성된 DNA)를 사용하여 서열분석 라이브러리를 생성하는 예시적인 방법을 제시한다. 합성 DNA는 샘플 내 표적 핵산으로부터 크기-기반 분리를 가능하게 하는 길이를 가질 수 있다. 합성 DNA의 한쪽 또는 양쪽 말단은 라이게이션에 저항하는 변형을 가질 수 있다. 변형은 하나 이상의 말단에서 하나 이상의 내부 무염기성 부위 및/또는 역전된 뉴클레오티드를 포함할 수 있다. 서열분석 라이브러리에 첨가된 후에, 합성 DNA는 합성 DNA의 비교적 긴 길이를 활용하는 크기-기반 고갈 방법을 사용하여 언제든지 라이브러리로부터 고갈될 수 있다.
무세포 DNA를 포함하는 혈장 샘플을 대상체로부터 수득한다. 합성 DNA를 라이브러리 생성 키트에 대한 DNA의 최소 요구량을 위한 농도로 라이브러리 DNA 유입 용액 (예를 들어, 무세포 DNA 추출물)에 첨가한다. 합성 DNA를 말단 복구 단계 전에, 또는 말단 복구 단계 후에 그러나 어댑터 라이게이션 단계 전에 혈장 DNA 추출에 첨가한다.
이어서, DNA-농도-감수성 라이게이션을 키트 제조업체의 설명서에 따라 수행한다. 합성 DNA는 PCR 증폭되지 않는다. 오히려, 합성 DNA는 크기-선택되고 짧은 단편 (예를 들어, 단편 < 110 bp)에 대해 풍부화 동안 서열분석 라이브러리로부터 고갈된다. 또한, 합성 DNA가 말단 복구 또는 라이게이션에 저항하도록 변형되었거나, 또는 이것이 말단 복구 후에 첨가되어 라이게이션에 저항한다면, 이는 양쪽 말단에서 어댑터가 결여될 것이고 따라서 서열분석되지 않을 것이다.
도 19는 서열분석 라이브러리 생성에서의 단계를 제시한다. 샘플 (예를 들어, 혈장) 내 무세포 DNA 단편(1901)을 단계(1902)에서 단리하여 매우 낮은 농도의 무세포 DNA(1903)를 수득할 수 있다. 단편을 단계(1904)에서 말단 복구에 적용할 수 있다. 이어서 한쪽 말단에서 라이게이션에 저항하는 변형을 갖는 긴 담체 핵산(1910)을 첨가할 수 있다. 이어서 핵산은 어댑터 라이게이션 단계(1905)를 겪을 수 있으며, 여기서 말단-복구된 단편은 양쪽 말단에 라이게이션된 어댑터를 갖지만 담체 핵산은 단지 한쪽 말단에 라이게이션된 어댑터를 갖는다. 증폭 단계(1906) 동안, 라이게이션된 단편은 증폭되지만 담체 핵산은 그렇지 않다. 이어서 크기 선택 단계(1907)가 발생할 수 있다.
합성 DNA의 한쪽 말단은 합성 DNA가 라이브러리 제조에서 반응에 참여하는 것을 방지하는 변형 또는 구조를 포함한다. 어댑터가 합성 DNA의 3' 말단에 라이게이션되다면, 합성 DNA를 2개의 제한 효소로 이중 소화하여 2개의 상이한 오버행, 또는 한쪽 말단에서 오버행 및 다른 쪽에서 평활 말단을 갖는 500 bp 초과의 분자를 산출한다. 다음에, 헤어핀을 각각 상보적인 오버행 또는 평활 말단화 헤어핀을 사용하여 특이적으로 오버행 또는 평활 말단에 라이게이션한다. 어댑터가 합성 DNA의 5' 말단에 라이게이션하는 것으로 예상된다면, 합성 DNA를 PCR 프라이머의 쌍을 사용하여 합성하며, 이들 중 하나는 탈활성화된 5'-말단 (예를 들어, 5' 역전된 디데옥시-T, C3 스페이서, 스페이서 18 등)을 갖는다.
실시예 10: 무염기성 부위 및 변형을 갖는 담체 합성 핵산을 사용한 서열분석 라이브러리의 제조
담체 합성 핵산을 cfDNA 추출 단계 동안 담체 핵산으로서 역할을 하고 라이브러리 제조 동안 최소 라이브러리 유입 양을 제공하도록 디자인하였다. 담체 합성 핵산은 중심 무염기성 스트레치를 함유하였고 변형을 포함하는 양쪽 말단을 가졌다. 담체 합성 핵산의 서열은 하기 제시된다 (5Invddt는 5' 역전된 ddT를 나타내고; 3invdT는 3' 역전된 dT를 나타내고; idSp는 내부 무염기성 부위를 나타냄):
Figure pat00028
프로토콜의 단계는 도 20a에 제시된다. 2개의 병렬 실험을 수행하였다. 엔도뉴클레아제 VIII 소화를 2개의 실험 중 하나에서 수행하였다. 엔도뉴클레아제 VIII 소화의 부재 하의 실험에서, 프로토콜은 말단-복구 (단계(2001)), 아세트산나트륨 및 에탄올로의 맥바인드(MagBind) 정제 (단계(2002)), 어댑터 라이게이션 (단계(2003)), 앰퓨어(Ampure) 정제 (단계(2004)), 및 라이브러리 증폭 (단계(2005))을 포함한다. 엔도뉴클레아제 VIII 소화의 존재 하의 실험에서, 프로토콜은 말단-복구 (단계(2006)), 아세트산나트륨 및 에탄올로의 맥바인드 정제 (단계(2007)), 어댑터 라이게이션 (단계(2008)), 앰퓨어 정제 (단계(2009)), 엔도뉴클레아제 VIII 소화 (단계(2010)), 및 라이브러리 증폭 (단계(2011))을 포함한다.
엔도뉴클레아제 VIII 소화를 37℃에서 수행하고, 1시간 동안 진행되도록 하였다. 무염기성 부위는 이미 주형의 증폭을 효율적으로 억제하였기 때문에 어댑터 라이게이션 후에 어떠한 담체 합성 핵산의 고갈도 필요하지 않았다. 게다가, 변형은 어댑터 라이게이션을 방지하였으며, 모두는 담체 합성 핵산이 서열분석되는 것을 방지하였다. 엔도뉴클레아제 VIII을 사용하여 라이브러리에서 어댑터-이량체를 고갈시킬 수 있다.
도 20b 및 20c는 엔도뉴클레아제 VIII 소화의 존재 또는 부재 하의 서열분석 라이브러리 생성을 제시한다. 담체 핵산을 함유하는 라이브러리에서의 어댑터 라이게이션 후에 엔도뉴클레아제 VIII로의 소화는 담체 합성 핵산의 부재 하의 라이브러리와 비교하여 개선된 재현성 및 더 높은 스파이크-인 신호를 생성하였다.
실시예 11: 무염기성 부위를 갖는 합성 핵산을 사용한 서열분석 라이브러리의 제조
무염기성-함유 담체 합성 핵산을 cfDNA 추출 단계 동안 담체 핵산으로서 역할을 하고 라이브러리 제조 동안 최소 라이브러리 유입 양을 제공하도록 디자인하였다. 서열분석 라이브러리 생성의 방법은 실시예 8에 사용된 바와 실질적으로 동일하였다. 상이한 유형의 무염기성-함유 담체 합성 핵산을 디자인하였다. 담체 합성 핵산 분자의 서열은 하기 제시된다:
라이게이션에 저항하는 변형을 포함하는 듀플렉스의 한쪽 말단을 갖는 부분적으로 활성인 무염기성- 담체 합성 핵산 (부분 ab-CNA) (라이게이션을 위한 듀플렉스의 한쪽 말단을 남겨두는 것은 말단-복구 및 어댑터 라이게이션 반응에 대한 임의의 농도 효과를 매개하는데 도움이 됨) (5Invddt는 5' 역전된 ddT를 나타내고; 3invdT는 3' 역전된 dT를 나타내고; idSp는 내부 무염기성 부위를 나타냄):
Figure pat00029
라이게이션가능하였던 듀플렉스의 양쪽 말단을 갖는 활성 무염기성-담체 합성 핵산 (활성 ab-CNA) (라이게이션을 위한 양쪽 말단을 남겨두는 것은 말단이 농도 효과의 효율 감소를 위해 요구되었던 경우에 담체 합성 핵산 유입의 양을 감소시키는데 유용하였음) (idSp는 내부 무염기성 부위를 나타냄):
Figure pat00030
가닥당 단지 1개의 무염기성 부위를 갖는 단일 무염기성-담체 합성 핵산 (단일 ab-CNA) (단일 무염기성 부위는 엔도뉴클레아제 VIII로 더욱 효율적으로 소화되었음) (idSp는 내부 무염기성 부위를 나타냄):
Figure pat00031
모든 라이브러리를 제조하고 각각의 변이를 3회 반복으로 제조하였다. 게다가, 라이게이션을 위한 듀플렉스 말단을 제조하는 것은 또한 스파이크-인 분자에 대한 밴드 (예를 들어, SPARK)를 확산시켰으며, 이는 다양성에서의 감소가 이러한 실험 조건 하에 상당할 수 있다는 것을 시사한다. 도 21a21b는 서열분석 라이브러리 생성의 결과를 제시한다. 엔도뉴클레아제 VIII 소화는 일부 복제물에서 어댑터 이량체 밴드의 소멸을 야기하였다. 엔도뉴클레아제 VIII 소화가 이용되었을 때 더 많은 비-어댑터 이량체 주형이 증폭에 이용가능하게 되었다.
실시예 12: DNA-RNA 하이브리드를 갖는 합성 핵산을 사용한 서열분석 라이브러리의 제조
DNA-RNA 하이브리드를 갖는 담체 합성 핵산 (RnD-CNA)을 cfDNA 추출 단계 동안 담체 핵산으로서 역할을 하고 라이브러리 제조 동안 최소 라이브러리 유입 양을 제공하도록 디자인하였다. 서열분석가능한 분자의 최종 풀 내 RnD-CNA 고갈은, 도 22에 제시된 바와 같이, 어댑터 라이게이션 후에 그러나 라이브러리 증폭 전에 RNase H 소화에 의해 달성되었다. RNase H-기반 고갈을 37℃에서 라이브러리 증폭 완충제 중에서 수행하고, 1시간 동안 진행되도록 하였다.
프로토콜의 단계는 도 23a에 제시된다. 전형적인 실험에서, 프로토콜은 말단-복구 (단계(2301)), 아세트산나트륨 및 에탄올로의 맥바인드 정제 (단계(2302)), 어댑터 라이게이션 (단계(2303)), 앰퓨어 정제 (단계(2304)), 담체 핵산 고갈 (단계(2305)), 및 라이브러리 증폭 (단계(2306))을 포함한다. 이들 실험에서의 RnD-CNA는 라이게이션 또는 증폭을 방지하는 말단을 갖지 않았다. 도 23b는 라이브러리 생성 결과를 제시한다. 어댑터 이량체 밴드는 RnD-CNA가 라이브러리 유입 물질의 일부로서 도입되었을 때 소멸하였다.
도 23a 및 23b는 RNase H 소화 후의 RnD-CNA를 제시한다. RNase H 소화로부터 생성된 단편은 175 bp 및 166 bp의 단편을 산출하였으며, 양쪽 측면이 어댑터에 라이게이션되었다면, 2x 어댑터의 145 bp 총 길이를 가정한다. 이러한 라이게이션은 3'-오목 말단이 먼저 증폭 완충제 중 폴리머라제에 의해 채워진다면 가능하였다. 이는 RnD-CNA 내 리보뉴클레오티드의 위치를 지정함으로써 방지되어 소화 후의 단편은 둘 다 3'-오버행을 함유하였고 증폭 폴리머라제는 3'-말단 엑소뉴클레아제 활성을 나타내지 않았다.
본 개시된 대상의 바람직한 실시양태가 본원에 제시 및 기재되어 있으나, 이러한 실시양태는 단지 예로서 제공되는 것임이 관련 기술분야의 통상의 기술자에게 명백할 것이다. 본 개시된 대상을 벗어나지 않으면서 수많은 변경, 변화, 및 대체가 이제 관련 기술분야의 통상의 기술자에게 발생할 것이다. 본원에 기재된 개시된 대상의 실시양태에 대한 다양한 대안이 개시내용의 실시에 이용될 수 있다는 것이 이해되어야 한다. 하기 청구범위는 개시된 대상의 범주를 정의하고 이들 청구범위의 범주 내에서의 방법 및 구조 및 그의 등가물이 이에 의해 포함되도록 의도된다.

Claims (18)

  1. 비-자연적 서열을 포함하는 1,000개 이상의 고유한 합성 핵산 각각이 가변 영역의 상류 또는 하류에 위치하는 하나 이상의 식별 태그 영역을 포함하고, 상기 가변 영역이 적어도 5개의 축중성 염기를 포함하며, 상기 비-자연적 서열 각각이 서로에게 고유한 것인, 비-자연적 서열을 포함하는 1,000개 이상의 고유한 합성 핵산을 포함하는 조성물.
  2. 제1항에 있어서, 상기 가변 영역이 적어도 5개의 축중성 염기 내지 25±10%개의 축중성 염기를 포함하는 것인 조성물.
  3. 제2항에 있어서, 상기 가변 영역이 적어도 16개의 축중성 염기를 포함하는 것인 조성물.
  4. 제1항에 있어서, 상기 적어도 5개의 축중성 염기가 2개 이상의 군으로 분리된 것인 조성물.
  5. 제4항에 있어서, 상기 2개 이상의 군이 하나 이상의 뉴클레오티드에 의해 분리된 것인 조성물.
  6. 제5항에 있어서, 상기 2개 이상의 군이 4개 이상의 뉴클레오티드에 의해 분리된 것인 조성물.
  7. 제5항에 있어서, 상기 2개 이상의 군이 동일한 수의 축중성 염기를 포함하는 것인 조성물.
  8. 제7항에 있어서, 상기 동일한 수의 축중성 염기가 8개 이상의 축중성 염기인 조성물.
  9. 제5항에 있어서, 상기 2개 이상의 군이 상이한 수의 축중성 염기를 포함하는 것인 조성물.
  10. 제1항에 있어서, 상기 비-자연적 서열을 포함하는 1,000개 이상의 고유한 합성 핵산 각각이 20 ±10% 개의 뉴클레오티드 내지 1,000 ±10% 개의 뉴클레오티드 길이인 조성물.
  11. 제1항에 있어서, 상기 식별 태그 영역이 다양성 코드, 길이 식별자 도메인, 합성 핵산-식별자, 특색 도메인 또는 프로세스 코드를 포함하는 것인 조성물.
  12. 제1항에 있어서, 상기 비-자연적 서열을 포함하는 1,000개 이상의 고유한 합성 핵산 각각이 어댑터, 또는 폴리-(A) 테일을 추가로 포함하는 것인 조성물.
  13. 제1항에 있어서, 상기 비-자연적 서열을 포함하는 1,000개 이상의 고유한 합성 핵산 각각이 변형된 염기 또는 인공 염기를 추가로 포함하는 것인 조성물.
  14. 제13항에 있어서, 상기 비-자연적 서열을 포함하는 1,000개 이상의 고유한 합성 핵산 각각이 변형된 염기를 포함하는 것인 조성물.
  15. 제14항에 있어서, 상기 변형된 염기가 5-메틸시토신 (m5C), 슈도우리딘 (Ψ), 디히드로우리딘 (D), 이노신 (I), 또는 7-메틸구아노신 (m7G)을 포함하는 것인 조성물.
  16. 제1항에 있어서, 상기 비-자연적 서열을 포함하는 1,000개 이상의 고유한 합성 핵산 각각이 비드, 형광단, 또는 중합체에 부착, 라이게이션 또는 접합된 것인 조성물.
  17. 1,000개 이상의 고유한 합성 핵산을 포함하는 조성물로서, 여기서 상기 1,000개 이상의 고유한 합성 핵산 각각이 서열식별번호: 119 또는 서열식별번호: 120에 식별된 서열을 포함하는 것인, 조성물.
  18. 제1항에 있어서, 상기 비-자연적 서열을 포함하는 1,000개 이상의 고유한 합성 핵산 각각이 상기 가변 영역의 상류에 위치하는 제2 식별 태그 영역을 추가로 포함하는 것인 조성물.
KR1020207031598A 2016-03-25 2017-03-24 합성 핵산 스파이크-인 KR102326769B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020217036722A KR102531487B1 (ko) 2016-03-25 2017-03-24 합성 핵산 스파이크-인

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201662313668P 2016-03-25 2016-03-25
US62/313,668 2016-03-25
US201662397873P 2016-09-21 2016-09-21
US62/397,873 2016-09-21
US201762451363P 2017-01-27 2017-01-27
US62/451,363 2017-01-27
PCT/US2017/024176 WO2017165864A1 (en) 2016-03-25 2017-03-24 Synthetic nucleic acid spike-ins
KR1020187030402A KR102175718B1 (ko) 2016-03-25 2017-03-24 합성 핵산 스파이크-인

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020187030402A Division KR102175718B1 (ko) 2016-03-25 2017-03-24 합성 핵산 스파이크-인

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020217036722A Division KR102531487B1 (ko) 2016-03-25 2017-03-24 합성 핵산 스파이크-인

Publications (2)

Publication Number Publication Date
KR20200128194A true KR20200128194A (ko) 2020-11-11
KR102326769B1 KR102326769B1 (ko) 2021-11-17

Family

ID=59897735

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020217036722A KR102531487B1 (ko) 2016-03-25 2017-03-24 합성 핵산 스파이크-인
KR1020207031598A KR102326769B1 (ko) 2016-03-25 2017-03-24 합성 핵산 스파이크-인
KR1020187030402A KR102175718B1 (ko) 2016-03-25 2017-03-24 합성 핵산 스파이크-인

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020217036722A KR102531487B1 (ko) 2016-03-25 2017-03-24 합성 핵산 스파이크-인

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020187030402A KR102175718B1 (ko) 2016-03-25 2017-03-24 합성 핵산 스파이크-인

Country Status (11)

Country Link
US (4) US9976181B2 (ko)
EP (3) EP4198146A3 (ko)
JP (3) JP6743268B2 (ko)
KR (3) KR102531487B1 (ko)
CN (2) CN109312400A (ko)
AU (3) AU2017237199B2 (ko)
BR (1) BR112018069557A2 (ko)
CA (2) CA3014070C (ko)
IL (2) IL260924B (ko)
MX (3) MX2018011429A (ko)
WO (1) WO2017165864A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022075708A1 (ko) 2020-10-05 2022-04-14 주식회사 엘지에너지솔루션 배터리 상태 진단 장치 및 방법

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6947638B2 (ja) 2014-12-20 2021-10-13 アーク バイオ, エルエルシー Crispr/cas系タンパク質を使用する核酸の標的化枯渇、富化および分割のための組成物および方法
DK3337898T3 (da) 2015-08-19 2021-10-18 Arc Bio Llc Indfangning af nukleinsyrer ved anvendelse af et nukleinsyre-styret nuclease-baseret system
CN109312400A (zh) 2016-03-25 2019-02-05 凯锐思公司 合成核酸掺入物
WO2018191563A1 (en) 2017-04-12 2018-10-18 Karius, Inc. Sample preparation methods, systems and compositions
US11519024B2 (en) 2017-08-04 2022-12-06 Billiontoone, Inc. Homologous genomic regions for characterization associated with biological targets
US11646100B2 (en) 2017-08-04 2023-05-09 Billiontoone, Inc. Target-associated molecules for characterization associated with biological targets
AU2018312117B2 (en) 2017-08-04 2022-05-12 Billiontoone, Inc. Sequencing output determination and analysis with target-associated molecules in quantification associated with biological targets
CN109680343B (zh) * 2017-10-18 2022-02-18 深圳华大生命科学研究院 一种外泌体微量dna的建库方法
EP4335928A3 (en) * 2018-01-05 2024-04-17 BillionToOne, Inc. Quality control templates for ensuring validity of sequencing-based assays
US11970786B2 (en) * 2018-02-15 2024-04-30 Bioo Scientific Corporation Methods and kits for detecting contamination and sample misidentification
WO2019161031A1 (en) * 2018-02-15 2019-08-22 Papgene, Inc. Barcoded molecular standards
WO2019178157A1 (en) 2018-03-16 2019-09-19 Karius, Inc. Sample series to differentiate target nucleic acids from contaminant nucleic acids
GB201805676D0 (en) * 2018-04-05 2018-05-23 Imperial Innovations Ltd Compositions
WO2019226648A1 (en) * 2018-05-21 2019-11-28 Battelle Memorial Institute Methods and control compositions for sequencing and chemical analyses
AU2019291907A1 (en) 2018-06-29 2021-02-18 Grail, Inc. Nucleic acid rearrangement and integration analysis
CA3108755C (en) * 2018-08-06 2021-09-14 Billiontoone, Inc. Dilution tagging for quantification of biological targets
AU2019356016A1 (en) * 2018-10-04 2021-05-13 Arc Bio, Llc Normalization controls for managing low sample inputs in next generation sequencing
CA3116176A1 (en) * 2018-10-31 2020-05-07 Guardant Health, Inc. Methods, compositions and systems for calibrating epigenetic partitioning assays
BR112021009706A2 (pt) * 2018-11-21 2021-08-17 Karius, Inc. detecção e predição de doença infecciosa
EP3884065A4 (en) 2018-11-21 2022-08-31 Karius Inc. DIRECT-TO-LIBRARY METHODS, SYSTEMS AND COMPOSITIONS
EP3894553A4 (en) * 2018-12-13 2022-06-29 Battelle Memorial Institute Methods and control compositions for a quantitative polymerase chain reaction
SG11202104701XA (en) * 2018-12-20 2021-06-29 Guardant Health Inc Methods, compositions, and systems for improving recovery of nucleic acid molecules
US20220364156A1 (en) * 2019-06-28 2022-11-17 Biota Technology, Inc. Estimating a quantity of molecules in a sample
CA3153350A1 (en) * 2019-10-16 2021-04-22 Barbara ANDRE Determination of nucleic acid sequence concentrations
CN111599409B (zh) * 2020-05-20 2022-05-20 电子科技大学 基于MapReduce并行的circRNA识别方法
CN112266978A (zh) * 2020-10-22 2021-01-26 深圳国际旅行卫生保健中心(深圳海关口岸门诊部) 引物探针组合、检测试剂盒及其应用
EP4314328A1 (en) * 2021-03-29 2024-02-07 Illumina, Inc. Compositions and methods for assessing dna damage in a library and normalizing amplicon size bias
WO2023183812A2 (en) * 2022-03-21 2023-09-28 Billion Toone, Inc. Molecule counting of methylated cell-free dna for treatment monitoring

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014082032A1 (en) * 2012-11-26 2014-05-30 The University Of Toledo Methods for standardized sequencing of nucleic acids and uses thereof
WO2016094947A1 (en) * 2014-12-16 2016-06-23 Garvan Institute Of Medical Research Sequencing controls

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
USRE39920E1 (en) 1997-05-30 2007-11-13 Xenomics, Inc. Methods for detection of nucleic acid sequences in urine
US20040106110A1 (en) 1998-07-30 2004-06-03 Solexa, Ltd. Preparation of polynucleotide arrays
US20030022207A1 (en) 1998-10-16 2003-01-30 Solexa, Ltd. Arrayed polynucleotides and their use in genome analysis
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
GB0002389D0 (en) 2000-02-02 2000-03-22 Solexa Ltd Molecular arrays
WO2002027029A2 (en) 2000-09-27 2002-04-04 Lynx Therapeutics, Inc. Method for determining relative abundance of nucleic acid sequences
US6753137B2 (en) 2001-01-31 2004-06-22 The Chinese University Of Hong Kong Circulating epstein-barr virus DNA in the serum of patients with gastric carcinoma
JP2003101204A (ja) 2001-09-25 2003-04-04 Nec Kansai Ltd 配線基板及び配線基板の製造方法並びに電子部品
US20050124022A1 (en) 2001-10-30 2005-06-09 Maithreyan Srinivasan Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US6902921B2 (en) 2001-10-30 2005-06-07 454 Corporation Sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US20050202414A1 (en) 2001-11-15 2005-09-15 The Regents Of The University Of California Apparatus and methods for detecting a microbe in a sample
WO2005003375A2 (en) 2003-01-29 2005-01-13 454 Corporation Methods of amplifying and sequencing nucleic acids
EP1606417A2 (en) 2003-03-07 2005-12-21 Rubicon Genomics Inc. In vitro dna immortalization and whole genome amplification using libraries generated from randomly fragmented dna
US20070111233A1 (en) 2003-10-30 2007-05-17 Bianchi Diana W Prenatal diagnosis using cell-free fetal DNA in amniotic fluid
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20060024711A1 (en) 2004-07-02 2006-02-02 Helicos Biosciences Corporation Methods for nucleic acid amplification and sequence determination
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060012793A1 (en) 2004-07-19 2006-01-19 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060024678A1 (en) 2004-07-28 2006-02-02 Helicos Biosciences Corporation Use of single-stranded nucleic acid binding proteins in sequencing
US20060073506A1 (en) * 2004-09-17 2006-04-06 Affymetrix, Inc. Methods for identifying biological samples
ITRM20050068A1 (it) 2005-02-17 2006-08-18 Istituto Naz Per Le Malattie I Metodo per la rivelazione di acidi nucleici di agenti patogeni batterici o di parassiti nelle urine.
US7914982B2 (en) 2005-02-17 2011-03-29 Trovagene, Inc. Methods for detecting pathogen specific nucleic acids in urine
AU2006214444B8 (en) 2005-02-17 2012-04-05 Trovagene, Inc. Compositions and methods for detecting pathogen specific nucleic acids in urine
ITRM20050067A1 (it) 2005-02-17 2006-08-18 Istituto Naz Per Le Malattie I Metodo per la rivelazione di acidi nucleici virali o di origine virale nelle urine.
CA2597948A1 (en) 2005-02-17 2006-08-24 Istituto Nazionale Per Le Malattie Infettive Irccs Lazzaro Spallanzani Compositions and methods for detecting viral specific nucleic acids in urine
US8532930B2 (en) 2005-11-26 2013-09-10 Natera, Inc. Method for determining the number of copies of a chromosome in the genome of a target individual using genetic data from genetically related individuals
WO2009117031A2 (en) 2007-12-18 2009-09-24 Advanced Analytical Technologies, Inc. System and method for nucleotide sequence profiling for sample identification
US20100029498A1 (en) * 2008-02-04 2010-02-04 Andreas Gnirke Selection of nucleic acids by solution hybridization to oligonucleotide baits
WO2009143379A2 (en) * 2008-05-21 2009-11-26 Fred Hutchinson Cancer Research Center Use of extracellular rna to measure disease
ES2532153T3 (es) 2008-07-18 2015-03-24 Trovagene, Inc. Métodos para la detección de secuencias de ácidos nucleicos "ultracortos" basados en PCR
US20100062494A1 (en) * 2008-08-08 2010-03-11 President And Fellows Of Harvard College Enzymatic oligonucleotide pre-adenylation
PL2562268T3 (pl) 2008-09-20 2017-06-30 The Board Of Trustees Of The Leland Stanford Junior University Nieinwazyjna diagnostyka aneuploidii płodu za pomocą sekwencjonowania
WO2011015944A2 (en) 2009-08-06 2011-02-10 Cedars-Sinai Medical Center Use of free dna as an early predictor of severity in acute pancreatitis
US8703652B2 (en) 2009-11-06 2014-04-22 The Board Of Trustees Of The Leland Stanford Junior University Non-invasive diagnosis of graft rejection in organ transplant patients
US8835358B2 (en) * 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
WO2011156795A2 (en) * 2010-06-11 2011-12-15 Pathogenica, Inc. Nucleic acids for multiplex organism detection and methods of use and making the same
WO2012012703A2 (en) 2010-07-23 2012-01-26 Esoterix Genetic Laboratories, Llc Identification of differentially represented fetal or maternal genomic regions and uses thereof
US20120077185A1 (en) 2010-08-06 2012-03-29 Tandem Diagnostics, Inc. Detection of genetic abnormalities and infectious disease
CA2811185C (en) * 2010-09-21 2020-09-22 Population Genetics Technologies Ltd. Increasing confidence of allele calls with molecular counting
EP2649199A2 (en) 2010-12-07 2013-10-16 Stanford University Non-invasive determination of fetal inheritance of parental haplotypes at the genome-wide scale
WO2012129363A2 (en) * 2011-03-24 2012-09-27 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
US20140147851A1 (en) 2011-04-01 2014-05-29 Occam Biolabs, Inc. Methods and kits for detecting cell-free pathogen-specific nucleic acids
US9809904B2 (en) * 2011-04-21 2017-11-07 University Of Washington Through Its Center For Commercialization Methods for retrieval of sequence-verified DNA constructs
WO2012159023A2 (en) 2011-05-19 2012-11-22 Virginia Commonwealth University Gut microflora as biomarkers for the prognosis of cirrhosis and brain dysfunction
CN103890245B (zh) * 2011-05-20 2020-11-17 富鲁达公司 核酸编码反应
US20140249764A1 (en) 2011-06-06 2014-09-04 Koninklijke Philips N.V. Method for Assembly of Nucleic Acid Sequence Data
CA2840964C (en) 2011-07-06 2020-08-25 Quest Diagnostics Investments Incorporated Direct amplification and detection of viral and bacterial pathogens
US20130024127A1 (en) 2011-07-19 2013-01-24 John Stuelpnagel Determination of source contributions using binomial probability calculations
CA3067612A1 (en) 2011-09-22 2013-03-28 Lineage Biosciences, Inc. Compositions and methods for analyzing heterogeneous samples
KR101272017B1 (ko) * 2011-09-23 2013-06-07 주식회사 랩 지노믹스 비뇨생식기 감염 질환 진단용 dna칩
CA2850785C (en) 2011-10-06 2022-12-13 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2788506A2 (en) * 2011-11-01 2014-10-15 Pathogenica, Inc. Method and system for detection of an organism
PL2805280T3 (pl) 2012-01-20 2022-11-21 Sequenom, Inc. Procesy diagnostyczne będące czynnikiem warunków doświadczalnych
SG11201505515XA (en) 2012-01-27 2015-09-29 Univ Leland Stanford Junior Methods for profiling and quantitating cell-free rna
EP3854873A1 (en) * 2012-02-17 2021-07-28 Fred Hutchinson Cancer Research Center Compositions and methods for accurately identifying mutations
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
JP6411995B2 (ja) 2012-03-13 2018-10-24 ザ チャイニーズ ユニバーシティー オブ ホンコン 非侵襲的出生前診断のために大量並列シークエンシング・データを分析する方法
EP2839036A4 (en) 2012-04-19 2016-03-16 Wisconsin Med College Inc HIGHLY SENSITIVE SURVEILLANCE USING ACELLULAR DNA DETECTION
EP2653562A1 (en) 2012-04-20 2013-10-23 Institut Pasteur Anellovirus genome quantification as a biomarker of immune suppression
MX2014015425A (es) 2012-06-15 2015-07-14 Harry Stylli Metodos para detectar enfermedades o condiciones.
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10041127B2 (en) 2012-09-04 2018-08-07 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
EP3026124A1 (en) 2012-10-31 2016-06-01 Genesupport SA Non-invasive method for detecting a fetal chromosomal aneuploidy
WO2014127484A1 (en) * 2013-02-21 2014-08-28 British Columbia Cancer Agency Branch Spike-in control nucleic acids for sample tracking
US20140242582A1 (en) 2013-02-28 2014-08-28 Ariosa Diagnostics, Inc. Detection of genetic abnormalities using ligation-based detection and digital pcr
CN105408496A (zh) 2013-03-15 2016-03-16 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
CA3156663A1 (en) 2013-03-15 2014-09-18 Verinata Health, Inc. Generating cell-free dna libraries directly from blood
WO2014165596A1 (en) 2013-04-03 2014-10-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9422551B2 (en) * 2013-05-29 2016-08-23 New England Biolabs, Inc. Adapters for ligation to RNA in an RNA library with reduced bias
JP6626830B2 (ja) * 2013-11-07 2019-12-25 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. Dna操作のための複数のトランスポザーゼアダプター
KR20240038168A (ko) 2013-11-07 2024-03-22 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 인간 마이크로바이옴 및 그의 성분의 분석을 위한 무세포 핵산
WO2015070187A2 (en) * 2013-11-11 2015-05-14 The Translational Genomics Research Institute Systems and methods for universal tail-based indexing strategies for amplicon sequencing
US10364465B2 (en) * 2013-11-12 2019-07-30 Life Technologies Corporation Reagents and methods for sequencing
US11035000B2 (en) 2013-12-04 2021-06-15 University Of Alaska Fairbanks Methods and compositions for enriching non-host sequences in host samples
AU2014362227B2 (en) 2013-12-11 2021-05-13 Accuragen Holdings Limited Compositions and methods for detecting rare sequence variants
EP3102691B1 (en) 2014-02-03 2019-09-11 Thermo Fisher Scientific Baltics UAB Method for controlled dna fragmentation
GB201405226D0 (en) 2014-03-24 2014-05-07 Cambridge Entpr Ltd Nucleic acid preparation method
GB201411603D0 (en) * 2014-06-30 2014-08-13 Vela Operations Pte Ltd Compositions for quantitative and/or semiquantitative mutation detection methods
WO2016040524A1 (en) * 2014-09-09 2016-03-17 Igenomx International Genomics Corporation Methods and compositions for rapid nucleic acid library preparation
WO2016187234A1 (en) 2015-05-18 2016-11-24 Karius, Inc. Compositions and methods for enriching populations of nucleic acids
EP3405573A4 (en) * 2016-01-22 2019-09-18 Grail, Inc. METHOD AND SYSTEMS FOR HIGH-FIDELITY SEQUENCING
CN109312400A (zh) 2016-03-25 2019-02-05 凯锐思公司 合成核酸掺入物
SG11201811556RA (en) 2016-07-06 2019-01-30 Guardant Health Inc Methods for fragmentome profiling of cell-free nucleic acids
EP4074824A1 (en) 2016-08-08 2022-10-19 Karius, Inc. Reduction of signal from contaminant nucleic acids
WO2018045359A1 (en) 2016-09-02 2018-03-08 Karius, Inc. Detection and treatment of infection during pregnancy
TW202340477A (zh) 2016-10-24 2023-10-16 美商格瑞爾有限責任公司 腫瘤檢測之方法及系統
US11781188B2 (en) 2017-04-06 2023-10-10 Cornell University Methods of detecting cell-free DNA in biological samples
WO2018191563A1 (en) 2017-04-12 2018-10-18 Karius, Inc. Sample preparation methods, systems and compositions
US20200216874A1 (en) * 2017-06-20 2020-07-09 Mgi Tech Co., Ltd. Pcr primer pair and application thereof
WO2019178157A1 (en) 2018-03-16 2019-09-19 Karius, Inc. Sample series to differentiate target nucleic acids from contaminant nucleic acids
EP3884065A4 (en) 2018-11-21 2022-08-31 Karius Inc. DIRECT-TO-LIBRARY METHODS, SYSTEMS AND COMPOSITIONS
BR112021009706A2 (pt) 2018-11-21 2021-08-17 Karius, Inc. detecção e predição de doença infecciosa
US20220195496A1 (en) 2020-12-17 2022-06-23 Karius, Inc. Sequencing microbial cell-free dna from asymptomatic individuals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014082032A1 (en) * 2012-11-26 2014-05-30 The University Of Toledo Methods for standardized sequencing of nucleic acids and uses thereof
WO2016094947A1 (en) * 2014-12-16 2016-06-23 Garvan Institute Of Medical Research Sequencing controls

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Genome Biol.,15(11):doi: 10.1186/PREACCEPT-1698056557139770(2014.) *
Genome Res.,21(9):1543-1551(2011.8.4.) *
PLoS One.,7(7):doi: 10.1371/journal.pone.0041356(2012.7.31.) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022075708A1 (ko) 2020-10-05 2022-04-14 주식회사 엘지에너지솔루션 배터리 상태 진단 장치 및 방법

Also Published As

Publication number Publication date
MX2021006911A (es) 2021-07-07
US9976181B2 (en) 2018-05-22
CA3185611A1 (en) 2017-09-28
AU2021200637B2 (en) 2021-05-13
MX2018011429A (es) 2019-06-06
KR20180129844A (ko) 2018-12-05
IL278000B (en) 2022-04-01
WO2017165864A1 (en) 2017-09-28
EP3978627A1 (en) 2022-04-06
EP4198146A3 (en) 2023-08-23
AU2021215106A1 (en) 2021-08-26
US20170275691A1 (en) 2017-09-28
BR112018069557A2 (pt) 2019-01-29
KR102175718B1 (ko) 2020-11-06
CN109312400A (zh) 2019-02-05
JP7091397B2 (ja) 2022-06-27
EP3433382A4 (en) 2019-10-02
US11078532B2 (en) 2021-08-03
EP3433382A1 (en) 2019-01-30
JP2019509068A (ja) 2019-04-04
KR102531487B1 (ko) 2023-05-10
EP4198146A2 (en) 2023-06-21
IL278000A (en) 2020-11-30
IL260924B (en) 2021-01-31
KR20210138154A (ko) 2021-11-18
AU2017237199A1 (en) 2018-08-16
JP2020182491A (ja) 2020-11-12
JP6743268B2 (ja) 2020-08-19
US11692224B2 (en) 2023-07-04
CA3014070C (en) 2023-03-14
CN116987777A (zh) 2023-11-03
EP3433382B1 (en) 2021-09-01
MX2021006899A (es) 2021-07-07
AU2021200637A1 (en) 2021-03-04
CA3014070A1 (en) 2017-09-28
KR102326769B1 (ko) 2021-11-17
AU2017237199B2 (en) 2020-11-05
US20210324467A1 (en) 2021-10-21
US20240043923A1 (en) 2024-02-08
US20180237851A1 (en) 2018-08-23
JP2022120165A (ja) 2022-08-17

Similar Documents

Publication Publication Date Title
KR102175718B1 (ko) 합성 핵산 스파이크-인
CN108368542B (zh) 用于基因组组装、单元型定相以及独立于靶标的核酸检测的方法
US11674167B2 (en) Sample series to differentiate target nucleic acids from contaminant nucleic acids
BR112021006234A2 (pt) Bibliotecas de células únicas e núcleos únicos de alto rendimento e métodos de preparo e uso
US20230235320A1 (en) Methods and compositions for analyzing nucleic acid
JP2024502028A (ja) 配列決定ライブラリー調製のための方法および組成物
CN115867665A (zh) 嵌合扩增子阵列测序
WO2023076833A1 (en) Multiplexed targeted amplification of polynucleotides
Anderson Emerging Next-Generation Sequencing Technologies

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant