KR20230009877A - 게놈 서열분석 및 검출 기술 - Google Patents

게놈 서열분석 및 검출 기술 Download PDF

Info

Publication number
KR20230009877A
KR20230009877A KR1020227034954A KR20227034954A KR20230009877A KR 20230009877 A KR20230009877 A KR 20230009877A KR 1020227034954 A KR1020227034954 A KR 1020227034954A KR 20227034954 A KR20227034954 A KR 20227034954A KR 20230009877 A KR20230009877 A KR 20230009877A
Authority
KR
South Korea
Prior art keywords
mers
pathogen
sequence data
genome
mer
Prior art date
Application number
KR1020227034954A
Other languages
English (en)
Inventor
스벤 빌케
요한 펠릭스 빌헬름 슐레진저
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20230009877A publication Critical patent/KR20230009877A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

핵산 서열분석 기술이 기재된다. 예컨대, 서열분석 디바이스에 의해 생성된 서열 데이터를 분석하여 서열 데이터 내 개별 판독에서 고정 크기 n의 k-mer를 스캔할 수 있다. 참조 k-mer와 k-mer의 정확한 매칭이 서열 데이터에서 식별된다. 상이한 표적 영역에 맵핑되는, 서열 데이터에서 정확한 매칭의 수, 참조 게놈에서의 분포, 및/또는 서열 판독의 수는 샘플의 특성을 결정하는 데 사용될 수 있다. 일 예시에서, 특성은 샘플 내 병원체의 존재이다.

Description

게놈 서열분석 및 검출 기술
관련 출원의 상호 참조
본 출원은 2020년 5월 8일자로 출원된 미국 가출원 제63/022,296호의 우선권 및 이익을 주장하며, 이의 개시내용은 본원에 참조로서 인용된다.
개시된 기술은 일반적으로 핵산 특징화, 예를 들어, 서열분석 기술에 관한 것이다. 일부 구현예에서, 개시된 기술은 게놈 서열분석, 예컨대, 전체 게놈 서열분석에 기반한 서열 데이터로부터 신속하고 정확한 바이러스 검출을 위한 방법을 포함한다.
이 섹션에서 논의되는 주제는 단지 이 섹션 내에서의 그의 언급의 결과로서 종래기술이라고 가정되어서는 안 된다. 유사하게, 이 섹션에서 언급되거나 배경기술로서 제공되는 주제와 연관된 문제는 종래기술에서 이전에 인식되었다고 가정되어서는 안 된다. 이 섹션에서의 주제는 단지 상이한 접근법들을 표현할 뿐이며, 그 접근법들 자체는 청구되는 기술의 구현들에 또한 대응할 수 있다.
차세대 서열분석 기술은 점점 더 빠른 서열분석 속도를 제공하여 더 깊은 서열분석 심도를 가능하게 한다. 그러나, 서열분석 정확도 및 감도는 다양한 원인, 예컨대, 라이브러리 제조 중 샘플 결함 또는 PCR 편향으로부터의 오류 및 노이즈에 의해 영향을 받는다. 따라서, 낮은 농도의 바이러스 또는 박테리아 핵산을 포함하는 숙주 샘플에서와 같은 매우 낮은 빈도의 서열의 검출은 복잡할 수 있다. 따라서, 신속하고 정확한 방식으로 낮은 양으로 존재하는 핵산 분자를 검출 및/또는 서열분석하는 방법을 개발하는 것이 바람직하다.
일 구현예에서, 본 개시는 생물학적 샘플에서 병원체를 검출하는 방법에 관한 것이다. 이러한 방법은 생물학적 샘플로부터 서열 데이터를 수신하는 단계; 병원체의 게놈 내의 병원체 k-mer를 포함하는 제1 세트의 k-mer 및 대조군 k-mer를 포함하는 제2 세트의 k-mer 로 초기화되는 해시 테이블에서 정확한 매칭을 갖는 k-mer를 서열 데이터에서 식별하는 단계; 및 적어도 부분적으로 서열 데이터에서 제1 세트와 정확하게 매칭되는 k-mer의 제1 수 및 서열 데이터에서 제2 세트와 정확하게 매칭되는 k-mer의 제2 수에 기반하여 생물학적 샘플의 검출 출력을 제공하는 단계로서, 검출 출력은 제1 수가 제1 세트 임계값을 초과하고 제2 수가 제2 세트 임계값을 초과할 때 병원체 검출에 대해 양성 결과를 가지며 제1 수가 제1 세트 임계값 미만일 때, 제2 수가 제2 세트 임계값 미만일 때 혹은 둘 다인 경우 병원체 검출에 대해 음성 결과를 가지는 것인, 단계를 포함한다.
또 다른 구현예에서, 본 개시는 생물학적 샘플에서 병원체를 검출하는 방법에 관한 것이다. 이러한 방법은 생물학적 샘플로부터 제조된 서열분석 라이브러리로부터 서열 데이터를 생성하는 단계; 병원체의 병원체 게놈 내 병원체 k-mer를 포함하는 k-mer의 세트로 초기화되는 해시 테이블에서 정확한 매칭을 갖는 k-mer를 서열 데이터에서 식별하는 단계; 병원체 게놈의 각각의 개별 표적 영역에 상응하는 식별된 k-mer를 포함하는 서열 데이터에서 식별된 k-mer의 수 또는 서열 판독의 수 중 하나 또는 둘 모두에 기반하여 병원체 게놈의 개별 표적 영역에 대한 커버리지를 서열 데이터에서 결정하는 단계로서, 개별 표적 영역에 상응하는 식별된 k-mer의 수 또는 서열 판독의 수가 임계 수를 초과할 때 개별 표적 영역이 커버되는 것으로 결정되는, 단계; 다수의 커버된 개별 표적 영역이 검출 임계값을 초과하는 것으로 결정하는 단계; 및 생물학적 샘플이 병원체의 존재에 대해 양성인 검출 출력을 제공하는 단계를 포함한다.
다른 구현예에서, 본 개시는 샘플로부터 제조된 서열분석 라이브러리가 로딩된 기판을 포함하는 서열분석 디바이스에 관한 것이다. 서열분석 디바이스는 또한 서열분석 디바이스로 하여금 서열분석 라이브러리로부터 서열 데이터를 생성하게 하고; 서열 데이터 내 개별 판독에서 고정 크기 n의 k-mer를 스캔하고; 컴퓨터의 메모리에 저장된 해시 테이블에 액세스하되, 해시 테이블은 고정 크기 n의 참조 k-mer의 세트로 초기화된 것이고; 해시 테이블을 사용하여 참조 k-mer의 세트와 정확하게 매칭하는 k-mer를 식별하고; 임계값을 초과하는 식별된 정확한 매칭의 수에 기반하여 샘플의 특성을 결정하도록 프로그래밍된 컴퓨터를 포함한다.
전술한 설명은 개시된 기술의 제작 및 사용을 가능하게 하기 위해 제시된다. 개시된 구현예에 대한 다양한 변형예는 명백할 것이며, 본원에서 정의된 일반적인 원리는 개시된 기술의 사상 및 범주로부터 벗어남이 없이 다른 구현예 및 애플리케이션에 적용될 수 있다. 따라서, 개시된 기술은 도시된 구현예로 제한되도록 의도된 것이 아니라, 본원에 개시된 원리 및 특징과 일치하는 가장 넓은 범주에 부합되어야 한다. 개시된 기술의 범위는 첨부된 청구범위에 의해 정의된다.
본 개시의 이러한 특징 및 다른 특징들, 양태, 및 이점은 하기의 상세한 설명을 첨부 도면(도면 전체에 걸쳐서 유사한 부호는 유사한 부분을 나타냄)을 참조하여 읽을 때 더 잘 이해될 것이다.
도 1은 본 개시의 양태에 따른, k-mer 정렬을 위한 워크플로우의 개략도이다;
도 2는 본 개시의 양태에 따른, 게놈에 대한 예시적인 k-mer의 개략도이다;
도 3은 본 개시의 양태에 따른, 서열분석 데이터로부터의 바이러스를 검출하는 방법의 개략도이다;
도 4는 본 개시의 양태에 따른, 정렬 기반 바이러스 검출 방법의 개략도이다;
도 5는 본 개시의 양태에 따른, 정렬 기반 바이러스 검출에서의 표적 영역 또는 k-mer 커버리지의 개략도이다;
도 6은 본 개시의 양태에 따른, 병원체 검출을 위한 병원체 특이적 k-mer 및 대조군 k-mer의 세트를 생성하는 방법의 개략도이다; 그리고
도 7은 본 개시의 양태에 따른, 서열분석 데이터를 획득하고 정렬 기반 검출을 수행하도록 구성된 시스템의 블록도이다.
아래의 논의는 어느 당업자라도 개시된 기술을 제조하고 사용할 수 있게 하도록 제시되며, 특정의 응용 및 그의 요건과 관련하여 제공된다. 개시된 구현예들에 대한 다양한 변형들은 당업자들에게 용이하게 명백할 것이며, 본 명세서에서 정의된 일반적인 원리들은 개시된 기술의 사상 및 범주로부터 벗어남이 없이 다른 구현예들 및 응용예들에 적용될 수 있다. 따라서, 개시된 기술은 도시된 구현예로 제한되도록 의도된 것이 아니라, 본원에 개시된 원리 및 특징과 일치하는 가장 넓은 범주에 부합되어야 한다.
핵산의 특성화를 허용하는 다양한 방법 및 조성물이 본원에 기재된다. 일 구현예에서, 개시된 기술은 관심 게놈 서열을 신속하고 정확하게 검출하기 위해 생물학적 샘플로부터 생성된 서열 데이터의 서열 분석의 일부로서 사용된다. 일 구현예에서, 개시된 기술은 서열 데이터로부터 오류가 감소하거나 오류가 없는 하위서열을 생성하기 위해 초고속 해시 기반 얼라이너를 사용한다. 개시된 기술의 하나의 응용은 서열분석된 라이브러리에 존재하는 바이러스 게놈의 신속한 검출이다. 이 기술은 서열분석된 라이브러리의 모든 서열 판독에서 고정 크기 "n" 의 각각의 k-mer를 스캔하고 해시 테이블에서 존재/부재를 찾도록 작동한다. 해시 테이블은 바이러스 게놈의 모든 n k-mer 또는 이의 큐레이션된 하위세트로 초기화된다. 예를 들어, 관심 병원체(들)에 고유하지 않은 k-mer를 제거하기 위해 큐레이션을 사용할 수 있다. 해시 테이블에 대한 서열 k-mer의 성공적인 매칭을 각각의 바이러스 k-mer에 대해 계수한다.
실시예에서, 바이러스에 고유한 k-mer의 전체 또는 감소된(예컨대, 큐레이션된) 세트의 빠르고 정확한 k-mer 매칭을 사용하는 특수 얼라이너는 인간 양성 대조군 앰플리콘으로 병원체 감염을 검출하는 데 사용된다. 그러나, 개시된 기술은, 생물학적 샘플에서 생식세포 변이의 검출, 마이크로바이옴 특성화, 환경 모니터링(예를 들어, 하수 모니터링)에서 모인 또는 복잡한 입력 샘플의 검출과 같은 다른 응용에 사용될 수 있다. 또한, 개시된 기술은 병원체 패널, 예컨대, 호흡기 병원체 패널(SARS-CoV-2, RSV, 폐렴, 인플루엔자) 또는 특정 병원체의 상이한 균주를 나타내는 k-mer를 포함하는 균주 추적 패널에서 단일 관심 병원체(예컨대, SARS-CoV-2)의 검출 또는 하나 이상의 병원체의 검출을 위해 사용될 수 있다.
도 1은 개시된 기술과 함께 사용될 수 있는 서열 분석을 통한 샘플 가공의 단계를 포함하는 예시적인 워크플로우(12)이다. 샘플(20)은 가공 또는 샘플 제조(24)를 거쳐 서열 데이터(30)를 생성하기 위해 서열분석 단계(28)에 적합한 복수의 핵산 단편을 포함하는 서열분석 라이브러리를 생성한다. 서열 데이터(30)는 일반적으로 본원에 제공된 바와 같이 k-mer 스캐닝 및 k-mer 정렬로 전달되기 전에 소정의 1차 분석 단계, 예컨대, 품질 또는 필터링을 거칠 수 있다.
생성된 서열 데이터(30)를 스캔하여 고정 크기 n의 k-mer를 식별하고, 이러한 식별된 k-mer는 k-mer 얼라이너(36)에 제공된다. k-mer 얼라이너(36)는 참조 게놈으로부터 유래된 크기 n의 공지된 k-mer의 세트(34)로 초기화되는 해시 테이블을 포함할 수 있다. 참조 게놈은 관심 병원체 게놈(또는 이의 큐레이션된 하위세트) 또는 본원에 제공된 바와 같은 다른 관심 서열의 크키 n의 모든 k-mer일 수 있다.
서열 데이터(30)는 서열 데이터(30)에서 관심 k-mer를 검출하기 위해 수신된 바와 같이 k-mer 얼라이너(36)가 블록(40)에서 이용 가능한 추가 서열 데이터(30) 상에 작동하도록 실시간으로 또는 롤링 기반으로 k-mer 얼라이너(36)로 스트리밍될 수 있다. k-mer 얼라이너(36)는 서열 데이터(30)에서 관심 k-mer(34)의 세트에 정확하게 매칭되는 k-mer를 식별한다. 정확한 매칭은 샘플(20)에 대한 총 매칭의 수에 기여할 수 있다. 일단 샘플(20)이 식별된 k-mer의 정확한 매칭의 임계 수를 통과하면, 워크플로우(12)가 검출 출력(42)을 제공한다. 일 구현예에서, 개별 샘플(20)은 세트(34)에서의 서열의 검출에 대해 양성 또는 음성으로 특징지어질 수 있다. k-mer 얼라이너(36)가 실시간 스트리밍 데이터에서 작동하기 때문에, 검출 기능은 k-mer의 정확한 매칭을 사용하여 임계 수를 통과하자마자 샘플(20)의 상태의 신속한 식별을 가능하게 한다. 또한, k-mer 기반 검출은 통상적인 정렬 기반 기술들, 그리고 실시예에서 다른 k-mer 기술보다 덜 계산 집약적이다. 일 예시에서, 개시된 기술은 고정된 k-mer 크기 n을 사용한다. 따라서, k-mer 매칭은 모든 가능한 크기의 또는 k-mer 크기의 범위 내의 모든 k-mer를 매칭시키는 것이 아니라 오직 크기 n의 k-mer만을 매칭하는 것을 기반으로 한다. 다른 예시에서, 고정 크기 n의 모든 가능한 k-mer의 세트 내에서, 본 기술은 참조 게놈의 공지된 서열에 기반하여 공지된 하위세트의 매칭만 평가한다.
각각의 샘플(20)에 대한 결과적인 k-mer 수는 본원에 제공된 바와 같이 샘플을 특성화하여 검출 출력(42)을 제공하기 위해, 예컨대, 병원체 감염 상태를 결정하기 위해 사용된다. 예를 들어, 임계값을 넘는 k-mer 수는 샘플 내 병원체의 존재에 대한 양성 결과를 나타낸다. 음성 결과는 샘플 내 k-mer 수가 임계 수준 아래이거나 없는 것을 나타낸다. k-mer 수는 샘플(20) 당 총 k-mer 매칭 수를 반영하는 전체 임계값에 대해 평가될 수 있다. 다른 구현예에서 그리고 본원에 개시된 바와 같이, k-mer 수는 표적 영역 기준으로 평가될 수 있고/있거나, k-mer 수 및 병원체 검출, 예컨대, 양성 또는 음성 결과에 기여하기 전에 품질 메트릭을 거칠 수 있다.
검출 출력(42)은, 구현예에서, 샘플(20)의 특성, 예컨대, 양성 검출 결과, 음성 검출 결과를 나타내는 통지, 메시지, 또는 보고를 제공하는 것을 포함할 수 있다. 검출 출력(42)은, 구현예에서, 서열 데이터(30)의 후속 처리 단계를 제어할 수 있다. 모든 또는 대부분의 인입 데이터를 2차 분석으로 전달하는 통상적인 정렬 기반 검출과 대조적으로, 워크플로우(12)는 병원체 또는 다른 게놈/관심 서열에 대해 양성인 샘플들의 하위세트로 추가 처리를 제한할 수 있다. 즉, 일단 식별되면, 오직 양성인 샘플(20)만 추가적인 또는 2차 서열 분석으로 전달될 수 있다. 이러한 방식으로, 워크플로우(12)는 k-mer 매칭에 기반하여 관심 서열을 포함하지 않을 가능성이 있는 샘플의 2차 분석에 자원을 사용하지 않음으로써 처리 자원의 할당을 개선한다. 추가 서열 분석은 블록(46)에서 생물학적 샘플의 하위서열을 결정하여 변이체 호출 출력(48)을 생성하는 것을 포함할 수 있다. 따라서, 잠재적으로 시간-소모적인 분석, 즉 참조 게놈에 대한 정렬 및 변이체 호출은 이러한 방식에서 식별 후 양성(예를 들어, 감염된) 샘플로 제한될 수 있다. 또한, 양성으로 아직 식별되지 않은 샘플(20)은 음성 또는 양성 결과를 확인하기에 충분한 데이터가 획득될 때까지, k-mer 얼라이너(36)로 계속 평가될 수 있다. 개시된 기술의 추가적인 이점은 k-mer 기반 검출이 실시간으로 일어나고 상대적으로 신속한 분석에 기초한다는 것이다. 따라서, 양성 샘플의 관련 하위세트에 대한 2차 분석을 개시하기 위한 유의한 지연 없이 처리 효율 개선이 달성된다. 또한, 일부 분석 실행을 위해, 워크플로우(12)는 블록(46)에서 후속 분석 또는 변이체 호출로 진행하지 않고 검출 출력(42)후에 종료될 수 있다.
도 2는 k-mer 얼라이너(36)의 관심 k-mer의 세트(34)를 형성하는 핵산(60)의 k-mer(64)의 개략도이다(도 1 참조). 핵산(60)은 참조 게놈 또는 이전에 특징화된 관심 게놈, 예를 들어 병원체 게놈의 전부 또는 일부를 나타낼 수 있다. 따라서, 개시된 기술은 참조 게놈이 샘플(20)과 함께 서열분석될 필요가 없고, 세트(34)가 저장되거나 액서스된 핵산(60)의 참조 서열 데이터에 기반하여 계산적으로 구축될 수 있다는 의미에서 참조가 없을 수 있다. 구현예에서, 핵산(60)은 단일 가닥 참조 게놈의 상보체 및/또는 cDNA 카피일 수 있다.
본원에 제공된 바와 같이, k-mer 또는 k-mer들은 핵산 서열과 같은 생물학적 서열 내에 함유된 길이 "k" 의 연속적인 부스트링 또는 부스트링들을 지칭한다. k-mer 세트는 길이 L의 핵산 내에 함유된 모든 또는 단지 일부의 하위서열을 지칭할 수 있다. 길이 L의 공지된 또는 특징화된 서열은 총 k-mer를 가질 것이고, 비특징화되거나 미지의 서열은 가능하거나 잠재적인 k-mer인 xk 를 가질 것인데, 여기서 x는 가능한 단량체의 수(예를 들어, DNA 또는 RNA의 경우 4개)이다.
일 실시예에서, 주어진 작동에 대해, k-mer 세트(34)를 구축하고 서열 데이터를 스캐닝하기 위해 사용된 모든 k-mer가 서로 동일하고 고정된 크기가 되도록 k-mer는 고정 크기 n으로 사용된다. 그러나, 동일한 크기의 상이한 k-mer는 서로 상이하거나 전이된 위치에서 상이한 서열 스트링들을 나타낸다. 특정 실시예에서, 길이 = 32(64비트 CPU 상에서 효율적으로 분석될 수 있음)를 가지는 k-mer가 k-mer 매칭에 사용되지만, 24 초과의 고정된 길이를 갖는 임의의 크기의 k-mer도 사용될 수 있다. 따라서, 고정된 k-mer 길이는 25, 26, 27, 28, 29, 30 등일 수 있다.
핵산(60)은 이전에 특성화된 서열을 포함할 수 있지만, 공지된 또는 예측된 변이체(70)와 같은 추가 서열이 포함될 수 있다. 개시된 무참조 기술은 바이러스의 총 크기에 비해 바이러스 게놈에서의 변이체는 드물다는 사실에서 이점을 취한다. k-mer 정렬 중, 변이체를 포함하거나 중첩되는 샘플 서열 데이터로부터의 k-mer는 이들이 참조 k-mer의 무변이 세트(34)로 초기화된 해시 테이블에서 정확한 매칭을 갖지 못하기 때문에 "손실 "될 것이다. 그러나, 변이체가 바이러스의 총 크기에 비해 드물기 때문에, 이는 단지 감도에 있어 최소의 손실을 초래할 뿐이다. 일부 방법에서, 군집에 존재하는 공지된 변이체는 또한 k-mer 얼라이너(36)에서 k-mer 세트(34)에 첨가된 하나 이상의 '변이체 k-mer'(34)로서 포함될 수 있다.
도 3은 인간 샘플에서 바이러스 병원체 검출을 위한 예시적인 방법(100)을 도시한다. 예시된 구현예에서 인간 샘플 서열 데이터(102)는 FASTQ 형식의 데이터로서 제공되며, 이는, 예를 들어 DRAGEN 또는 다른 2차 분석 도구를 사용하여 수행될 서열 판독의 2차 분석 및 정렬을 허용한다. 서열 판독의 정렬(104)은 바이러스 병원체의 게놈에 기반한 참조 k-mer 세트를 사용하여 고정된 크기 n의 k-mer에 대한 정확한 매칭을 식별하는 k-mer 얼라이너(36)(도 1 참조)를 사용하여 수행될 수 있다. 정렬(104)은 또한 서열 데이터(102)에서 샘플 품질의 척도로 사용되는 하나 이상의 인간 대조군 앰플리콘(예컨대, 2~15개 앰플리콘)에 대한 정확한 k-mer 매칭을 식별하는 단계를 포함할 수 있다. 일부 구현예에서, 정렬(104)은 바이러스, 예컨대, SARS-CoV2 및 하나 이상의 인간 대조군 앰플리콘을 포함하는 참조 게놈에 대한 일반적인 DRAGEN 정렬일 수 있다.
인간 판독(110) 및 바이러스 판독(112)은 본원에 제공된 바와 같이 추가적인 매트릭을 거쳐서 인간 앰플리콘 커버리지(114)에 기반하여 샘플 품질을 평가하여 대조 검출 출력(120)을 생성한다. 메트릭은 또한 바이러스 검출 출력(132)을 제공하기 위한 바이러스 앰플리콘 커버리지 메트릭(130)을 포함한다. 바이러스 검출 투입 및 대조군 검출 출력(120) 둘 다에 기반한 양성 샘플은 변이체 호출(124)로 전달되어 바이러스 서열 출력(128)을 생성할 수 있다.
k-mer 얼라이너(36)를 사용한 서열 판독의 정렬/매칭이 수행되면, 특정 바이러스와 관련된 메트릭이 해석되고, 도 4에 예시된 바와 같이 바이러스 및 내부(인간)인간 대조군의 검출에 대한 결정이 이루어진다. 일부 방법에서, 각각의 앰플리콘의 표적 영역(또는 검출된 k-mer)에 매핑되는 고유한 판독(160) 수가 계수될 수 있다.
도 5에 도시된 바와 같이, "표적 영역"은, 실시예에서, 앰플리콘 서열(184)에서 프라이머를 빼고 다른 앰플리콘(184)과의 임의의 중첩을 뺀 것으로 정의될 수 있다. 이는 a) 판독물들을 바이러스 게놈(180)에 정렬하고 각각의 앰플리콘의 위치에 매핑되는 (가능하게는 중복되지 않은) 판독(188)의 수를 계수하거나; b) 판독에서 관찰되는 각각의 앰플리콘 서열(184)로부터 k-mer(190)의 수를 계수함으로써 수행될 수 있다. k-mer 또는 판독의 수는 앰플리콘 당 커버리지의 임계값과 비교하여 각각의 앰플리콘(184)을 '커버된' 또는 '커버되지 않은'으로 호출한다. 바이러스 앰플리콘(184)의 제2 세트 초과의 임계값이 커버되는 경우, 호출 또는 바이러스 검출 출력은 바이러스가 검출된다는 것이다. 총 앰플리콘의 수는 사용된 검정에 따라 달라진다. 도 5의 예에서, 앰플리콘(184)은 중첩되지 않는다. 그러나, 더 많고 중첩된 앰플리콘(184)이 바이러스에 대한 전체 게놈 커버리지를 달성하기 위해 사용될 수 있음을 이해해야 한다.
도 4로 되돌아가면, 인간 앰플리콘(162) 및 바이러스 앰플리콘(164)에 대한 정렬 및/또는 k-mer 식별 후, 각각의 개별 인간 앰플리콘의 커버리지(170) 및 각각의 바이러스 앰플리콘의 커버리지(172)가 계수된다. 앰플리콘 당 판독 수(또는 검출된 k-mer의 수)를 표적 임계값과 비교하여 커버된 앰플리콘을 결정한다. 이어서, 커버된 앰플리콘의 수를 사용하여 바이러스(178)(바이러스 임계값 이상의 커버된 앰플리콘에 기반하여 양성 검출 결과를 가짐) 및 내부(인간) 대조군(174)(인간 대조군 임계값 이상의 커버된 앰플리콘에 기반하여 양성 대조군 검출 결과를 가짐)을 검출한다. 양성 앰플리콘의 검출을 위한 임계값과 대조군 및/또는 바이러스를 검출하는 데 필요한 앰플리콘 수에 대한 임계값은 다를 수 있다. 일부 구현예에서, 검출 임계값은 2개의 앰플리콘만큼 낮을 수 있거나, 또는 더 높을 수 있는데, 예를 들어 3개, 4개 또는 그 이상의 앰플리콘일 수 있다. 일 구현예에서, 커버된 앰플리콘의 임계 수는 총 앰플리콘 수의 적어도 1%, 적어도 10%, 또는 적어도 50%일 수 있다. 일 구현예에서, 커버된 앰플리콘의 임계 수는 검정에서의 총 앰플리콘 수의 1 내지 5%의 범위일 수 있다. 추가 서열 데이터가 샘플로부터 생성되면서 실시간 서열 데이터에 빠른 결과를 제공하도록 검출이 설계되기 때문에, 백분율 임계값을 설정하는 것은 양성 앰플리콘의 임의의 조합에 기초하여 검출이 이루어질 수 있게 한다. 따라서, 검출은 서열분석된 클러스터의 위치 또는 샘플 간 상이한 기타 검출 특이적 변수에 의한 샘플 변이에 독립적이다.
도 4 는 인간 대조군으로 수행된 예시적인 바이러스 검출을 보여준다. 인간 대조군 앰플리콘(170)의 경우, 대조군 1은 표적 임계값을 통과한 25개의 고유한 판독을 가졌고, 대조군 3은 64개의 고유한 판독을 가졌으며, 이들 앰플리콘은 커버된 앰플리콘인 것으로 결정되었다. 다음 단계에서, 인간 대조군에 대한 2개의 양성 앰플리콘을 2 이상으로 설정된 인간 대조군 임계값과 비교하였고, 이는 대조군 검출 임계값에 대한 통과 결정(174)을 초래하였다. 따라서, 인간 대조군 검출(174)은 앰플리콘 커버리지 임계값에 기반하여 개별 인간 앰플리콘 커버리지를 결정한 후 커버리지 임계값을 통과한 앰플리콘의 수를 평가하는 2단계 분석을 포함하였다. 마찬가지로, 바이러스 검출(178)은 각각의 바이러스 앰플리콘(예컨대, 바이러스 1, 바이러스 2, 바이러스 3 등)에 대한 고유한 판독의 수가 계수되는 제1 단계를 포함하였다. 바이러스 1은 34개의 고유한 판독을 가졌고, 바이러스 2는 21개의 고유한 판독을 가졌고, 바이러스 앰플리콘 3은 64개의 고유한 판독을 가졌으며, 모두 커버된 앰플리콘으로 간주되었으나 1개의 고유한 판독을 가졌던 바이러스 앰플리콘(98)은 커버된 앰플리콘으로 간주되지 않았다. 다음 단계에서, 3개의 커버된 앰플리콘을 3개 이상으로 설정된 바이러스 임계값과 비교하여, 바이러스가 검출된 결과를 초래하였다.
개시된 기술은 k-mer 기반 정렬을 위해 k-mer 얼라이너(예컨대, k-mer 얼라이너(36))에 사용되는 참조 및/또는 대조군 k-mer의 세트를 확립하기 위한 품질 및 제어 매개변수를 포함한다. 도 6은 병원체 검출을 위한 병원체 특이적 k-mer 및 대조군 k-mer 세트를 생성하는 방법(200)의 개략도이다. 주어진 병원체 게놈은 고정 크기 n의 모든 가능한 k-mer의 세트를 포함하고, 여기서 n은 24개를 초과하는 염기일 수 있다. 그러나, 특정한 이들 k-mer는 대조군 게놈(예컨대, 인간 게놈) 내에서 정확한 매칭을 가질 수 있다. 블록(204)에서, 잠재적 병원체 k-mer는 대조 게놈에 대해 실행되고, 특정 k-mer가 블록(206)에서 제거되어, 블록(208)에서 병원체 k-mer의 최종 세트를 생성할 수 있다. 일 예시에서, 대조군 게놈에 대해 정확한 매칭을 갖는 잠재적 k-mer 세트가 제거된다. 다른 예에서, 대조군 게놈에 대해 임계값 유사도를 초과하는 k-mer가 제거되는데, 예컨대, 임계값 유사도를 초과하는 k-mer는 대조군 게놈과 상이한 1 내지 3개의 (인접 또는 비인접) 염기를 가지는 k-mer를 포함할 수 있다. 예를 들어, 고정 크기 32의 k-mer의 경우, 위양성 검출을 생성할 수 있는 잠재적인 염기 호출 오류를 고려하여 대조군 게놈과 31/32 또는 30/32 서열 매칭을 갖는 잠재적인 k-mer가 제거된다. 따라서, 블록(208)에서 최종 세트에 남아있는 k-mer는 대조군 게놈에 정확하게 매칭하지 않는 k-mer 및/또는 대조군 게놈에 대해 충분한 비유사성을 갖는 (예컨대, k-mer 내에서 1 내지 3개의 염기만큼 상이한) k-mer를 포함할 수 있다.
대조군 k-mer 세트는 블록(210)에서 메트릭에 기반하여 잠재적 k-mer의 풀로부터 선택될 수 있다. RNA 바이러스의 존재를 검출하기 위해 인간 샘플에서 RNA를 서열분석하는 검정에서, 인간 샘플은 또한 인간 RNA, 예컨대, mRNA를 포함할 것이다. 따라서, 인간 대조군 k-mer 세트는 샘플 조직에서 항상 발현될 가능성이 있는 mRNA 서열을 기반으로 할 수 있다. 대조군 k-mer 세트는 참조 세트보다 작게 선택될 수 있는데, 예컨대, 더 적은 수의 앰플리콘을 포함할 수 있다. 대조군 k-mer의 잠재적 세트는 블록(214)에서, 서로에 대해, 그리고, 구현예에서 참조 게놈에 대해 실행되고, 서로에 대해 그리고 대조군 게놈에 대해 정확하게 일치하거나 너무 유사한 대조군 k-mer(1~3개의 상이한 염기를 가지지만 나머지는 정확히 매칭함)는 단계(216)에서 제거되어 블록(218)에서 대조군 k-mer의 최종 세트가 생성된다. 병원체 k-mer의 최종 세트와 대조군 k-mer의 최종 세트는 블록(220)에서 k-mer 얼라이너에 제공된다.
도 7은 본원에 제공된 바와 같은 샘플로부터 서열 데이터를 획득하기 위해 개시된 구현예와 함께 사용될 수 있는 서열분석 디바이스(260)의 개략도이다. 서열분석 디바이스(260)는 샘플에 대한 서열분석 실행을 수행하여 서열 데이터를 획득할 수 있다. 서열분석 디바이스(260)는 개시내용 전체가 참조로서 본원에 포함된 문헌, 예컨대 미국 특허 공개 제2007/0166705호; 제2006/0188901호; 제2006/0240439호; 제2006/0281109호; 제2005/0100900호; 미국 특허 제7,057,026호; WO 05/065814호; WO 06/064199호; WO 07/010,251호에 기술된 합성에 의한 서열분석을 포함하는 임의의 서열분석 기술에 따라 구현될 수 있다. 대안적으로, 라이게이션 기술에 의한 서열분석이 서열분석 디바이스(260)에서 사용될 수 있다. 이러한 기술은 DNA 리가아제를 사용하여 올리고뉴클레오티드를 혼입시키고 이러한 올리고뉴클레오타이드의 혼입을 확인하는데, 그 전체가 참조로서 본원에 포함된 미국 특허 제6,969,488호; 미국 특허 제6,172,218호; 및 미국 특허 제6,306,597호에 기술되어 있다. 일부 구현예는 나노기공 서열분석을 이용할 수 있는데, 여기서 샘플 핵산 가닥 또는 샘플 핵산으로부터 외핵산분리적으로 제거된 뉴클레오티드가 나노기공을 통과한다. 샘플 핵산 또는 뉴클레오티드가 나노기공을 통과할 때, 각각의 염기 유형은 기공의 전기 전도도의 변동을 측정함으로써 확인될 수 있다(미국 특허 제7,001,792; Soni & Meller, Clin. Chem. 53, 1996-2001 (2007); 문헌[Healy, nanomed. 2, 459-481 (2007); 및 Cockroft, 등. J. Am. Chem. Soc. 130, 818-820 (2008), 이들의 개시 내용은 그 전체가 참조로서 본 본원에 포함됨). 일부 구현예는 신장 산물 내로의 뉴클레오티드의 혼입 시 방출되는 양성자의 검출을 포함한다. 예를 들어, 방출된 양성자의 검출에 기반한 서열분석은 전기적 검출기 및 이온 토렌트(Ion Torrent; 미국 코네티컷주 길포드 소재, Life Technologies의 자회사)로부터 시판되고 있는 관련 기술 또는 각각이 그 전체가 참조로서 본원에 포함된 미국 제2009/0026082 A1호; 미국 특허 출원 공개 제2009/0127589 A1호; 미국 특허 출원 공개 제2010/0137143 A1호; 또는 미국 제2010/0282617 A1호에 기술된 서열분석 방법 및 시스템을 사용할 수 있다. 일부 구현예는 DNA 폴리머라제 활성의 실시간 모니터링을 포함하는 방법을 이용할 수 있다. 예를 들어, 뉴클레오티드 혼입은 형광단-함유 폴리머라제와 γ-포스페이트로 표지된 뉴클레오티드 사이의 형광 공명 에너지 전달(fluorescence resonance energy transfer, FRET) 상호작용을 통해 또는 그 개시내용 전체가 참조로서 본원에 포함된 문헌(Levene et al. Science 299, 682-686 (2003); Lundquist et al. Opt. Lett. 33, 1026-1028 (2008); Korlach et al. Proc. Natl. Acad. Sci. USA105, 1176-1181 (2008))에 기술된 바와 같이 제로모드 도파관(zeromode waveguide, ZMW)을 이용하여 검출될 수 있다. 다른 적합한 대안적인 기술은, 예를 들어, 형광 원위치 서열분석(fluorescent in situ sequencing, FISSEQ), 및 대량 병렬 시그니처 서열분석(Massively Parallel Signature Sequencing, MPSS)을 포함한다. 특정 구현예에서, 서열분석 디바이스(260)는 Illumina(La Jolla, CA)의 iSeq일 수 있다. 다른 구현예에서, 서열분석 디바이스(260)는 DNA 증착이 각각의 포토다이오드와 일대일로 정렬되도록 포토다이오드 위에 제조된 나노웰을 갖는 CMOS 센서를 사용하여 작동하도록 구성될 수 있다.
도시된 구현예에서, 서열분석 디바이스(260)는 별개의 샘플 기판(262), 예컨대, 플로우 셀 또는 서열분석 카트리지, 및 연관된 컴퓨터(264)를 포함한다. 그러나, 언급된 바와 같이, 이들은 단일 디바이스로서 구현될 수 있다. 도시된 구현예에서, 생물학적 샘플은 서열 데이터를 생성하기 위해 이미징되는 기판(262)에 로딩될 수 있다. 예를 들어, 특정 파장에서 형광발광하는 생물학적 샘플과 상호작용하는 시약은 이미징 모듈(272)에 의해 생성된 여기 빔에 반응하여 이미징을 위한 방사선을 복귀시킨다. 예를 들어, 형광 성분은 성분의 상보적인 분자에 혼합되는 형광 표지된 핵산 또는 폴리머라제를 사용하여 올리고뉴클레오티드에 혼입되는 형광 표지된 뉴클레오티드에 의해 생성될 수 있다. 당업자에 의해 이해될 것인 바와 같이, 샘플의 염료가 여기되는 파장 및 이들이 형광을 발하는 파장은 특정 염료의 흡수 및 방출 스펙트럼에 의존할 것이다. 이러한 반환된 방사선은 지향 광학기를 통해 다시 전파될 수 있다. 이 레트로빔은 일반적으로 카메라 또는 다른 광학 검출기일 수 있는 이미징 모듈(272)의 검출 광학기를 향해 지향될 수 있다.
이미징 모듈 검출 광학기는 임의의 적합한 기술에 기초할 수 있고, 예를 들어, 디바이스 내의 위치들에 충돌하는 광자들에 기초하여 픽셀화된 이미지 데이터를 생성하는 하전 결합 디바이스(CCD) 센서일 수 있다. 그러나, 시간 지연 통합(TDI) 작동을 위해 구성된 검출기 어레이, 상보적 금속 산화물 반도체(CMOS) 검출기, 애벌런치 포토다이오드(APD) 검출기, 기저-모드 광자 카운터, 또는 임의의 다른 적합한 검출기를 포함하지만 이에 제한되지 않는 임의의 다양한 다른 검출기가 또한 사용될 수 있다는 것을 이해할 것이다. TDI 모드 검출은 본 명세서에 참고로 포함된 미국 특허 제7,329,860호에 기술된 바와 같은 라인 스캐닝과 결합될 수 있다. 다른 유용한 검출기는 예를 들어 다양한 핵산 서열분석 방법론의 맥락에서 본원에 이전에 제공된 참고문헌에 기재되어 있다.
이미징 모듈(272)은, 예컨대, 프로세서(274)를 통해 프로세서 제어 하에 있을 수 있고, 또한, 메모리가 실행 가능한 명령들, 및 도 7과 관련하여 설명된 것들과 유사할 수 있는 다른 적합한 하드웨어 구성요소들을 저장할 수 있도록 I/O 제어부들(276), 내부 버스(278), 비휘발성 메모리(280), RAM(282) 및 임의의 다른 메모리 구조를 포함할 수 있다. 또한, 연관된 컴퓨터(264)도, 또한, 메모리 아키텍처가 실행가능한 명령어(292)를 저장할 수 있도록 프로세서(184), I/O 제어부(286), 통신 모듈(294), 및 RAM(288) 및 비휘발성 메모리(290)를 포함하는 메모리 아키텍처를 포함할 수 있다. 하드웨어 구성요소는 디스플레이(296)에도 링크될 수 있는 내부 버스(294)에 의해 링크될 수 있다. 서열분석 디바이스(260)가 모든 올인원 디바이스로서 구현되는 구현예에서, 특정 중복 하드웨어 요소들이 제거될 수 있다.
프로세서(예컨대, 프로세서(274, 284))는 본원에 제공된 기술에 따라 연관된 인덱스 서열 또는 서열들에 기초하여 개별 서열분석 판독을 샘플에 할당하도록 프로그래밍될 수 있다. 특정 실시예에서, 이미징 모듈(272)에 의해 획득된 이미지 데이터에 기초하여, 서열분석 디바이스(260)는 개별 클러스터에 대한 서열 판독을 포함하는 서열분석 데이터를 생성하도록 구성될 수 있으며, 각각의 서열 판독은 기질(270)의 특정 위치와 연관된다. 각 서열 판독은 삽입물을 함유하는 단편으로부터 유래될 수 있다. 서열분석 데이터는 서열분석 판독의 각각의 염기에 대한 염기 호출을 포함한다. 또한, 이미지 데이터에 기초하여, 연속적으로 수행되는 서열분석 판독에 대해서도, 개별 판독은 이미지 데이터를 통해 동일한 위치에 연결되고, 따라서 동일한 주형 가닥에 연결될 수 있다. 이러한 방식으로, 인덱스 서열분석 판독은 기원 샘플에 할당되기 전에 삽입 서열의 서열분석 판독과 연관될 수 있다. 프로세서(274)도, 또한, 샘플에 대한 서열분석 판독의 할당에 후속하여 특정 샘플의 서열에 대한 하류 분석을 수행하도록 프로그래밍될 수 있다.
). 특정 구현예에서, 실행 가능한 명령어(292)는 프로세서로 하여금 본원에 개시된 방법의 하나 이상의 동작을 수행하게 한다. 프로세서(예컨대, 프로세서(274, 284))는 고도로 재구성가능한 필드 프로그래밍 가능 게이트 어레이 기술(FPGA)일 수 있다. 프로세서(예컨대, 프로세서(274, 284))는 메모리(예컨대, 메모리(280, 290))에 저장된 참조 k-mer 및/또는 대조군 k-mer의 적절한 세트를 포함하는 해시 테이블에 액세스하기 위해 특정 분석 워크플로우에 대한 사용자 입력을 수신하도록 프로그래밍될 수 있다. 일 예시에서, 디바이스(260)는 관심 패널 또는 실행을 선택하는 사용자 입력을 수신하고, k-mer 얼라이너는 스트리밍 서열을 정렬하여, 사용자 입력과 연관된 해시 테이블을 사용하여 서열 데이터에서 정확한 k-mer 매칭을 식별한다. 메모리는 사용자 입력에 기초하여 특정하게 선택되는 다수의 상이한 세트의 k-mer 또는 상이한 초기화된 해시 테이블을 저장할 수 있다. 일 구현예에서, 선택은, 또한, 대조군 k-mer 선택을 포함할 수 있다. 예를 들어, 대조군 k-mer는 인간, 포유동물, 또는 다른 숙주 유기체 대조군 k-mer를 포함할 수 있다.
개시된 기술은 샘플, 예컨대, 생물학적 샘플을 특징화 위해 사용될 수 있다. 샘플은 하나 또는 다수의 세포, 조직, 기관 또는 유기체(살아있든 죽어있든 간에)를 포함하는 임의의 생체내 또는 시험관내 공급원으로부터, 또는 임의의 생물학적 또는 환경적 공급원(예컨대, 물, 공기, 토양)으로부터 유래될 수 있다. 예를 들어, 일부 구현예에서, 샘플 핵산은 인간, 동물, 식물, 진균(예컨대, 곰팡이 또는 효모), 박테리아, 바이러스, 비로이드, 마이코플라즈마 또는 다른 미생물로부터 기원하거나 유래하는 진핵 및/또는 원핵 dsDNA을 포함하거나 이로 이루어진다. 일부 구현예에서, 샘플 핵산은 게놈 DNA, 서브게놈 DNA, 염색체 DNA(예컨대, 단리된 염색체 또는 염색체의 일부, 예컨대 염색체로부터의 하나 이상의 유전자 또는 유전자좌로부터 유래함), 미토콘드리아 DNA, 엽록체 DNA, 플라스미드 또는 다른 에피솜 유래 DNA(또는 그 안에 함유된 재조합 DNA), 또는 이중 가닥 cDNA(RNA 의존성 DNA 폴리머라제 또는 역전사 효소를 사용하여 제1 가닥 cDNA를 생성한 다음에, 제1 가닥 cDNA에 어닐링된 프라이머를 신장시켜 dsDNA를 생성시키는 RNA의 역전사에 의해 제조됨)를 포함하거나 이로 이루어진다. 일부 구현예에서, 샘플 핵산은 핵산 분자 내에 또는 이로부터 제조된 다수의 dsDNA 분자(예컨대, 생물학적(예컨대, 세포, 조직, 기관, 유기체) 또는 환경(예컨대, 물, 공기, 토양, 타액, 가래, 소변, 대변) 공급원에서 또는 이로부터의 RNA로부터 제조된 cDNA 또는 게놈 DNA에서 또는 이로부터 제조된 다수의 dsDNA 분자)를 포함한다. 일부 구현예에서, 샘플 핵산은 시험관내 공급원으로부터 유래된다. 예를 들어, 일부 구현예에서, 샘플 핵산은 단일 가닥 DNA(ssDNA)로부터 또는 단일 가닥 또는 이중 가닥 RNA로부터 (예컨대, 적절한 DNA 의존성 및/또는 RNA 의존성 DNA 폴리머라제(역전사 효소)를 사용하는 프라이머 신장과 같은, 당업계에 잘 알려진 방법을 사용하여) 시험관 내에서 제조된 dsDNA를 포함하거나 이로 이루어진다. 일부 구현예에서, 샘플 핵산은 다음을 포함하는 당업계에 공지된 임의의 방법을 사용하여 하나 이상의 이중 가닥 또는 단일 가닥 DNA 또는 RNA 분자의 전체 또는 일부로부터 제조된 dsDNA를 포함하거나 이로 이루어진다: DNA 또는 RNA 증폭(예를 들어, PCR 또는 역전사효소-PCR(RT-PCR), 하나 이상의 핵산 분자의 전부 또는 일부의 증폭을 이용한 전사-매개 증폭 방법); 적합한 숙주 세포에서 후속적으로 복제되는 플라스미드, 포스미드, BAC 또는 다른 벡터의 전부 또는 일부의 분자 클로닝; 혼성화, 예를 들어 어레이 또는 마이크로어레이 상의 DNA 프로브에 대한 혼성화에 의한 하나 이상의 핵산 분자의 포획.
개시된 기술의 이점은, 앰플리콘에 의해 모아진 실제 신호와 반대로 바이러스 게놈에 균일하게 산란된 판독물로서 보여지는 노이즈(예컨대, 교차-오염)를 억제하는 것을 포함한다. 이 기술은 앰플리콘 당 변수 임계값(강하게 증폭된 앰플리콘에 대해 더 높음)을 설정함으로써 상이한 PCR 성능을 갖는 상이한 앰플리콘들에 적응가능하다. 개시된 기술은 다수의 양성 앰플리콘을 또한 보고하는 기존의 qPCR 테스트에 근접한 대응을 가지며, 따라서 출력 결과는 임상 용도로 쉽게 번역된다. 샘플 당 검출 출력이 보고되고 또는 다운스트림 품질 제어를 받을 수 있다.
일부 구현예에서, 임의의 양성 샘플 변이체 호출 데이터에 대해서도 또한 보고될 수 있다. 일부 구현예에서, 양성 샘플이 식별될 수 있고, 그 기술은 양성 샘플의 진단에 기반하여 치료 통지 또는 권고를 제공하는 것을 포함한다. 일 구현예에서, 샘플을 취한 환자는 개시된 기술에 따르고 현장 진단으로서 사용된 병원체 검출이 없거나 병원체 검출의 진단에 기반하여 검출된 병원체에 대한 치료를 투여한다. 예를 들어, 검출된 병원체가 SARS-CoV-2 게놈의 검출에 기반하는 경우, SARS-CoV-2 치료제가 투여되거나 모니터링 프로토콜이 개시된다. SARS-CoV-2 게놈이 검출되지 않는 경우, 활성 감염이 없는 진단을 기반으로 SARS-CoV-2 백신이 투여될 수 있다.
이러한 기재된 설명은 최선의 실시예를 포함하는 본 개시의 실시예에서의 예시를 사용하고 또한 당업자가 임의의 디바이스 또는 시스템을 제조하고 사용하고 임의의 포함된 방법을 실행하는 것을 가능하게 한다. 본 개시의 특허가능한 범주는 청구범위에 의해 정의되며, 당업자에게 떠오르는 다른 예들을 포함할 수 있다. 그러한 다른 예들은, 이들이 청구범위의 문자적 언어와 상이하지 않은 구조적 요소들을 갖는 경우, 또는 이들이 청구범위의 문자적 언어와의 비실질적 차이를 갖는 등가의 구조적 요소들을 갖는 경우, 청구범위의 범주 내에 있는 것으로 의도된다.

Claims (20)

  1. 생물학적 샘플에서 병원체를 검출하는 방법으로서,
    생물학적 샘플로부터 서열 데이터를 수신하는 단계;
    병원체의 게놈 내의 병원체 k-mer를 포함하는 제1 세트의 k-mer 및 대조군 k-mer를 포함하는 제2 세트의 k-mer 로 초기화되는 해시 테이블에서 정확한 매칭을 갖는 k-mer를 상기 서열 데이터에서 식별하는 단계; 및
    적어도 부분적으로 상기 서열 데이터에서 제1 세트와 정확하게 매칭되는 k-mer의 제1 수 및 상기 서열 데이터에서 제2 세트와 정확하게 매칭되는 k-mer의 제2 수에 기반하여 상기 생물학적 샘플의 검출 출력을 제공하는 단계로서, 상기 검출 출력은 제1 수가 제1 세트 임계값을 초과하고 제2 수가 제2 세트 임계값을 초과할 때 병원체 검출에 대해 양성 결과를 포함하며, 제1 수가 제1 세트 임계값 미만일 때, 제2 수가 제2 세트 임계값 미만일때 또는 둘 다일 때 병원체 검출에 대해 음성 결과를 포함하는 것인, 상기 생물학적 샘플의 검출 출력을 제공하는 단계
    를 포함하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  2. 제1항에 있어서, 상기 서열 데이터, 상기 제1 세트 및 상기 제2 세트 내 k-mer는 24개 초과의 뉴클레오타이드의 고정된 크기인, 생물학적 샘플에서 병원체를 검출하는 방법.
  3. 제1항에 있어서, 상기 k-mer의 제1 세트는 상기 병원체의 게놈에서의 모든 k-mer의 하위세트인, 생물학적 샘플에서 병원체를 검출하는 방법.
  4. 제3항에 있어서, 상기 하위세트는 대조군 k-mer가 유래되는 대조군 게놈에 대한 충분한 비유사성을 기반으로 하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  5. 제4항에 있어서, 상기 대조군 게놈은 인간 게놈인, 생물학적 샘플에서 병원체를 검출하는 방법.
  6. 제1항에 있어서, 상기 k-mer의 제1 세트는 상기 병원체의 게놈의 변이체를 포함하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  7. 제1항에 있어서, 상기 제1 세트는 상기 제2 세트보다 큰, 생물학적 샘플에서 병원체를 검출하는 방법.
  8. 제1항에 있어서, 상기 제1 세트는 복수의 상이한 병원체로부터의 k-mer를 포함하고, 상기 생물학적 샘플에 대한 검출 출력은 상기 복수의 상이한 병원체의 병원체 검출을 포함하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  9. 제1항에 있어서, 상기 병원체 검출에 대한 양성 결과에 기반하여 상기 서열 데이터를 상기 병원체의 게놈에 정렬하는 단계를 포함하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  10. 제9항에 있어서, 정렬된 서열 데이터에서 상기 병원체의 서열 변이체를 식별하는 단계를 포함하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  11. 제1항에 있어서, 상기 병원체 검출에 대한 양성 결과에 반응하여 상기 병원체에 대한 치료제를 투여하는 단계를 포함하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  12. 생물학적 샘플에서 병원체를 검출하는 방법으로서,
    생물학적 샘플로부터 제조된 서열분석 라이브러리로부터 서열 데이터를 생성하는 단계;
    병원체의 병원체 게놈 내 병원체 k-mer를 포함하는 k-mer의 세트로 초기화되는 해시 테이블에서 정확한 매칭을 갖는 k-mer를 상기 서열 데이터에서 식별하는 단계;
    상기 병원체 게놈의 각각의 개별 표적 영역에 상응하는 식별된 k-mer를 포함하는 상기 서열 데이터에서 식별된 k-mer의 수 또는 서열 판독의 수 중 하나 또는 둘 모두에 기반하여 상기 병원체 게놈의 개별 표적 영역에 대한 커버리지를 상기 서열 데이터에서 결정하는 단계로서, 개별 표적 영역에 상응하는 식별된 k-mer의 수 또는 서열 판독의 수가 임계 수를 초과할 때 개별 표적 영역이 커버되는 것으로 결정되는, 상기 병원체 게놈의 개별 표적 영역에 대한 커버리지를 상기 서열 데이터에서 결정하는 단계;
    다수의 커버된 개별 표적 영역이 검출 임계값 초과인 것으로 결정하는 단계; 및
    상기 생물학적 샘플이 상기 병원체의 존재에 대해 양성인 검출 출력을 제공하는 단계
    를 포함하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  13. 제12항에 있어서, 대조군 게놈의 k-mer의 대조군 세트와 정확한 매칭을 갖는 대조군 k-mer를 상기 서열 데이터에서 식별하는 단계를 포함하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  14. 제13항에 있어서, 충분한 수의 상기 대조군 게놈의 개별 표적 영역이 상기 결정된 커버리지에 기반하여 충분한 커버리지를 갖는 것으로 결정하는 단계를 포함하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  15. 제13항에 있어서, 상기 서열 데이터에서 상기 병원체의 서열 변이체를 식별하는 단계를 포함하는, 생물학적 샘플에서 병원체를 검출하는 방법.
  16. 서열분석 디바이스로서,
    샘플로부터 제조된 서열분석 라이브러리를 그 위에 로딩하는 기판;
    상기 서열분석 디바이스로 하여금
    서열분석 라이브러리로부터 서열 데이터를 생성하게 하고;
    상기 서열 데이터 내 개별 판독에서 고정된 크기 n의 k-mer를 스캔하고;
    컴퓨터의 메모리에 저장된 해시 테이블(고정된 크기 n의 참조 k-mer의 세트로 초기화됨)에 액세스하게 하고;
    상기 해시 테이블을 사용하여 상기 참조 k-mer의 세트와 상기 k-mer의 정확한 매칭을 식별하고;
    임계값을 초과하는 식별된 정확한 매칭의 수에 기초하여 상기 샘플의 특성을 결정하도록 프로그래밍된 컴퓨터
    를 포함하는, 서열분석 디바이스.
  17. 제16항에 있어서, 상기 프로그래밍된 컴퓨터의 명령을 실행하는 필드-프로그래밍 가능 게이트 어레이를 포함하는, 서열분석 디바이스.
  18. 제16항에 있어서, 상기 참조 k-mer의 세트는 복수의 장 미생물의 게놈의 k-mer를 포함하는, 서열분석 디바이스.
  19. 제16항에 있어서, 상기 참조 k-mer의 세트는 복수의 병원체를 포함하는 병원체 패널의 k-mer를 포함하는, 서열분석 디바이스.
  20. 제16항에 있어서, 상기 참조 k-mer의 세트는 SARS-CoV-2 게놈의 k-mer를 포함하는, 서열분석 디바이스.
KR1020227034954A 2020-05-08 2021-05-07 게놈 서열분석 및 검출 기술 KR20230009877A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063022296P 2020-05-08 2020-05-08
US63/022,296 2020-05-08
PCT/US2021/031389 WO2021226522A1 (en) 2020-05-08 2021-05-07 Genome sequencing and detection techniques

Publications (1)

Publication Number Publication Date
KR20230009877A true KR20230009877A (ko) 2023-01-17

Family

ID=76197614

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020227034955A KR20230009878A (ko) 2020-05-08 2021-05-07 게놈 서열분석 및 검출 기술
KR1020227034954A KR20230009877A (ko) 2020-05-08 2021-05-07 게놈 서열분석 및 검출 기술

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020227034955A KR20230009878A (ko) 2020-05-08 2021-05-07 게놈 서열분석 및 검출 기술

Country Status (11)

Country Link
US (2) US20230207059A1 (ko)
EP (2) EP4147241A1 (ko)
JP (2) JP2023525470A (ko)
KR (2) KR20230009878A (ko)
CN (2) CN115461817A (ko)
AU (2) AU2021267389A1 (ko)
BR (1) BR112022020101A2 (ko)
CA (1) CA3174298A1 (ko)
IL (2) IL297921A (ko)
MX (1) MX2022014017A (ko)
WO (2) WO2021226523A2 (ko)

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
JP2002503954A (ja) 1997-04-01 2002-02-05 グラクソ、グループ、リミテッド 核酸増幅法
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
WO2004018497A2 (en) 2002-08-23 2004-03-04 Solexa Limited Modified nucleotides for polynucleotide sequencing
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP2007525571A (ja) 2004-01-07 2007-09-06 ソレクサ リミテッド 修飾分子アレイ
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
EP1888743B1 (en) 2005-05-10 2011-08-03 Illumina Cambridge Limited Improved polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
EP2653861B1 (en) 2006-12-14 2014-08-13 Life Technologies Corporation Method for sequencing a nucleic acid using large-scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US10927408B2 (en) * 2013-12-02 2021-02-23 Personal Genome Diagnostics, Inc. Method for evaluating minority variants in a sample
US20210249102A1 (en) * 2018-05-31 2021-08-12 Arizona Board Of Regents On Behalf Of The University Of Arizona Methods for comparative metagenomic analysis
CN109949866B (zh) * 2018-06-22 2021-02-02 深圳市达仁基因科技有限公司 病原体操作组的检测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
AU2021267389A1 (en) 2022-10-20
JP2023525470A (ja) 2023-06-16
BR112022020101A2 (pt) 2022-11-29
EP4147242A2 (en) 2023-03-15
MX2022014017A (es) 2022-11-30
WO2021226523A2 (en) 2021-11-11
US20210350873A1 (en) 2021-11-11
AU2021269069A1 (en) 2022-10-20
JP2023524531A (ja) 2023-06-12
IL297920A (en) 2023-01-01
IL297921A (en) 2023-01-01
CA3174298A1 (en) 2021-11-11
US20230207059A1 (en) 2023-06-29
WO2021226523A3 (en) 2021-12-23
WO2021226522A1 (en) 2021-11-11
CN115461817A (zh) 2022-12-09
KR20230009878A (ko) 2023-01-17
EP4147241A1 (en) 2023-03-15
CN115552535A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
KR102356323B1 (ko) 서열 변이체 콜에 대한 검증방법 및 시스템
US11624084B2 (en) Off-target capture reduction in sequencing techniques
US11891600B2 (en) Nucleic acid indexing techniques
CN109416927B (zh) 用于核苷酸测序数据的二级分析的系统和方法
No et al. Comparison of targeted next-generation sequencing for whole-genome sequencing of Hantaan orthohantavirus in Apodemus agrarius lung tissues
US20210350873A1 (en) Genome sequencing and detection techniques
Sounart et al. Dual spatially resolved transcriptomics for SARS-CoV-2 host-pathogen colocalization studies in humans
Jakupciak et al. Population-sequencing as a Biomarker of Burkholderia mallei and Burkholderia pseudomallei evolution through microbial forensic analysis
WO2022207804A1 (en) Nucleic acid library sequencing techniques with adapter dimer detection
CN117377775A (zh) 用于核酸表征的扩增技术
Pandya et al. Whole Genome Resequencing and SNP Genotyping of Category A Biodefense Agent Francisella tularensis
Jakupciak et al. Research Article Population-Sequencing as a Biomarker of Burkholderia mallei and Burkholderia pseudomallei Evolution through Microbial Forensic Analysis

Legal Events

Date Code Title Description
A201 Request for examination