KR20220142466A - 융합 사건을 결정하기 위한 방법 및 시스템 - Google Patents

융합 사건을 결정하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20220142466A
KR20220142466A KR1020227031167A KR20227031167A KR20220142466A KR 20220142466 A KR20220142466 A KR 20220142466A KR 1020227031167 A KR1020227031167 A KR 1020227031167A KR 20227031167 A KR20227031167 A KR 20227031167A KR 20220142466 A KR20220142466 A KR 20220142466A
Authority
KR
South Korea
Prior art keywords
sequence reads
contigs
candidate fusion
determining
breakpoints
Prior art date
Application number
KR1020227031167A
Other languages
English (en)
Inventor
산테 그네레
Original Assignee
가던트 헬쓰, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가던트 헬쓰, 인크. filed Critical 가던트 헬쓰, 인크.
Publication of KR20220142466A publication Critical patent/KR20220142466A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Lining Or Joining Of Plastics Or The Like (AREA)

Abstract

융합 사건을 결정하기 위한 방법, 시스템 및 장치가 기재된다. 일부 유형의 암, 뿐만 아니라 다른 신체적 또는 선천성 사건은 세포의 복제 메카니즘을 방해하고, 다양한 길이의 재배열 또는 indel (삽입 또는 결실)을 도입시킴으로써 기본 DNA를 손상시킨다. 이들 사건의 검출은 전통적인 융합 호출자가 수천 개의 거짓 양성을 생성할 것으로 예상된다는 점에서 높은 특이성이 필요한 경우에는 특히 어려운 문제인 것으로 널리 공지되어 있다. 본원에 기재된 방법, 시스템 및 장치는 융합 사건을 호출하기 전에 입력 서열 리드의 새로운 조립을 이용하여 높은 민감성 및 특이성으로 융합 사건을 검출하는 개선된 능력을 갖는다.

Description

융합 사건을 결정하기 위한 방법 및 시스템
상호 참고
본 출원은 2020년 2월 14일에 출원한 미국 가특허 출원 번호 62/976,884를 우선권으로 주장하며, 그의 전문이 모든 목적을 위해 본원에 포함된다.
암은 세계에서 사망의 주요 원인 중 하나이며, 그의 개시, 제어되지 않는 성장, 침윤 및 전이에 관여하는 다양한 경로에서 다중 유전자를 갖는 이종성 복합 질한의 부류이다. 암의 한 가지 특징은 염색체 전좌, 삽입, 복제, 결실 및 역전을 일으킬 수 있는 유전자 불안정성이다. 이들 유전적 변경은 종종 유전자 융합을 유발하고, 이는 융합 mRNA 또는 융합 전사체로 전사된다. 그러나, 이러한 융합 사건의 새로운 검출은 검정 수준 및 분석 수준 둘 다에서 도입된 기술적 인공물이 거짓 양성을 초래할 수 있기 때문에 높은 특이성이 필요한 경우에는 특히 어려울 수 있다. 이는 입력 데이터가 초심도 범위로 검정에 의해 생성된 서열을 함유하는 경우에 악화된다.
따라서, 전반적인 민감성에 부정적인 영향을 미치지 않고 특이성을 유의하게 증가시키는 융합 사건을 검출하기 위한 개선된 시스템 및 방법이 요구된다. 따라서, 융합 사건을 호출하기 전에 입력 서열 리드의 새로운 조립을 통해 융합 사건을 검출하는 개선된 능력을 갖는 컴퓨터-구현 시스템 및 방법을 제공하는 것이 본 발명의 목적이다.
하기 일반적인 설명 및 하기 상세한 설명 모두 단지 예시적이고, 설명을 위한 것이며, 제한적이지 않음을 이해해야 한다. 융합 사건을 결정하기 위한 방법, 시스템 및 장치가 본원에 기재된다.
한 실시양태에서, 복수개의 서열 리드를 기준 서열에 대해 정렬시키고, 기준 서열에 대한 복수개의 서열 리드의 적어도 하나의 서열 리드의 정렬에서 1 개 이상의 중단점을 결정하고, 후보 융합 서열 리드로서 정렬에서 1 개 이상의 중단점과 연관된 임의의 서열 리드를 확인하고, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하고, 1 개 이상의 공통 중단점에 기초하여 후보 융합 서열 리드를 그룹화하고, 그룹에서 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하고, 그룹으로부터의 콘티그를 기준 서열에 대해 정렬시키고, 그룹으로부터의 콘티그의 정렬에 기초하여, 하나 이상의 후보 융합 사건을 결정하고, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하고, 하나 이상의 후보 융합 사건에 대한 하나 이상의 기준의 적용에 기초하여, 하나 이상의 융합 사건을 결정하는 것을 포함하는 방법이 기재된다.
또 다른 실시양태에서, 복수개의 서열 리드를 기준 서열에 대해 정렬시키고, 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하고, 1 개 이상의 공통 중단점에 기초하여, 1 개 이상의 후보 융합 서열 리드를 1 개 이상의 컨테이너 데이터 구조로 그룹화하고, 각각의 컨테이너 데이터 구조에 대해, 1 개 이상의 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하고, 각각의 컨테이너 데이터 구조에 대해, 1 개 이상의 콘티그를 기준 서열에 대해 정렬시키고, 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것을 포함하는 방법이 기재된다.
특정한 실시양태에서, 후보 융합 서열 리드로서 정렬에서 1 개 이상의 중단점과 연관된 임의의 서열 리드를 확인하는 것은 논리적인 정렬을 폐기하는 것을 포함한다. 특정한 실시양태에서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 적어도 2 개의 후보 융합 서열 리드가 동일한 염색체에서 및 동일한 배향에서 중단점을 포함한다는 것을 결정하는 것을 포함한다. 특정한 실시양태에서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 적어도 2 개의 후보 융합 서열 리드가 동일한 위치에서 중단점을 포함한다는 것을 결정하는 것을 포함한다. 특정한 실시양태에서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 적어도 2 개의 후보 융합 서열 리드가 위치로부터 염기의 임계치 수 내에 중단점을 포함한다는 것을 결정하는 것을 포함한다. 특정한 실시양태에서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 적어도 2 개의 후보 융합 서열 리드가 동일한 염색체에서 및 동일한 배향에서 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함한다. 특정한 실시양태에서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 적어도 2 개의 후보 융합 서열 리드가 동일한 위치에서 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함한다. 특정한 실시양태에서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 적어도 2 개의 후보 융합 서열 리드 각각이 복수개의 위치로부터 염기의 임계치 수 내에 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함한다.
특정한 실시양태에서, 1 개 이상의 공통 중단점에 기초하여 후보 융합 서열 리드를 그룹화하는 것은 그룹에 대해 드 브루인(de Bruijn) 그래프를 생성하는 것을 포함한다. 특정한 실시양태에서, 그룹에서 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것은 드 브루인 그래프를 선형화하여 그룹에 대한 콘티그를 생성하는 것을 포함한다. 특정한 실시양태에서, 그룹에서 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것은 하나 이상의 오류 정정 절차를 수행하는 것을 포함한다. 특정한 실시양태에서, 하나 이상의 오류 정정 절차는 후보 융합 서열 리드와 기준 서열 사이의 미스매치를 해결하는 것을 포함한다. 특정한 실시양태에서, 하나 이상의 오류 정정 절차는 적어도 2 개의 후보 융합 서열 리드 사이에 패딩을 삽입하는 것을 포함한다. 특정한 실시양태에서, 하나 이상의 오류 정정 절차는 임계치를 초과하는 정렬되지 않은 부분을 갖는 1 개 이상의 후보 융합 서열 리드를 폐기하는 것을 포함한다.
특정한 실시양태에서, 그룹으로부터의 콘티그의 정렬에 기초하여, 하나 이상의 후보 융합 사건을 결정하는 것은 풋프린트 시험 또는 스프레드 시험 중 하나 이상을 적용하는 것을 포함한다. 특정한 실시양태에서, 풋프린트 시험을 적용하는 것은 콘티그를 지원하는 후보 융합 서열 리드의 패밀리의 임계치 수가 중단점(들)에 걸쳐 있다는 것을 결정하는 것을 포함한다. 특정한 실시양태에서, 스프레드 시험을 적용하는 것은 스프레드의 임계치 양이 콘티그를 지원하고 중단점(들)에 걸쳐 있는 후보 융합 서열 리드의 적어도 2 개의 패밀리 사이에 존재한다는 것을 결정하는 것을 포함한다.
특정한 실시양태에서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점과 패널의 적어도 1 개의 프로브의 위치 사이의 거리를 결정하고; 임계치 미만의 패널의 적어도 1 개의 프로브의 위치로부터의 거리로 중단점을 함유하지 않는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함한다. 특정한 실시양태에서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 1 개 이상의 관심 유전자를 결정하고; 1 개 이상의 관심 유전자와 연관된 중단점을 함유하지 않는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함한다. 특정한 실시양태에서, 제1항 내지 제20항 중 어느 한 항에 있어서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점이 결실임을 결정하고; 또 다른 결실로부터 떨어져 있는 다수의 염기 내에 위치하는 결실을 포함하는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함하는 것인 방법. 특정한 실시양태에서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점이 결실임을 결정하고; 임계치 미만의 다수의 염기를 포함하는 결실을 포함하는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함한다. 특정한 실시양태에서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 인트론 영역에 완전히 매립된 삽입 또는 결실을 포함하는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함한다. 특정한 실시양태에서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그에 대해, 분자 대 리드의 비를 결정하고; 임계치 초과의 분자 대 리드의 비와 연관이 있고 이중 가닥 지원 분자와는 연관이 없는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함한다. 특정한 실시양태에서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점 쌍에 대해, 중단점 쌍의 중단점에 인접해 있는 서열을 결정하고; 중단점 쌍의 중단점에 인접해 있는 서열을 정렬시키고; 중단점 쌍의 중단점에 인접해 있는 서열의 정렬에 대한 정렬 점수를 결정하고; 임계치를 초과하는 정렬 점수에 기초하여 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함한다. 특정한 실시양태에서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점 쌍에 대해, 중단점 쌍의 중단점에 중심을 둔 서열을 결정하고; 중단점에 중심을 둔 서열을 서로에 대해 정렬시키고; 중단점에 중심을 둔 서열의 정렬에 대한 정렬 점수를 결정하고; 임계치를 초과하는 정렬 점수에 기초하여 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함한다.
일부 실시양태에서, 본원에 개시된 시스템 및 방법의 결과는 보고서를 생성하기 위한 입력으로서 사용된다. 보고서는 종이 또는 전자 포맷일 수 있다. 예를 들어, 본원에 개시된 방법 및 시스템에 의해 결정되는 융합 사건은 이러한 보고서에서 직접적으로 표시될 수 있다. 대안적으로 또는 추가로, 융합 사건의 결정에 기초한 진단 정보 또는 치료 권고가 보고서에 포함될 수 있다.
본원에 개시된 방법의 다양한 단계, 또는 본원에 개시된 시스템에 의해 수행되는 단계는 동일한 또는 상이한 시간에, 동일한 또는 상이한 지리적 위치에서, 예를 들어 국가에서, 및/또는 동일한 또는 상이한 사람에 의해 수행될 수 있다.
일부 실시양태에서, 대상체를 치료하는 방법은 하나 이상의 치료제를 대상체에게 투여하는 것을 포함하는 것으로 기재되며, 대상체는 융합 사건을 결정하는 개시된 방법을 이용하여 융합 사건을 갖는 것으로 결정되었다. 일부 실시양태에서, 대상체를 치료하는 방법은 이전에 투여된 것과 상이한 치료제를 대상체에게 투여하는 것을 포함하는 것으로 기재하며, 대상체는 융합 사건을 결정하는 개시된 방법을 이용하여 융합 사건을 갖는 것으로 결정되었다. 일부 실시양태에서, 대상체를 치료하는 방법은 대상체에 대한 치료제의 투여를 중단하는 것을 포함하는 것으로 기재되며, 대상체는 융합 사건을 결정하는 개시된 방법을 이용하여 융합 사건을 갖는 것으로 결정되었다.
추가의 이점이 하기 설명에서 부분적으로 설명되거나 또는 실시에 의해 학습될 수 있다. 이점은 특히 첨부된 청구항에서 지적된 요소 및 조합에 의해 실현되고 달성될 것이다.
본 명세서에 포함되고 그의 일부를 구성하는 첨부된 도면은 본원에 기재된 방법 및 시스템의 원리를 설명하는 역할을 한다:
도 1은 예시적인 방법을 도시한다.
도 2A-2C는 단편을 생성하기 위한 예시적인 스티칭 및 트리밍 과정을 도시한다.
도 3은 스티칭 과정으로부터의 예시적인 인공물을 도시한다.
도 4는 예시적인 방법을 도시한다.
도 5는 예시적인 중단점을 도시한다.
도 6은 후보 융합 서열 리드의 선택을 도시한다.
도 7은 2 개의 후보 융합 서열 리드 사이의 공통 중단점의 확인을 도시한다.
도 8은 2 개의 후보 융합 서열 리드 사이의 공통 중단점의 확인을 도시한다.
도 9A-B는 드 브루인 그래프 및 간결한 드 브루인 그래프의 최소 예시를 도시한다.
도 10은 그래프 데이터 구조의 각각의 정점(vertex)에 대한 인접 목록의 예시적인 사용을 도시한다.
도 11은 그래프 데이터 구조의 각각의 정점 및 간선(edge)에 대한 인접 목록의 예시적인 사용을 도시한다.
도 12는 오류 정정 절차를 도시한다.
도 13은 오류 정정 절차를 도시한다.
도 14는 오류 정정 절차를 도시한다.
도 15는 오류 정정 절차를 도시한다.
도 16은 후보 융합 사건의 결정을 도시한다.
도 17은 후보 융합 사건의 결정을 도시한다.
도 18은 광범위한 암 코호트에서 FGFR2/3 융합 파트너 발생률을 도시한다. 광범위한 암 코호트에서 검출된 FGFR2 및 FGFR3 융합 파트너의 빈도. IGR: 유전자간 영역. 자체에 대한 파트너 유전자로서 FGFR2는 긴 결실 또는 삽입을 나타낸다.
도 19는 진행성 요로상피암 (aUC)에서 FGFR3 융합 파트너 발생률을 도시한다. FGFR3 융합을 가진 다수의 aUC 환자가 파트너 유전자에 의해 검출되었다. IGR: 유전자간 영역. 자체에 대한 파트너 유전자로서 FGFR3은 긴 결실 또는 삽입을 나타낸다.
도 20은 광범위한 암 코호트에서 FGFR2/3 융합과 공동 발생하는 돌연변이를 도시하며, 광범위한 암 코호트에서 적어도 3 명의 FGFR2 또는 FGFR3-융합 양성 환자에서 발생하는 돌연변이가 도시되었다. 삼각형이 있는 변이체는 융합-양성 집단에서 유의한 농축을 나타낸다 (▼ p < 1e-4, ▼▼ p < 1e-10, chi2 시험, 본페로니(Bonferroni) 정정).
도 21은 예시적인 컴퓨팅 기기를 도시한다.
도 22는 예시적인 방법을 도시한다.
도 23은 예시적인 방법을 도시한다.
명세서 및 첨부된 청구항에서 사용되는 바와 같이, 단수 형태는 문맥상 명백하게 달리 지시되지 않는다면 복수 대상을 포함한다. 본원에서 범위는 "약" 한 특정한 값에서부터 및/또는 "약" 또 다른 특정한 값까지로서 표현될 수 있다. 이러한 범위가 표현되는 경우, 또 다른 구성은 한 특정한 값에서부터 및/또는 다른 특정한 값까지를 포함한다. 유사하게, 값이 선행사 "약"을 사용하여 근사치로서 표현되는 경우, 특정한 값이 또 다른 구성을 형성한다는 것을 이해할 것이다. 추가로, 범위의 각각의 종점이 다른 종점과 관련하여 및 다른 종점과 무관하게 모두 유의하다는 것을 이해할 것이다.
"임의적인" 또는 "임의적으로"는 후속적으로 기재된 사건 또는 상황이 발생하거나 또는 발생하지 않을 수 있고, 설명이 상기 사건 또는 상황이 발생하는 경우 및 발생하지 않는 경우를 포함한다는 것을 의미한다.
본 명세서의 설명 및 청구항 전반에 걸쳐, 단어 "포함하다" 및 상기 단어의 변형어, 예컨대 "포함하는"은 "포함하나 이로 제한되지 않은"을 의미하며, 예를 들어 다른 성분, 정수 또는 단계를 배제하는 것으로 의도되지 않는다. "예시적인"은 "~의 예"를 의미하며, 바람직한 또는 이상적인 구성의 표시를 전달하는 것으로 의도되지 않는다. "예컨대"는 제한적인 의미로 사용되는 것이 아니라, 예시적인 목적을 위해 사용된다.
용어 "대상체"는 동물, 예컨대 포유동물 종 (바람직하게는 인간) 또는 조류 (예를 들어, 새) 종을 지칭할 수 있다. 더욱 구체적으로, 대상체는 척추동물, 예를 들어 포유동물, 예컨대 마우스, 영장류, 유인원 또는 인간일 수 있다. 동물에는 농장 동물, 스포츠 동물, 및 애완 동물이 포함된다. 대상체는 건강한 개체, 증상 또는 징후를 갖거나, 또는 질환 또는 질환에 대한 소인을 가진 것으로 의심되는 개체, 또는 치료를 필요로 하거나 또는 치료를 필요로 하는 것으로 의심되는 개체일 수 있다. 일부 실시양태에서, 대상체는 인간, 예컨대 암을 갖거나 또는 암을 가진 것으로 의심되는 인간이다.
문구 "무세포 핵산"은 대상체로부터의 체액 (예를 들어, 혈액, 소변, CSF 등)으로부터 공급되는 캡슐화되지 않은 핵산을 지칭할 수 있다. 무세포 핵산에는 DNA (cfDNA), RNA (cfRNA), 및 그의 혼성체, 예컨대 게놈 DNA, 미토콘드리아 DNA, 순환 DNA, siRNA, miRNA, 순환 RNA (cRNA), tRNA, rRNA, 소핵성 RNA (snoRNA), Piwi-상호작용 RNA (piRNA), 긴 비코딩 RNA (긴 ncRNA), 또는 이들의 임의의 단편이 포함된다. 무세포 핵산은 이중 가닥, 단일 가닥, 또는 부분적으로 이중- 및 단일 가닥일 수 있다. 무세포 핵산은 분비 또는 세포 사멸 과정, 예를 들어 세포 괴사 및 아폽토시스를 통해 체액으로 방출될 수 있다. 일부 무세포 핵산, 예를 들어 순환 종양 DNA (ctDNA)는 암 세포로부터 체액으로 방출된다. 다른 것들은 건강한 세포로부터 방출된다. ctDNA는 캡슐화되지 않은 종양-유래된 단편환된 DNA일 수 있다. 무세포 태아 DNA (cffDNA)는 모체 혈류에서 자유롭게 순환하는 태아 DNA이다. 무세포 핵산은 하나 이상의 연관된 후성적 변형을 가질 수 있고, 예를 들어 아세틸화, 5-메틸화, 유비퀴틴화, 인산화, 수모일화, 리보실화 및/또는 시트룰린화될 수 있다. 일부 실시양태에서, 무세포 핵산은 일반적으로 이중 가닥 cfDNA를 포함하는 cfDNA이다.
용어 "정렬", "정렬시키는" 등은 유사성 영역을 확인하기 위해 DNA 또는 RNA의 서열을 배열하는 것을 지칭할 수 있다. 유사성은 서열 사이의 기능적, 구조적 및/또는 진화적 관계와 관련있을 수 있다. DNA 서열의 정렬은 한 서열의 게놈 DNA를 적어도 하나의 다른 서열의 게놈 DNA에 대해 정렬시키는 것을 수반한다. 이러한 정렬은 비-게놈 DNA, 예컨대 분자 바코드, 패딩 염기 등을 배제할 수 있다. 예를 들어, 서열 리드의 게놈 DNA는 서열 리드에 부착될 수 있는 임의의 분자 태그를 제외하고 기준 DNA 서열의 게놈 DNA에 대해 정렬될 수 있다.
본원에서 사용된 바와 같이, 뉴클레오티드가 서열에서 뉴클레오티드에 "상응한다"는 언급은 표준 정렬 알고리즘, 예컨대 GAP 알고리즘을 이용하여 동일성을 최대화하기 위해 서열과 정렬시 확인된 뉴클레오티드를 지칭한다.
본원에서 사용된 바와 같이, "서열 동일성", "서열 상동성" 또는 "동일성"은 2 개 이상의 폴리뉴클레오티드 서열 사이의 정렬에서 동일한 또는 유사한 뉴클레오티드 염기의 수를 지칭한다. 한 비제한적인 예에서, "적어도 90% 동일한"은 기준 폴리뉴클레오티드에 대해 90 내지 100%의 % 동일성을 지칭한다. 90% 이상의 수준의 동일성은, 예시의 목적을 위해 100 개 뉴클레오티드의 시험 및 기준 폴리뉴클레오티드 길이를 비교하는 것을 가정하여, 시험 폴리뉴클레오티드에서 10% (즉, 100 개 중 10 개) 이하의 뉴클레오티드가 기준 폴리뉴클레오티드의 것과 상이하다는 사실을 나타낸다. 이러한 차이는 뉴클레오티드 서열의 전체 길이에 걸쳐 무작위로 분포된 점 돌연변이로서 표현될 수 있거나, 또는 이들은 최대 허용가능한, 예를 들어 10/100 뉴클레오티드 차이 (대략 90% 동일성)까지 다양한 길이의 하나 이상의 위치에서 클러스터화될 수 있다. 차이는 핵산 치환, 삽입 또는 결실로 정의된다.
서열 동일성은 유사성 또는 동일성 영역을 확인하기 위해 핵산 서열의 서열 정렬에 의해 결정될 수 있다. 본원의 목적을 위해, 서열 동일성은 일반적으로 동일한 염기를 확인하기 위해 정렬에 의해 결정된다. 정렬은 국소적 또는 전체적일 수 있다. 매치, 미스매치 및 갭은 비교한 서열 사이에서 확인될 수 있다. 갭은 동일한 또는 유사한 문자가 정렬되도록 정렬된 서열의 염기 사이에 삽입된 무효 뉴클레오티드이다. 일반적으로, 내부 및 말단 갭이 있을 수 있다. 서열 동일성은 가장 짧은 서열의 동일한 염기의 수/길이 x 100으로서 갭을 고려하여 결정될 수 있다. 갭 패널티가 사용되는 경우, 서열 동일성은 말단 갭에 대한 패널티 없이 결정될 수 있다 (예를 들어, 말단 갭은 패널티 없음). 대안적으로, 서열 동일성은 총 정렬된 서열의 동일한 위치의 수/길이 x 100으로서 갭을 고려하지 않고 결정될 수 있다.
본원에서 사용된 바와 같이, "전체 정렬"은 2 개의 서열을 처음부터 끝까지 정렬하여 각각의 서열에서 각각의 염기를 한 번만 정렬시키는 정렬이다. 정렬은 서열 사이에 유사성 또는 동일성이 있는지 여부에 관계없이 생성된다. 예를 들어, "전체 정렬"에 기초한 50% 서열 동일성은 각각 100 개 뉴클레오티드인 두 비교 서열의 전체 서열의 정렬에서 염기의 50%가 동일하다는 것을 의미한다. 전체 정렬은 또한 심지어 정렬된 서열의 길이가 동일하지 않을 때에도 서열 동일성을 결정하는데 이용될 수 있는 것으로 이해된다. "말단 갭에 대한 패널티 없음"이 선택되지 않는다면, 서열의 말단에서의 차이는 서열 동일성을 결정하는데 고려될 것이다. 일반적으로, 전체 정렬은 대부분의 그들의 길이에 걸쳐 유의한 유사성을 공유하는 서열에 대해 이용된다. 전체 정렬을 수행하기 위한 예시적인 알고리즘에는 니들만-운쉬(Needleman-Wunsch) 알고리즘이 포함된다 (Needleman et al. J. Mol. Biol. 48: 443 (1970). 전체 정렬을 수행하기 위한 예시적인 프로그램은 공개적으로 입수가능하며, 국립 생명공학 정보 센터 (National Center for Biotechnology Information (NCBI)) 웹사이트 (ncbi.nlm.nih.gov/)에서 입수가능한 전체 서열 정렬 도구 및 deepc2.psi.iastate.edu/aat/align/align.html에서 입수가능한 프로그램이 포함된다.
본원에서 사용된 바와 같이, "국소 정렬"은 두 서열을 정렬시키지만, 유사성 또는 동일성을 공유하는 서열의 부분만을 정렬시키는 정렬이다. 따라서, 국소 정렬은 한 서열의 하위-세그먼트가 또 다른 서열에 존재하는지를 결정한다. 유사성이 없다면, 정렬이 복귀되지 않을 것이다. 국소 정렬 알고리즘에는 BLAST 또는 스미스-워터맨(Smith-Waterman) 알고리즘이 포함된다 (Adv. Appl. Math. 2: 482 (1981)). 예를 들어, "국소 정렬"에 기초한 50% 서열 동일성은 임의의 길이의 두 비교 서열의 전체 서열의 정렬에서 100 개 뉴클레오티드 길이의 유사성 또는 동일성 영역이 유사성 또는 동일성 영역에서 동일한 염기의 50%를 가짐을 의미한다.
문구 "핵산 태그"는 상이한 샘플로부터의 핵산을 구별하기 위해 (예를 들어, 샘플 색인을 나타냄), 또는 동일한 샘플에서 상이한 핵산 분자를 구별하기 위해 (예를 들어, 분자 바코드를 나타냄) 핵산 분자를 표지하기 위해 사용되는, 상이한 유형의 또는 상이한 프로세싱을 겪은 짧은 핵산 (예를 들어, 500, 100, 50 또는 10 개 미만의 뉴클레오티드 길이)을 지칭할 수 있다. 태그는 단일 가닥, 이중 가닥 또는 적어도 부분적으로 이중 가닥일 수 있다. 태그는 동일한 길이 또는 다양한 길이를 가질 수 있다. 태그는 평활-말단일 수 있거나 또는 오버행을 가질 수 있다. 태그는 핵산의 한 말단 또는 양 말단에 부착될 수 있다. 핵산 태그는 디코딩되어 핵산의 기원 샘플, 형태 또는 프로세싱과 같은 정보를 나타낼 수 있다. 태그를 사용하여, 상이한 분자 바코드 및/또는 샘플 색인을 보유하는 핵산을 포함하는 다중 샘플의 풀링 및 병렬 프로세싱을 가능하게 할 수 있으며, 후속적으로 핵산은 분자 바코드를 판독함으로써 데콘볼루션된다. 추가로 또는 대안적으로, 핵산 태그를 사용하여, 동일한 샘플에서 상이한 분자를 구별할 수 있다 (즉, 분자 바코드). 이는 샘플에서 상이한 분자를 고유하게 태그 부착하거나 또는 샘플에서 분자를 고유하지 않게 태그 부착하는 것 둘 다를 포함한다. 고유하지 않은 태그 부착의 경우, 적어도 1 개의 태그와 조합되어 기준 게놈 상에 맵핑되는 그들의 시작 및/또는 정지 위치 (즉, 게놈 좌표)를 기준으로 하여 상이한 분자를 구별할 수 있도록, 분자를 태그하기 위해 제한된 수의 상이한 태그가 사용될 수 있다. 이어서, 전형적으로, 동일한 시작/정지를 갖는 임의의 두 분자가 또한 동일한 태그를 가질 확률이 낮도록 (예를 들어 <10%, <5%, <1%, 또는 <0.1%), 충분한 수의 상이한 태그가 사용된다. 일부 태그는 샘플, 샘플 내에서 분자의 형태, 및 동일한 시작 및 정지 지점을 갖는 형태 내의 분자를 표지하기 위해 다중 식별자를 포함한다. 이러한 태그는 형태 A1i로 존재할 수 있으며, 여기서 문자는 샘플 유형을 나타내고, 아라비아 숫자는 샘플 내에서 분자의 형태를 나타내고, 로마 숫자는 형태 내의 분자를 나타낸다.
용어 "어댑터"는 샘플 핵산 분자의 한 말단 또는 양 말단에 대한 연결을 위해 일반적으로 적어도 부분적으로 이중 가닥인 짧은 핵산 (예를 들어, 500, 100 또는 50 개 미만의 뉴클레오티드 길이)을 지칭한다. 어댑터는 양 말단에서 어댑터에 의해 플랭킹된 핵산 분자의 증폭을 허용하는 프라이머 결합 부위, 및/또는 시퀀싱 프라이머 결합 부위, 예컨대 차세대 시퀀싱 (NGS)을 위한 프라이머 결합 부위를 포함할 수 있다. 어댑터는 또한 포획 프로브에 대한 결합 부위, 예컨대 유동 세포 지지체에 부착된 올리고뉴클레오티드를 포함할 수 있다. 어댑터는 또한 상기 기재된 태그를 포함할 수 있다. 태그는 바람직하게는 프라이머 및 시퀀싱 프라이머 결합 부위에 대해 위치하여, 태그가 핵산 분자의 앰플리콘 및 시퀀싱 리드에 포함되도록 한다. 동일한 또는 상이한 서열의 어댑터를 핵산 분자의 각 말단에 연결시킬 수 있다. 때때로, 바코드가 상이한 것을 제외하고는 동일한 서열의 어댑터가 각각의 말단에 연결된다. 바람직한 어댑터는 Y-형 어댑터이며, 한 말단은 핵산 분자에 결합하기 위해 평활 말단이거나 또는 꼬리가 있고, 또한 하나 이상의 상보성 뉴클레오티드에 대해 평활 말단이거나 또는 꼬리가 있다. 또 다른 바람직한 어댑터는 종-형 어댑터이며, 마찬가지로 분석할 핵산에 결합하기 위해 평활 말단이거나 또는 꼬리가 있다.
본원에서 사용된 바와 같이, 용어 "시퀀싱" 또는 "시퀀서"는 생체분자, 예를 들어 핵산, 예컨대 DNA 또는 RNA의 서열을 결정하기 위해 사용되는 임의의 다수의 기술을 지칭한다. 예시적인 시퀀싱 방법에는 표적화된 시퀀싱, 단일 분자 실시간 시퀀싱, 엑손 시퀀싱, 전자 현미경-기반 시퀀싱, 패널 시퀀싱, 트랜지스터-매개된 시퀀싱, 직접적인 시퀀싱, 무작위 샷건 시퀀싱, 생어(Sanger) 디데옥시 종결 시퀀싱, 전체-게놈 시퀀싱, 혼성화에 의한 시퀀싱, 파이로시퀀싱, 듀플렉스 시퀀싱, 주기 시퀀싱, 단일-염기 연장 시퀀싱, 고체-상 시퀀싱, 고처리량 시퀀싱, 대규모 병렬 시그니처 시퀀싱, 에멀젼 PCR, 낮은 변성 온도-PCR (COLD-PCR)에서 공동-증폭, 멀티플렉스 PCR, 가역적인 염료 종결자에 의한 시퀀싱, 양말단 시퀀싱, 단기 시퀀싱, 엑소뉴클레아제 시퀀싱, 라이게이션에 의한 시퀀싱, 짧은 리드 시퀀싱, 단일-분자 시퀀싱, 합성에 의한 시퀀싱, 실시간 시퀀싱, 역종결자 시퀀싱, 나노포어 시퀀싱, 454 시퀀싱, 솔렉사(Solexa) 게놈 분석기 시퀀싱, SOLiD™ 시퀀싱, MS-PET 시퀀싱, 및 이들의 조합이 포함되나 이로 제한되지 않는다. 일부 실시양태에서, 시퀀싱은 유전자 분석기, 예를 들어 일루미나(Illumina) 또는 어플라이드 바이오시스템즈(Applied Biosystems)로부터 상업적으로 입수가능한 유전자 분석기에 의해 수행될 수 있다.
문구 "차세대 시퀀싱" 또는 NGS는 전통적인 생어- 및 모세관 전기영동-기반 접근법과 비교하여 증가된 처리량을 갖는, 예를 들어 한 번에 수십만 개의 비교적 작은 서열 리드를 생성하는 능력을 갖는 시퀀싱 기술을 지칭한다. 차세대 시퀀싱 기술의 일부 예에는 합성에 의한 시퀀싱, 라이게이션에 의한 시퀀싱, 및 혼성화에 의한 시퀀싱이 포함되나 이로 제한되지 않는다.
용어 "DNA (데옥시리보핵산)"는 4 가지 핵염기, 즉, 아데닌 (A), 티민 (T), 시토신 (C), 및 구아닌 (G) 중 하나를 각각 포함하는 데옥시리보뉴클레오시드를 포함하는 뉴클레오티드의 쇄를 지칭한다. 용어 "RNA (리보핵산)"는 4 가지 핵염기, 즉, A, 우라실 (U), G, 및 C 중 하나를 각각 포함하는 4 가지 유형의 리보뉴클레오시드를 포함하는 뉴클레오티드의 쇄를 지칭한다. 뉴클레오티드의 특정한 쌍은 상보적인 방식으로 서로에게 특이적으로 결합한다 (상보성적인 염기 쌍 형성으로 지칭됨). DNA에서, 아데닌 (A)은 티민 (T)과 쌍을 형성하고, 시토신 (C)은 구아닌 (G)과 쌍을 형성한다. RNA에서, 아데닌 (A)은 우라실 (U)과 쌍을 형성하고, 시토신 (C)은 구아닌 (G)과 쌍을 형성한다. 제1 핵산 가닥이 제1 가닥의 것과 상보성인 뉴클레오티드로 구성된 제2 핵산 가닥에 결합할 때, 두 가닥은 결합하여 이중 가닥을 형성한다. 본원에서 사용된 바와 같이, "핵산 시퀀싱 데이터", "핵산 시퀀싱 정보", "핵산 서열", "뉴클레오티드 서열", "게놈 서열", "유전자 서열" 또는 "단편 서열" 또는 "핵산 시퀀싱 리드"는 핵산, 예컨대 DNA 또는 RNA의 분자 (예를 들어, 전체 게놈, 전체 전사체, 엑솜, 올리고뉴클레오티드, 폴리뉴클레오티드, 또는 단편)에서 뉴클레오티드 염기 (예를 들어, 아데닌, 구아닌, 시토신, 및 티민 또는 우라실)의 순서를 나타내는 임의의 정보 또는 데이터를 지칭한다. 본 교시내용이 모세관 전기영동, 마이크로어레이, 라이게이션-기반 시스템, 폴리머라제-기반 시스템, 혼성화-기반 시스템, 직접적인 또는 간접적인 뉴클레오티드 확인 시스템, 파이로시퀀싱, 이온- 또는 pH-기반 검출 시스템, 및 전자 서명-기반 시스템을 비롯하여 이로 제한되지 않는 모든 이용가능한 다양한 기술, 플랫폼 또는 기술을 이용하여 수득된 서열 정보를 고려한다는 것을 이해해야 한다.
"폴리뉴클레오티드", "핵산", "핵산 분자" 또는 "올리고뉴클레오티드"는 뉴클레오시드간 연결에 의해 결합된 뉴클레오시드 (데옥시리보뉴클레오시드, 리보뉴클레오시드, 또는 그의 유사체 포함)의 선형 중합체를 지칭한다. 전형적으로, 폴리뉴클레오티드는 적어도 3 개의 뉴클레오시드를 포함한다. 올리고뉴클레오티드는 종종 몇 개의 단량체 단위, 예를 들어 3-4 개 내지 수백 개의 단량체 단위 크기의 범위를 갖는다. 폴리뉴클레오티드가 문자의 서열, 예컨대 "ATGCCTG"로 표현되는 경우에는 언제나, 달리 언급되지 않는다면, 뉴클레오티드가 좌측에서 우측으로 5'→3' 순서로 있고, "A"는 아데노신을 나타내고, "C"는 시토신을 나타내고, "G"는 구아노신을 나타내고, "T"는 티미딘을 나타냄을 이해할 것이다. 관련 기술분야에서 표준인 바와 같이, 문자 A, C, G, 및 T를 사용하여, 염기 자체, 뉴클레오시드, 또는 염기를 포함하는 뉴클레오티드를 지칭할 수 있다.
문구 "기준 서열"은 실험적으로 결정된 서열과의 비교 목적으로 사용되는 공지된 서열을 지칭한다. 예를 들어, 공지된 서열은 전체 게놈, 염색체, 또는 그의 임의의 세그먼트일 수 있다. 기준은 전형적으로 적어도 20, 50, 100, 200, 250, 300, 350, 400, 450, 500, 1000 개 또는 그 초과의 뉴클레오티드를 포함한다. 기준 서열은 게놈 또는 염색체의 단일 연속 서열과 정렬될 수 있거나, 또는 게놈 또는 염색체의 상이한 영역과 정렬되는 비연속 세그먼트를 포함할 수 있다. 일부 실시양태에서, 기준 서열은 인간 게놈이다. 기준 인간 게놈은 예를 들어 hG19 및 hG38을 포함한다.
본원에서 사용된 바와 같이, 문구 "생물학적 샘플"은 일반적으로 대상체로부터 유래된 조직 또는 유체 샘플을 지칭한다. 생물학적 샘플은 대상체로부터 직접적으로 수득될 수 있다. 생물학적 샘플은 하나 이상의 핵산 분자, 예컨대 데옥시리보핵산 (DNA) 또는 리보핵산 (RNA) 분자일 수 있거나 또는 그를 포함할 수 있다. 생물학적 샘플은 임의의 기원, 조직 또는 생물학적 유체로부터 유래될 수 있다. 생물학적 샘플은 예를 들어 체액 또는 고체 조직 샘플을 포함할 수 있다. 고체 조직 샘플의 예는 예를 들어 고체 종양 생검으로부터의 종양 샘플이다. 체액에는 예를 들어 혈액, 혈청, 혈장, 종양 세포, 타액, 소변, 림프액, 전립선액, 정액, 젖, 가래, 대변, 눈물 및 이들의 유도체가 포함된다. 일부 실시양태에서, 생물학적 샘플은 혈액이거나 또는 그로부터 유래된다.
핵산 서열 정보의 맥락에서 문구 "융합 서열 리드"는 주어진 기준 서열의 상이한 비연속적인 영역 또는 유전자좌에 맵핑되는 하위-서열을 포함하는 시퀀싱 리드를 지칭한다. "후보 융합 서열 리드"는 융합 서열 리드일 수 있는 서열 리드이다. 특정한 실시양태에서, 예를 들어, 주어진 융합 서열 리드의 제1 하위-서열은 기준 서열의 주어진 유전자의 제1 엑손에 맵핑되는 반면에, 해당 주어진 융합 서열 리드의 제2 하위-서열은 기준 서열의 동일한 유전자의 제2 엑손에 맵핑되며, 제1 및 제2 엑손은 기준 서열의 동일한 유전자의 개재 인트론에 의해 분리된다. 이들 일부 실시양태에서, 이러한 융합 서열 리드는 주어진 융합 서열 리드가 수득된 대상체의 게놈에서 유전자내 융합의 존재를 나타낸다. 다른 예시적인 실시양태에서, 주어진 융합 서열 리드의 제1 하위-서열은 기준 서열의 제1 유전자의 엑손에 맵핑되는 반면에, 해당 주어진 융합 서열 리드의 제2 하위-서열은 기준 서열의 상이한 제2 유전자의 엑손에 맵핑되며, 엑손은 기준 서열에서 서로 인접하지 않는다. 이들 일부 실시양태에서, 이러한 융합 서열 리드는 주어진 융합 서열 리드가 수득된 대상체의 게놈에서 유전자간 융합의 존재를 나타낸다.
용어 "서열 리드"는 개체로부터 수득된 샘플로부터의 뉴클레오티드 서열 리드를 지칭한다. 서열 리드는 관련 기술분야에 공지된 다양한 방법을 통해 수득될 수 있다.
핵산 융합 분자 또는 상응하는 시퀀싱 리드의 맥락에서 용어 "중단점"은 핵산 융합의 융합된 하위-서열 사이의 접합부에서 말단 뉴클레오티드 위치를 지칭하거나 또는 상응하는 시퀀싱 리드에서 표시된다. 예를 들어, 주어진 분할 서열 리드는 해당 분할 서열 리드에서 제2 하위-서열에 인접하고 그에 대해 5'에 있는 제1 하위-서열을 포함할 수 있고, 제2 하위-서열이 맵핑되는 해당 기준 서열에서 제2 유전자좌와 인접하지 않는 기준 서열에서 제1 유전자좌에 제1 하위-서열이 맵핑된다. 이 예에서, 분할 서열 리드의 제1 하위-서열은 그의 3' 말단 뉴클레오티드에서 중단점을 포함하는 반면에, 분할 서열 리드의 제2 하위-서열은 그의 5' 말단 뉴클레오티드에서 중단점을 포함한다. 특정한 적용에서, 이들과 같은 중단점은 "중단점 쌍"으로 지칭된다.
용어 "융합 사건"은 특정한 위치에서 2 개의 별도의 유전자 사이의 융합을 지칭한다. 융합 사건의 예에는 전좌, 중간 결실, 또는 염색체 역전 사건이 포함된다.
용어 "압퓨전(abfusion)", "새로운 융합 호출자", "융합 호출자" 또는 "새로운 방법"은 융합 사건을 새롭게, 즉, 이전의 공지된 유전자 융합 사건의 데이터베이스로부터 수득될 수 있는 것과 같은 사전 지식없이 확인하는 DNA 또는 RNA 융합 호출자인 융합 호출자를 지칭한다.
하나 이상의 관심 값 또는 요소에 적용되는 문구 "약" 또는 "대략"은 명시된 기준 값 또는 요소와 유사한 값 또는 요소를 지칭한다. 특정한 실시양태에서, 용어 "약" 또는 "대략"은 달리 명시되지 않는다면 또는 문맥으로부터 달리 명백하지 않는다면 명시된 기준 값 또는 요소의 어느 한 방향으로 (초과 또는 미만) 25%, 20%, 19%, 18%, 17%, 16%, 15%, 14%, 13%, 12%, 11%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1%, 또는 그 미만에 속하는 값 또는 요소의 범위를 지칭한다 (이러한 수가 가능한 값 또는 요소의 100%를 초과하는 경우는 제외).
성분의 조합, 하위 집합, 상호작용, 그룹 등이 기재될 때, 이들의 각각의 다양한 개별적인 및 집합적인 조합 및 순열의 구체적인 언급이 명시적으로 기술되지 않을 수 있지만, 각각이 구체적으로 고려되고 본원에 기재됨을 기재하는 것으로 이해된다. 이는 기재된 방법에서의 단계를 비롯하여 이로 제한되지 않는 본 출원의 모든 부분에 적용된다. 따라서, 수행될 수 있는 다양한 추가의 단계가 있는 경우, 이들 각각의 추가의 단계가 기재된 방법의 임의의 구체적인 구성 또는 구성들의 조합에 의해 수행될 수 있음을 이해한다.
관련 기술분야의 기술자에 의해 이해되는 바와 같이, 하드웨어, 소프트웨어, 또는 소프트웨어 및 하드웨어의 조합이 구현될 수 있다. 추가로, 저장 매체에서 구현되는 프로세서-실행가능한 명령 (예를 들어, 컴퓨터 소프트웨어)을 갖는 컴퓨터-판독가능한 저장 매체 (예를 들어, 비일시적) 상의 컴퓨터 프로그램 제품. 하드 디스크, CD-ROM, 광학 저장 기기, 자기 저장 기기, 멤레지스터, 비휘발성 무작위 접근 메모리 (NVRAM), 플래쉬 메모리, 또는 이들의 조합물을 비롯한 임의의 적합한 컴퓨터-판독가능한 저장 매체를 이용할 수 있다.
본 명세서 전반에 걸쳐 블록 다이어그램 및 플로우차트에 대한 참고가 이루어진다. 블록 다이어그램 및 플로우차트의 각각의 블록, 및 블록 다이어그램 및 플로우차트에서 블록들의 조합 각각이 프로세서-실행가능한 명령에 의해 구현될 수 있음을 이해할 것이다. 이들 프로세서-실행가능한 명령은 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그래밍가능한 데이터 프로세싱 장치에 로딩되어 기계를 생성할 수 있으며, 이로써 컴퓨터 또는 다른 프로그래밍가능한 데이터 프로세싱 장치에서 실행되는 프로세서-실행가능한 명령이 플로우차트 블록 또는 블록들에서 지정된 기능을 구현하기 위한 기기를 생성하도록 한다.
이들 프로세서-실행가능한 명령은 또한 컴퓨터 또는 다른 프로그래밍가능한 데이터 프로세싱 장치가 특정한 방식으로 기능하도록 지시할 수 있는 컴퓨터-판독가능한 메모리에 저장될 수 있으며, 이로써 컴퓨터-판독가능한 메모리에 저장된 프로세서-실행가능한 명령이 플로우차트 블록 또는 블록들에서 지정된 기능을 구현하기 위해 프로세서-실행가능한 명령을 포함하는 제조 물품을 생성한다. 프로세서-실행가능한 명령은 또한 컴퓨터 또는 다른 프로그래밍가능한 데이터 프로세싱 장치에 로딩되어, 일련의 작업 단계가 컴퓨터 또는 다른 프로그래밍가능한 장치에서 수행되게 하여, 컴퓨터-구현된 과정을 생성하고, 이로써 컴퓨터 또는 다른 프로그래밍가능한 장치에서 실행되는 프로세서-실행가능한 명령이 플로우차트 블록 또는 블록들에서 지정된 기능을 구현하기 위한 단계를 제공하도록 한다.
블록 다이어그램 및 플로우차트의 블록들은 지정된 기능을 수행하기 위한 기기들의 조합, 지정된 기능을 수행하기 위한 단계들의 조합, 및 지정된 기능을 수행하기 위한 프로그램 명령 수단을 지원한다. 블록 다이어그램 및 플로우차트의 각각의 블록, 및 블록 다이어그램 및 플로우차트에서 블록들의 조합은 지정된 기능 또는 단계, 또는 특수 목적 하드웨어 및 컴퓨터 명령의 조합을 수행하는 특수 목적 하드웨어-기반 컴퓨터 시스템에서 구현될 수 있다는 것 또한 이해할 것이다.
도 1은 융합 사건을 호출하기 위해 개체로부터 수득된 시험 샘플을 프로세싱하기 위한 예시적인 방법 (100)이다. 시험 샘플은 환자로부터 수득될 수 있다. 단계 (110)에서, 핵산 (DNA 또는 RNA)은 시험 샘플로부터 추출될 수 있다. 한 실시양태에서, 핵산은 무세포 핵산을 포함한다. 다양한 실시양태에서, 시험 샘플은 혈액, 혈장, 혈청, 소변, 대변, 타액 샘플, 이들의 조합물 중 하나 이상 등으로부터 선택된 샘플일 수 있다. 대안적으로, 생물학적 샘플은 전혈, 혈액 분획, 조직 생검, 흉막액, 심낭액, 뇌척수액, 및 복막액 중 하나 이상으로부터 선택된 샘플을 포함할 수 있다. 한 실시양태에서, 시험 샘플은 무세포 핵산을 포함할 수 있고, 그 예는 무세포 DNA 및/또는 무세포 RNA이다. 예를 들어, 시험 샘플은 대상체의 혈액으로부터 취한 무세포 핵산 샘플일 수 있다. 한 실시양태에서, 무세포 핵산 샘플은 암을 가진 것으로 공지된 대상체 (예를 들어, 암 환자) 또는 암을 가진 것으로 의심되는 대상체로부터 수득된 시험 샘플로부터 추출될 수 있다.
융합 호출과 관련된 하기 설명은 핵산 서열의 DNA 및 RNA 유형 둘 다에 적용될 수 있다. 다양한 실시양태에서, 핵산은 정제 과정을 통해 시험 샘플로부터 추출된다. 일반적으로, 관련 기술분야에 공지된 임의의 방법이 핵산 정제를 위해 이용될 수 있다. 예를 들어, 핵산은 튜브에서 핵산을 펠렛화 및/또는 침전시킴으로써 단리될 수 있다. 일부 실시양태에서, 핵산은 추가로 가공될 수 있다. 예를 들어, 시험 샘플로부터 추출된 무세포 핵산은 RNA일 수 있으며, 이어서 이는 역전사효소를 사용하여 DNA로 전환된다.
일부 측면에서, 방법 (100)은 단계 (110)을 포함한다. 일부 측면에서, 방법 (100)은 시험 샘플로부터 수득된 핵산을 사용하여 단계 (120)에서 시작될 수 있다.
방법 (100)은 단계 (120)에서 시퀀싱 라이브러리의 제조를 포함할 수 있다. 라이브러리 제조 동안에, 어댑터는 예를 들어 후속적인 클러스터 생성 및/또는 시퀀싱에서 사용하기 위한 하나 이상의 시퀀싱 올리고뉴클레오티드 (예를 들어, 합성 (SBS) (일루미나, 캘리포니아주 샌디에고)에 의한 시퀀싱에서 사용되는 공지된 P5 및 P7 서열)를 포함하고, 어댑터 라이게이션을 통해 핵산 분자의 말단에 라이게이션될 수 있다. 한 실시양태에서, 분자 바코드는 어댑터 라이게이션 동안에 추출된 핵산에 부가될 수 있다. 일부 실시양태에서, 분자 바코드는 핵산으로부터 수득된 서열 리드를 확인하기 위해 사용될 수 있는 고유한 태그로서 작용하는 축퇴 염기 쌍이다. 다른 실시양태에서, 분자 바코드는 제한된 세트의 분자 바코드로부터 선택된다 (예를 들어, 2 내지 1,000,000; 2 내지 100,000; 2 내지 10,000; 2 내지 1,000 개의 상이한 분자 바코드 서열). 일부 실시양태에서, 분자 바코드 세트에서 분자 바코드의 수는 샘플에서 폴리뉴클레오티드의 수보다 작다. 세트에서 제한된 수의 분자 바코드를 갖는 일부 실시양태에서, 분자 바코드는 분자 바코드로부터의 서열 정보 및 게놈 좌표 정보 (이에 기초하여 서열 리드가 기준 서열에 맵핑됨)에 기초하여 상이한 분자를 구별하기 위해 사용될 수 있는 비축퇴 염기 쌍을 포함할 수 있다. 일부 실시양태에서, 분자 바코드는 어댑터 라이게이션 동안에 핵산의 말단에 부가된 짧은 핵산 서열 (예를 들어, 4-10 개의 염기 쌍)이다. 분자 바코드는 증폭 동안에 부착된 핵산과 함께 추가로 복제될 수 있고, 이는 하류 분석에서 동일한 원래의 핵산 세그먼트로부터 기원하는 서열 리드를 확인하는 방법을 제공한다.
한 실시양태에서, 단계 (120)은 임의적으로 혼성화 프로브를 사용하여 핵산을 혼성화하고/거나 핵산 단편에 대한 농축을 수행하는 것을 포함할 수 있다. 예를 들어, 표적화된 유전자 패널을 통해 서열 리드를 생성할 때 또는 전체 엑솜 시퀀싱을 통해 서열 리드를 생성할 때. 반대로, 혼성화 프로브를 사용하는 핵산의 혼성화 및/또는 핵산 단편에 대한 농축의 수행은 전체 게놈 시퀀싱을 통해 서열 리드를 생성할 때 수행되지 않는다. 혼성화 프로브를 사용하는 핵산의 혼성화는 선택된 핵산 세트에 대한 시퀀싱 라이브러리를 농축시키기 위해 혼성화 프로브를 사용하는 것을 포함할 수 있다. 혼성화 프로브는 표적화된 핵산 서열을 표적화하고 그와 혼성화하여, 암 (또는 질환)의 존재 또는 부재, 암 상태, 또는 암 분류 (예를 들어, 암 유형 또는 기원 조직)에 대한 정보를 제공할 수 있는 표적화된 핵산 분자를 풀다운시키고 농축시키도록 설계될 수 있다. 이 단계에 따라, 복수개의 혼성화 풀다운 프로브는 주어진 표적 서열 또는 유전자에 대해 사용될 수 있다. 프로브는 약 40 내지 약 160 염기 쌍 (bp), 약 60 내지 약 120 bp, 또는 약 70 bp 내지 약 100 bp 길이의 범위일 수 있다. 한 실시양태에서, 프로브는 표적화된 영역 또는 유전자의 중첩 부분을 덮는다. 표적화된 유전자 패널 시퀀싱의 경우, 혼성화 프로브는 표적화된 유전자 패널에 포함된 특이적인 유전자 서열로부터 유래되는 핵산 분자를 표적화하고 풀다운시키도록 설계될 수 있다. 전체 엑솜 시퀀싱의 경우, 혼성화 프로브는 기준 게놈에서 엑손 서열로부터 유래되는 핵산 분자를 표적화하고 풀다운시키도록 설계될 수 있다. 후속적으로, 혼성화된 핵산 분자는 농축될 수 있다. 예를 들어, 혼성화된 핵산 분자는 PCR을 이용하여 포획되고 증폭될 수 있다. 표적 서열을 농축시켜, 후속적으로 시퀀싱될 수 있는 농축된 서열을 수득할 수 있다. 예를 들어, 관련 기술분야에 널리 공지된 바와 같이, 비오틴 모이어티는 프로브의 5'-말단에 부가되어 (즉, 비오틴화), 스트렙타비딘-코팅된 표면 (예를 들어, 스트렙타비딘-코팅된 비드)을 이용하여 표적 프로브-핵산 복합체의 풀다운을 용이하게 할 수 있다. 이는 서열 리드의 시퀀싱 깊이를 개선시킬 수 있다. 그러나, PCR은 불완전하고; 이는 인공물 (예를 들어, 스큐 및 새로운 혼성체 또는 잘못된 서열)을 증폭된 DNA 분자의 풀에 도입시킨다. 예를 들어, 증폭 동안에 신규한 키메라 생성물을 형성하기 위해 2 개의 주형을 조합하는 과정인 주형 스위칭은 인공물을 생성할 수 있다. PCR 주형 스위칭은 입력에 이미 존재하는 2 개의 서열의 혼성체 서열을 생성한다. DNA 폴리머라제는 PCR 동안에 신생 DNA 가닥을 중단시키지 않고 상보성 영역에서 한 주형에서 또 다른 주형으로 점프할 수 있다. 따라서, 이 신생 가닥은 새로운 혼성체 서열을 가지며, 한 조각은 오래된 주형에 대해 상보적이고, 다른 조각은 새로운 주형에 대해 상보적이다. 유사하게, 신생 전사체는 완료 이전에 중단될 수 있고, 이어서 PCR의 후속적인 주기에서 프라이머로서 작용할 수 있으며, 이는 다시 새로운 혼성체 종을 생성한다.
일부 측면에서, 방법 (100)은 단계 (110 및 120)을 포함한다. 일부 측면에서, 방법 (100)은 단계 (120)에서 시험 샘플로부터 수득된 핵산을 사용하여 시작될 수 있다. 일부 측면에서, 방법 (100)은 단계 (130)에서 이미 제조된 서열 라이브러리를 사용하여 시작될 수 있다. 일부 측면에서, 이전에 제조된 서열 라이브러리는 구입될 수 있다.
방법 (100)은 단계 (130)에서 시퀀싱 라이브러리에서 핵산을 시퀀싱하여 서열 리드를 생성하는 것을 포함할 수 있다. 서열 리드는 관련 기술분야에 공지된 수단에 의해 획득될 수 있다. 예를 들어, 다수의 기술 및 플랫폼은 수백만 개의 개별 핵산 (예를 들어 DNA, 예컨대 cfDNA 또는 gDNA 또는 RNA, 예컨대 cfRNA) 분자로부터 병렬로 서열 리드를 직접적으로 수득한다. 이러한 기술은 임의의 표적화된 유전자 패널 시퀀싱, 전체 엑솜 시퀀싱, 전체 게놈 시퀀싱, 표적화된 유전자 패널 비술파이트 시퀀싱, 및 전체 게놈 비술파이트 시퀀싱을 수행하는데 적합할 수 있다.
첫 번째 예로서, 합성에 의한 시퀀싱 기술은 형광 뉴클레오티드의 검출에 의존하며, 이는 이들이 시퀀싱되는 주형에 상보적인 DNA의 신생 가닥에 혼입되기 때문이다. 한 방법에서, 올리고뉴클레오티드 30-50 개 염기 길이는 5' 말단에서 유리 커버 슬립에 공유적으로 고정된다. 이들 고정된 가닥은 2 가지 기능을 수행한다. 첫째, 주형이 표면-결합된 올리고뉴클레오티드에 대해 상보적인 포획 꼬리를 갖는 것으로 구성된 경우, 이들은 표적 주형 가닥을 위한 포획 부위로서 작용한다. 이들은 또한 서열 판독의 기초를 형성하는 주형 지시된 프라이머 연장을 위한 프라이머로서 작용한다. 포획 프라이머는 다중 주기의 합성, 검출, 및 염료 제거를 위한 염료-링커의 화학적 절단을 이용하여 서열 결정을 위한 고정된 위치 부위로서 기능한다. 각각의 주기는 폴리머라제/표지된 뉴클레오티드 혼합물 첨가, 세정, 영상화 및 염료 절단으로 이루어진다.
대안적인 방법에서, 폴리머라제는 형광 공여자 분자로 변형되고, 유리 슬라이드 상에 고정되는 반면에, 각각의 뉴클레오티드는 감마-포스페이트에 부착된 수용자 형광 모이어티로 색상-코딩된다. 뉴클레오티드가 새로운 쇄에 혼입되기 시작함에 따라, 시스템은 형광-태그 부착된 폴리머라제와 형광 변형된 뉴클레오티드 사이의 상호작용을 검출한다.
임의의 적합한 합성에 의한 시퀀싱 플랫폼을 이용하여 돌연변이를 확인할 수 있다. 합성에 의한 시퀀싱 플랫폼은 로슈(Roche)/454 라이프 사이언시즈(Life Sciences)로부터의 게놈 시퀀서, 일루미나/솔렉사로부터의 게놈 애널라이저(GENOME ANALYZER), 어플라이드 바이오시스템즈로부터의 솔리드(SOLID) 시스템, 및 헬리코스 바이오사이언시즈(Helicos Biosciences)로부터의 헬리스코프(HELISCOPE) 시스템을 포함한다. 합성에 의한 시퀀싱 플랫폼은 또한 비지젠 바이오테크놀로지즈(VisiGen Biotechnologies)에 의해 기재되었다. 일부 실시양태에서, 시퀀싱되는 복수개의 핵산 분자는 지지체 (예를 들어, 고체 지지체)에 결합된다. 지지체 상에 핵산을 고정시키기 위해, 포획 서열/범용 프라이밍 부위가 주형의 3' 및/또는 5' 말단에 부가될 수 있다. 핵산은 지지체에 공유적으로 부착된 상보성 서열에 대해 포획 서열을 혼성화시킴으로써 지지체에 결합될 수 있다. 포획 서열 (범용 포획 서열로도 지칭됨)은 범용 프라이머로서 이중으로 작용할 수 있는 지지체에 부착된 서열에 대해 상보적인 핵산 서열이다.
포획 서열에 대한 대안으로서, 커플링 쌍 (예컨대, 항체/항원, 수용체/리간드 또는 아비딘-비오틴 쌍)의 구성원은 해당 커플링 쌍의 각각의 제2 구성원으로 코팅된 표면 상에 포획되는 각각의 분자에 연결될 수 있다. 포획에 이어서, 서열은 예를 들어 합성에 의한 주형-의존성 시퀀싱을 비롯한 단일 분자 검출/시퀀싱에 의해 분석될 수 있다. 합성에 의한 시퀀싱에서, 표면-결합된 분자는 폴리머라제의 존재하에 복수개의 표지된 뉴클레오티드 트리포스페이트에 노출된다. 주형의 서열은 성장하는 쇄의 3' 말단에 혼입된 표지된 뉴클레오티드의 순서에 의해 결정된다. 이는 실시간으로 수행될 수 있거나 또는 단계-반복 모드로 수행될 수 있다. 실시간 분석의 경우, 각각의 뉴클레오티드에 대한 상이한 광학 표지가 혼입될 수 있고, 혼입된 뉴클레오티드의 자극을 위해 다중 레이저를 사용할 수 있다.
대규모 병렬 시퀀싱 또는 차세대 시퀀싱 (NGS) 기술에는 합성 기술, 파이로시퀀싱, 이온 반도체 기술, 단일-분자 실시간 시퀀싱, 라이게이션에 의한 시퀀싱, 또는 양말단 시퀀싱이 포함된다. 대규모 병렬 시퀀싱 플랫폼의 예는 일루미나 HISEQ 또는 MISEQ, 이온 퍼스널 게놈 머신(ION PERSONAL GENOME MACHINE), 팩바이오(PACBIO) RSII 시퀀서 또는 세퀄(SEQUEL) 시스템, 퀴아젠(Qiagen)의 진리더(GENEREADER), 및 옥스포드(Oxford) 미니온(MINION)이다. 추가의 유사한 현재의 대규모 병렬 시퀀싱 기술, 뿐만 아니라 이들 기술의 미래 세대를 이용할 수 있다.
다양한 실시양태에서, 서열 리드는 R1 및 R2로서 지정되는 리드 쌍으로 구성될 수 있다. 예를 들어, 첫번째 리드 R1은 핵산 분자의 첫번째 말단으로부터 시퀀싱되는 반면에, 두번째 리드 R2는 핵산 분자의 두번째 말단으로부터 시퀀싱될 수 있다.
한 실시양태에서, 단계 (130)에서, 서열 리드는 추가의 프로세싱을 거칠 수 있다. 한 실시양태에서, 단계 (110-130)을 통해 서열 리드를 생성하기 보다는, 임의의 입수가능한 데이터 공급원으로부터 서열 리드의 입수, 다운로드, 결정, 수용 등을 할 수있다. 예를 들어 전체 엑솜 시퀀싱 (WES) 데이터 (DNA-seq), 전체 게놈 시퀀싱 (WGS) 데이터 (DNA-seq), 및/또는 전사체 시퀀싱 (RNA-seq) 데이터로부터 서열 리드의 입수, 다운로드, 결정, 수용 등을 할 수 있다. 기재된 방법 및 시스템은 예를 들어 서열 리드를 생성하기 위해 사용된 시퀀싱 플랫폼에 따라 다양한 포맷 (예를 들어, FASTA, FASTQ, 및/또는 다른 독점적인 포맷) 중 하나로 서열 리드를 수득할 수 있다. 따라서, 시퀀싱 플랫폼으로부터 서열 리드를 수득하는 것은 서열 리드가 본원에 기재된 추가의 프로세싱 및 분석을 위해 사용될 수 있도록 하는 방식으로 리드 포맷의 표준화를 포함할 수 있다. 서열 포맷을 표준화하는 한 비제한적인 예는 서열 리드의 품질 점수 포맷을 조정하는 것이다. 일부 실시양태에서, 서열 리드를 함유하는 데이터 파일의 구조는 데이터 파일의 (예를 들어, 가속화된 또는 더욱 효율적인) 검색을 증진시키도록 최적화될 수 있다.
추가의 프로세싱은 예를 들어 서열 리드를 제거하기 위한 사전 필터링 단계, 리드 쌍의 스티칭, 및/또는 리드 쌍의 오버행 트리밍을 포함할 수 있다. 사전 필터링은 하나 이상의 기준을 충족시키는 서열 리드를 제거하는 것을 포함할 수 있다. 기준의 예에는 하기가 포함되나 이로 제한되지 않는다: 서열 리드가 싱글톤인지 여부의 확인, 서열 리드가 하드 클립인지 여부의 확인, 주형 길이 (TLEN) (예를 들어, 임계치 TLEN)에 기초한 필터링, 정렬 점수 (예를 들어, 임계치 정렬 점수)에 기초한 필터링, 또는 염기 품질 점수 (예를 들어, 중간 또는 평균 염기 품질 점수의 임계치)에 기초한 필터링. 또 다른 기준에는 리드 쌍의 리드가 상이한 염색체로부터의 것이라는 기준을 서열 리드 쌍이 충족시키는 경우, 서열 리드 쌍이 유지되고, 필터링되지 않는다는 것을 결정하는 것이 포함된다. 기준의 추가의 예에는 비트 플래그, 시가, 편집 거리 (예를 들어, 최소 또은 최대 편집 거리), 준최적 정렬 점수, 또는 보충 정렬 측정에 기초한 필터링이 포함된다.
도 2A, 도 2B 및 도 2C는 실시양태에 따라 리드 쌍 r1 (210 A) 및 r2 (210 B)로부터 단편 s (205)를 생성하기 위한 예시적인 스티칭 및 트리밍 과정을 도시한다.
도 2A, 도 2B 및 도 2C에 도시된 바와 같이, r1 (210 A) 및 r2 (210 B)는 정방향 및 역방향 상보체 가닥을 나타내는 서로 마주보는 화살표로서 표시된다. 리드 쌍 (r1, r2)를 평가하여, 이들이 동일한 단편 s (205)로 스티칭되어야 하는지 여부를 결정하며: r1 및 r2는 kmer로 분해되고, 각각의 공통 kmer는 r1 (210 A) 및 r2 (210 B)의 접미부-접두부 정렬을 고정시킨다 (도 2A). 정렬의 유사성이 특정한 임계치를 통과하는 경우, 스티칭이 적용된다. 도 2A에 도시된 바와 같이, 리드 쌍 사이의 중첩 영역 (220)은 이들 사이에 공유된 kmer 중 하나 (예를 들어, 중첩부)를 나타내며, 이는 접미부-접두부 정렬을 위한 앵커이다. 따라서, 스티칭된 단편 s (205)는 r1 (210 A)의 접두부, 중첩부, 및 r2 (210 B)의 접미부의 결합이다. 때때로, 스티칭 코드는 완벽한 반복부에서 긴 분자를 융합시키고, 이는 융합을 닮은 인공물을 발생시킨다. 도 3에 도시된 바와 같이, 리드 메이트는 새롭게 스티칭되지만, 이웃하는 완벽한 반복부는 긴 분자가 부정확하게 스티칭되게 할 수 있다.
또 다른 시나리오에서, r1/r2의 3' 말단이 r2/r1의 5'을 넘어 연장되는 경우 (오버행), 단편 s (205)는 중첩 영역이 된다. 이는 도 2B에 도시된 시나리오이며, 여기서 r1 (210 A) 및/또는 r2 (210 B)는 다른 리드의 5' 영역을 넘어 연장된다. 오버행은 트리밍되고, 단편 s (205)는 중첩부이다.
또 다른 시나리오에서, 도 2C에 도시된 바와 같이, r1 (210 A) 및 r2 (210 B)가 중첩되지 않고/거나 너무 많은 시퀀싱 오류를 갖기 때문에, 이들이 스티칭될 수 없는 경우에는, 쌍을 형성한 리드가 결합되어 단편 s (205)를 형성하고, 여기서 역상보성 r2 (210 B)는 두 리드를 동일한 가닥으로 전환시킨다. 데이터로부터 존재하지 않는 kmer의 생성을 방지하기 위해 임의의 kmer에 함유되지 않는 알파벳이 아닌 문자는 임의로 선택된다.
방법 (100)은 단계 (140)에서 융합 사건을 호출하기 위한 컴퓨터 분석을 이용하여 서열 리드를 프로세싱하는 것을 포함할 수 있다. 이러한 컴퓨터 분석은 이제 실시양태에 따라 융합 사건을 확인하는 방법 (400)을 도시하는 도 4와 관련하여 기재된다. 일반적으로, 컴퓨터 분석은 사전 지식없이 개체에서 융합 사건(들)의 존재를 예측하도록 구성된 새로운 융합 호출자이다.
방법 (400)은 단계 (410)에서 후보 융합 서열 리드를 결정하고, 단계 (420)에서 후보 융합 서열 리드로부터 콘티그를 생성하고, 단계 (430)에서 후보 융합 사건을 결정하고, 단계 (440)에서 융합 사건을 결정하는 것을 포함할 수 있다.
단계 (410)에서 후보 융합 서열 리드의 결정은 복수개의 서열 리드를 기준 서열에 대해 정렬시키는 것을 포함할 수 있다. 기준 서열은 게놈 영역, 예컨대 염색체에 걸쳐 DNA 서열을 포함할 수 있다. 게놈 영역에 걸쳐 있는 DNA 서열을 비롯한 기준 서열은 특정한 해당 게놈 영역에 영향을 미치는 후보 융합 사건을 결정하기 위해 사용될 수 있다. 기준 서열은 엑손 DNA 서열을 포함할 수 있다. 따라서, 기준 서열은 엑손 DNA 서열에 영향을 미치는 후보 융합 사건을 확인하기 위해 사용될 수 있다. 일부 실시양태에서, 기준 서열은 엑손 DNA 서열 외에도 인트론 DNA 서열을 포함할 수 있다. 따라서, 기준 서열은 엑손 및 인트론 DNA 서열 둘 다에 영향을 미치는 후보 융합 사건을 확인하기 위해 사용될 수 있다. 일부 실시양태에서, 기준 서열은 패딩 영역 내에 엑손 DNA 서열, 인트론 DNA 서열, 및 추가의 뉴클레오티드 염기의 조합을 포함할 수 있다. 패딩 영역은 유전자 융합 사건과 연관될 가능성이 없는 것으로 공지된 핵산 서열, 예컨대 반복 핵산 서열 또는 다른 인트론 영역일 수 있다. 따라서, 기준 서열은 엑손 DNA 서열, 인트론 DNA 서열, 뿐만 아니라 엑손/인트론 DNA 서열 사이의 접합에 영향을 미치는 후보 융합 사건을 확인하기 위해 사용될 수 있다.
기준 서열에 대한 복수개의 서열 리드의 정렬은 관련 기술분야에 공지된 임의의 정렬 기술을 포함할 수 있다. 정렬 기술의 예에는 쌍별 정렬 및 다중 서열 정렬이 포함되나 이로 제한되지 않는다. 쌍별 정렬은 예를 들어 완전 또는 경험적 (예를 들어, 완전하지 않은) 쌍별 정렬을 포함할 수 있다. 때때로 "브루트 포스(brute force)" 접근법으로 지칭되는 완전 쌍별 정렬은 세트에서 모든 가능한 서열 쌍 사이의 모든 가능한 정렬에 대한 정렬 점수를 계산한다. 다중 서열 정렬은 프로그램 클러스털더블유(ClustalW)에 의해 구현되는 바와 같이 점진적인 정렬을 포함할 수 있다 (예를 들어, [Thompson, et al., Nucl. Acids. Res., 22:4673-80 (1994)] 참고). 정렬 결과는 하나 이상의 이진 정렬 맵 (BAM) 파일을 포함할 수 있다.
단계 (410)에서 후보 융합 서열 리드의 결정은 기준 서열에 대한 복수개의 서열 리드의 적어도 하나의 서열 리드의 정렬에서 1 개 이상의 중단점을 결정하는 것을 추가로 포함할 수 있다. 정렬에서 1 개 이상의 중단점과 연관된 임의의 서열 리드는 후보 융합 서열 리드로서 확인될 수 있다. 중단점은 서열 리드가 기준 서열로부터 변경된 영역 또는 지점일 수 있다. 각각의 서열 리드의 정렬은 1 개 이상의 중단점에 기여할 수 있다. 중단점은 염색체 상의 지향성 위치일 수 있다. 정렬에서 중단점의 존재는 시퀀싱 과정에서의 오류 또는 진정한 융합 사건에 대한 진짜 신호를 나타낼 수 있다. 도 5는 후보 융합 서열 리드인 것으로 결정된 서열 리드 (510)의 예를 도시한다. 서열 리드 (510)은 기준 서열 (520)에 대해 정렬된다. 서열 리드 (510)의 제1 부분 (530)은 기준 서열 (520)에 대해 잘 정렬되지만, 제2 부분 (540)은 중단점 (550)에서 시작하여 기준 서열 (520)에 대해 잘 정렬되지 않는다. 서열 리드 (510)은 중단점 (550)의 존재에 기초하여 후보 융합 서열 리드인 것으로 고려될 수 있다. 도 5에 도시되지 않았지만, 동일한 서열 리드 (510)에 대한 다른 정렬로부터 또 다른 중단점이 생성될 것이다.
한 실시양태에서, 하나 이상의 BAM 파일은 쿼리를 수행하여, 폐기되어야 하고/거나 후보 융합 서열 리드로서 고려되어야 하는 서열 리드를 결정할 수 있다. BAM 파일은 스캐닝될 수 있고, 임의의 논리적 서열 리드는 폐기될 수 있다. 논리적 서열 리드는 융합 사건을 함유하지 않은 것으로 여겨지는 리드를 포함할 수 있다 (예를 들어, 하드-클립핑 없음, 소프트-클립핑 없음). 한 실시양태에서, 최소 정렬 길이 및/또는 최대 정렬 길이는 논리적 서열 리드를 확인하기 위해 사용될 수 있다. 최소 정렬 길이는 예를 들어 1 내지 100 개일 수 있다. 한 실시양태에서, 최소 정렬 길이는 40 개일 수 있다. 최대 정렬 길이는 예를 들어 600-1000 개일 수 있다. 한 실시양태에서, 최대 정렬 길이는 800 개일 수 있다. 최소 정렬 길이 미만 또는 최대 정렬 길이 초과인 기준 서열에 대해 정렬된 다수의 염기를 함유하는 임의의 서열 리드는 논리적 서열 리드로 고려되지 않고, 추가의 분석을 위해 유지될 수 있다. 한 실시양태에서, 낮은 맵핑 품질 점수 (MAPQ)와 연관된 서열 리드는 폐기될 수 있다. 낮은 맵핑 품질 점수는 예를 들어 0 내지 60일 수 있다. 한 실시양태에서, 낮은 맵핑 품질 점수는 50 이하일 수 있다. 임계치보다 큰 indel을 포함하는 서열 리드는 후보 융합 서열 리드로서 유지될 수 있다. 임계치는 예를 들어 15 내지 30 개 염기일 수 있다. 한 실시양태에서, 임계치는 24 개 염기일 수 있다. 도 6은 후보 융합 서열 리드인 것으로 결정된 서열 리드 (610)의 예를 도시한다. 서열 리드 (610)은 기준 서열 (620)에 대한 2 가지 정렬을 갖는다. 서열 리드 (610)의 일부가 서열 리드 (610)의 한쪽에서 기준 서열 (620)에 잘 매칭되지 않은 것인 일차 정렬 (630) (소프트 클립핑된 염기), 및 서열 리드 (610)이 기준 서열 (620)의 1 개 초과의 장소에 대해 합리적으로 잘 정렬될 수 있고, 정렬 전에 제거된 서열 리드 (610)의 일부를 포함하는 것인 이차 정렬 (640) (하드 클립핑된 염기).
도 4로 돌아가서, 단계 (420)에서 후보 융합 서열 리드로부터 콘티그의 생성은 1 개 이상의 공통 중단점에 기초하여 후보 융합 서열 리드를 그룹 (또는 "컨테이너" 또는 "패킷")으로 그룹화하고, 각각의 패킷에서 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것을 포함할 수 있다. 동일한 또는 이웃하는 중단점 (예를 들어, 공통 중단점)을 공유하는 후보 융합 서열 리드는 동일한 패킷/컨테이너로 배치될 수 있다. 한 실시양태에서, 공통 중단점은 1) 동일한 배향으로 동일한 염색체에 있는 각각의 2 개의 후보 융합 서열 리드 상의 중단점 및/또는 2) 동일한 위치에서 또는 염기의 임계치 수 내에서 (예를 들어, 1 내지 40 개 염기, 예를 들어 12 개 염기의 임계치 내에서) 및 동일한 배향으로 각각의 2 개의 후보 융합 서열 리드 상의 중단점일 수 있다. 또 다른 실시양태에서, 중단점의 두 벡터에 대한 양립성 시험을 수행할 수 있다.
도 7은 후보 융합 서열 리드가 단일 중단점을 포함하고, 또 다른 후보 융합 서열 리드가 다중 중단점을 포함하는 것인 시나리오를 도시한다. 제1 후보 융합 서열 리드는 중단점 (710)을 포함하고, 제2 후보 융합 서열 리드는 중단점 (720), 중단점 (730), 및 중단점 (740)을 포함한다. 중단점 (720) 및 중단점 (740)은 중단점 (710)의 위치로부터 염기의 임계치 수 내의 위치에 있지 않고, 따라서 제1 후보 융합 서열 리드 및 제2 후보 융합 서열 리드를 그룹화하는데 기여하지 않는다. 그러나, 중단점 (710) 및 중단점 (730)의 위치는 염기의 임계치 수 내에 있고, 제1 후보 융합 서열 리드 및 제2 후보 융합 서열 리드를 동일한 패킷으로 그룹화하는 기준으로서 작용할 수 있다.
도 8은 후보 융합 서열 리드가 다중 중단점를 포함하고, 또 다른 후보 융합 서열 리드 또한 다중 중단점을 포함하는 것인 시나리오를 도시한다. 제1 후보 융합 서열 리드는 중단점 (810), 중단점 (820), 및 중단점 (830)을 포함한다. 제2 후보 융합 서열 리드는 중단점 (840), 중단점 (850), 및 중단점 (860)을 포함한다. 제1 후보 융합 서열 리드의 각각의 중단점과 제2 후보 융합 서열 리드의 각각의 중단점에 대한 비교를 수행할 수 있다. 도 8에 도시된 바와 같이, 중단점 (810) 및 중단점 (840)은 염기의 임계치 수 내의 위치에 있고, 중단점 (830) 및 중단점 (860)은 염기의 임계치 수 내의 위치에 있다. 중단점의 이들 쌍은 제1 후보 융합 서열 리드 및 제2 후보 융합 서열 리드를 동일한 패킷으로 그룹화하는 기준으로서 작용할 수 있다. 그러나, 중단점 (820) 및 중단점 (860)은 임의의 다른 중단점의 염기의 임계치 수 내에 있지 않고, 따라서 제1 후보 융합 서열 리드 및 제2 후보 융합 서열 리드를 그룹화하는데 기여하지 않는다.
한 실시양태에서, 후보 융합 서열 리드의 패킷은 1 개 이상의 컨테이너 데이터 구조를 구축함으로써 컴퓨터에 의해 생성될 수 있다. 한 실시양태에서, 1 개 이상의 컨테이너 데이터 구조는 1 개 이상의 그래프 데이터 구조를 포함할 수 있다. 그래프 데이터 구조는 후보 융합 서열 리드를 나타내는 노드(node) 및 양립성 후보 융합 서열 리드를 나타내는 노드를 연결하는 간선을 포함할 수 있다. 각각의 연결된 노드는 패킷의 일부로 고려될 수 있다. 그래프 데이터 구조 구축은 이러한 구축의 컴퓨터 집약적인 특징을 고려하여 병렬화될 수 있다.
그래프 데이터 구조는 정점 (노드로도 지칭됨)의 쌍이 간선에 의해 연결된 유형의 데이터 구조를 포함할 수 있다. 한 실시양태에서, 그래프 데이터 구조는 메모리 서브시스템 (예를 들어, 도 21, 메모리 (2107))에 저장되고, 이는 각각의 정점이 저장된 메모리 (2107)에서 물리적 위치를 확인하기 위해 포인터를 포함할 수 있다. 전형적으로, 그래프 데이터 구조에서 각각의 노드는 세트의 요소를 나타내는 반면에, 간선은 요소들 사이의 관계를 나타낸다. 그래프 데이터 구조는 방향성 그래프, 트리, 방향성 비순환 그래프 (DAG) 등을 포함할 수 있다. 방향성 그래프는 간선이 방향을 갖는 것이다. 트리는 루트 노드, 및 각각 내부 노드 또는 리프 노드인 다수의 추가의 노드를 갖는 유형의 방향성 그래프 데이터 구조이다. 루트 노드 및 내부 노드는 각각 하나 이상의 "자식" 노드를 갖고, 각각은 그의 자식 노드의 "부모"로서 지칭된다. 리프 노드는 임의의 자식 노드를 갖지 않는다. 트리에서 간선은 통상적으로 부모에서 자식으로 향한다. 트리에서, 노드는 정확히 하나의 부모를 갖는다. 방향성 비순환 그래프 (DAG)로 공지된 트리의 일반화는 노드가 다중 부모를 가질 수 있게 하지만, 간선이 주기를 형성하는 것은 가능하지 않다.
한 실시양태에서, 그래프 데이터 구조는 드 브루인 그래프를 나타낼 수 있다. 드 브루인 그래프는 리드를 k-mer로 지칭되는 더 작은 DNA 서열로 분해함으로써 계산 노력을 감소시키며, 여기서 파라미터 k는 이들 서열의 염기 길이를 지칭한다. 드 브루인 그래프에서, 모든 리드는 k-mer (리드 내의 길이 k의 모든 하위 서열)로 분해되고, k-mer 사이의 경로를 계산한다. 이 방법에 따른 조립에서, 리드는 k-mer를 통한 경로로서 표시된다. 드 브루인 그래프는 실제 리드 사이가 아니라 이들 k-mer 사이의 길이 k-1의 중첩부를 포착한다. 따라서, 예를 들어, 서열 CATGGA는 하기 2-mer: CA, AT, TG, GG, 및 GA를 통한 경로로서 표시될 수 있다. 다른 k-mer, 예를 들어 1-mer, 3-mer, 4-mer, 5-mer, 6-mer, 7-mer, 8-mer 등이 고려된다. 드 브루인 그래프 접근법은 중복을 잘 다루고, 복잡한 경로의 계산을 다루기 쉽게 만든다. 전체 데이터 세트를 k-mer 중첩부로 감소시킴으로써, 드 브루인 그래프는 짧은-리드 데이터 세트에서 높은 중복성을 감소시킨다. 특정한 조립에 대한 가장 효율적인 k-mer 크기는 리드 길이 뿐만 아니라 오류율에 의해 결정될 수 있다. 파라미터 k의 값은 조립의 품질에 유의한 영향을 미친다. 양호한 값의 추정이 조립 전에 이루어질 수 있거나, 또는 작은 범위의 값을 시험함으로써 최적 값이 발견될 수 있다.
한 실시양태에서, 각각의 후보 융합 서열 리드는 기호의 문자열을 포함할 수 있다. 예를 들어, 문자열 s는 알파벳 A로부터 유래된 기호의 서열일 수 있다. s의 길이는 |s|로 표시된다. s의 하위 문자열은 s에서 발행하는 문자열이며: 이는 출발 위치 i 및 길이 l을 갖고, s(i,l)로 표시된다. 길이 l의 하위 문자열 또한 l-mer로 표시된다. 하기에서, A가 DNA 알파벳 A ={A,C,G,T}이고, 기호가 상보체를 갖는다고 가정하며: (A,T) 및 (C,G)는 상보적인 쌍이다. 역상보적인 문자열
Figure pct00001
는 s에서 상보적인 기호의 역서열이다. 표준 문자열
Figure pct00002
는 사전학적으로 가장 작은 s 및 그의 역상보체
Figure pct00003
이다. l-mer x의 최소화기는 g<l이고 y가 x에서 모든 g-mer 중에서 사전학적으로 가장 작은 것이도록 x에서 발생하는 g-mer y이다. 폴리-A g-mer가 시퀀싱 데이터에서 천연 발생하고, 종종 무작위 순서로 대체되기 때문에, 사전학적 순서는 사용하기 번거로울 수 있다. 무작위 순서를 수득하는 가장 간단한 방법은 x에서 각각의 g-mer에 대한 해시-값을 계산하고, 최소화기로서 가장 작은 해시-값을 갖는 g-mer를 선택하는 것이다. 한 실시양태에서, 무작위 순서에 의해 생성된 최소화기가 사용될 수 있다.
드 브루인 그래프 (dBG)는 방향성 그래프 G=(V,E)일 수 있으며, 여기서 각각의 정점 v∈V는 k-mer를 나타낸다. 각각 k-mer x 및 x'를 나타내는 정점 v에서 정점 v'까지 방향성 간선 e∈E는 x(2,k-1)=x'(1,k-1)인 경우 및 그러한 경우에만 존재한다. 각각의 k-mer x는 결합 연산자로서 a∈A 및 ⊙를 이용하여 G에서 |A| 가능한 후속자 x(2,k-1)⊙a 및 |A| 가능한 선행자 a⊙x(1,k-1)을 갖는다. dBG의 원래 조합 정의에서는, 알파벳 A에 대한 모든 가능한 k-mer가 그래프에 존재하는 반면에, 본 실시양태에서는, 정의가 입력에서 k-mer를 나타내는 드 브루인 그래프의 서브세트에 제한된다는 것을 주목한다. 그래프에서 경로는 별개의 연결된 정점의 서열이다 p=(v1,...,vm). 경로 p는 그의 모든 정점이 1 개 초과의 들어오는 간선을 가질 수 있는 헤드 정점 v1 및 1 개 초과의 나가는 간선을 가질 수 있는 꼬리 정점 vm을 제외하고 1의 내부- 및 외부-차수를 갖는 경우에 비분기이다. 비분기 경로는 분기없이 그래프에서 연장될 수 없는 경우에 최대이다. 간결화된 드 브루인 그래프 (cdBG)는 dBG로부터의 η 정점의 모든 최대 비분기 경로를 유니티그(unitig)로 지칭되는 단일 정점으로 병합하며, 길이 k+η-1의 워드로 표시된다. dBG 및 cdBG의 최소 예는 각각 도 9A 및 도 9B에 제공된다. 그래프 데이터 구조를 생성하기 위한 통상적인 기술에는 블룸(Bloom) 필터가 포함된다. 그러나, 한 요소에 상응하는 비트가 비트맵에 걸쳐 흩어져 있어서, 삽입 및 쿼리를 수행할 때 몇몇 CPU 캐시 누락을 일으키기 때문에, 블룸 필터 데이터 구조는 메모리 사용 및 시간 복잡성을 감소된 거짓 양성률 및 불량한 데이터 국소성으로 상쇄시킨다. 이들 기술적 제한을 극복하기 위해, 한 실시양태에서, 롤링 해시 기능을 이용하여 단일 k-mer 내에서 최소화기로서 g-mer를 선택할 수 있다. 중첩 k-mer가 최소화기를 공유할 수 있기 때문에, 오름차순 최소 접근법을 이용하여 상각된 O(1) 비용을 갖는 최소화기를 다시 계산할 수 있으며, 이로써 서열에서 인접한 k-mer의 최소화기를 통한 반복은 서열의 길이에서 선형이다. 구현될 수 있는 또 다른 최적화는 최소화기의 계산을 k-mer의 g-mer의 서브세트로 제한하는 것, 즉, 최소화기인 후보로서 첫번째 및 마지막 g-mer를 배제시키는 것이다. 이는 주어진 k-mer에 대해 그의 모든 정방향, 각각의 후방, 인접한 k-mer가 반드시 동일한 최소화기를 공유한다는 것을 보장한다. k-mer x 및 그의 이웃 x'가 최소화기를 공유할 가능성이 있지만, 이러한 이웃 해싱 접근법은 x의 모든 정방향, 각각의 후방, 이웃을 검색할 때, 이들 모두가 동일한 최소화기를 가질 것이고, 동일한 블록 내에 저장될 것이며, 따라서 캐시 누락을 최소화시키는 것을 보장한다.
한 실시양태에서, 그래프 데이터 구조 (예를 들어, dBG 또는 cdBG를 나타냄)는 인접 기술을 이용하여 메모리 서브시스템 (예를 들어, 도 21, 메모리 (2107))에 저장되며, 이는 각각의 정점이 저장된 메모리 (2107)에서 물리적 위치를 확인하기 위해 포인터를 포함할 수 있다. 한 실시양태에서, 그래프 데이터 구조는 인접 목록을 사용하여 메모리 (2107)에 저장된다. 일부 실시양태에서, 각각의 정점에 대한 인접 목록이 있다.
도 10은 정점 객체 (1005) 및 간선 객체 (1009)를 포함하는 그래프 데이터 구조 (1000)을 도시한다. 서열의 일부 (예를 들어, k-mer)는 블록으로서 확인되고, 이들 블록은 유형의 메모리 기기에 저장된 객체 (1005)로 변환된다. 이 객체가 1 바이트의 정보를 사용하여 잠재적으로 저장될 수 있음을 주목한다. 예를 들어, A=00, C=01, G=10, 및 T=11인 경우, 문자열 "AGTT"를 나타내는 블록은 00101111 (1 바이트)을 함유한다. 객체 (1005)는 연결되어, 각각의 후보 융합 서열에 대한 경로가 있도록 경로를 생성한다. 각각의 경로의 방향이 핵산의 5'에서 3' 방향성에 상응한다는 의미에서 경로는 방향성이 있다. 그러나, 서열을 3'에서 5' 방향으로 나타내는 것이 편리하거나 또는 바람직할 수 있으며, 그렇게 하는 것이 본 발명의 범위를 벗어나지 않는다는 점을 주목한다. 경로를 생성하는 연결은 블록이 정점 객체 (1005)로 표시되고 연결이 간선 객체 (1009)로 표시되도록 그 자체로 객체로서 구현될 수 있다. 따라서, 방향성 그래프는 유형의 메모리 기기에 저장된 정점 및 간선 객체를 포함한다. 원래의 후보 융합 서열 중 각각 하나가 해당 경로의 방향에서 경로를 판독함으로써 검색될 수 있다는 점에서, 그래프 데이터 구조 (1000)은 복수개의 후보 융합 서열을 나타낼 수 있다. 그러나, 그래프 데이터 구조 (1000)은 적어도 정렬될 때 서로 매칭되는 서열의 해당 부분에서 원래의 후보 융합 서열이 단일 객체로 변환된 상이한 물품이다. 후보 융합 서열 문자열은 정점 객체 (1005) 또는 간선 객체 (1009) 내에 저장될 수 있다 (노드 및 정점은 동의어로 사용됨). 본원에서 사용된 바와 같이, 노드 객체 (1005) 및 간선 객체 (1009)는 컴퓨터 시스템을 이용하여 생성된 객체를 지칭한다.
도 10은 각각의 정점 (1005)에 대한 인접 목록 (1001)의 사용을 추가로 도시한다. 개시된 방법 및 시스템은 인접, 예를 들어 인접 목록 또는 무색인 인접을 사용하여 정점 객체 (1005) 및 간선 객체 (1009)를 포함하는 그래프 데이터 구조 (1000)을 생성하기 위해 프로세서를 사용할 수 있다. 따라서, 프로세서는 무색인 인접을 사용하여 그래프 데이터 구조 (1000)을 생성할 수 있으며, 여기서 정점 (1005)는 그가 연결된 또 다른 정점 (1005)에 대한 포인터를 포함하며, 포인터는 연결된 정점이 저장된 메모리 기기 (1807)에서 물리적 위치를 확인시킨다. 그래프 데이터 구조 (1000)은 각각의 정점 또는 간선이 그가 인접한 이러한 객체의 목록을 저장하도록 인접 목록을 사용하여 구현될 수 있다. 각각의 인접 목록은 인접한 객체에 대한 메모리 기기 내에 특정한 물리적 위치에 대한 포인터를 포함한다.
그래프 데이터 구조 (1000)은 전형적으로 매우 빠른 횡단을 제공하는 방식으로 메모리 서브시스템 (1807)의 물리적 기기에 저장될 것이다. 이러한 의미에서, 도 10의 하단 부분은 객체가 메모리 서브시스템 (1807)의 유형의 부분의 특정한 물리적 위치에 저장됨을 나타낸다. 각각의 노드 (1005)는 물리적 위치에 저장되며, 상기 위치는 해당 노드를 참조하는 임의의 인접 목록 (1001)에서 포인터에 의해 참조된다. 각각의 노드 (1005)는 그래프 데이터 구조 (1000)에서 모든 인접한 노드를 포함하는 인접 목록 (1001)을 갖는다. 목록 (1001)에서 엔트리는 인접한 노드에 대한 포인터이다.
특정한 실시양태에서, 각각의 정점 및 간선에 대한 인접 목록이 있으며, 정점 또는 간선에 대한 인접 목록은 해당 정점 또는 간선이 인접한 간선 또는 정점을 나열한다.
도 11은 각각의 정점 (1005) 및 간선 (1009)에 대한 인접 목록 (1101)의 사용을 도시한다. 도 11에 도시된 바와 같이, 개시된 방법 및 시스템은 각각의 정점 및 간선에 대한 인접 목록 (1001)을 사용하여 그래프 데이터 구조 (1000)을 생성할 수 있으며, 정점 (1005) 또는 간선 (1009)에 대한 인접 목록 (1001)은 해당 정점 또는 간선이 인접한 간선 또는 정점을 나열한다. 인접 목록 (1101)에서 각각의 엔트리는 인접한 정점 또는 간선에 대한 포인터이다.
각각의 포인터는 인접한 객체가 저장된 메모리 서브시스템에서 물리적 위치를 확인시킨다. 바람직한 실시양태에서, 포인터 또는 네이티브 포인터는 메모리 상의 물리적 위치를 가리키고, 포인터 역참조에 의해 의도된 데이터에 대한 접근을 허용한다는 점에서 메모리 주소로서 조작가능하다. 즉, 포인터는 메모리 어딘가에 저장된 데이텀에 대한 참조이며; 해당 데이텀을 수득하는 것은 포인터를 역참조하는 것이다. 포인터를 다른 종류의 참조와 구분하는 특징은 포인터 값이 낮은 수준 또는 하드웨어 수준에서 메모리 주소로서 해석된다는 것이다. 이러한 그래프 표시는 신속한 무작위 접근, 변형, 및 데이터 검색을 위한 수단을 제공한다.
일부 실시양태에서, 신속한 무작위 접근이 지원되고, 모든 요소가 그의 인접한 요소에 대한 직접적인 포인터를 함유한다는 점에서 그래프 객체 저장은 무색인 인접으로 구현되며, 이는 색인 조회의 필요성을 없애고, 매우 빠르게 횡단이 가능하게 한다. 무색인 인접은 데이터 검색을 위한 낮은 수준 또는 하드웨어 수준의 메모리 참조의 또 다른 예이다. 구체적으로, 무색인 인접은 요소에 함유된 포인터가 메모리에서 물리적 위치에 대한 참조이도록 구현될 수 있다.
물리적 메모리 어드레싱, 예컨대 네이티브 포인터를 사용하는 기술적인 구현이 별도의 색인 테이블 또는 다른 중간 조회 단계의 필요성이 없이 가벼운 방식으로 데이터에 접근하고 그를 사용할 수 있기 때문에, 주어진 컴퓨터, 예를 들어 임의의 최신 소비자-등급 데스크탑 컴퓨터의 능력은 게놈-규모 그래프 (예를 들어 후보 융합 서열의 그룹을 나타내는 컨테이너 데이터 구조, 예컨대 그래프 데이터 구조 (1000))의 전체 작업을 가능하게 하는 것으로 확장된다. 따라서, 무색인 인접을 제공하는 네이티브 포인터 또는 다른 구현에 의해 객체의 라이브러리를 사용하는 그래프 요소 (예를 들어, 노드 및 간선)를 저장하는 것은 특정한 방식으로 컴퓨터의 물리적 메모리를 사용하기 때문에, 이는 게놈 정보에 대한 저장, 검색 및 정렬을 제공하는 기술의 능력을 실제로 개선시킨다.
한 실시양태에서, 오류 정정 절차는 주어진 패킷/컨테이너에서 후보 융합 서열 리드에 대해 수행될 수 있다. 오류 정정 절차는 비-융합 사건이 융합 사건으로 확인될 수 있을 가능성을 감소시키도록 설계된다. 한 실시양태에서, 염기의 임계치 수보다 크거나 그와 동일한 indel은 오류 정정 절차로부터 면제될 수 있다. 염기의 임계치 수는 20 내지 30 개 염기일 수 있다. 한 실시양태에서, 염기의 임계치 수는 24 개 염기일 수 있다. 도 12는 미스매치 또는 국소적인 차이 (예를 들어, 변이)를 기준 서열로부터의 상응하는 염기로 대체하는 것인 오류 정정 절차를 도시한다. 도 13은 염기의 임계치 수 내에서 기준 서열에 대해 정렬된 2 개의 후보 융합 서열 리드에 적용된 오류 정정 절차를 도시한다. 1 개의 후보 융합 서열 리드는 다수의 패딩 염기를 포함한다. 2 개의 후보 융합 서열 리드 사이의 갭은 갭과 동일한 위치에 있는 기준 서열로부터의 염기를 사용하여 채워질 수 있다. 한 실시양태에서, 패딩 염기는 유지될 수 있거나 또는 패딩 염기와 동일한 위치에 있는 기준 서열로부터의 염기로 대체될 수 있다. 다수의 패딩 염기가 2 개의 후보 융합 서열 리드에 삽입될 수 있으며, 이는 단일 리드로서 2 개의 후보 융합 서열 리드를 연결한다. 도 14는 임계치를 초과하는 정렬되지 않은 부분을 갖는 후보 융합 서열 리드를 폐기하는 오류 정정 절차를 도시한다. 예를 들어, 후보 융합 서열 리드의 임계치 백분율보다 크거나 또는 그와 동일한 정렬되지 않은 부분을 갖는 임의의 후보 융합 서열 리드는 제외될 수 있다. 한 실시양태에서, 임계치 백분율은 1% 내지 99%일 수 있다. 한 실시양태에서, 임계치 백분율은 10%일 수 있고, 이는 10% 이상의 정렬되지 않은 염기를 갖는 임의의 후보 융합 서열 리드가 폐기될 수 있음을 의미한다. 실제 결과는 소프트 클립핑된 염기를 포함하는 후보 융합 서열 리드의 제외일 수 있다. 도 15는 도 14의 오류 정정 절차를 추가로 설명하며, 여기서 임계치를 초과하는 정렬되지 않은 부분을 갖는 후보 융합 서열 리드는 제외된다.
각각의 패킷/컨테이너의 나머지 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것은 임의의 공지된 콘티그 조립 방법을 포함할 수 있다. 예를 들어, 정렬에 의한 조립은 서열 리드를 서로에 대해 정렬시킴으로써 또는 서열 리드를 기준에 대해 정렬시킴으로써 진행될 수 있다. 예를 들어, 각각의 리드를 차례로 기준 게놈에 대해 정렬시킴으로써, 모든 리드를 서로에 대한 관계로 위치하여 조립을 생성한다. 한 실시양태에서, 각각의 패킷에 대한 컨테이너 데이터 구조는 드 브루인 그래프를 나타내는 그래프 데이터 구조를 포함할 수 있고, 각각의 패킷의 후보 융합 서열 리드를 콘티그로 조립하는 것은 드 브루인 그래프를 선형화하여 각각의 패킷에 대한 콘티그를 출력하는 것을 수반한다. 예를 들어, 그리디(greedy) 알고리즘을 이용하여, 서열 리드에 의해 가장 많이 표시되는 드 브루인 그래프의 간선을 선택할 수 있다.
도 4로 돌아가서, 단계 (430)에서 후보 융합 사건의 결정은 각각의 패킷으로부터의 콘티그를 기준 서열에 대해 정렬시키고, 정렬에 기초하여, 하나 이상의 후보 융합 사건을 결정하는 것을 포함할 수 있다. 한 실시양태에서, 패킷으로부터의 콘티그를 기준 서열에 대해 정렬시킬 수 있고 (유인체에 의해), 패킷에 대한 후보 융합 서열 리드를 콘티그에 대해 정렬시킬 수 있다. 패킷에 대한 후보 융합 서열 리드는 패밀리로 클러스터화될 수 있다. 패밀리는 동일한 분자와 연관된 후보 융합 서열 리드를 포함할 수 있다. 패밀리는 분자 바코딩에 기초하여 결정될 수 있다. 동일한 분자 바코드를 함유하는 후보 융합 서열 리드는 동일한 패밀리로 그룹화될 수 있다. 한 실시양태에서, 동일한 분자 바코드를 함유하고, 정렬이 서로의 다수의 염기 (예를 들어, 30-50 개 염기) 내에서 시작하는 서열 리드는 동일한 패밀리로 그룹화될 수 있다. 하나 이상의 시험을 생성된 정렬에 적용하여, 후보 융합 사건을 결정할 수 있다. 하나 이상 시험은 풋프린트 시험 및/또는 스프레드 시험을 포함할 수 있다. 풋프린트 시험은 콘티그를 지원하는 후보 융합 서열 리드의 패밀리의 임계치 수가 중단점(들)에 걸쳐 있다는 것을 결정하는 것을 포함할 수 있다. 임계치는 예를 들어 2 내지 5 개 패밀리일 수 있다. 한 실시양태에서, 임계치는 2 개 패밀리일 수 있다. 한 실시양태에서, 임계치는 3 개 패밀리일 수 있고, 스프레드 시험은 스프레드의 임계치 양이 콘티그를 지원하고 중단점(들)에 걸쳐 있는 후보 융합 서열 리드의 적어도 2 개의 패밀리의 서열 리드 사이에 존재한다는 것을 결정하는 것을 포함할 수 있다. 한 실시양태에서, 스프레드 시험은 각각의 서열 리드를 콘티그에 대해 정렬시키는 것을 수반한다. 이어서, 각각의 서열 리드의 경우, 콘티그 상에서 첫번째 및 마지막 염기에 대한 시작 및 정지 좌표가 계산된다. 각각의 서열 리드에 대한 모든 시작 지점의 평균 및 표준 편차를 계산하여 평균 시작 지점 및 시작 표준 편차를 생성한다. 각각의 서열 리드에 대한 모든 정지 지점의 평균 및 표준 편차를 계산하여 평균 정지 지점 및 정지 표준 편차를 생성한다. 이어서, 스프레드는 시작 표준 편차와 정지 표준 편차 사이의 최소 또는 최저 표준 편차로서 정의될 수 있다. 따라서, 일부 실시양태에서, 표준 편차만이 스프레드 시험을 정의하는데 사용된다는 것을 이해한다. 스프레드 시험에 대한 임계치는 1-15 개 염기일 수 있다. 한 실시양태에서, 임계치는 8 개 염기일 수 있다. 스프레드가 8 개 미만인 경우, 융합은 스프레드 시험을 실패하고, 폐기된다. 한 실시양태에서, 임계치는 7 개 염기일 수 있다. 한 실시양태에서, 임계치는 6 개 염기일 수 있다. 한 실시양태에서, 임계치는 5 개 염기일 수 있다.
풋프린트 시험은 도 16에 도시된다. 도 16은 기준 서열 (1620)의 제1 부분 및 기준 서열 (1630)의 제2 부분에 대해 정렬된 콘티그 (1610)을 도시한다. 중단점 (1640)은 정렬된 부분들 사이에 존재한다. 콘티그를 지원하는 후보 융합 서열 리드는 후보 융합 서열 리드 (1650), 후보 융합 서열 리드 (1660), 후보 융합 서열 리드 (1670), 및 후보 융합 서열 리드 (1680)으로 표시된다. 후보 융합 서열 리드 (1650)은 제1 패밀리에 속하고, 후보 융합 서열 리드 (1660)은 제2 패밀리에 속하고, 후보 융합 서열 리드 (1670) 및 후보 융합 서열 리드 (1680)은 제3 패밀리에 속한다. 도 16에 도시된 바와 같이, 콘티그를 지원하는 후보 융합 서열 리드의 적어도 2 개의 패밀리는 중단점 (1640)에 걸쳐 있어서, 후보 융합 사건으로서 중단점 (1640)의 확인을 생성한다.
스프레드 시험은 도 17에 도시된다. 도시된 바와 같이, 각각의 서열 리드 (1650-1680)에 대해, 콘티그 (1610) 상에서 첫번째 염기 및 마지막 염기에 대한 시작 및 정지 좌표가 결정될 수 있다. 각각의 서열 리드 (1650-1680)에 대한 모든 시작 지점의 평균 및 표준 편차를 결정하여 평균 시작 지점 및 시작 표준 편차를 생성할 수 있다. 유사한 방식으로, 각각의 서열 리드 (1650-1680)에 대한 모든 정지 지점의 평균 및 표준 편차를 결정하여 평균 정지 지점 및 정지 표준 편차를 생성할 수 있다. 이어서, 스프레드 (1710, 1720)은 시작 표준 편차와 정지 표준 편차 사이의 최소 또는 최저 표준 편차로서 정의될 수 있다. 스프레드 시험에 대한 임계치는 1-15 개 염기일 수 있다. 한 실시양태에서, 임계치는 8 개 염기일 수 있다. 스프레드 (1710, 1720)이 8 개 미만인 경우, 융합은 스프레드 시험을 실패하고, 폐기된다. 한 실시양태에서, 임계치는 7 개 염기일 수 있다. 한 실시양태에서, 임계치는 6 개 염기일 수 있다.
도 4로 돌아가서, 단계 (440)에서 융합 사건의 결정은 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하고, 하나 이상의 기준의 적용에 기초하여, 하나 이상의 융합 사건을 결정하는 것을 포함할 수 있다. 하나 이상의 기준의 적용 후에 남아있는 임의의 후보 융합 사건은 융합 사건으로서 확인될 수 있다.
하나 이상의 기준은 예를 들어 프로브에 대한 후보 융합 사건의 근접성을 포함할 수 있다. 적어도 하나의 후보 융합 사건 (예를 들어, 중단점)은 샘플의 농축 단계에서 사용되는 프로브의 거리 내에 있어야 하며, 그렇지 않으면 후보 융합 사건은 폐기된다. 예를 들어, 거리는 250 내지 500 개 염기일 수 있다. 한 실시양태에서, 거리는 300 개 염기일 수 있다. 한 실시양태에서, 거리는 350 개 염기일 수 있다. 한 실시양태에서, 거리는 400 개 염기일 수 있다. 한 실시양태에서, 거리는 450 개 염기일 수 있다.
하나 이상의 기준은 예를 들어 화이트리스트의 적용을 포함할 수 있다. 유전자의 화이트리스트가 결정될 수 있다. 후보 융합 사건 (예를 들어, 중단점)이 화이트리스트의 유전자 중 하나와 연관이 없는 경우, 후보 융합 사건은 폐기된다.
하나 이상의 기준은 예를 들어 블랙리스트의 적용을 포함할 수 있다. 유전자의 블랙리스트가 결정될 수 있다. 후보 융합 사건 (예를 들어, 중단점)이 블랙리스트의 유전자 중 하나와 연관이 있는 경우, 후보 융합 사건은 폐기된다.
하나 이상의 기준은 예를 들어 특정한 indel을 필터링하는 것을 포함할 수 있다. 후보 융합 사건 (예를 들어, 중단점)이 인트론 영역에 완전히 내재된 indel인 경우, 후보 융합 사건은 폐기된다. 후보 융합 사건 (예를 들어, 중단점)이 결실이고 염기의 임계치 수보다 짧은 경우, 후보 융합 사건은 폐기된다. 염기의 임계치 수는 10 내지 100 개 염기일 수 있다. 한 실시양태에서, 염기의 임계치 수는 50 개 염기일 수 있다. 후보 융합 사건 (예를 들어, 중단점)이 결실이고 또 다른 결실의 임계치 거리 내에 있는 경우, 후보 융합 사건은 폐기된다. 임계치 거리는 10 내지 100 개 염기일 수 있다. 한 실시양태에서, 임계치 거리는 49 개 염기일 수 있다. 한 실시양태에서, 임계치 거리는 48 개 염기일 수 있다. 한 실시양태에서, 임계치 거리는 47 개 염기일 수 있다. 한 실시양태에서, 임계치 거리는 46 개 염기일 수 있다. 한 실시양태에서, 임계치 거리는 45 개 염기일 수 있다.
하나 이상의 기준은 예를 들어 분자 대 리드의 비가 임계치를 초과하고 이중 가닥 지원 분자 (이중 가닥 지원 분자는 각각의 가닥 상에 2 개 이상의 리드를 갖는 분자로 정의됨)가 없는지를 결정하는 것을 포함할 수 있다. 임계치는 .5 내지 .9일 수 있다. 한 실시양태에서, 임계치는 .8일 수 있다. 한 실시양태에서, 임계치는 .7일 수 있다. 한 실시양태에서, 임계치는 .6일 수 있다. 한 실시양태에서, 임계치는 .5일 수 있다. 후보 융합 사건과 연관된 비가 임계치보다 크고/거나 그와 동일한 경우, 후보 융합 사건은 폐기된다.
하나 이상의 기준은 예를 들어 후보 융합 사건이 스티칭 인공물임을 결정하는 것을 포함할 수 있다. 스티칭 인공물은 짧은 반복부를 가로질러 스티칭된 긴 분자 (인공 결실 사건 도입)일 수 있다. 스티칭 과정은 완벽한 반복부에서 긴 분자를 융합하여, 후보 융합 사건으로서 분류될 수 있는 스티칭 인공물을 생성할 수 있다. 도 3에 도시된 바와 같이, 2 개의 서열 리드 상의 이웃하는 완벽한 반복부는 긴 분자가 부정확하게 스티칭되게 할 수 있다. 이 문제를 다루기 위해, 중단점에 인접해 있는 기준 서열의 다수의 염기를 서로에 대해 정렬시킬 수 있고, 정렬 점수가 임계치 점수보다 크거나 그와 동일한 경우 후보 융합 사건은 폐기될 수 있다. 염기의 수는 80 내지 160 개일 수 있다. 한 실시양태에서, 염기의 수는 120 개일 수 있다. 임계치 점수는 60 내지 80일 수 있다. 한 실시양태에서, 임계치 점수는 70일 수 있다.
하나 이상의 기준은 예를 들어 후보 융합 사건이 주형 스위칭 인공물임을 결정하는 것을 포함할 수 있다. 주형 스위치는 서열 유사성으로 인해 서열 라이브러리 제조 동안에 발생하는 인공물이다. 이 문제는 스티칭 인공물과 유사하다. 2 개의 중단점을 중심으로 하는 기준의 다수의 염기를 서로에 대해 정렬시킬 수 있고, 정렬 점수가 임계치 점수보다 크거나 그와 동일한 경우 후보 융합 사건은 폐기될 수 있다. 임계치 점수는 10 내지 30일 수 있다. 한 실시양태에서, 임계치 점수는 20일 수 있다.
정렬 점수를 결정하는 것은 관련 기술분야에 널리 공지되어 있다. 서열 정렬은 두 서열 사이의 유사성을 확립하기 위해 알고리즘을 이용할 수 있다. 예를 들어, 양수는 서열의 각각의 일치에 대해 할당될 수 있고, 음수는 서열의 각각의 미스매치에 대해 할당될 수 있다. 이어서, 이들 수의 합계는 정렬 점수로서 사용될 수 있다. 기본 국소 정렬 검색 도구 (BLAST), MUSCLE, 모브(Mauve), MAFFT, 클러스털 오메가(Clustal Omega), 조턴 헤인(Jotun Hein), 윌버-립맨(Wilbur-Lipman), 마티네즈 니들만-운쉬(Martinez Needleman-Wunsch), 립맨-피어슨(Lipman-Pearson), 칼라인(Kalign), 엠뷰(MView), 및 엠보스 콘스(EMBOSS Cons)와 같은 프로그램을 이용하여 정렬 점수를 결정할 수 있다.
하나 이상의 기준은 예를 들어 후보 융합 사건이 적합한 수의 비-싱글톤 지원 분자를 함유한다는 것을 결정하는 것을 포함할 수 있다. 싱글톤 지원 분자는 1의 패밀리 크기를 갖는 서열 분자이며, 적합성 시험은 1 개 이상의 비-싱글톤 분자의 존재에 대해 또는 2 개 이상의 비-싱글톤 분자의 존재에 대해, 또는 예정된 수 이상의 비-싱글톤 분자의 존재에 대해 검토할 수 있다.
융합 사건을 결정하기 위해 상기 언급된 방법 및 시스템은 융합 사건의 결과일 수 있는 불일치 정렬을 확인하기 위해 기준 게놈에 대한 입력 리드의 정렬에만 의존하는 전형적인 기술과는 상이하다. 정렬에만 의존할 때, 융합 지원 리드가 잘못 정렬되면, 이는 하류에서 더 이상 복구될 수 없으며, 이로써 거짓 양성 융합 호출이 초래된다. 더욱이, 본 발명의 방법 및 시스템은 신속하고 정확하게 융합 사건을 확인할 수 있고, 이전의 시스템과 비교하여 시간 및 복잡성을 감소시킬 수 있다.
융합 검출은 종양학 도관의 중요한 측면이다. 종양은 그가 필요로 하는 유전자의 기능을 증강시키거나 또는 종양 억제자 유전자의 기능을 억제하기 위해 게놈의 일부를 재배열하는 것으로 공지되어 있다. 일부 약물은 특정한 융합에 의해 유도된 특정한 종양을 다루도록 특이적으로 설계된다. 이들 융합의 확인은 주어진 환자에 대한 치료 확인 및 치료 선택에 유의한 영향을 미친다.
기재된 방법 및 시스템은 대상체의 DNA 서열 정보 (DNA-SEQ) 및/또는 RNA 서열 정보 (RNA-SEQ) 데이터 세트에 기초하여 낮은 거짓-양성 유전자 융합 검출을 함유하는 임상적으로 관련있는 유전자 융합 데이터를 생성한다. 생성된 주석이 달린 유전자 융합 데이터는 임상적 및/또는 R&D 설정에서 사용될 수 있는 임상적으로 관련있는 정보 및 고특이성 유전자 융합 확인 (예를 들어, 낮은 거짓-양성)을 함유한다.
개시된 방법에서 결정된 정보 (예를 들어, 융합 사건의 확인)를 이용하는 방법이 개시된다. 예를 들어, 대상체에게 암 치료제를 투여하는 것을 포함하는, 대상체를 치료하는 방법이 개시되며, 대상체는 개시된 방법 중 하나 이상을 이용하여 융합 사건을 가진 것으로 결정되었다. 일부 측면에서, 대상체는 개시된 방법 중 하나 이상을 이용하여 융합 사건의 확인에 기초하여 암을 가진 것으로 결정되었다. 일부 측면에서, 암은 임의의 융합 사건과 연관된 암일 수 있다. 융합 사건과 연관된 암은 융합 사건에 의해 유발된 임의의 암일 수 있다. 예를 들어, 융합 사건과 연관된 암은 진행성 요로상피암, 전립선암, 유방암, 폐암, 결장암, 교모세포종, 간암, 또는 난소암일 수 있으나 이로 제한되지 않는다. 일부 측면에서, 암 치료제는 특이적인 암을 치료하기 위해 사용되는 공지된 암 치료제일 수 있다. 예를 들어, 대상체가 FGFR2/3 융합 사건을 갖는 것으로 결정되면, FDA-승인된 약물인 에르다피티닙을 대상체에게 투여할 수 있다. 따라서, 일부 측면에서, 암 치료제는 융합 사건에 대해 특이적이다. 융합 사건에 대해 특이적인 암 치료제는 특이적인 융합 사건과 연관이 있는 암을 효과적으로 치료하는 것으로 이전에 결정된 암 치료제일 수 있다.
일부 측면에서, 대상체는 (융합 사건에 대한 지식 이전에) 암을 갖는 것으로 사전에 진단될 수 있고, 이어서 개시된 방법을 이용하는 융합 사건의 확인시, 특이적인 암 치료제가 대상체에게 투여될 수 있다. 따라서, 개시된 방법을 이용하는 융합 사건의 확인은 개별화된 의약을 가능하게 할 수 있다.
개시된 방법 및 시스템의 성능 평가는 대용물에 의존하여 수행되었다. 대용물에는 AV 샘플 및 건강한 공여자로부터의 샘플이 포함된다. 융합 호출자 기능을 갖는 기존 생성 파이프라인 소프트웨어 패키지는 (새로운 호출자로서가 아니라) 선택된 융합 사건 세트에 대해 철저히 시험하였다. 압퓨전의 민감성은 융합 호출자 기능의 민감성과 비교가능하지만, 매우 제한된 세트의 융합 사례에만 의존한다.
한 예에서, 새로운 융합 호출자를 사용하여 임상적 cfDNA로부터의 FGFR2/3 융합을 확인할 수 있다. FGFR2/3 재배열은 특히 진행성 요로상피암 (aUC)에서 FDA-승인된 에르다피티닙에 의한 치료제 표적이다. 액체 생검은 이들 융합을 확인하기 위한 매력적인 비침습적인 방법이지만, cfDNA에서의 검출은 낮은 종양 배출 수준, 짧은 분자, 및 유전자 파트너의 광범위한 변이로 인해 기술적으로 어렵다. 이를 다루기 위해, 새로운 융합 호출자가 사용되었다. 혼합된 암 유형을 갖는 17,718 명의 환자의 코호트 (795 명의 aUC 환자, 뿐만 아니라 유방암, 담관암종, 결장직장암 및 위암 포함), 및 cfDNA NGS-기반 검정에 대해 이전에 시험한 276 명의 건강한 대조군 샘플을 새로운 융합 호출자를 사용하여 다시 분석하였다. 고유한 분자 범위 중간값은 15,000x 리드 깊이로 시퀀싱된 대략 3,000 개의 분자였다. 신규한 알고리즘을 이용하여 인실리코에서 샘플을 다시 분석하였으며: 간략히, 후보 융합 중단점에 대해 정렬된 리드를 드 브루인 그래프로 조립하였다. 생성된 콘티그는 기준에 대해 정렬되었고, 필터를 적용하여 기술적 인공물을 제거하였다. 혼합된 암 코호트에서 대부분의 FGFR2 (85%) 및 FGFR3 융합 파트너 (66%)는 단 한 번만 관찰되었으며 (도 18), 이는 이전의 보고와 일치한다. FGFR3-TACC3은 가장 흔한 융합이었고, FGFR3 융합-양성 환자의 59%에서 발생하였다. FGFR2 융합 양성 환자의 36%에서, 새로운 호출자 검출된 파트너는 이전에 기재되지 않았다. aUC 코호트에서, FGFR3 융합은 환자의 3.1%에서 검출되었고, 8/10 (80%)의 파트너 유전자/유전자간 영역은 단지 한 번만 발생하였으며, 이는 이전의 보고와 일치한다 (도 19). 276 명의 건강한 대조군 샘플에서는 융합이 확인되지 않았다. 혼합된 암 코호트에서, 이들 융합을 가진 환자에서 농축된 FGFR2 융합과 공동 발생하는 공통 돌연변이는 FGFR2 N549K (7.1%), FGFR2 N549D (3.2%), 및 FGFR2 V564I (2.6%)이었고; 이들 융합을 가진 환자에서 농축된 FGFR3 융합과 공동 발생하는 공통 돌연변이는 KRAS Q61H를 포함하였고, 이는 FGFR3 융합을 가진 환자의 30.6%에서 관찰되었다 도 20. 따라서, 조직 검사에 대한 이전의 보고와 비교가능한 aUC 환자로부터의 cfDNA에서 관찰된 FGFR3 융합 발생률은 혈장-기반 NGS를 갖는 표적화가능한 게놈 재배열을 포착하는 기능을 입증한다. 고도로 특이적인 조립-기반의 새로운 융합 호출자에 의해 검출된 FGFR2/3 융합 파트너는 이종성이고 개별적으로 드물었으며, 이는 새로운 접근법의 중요성을 강조한다.
도 21은 네트워크 (2103)을 통해 연결된 컴퓨팅 기기 (2101) 및 서버 (2102)의 비제한적인 예를 포함하는 환경 (2100)을 도시하는 블록 다이어그램이다. 한 측면에서, 임의의 기재된 방법의 일부 또는 모든 단계는 본원에 기재된 컴퓨팅 기기에서 수행될 수 있다. 컴퓨팅 기기 (2101)은 융합 호출자 모듈 (2104), 서열 데이터 (2105) (예를 들어, 서열 리드, 콘티그, 기준 서열, 기준, 컨테이너 데이터 구조, 그래프 데이터 구조 등) 등 중 하나 이상을 저장하도록 구성된 1 개 또는 다중 컴퓨터를 포함할 수 있다. 서버 (2102)는 원격 접근을 위해 융합 호출자 모듈 (2104), 서열 데이터 (2105) (예를 들어, 서열 리드, 콘티그, 기준 서열, 기준 등) 등을 저장하도록 구성된 1 개 또는 다중 컴퓨터를 포함할 수 있다. 다중 서버 (2102)는 네트워크 (2103)을 통해 컴퓨팅 기기 (2101)과 통신할 수 있다.
컴퓨팅 기기 (2101) 및 서버 (2102)는 하드웨어 아키텍쳐의 관점에서 일반적으로 프로세서 (2106), 메모리 시스템 (2107), 입력/출력 (I/O) 인터페이스 (2108), 및 네트워크 인터페이스 (2109)를 포함하는 디지털 컴퓨터일 수 있다. 이들 구성요소 (2106, 2107, 2108, 및 2109)는 로컬 인터페이스 (2110)을 통해 통신가능하게 연결된다. 로컬 인터페이스 (2110)은 예를 들어 관련 기술분야에 공지된 하나 이상의 버스 또는 다른 유선 또는 무선 연결일 수 있으나 이로 제한되지 않는다. 로컬 인터페이스 (2110)은 단순성을 위해 생략된 통신을 가능하게 하는 추가의 요소, 예컨대 제어기, 버퍼 (캐시), 드라이버, 중계기 및 수신기를 가질 수 있다. 추가로, 로컬 인터페이스는 상기 언급된 구성요소들 사이의 적절한 통신을 가능하게 하도록 주소, 제어 및/또는 데이터 연결을 포함할 수 있다.
프로세서 (2106)은 특히 메모리 시스템 (2107)에 저장된 소프트웨어를 실행하기 위한 하드웨어 기기일 수 있다. 프로세서 (2106)은 임의의 주문 제작식 또는 상업적으로 입수가능한 프로세서, 중앙 처리 장치 (CPU), 컴퓨팅 기기 (2101) 및 서버 (2102)와 연관된 몇몇 프로세서 중 보조 프로세서, 반도체-기반 마이크로프로세서 (마이크로칩 또는 칩 세트의 형태), 또는 일반적으로 소프트웨어 명령을 실행하기 위한 임의의 기기일 수 있다. 컴퓨팅 기기 (2101) 및/또는 서버 (2102)가 작업 중일 때, 프로세서 (2106)은 메모리 시스템 (2107)에 저장된 소프트웨어를 실행하고, 메모리 시스템 (2107)과 데이터를 주고 받으며 통신하고, 일반적으로 소프트웨어에 따라 컴퓨팅 기기 (2101) 및 서버 (2102)의 작업을 제어하도록 구성될 수 있다.
I/O 인터페이스 (2108)을 사용하여, 하나 이상의 기기 또는 구성요소로부터 사용자 입력을 수신하고/거나 그에게 시스템 출력을 제공할 수 있다. 사용자 입력은 예를 들어 키보드 및/또는 마우스를 통해 제공될 수 있다. 시스템 출력은 디스플레이 기기 및 프린터 (도시되지 않음)를 통해 제공될 수 있다. I/O 인터페이스 (2108)에는 예를 들어 시리얼 포트, 병렬 포트, 소형 컴퓨터 시스템 인터페이스 (SCSI), 적외선 (IR) 인터페이스, 무선 주파수 (RF) 인터페이스, 및/또는 유니버셜 시리얼 버스 (USB) 인터페이스가 포함될 수 있다.
네트워크 인터페이스 (2109)를 사용하여, 네트워크 (2103) 상의 컴퓨팅 기기 (2101) 및/또는 서버 (2102)로부터 송신 및 수신할 수 있다. 네트워크 인터페이스 (2109)에는 예를 들어 10BaseT 이더넷 어댑터(Ethernet Adaptor), 100BaseT 이더넷 어댑터, LAN PHY 이더넷 어댑터, 토큰 링 어댑터(Token Ring Adaptor), 무선 네트워크 어댑터 (예를 들어, WiFi, 셀룰러, 위성), 또는 임의의 다른 적합한 네트워크 인터페이스 기기가 포함될 수 있다. 네트워크 인터페이스 (2109)는 네트워크 (2103) 상에서 적절한 통신을 가능하게 하도록 주소, 제어 및/또는 데이터 연결을 포함할 수 있다.
메모리 시스템 (2107)은 휘발성 메모리 요소 (예를 들어, 무작위 접근 메모리 (RAM, 예컨대 DRAM, SRAM, SDRAM 등)) 및 비휘발성 메모리 요소 (예를 들어, ROM, 하드 드라이브, 테이프, CDROM, DVDROM 등) 중 어느 하나 또는 이들의 조합을 포함할 수 있다. 더욱이, 메모리 시스템 (2107)은 전자, 자기, 광학 및/또는 다른 유형의 저장 매체를 포함할 수 있다. 메모리 시스템 (2107)은 다양한 구성요소가 서로 멀리 떨어져 위치하지만, 프로세서 (2106)에 의해 접근될 수 있는 분산 아키텍쳐를 가질 수 있음을 주목한다.
메모리 시스템 (2107)에서 소프트웨어는 하나 이상의 소프트웨어 프로그램을 포함할 수 있고, 이들 각각은 논리적 기능을 구현하기 위한 실행가능한 명령의 순서화된 목록을 포함한다. 도 21의 예에서, 컴퓨팅 기기 (2101)의 메모리 시스템 (2107)에 있는 소프트웨어는 융합 호출자 모듈 (2104) (또는 그의 하위 구성요소), 서열 데이터 (2105), 및 적합한 운영 체제 (O/S) (2111)을 포함할 수 있다. 운영 체제 (2111)은 본질적으로 다른 컴퓨터 프로그램의 실행을 제어하고, 스케줄링, 입력-출력 제어, 파일 및 데이터 관리, 메모리 관리, 및 통신 제어 및 관련 서비스를 제공한다.
예시의 목적을 위해, 어플리케이션 프로그램 및 다른 실행가능한 프로그램 구성요소, 예컨대 운영 체제 (2111)은 개별 블록으로서 본원에 예시되지만, 이러한 프로그램 및 구성요소가 컴퓨팅 기기 (2101) 및/또는 서버 (2102)의 상이한 저장 구성요소에서 여러 번 존재할 수 있는 것으로 인식된다. 융합 호출자 모듈 (2104)의 구현은 컴퓨터 판독가능한 매체의 일부 형태에 저장되거나 또는 그를 거쳐 전송될 수 있다. 개시된 임의의 방법은 컴퓨터 판독가능한 매체에서 구현되는 컴퓨터 판독가능한 명령에 의해 수행될 수 있다. 컴퓨터 판독가능한 매체는 컴퓨터에 의해 접근될 수 있는 임의의 이용가능한 매체일 수 있다. 예를 들어 비제한적으로, 컴퓨터 판독가능한 매체는 "컴퓨터 저장 매체" 및 "통신 매체"를 포함할 수 있다. "컴퓨터 저장 매체"는 정보, 예컨대 컴퓨터 판독가능한 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비-휘발성, 제거가능한 및 제거 불가능한 매체를 포함할 수 있다. 예시적인 컴퓨터 저장 매체는 원하는 정보를 저장하기 위해 사용될 수 있고 컴퓨터에 의해 접근될 수 있는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다목적 디스크 (DVD) 또는 다른 광학 저장, 자기 카세트, 자기 테이프, 자기 디스크 저장 또는 다른 자기 저장 기기, 또는 임의의 다른 매체를 포함할 수 있다.
한 실시양태에서, 도 22에 도시된 바와 같이, 융합 호출자 모듈 (2104)는 서열 데이터 (2105)에 접근하고 방법 (2200)을 수행하도록 구성될 수 있다. 방법 (2200)은 단일 컴퓨팅 기기, 복수개의 전자 기기 등에 의해 전체적으로 또는 부분적으로 수행될 수 있다. 방법 (2200)은 단계 (2201)에서 복수개의 서열 리드를 기준 서열에 대해 정렬시키는 것을 포함할 수 있다.
방법 (2200)은 단계 (2202)에서 기준 서열에 대한 복수개의 서열 리드의 적어도 하나의 서열 리드의 정렬에서 1 개 이상의 중단점을 결정하는 것을 포함할 수 있다.
방법 (2200)은 단계 (2203)에서 후보 융합 서열 리드로서 정렬에서 1 개 이상의 중단점과 연관된 임의의 서열 리드를 확인하는 것을 포함할 수 있다. 후보 융합 서열 리드로서 정렬에서 1 개 이상의 중단점과 연관된 임의의 서열 리드를 확인하는 것은 임계치 미만의 맵핑가능성 점수를 갖는 정렬을 폐기하는 것을 포함할 수 있다. 후보 융합 서열 리드로서 정렬에서 1 개 이상의 중단점과 연관된 임의의 서열 리드를 확인하는 것은 논리적인 정렬을 폐기하는 것을 포함할 수 있다.
방법 (2200)은 단계 (2204)에서 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것을 포함할 수 있다. 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 동일한 염색체에서 및 동일한 배향에서 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 동일한 위치에서 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 위치로부터 염기의 임계치 수 내에 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 위치로부터 염기의 임계치 수는 예를 들어 1-40 개 염기일 수 있다. 한 실시양태에서, 위치로부터 염기의 임계치 수는 10 개 염기일 수 있다. 한 실시양태에서, 위치로부터 염기의 임계치 수는 11 개 염기일 수 있다. 한 실시양태에서, 위치로부터 염기의 임계치 수는 12 개 염기일 수 있다. 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 동일한 염색체에서 및 동일한 배향에서 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 동일한 위치에서 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 복수개의 위치로부터의 염기의 임계치 수 내에 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 복수개의 위치로부터의 염기의 임계치 수는 예를 들어 1-40 개 염기일 수 있다. 한 실시양태에서, 복수개의 위치로부터의 염기의 임계치 수는 10 개 염기일 수 있다. 한 실시양태에서, 복수개의 위치로부터의 염기의 임계치 수는 11 개 염기일 수 있다. 한 실시양태에서, 복수개의 위치로부터의 염기의 임계치 수는 12 개 염기일 수 있다. 한 실시양태에서, 복수개의 위치로부터의 염기의 임계치 수는 13 개 염기일 수 있다. 한 실시양태에서, 복수개의 위치로부터의 염기의 임계치 수는 14 개 염기일 수 있다. 한 실시양태에서, 복수개의 위치로부터의 염기의 임계치 수는 15 개 염기일 수 있다.
방법 (2200)은 단계 (2205)에서 1 개 이상의 공통 중단점에 기초하여 후보 융합 서열 리드를 그룹화하는 것을 포함할 수 있다. 1 개 이상의 공통 중단점에 기초하여 후보 융합 서열 리드를 그룹화하는 것은 (예를 들어, 각각의 그룹에 대해) 그룹에 대한 드 브루인 그래프를 생성하는 것을 포함할 수 있다.
방법 (2200)은 단계 (2206)에서 (예를 들어, 각각의 그룹에 대해) 그룹에서 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것을 포함할 수 있다. 그룹에서 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것은 각각의 드 브루인 그래프를 선형화하여 그룹에 대해 콘티그를 생성하는 것을 포함할 수 있다. 그룹에서 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것은 하나 이상의 오류 정정 절차를 수행하는 것을 포함할 수 있다. 하나 이상의 오류 정정 절차는 후보 융합 서열 리드와 기준 서열 사이의 미스매치를 해결하는 것을 포함할 수 있다. 하나 이상의 오류 정정 절차는 적어도 2 개의 후보 융합 서열 리드 사이에 패딩을 삽입하는 것을 포함할 수 있다. 하나 이상의 오류 정정 절차는 임계치를 초과하는 정렬되지 않은 부분을 갖는 1 개 이상의 후보 융합 서열 리드를 폐기하는 것을 포함할 수 있다.
방법 (2200)은 단계 (2207)에서 (예를 들어, 각각의 그룹에 대해) 그룹으로부터의 콘티그를 기준 서열에 대해 정렬시키는 것을 포함할 수 있다.
방법 (2200)은 단계 (2208)에서 (예를 들어, 각각의 그룹에 대해) 그룹으로부터의 콘티그의 정렬에 기초하여, 하나 이상의 후보 융합 사건을 결정하는 것을 포함할 수 있다. 그룹으로부터의 콘티그의 정렬에 기초하여, 하나 이상의 후보 융합 사건을 결정하는 것은 풋프린트 시험 또는 스프레드 시험 중 하나 이상을 적용하는 것을 포함할 수 있다. 풋프린트 시험을 적용하는 것은 콘티그를 지원하는 후보 융합 서열 리드의 패밀리의 임계치 수가 중단점(들)에 걸쳐 있다는 것을 결정하는 것을 포함할 수 있다. 스프레드 시험을 적용하는 것은 스프레드의 임계치 양이 콘티그를 지원하고 중단점(들)에 걸쳐 있는 후보 융합 서열 리드의 적어도 2 개의 패밀리 사이에 존재한다는 것을 결정하는 것을 포함한다.
방법 (2200)은 단계 (2209)에서 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것을 포함할 수 있다.
하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해 (예를 들어, 각각의 후보 융합 사건에 대해), 1 개 이상의 정렬된 콘티그의 중단점과 패널의 적어도 1 개의 프로브의 위치 사이의 거리를 결정하고, 임계치 미만의 패널의 적어도 1 개의 프로브의 위치로부터의 거리로 중단점을 함유하지 않는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함할 수 있다. 예를 들어, 거리는 1-1,000 개 염기일 수 있다. 한 실시양태에서, 거리는 350 개 염기일 수 있다. 후보 융합 사건이 결정되는 서열 리드 (단계 (2201))는 패널에 대해 농축된 DNA로부터 유래될 수 있다.
하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 1 개 이상의 관심 유전자를 결정하고, 1 개 이상의 관심 유전자와 연관된 중단점을 함유하지 않는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함할 수 있다.
하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점이 결실임을 결정하고, 또 다른 결실로부터 떨어져 있는 다수의 염기 내에 위치하는 결실을 포함하는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함할 수 있다.
하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점이 결실임을 결정하고, 임계치 미만의 다수의 염기를 포함하는 결실을 포함하는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함할 수 있다.
하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 인트론 영역에 완전히 매립된 삽입 또는 결실을 포함하는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함할 수 있다.
하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그에 대해, 분자 대 리드의 비를 결정하고, 임계치 초과의 분자 대 리드의 비와 연관이 있고 이중 가닥 지원 분자와는 연관이 없는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함할 수 있다.
하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점 쌍에 대해, 중단점 쌍의 중단점에 인접해 있는 서열을 결정하고, 중단점 쌍의 중단점에 인접해 있는 서열을 정렬시키고, 중단점 쌍의 중단점에 인접해 있는 서열의 정렬에 대한 정렬 점수를 결정하고, 임계치를 초과하는 정렬 점수에 기초하여 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함할 수 있다.
하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것은 후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점 쌍에 대해, 중단점 쌍의 중단점에 중심을 둔 서열을 결정하고, 중단점에 중심을 둔 서열을 서로에 대해 정렬시키고, 중단점에 중심을 둔 서열의 정렬에 대한 정렬 점수를 결정하고, 임계치를 초과하는 정렬 점수에 기초하여 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함할 수 있다.
방법 (2200)은 단계 (2210)에서 하나 이상의 후보 융합 사건에 대한 하나 이상의 기준의 적용에 기초하여, 하나 이상의 융합 사건을 결정하는 것을 포함할 수 있다. 임의의 나머지 후보 융합 사건은 하나 이상의 융합 사건으로서 결정될 수 있다.
한 실시양태에서, 도 23에 도시된 바와 같이, 융합 호출자 모듈 (2104)는 서열 데이터 (2105)에 접근하고 방법 (2300)을 수행하도록 구성될 수 있다. 방법 (2300)은 단일 컴퓨팅 기기, 복수개의 전자 기기 등에 의해 전체적으로 또는 부분적으로 수행될 수 있다. 방법 (2300)은 단계 (2310)에서 복수개의 서열 리드를 기준 서열에 대해 정렬시키는 것을 포함할 수 있다.
방법 (2300)은 (단계 2320)에서 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것을 포함할 수 있다. 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 동일한 염색체에서 및 동일한 배향에서 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 동일한 위치에서 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 위치로부터 염기의 임계치 수 내에 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 위치로부터 염기의 임계치 수는 예를 들어 1-40 개 염기일 수 있다. 한 실시양태에서, 위치로부터 염기의 임계치 수는 10 개 염기일 수 있다. 한 실시양태에서, 위치로부터 염기의 임계치 수는 11 개 염기일 수 있다. 한 실시양태에서, 위치로부터 염기의 임계치 수는 12 개 염기일 수 있다. 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 동일한 염색체에서 및 동일한 배향에서 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 동일한 위치에서 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것은 2 개의 후보 융합 서열 리드가 복수개의 위치로부터의 염기의 임계치 수 내에 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함할 수 있다. 복수개의 위치로부터의 염기의 임계치 수는 예를 들어 1-40 개 염기일 수 있다. 한 실시양태에서, 위치로부터 염기의 임계치 수는 10 개 염기일 수 있다. 한 실시양태에서, 위치로부터 염기의 임계치 수는 11 개 염기일 수 있다. 한 실시양태에서, 복수개의 위치로부터의 염기의 임계치 수는 12 개 염기일 수 있다.
방법 (2300)은 단계 (2330)에서 1 개 이상의 공통 중단점에 기초하여, 1 개 이상의 후보 융합 서열 리드를 1 개 이상의 컨테이너 데이터 구조로 그룹화하는 것을 포함할 수 있다. 상이한 정렬로부터의 중단점은 공통 컨테이너 데이터 구조에 할당될 수 있다. 드 브루인 그래프 기술에 따라 1 개 이상의 컨테이너 데이터 구조로 1 개 이상의 후보 융합 서열 리드.
방법 (2300)은 단계 (2340)에서 컨테이너 데이터 구조에 대해 (예를 들어, 각각의 컨테이너 데이터 구조에 대해), 1 개 이상의 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것을 포함할 수 있다. 1 개 이상의 후보 융합 리드를 1 개 이상의 콘티그로 조립하는 것은 컨테이너 데이터 구조에 대해 (예를 들어, 각각의 컨테이너 데이터 구조에 대해), 1 개 이상의 후보 융합 서열 리드를 그래프 데이터 구조로 조립하고, 그래프 데이터 구조를 선형화하여 1 개 이상의 콘티그를 생성하는 것을 포함할 수 있다. 1 개 이상의 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것은 하나 이상의 오류 정정 절차를 수행하는 것을 포함할 수 있다. 하나 이상의 오류 정정 절차는 후보 융합 서열 리드와 기준 서열 사이의 미스매치를 해결하는 것을 포함할 수 있다. 하나 이상의 오류 정정 절차는 2 개 이상의 후보 융합 서열 리드 사이에 패딩을 삽입하는 것을 포함할 수 있다. 하나 이상의 오류 정정 절차는 임계치를 초과하는 정렬되지 않은 부분을 갖는 1 개 이상의 후보 융합 서열 리드를 폐기하는 것을 포함할 수 있다.
방법 (2300)은 단계 (2350)에서 컨테이너 데이터 구조에 대해 (예를 들어, 각각의 컨테이너 데이터 구조에 대해), 1 개 이상의 콘티그를 기준 서열에 대해 정렬시키는 것을 포함할 수 있다. 방법 (2300)은 컨테이너 데이터 구조로부터의 콘티그의 정렬에 기초하여, 하나 이상의 후보 융합 사건을 결정하는 것이 풋프린트 시험 또는 스프레드 시험 중 하나 이상을 적용하는 것을 포함할 수 있다는 것을 추가로 포함할 수 있다. 풋프린트 시험을 적용하는 것은 콘티그를 지원하는 후보 융합 서열 리드의 패밀리의 임계치 수가 중단점(들)에 걸쳐 있다는 것을 결정하는 것을 포함할 수 있다. 스프레드 시험을 적용하는 것은 스프레드의 임계치 양이 콘티그를 지원하고 중단점(들)에 걸쳐 있는 후보 융합 서열 리드의 적어도 2 개의 패밀리 사이에 존재한다는 것을 결정하는 것을 포함한다.
방법 (2300)은 단계 (2360)에서 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것을 포함할 수 있다. 임의의 나머지 후보 융합 사건은 하나 이상의 융합 사건으로서 결정될 수 있다. 하나 이상의 기준에 기초하여, 하나 이상의 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것은 1 개 이상의 정렬된 콘티그의 중단점과 패널의 적어도 1 개의 프로브의 위치 사이의 거리를 결정하고, 임계치 미만의 패널의 적어도 1 개의 프로브의 위치로부터의 거리로 중단점을 함유하지 않는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함할 수 있다. 예를 들어, 거리는 1-1,000 개 염기일 수 있다. 한 실시양태에서, 거리는 350 개 염기일 수 있다. 후보 융합 사건이 결정되는 서열 리드 (단계 (2310))는 패널에 대해 농축된 DNA로부터 유래될 수 있다. 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것은 1 개 이상의 관심 유전자를 결정하고, 1 개 이상의 관심 유전자와 연관된 중단점을 함유하지 않는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함할 수 있다. 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것은 1 개 이상의 정렬된 콘티그의 중단점이 결실임을 결정하고, 또 다른 결실로부터 떨어져 있는 다수의 염기 내에 위치하는 결실을 포함하는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함할 수 있다. 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것은 1 개 이상의 정렬된 콘티그의 중단점이 결실임을 결정하고, 임계치 미만의 다수의 염기를 포함하는 결실을 포함하는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함할 수 있다. 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것은 인트론 영역에 완전히 매립된 삽입 또는 결실을 포함하는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함할 수 있다. 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것은 1 개 이상의 정렬된 콘티그에 대해, 분자 대 리드의 비를 결정하고, 임계치 초과의 분자 대 리드의 비와 연관이 있고 이중 가닥 지원 분자와는 연관이 없는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함할 수 있다. 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것은 1 개 이상의 정렬된 콘티그의 중단점 쌍에 대해, 중단점 쌍의 중단점에 인접해 있는 서열을 결정하고, 중단점 쌍의 중단점에 인접해 있는 서열을 정렬시키고, 중단점 쌍의 중단점에 인접해 있는 서열의 정렬에 대한 정렬 점수를 결정하고, 임계치를 초과하는 정렬 점수에 기초하여 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함할 수 있다. 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것은 1 개 이상의 정렬된 콘티그의 중단점의 쌍에 대해, 중단점 쌍의 중단점에 중심을 둔 서열을 결정하고, 중단점에 중심을 둔 서열을 서로에 대해 정렬시키고, 중단점에 중심을 둔 서열의 정렬에 대한 정렬 점수를 결정하고, 임계치를 초과하는 정렬 점수에 기초하여 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함할 수 있다.
방법 (2300)은 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것에 기초하여, 라이브러리 제조와 연관된 문제를 나타내는 통보를 생성하는 것을 추가로 포함할 수 있다.
구체적인 구성이 기재되었지만, 본원에서의 구성이 제한적인 것이 아니라 모든 측면에서 가능한 구성인 것으로 의도되기 때문에, 제시된 특정한 구성으로 범위가 제한되는 것으로 의도되지 않는다. 달리 명확하게 명시되지 않는다면, 어떠한 방식으로도 본원에 제시된 임의의 방법은 그의 단계가 구체적인 순서로 수행되는 것을 필요로 하는 것으로 해석되는 것으로 의도되지 않는다. 따라서, 방법 청구항이 실제로 그의 단계가 뒤따르는 순서로 인용되지 않거나 또는 단계가 구체적인 순서로 제한된다고 청구항 및 명세서에서 구체적으로 명시되지 않는다면, 어떠한 방식으로도 임의의 측면에서 순서가 추론되는 것으로 의도되지 않는다. 이는 하기를 비롯한 해석에 대한 임의의 가능한 비-표현 기준을 위해 유지된다: 단계 또는 작업 흐름의 배열과 관련한 논리의 문제; 문법적 구성 또는 구두법으로부터 유래된 평이한 의미; 명세서에 기재된 구성의 수 또는 유형.
다양한 변형 및 변화가 범위 또는 개념을 벗어나지 않고 이루어질 수 있음이 관련 기술분야의 기술자에게 자명할 것이다. 본원에 기재된 명세서 및 실시를 고려하여 다른 구성이 관련 기술분야의 기술자에게 자명할 것이다. 명세서 및 기재된 구성은 단지 예시적인 것으로 고려되는 것으로 의도되며, 진정한 범위 및 개념은 하기 청구항에 의해 나타내어 진다.

Claims (61)

  1. 복수개의 서열 리드를 기준 서열에 대해 정렬시키고;
    기준 서열에 대한 복수개의 서열 리드의 복수개의 서열 리드의 정렬에서 1 개 이상의 중단점을 결정하고;
    후보 융합 서열 리드로서 정렬에서 1 개 이상의 중단점과 연관된 임의의 서열 리드를 확인하고;
    1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하고;
    1 개 이상의 공통 중단점에 기초하여 후보 융합 서열 리드를 그룹화하고;
    그룹에서 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하고;
    복수개의 그룹의 그룹으로부터의 콘티그를 기준 서열에 대해 정렬시키고;
    그룹으로부터의 콘티그의 정렬에 기초하여, 하나 이상의 후보 융합 사건을 결정하고;
    하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하고;
    하나 이상의 후보 융합 사건에 대한 하나 이상의 기준의 적용에 기초하여, 하나 이상의 융합 사건을 결정하는 것을 포함하는 방법.
  2. 제1항에 있어서, 후보 융합 서열 리드로서 정렬에서 1 개 이상의 중단점과 연관된 임의의 서열 리드를 확인하는 것이 임계치 미만의 맵핑가능성 점수를 갖는 정렬을 폐기하는 것을 포함하는 것인 방법.
  3. 제1항 또는 제2항에 있어서, 후보 융합 서열 리드로서 정렬에서 1 개 이상의 중단점과 연관된 임의의 서열 리드를 확인하는 것이 논리적인 정렬을 폐기하는 것을 포함하는 것인 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 동일한 염색체에서 및 동일한 배향에서 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 동일한 위치에서 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 위치로부터 염기의 임계치 수 내에 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 동일한 염색체에서 및 동일한 배향에서 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 동일한 위치에서 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 1 개 이상의 중단점 중 공통 중단점과 연관된 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드 각각이 복수개의 위치로부터 염기의 임계치 수 내에 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 1 개 이상의 공통 중단점에 기초하여 후보 융합 서열 리드를 그룹화하는 것이 그룹에 대한 드 브루인 그래프를 생성하는 것을 포함하는 것인 방법.
  11. 제10항에 있어서, 그룹에서 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것이 드 브루인 그래프를 선형화하여 그룹에 대한 콘티그를 생성하는 것을 포함하는 것인 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 그룹에서 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것이 하나 이상의 오류 정정 절차를 수행하는 것을 포함하는 것인 방법.
  13. 제12항에 있어서, 하나 이상의 오류 정정 절차가 후보 융합 서열 리드와 기준 서열 사이의 미스매치를 해결하는 것을 포함하는 것인 방법.
  14. 제12항 또는 제13항에 있어서, 하나 이상의 오류 정정 절차가 적어도 2 개의 후보 융합 서열 리드 사이에 패딩을 삽입하는 것을 포함하는 것인 방법.
  15. 제12항 내지 제14항 중 어느 한 항에 있어서, 하나 이상의 오류 정정 절차가 임계치를 초과하는 정렬되지 않은 부분을 갖는 1 개 이상의 후보 융합 서열 리드를 폐기하는 것을 포함하는 것인 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 그룹으로부터의 콘티그의 정렬에 기초하여, 하나 이상의 후보 융합 사건을 결정하는 것이 풋프린트 시험 또는 스프레드 시험 중 하나 이상을 적용하는 것을 포함하는 것인 방법.
  17. 제16항에 있어서, 풋프린트 시험을 적용하는 것이 콘티그를 지원하는 후보 융합 서열 리드의 패밀리의 임계치 수가 중단점(들)에 걸쳐 있다는 것을 결정하는 것을 포함하는 것인 방법.
  18. 제16항 또는 제17항에 있어서, 스프레드 시험을 적용하는 것이 스프레드의 임계치 양이 콘티그를 지원하고 중단점(들)에 걸쳐 있는 후보 융합 서열 리드의 적어도 2 개의 패밀리 사이에 존재한다는 것을 결정하는 것을 포함하는 것인 방법.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것이
    후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점과 패널의 적어도 1 개의 프로브의 위치 사이의 거리를 결정하고;
    임계치 미만의 패널의 적어도 1 개의 프로브의 위치로부터의 거리로 중단점을 함유하지 않는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함하는 것인 방법.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것이
    1 개 이상의 관심 유전자를 결정하고;
    1 개 이상의 관심 유전자와 연관된 중단점을 함유하지 않는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함하는 것인 방법.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것이
    후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점이 결실임을 결정하고;
    또 다른 결실로부터 떨어져 있는 다수의 염기 내에 위치하는 결실을 포함하는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함하는 것인 방법.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것이
    후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점이 결실임을 결정하고;
    임계치 미만의 다수의 염기를 포함하는 결실을 포함하는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함하는 것인 방법.
  23. 제1항 내지 제22항 중 어느 한 항에 있어서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것이
    인트론 영역에 완전히 매립된 삽입 또는 결실을 포함하는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함하는 것인 방법.
  24. 제1항 내지 제23항 중 어느 한 항에 있어서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것이
    후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그에 대해, 분자 대 리드의 비를 결정하고;
    임계치 초과의 분자 대 리드의 비와 연관이 있고 이중 가닥 지원 분자와는 연관이 없는 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함하는 것인 방법.
  25. 제1항 내지 제24항 중 어느 한 항에 있어서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것이
    후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점 쌍에 대해, 중단점 쌍의 중단점에 인접해 있는 서열을 결정하고;
    중단점 쌍의 중단점에 인접해 있는 서열을 정렬시키고;
    중단점 쌍의 중단점에 인접해 있는 서열의 정렬에 대한 정렬 점수를 결정하고;
    임계치를 초과하는 정렬 점수에 기초하여 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함하는 것인 방법.
  26. 제1항 내지 제25항 중 어느 한 항에 있어서, 하나 이상의 기준을 하나 이상의 후보 융합 사건에 적용하는 것이
    후보 융합 사건에 대해, 1 개 이상의 정렬된 콘티그의 중단점 쌍에 대해, 중단점 쌍의 중단점에 중심을 둔 서열을 결정하고;
    중단점에 중심을 둔 서열을 서로에 대해 정렬시키고;
    중단점에 중심을 둔 서열의 정렬에 대한 정렬 점수를 결정하고;
    임계치를 초과하는 정렬 점수에 기초하여 1 개 이상의 콘티그의 정렬된 콘티그와 연관된 임의의 후보 융합 사건을 폐기하는 것을 포함하는 것인 방법.
  27. 복수개의 서열 리드를 기준 서열에 대해 정렬시키고;
    기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하고;
    1 개 이상의 공통 중단점에 기초하여, 1 개 이상의 후보 융합 서열 리드를 1 개 이상의 컨테이너 데이터 구조로 그룹화하고;
    컨테이너 데이터 구조에 대해, 1 개 이상의 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하고;
    컨테이너 데이터 구조에 대해, 1 개 이상의 콘티그를 기준 서열에 대해 정렬시키고;
    하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것을 포함하는 방법.
  28. 제27항에 있어서, 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 동일한 염색체에서 및 동일한 배향에서 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  29. 제27항 또는 제28항에 있어서, 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 동일한 위치에서 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  30. 제27항 내지 제29항 중 어느 한 항에 있어서, 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 위치로부터 염기의 임계치 수 내에 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  31. 제27항 내지 제30항 중 어느 한 항에 있어서, 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 동일한 염색체에서 및 동일한 배향에서 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  32. 제27항 내지 제31항 중 어느 한 항에 있어서, 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 동일한 위치에서 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  33. 제27항 내지 제32항 중 어느 한 항에 있어서, 기준 서열에 대한 서열 리드의 정렬에서 1 개 이상의 중단점에 기초하여, 복수개의 서열 리드의 1 개 이상의 후보 융합 서열 리드를 결정하는 것이 적어도 2 개의 후보 융합 서열 리드가 복수개의 위치로부터의 염기의 임계치 수 내에 복수개의 중단점을 포함한다는 것을 결정하는 것을 포함하는 것인 방법.
  34. 제27항 내지 제33항 중 어느 한 항에 있어서, 상이한 정렬로부터의 중단점이 공통 컨테이너 데이터 구조에 할당되는 것인 방법.
  35. 제27항 내지 제34항 중 어느 한 항에 있어서, 그룹에 대해, 1 개 이상의 후보 융합 리드를 1 개 이상의 콘티그로 조립하는 것이
    그룹에 대해, 1 개 이상의 후보 융합 서열 리드를 그래프 데이터 구조로 조립하고;
    그래프 데이터 구조를 선형화하여 1 개 이상의 콘티그를 생성하는 것을 포함하는 것인 방법.
  36. 제27항 내지 제35항 중 어느 한 항에 있어서, 1 개 이상의 후보 융합 서열 리드를 1 개 이상의 콘티그로 조립하는 것이 하나 이상의 오류 정정 절차를 수행하는 것을 포함하는 것인 방법.
  37. 제36항에 있어서, 하나 이상의 오류 정정 절차가 후보 융합 서열 리드와 기준 서열 사이의 미스매치를 해결하는 것을 포함하는 것인 방법.
  38. 제36항 또는 제37항에 있어서, 하나 이상의 오류 정정 절차가 적어도 2 개의 후보 융합 서열 리드 사이에 패딩을 삽입하는 것을 포함하는 것인 방법.
  39. 제36항 내지 제38항 중 어느 한 항에 있어서, 하나 이상의 오류 정정 절차가 임계치를 초과하는 정렬되지 않은 부분을 갖는 1 개 이상의 후보 융합 서열 리드를 폐기하는 것을 포함하는 것인 방법.
  40. 제27항 내지 제39항 중 어느 한 항에 있어서, 그룹으로부터의 콘티그의 정렬에 기초하여, 하나 이상의 후보 융합 사건을 결정하는 것이 풋프린트 시험 또는 스프레드 시험 중 하나 이상을 적용하는 것을 포함한다는 것을 추가로 포함하는 방법.
  41. 제40항에 있어서, 풋프린트 시험을 적용하는 것이 콘티그를 지원하는 후보 융합 서열 리드의 패밀리의 임계치 수가 중단점(들)에 걸쳐 있다는 것을 결정하는 것을 포함하는 것인 방법.
  42. 제40항 또는 제41항에 있어서, 스프레드 시험을 적용하는 것이 스프레드의 임계치 양이 콘티그를 지원하고 중단점(들)에 걸쳐 있는 후보 융합 서열 리드의 적어도 2 개의 패밀리 사이에 존재한다는 것을 결정하는 것을 포함하는 것인 방법.
  43. 제27항 내지 제42항 중 어느 한 항에 있어서, 하나 이상의 기준에 기초하여, 하나 이상의 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것이
    1 개 이상의 정렬된 콘티그의 중단점과 패널의 적어도 1 개의 프로브의 위치 사이의 거리를 결정하고;
    임계치 미만의 패널의 적어도 1 개의 프로브의 위치로부터의 거리로 중단점을 함유하지 않는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함하는 것인 방법.
  44. 제27항 내지 제43항 중 어느 한 항에 있어서, 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것이
    1 개 이상의 관심 유전자를 결정하고;
    1 개 이상의 관심 유전자와 연관된 중단점을 함유하지 않는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함하는 것인 방법.
  45. 제27항 내지 제44항 중 어느 한 항에 있어서, 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것이
    1 개 이상의 정렬된 콘티그의 중단점이 결실임을 결정하고;
    또 다른 결실로부터 떨어져 있는 다수의 염기 내에 위치하는 결실을 포함하는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함하는 것인 방법.
  46. 제27항 내지 제45항 중 어느 한 항에 있어서, 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것이
    1 개 이상의 정렬된 콘티그의 중단점이 결실임을 결정하고;
    임계치 미만의 다수의 염기를 포함하는 결실을 포함하는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함하는 것인 방법.
  47. 제27항 내지 제46항 중 어느 한 항에 있어서, 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것이
    인트론 영역에 완전히 매립된 삽입 또는 결실을 포함하는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함하는 것인 방법.
  48. 제27항 내지 제47항 중 어느 한 항에 있어서, 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것이
    1 개 이상의 정렬된 콘티그에 대해, 분자 대 리드의 비를 결정하고;
    임계치 초과의 분자 대 리드의 비와 연관이 있고 이중 가닥 지원 분자와는 연관이 없는 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함하는 것인 방법.
  49. 제27항 내지 제48항 중 어느 한 항에 있어서, 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것이
    1 개 이상의 정렬된 콘티그의 중단점 쌍에 대해, 중단점 쌍의 중단점에 인접해 있는 서열을 결정하고;
    중단점 쌍의 중단점에 인접해 있는 서열을 정렬시키고;
    중단점 쌍의 중단점에 인접해 있는 서열의 정렬에 대한 정렬 점수를 결정하고;
    임계치를 초과하는 정렬 점수에 기초하여 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함하는 것인 방법.
  50. 제27항 내지 제49항 중 어느 한 항에 있어서, 하나 이상의 기준에 기초하여, 융합 사건을 나타내는 1 개 이상의 정렬된 콘티그를 결정하는 것이
    1 개 이상의 정렬된 콘티그의 중단점 쌍에 대해, 중단점 쌍의 중단점에 중심을 둔 서열을 결정하고;
    중단점에 중심을 둔 서열을 서로에 대해 정렬시키고;
    중단점에 중심을 둔 서열의 정렬에 대한 정렬 점수를 결정하고;
    임계치를 초과하는 정렬 점수에 기초하여 1 개 이상의 콘티그의 임의의 정렬된 콘티그를 폐기하는 것을 포함하는 것인 방법.
  51. 제27항 내지 제50항 중 어느 한 항에 있어서, 임의의 1 개 이상의 콘티그의 정렬된 콘티그를 폐기하는 것에 기초하여, 라이브러리 제조와 연관된 문제를 나타내는 통보를 생성하는 것을 추가로 포함하는 방법.
  52. 하기를 포함하는 장치:
    하나 이상의 프로세서; 및
    하나 이상의 프로세서에 의해 실행될 때, 장치가 제1항 내지 제51항 중 어느 한 항의 방법을 수행하게 하는 프로세서 실행가능한 명령을 저장하는 메모리.
  53. 적어도 하나의 컴퓨팅 기기에 의해 실행될 때, 적어도 하나의 컴퓨팅 기기가 제1항 내지 제51항 중 어느 한 항의 방법을 수행하게 하는 프로세서 실행가능한 명령을 저장하는 비일시적인 컴퓨터-판독가능한 매체.
  54. 제1항 내지 제51항 중 어느 한 항의 방법을 수행하도록 구성된 적어도 하나의 컴퓨팅 기기를 포함하는 시스템.
  55. 대상체에게 치료제를 투여하는 것을 포함하는, 대상체를 치료하는 방법이며, 대상체는 제1항 내지 제51항 중 어느 한 항의 방법 중 하나 이상을 이용하여 융합 사건을 갖는 것으로 결정된 것인 방법.
  56. 제55항에 있어서, 융합 사건을 갖는 것으로 결정된 대상체가 암을 가진 것으로 진단된 것인 방법.
  57. 제56항에 있어서, 암이 융합 사건과 연관된 암인 방법.
  58. 제57항에 있어서, 융합 사건과 연관된 암이 진행성 요로상피암, 전립선암, 유방암, 폐암, 결장암, 교모세포종, 간암, 및 난소암으로 이루어진 군으로부터 선택되는 것인 방법.
  59. 제55항 내지 제58항 중 어느 한 항에 있어서, 치료제가 암 치료제인 방법.
  60. 제59항에 있어서, 암 치료제가 대상체가 진단된 암에 대해 특이적인 것인 방법.
  61. 제59항 또는 제60항에 있어서, 암 치료제가 융합 사건에 대해 특이적인 것인 방법.
KR1020227031167A 2020-02-14 2021-02-12 융합 사건을 결정하기 위한 방법 및 시스템 KR20220142466A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062976884P 2020-02-14 2020-02-14
US62/976,884 2020-02-14
PCT/US2021/017995 WO2021163592A1 (en) 2020-02-14 2021-02-12 Methods and systems for determining fusion events

Publications (1)

Publication Number Publication Date
KR20220142466A true KR20220142466A (ko) 2022-10-21

Family

ID=74867631

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227031167A KR20220142466A (ko) 2020-02-14 2021-02-12 융합 사건을 결정하기 위한 방법 및 시스템

Country Status (8)

Country Link
US (1) US20210375397A1 (ko)
EP (1) EP4104176A1 (ko)
JP (1) JP2023513315A (ko)
KR (1) KR20220142466A (ko)
CN (1) CN115136241A (ko)
AU (1) AU2021218731A1 (ko)
CA (1) CA3166037A1 (ko)
WO (1) WO2021163592A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
WO2023119252A1 (en) * 2021-12-24 2023-06-29 Canexia Health Inc. Compositions and methods for identification of gene fusions
CN115662523B (zh) * 2022-10-21 2023-06-20 哈尔滨工业大学 面向群体基因组索引表示与构建的方法及设备
CN116994656B (zh) * 2023-09-25 2024-01-02 北京求臻医学检验实验室有限公司 一种用于提高二代测序检测准确度的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615864B2 (en) * 2017-02-17 2023-03-28 The Board Of Trustees Of The Leland Stanford Junior University Accurate and sensitive unveiling of chimeric biomolecule sequences and applications thereof

Also Published As

Publication number Publication date
WO2021163592A1 (en) 2021-08-19
JP2023513315A (ja) 2023-03-30
US20210375397A1 (en) 2021-12-02
EP4104176A1 (en) 2022-12-21
CA3166037A1 (en) 2021-08-19
AU2021218731A1 (en) 2022-08-04
CN115136241A (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
KR102701404B1 (ko) 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템
US20210375397A1 (en) Methods and systems for determining fusion events
CN106062214B (zh) 用于检测遗传变异的方法和系统
US20130324417A1 (en) Determining the clinical significance of variant sequences
CN111357054B (zh) 用于区分体细胞变异和种系变异的方法和系统
US11473137B2 (en) Alignment free filtering for identifying fusions
CN113748467A (zh) 基于等位基因频率的功能丧失计算模型
JP2024056939A (ja) 生体試料のフィンガープリンティングのための方法
US20240141425A1 (en) Correcting for deamination-induced sequence errors
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
CN115428087A (zh) 克隆水平缺乏靶变体的显著性建模
US20200071754A1 (en) Methods and systems for detecting contamination between samples
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
US20230420080A1 (en) Split-read alignment by intelligently identifying and scoring candidate split groups
Barbaro Overview of NGS platforms and technological advancements for forensic applications
Bolognini Unraveling tandem repeat variation in personal genomes with long reads
KR20240135859A (ko) 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템