KR20190098233A - 종양원성 스플라이스 변이체 결정 - Google Patents

종양원성 스플라이스 변이체 결정 Download PDF

Info

Publication number
KR20190098233A
KR20190098233A KR1020197021684A KR20197021684A KR20190098233A KR 20190098233 A KR20190098233 A KR 20190098233A KR 1020197021684 A KR1020197021684 A KR 1020197021684A KR 20197021684 A KR20197021684 A KR 20197021684A KR 20190098233 A KR20190098233 A KR 20190098233A
Authority
KR
South Korea
Prior art keywords
sample
junction
splice
baseline
junctions
Prior art date
Application number
KR1020197021684A
Other languages
English (en)
Other versions
KR102326612B1 (ko
Inventor
준 스네데코르
한-유 추앙
그웬 베리
샤오 첸
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20190098233A publication Critical patent/KR20190098233A/ko
Application granted granted Critical
Publication of KR102326612B1 publication Critical patent/KR102326612B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biomedical Technology (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

스플라이스 변이체를 식별하는 시스템 및 방법이 본 명세서에 제시된다. 본 발명의 기술은 단일 생물학적 샘플로부터의 복수의 RNA 서열 판독물로부터 하나 이상의 샘플 스플라이스 접합부를 결정하는 것, 복수의 건강한 RNA 샘플로부터 결정된 기준선 스플라이스 접합부의 세트를 검색하는 것, 및 하나 이상의 샘플 스플라이스 접합부를 기준선 스플라이스 접합부의 세트와 비교하여 기준선 스플라이스 접합부와 겹치지 않는 샘플 스플라이스 접합부를 포함하는 하나 이상의 필터링된 샘플 스플라이스 접합부를 식별하는 것을 포함하고, 여기서 하나 이상의 필터링된 샘플 스플라이스 접합부는 후보 종양원성 사건이다.

Description

종양원성 스플라이스 변이체 결정
우선권 출원에 대한 참고에 의한 원용
본 출원은 2017년 1월 17일자로 출원된 미국 가특허 출원 제62/447,382호에 대한 우선권의 이득을 주장하고, 이 기초출원은 본 명세서에 참고로 원용된다.
스플라이스 변이체는 유전자 전사의 단일 변이이다. 많은 유전자는 세포 환경 또는 기능에 따라 여러 가능한 단백질을 암호화하는 단일 유전자를 허용하는 여러 가능한 스플라이스 변이체를 갖는다. 단백질로 번역되기 전에, mRNA 전사는 스플라이싱되어 단백질 서열로 암호화되지 않는 mRNA 전사의 영역을 제거한다. 도 1에 도시된 바와 같이, 칼시토닌 유전자 관련 펩타이드(CGRP)(102) 및 칼시토닌(104)은 동일한 공급원 유전자 전사에 의해 생성되고, 전구체 mRNA(pre-mRNA)(106)로서 발현되고, 유전자 전사가 발현되는 곳에 따라 상이하게 스플라이싱된다. 비제한적인 예로서, pre-mRNA(106)는 뉴런 세포에 존재하는 경우, CGRP(102)로서 스플라이싱될 수 있거나, 갑상선 세포에 존재하는 경우, 칼시토닌(104)으로서 스플라이싱된다.
전통적으로, 종양원성 스플라이스 변이체(oncogenic splice variant)는 한 세트의 비종양 샘플 및 한 세트의 종양 샘플을 획득함으로써 환자로부터 결정될 수 있다. 그 다음, 각각의 샘플을 서열화하고 참조(DNA 또는 RNA)에 대하여 매핑한다. 후속적으로, 스플라이스 전사는 정상(비종양) 및 비정상(종양) 샘플 사이에서 신규하게 식별되고(identified), 발현 차이는 스플라이스 전사를 기반으로 평가된다.
종양원성 스플라이스 변이체를 결정하는 전통적인 방법은 다중 샘플을 획득하는데 이상적이지 않다. 또한, 단일 환자에 대하여 운용 중인 다중 샘플은 시약 및 서열화 비용 둘 다를 극적으로 증가시킨다. 예를 들면, 비용은 짝지어진 종양/비종양 샘플이 획득되는 경우, 적어도 2배가 될 수 있다.
본 발명의 내용란은 상세한 설명에 하기 추가로 기재된 단순화된 형태로 선택된 개념을 소개하기 위하여 제공된다. 본 발명의 내용란은 청구된 주제의 중요한 특징 또는 본질적인 특징을 식별하는 것을 의도하지 않거나, 청구된 주제의 범위를 제한하는데 사용되는 것을 의도하지 않는다.
본 개시내용의 하나의 양상은 스플라이스 변이체를 식별하는 다양한 방법 및 시스템을 제공한다. 하나의 실행에서, 방법은 단일 생물학적 샘플로부터의 복수의 RNA 서열 판독물(sequence read)로부터 하나 이상의 샘플 스플라이스 접합부를 결정하는 것; 복수의 건강한 RNA 샘플로부터 결정된 기준선 스플라이스 접합부의 세트를 검색(retrieving)하는 것; 하나 이상의 샘플 스플라이스 접합부를 기준선 스플라이스 접합부의 세트와 비교하는 것; 및 하나 이상의 필터링된 샘플 스플라이스 접합부를 식별하는 것(필터링된 샘플 스플라이스 접합부가 기준선 스플라이스 접합부와 겹치지 않는 샘플 스플라이스 접합부를 포함함)을 포함하되, 여기서 하나 이상의 필터링된 샘플 스플라이스 접합부는 후보 종양원성 사건(candidate oncogenic event)인 것을 포함한다.
몇몇 실시형태는 후보 종양원성 사건의 목록을 출력하는 것을 더 포함한다.
몇몇 실시형태에서, 복수의 건강한 RNA 샘플은 지리학적 지역, 연령, 성별, 인종 집단, 조직 유형, 또는 샘플 보존 품질 유형 중 하나 이상의 단면(cross section)으로부터 취한 건강한 RNA 샘플을 포함한다.
몇몇 실시형태에서, 복수의 건강한 RNA 샘플은 폐, 부신, 방광, 유방, 난소, 간, 전립선, 피부, 및 비장으로 구성되는 군으로부터 선택된 하나 이상의 조직 유형으로부터의 샘플을 포함한다. 몇몇 실시형태에서, 복수의 건강한 RNA 샘플은 다양한 연령에 걸친 공여자로부터의 샘플을 포함한다.
몇몇 실시형태에서, 복수의 건강한 RNA 샘플로부터의 기준선 스플라이스 접합부는 단일 샘플로부터의 샘플 접합부를 결정하기 전에 결정된다.
몇몇 실시형태에서, 기준선 스플라이스 접합부에 대한 복수의 건강한 RNA 샘플은 단일 생물학적 샘플로서 동일한 생물학적 대상으로부터 수득되지 않는다.
몇몇 실시형태에서, 기준선 접합부는 샘플 접합부와 동일한 게놈 영역으로부터 유래된다.
몇몇 실시형태에서, 단일 생물학적 샘플은 종양 샘플로부터 유래된다.
몇몇 실시형태에서, 샘플 스플라이스 접합부 및 기준선 스플라이스 접합부는 공통 검정을 사용하여 둘 다 결정된다.
몇몇 실시형태에서, 하나 이상의 샘플 접합부를 결정하는 것은 단일 생물학적 샘플로부터 복수의 RNA 서열 판독물을 결정하는 것; 단일 생물학적 샘플로부터의 RNA 서열 판독물에 의해 정렬된 DNA 참조 서열을 검색하는 것; 및 DNA 참조와 비교된 RNA 판독물에서 누락된 인접한 위치(missing contiguous region)로서 하나 이상의 샘플 접합부를 결정하는 것을 포함한다.
몇몇 실시형태에서, 필터링된 샘플 스플라이스 접합부는 제3자 접합부(third party junction)와 겹치지 않고, 제3자 접합부는 주어진 유전자에 대한 엑손의 여러 대체 조합을 캡처하는 스플라이스 그래프로부터 결정된다.
몇몇 실시형태에서, 기준선 스플라이스 접합부의 세트는 주어진 유전자에 대한 엑손의 여러 대체 조합을 캡처하는 스플라이스 그래프를 결정하지 않고 결정된다.
몇몇 실시형태는 스플라이스 변이체를 식별하는 시스템을 제공한다. 시스템은 메모리, 적어도 하나의 프로세서; 및 명령어를 포함하는 적어도 하나의 비-일시적 컴퓨터-판독 가능 매체를 포함하되, 상기 명령어는, 적어도 하나의 프로세서에 의해 실행되는 경우, 적어도 하나의 프로세서로 하여금, 단일 생물학적 샘플로부터의 복수의 RNA 서열 판독물로부터 하나 이상의 샘플 스플라이스 접합부를 결정하는 것; 복수의 건강한 RNA 샘플로부터 결정된 기준선 스플라이스 접합부의 세트를 검색하는 것; 하나 이상의 샘플 스플라이스 접합부를 기준선 스플라이스 접합부의 세트와 비교하는 것; 및 하나 이상의 필터링된 샘플 스플라이스 접합부를 식별하는 것(여기서 필터링된 샘플 스플라이스 접합부가 기준선 스플라이스 접합부의 세트와 겹치지 않는 샘플 스플라이스 접합부를 포함함)을 포함하는 작업을 수행하게 하되, 여기서 필터링된 샘플 스플라이스 접합부는 후보 종양원성 사건이다.
본 명세서에 기재되는 바와 같이, 다양한 다른 특징 및 장점은 원하는 경우 기술로 통합될 수 있다.
도 1은 스플라이스 변이체의 예시적인 특징을 도시하는 개념도이다.
도 2는 스플라이스 변이체 결정을 포함하는 작업 환경의 실시형태를 도시하는 블록 선도이다.
도 3은 도 2의 작업 환경에 따라 이용되는 스플라이스 변이체 결정 서비스의 예시 성분의 실시형태를 도시하는 블록 선도이다.
도 4는 접합부 분석의 실시형태를 도시하는 흐름도이다.
도 5는 가능한 종양원성 접합부를 결정하는 실시형태를 도시하는 흐름도이다.
도 6은 샘플 접합부를 결정하는 실시형태를 도시하는 흐름도이다.
도 7은 기준선 접합부를 결정하는 실시형태를 도시하는 흐름도이다.
도 8은 필터링된 샘플 접합부를 결정하는 실시형태를 도시하는 흐름도이다.
도 9는 필터링된 샘플 접합부를 검증하는 실시형태를 도시하는 흐름도이다.
도 10은 가능한 종양원성 접합부를 결정하는 실시형태의 개념적 설명이 수반된 흐름도이다.
도 11은 도 10의 실시형태로부터의 실험 결과를 도시하는 표이다.
도 12a 및 도 12b는 필터링된 샘플 접합부를 검증하는 특징을 도시하는 개념도이다.
본 개시내용은 기준선 분석을 통한 종양원성 스플라이스 변이체 결정 방법 및 시스템에 해당하는 것으로 일반적으로 기재된다.
스플라이싱은 암 세포에서 종종 방해될 수 있다. 스플라이싱 변이를 유발하는 방해는 본 명세서에 그 전문이 참고로 편입된 문헌[Dvinge, H., & Bradley, R. K.(2015), "Widespread intron retention diversifies most cancer transcriptomes" Genome Medicine, 7(1), 45.]에 기재된 바와 같이 많은 암에서 식별되었다. 추가로, 제약 회사는 이들 변이체의 생성물을 약물 요법을 위한 잠재적인 표적으로서 식별하였다. 영향을 받은 변이체를 보유한 환자를 식별하는 능력은 암 치료를 위한 약물의 효능을 연구하는데 중요할 수 있다.
암에서 비정상 스플라이싱(스플라이스 변이체)을 야기할 수 있는 DNA 수준에 대하여 다수의 돌연변이가 있다. 비제한적인 예는 본 명세서에 그 전문이 참고로 편입된 문헌[Jung, H., Lee, D., Lee, J., Park, D., Kim, Y. J., Park, W.-Y.,... Lee, E.(2015), "Intron retention is a widespread mechanism of tumor-suppressor inactivation", Nature Genetics, 47(11), 1242-1248.]에서 찾을 수 있다.
암 게놈 아틀라스(Cancer Genome Atlas)(TCGA)(미국 메릴랜드주 록빌에 본사를 두고 있는 암 게놈에 대한 국립 암 연구소의 센터, 및 미국 메릴랜드주 베데스다에 본사를 두고 있는 국립 인간 게놈 연구 기관에 의해 관리됨)는 하기 중 적어도 하나를 포함하는 돌연변이(스플라이스 변이체)에 대한 다중 메커니즘을 식별하였다: (1) 직접적인 스플라이스 부위 돌연변이; (2) 엑손의 마지막 염기의 30 염기 쌍(bp) 내에서 발생하는 돌연변이; (3) 영향을 받은 엑손의 근처에서 발행하지 않지만 스플라이싱이 발생한 곳을 변경하는 전사에 대한 변화; 및 (4) 종양원성 변화는 스플라이싱(예를 들면, 이에 한정되지 않지만 Myc 돌연변이)에 직접적으로 관련되지 않는다.
그러므로, 방해된 스플라이싱을 야기할 수 있는 광범위한 메커니즘으로 인하여 적어도 부분적으로 관련 변화에 대하여 DNA보다 RNA를 직접적으로 시험함으로써 스플라이스 변이체를 식별하는 것이 유리할 수 있다.
추가로, 기준선 분석을 통한 종양원성 스플라이스 변이체 결정을 위한 본 명세서에 기재된 다양한 실시형태에 따른 시스템 및 방법은 단순하게 전통적인 방법의 단점 없이 가능한 종양원성 스플라이스 변이체를 결정한다. 상기 기재된 바와 같이, 스플라이스 변이체 결정의 전통적인 방법은 적어도 부분적으로 환자로부터의 다중 생체검사, 또는 샘플을 사용하는 것으로 인하여 더 침습적이고 컴퓨터 집약적이며 비싸다. 그보다, 하기 추가로 기재되는 바와 같이, 종양의 단일 샘플은 환자로부터 취득되고 건강한 샘플의 기준선 참조와 비교될 수 있다. 매칭된 정상, 건강한 샘플이 없이 단일 종양 샘플을 사용하는 이러한 유형의 변이체 식별은 정상, 건강한 샘플에서 발현되지 않은 검증 가능한 비정상 사건에 초점이 맞춰진 분석의 복잡성을 감소시킨다.
따라서, 기준선 분석을 통한 종양원성 스플라이스 변이체 결정은 스플라이스 변이체 결정, 예를 들면, 하기 추가로 기재된 바와 같은 스플라이스 접합부 결정에 대한 관련 인자에 초점을 맞추고 있고, 신규한 게놈 발현을 결정하는 복잡한(그리고 컴퓨터 자원 집약적인) 과정을 피한다. 다시 말하면, 주어진 유전자에 대한 엑손이 조립될 수 있는 단일 구조 다중(또는 모든) 대체 방식으로 캡처되는 전체 전자의 스플라이스 그래프를 구성하는 대신에, 스플라이스 변이체는 접합부 수준에서 평가될 수 있다.
스플라이스 접합부(또한 접합부로도 지칭됨)는 DNA 참조에 의해 정렬되는 경우, RNA 서열에서 나타나지 않는 DNA 참조 상에서 좌표로서 스플라이스 변이체를 정의한다. 접합부는 특정한 내용물(예를 들면, RNA 검정에 있어서 RNA)에 대한 시험인 검정을 통해 결정될 수 있다. 접합부는 적어도 도 4와 관련하여 하기 추가로 논의될 것이다. 비제한적인 예로서, 폐암에서 MET 엑손 14 스키핑 돌연변이에 있어서, 13와 15 사이의 접합부는 스플라이스 변이체인 것으로 결정될 수 있다.
상기 소개된 바와 같이, 기준선 참조는 건강한, 비-종양 샘플로부터의 접합부의 단면의 수집물이다. 건강한, 비-종양 조직의 다양한 단면에서 관찰되는 이러한 접합부의 기준선 참조(또는 스플라이스 변이체)는 조사 중인 종양 샘플을 서열화하는데 사용되는 동일한 RNA에 의해 서열화될 수 있다. 기준선 참조는 정상 생리학에서 또는 검정 인공물에 의해 유발된 스플라이싱 사건을 캡처하는데 사용될 수 있다. 기준선 참조의 사용은 문헌에서 전사 이소형의 제한된 큐레이션을 보완하고, 포르말린-고정된 파라핀-삽입된(FFPE) 보존에서 인공물 또는 다른 시스템 오류를 감소시킨다. 기준선 분석, 또는 기준선 참조의 기준선 접합부에 의한 필터링은 암과 연관될 가능성이 더 많은 신규한 스플라이스 접합부를 캡처한다. 기준선 참조의 기준선 접합부는 적어도 도 7과 관련하여 하기 추가로 논의된다.
그러나, 컴퓨터 자원에서 이러한 절약은, 이에 한정되지 않지만, 본 명세서에 그 전문이 참고로 편입된 문헌[Ben-Hur, V., Denichenko, P., Siegfried, Z., Maimon, A., Krainer, A., Davidson, B., & Karni, R. (2013), "S6K1 Alternative Splicing Modulates Its Oncogenic Activity and Regulates mTORC1", Cell Reports, 3(1), 103-115]에 기재된 바와 같은 RPS6KB1에 대한 특정한 변이체와 같은, 정상 조직에서 구성적으로 발현되는 암과 연관된 스플라이스 변이체의 결정에서 어렵게 균형이 맞춰질 수 있다. 그럼에도 불구하고, 상기 소개된 바와 같이, 기준선 분석을 통한 종양원성 스플라이스 변이체 결정은 전통적인 도구에 비해 이러한 어려움보다 더 큰 다수의 이점을 특징으로 한다.
예시적인 실시형태의 개요
도 2는 예시적인 스플라이스 변이체 결정 서비스(202)의 컨텍스트에서 본 명세서에 기재된 특징을 실시할 수 있는 스플라이스 변이체 결정 환경(200)의 실시형태를 도시한다. 몇몇 실시형태에서, 스플라이스 변이체 결정 환경(200)은 스플라이스 변이체 결정 서비스(202), 스플라이스 변이체 결정 데이터 저장소(204), 네트워크(206), 로컬 데이터 공급자(208A), 원격 데이터 공급자(208B), 참조 공급자(210), 로컬 데이터 소비자(212A), 및 원격 데이터 소비자(212B)를 포함한다. 몇몇 실시형태에서, 스플라이스 변이체 결정 환경(200)의 다양한 구성요소는 네트워크(206)를 통해 서로 통신으로 상호 연결된다. 스플라이스 변이체 결정 환경(200)은 상이한 구성요소, 더 많거나 적은 수의 구성요소를 포함할 수 있고, 상이하게 구성될 수 있다. 예를 들면, 스플라이스 변이체 결정 서비스(202)에 연결된 하나 이상의 데이터 저장소 또는 다른 컴퓨팅 장치가 있을 수 있다. 또 다른 예로서, 스플라이스 변이체 결정 환경(200)의 구성요소는 네트워크(206)가 있거나 없이 서로 통신될 수 있다.
스플라이스 변이체 결정 서비스(202)는 본 명세서에 기재된 과정을 수행할 수 있는 임의의 시스템에 해당할 수 있다. 스플라이스 변이체 결정 서비스(202)는 하나 이상의 컴퓨팅 장치에 의해 실행될 수 있다. 예를 들면, 스플라이스 변이체 결정 서비스(202)는 메모리에 저장된 하나 이상의 명령어를 실행하는 하나 이상의 프로세서를 포함하는 컴퓨팅 장치, 및 네트워크(206) 상에서 데이터를 송신하고 수신하는 통신 장치에 의해 실행될 수 있다. 몇몇 실시형태에서, 스플라이스 변이체 결정 서비스는 네트워크 상에서 통신할 수 있는 하나 이상의 백엔드 서버에서 실행된다. 다른 실시형태에서, 스플라이스 변이체 결정 서비스(202)는 호스팅된 컴퓨팅 환경(예를 들면, "클라우드 컴퓨팅 환경")에서 하나 이상의 가상 기계에 의해 실행된다. 호스팅된 컴퓨팅 환경은 이상의 공급되고 방출된 컴퓨팅 자원을 포함할 수 있고, 이러한 컴퓨팅 자원 컴퓨팅, 네트워킹, 및/또는 기억 장치를 포함할 수 있다.
하나의 양상에서, 스플라이스 변이체 결정 서비스(202)는 샘플 접합부의 결정, 기준선 접합부의 결정, 기준선 참조의 결정, 필터링된 샘플 접합부의 결정, 조직으로부터의 RNA 판독물의 결정, 접합부 겹침의 제거, 필터링된 샘플 접합부의 검증, 충분한 겹침 수의 결정 등을 포함하는, 본 명세서에 기재된 스플라이스 변이체 결정 기능을 개별적으로 또는 조합으로 수행하는 하나 이상의 어플리케이션을 실시할 수 있다. 이들 스플라이스 변이체 결정 기능은 상이한 시간에 스플라이스 변이체 결정 서비스의 상이한 양상에 의해 수행될 수 있고, 예를 들면, 이에 한정되지 않지만, 스플라이스 변이체 결정 서비스가 샘플 필터링된 접합부 또는 샘플 접합부를 결정하는 것과 동시에 기준선 참조의 기준선 접합부를 결정하지 않는 경우, 기준선 접합부(기준선 참조로서 수집됨)를 초기에 결정하고 저장한 다음, 샘플 필터링된 접합부를 결정하는 경우, 저장된 기준선 접합부를 검색한다. 또 다른 양상에서, 스플라이스 변이체 결정 서비스(202)는 스플라이스 변이체 결정 데이터 저장소(204)에서 기준선 접합부, 샘플 접합부를 저장하거나 업데이트하도록 구성될 수 있다. 몇몇 실시형태에서, 스플라이스 변이체 결정 서비스는 네트워크 또는 네트워크-기반의 서비스 공급자 또는 벤더와 연관될 수 있다.
설명된 실시형태에서, 스플라이스 변이체 결정 서비스(202)는 스플라이스 변이체 결정 데이터 저장소(204)에 통신적으로 연결될 수 있다. 스플라이스 변이체 결정 데이터 저장소(204)는 일반적으로 임의의 저장소, 데이터베이스, 또는 스플라이스 데이터를 저장할 수 있는 정보 저장 시스템 및 연관된 메타데이터를 포함할 수 있다. 스플라이스 변이체 결정 데이터 저장소(204)에 저장된 스플라이스 데이터는 기준선 참조의 기준선 접합부(건강한 샘플의 단면으로부터 결정된 접합부를 포함함), 단일 종양 샘플로부터의 종양 샘플 데이터, 건강한 또는 비-종양 샘플의 단면으로부터의 건강한 샘플 데이터, 단일 종양 샘플로부터의 샘플 접합부, 및/또는 기준선 분석을 통한 종양원성 스플라이스 변이체 결정에 따라 처리된 필터링된 샘플 접합부일 수 있다. 스플라이스 데이터는 다양한 형식 또는 데이터 구조, 예를 들면, 목록, 벡터, 어레이, 매트릭스 등으로 저장될 수 있다. 메타데이터는 이들의 형식, 의미론, 특징, 조건, 공급원, 생성의 데이터, 엔트리 날짜, 주석 날짜, 처리 날짜, 연관된 단면(예를 들면, 지리학적 지역, 연령, 성별, 인종 집단, FFPE 인공물, FFPE 품질, 호몰로그 인공물, 폴리머라제 판독물-통한 인공물, 비-종양학적 대체 스플라이싱, 조직 유형) 등을 지시하기 위한 목적으로 개별적인 샘플 또는 접합부, 또는 접합부의 샘플의 수집물과 연관될 수 있다. 예를 들면, 메타데이터는 샘플 접합부를 공통 검정을 통해 결정된 단일 종양 샘플로부터 공통 검정을 통해 결정된 기준선 접합부로 연결할 수 있다. 대안적으로, 또는 추가로, 메타데이터는 접합부의 수집물(예를 들면, 이에 한정되지 않지만, 기준선 참조, 기준선 접합부의 수집물, 필터링된 샘플 접합부의 수집물, 또는 샘플 접합부의 수집물)에서 접합부와 연관된 분류에서 카테고리 또는 위치를 지시할 수 있다.
네트워크(206)는 스플라이스 변이체 결정 환경(200) 내에 통신을 설정하는데 필요한 네트워킹 하드웨어 및 프로토콜의 임의의 적합한 조합을 포함할 수 있다. 예를 들면, 네트워크(206)는 전용 네트워크, 예를 들면, 근거리 네트워크(LAN) 또는 광역 네트워크(WAN), 뿐만 아니라 공중 또는 전용 유선 또는 무선 네트워크, 위성 네트워크, 케이블 네트워크, 셀룰러 네트워크, 또는 인터넷을 포함할 수 있다. 이러한 실시형태에서, 네트워크(206)는 하드웨어(예를 들면, 모뎀, 라우터, 스위치, 로드 밸런서, 플록시 서버 등) 및 스플라이스 변이체 결정 환경(200) 내에 네트워킹 연결을 설정하는 하드웨어에 의해 실행되는 소프트웨어(예를 들면, 프로토콜 스택, 프로토콜 스택, 회계 소프트웨어, 방화벽/보안 소프트웨어 등)를 포함할 수 있다. 추가로, 네트워크(206)는 스플라이스 변이체 결정 환경(200)의 구성요소 사이에서 데이터를 송신하기 위하여 다양한 통신 프로토콜 중 하나를 실행할 수 있다.
데이터 공급자(208A, 208B)는 로컬 데이터 공급자(208A) 사이트(예를 들면, 이에 한정되지 않지만, 스플라이스 변이체 결정 서비스(202)가 기구-상 RNA 서열화로부터의 데이터를 결정하는 기구, 또는 RNA 서열화로부터 이러한 데이터를 저장하는 장치임)의 호스트 또는 네트워크 또는 다른 원격 데이터 공급자(208B) 사이트(예를 들면, 이에 한정되지 않지만, RNA 서열화로부터의 데이터를 결정하는 기구, 또는 RNA 서열화로부터 이러한 데이터를 저장하는 장치가 스플라이스 변이체 결정 서비스(202)로부터 원격임) 등에 해당할 수 있다. 따라서, 데이터 공급자(208A, 208B)는 네트워크(206)을 통해 또는 대신에 스플라이스 변이체 결정 서비스(202)와의 통신을 가능하게 할 수 있는 임의의 컴퓨팅 장치(들)와 연관될 수 있다. 이러한 컴퓨팅 장치는 일반적으로, 몇 가지 예를 들면, 서열화 기구, 무선 이동 장치(예를 들면, 스마트폰, PDA, 태블릿, 착용 컴퓨팅 장치 등), 서버, 데스크탑, 랩탑, 및 컴퓨터화된 기기를 포함할 수 있다. 추가로, 이러한 컴퓨팅 장치는 상기 기재된 통신을 가능하게 할 수 있는 임의의 유형의 소프트웨어(예를 들면, 브라우저 또는 이동 기기)를 실행할 수 있다.
데이터 소비자(212A, 212B)는 로컬 데이터 소비자(208A) 사이트(예를 들면, 이에 한정되지 않지만, 스플라이스 변이체 결정 서비스(202)가 다른 서비스 또는 프로세스가 의존하는 기기 상에 있는 경우)의 호스트 또는 네트워크 또는 다른 원격 데이터 공급자(208B) 사이트(예를 들면, 이에 한정되지 않지만, 스플라이스 변이체 결정 서비스(202)가 서비스로부터 원격인 기구 상에 있거나 프로세스가 이것에 의존하는 경우) 등에 해당할 수 있다. 데이터 소비자(212A, 212B)는 임상 또는 연구 네트워크 사이트의 방문자, 과학자, 의사, 생물정보학자, 기술자 등에 해당할 수 있고, 네트워크(206)를 통해 또는 대신에 스플라이스 변이체 결정 서비스(202)와의 통신을 가능하게 할 수 있는 임의의 컴퓨팅 장치(들)와 연관될 수 있다. 이러한 컴퓨팅 장치는 일반적으로, 몇 가지 예를 들면, 무선 이동 장치(예를 들면, 스마트폰, PDA, 태블릿, 착용 컴퓨팅 장치 등), 서버, 데스크탑, 랩탑, 기기, 및 컴퓨터화된 기기를 포함할 수 있다. 추가로, 이러한 컴퓨팅 장치는 상기 기재된 통신을 가능하게 할 수 있는 임의의 유형의 소프트웨어(예를 들면, 브라우저 또는 이동 기기)를 실행할 수 있다.
참조 공급자(210)은 이에 한정되지 않지만, 참조 게놈, DNA 참조, RNA 참조, RNA 전사의 스플라이스 그래프, 및 제3자 접합부와 같은 스플라이스 변이체 결정 서비스(202)와 관련된 참조 데이터를 제공하는 임의의 엔티티에 해당할 수 있다. 특정한 실시형태에서, 참조 공급자(210)는 스플라이스 변이체 결정 서비스(202)에 대한 참조 데이터를 제공하고, 스플라이스 변이체 결정 서비스(202)는 스플라이스 변이체 결정 데이터 저장소(204)에 로컬로 참조 데이터를 저장한다. 참조 공급자(210)는 참조 데이터베이스 네트워크 사이트 등에 해당할 수 있고, 네트워크(206)를 통해 스플라이스 변이체 결정 서비스(202)와의 통신을 가능하게 할 수 있는 임의의 컴퓨팅 장치(들)와 연관될 수 있다. 이러한 컴퓨팅 장치는 일반적으로, 몇 가지 예를 들면, 무선 이동 장치(예를 들면, 스마트폰, PDA, 태블릿, 착용 컴퓨팅 장치 등), 서버, 데스크탑, 랩탑, 기기, 및 컴퓨터화된 기기를 포함할 수 있다. 추가로, 이러한 컴퓨팅 장치는 상기 기재된 통신을 가능하게 할 수 있는 임의의 유형의 소프트웨어(예를 들면, 브라우저 또는 이동 기기)를 실행할 수 있다.
관련 분야의 숙련가는 도 2에 제공된 구성요소 및 구성이 사실상 예시적이라는 것을 인식할 것이다. 따라서, 본 명세서에 개시된 기능을 가능하게 하기 위한 추가의 구성요소, 시스템, 및 서브시스템을 포함하는 추가의 또는 대안적인 구성요소 및/또는 구성은 이용될 수 있다.
도 3은 도 2의 작업 환경에 따라 사용되는 변이체 호출 서비스의 예시적인 구성요소의 실시형태를 설명하는 블록 선도이다. 예시적인 컴퓨팅 시스템(300)은 본 개시내용의 양상을 실행하는데 사용될 수 있는 컴퓨터 하드웨어 및 소프트웨어 구성요소의 배열을 포함한다. 당해 분야의 숙련가는 컴퓨팅 시스템(300)이 도 3에 도시된 것들보다 더 많은(또는 더 적은) 구성요소를 포함할 수 있다는 것을 인식할 것이다. 그러나, 가능한 개시내용을 제공하기 위하여 모든 이러한 일반적으로 통상적인 구성요소를 나타낼 필요는 없다.
설명된 실시형태에서, 컴퓨팅 시스템(300)은 처리 유닛(302), 네트워크 인터페이스(304), 비-일시적 컴퓨터-판독 가능 매체 드라이브(306), 및 입력/출력 장치 인터페이스(308)를 포함하고, 이들 모두는 통신 버스의 방식으로 서로 통신될 수 있다. 네트워크 인터페이스(304)는 하나 이상의 네트워크 또는 컴퓨팅 시스템과 연결될 수 있는 스플라이스 변이체 결정 서비스(202)(도 2 참조)를 제공할 수 있다. 따라서 처리 유닛(302)은 다른 컴퓨팅 장치, 시스템, 또는 서비스로부터 네트워크를 통해 정보 및 명령어를 수신할 수 있다. 처리 유닛(302)은 또한 메모리(310)와 통신할 수 있고, 입력/출력 장치 인터페이스(308)를 통해 출력 정보를 추가로 제공한다. 입력/출력 장치 인터페이스(308)는 또한 다양한 입력 장치, 예를 들면, 키보드, 마우스, 디지털 펜, 터치 스크린 등으로부터의 입력을 수용할 수 있다.
메모리(310)는 처리 유닛(302)은 본 개시내용의 하나 이상의 실시형태를 실시하기 위하여 실행될 수 있는 컴퓨터 프로그램 명령어를 포함할 수 있다. 메모리(310)는 일반적으로 RAM, ROM 및/또는 기타 지속적인 또는 비-일시적 컴퓨터-판독 가능 기억 매체를 포함한다. 메모리(310)는 스플라이스 변이체 결정 서비스(302)의 일반적인 투여 및 작업에서 처리 유닛(302)에 의해 사용을 위한 컴퓨터 프로그램 명령어를 제공하는 운영 시스템(314)을 저장할 수 있다. 메모리(310)는 본 개시내용의 실시 양상을 위한 다른 정보를 추가로 포함할 수 있다.
하나의 실시형태에서, 메모리(310)는 인터페이스 모듈(312)을 포함한다. 인터페이스 모듈(312)은 이를 통해 데이터 공급자(208A, 208B), 참조 공급자(210), 또는 호환성이 있는 컴퓨팅 장치를 이용하는 데이터 소비자(212A, 212B)가 스플라이스 변이체 결정 서비스(202) 스플라이스 데이터, 참조 데이터, 명령어 데이터, 메타데이터 등을 송신하거나 수신할 수 있거나, 그렇지 않으면, 스플라이스 변이체 결정 서비스(202)와 통신할 수 있는 하나 이상의 사용자 인터페이스를 생성하는 것을 가능하게 하도록 구성될 수 있다. 구체적으로, 인터페이스 모듈(312)은 스플라이스 데이터의 수득, 스플라이스 데이터의 처리, 스플라이스 데이터의 저장, 스플라이스 데이터의 송신, 스플라이스 데이터의 주석달기 등을 포함하는, 본 명세서에 기재된 처리 기능을 가능하게 하도록 구성될 수 있다. 예를 들면, 기준선 분석을 통한 스플라이스 변이체 결정이 일정한 검정하에 수행된 바에 따라 추적될 수 있도록, 데이터 공급자(208A, 208B), 또는 데이터 소비자(212A, 212B)는 특정한 검정을 통해 결정된 접합부를 저장하거나 주석을 달거나 검색할 수 있다. 이는 하나 이상의 생성된 사용자 인터페이스를 통해 수행될 수 있다. 사용자 인터페이스는 그래픽 사용자 인터페이스(GUI), 네트워크-기반의 사용자 인터페이스, 컴퓨터 프로그램, 스마트폰 또는 테이블 프로그램, 또는 어플리케이션, 터치스크린, 착용 컴퓨팅 장치 인터페이스, 명령 라인 인터페이스, 제스처, 음성 또는 문자 인터페이스 등, 또는 이의 임의의 조합으로서 실시될 수 있다. 추가로, 사용자 인터페이스는 후보 종양원성 사건 등인 필터링된 샘플 접합부를 결정하는 경우, 지시기를 포함할 수 있다.
추가로, 메모리(310)는 처리 유닛(302)에 의해 실행될 수 있는 데이터 처리 모듈(316)을 포함할 수 있다. 하나의 실시형태에서, 데이터 처리 모듈(316)은 본 개시내용의 양상을 실시한다. 비제한적인 예로서, 데이터 처리 모듈(316)은 스플라이스 데이터, 명령어, 참조 데이터, 또는 메타데이터를 처리하도록 구성될 수 있다. 구체적으로, 데이터 처리 모듈(316)은 샘플 접합부의 결정, 기준선 접합부의 결정, 필터링된 샘플 접합부의 결정, 조직으로부터의 RNA 판독물의 결정, 접합부 겹침의 제거, 필터링된 샘플 접합부의 검증, 충분한 겹침 수의 결정 등을 포함하는, 본 명세서에 기재된 기능을 수행하도록 구성될 수 있다.
스플라이스 변이체 결정 서비스(202)는 도 3에 관하여 본 명세서에서 논의되는 바와 같은 컴퓨팅 시스템(300)에 존재하는 일부 또는 모든 구성요소에 의해 실시될 수 있다는 것을 주의하여야 한다. 추가로, 컴퓨팅 시스템(300)은 도 3에 제시되지 않은 추가의 구성요소를 포함할 수 있다. 상기 기재된 모듈 또는 구성요소는 또한 추가의 모듈을 포함할 수 있거나, 도 2 또는 3에 도시되지 않을 수 있는 컴퓨팅 장치에 의해 실시될 수 있다. 예를 들면, 인터페이스 모듈(312) 및 데이터 처리 모듈(316)이 도 3에서 단일 모듈로서 식별됨에도 불구하고, 관련 분야의 숙련가는 모듈이 둘 이상의 모듈에 의해 분산된 방식으로 실시될 수 있다는 것을 인식할 것이다. 또한, 스플라이스 변이체 결정 서비스(202) 및 스플라이스 변이체 결정 데이터 저장소(204)가 도 2에서 단일 구성요소로서 식별됨에도 불구하고, 관련 분야의 숙련가는 둘 이상의 구성요소에 의해 분산된 방식으로 실시될 수 있다는 것이 인식될 것이다. 또 다른 예로서, 컴퓨팅 시스템(300) 및 이의 구성요소는 네트워크(206)를 통해 또는 대신에 데이터 공급자(208A, 208B) 또는 데이터 소비자(212A, 212B)와의 데이터 송신 및 수신을 가능하게 하도록 구성된, 네트워크 서버, 어플리케이션 서버, 데이터베이스 서버, 상기의 조합 등에 의해 실시될 수 있다. 따라서, 모듈 및 구성요소의 묘사는 사실상 예시적이다.
접합부
상기 소개된 바와 같이, 접합부는 특정한 스플라이스 변이체를 식별하는 방식이다. 접합부는 판독물 정렬기(read aligner)에서 업스트림으로 식별되고, DNA 게놈 상의 좌표에 의해 식별된다. 정상 조직에서, 접합부는 일반적으로 인트론(스플라이싱된 DNA 서열의 부분)보다는 엑손(스플라이싱된 후 유지된 DNA 서열의 부분) 사이의 경계에서 발생한다.
도 4는 스플라이스 변이체 결정 서비스(202)(도 2)에 의해 실시된 접합부 분석의 실시형태를 도시하는 흐름도이다. 도 4에 추가로, 접합부 분석(400)의 과정은 스플라이스 변이체 결정 서비스가 RNA 판독물을 검색하는 블록(402)에서 시작한다. RNA 판독물은 시퀀서를 사용하여 RNA 샘플을 처리하는 것으로부터 결정된 뉴클레오타이드 서열이다. 도 2를 참조하여, RNA 판독물은 스플라이스 변이체 결정 데이터 저장소(204) 또는 데이터 공급자(208A, 208B)로부터 검색될 수 있다. RNA 판독물은 조직 샘플로부터 결정될 수 있고, 구체적으로 건강한 조직 샘플(도 7과 관련하여 추가로 논의됨) 또는 종양 조직 샘플(도 6과 관련하여 추가로 논의됨)로부터 것일 수 있다. RNA 판독물은 하기 추가로 논의된 서열화 방법을 통해 시퀀서로부터 결정될 수 있다.
도 4에 추가로, 블록(404)에서, RNA 판독물은 정렬될 수 있다. RNA 판독물은 RNA 판독물을 검색하고, RNA 판독물을 DNA 참조에 따라 정렬함으로써 정렬될 수 있다. 정렬은 DNA 참조와 관련된 RNA 판독물에 대한 위치를 결정한다. 도 2를 참조하여, DNA 참조는 참조 공급자(210)에 의해 저장될 수 있지만, 접근의 용이함을 위하여 스플라이스 변이체 결정 데이터 저장소(204)에서 로컬로 저장(및 검색)될 수 있다. 도 4로 돌아가서, 참조 DNA 서열은 인간에 대한 유전자 세트의 대표적인 예로서 디지털 핵산 서열 데이터베이스의 참조 게놈의 부분일 수 있고, 전형적으로 다중 공여자로부터의 상이한 DNA 서열의 반수체 모자이크이다. RNA 판독물 및 DNA 서열은 정렬기, 예를 들면, 이에 한정되지 않지만, 미국 메릴랜드주 볼티모어 소재의 존스 홉킨스 대학에 의해 유지되는 보타이(Bowtie) 서열 정렬기(본 명세서에 그 전문이 참고로 편입되는 문헌[Langmead B, Trapnell C, Pop M, Salzberg SL, "Ultrafast and memory-efficient alignment of short DNA sequences to the human genome", Genome Biol 10:R25.]과 추가로 연결되어 기재됨), 미국 메릴랜드주 볼티모어 소재의 존스 홉킨스 대학에 의해 유지되는 탑 햇(Top Hat) 서열 정렬기(본 명세서에 그 전문이 참고로 편입되는 문헌[Trapnell C, Pachter L, Salzberg SL. "TopHat: discovering splice junctions with RNA-Seq", Bioinformatics doi:10.1093/bioinformatics/btp120.]과 관련하여 추가로 기재됨) 또는 깃허브(GitHub)에 의해 유지되는 스타(STAR) 서열 정렬기(본 명세서에 그 전문이 참고로 편입되는 문헌[Dobin, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR., "STAR: ultrafast universal RNA-seq aligner", Bioinformatics. 2013 Jan 1;29(1):15-21. doi: 10.1093/bioinformatics/bts635. Epub 2012 Oct 25]과 관련하여 추가로 기재됨)를 사용하여 정렬될 수 있다. DNA 서열에 따라 정렬된 RNA 판독물 내의 갭은 스플라이싱 사건을 지시하고, 처리된 접합부의 목록을 생성하는데 사용된다. 최근 실시에서, 정렬기는 다운스트림 처리 전에 스플라이스 접합부를 식별한다.
블록(406)에서, 스플라이스 변이체 결정 서비스(202)는 정렬된 DNA 서열과의 비교를 기반으로 RNA 판독물에서 누락된 인접한 위치가 있는지 여부를 결정한다. 이러한 결정은 상기 기재된, 정렬기를 사용하여 수행될 수 있다. 또한, 상기 소개된 바와 같이, RNA 판독물로부터의 이들 누락된 연속 위치는 정렬된 RNA 서열에서 제거된 DNA 서열 상의 좌표이다. 또한, 이들은 엔손과 인트론 사이의 경계에서 발생할 수 있다.
RNA 판독물에서 누락된 인접 영역이 있는 것으로 결정되는 경우, 접합부 분석(400)의 처리는 RNA 판독물에서 누락된 인접 영역이 접합부로 간주하는 블록(408)으로 진행된다.
블록(420)에서, 이러한 접합부는 스플라이스 변이체 결정 데이터 저장소(204)에서 저장될 수 있다. 이러한 접합부는 염색체의 표기 및 RNA 판독물에서 누락된 DNA 서열에서 위치와 함께 저장될 수 있다. 비제한적인 예로서, 접합부는 RNA 판독물에서 누락된 인접 영역이 위치(12)와 위치(15) 사이의 염색체(21)에서 발생하는 표기로서 저장될 수 있다.
RNA 판독물에서 누락된 인접 영역이 검출되지 않는 경우, 접합부 결정 과정은 블록(410)으로 진행되고, 접합부는 RNA 판독물로부터의 평가하의 섹션에 기인하지 않는다.
블록(416)은 블록(406, 408 및 410)을 포함하고, 접합부의 결정이라고 총괄하여 지칭될 수 있으며, 이는 적어도 도 6 및 도 7과 관련하여 하기에 언급된다.
종양원성 접합부 결정
도 5는 스플라이스 변이체 결정 서비스(202)(도 2)에 의해 실시된 가능한 종양원성 접합부를 결정하는 실시형태를 도시하는 흐름도이다. 도 5는 상기 및 하기 도면에서 더 상세히 논의되는 기준선 분석을 통한 종양원성 스플라이스 변이체 결정의 개요를 설명한다.
가능한 종양원성 접합부를 결정하는 과정(500)은 샘플 접합부가 결정되는 블록(502)에서 시작한다. 샘플 접합부의 결정은 도 6과 관련하여 추가로 논의된다.
도 5로 돌아와서, 블록(504)에서, 기준선 참조의 기준선 접합부가 결정된다. 기준선 접합부의 결정은 도 7과 관련하여 추가로 상세하게 논의된다.
블록(506)에서, 필터링된 샘플 접합부가 결정된다. 필터링된 샘플 접합부의 결정은 도 8과 관련하여 추가로 상세하게 논의된다.
샘플 접합부
상기 소개된 바와 같이, 기준선 분석을 통한 종양원성 스플라이스 변이체 결정은 환자로부터의 단일 종양 샘플을 사용하고, 유리하게는 환자로부터의 다중 샘플(종양 샘플 및 건강한, 비-종양 샘플)을 사용하는 전통적인 스플라이스 변이체 결정보다 더 단순하다.
도 6은 스플라이스 변이체 결정 서비스(202)에 의해 실시되는 샘플 접합부를 결정하는 실시형태를 도시하는 흐름도이다.
도 6에 설명된 샘플 접합부(502)의 결정은 환자로부터의 단일 종양 샘플을 반영하는 종양 샘플 판독물이 검색되는 블록(612)에서 시작한다. 단일 종양 샘플은 비정상 스플라이스 변이체를 지시하는 비정상 접합부의 식별을 위한 종양 조직으로부터 수집될 수 있다. 특정한 실시형태에서, 종양 샘플 판독물은 서열화 방법과 관련하여 하기 추가로 논의되는 바와 같이, 단일 종양 샘플의 서열화로부터 통상적인 방식으로 결정될 수 있다. 특정한 실시형태에서, 종양 샘플 판독물은 (예를 들면, 이에 한정되지 않지만, 하기 추가로 논의된 서열결정 방법을 통해) 데이터 공급자가 종양 샘플 판독물을 그 자체로 생성하거나, 스플라이스 변이체 결정 서비스가 종양 샘플 판독물을 검색하는 종양 샘플에 대한 저장소인 데이터 공급자(208A, 208B)(도 2와 관련하여 추가로 논의됨)로부터 검색될 수 있다.
도 6에 추가로, 블록(614)에서, 종양 샘플 RNA 판독물은 DNA 참조에 따라 정렬된다. 종양 샘플 RNA 판독물은 도 4와 관련하여 하기 추가로 논의되는 정렬기를 통해 결정될 수 있다.
도 6에 추가로, 블록(616)에서, 샘플 접합부는 블록(614)의 종양 샘플 RNA 판독물로부터 결정된다. 샘플 접합부는 도 4와 관련하여 하기 추가로 논의되는 정렬기를 통해 결정될 수 있다. 도 4를 참조하여 예시적이고 비제한적인 예로서, 샘플 접합부는 도 4와 관련하여 설명되는 바와 같은 접합부 분석(400)의 과정의 접합부 블록(416)을 결정하는 것과 유사하게 결정될 수 있고, 여기서 블록(402)에서 검색된 RNA 판독물은 블록(614)에서 단일 샘플로부터 결정된 RNA 판독물 및 블록(616)으로부터 결정된 샘플 접합부인 블록(408)에서 속하는 접합부이다.
도 6에 추가로, 블록(618)에서, 샘플 접합부는 스플라이스 변이체 결정 서비스(202)에 의한 추가의 검색 및 처리를 위하여 도 2와 관련하여 추가로 논의되는, 스플라이스 변이체 결정 데이터 저장소(204)에 저장될 수 있다.
특정한 실시형태에서, 샘플 접합부의 결정은 기준선 분석을 통한 종양원성 스플라이스 변이체 결정의 기간 동안 스플라이스 변이체 결정 서비스(202)에 의해 수행되는 다른 과정(예를 들면, 이에 한정되지 않지만, 필터링된 샘플 접합부의 결정 및/또는 기준선 접합부의 결정)을 감수하면서 발생할 수 있다. 다른 실시형태에서, 샘플 접합부의 결정은 기준선 분석을 통한 종양원성 스플라이스 변이체 결정의 기간 동안 스플라이스 변이체 결정 서비스(202)에 의해 수행되는 다른 과정(예를 들면, 이에 한정되지는 않지만, 필터링된 샘플 접합부의 결정 및/또는 기준선 접합부의 결정)과 독립적으로, 그 후에, 또는 그 전에 수행될 수 있다.
기준선 접합부
상기 소개된 바와 같이, 기준선 분석을 통한 종양원성 스플라이스 변이체 결정은 대체로 신규한 스플라이스 변이체 호출이 아닌 종양원성 사건을 위한 접합부 호출에 관한 것이다. 다수의 오류는 스플라이스 변이체 결정이 신규한 스플라이스 변이체 호출을 통해 수행되는 경우에 도입될 수 있다. 이들 오류는 종양원성 사건에 대한 스플라이스 변이체 호출의 정확성을 방해할 수 있는 알고리즘 또는 검정 문제를 포함할 수 있다. 비제한적인 예로서, 고려 중인 종양 샘플이 FFPE이기 때문에, 신규한 스플라이스 변이체 호출에서 검정 또는 샘플 제조에 의해 도입된 인공물이 있을 수 있다. 또한, 신규한 스플라이스 변이체 호출이 RNA 정렬기를 사용하는 판독물 정렬 상에 의존하기 때문에, 정렬 인공물이 있을 수 있다.
그러나, 본질적으로, 전사체가 포괄적으로 주석이 달리지 않은 문제가 있고, 이는 종양 진행과 관련되지 않은 것으로 보고된 사건을 야기한다. 특징화되지 않은 정상적인 건강한 세포에서 실제 구성요소 사건이 있을 수 있다. 알고리즘 또는 검정 문제는 검정 및 알고리즘으로부터의 오류를 제거함으로써 가설로 취급될 수 있다. 그러나, 정상적인 건강한 조직에서 실제로 특징화하는 시도 없이 전사체를 포괄적으로 주석이 달리지 않기 때문에 오류를 제거하는 것이 어려울 수 있다.
추가로, 상기 기재된 바와 같이, 신규한 스플라이스 변이체 호출은 전형적으로 단일 환자로부터의 적어도 2개의 샘플(건강한 조직으로부터의 적어도 하나의 샘플 및 종양 조직으로부터의 적어도 하나의 샘플)을 필요로 한다. 추가의 샘플을 처리해야 하는 것은 침습적이고 임상적으로 바람직하지 않다. 또한, 단일 환자에 대하여 다중 샘플을 운용하는 것은 시약 및 서열화 비용 둘 다를 극적으로 증가시킨다.
따라서, 전통적인 신규한 스플라이스 변이체 호출의 적어도 이들 단점은 기준선 분석을 통해 종양원성 스플라이스 변이체 결정을 수행하는 경우에 극복될 수 있다. 기준선 분석은 환자로부터의 단일 샘플을 평가하는 경우, 참조로서 사용된 정상적인, 건강한, 비-종양 조직 샘플로부터의 기준선 접합부의 다양한 단면의 기준선 참조를 사용하는 분석을 지칭한다. 이들 단면은 임의의 수의 기준, 예를 들면, 이에 한정되지 않지만, 지리학적 영역, 연령, 성별, 인종 집단, FFPE 인공물, FFPE 품질, 호몰로그 인공물, 폴리머라제 판독물-통한 인공물, 비-종양학적 대체 스플라이싱, 조직 유형 등을 가로지를 수 있다. 단면은 특정한 기준 내에서 변동이 있을 수 있다. 예를 들면, 연령의 단면은 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110세 등의 연령을 포함하지만 이들로 한정되지 않는 상이한 연령을 가로지르는 다양한 공여자로부터의 샘플을 포함할 수 있다. 추가의 예로서, 조직 유형의 단면은 폐, 부신, 방광, 유방, 난소, 간, 전립선, 피부, 비장 등으로부터 다양한 위치로부터의 조직을 포함하지만, 이들로 한정되지 않으며, 상이한 신체 부위로부터의 조직을 포함할 수 있다. 추가의 예로서, FFPE 인공물의 단면은 탈아미노화, 단편화, 염기 변형, 무염기 부위 등의 상이한 값을 포함할 수 있지만, 이들로 한정되지 않는다. 추가의 예로서, FFPE 품질의 단면은 상이한 크기의 RNA의 단편을 갖는 상이한 샘플을 포함할 수 있지만, 이것으로 한정되지 않는다.
추가로, 기준선 참조는 많은 상이한 조직 유형에 대하여 구성적 스플라이싱을 캡처하는데 포괄적으로 충 분할 수 있다. 심지어 기준선 참조에서 샘플이 스플라이스 변이체 발현을 완전히 겹치지 않을 수 있는 많은 상이한 조직 유형으로부터의 것일 수 있지만, 도 10 및 도 11와 관련하여 기재된 바와 같이 효과적인 기준선 분석에 대한 단면 조직에서 발견된 스플라이스 변이체의 유형에서 유의미하고 충분한 겹침이 있을 수 있다. 이는 더 포괄적인 기준선 참조를 갖는 종양원성 사건으로서 잘못 식별되는 거짓 또는 정상 생리학적 스플라이스 접합부를 감소시키는데 더 효과적일 수 있다.
기준선 분석을 통한 스플라이스 변이체 결정은 검정 또는 정렬 오류와 겹치는 실제 종양원성 스플라이싱 사건이 또한 필터링될 것이기 때문에 감응성에 대한 비용을 지불할 수 있다. 그러나, 정렬 및 샘플 취급이 개선됨에 따라, 기준선 참조는 또한 정상적인 건강한(비-종양) 샘플로부터의 정상적인 구성적인 접합부를 캡처하면서 개선된 방법을 반영하도록 업데이트될 수 있다.
도 7은 스플라이스 변이체 결정 서비스(202)에 의해 실시된 기준선 참조의 기준선 접합부를 결정하는 실시형태를 도시하는 흐름도이다.
도 7에 설명된 기준선 접합부(504)의 결정은 건강한(비-종양 조직) 샘플의 단면으로부터의 건강한 샘플이 검색되는 블록(712)에서 시작한다. 상기 기재된 바와 같이, 단면은 환자로부터 단일 샘플을 평가하는 경우, 참조로서 사용된 건강한(비-종양 조직) 샘플로부터의 접합부의 임의의 단면일 수 있다. 이들 단면은 임의의 수의 기준, 예를 들면, 이에 한정되지 않지만, 지리학적 영역, 연령, 성별, 인종 집단, FFPE 인공물, FFPE 품질, 호몰로그 인공물, 폴리머라제 판독물-통한 인공물, 비-종양학적 대체 스플라이싱, 조직 유형 등을 가로지를 수 있다.
특정한 실시형태에서, 건강한 샘플 판독물은 개별적인 건강한 조직 샘플의 서열화로부터의 통상적인 방식으로 결정될 수 있다. 서열화 방법은 하기 추가로 논의된다. 특정한 실시형태에서, 건강한 샘플 판독물은 데이터 공급자가 건강한 샘플 데이터를 그 자체로 생성하거나(예를 들면, 이에 한정되지 않지만, 하기 추가로 논의된 서열화를 통해) 데이터 공급자(208A, 208B)(도 2와 관련하여 추가로 논의됨)로부터 검색될 수 있거나, 스플라이스 변이체 결정 서비스가 건강한 샘플 피드를 검색하는 것으로부터 건강한 샘플 판독물에 대한 저장소이다.
도 7에 추가로, 블록(714)에서, 건강한 샘플 판독물은 참조 서열에 따라 정렬된다. 건강한 샘플 판독물은 도 4와 관련하여 상기 추가로 논의되는 정렬기를 통해 정렬될 수 있다.
블록(716)에서, 기준선 접합부는 블록(714)의 건강한 샘플 RNA 판독물로부터 결정된다. 기준선 접합부는 도 4와 관련하여 상기 추가로 논의되는 정렬기를 통해 결정될 수 있다. 도 4를 참조하여 예시적이고 비제한적인 예로서, 기준선 접합부는 도 4와 관련하여 설명된 바와 같이 접합부 분석(400)의 접합부 블록(416)을 결정하는 것과 유사하게 결정될 수 있고, 여기서 블록(402)에서 검색된 RNA 판독물은 블록(712)에서 건강한 샘플로부터 결정된 건강한 샘플 판독물이고, 블록(408)에 속하는 접합부는 블록(716)으로부터 결정된 기준선 접합부이다.
도 7에 추가로, 블록(718)에서, 기준선 접합부의 수집물은 스플라이스 변이체 결정 서비스(202)에 의한 추가의 검색 및 처리를 위하여, 도 2와 관련하여 추가로 논의되는 스플라이스 변이체 결정 데이터 저장소(204)에서 기준선 참조로서 저장될 수 있다.
특정한 실시형태에서, 기준선 접합부 또는 기준선 참조의 결정은 필터링된 샘플 접합부의 결정 및/또는 샘플 접합부의 결정 전에 수행될 수 있다. 따라서, 컴퓨팅 자원에서의 절약은 기준선 분석을 통한 스플라이스 변이체 결정의 각각의 세션과 함께 플라이 상에서 또는 즉석에서 결정되는 것보다는 스플라이스 변이체 결정 데이터 저장소(204)로부터 필요한 경우 기준선 참조가 검색되는 경우, 실현된다.
추가로, 특정한 실시형태에서, 기준선 접합부의 결정은 스플라이스 변이체 결정 데이터 저장소(204)로부터 저장된 기준선 참조의 검색을 포함할 수 있다. 추가의 실시형태에서, 기준선 참조의 결정 및 기준선 접합부의 구성은 기준선 분석을 통한 종양원성 스플라이스 변이체 결정의 세션 동안 발생할 수 있다.
필터링된 샘플 접합부
기준선 분석을 통한 스플라이스 변이체 결정은 필터링된 샘플 접합부를 생성한다. 이들 필터링된 샘플 접합부는 가능한 종양원성 스플라이스 변이체로서 샘플 접합부를 지시할 수 있다. 필터링된 샘플 접합부는 샘플 접합부 및 기준선 접합부가 동일한 검정을 사용하여 결정되는 경우, 기준선 접합부와 겹치지 않는 샘플 접합부일 수 있다. 또한, 건강한 비-종양원성 조직으로부터 야기된 것으로 알려지지 않은 접합부이기 때문에, 필터링된 샘플 접합부는 신규하고 따라서 가능하게는 종양원성 또는 암과 관련될 가능성이 있는 것으로 식별될 수 있다. 이들 필터링된 샘플 접합부는 스플라이스 변이체 및 약물 요법을 위한 잠재적인 표적으로서 식별될 수 있다.
특정한 실시형태에서, 필터링된 샘플 접합부는 필터링된 샘플 접합부가 어떻게 오류가 아닌지를 지지하는 증거에 의해 추가로 검증될 수 있다. 이러한 유형의 필터링된 샘플 접합부는 도 9와 관련하여 추가로 논의되는 검증된 필터링된 샘플 접합부일 수 있다.
추가의 실시형태에서, 필터링된 샘플 접합부는, 상기 논의된 바와 같은 기준선 접합부와 겹치지 않는 것 이외에, 제3자 접합부와 겹치지 않는 샘플 접합부로서 결정될 수 있다. 이러한 유형의 필터링된 샘플 접합부는 도 10과 관련하여 추가로 논의되는 기준선 제3자 필터링된 샘플 접합부로 지칭될 수 있다. 또한, 도 10과 관련하여 추가로 논의되는 바와 같이, 이러한 유형의 필터링된 샘플 접합부는 추가로 검증될 수 있고, 검증된 기준선 제3자 필터링된 샘플 접합부로 지칭될 수 있다.
도 8은 스플라이스 변이체 결정 서비스(202)에 의해 실시된 필터링된 샘플 접합부를 결정하는 실시형태를 도시하는 흐름도이다. 도 7에 도시된 필터링된 샘플 접합부(506)의 결정은 샘플 접합부가 검색되는 블록(812)에서 시작한다. 샘플 접합부의 결정은 도 6과 관련하여 추가로 논의된다. 또한, 샘플 접합부는 도 2 및 도 6과 관련하여 추가로 논의되는 바와 같이 스플라이스 변이체 결정 데이터 저장소(204)로부터 검색될 수 있다.
도 8로 돌아가서, 블록(814)에서, 기준선 접합부의 기준선 참조(블록(812)의 샘플 접합부와의 공통 검정을 사용하여 결정됨)가 검색된다. 기준선 참조의 결정은 도 7과 관련하여 추가로 논의된다. 또한, 기준선 참조는 도 2 및 도 7과 관련하여 추가로 논의된 바와 같이 스플라이스 변이체 결정 데이터 저장소(204)로부터 검색될 수 있다.
블록(816)에서, 스플라이스 변이체 결정 서비스(202)는 샘플 접합부가 기준선 접합부와 겹치는지 여부를 결정한다. 특정한 실시형태에서, 이러한 결정은 이들이 겹치는지 여부를 결정하는 기준선 참조의 기준선 접합부 각각과 각각의 샘플 접합부의 값을 비교하는 것을 기준으로 할 수 있다. 겹침은 비교되는 접합부간 동일한 값 또는 좌표가 있는지를 결정하는 것을 나타낸다. 비제한적인 예로서, 이는 제2 샘플 접합부를 각각의 기준선 접합부와 비교하기 전에, 제1 샘플 접합부를 각각의 기준선 접합부와 비교하여 수행될 수 있다.
블록(816)에 추가로, 특정한 실시형태에서, 기준선 참조의 모든 기준선 접합부는 개별적으로 참조되어 블록(816)에서 샘플 접합부와 겹치는지 여부를 결정할 수 있다. 그러나, 추가의 실시형태에서, 참조된 기준선 접합부는 블록(812)에서 검색된 샘플 접합부의 좌표에 따라 좌우될 수 있다. 구체적으로, 블록(812)에서 검색된 샘플 접합부와 겹칠 수 있는 기준선 접합부가 참조되지만, 블록(812)에서 결정된 샘플 접합부와 겹치지 않을 기준선 접합부는 참조되지 않는다. 비제한적인 예로서, 특정한 염색체의 샘플 접합부는 그 염색체의 기준선 접합부와 비교될 수 있다. 유리하게는, 샘플 접합부의 좌표에 따른 참조된 기준선 접합부를 갖는 것은 샘플 접합부의 좌표와 독립적인 기준선 참조의 모든 기준선 접합부를 검색하거나 처리하는 것과 비교하는 경우, 계산 효율을 개선시킬 수 있다.
샘플 접합부가 기준선 참조의 기준선 접합부와 겹친다고 결정되는 경우, 과정은 겹치는 샘플 접합부가 필터링된 샘플 접합부가 아닌 겹치는 샘플 접합부로서 수집되는 블록(822)로 진행된다.
샘플 접합부가 임의의 기준선 참조의 기준선 접합부와 겹치지 않는다고 결정되는 경우, 과정은 임의의 기준선 접합부와 겹치지 않는 샘플 접합부가 필터링된 샘플 접합부로서 수집되는 블록(818)으로 진행된다.
블록(824)은 기준선 접합부 겹침이 있는 샘플 접합부를 제거함으로써 필터링된 샘플 접합부를 수집하는 수집 단계를 나타내고, 총괄하여 블록(816), 블록(818), 및 블록(822)의 수정이다. 블록(822)은 도 10과 관련하여 하기 참조될 수 있다.
블록(820)에서, 필터링된 샘플 접합부는 검증된다. 필터링된 샘플 접합부의 검증은 도 9와 관련하여 추가로 논의된다. 특정한 실시형태에서, 필터링된 샘플 접합부의 검증은 (블록(820)의 점선에 의해 기재된 바와 같이) 선택적일 수 있고, 필터링된 샘플 접합부는 도 9와 관련하여 기재된 바와 같이 검증 없이 사용될 수 있다. 대안적으로, 검증은 기준선 분석을 통한 스플라이스 변이체 결정의 과정의 다른 부분에서, 예를 들면, 이에 한정되지 않지만, 접합부가 결정된 후 임의의 지점에서 발생할 수 있다.
도 8에 추가로, 블록(830)에서, 필터링된 샘플 접합부는 스플라이스 변이체 결정 서비스(202)에 의한 추가의 검색 및 처리 또는 데이터 소비자(208A, 208B)에 의한 추가의 검색 및 처리를 위하여, 도 2와 관련하여 추가로 논의되는, 스플라이스 변이체 결정 데이터 저장소(204)에서 저장될 수 있다.
검증
접합부 검증은 기준선 접합부와 겹치지 않는 필터링된 샘플 접합부가 오류인지 여부를 결정하기 위하여 수행될 수 있다. 많은 실시형태에서, 접합부 검증은 도 8의 블록(824)을 통해 결정된 필터링된 샘플 접합부 상에서 수행될 수 있고, 여기서 기준선 접합부와 겹치지 않는 샘플 접합부는 필터링된 샘플 접합부로서 수집된다. 샘플 접합부가 검증되지 않은 경우, 필터링된 샘플 접합부의 수는 샘플 접합부의 수보다 작기 때문에 그렇게 하는 것이 유리할 수 있다. 그러나, 추가의 실시형태는 또한 필터링된 샘플 접합부가 아닌 샘플 접합부의 검증 및/또는 샘플 접합부 및 필터링된 샘플 접합부 둘 다의 검증을 고려한다.
상기 기재된 바와 같이, 접합부는 단일 샘플로부터 적어도 하나의 RNA 판독물을 통해 결정될 수 있다. 서열화와 관련하여 하기 추가로 설명된 바와 같이, 샘플로부터의 RNA는 서열화 과정 동안 증폭되거나 복제될 수 있다. 증폭된 RNA는 서열화 동안 신호 대 잡음비를 증가시키는데 사용될 수 있다. 추가로, 증폭된 RNA로부터의 판독물은 RNA로부터의 특정한 판독물을 확인하고 지지하는데 사용될 수 있다. 유사하게, 증폭된 RNA로부터의 판독물은 RNA 판독물로부터 결정된 특정한 접합부의 정확성을 확인하거나 지지하는 지지 접합부 판독물일 수 있다. 이들 지지 접합부 판독물은 RNA 판독물로부터 결정된 특정한 접합부가 불필요한 추가의 판독물로부터의 접합부를 포함하는 판독물일 수 있다. 따라서, 특정한 접합부의 검증은 지지 접합부 판독물의 임계 수가 검증하에 특정한 접합부에 대하여 결정되는 경우 결정될 수 있다.
도 12a 및 도 12b는 필터링된 샘플 접합부를 검증하는 특징을 도시하는 개념도이다. 도 12a 및 도 12b에 도시된 바와 같이, 지지 접합부 판독물(1202)은 정렬이 검증하에 접합부의 스타트(1204)에서 끝나는 스플리트 판독물일 수 있고, 스타트는 검증하에 접합부의 기타 말단(1206)에서 다시 시작한다. 이는 정렬이 검증하에 접합부에 지속되는지 여부를 평가하는 것(1210), 정렬이 검증하에 접합부의 하나의 말단에서 끝나는지 여부를 평가하는 것(1212), 및/또는 정렬이 검증하에 접합부의 다른 말단에서 시작하는지 여부를 평가하는 것(1214)에 의해 결정될 수 있다.
따라서, 도 12a에 도시된 바와 같이, 판독물은 접합부 내에 판독물의 임의의 정렬된 면이 있는 경우, 지지 접합부 판독물로 간주되지 않을 것이다. 또한, 또 다른 방식으로 기재되고 도 12b에 도시된 바와 같이, 엑손(1220)은 검증하에 접합부의 중간에 정렬되지 않고 검증하에 접합부의 말단에 정렬되어야 한다.
특정한 실시형태에서, 접합부는 검증하에 접합부에 대하여 점수를 기여하여 검증될 수 있다. 점수는 0 내지 1일 수 있고, 1점을 하기 식에 표현된 바와 같이 각각의 지지 접합부 판독물에 더한다:
점수 =(분(u,M) - N) * 1/(M-N)
여기서, M은 검증하에 접합부에 걸친 판독물의 최대 수(디폴트 10)이고, N은 검증하에 접합부에 걸친 판독물의 최소 수(디폴트 0)이고, u는 지지 접합부 판독물의 수이다. 상기 식에 의해 지지되는 바와 같이, 검증은 적어도 10개의 지지 접합부 판독물이 검증하에 접합부에 대하여 결정되는 경우, 달성된다.
도 9는 스플라이스 변이체 결정 서비스(202)에 의해 실시되는 접합부를 검증하는 실시형태를 도시하는 흐름도이다. 도 9에 도시된 접합부(900)의 검증 과정은 샘플로부터의 제1 RNA 판독물로부터의 접합부가 결정되는 블록(902)에서 시작한다. 특정한 실시형태에서, 샘플은 도 6과 관련하여 상기 추가로 논의된 단일 샘플 및 블록(612, 614 및 616)과 관련하여 논의되는 바와 같은 단일 샘플로부터의 결정된 접합부일 수 있다. 또한, 검증 분석하에 접합부는 제1 RNA 판독물로부터 결정된 접합부일 수 있다. 또한, 접합부의 결정 과정은 도 4와 관련하여 추가로 논의된다.
도 9에 추가로, 블록(904)에서, RNA 판독물로부터의 추가의 접합부는 샘플로부터 결정될 수 있다. 상기 논의된 바와 같이, 단일 샘플은 다중 RNA 판독물을 가질 수 있다. 이들 RNA 판독물은 제1 판독물이 불필요한 접합부를 포함하는 지지 접합부 판독물로서 사용될 수 있다. 또한, 샘플은 도 6과 관련하여 상기 추가로 논의되는 단일 샘플 및 블록(612, 614, 및 616)과 관련하여 논의된 바와 같이 단일 샘플로부터 결정된 접합부일 수 있다. 추가로, 접합부의 결정 과정은 도 4와 관련하여 추가로 논의된다.
도 9에 추가로, 블록(906)에서, 스플라이스 변이체 결정 서비스(202)는 충분한 겹침 수가 추가의 RNA 판독물로부터 추가의 접합부로부터 존재하는지 여부를 결정한다. 충분한 겹침 수는 검증이 속할 수 있는 겹침 지지 접합부 판독물의 임계 수(예를 들면, 이에 한정되지 않지만, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개의 겹침 지지 접합부 판독물)일 수 있다.
충분한 겹침 수가 존재한다고 결정되는 경우, 과정은 블록(902)에서 참조된 접합부가 검증됨에 따라 속하게 되는 블록(또는 검증된 필터링된 샘플 접합부)(908)으로 진행된다.
충분한 겹침 수가 존재하지 않는다고 결정되는 경우, 과정은 RNA 판독물로부터의 추가의 접합부가 샘플로부터 결정될 수 있는 블록(904)으로 돌아간다.
예시적인 실시형태
도 10은 가능한 종양원성 접합부를 결정하는 실시형태의 개념적 설명을 수반한 흐름도이다. 도 10의 흐름도는 비-암성 스플라이스 변이체를 나타내는 제3자 접합부가 기준선 분석을 통한 스플라이스 변이체 결정의 부분으로서 사용되는 실시형태를 도시한다. 비-암성 스플라이스 변이체를 나타내는 이들 제3자 접합부는 건강한(비-종양 조직) 샘플의 교차 샘플로부터 결정되는 기준선 접합부와 대조적으로 신규한 스플라이스 변이체 호출로부터 결정될 수 있다.
흐름도(1000)는 흐름도(1000)의 각각의 블록을 나타내는 설명(1050)과 병치된다.
도 10에 도시된 종양원성 스플라이스 변이체 결정(1000)의 과정은 단일 종양 샘플로부터의 RNA 판독물이 도 6과 관련하여 상기 논의된 바와 같이 정렬되는 블록(614)에서 시작한다.
블록(616)에서, 샘플 접합부는 도 6과 관련하여 상기 추가로 논의된 바와 같이 블록(614)의 RNA 판독물로부터 결정된다.
블록(1002)에서, 제3자 접합부와 겹치는 샘플 접합부는 제거된다. 상기 논의된 바와 같이, 비-암성 스플라이스 변이체를 나타내는 이들 제3자 접합부는 건강한(비-종양 조직) 샘플의 교차 샘플로부터 결정되는 기준선 접합부의 기준선 참조와 대조적으로 신규한 스플라이스 변이체 호출로부터 결정될 수 있다. 블록(1002)에 따라 제3자 접합부와 겹치는 샘플 접합부의 제거는 도 8과 관련하여 논의되는 바와 같이 샘플 접합부 및 기준선 접합부 겹침(824)를 제거하는 과정과 유사한 방식으로 수행될 수 있지만, 기준선 접합부(도 8)는 제3자 접합부이고, 필터링된 샘플 접합부(도 8)는 제3자 접합부와 겹치는 샘플 접합부의 제거 후 남아 있는 제3자 필터링된 샘플 접합부이다.
도 10에 추가로, 블록(1004)에서, 기준선 제3자 필터링된 샘플 접합부는 기준선 접합부 겹침이 있는 제3자 필터링된 샘플 접합부를 제거함으로써 수집된다. 블록(1004)에 따라 기준선 접합부와 겹치는 제3자 필터링된 샘플 접합부의 제거는 도 8과 관련하여 논의된 바와 같은 샘플 접합부 및 기준선 접합부 겹침(824)의 제거 과정과 유사한 방식으로 수행될 수 있고, 샘플 접합부(도 8)는 제3자 필터링된 샘플 접합부이고, 필터링된 샘플 접합부(도 8)는 기준선 접합부와 겹치는 제3자 필터링된 샘플 접합부의 제거 후 남아 있는 기준선 제3자 필터링된 샘플 접합부이다.
도 10에 추가로, 블록(1006)에서, 기준선 제3자 필터링된 샘플 접합부는 검증된다. 블록(1006)에 따라 기준선 제3자 필터링된 샘플 접합부의 검증은 도 9와 관련하여 논의된 바와 같은 접합부(900)의 검증 과정과 유사한 방식으로 수행될 수 있지만, 여기서 제1 RNA 판독물(도 9)로부터의 접합부는 기준선 제3자 필터링된 샘플 접합부이고, 블록(908)에서 검증됨에 따라 속하는 접합부는 검증된 기준선 제3자 필터링된 샘플 접합부이다.
블록(1008)에서, 검증된 기준선 제3자 필터링된 샘플 접합부는 저장될 수 있다. 검증된 기준선 제3자 필터링된 샘플 접합부의 저장은 도 8의 블록(830)과 관련하여 논의되는 필터링된 샘플 접합부의 저장과 유사한 방식으로 수행될 수 있지만, 여기서 필터링된 샘플 접합부보다는 검증된 기준선 제3자 필터링된 샘플 접합부가 저장된다. 검증된 기준선 제3자 필터링된 샘플 접합부는, 이에 한정되지 않지만, 도시된 실시형태에서 변이체 콜 형식(VCF) 파일과 같은 임의의 데이터 구조에 저장될 수 있다. VCF 파일은 적어도 메타-정보 라인, 헤더 라인, 및 그 다음, 데이터 라인을 함유하고, 각각은 적어도 하나의 검증된 필터링된 샘플 접합부와 연관된 좌표를 함유한다.
상기 기재된 바와 같이, 필터링된 샘플 접합부(예를 들면, 상기 논의된 바와 같은 검증된 기준선 제3자 필터링된 샘플 접합부)는 상기 논의된 바와 같이 기준선 접합부와 겹치지 않는 것 이외에 제3자 접합부와 겹치지 않는 샘플 접합부로서 결정될 수 있다. 블록(1002), 블록(1004), 및 블록(1006)이 도 10의 흐름도(1000) 내에 특정한 순서로 발생하지만, 블록(1002), 블록(1004), 및 블록(1006)은 따라서 조절된 종속성을 갖는 필터링된 샘플 접합부를 결정하는 임의의 지점에서 발생할 수 있다.
도 11은 도 10의 실시형태로부터의 실험 결과를 도시하는 표이다. 도 11에 도시된 바와 같이, 스플라이스 변이체(접합부)는 조직 유형(폐, 부신, 방광, 유방, 난소, 간, 전립선, 피부, 및 비장)의 단면에 걸친 71개의 상이한 교차 입증된 정상적인 건강한(비-종양) 샘플에 대하여 플롯팅된다. 7개의 상이한 교차 입증 세트는 시험되는 10개의 샘플로 구성되어 생성되었고, 남은 61개로부터 기준선 참조를 생성하였다. 필터링은 제3자 접합부 겹침을 먼저 제거한 후, 기준선 접합부 겹침을 제거함으로써 수행된다. 도 11에 기재된 바와 같이, 제3자 접합부 겹침을 제거한 후, 이와 관련된 기준선 접합부 겹침을 제거한 후의 스플라이스 변이체의 낮은 수가 있다. 이는 제3자 접합부와 겹치는 샘플 접합부의 제거와 비교하여 신규한 접합부(필터링된 샘플 접합부, 또는 후보 종양원성 사건)의 수에서 더 큰 감소를 나타낸다. 실제로, 매우 적은 신규한 접합부가 기준선 분석을 통한 종양원성 스플라이스 변이체 결정을 겪은 후 필터링된 샘플 접합부로서 남는다.
성능/검출 한계
RNA에서 변이체에 대한 검출 한계는 얼마나 많은 영향을 받은 전사가 발현된 특정한 스플라이스 변이체 이외에 발현되는지의 함수일 수 있다. RNA 1 ng당 융합 카피 수에서 검출의 효과적인 한계는 얼마나 많은 스플라이스 변이체 전사가 특정한 FFPE 샘플에서 발현되는지를 측정하는 디지털 액적 PCR(ddPCR)을 사용하여 검출될 수 있다.
기준선 분석을 통해 종양원성 스플라이스 변이체 결정의 성능을 증명하기 위하여, 3개의 스플라이스 변이체(EGFRviii, ARv7, 및 MET 엑손 14 스키핑)를 FFPE 종양 샘플에서 식별한 다음, ddPCR을 사용하여 측정하였다. 스플라이스 변이체의 발현 수준이 충분히 높은 경우, 이들 샘플을 RNA 1 ng당 2개의 카피로 적정하였다. 이러한 데이터로부터, 기준선 분석을 통한 종양원성 스플라이스 변이체 결정은 RNA(EGFRviii) 1 ng당 13개의 카피만큼 낮은 적어도 하나의 스플라이스 변이체를 호출하였다. RNA 1 ng당 5개의 카피에서, 모든 3개의 스플라이스 변이체는 기준선 분석을 통한 종양원성 스플라이스 변이체 결정을 통해 정확하게 식별된다.
서열화 방법
본 명세서에 기재된 방법은 다양한 핵산 서열화 기술과 함께 사용될 수 있다. 특정하게 적용되는 기술은 핵산이 이들의 관련 위치가 변하지 않도록 고정된 위치에 부착되고 어레이가 반복적으로 이미화되는 것들이다. 이미지가, 예를 들면, 하나의 뉴클레오타이드 염기 유형을 또 다른 것과 구별하는데 사용되는 상이한 표지와 함께, 상이한 색상 채널로 수득되는 실시형태가 특정하게 적용 가능하다. 몇몇 실시형태에서, 표적 핵산의 뉴클레오타이드 서열을 결정하는 과정은 자동화된 과정일 수 있다. 바람직한 실시형태는 합성에 의한 서열화("SBS") 기술을 포함한다.
SBS 기술은 일반적으로 주형 가닥에 대한 뉴클레오타이드의 반복 첨가를 통한 발생기 핵산 가닥의 효소적 연장을 포함한다. SBS의 전통적인 방법에서, 단일 뉴클레오타이드 단량체는 각각의 전달에서 폴리머라제의 존재하에 표적 뉴클레오타이드로 제공될 수 있다. 그러나, 본 명세서에 기재된 방법에서, 하나 이상의 유형의 뉴클레오타이드 단량체는 전달에서 폴리머라제의 존재하에 표적 핵산에 제공될 수 있다.
SBS는 종결부위 잔기를 갖는 뉴클레오타이드 단량체 또는 임의의 종결부위 잔기가 없는 것들 사용할 수 있다. 종결부위가 없는 뉴클레오타이드 단량체를 사용하는 방법은, 예를 들면, 하기 추가로 상세하게 기재된 바와 같은 γ-포스페이트-표지화된 뉴클레오타이드를 사용하는 파이로서열화 및 서열화를 포함한다. 종결부위가 없는 뉴클레오타이드 단량체를 사용하는 방법에서, 각각의 사이클에서 첨가되는 뉴클레오타이드의 수는 일반적으로 가변적이고, 주형 서열 및 뉴클레오타이드 전달의 방식에 따라 좌우된다. 종결부위 잔기를 갖는 뉴클레오타이드 단량체를 사용하는 SBS 기술에 있어서, 종결부위는 다이데옥시뉴클레오타이드를 이용하는 전통적인 생거(Sanger) 서열화에 대한 경우와 마찬가지로 사용되는 서열화 조건하에 효과적으로 비가역적일 수 있거나, 종결부위는 솔렉사(Solexa)(현재 일루미나사(Illumina, Inc.))에 의해 개발된 서열화 방법에 대한 경우와 마찬가지로 가역적일 수 있다.
SBS 기술은 표지 잔기를 갖는 뉴클레오타이드 단량체 또는 표지 잔기가 없는 것들을 사용할 수 있다. 따라서, 혼입 사건은 표지의 특성, 예를 들면, 표지의 형광성; 뉴클레오타이드 단량체의 특성, 예를 들면, 분자량 또는 전하; 뉴클레오타이드의 혼입의 부산물, 예를 들면, 파이로포스페이트의 방출 등을 기반으로 검출될 수 있다. 2개 이상의 상이한 뉴클레오타이드가 서열화 시약 중에 존재하는 실시형태에서, 상이한 뉴클레오타이드는 서로 구별될 수 있거나, 대안적으로, 2개 이상의 상이한 표지는 사용 중인 검출 기술하에 구별되지 않을 수 있다. 예를 들면, 서열화 시약 중에 존재하는 상이한 뉴클레오타이드는 상이한 표지를 가질 수 있고, 이들은 솔렉사(현재 일루미나사)에 의해 개발된 서열화 방법에 의해 예시화된 바와 같이 적절한 광학을 사용하여 구별될 수 있다.
바람직한 실시형태 파이로서열화 기술을 포함한다. 파이로서열화는 특정한 뉴클레오타이드가 발생기 가닥으로 혼입됨에 따라 무기 파이로포스페이트(PPi)의 방출을 검출한다(본 명세서에 그 전문이 참고로 편입되는 문헌[Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. and Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res. 11(1), 3-11; Ronaghi, M., Uhlen, M. and Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate." Science 281(5375), 363]; 미국 특허 제6,210,891호; 미국 특허 제6,258,568호 및 미국 특허 제6,274,320호). 파이로서열화에서, 방출된 PPi는 ATP 설푸릴라제에 의하여 아데노신 트라이포스페이트(ATP)로 즉시 전환됨에 따라 검출될 수 있고, 발생된 ATP의 수준은 루시페라제-생성된 양성자를 통해 검출된다. 서열화되는 핵산은 어레이에서 특징부에 부착될 수 있고, 어레이는 이미지화되어 어레이의 특징부에서 뉴클레오타이드의 혼입으로 인하여 생성되는 화학발광 신호를 캡처할 수 있다. 이미지는 어레이가 특정한 뉴클레오타이드 유형(예를 들면, A, T, C 또는 G)으로 처리된 후, 수득될 수 있다. 각각의 뉴클레오타이드 유형의 첨가 후, 수득된 이미지는 어레이가 검출되는 특징부에 관하여 달라질 것이다. 이미지에서 이들 차이는 어레이 상의 특징부의 상이한 서열 내용을 반영한다. 그러나, 각각의 특징부의 관련 위치는 이미지에서 변화하지 않고 남아 있을 것이다. 이미지는 본 명세서에 기재된 방법을 사용하여 저장되고, 처리되고, 분석될 수 있다. 예를 들면, 각각 상이한 뉴클레오타이드 유형에 의한 어레이의 처리 후, 수득된 이미지는 가역적인 종결부위-기반의 서열화 방법에 대하여 상이한 검출 채널로부터 수득된 이미지에 대하여 본 명세서에서 예시된 바와 동일한 방식으로 취급될 수 있다.
SBS의 또 다른 예시적인 유형에서, 사이클 서열화는, 예를 들면, 절단 가능 또는 광표백성 염료 표지, 예를 들면, 개시내용이 본 명세서에 참고로 편입되는 제WO 04/018497호 및 미국 특허 제7,057,026호에서 기재된 바와 같은 것을 함유하는 가역적인 종결부위 뉴클레오타이드의 단계적 첨가에 의해 달성된다. 이러한 접근은 솔렉스(현재 일루미나사)에 의해 상업화되고 있고, 각각이 본 명세서에 참고로 편입되는 제WO 91/06678호 및 제WO 07/123,744호에 기재되어 있다. 종결이 역전될 수 있고 형광 표지가 절단되는 형광 표지화된 종결부위의 이용 가능성은 효과적인 환형 가역적인 종결(CRT) 서열화를 촉진한다. 폴리머라제는 또한 동시 조작되어 효과적으로 혼입하고 이들 변형된 뉴클레오타이드로부터 연장될 수 있다.
바람직하게는 가역적인 종결부위-기반의 서열화 실시형태에서, 표지는 SBS 반응 조건하에 연장을 실질적으로 억제하지 않는다. 그러나, 검출 표지는, 예를 들면, 절단 또는 분해에 의해 제거 가능할 수 있다. 이미지는 어레이된 핵산 특징부로 표지의 혼입 후 캡처될 수 있다. 특정한 실시형태에서, 각각의 사이클은 어레이로의 4개의 상이한 뉴클레오타이드 유형의 동시 전달을 포함하고, 각각의 뉴클레오타이드 유형은 스펙트럼적으로 구별되는 표지를 갖는다. 그 다음, 4개의 상이한 표지 중 하나에 대하여 선택적인 검출 채널을 각각 사용하여 4개의 이미지를 수득할 수 있다. 대안적으로, 상이한 뉴클레오타이드 유형은 순차적으로 첨가될 수 있고, 어레이의 이미지는 각각의 첨가 단계 사이에 수득될 수 있다. 이러한 실시형태에서 각각의 이미지는 특정한 유형의 혼입된 뉴클레오타이드를 갖는 핵산 특징부를 보여줄 것이다. 상이한 특징부는 각각의 특징부의 상이한 서열 내용으로 인하여 상이한 이미지 중에 존재하거나 부재할 것이다. 그러나, 특징부의 상대 위치는 이미지에서 변화하지 않은 채로 남아 있을 것이다. 이러한 가역적인 종결부위-SBS 방법으로부터 수득된 이미지는 본 명세서에 기재된 바와 같이 저장되고, 처리되고, 분석될 수 있다. 이미지 캡처 단계 후, 표지는 제거될 수 있고, 가역적인 종결부위 잔기는 뉴클레오타이드 첨가 및 검출의 후속적인 사이클을 위하여 제거될 수 있다. 이들이 특정한 사이클에서 검출된 후에, 후속 사이클 전에, 표지의 제거는 사이클 사이의 배경 신호 및 혼선을 감소시키는 이점을 제공할 수 있다. 유용한 표지 및 제거 방법의 예는 하기 기재된다.
특정한 실시형태에서 일부 또는 모든 뉴클레오타이드 단량체는 가역적인 종결부위를 포함할 수 있다. 이러한 실시형태에서, 가역적인 종결부위/절단 가능한 플루오르는 3' 에스터 연결기를 통하여 리보스 잔기에 연결된 플루오르를 포함할 수 있다(본 명세서에 참고로 편입되는 문헌[Metzker, Genome Res. 15:1767-1776 (2005)]). 기타 접근은 형광 표지의 절단으로부터 종결부위 화학을 분리하였다(본 명세서에 그 전문이 참고로 편입되는 문헌[Ruparel et al., Proc Natl Acad Sci USA 102: 5932-7 (2005)]). 문헌[Ruparel et al]에는 작은 3' 알릴기를 블록 연장으로 사용하는 가역적인 종결부위의 발달이 기재되어 있지만, 팔라듐 촉매에 의한 짧은 처리에 의해 용이하게 탈블록화될 수 있다. 형광단은 장파장 UV 광에 대한 30초 노출에 의한 용이하게 절단될 수 있는 광절단성 연결기를 통해 염기에 부착되었다. 따라서, 다이설파이드 감소 또는 광절단은 절단 가능한 연결기로서 사용될 수 있다. 가역적인 종결에 대한 또 다른 접근은 dNTP 상의 부피가 큰 염료의 대체 후, 보장되는 천연 종결의 사용이다. dNTP 상의 하전된 부피가 큰 염료의 존재는 입체 및/또는 정전기 방해를 통해 효과적인 종결부위로서 작용할 수 있다. 염료가 제거되지 않은 한, 하나의 혼입 사건의 존재는 추가의 혼입을 방지한다. 염료의 절단은 플루오르를 제거하고, 효과적으로 종결을 역전시킨다. 변형된 뉴클레오타이드의 예는 또한 본 명세서에 그 전문이 참고로 편입되는 미국 특허 제7,427,673호 및 미국 특허 제7,057,026호에 기재되어 있다.
본 명세서에 기재된 방법 및 시스템과 함께 사용될 수 있는 추가의 예시적인 SBS 시스템 및 방법은 개시내용이 본 명세서에 그 전분이 참고로 편입되는 미국 특허 출원 공개 제2007/0166705호, 미국 특허 출원 공개 제2006/0188901호, 미국 특허 제7,057,026호, 미국 특허 출원 제2006/0240439호, 미국 특허 출원 공개 제2006/0281109호, PCT 공개 제WO 05/065814호, 미국 특허 출원 공개 제2005/0100900호, PCT 공개 제WO 06/064199호, PCT 공개 제WO 07/010,251호, 미국 특허 출원 공개 제2012/0270305호 및 미국 특허 출원 공개 제2013/0260372호에 기재된다.
몇몇 실시형태는 4개 미만의 상이한 표지를 사용하여 4개의 상이한 뉴클레오타이드의 검출을 사용할 수 있다. 예를 들면, SBS는 미국 특허 출원 공개 제2013/0079232호의 포함된 자료에 기재된 방법 및 시스템을 사용하여 수행될 수 있다. 제1 예로서, 한 쌍의 뉴클레오타이드 유형은 동일한 파장에서 검출될 수 있지만, 쌍의 한 멤버에 대하여 다른 멤버와 비교하여 강도에서의 차이를 기반으로, 또는 쌍의 다른 멤버에 대하여 신호 검출과 비교하여 나타나거나 사라지는 명백한 신호를 유발하는 쌍의 한 멤버에 대한 변화(예를 들면, 화학 변형, 광화학 변형 또는 물리적 변형을 통해)를 기반으로 구별될 수 있다. 제2 예로서, 4개의 상이한 뉴클레오타이드 유형 중 3개는 특정한 조건하에 검출될 수 있지만, 제4 뉴클레오타이드 유형은 이들 조건하에 검출 가능하거나 이들 조건하에 최소로 검출되는 표지가 없다(예를 들면, 배경 형광으로 인한 최소 검출 등). 제1 3개의 뉴클레오타이드 유형의 핵산으로의 혼입은 이들 각각의 신호의 존재를 기반으로 결정될 수 있고, 제4 뉴클레오타이드 유형의 핵산으로의 혼입은 임의의 신호의 부재 또는 최소 검출을 기반으로 결정될 수 있다. 제3 예로서, 하나의 뉴클레오타이드 유형은 2개의 상이한 채널에서 검출되는 표지(들)를 포함할 수 있는 반면, 다른 뉴클레오타이드 유형은 하나 이하의 채널에서 검출된다. 상기 언급된 3개의 예시적인 구성은 상호 배타적으로 고려되지 않고, 다양한 조합으로 사용될 수 있다. 모든 3개의 예를 조합하는 예시적인 실시형태는 제1 채널에서 검출되는 제1 뉴클레오타이드 유형(예를 들면, 제1 여기 파장에 의해 여기될 때, 제1 채널에서 검출되는 표지를 갖는 dATP), 제2 채널에서 검출되는 제2 뉴클레오타이드 유형(예를 들면, 제2 여기 파장에 의해 여기될 때, 제2 채널에서 검출되는 표지를 갖는 dCTP), 제1 및 제2 채널 둘 다에서 검출되는 제3 뉴클레오타이드 유형(예를 들면, 제1 및/또는 제2 여기 파장에 의해 여기될 때, 두 채널에서 검출되는 적어도 하나의 표지를 갖는 dTTP) 및 채널에서 검출되지 않거나 최소로 검출되는 표지가 없는 제4 뉴클레오타이드 유형(예를 들면, 표지를 갖지 않는 dGTP)을 사용하는 형광-기반의 SBS 방법이다.
추가로, 미국 특허 출원 공개 제2013/0079232호의 포함된 자료에 기재된 바와 같이, 서열화 데이터는 단일 채널을 사용하여 수득될 수 있다. 이러한 소위 1-염료 서열화 접근에서, 제1 뉴클레오타이드 유형은 표지화되지만, 제1 이미지가 생성된 후, 표지가 제거되고, 제2 뉴클레오타이드 유형은 제1 이미지가 생성된 후에만 표지화된다. 제3 뉴클레오타이드 유형은 제1 및 제2 이미지 둘 다에서 이의 표지를 보유하고, 제4 뉴클레오타이드 유형은 두 이미지에서 표지화되지 않은 채로 남아 있다.
몇몇 실시형태는 결찰 기술에 의해 서열화를 사용할 수 있다. 이러한 기술은 DNA 리가제를 사용하여 올리고뉴클레오타이드를 혼입하고, 이러한 올리고뉴클레오타이드의 혼입을 식별한다. 올리고뉴클레오타이드는 전형적으로 올리고뉴클레오타이드가 혼성화되는 서열에서 특정한 뉴클레오타이드의 동일성과 관련되는 상이한 표지를 갖는다. 다른 SBS 방법과 같이, 이미지는 표지화된 서열화 시약에 의한 핵산 특징부의 어레이의 처리에 따라 얻어질 수 있다. 각각의 이미지는 특정한 유형의 혼입된 표지를 갖는 핵산 특징부를 보여줄 것이다. 상이한 특징부는 각각의 특징부의 상이한 서열 내용으로 인하여 상이한 이미지에 존재하거나 부재할 것이지만, 특징부의 상대 위치는 이미지에서 변화하지 않고 남아 있을 것이다. 결찰-기반의 서열화 방법으로부터 수득된 이미지는 본 명세서에 기재된 바와 같이 저장되고, 처리되고, 분석될 수 있다. 본 명세서에 기재된 방법 및 시스템을 이용할 수 있는 예시적인 SBS 시스템 및 방법은 개시내용이 본 명세서에 그 전문이 참고로 편입되는 미국 특허 제6,969,488호, 미국 특허 제6,172,218호, 및 미국 특허 제6,306,597호에 기재된다.
몇몇 실시형태는 나노포어 서열화를 사용할 수 있다(개시내용이 본 명세서에 그 전문이 참고로 편입되는 문헌[Deamer, D. W. & Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol. 18, 147-151 (2000); Deamer, D. and D. Branton, "Characterization of nucleic acids by nanopore analysis". Acc. Chem. Res. 35:817-825(2002); Li, J., M. Gershow, D. Stein, E. Brandin, and J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003)]). 이러한 실시형태에서, 표적 핵산은 나노포어를 통해 통과한다. 나노포어는 합성 기공 또는 생물학적 막 단백질, 예를 들면, α-헤모라이신일 수 있다. 표적 핵산이 나노포어를 통해 통과하는 경우, 각각의 염기 쌍은 기공의 전기 전도도에서 변동을 측정함으로써 식별될 수 있다(개시내용이 본 명세서에 그 전문이 포함되는 미국 특허 제7,001,792호; 문헌[Soni, G. V. & Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores." Clin. Chem. 53, 1996-2001(2007); Healy, K. "Nanopore-based single-molecule DNA analysis." Nanomed. 2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution." J. Am. Chem. Soc. 130, 818-820 (2008)]). 나노포어 서열화로부터 수득된 데이터는 본 명세서에 기재된 바와 같이 저장되고 처리되고 분석될 수 있다. 특히, 데이터는 광학 이미지 및 본 명세서에 기재된 다른 이미지의 예시적인 처리에 따라 이미지로서 처리될 수 있다.
몇몇 실시형태는 DNA 폴리머라제 활성의 실시간 모니터링을 포함하는 방법을 사용할 수 있다. 뉴클레오타이드 혼입은, 예를 들면, 미국 특허 제7,329,492호 및 미국 특허 제7,211,414호(각각 본 명세서에 참조로서 포함됨)에 기재된 바와 같은 형광단-함유 폴리머라제 및 γ-포스페이트-표지화된 뉴클레오타이드 사이에서 형광성 공명 에너지 전이(FRET) 상호작용을 통해 검출될 수 있거나, 뉴클레오타이드 혼입은, 예를 들면, 미국 특허 제7,315,019호(본 명세서에 참조로서 포함됨)에 기재된 바와 같은 제로-방식 도파관에 의해, 예를 들면, 미국 특허 제7,405,281호 및 미국 특허 출원 공개 제2008/0108082호(각각 본 명세서에 참조로서 포함됨)에 기재된 바와 같은 형광 뉴클레오타이드 아날로그 및 조작된 폴리머라제를 사용하여 검출될 수 있다. 조명은 형광 표지화된 뉴클레오타이드의 혼입이 낮은 배경과 함께 관찰될 수 있도록 표면-테더링된 폴리머라제 주변에 젭톨라이터(zeptoliter)-규모의 부피로 제한될 수 있다(개시내용이 본 명세서에 그 전문이 참고로 편입되는 문헌[Levene, M. J. et al. "Zero-mode waveguides for single-molecule analysis at high concentrations." Science 299, 682-686(2003); Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028(2008); Korlach, J. et al. "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181(2008)]). 이러한 방법으로부터 수득된 이미지는 본 명세서에 기재된 바와 같이 저장되고 처리되고 분석될 수 있다.
몇몇 SBS 실시형태는 뉴클레오타이드의 연장 생성물로의 혼입 상에서 방출된 양성자의 검출을 포함한다. 예를 들면, 방출된 양성자의 검출을 기반으로 서열화는 이온 토렌트(Ion Torrent)(미국 코네티컷주 길포드 소재의 라이프 테크놀로지스(Life Technologies) 자회사)에서 상업적으로 이용 가능한 전기 검출기 및 연관된 기술, 또는 각각이 본 명세서에 참고로 편입되는 미국 제2009/0026082 A1호; 미국 제2009/0127589 A1호; 미국 제2010/0137143 A1호; 또는 미국 제2010/0282617 A1호에 기재된 서열화 방법 및 시스템을 사용할 수 있다. 동역학적 배제를 사용하는 표적 핵산을 증폭하기 위하여 본 명세서에 기재된 방법은 검출은 양성자에 대하여 사용된 기질에 용이하게 적용될 수 있다. 더 구체적으로, 양성자를 검출하는데 사용된 앰플리콘의 클론 집단을 생성하는데 사용될 수 있다.
상기 SBS 방법은 유리하게는 다중 상이한 표적 핵산은 동시에 조작되도록 다중방식 형식으로 수행될 수 있다. 특정한 실시형태에서, 상이한 표적 핵산은 일반적인 반응 용기 또는 특정한 기질의 표면 상에서 처리될 수 있다. 이는 서열화 시약의 편리한 전달, 미반응 시약의 제거 및 다중방식 형식의 혼입 사건의 검출을 허용한다. 표면 결합된 표적 핵산을 사용하는 실시형태에서, 표적 핵산은 어레이 형식일 수 있다. 어레이 형식에서, 표적 핵산은 전형적으로 공간적으로 구별 가능한 방식으로 표면에 전형적으로 결합될 수 있다. 표적 핵산은 직접 공유 결합, 비드 또는 다른 입자에 대한 결합 또는 폴리머라제 또는 표면에 결합된 다른 분자에 대한 결합에 의해 결합될 수 있다. 어레이는 각각의 부위(또한 특징부로도 지칭됨)에서 표적 핵산의 단일 카피를 포함할 수 있거나, 동일한 서열을 갖는 다중 카피는 각각의 부위 또는 특징부에 존재할 수 있다. 다중 카피는 하기 추가로 상세하게 기재된 바와 같은 브리지 증폭 또는 에멀션 PCR과 같은 증폭 방법에 의해 생성될 수 있다.
본 명세서에 기재된 방법은, 예를 들면, 적어도 약 10 특징부/㎠, 100 특징부/㎠, 500 특징부/㎠, 1,000 특징부/㎠, 5,000 특징부/㎠, 10,000 특징부/㎠, 50,000 특징부/㎠, 100,000 특징부/㎠, 1,000,000 특징부/㎠, 5,000,000 특징부/㎠, 또는 그 이상을 포함하는 임의의 다양한 밀도에서 특징부를 갖는 어레이를 사용할 수 있다.
본 명세서에 기재된 방법의 이점은 평행하게 복수의 표적 핵산의 신속하고 효율적인 검출을 위하여 제공되는 것이다. 따라서 본 개시내용은 상기 예시화된 것들과 같은 당해 분야에 공지된 기술을 사용하여 핵산을 제조하고 검출할 수 있는 통합 시스템을 제공한다. 따라서, 본 개시내용의 통합 시스템은 증폭 시약 및/또는 서열화 시약을 하나 이상의 고정화된 DNA 단편에 전달할 수 있는 유체 구성요소를 포함할 수 있고, 시스템은 구성요소, 예를 들면, 펌프, 밸브, 저장소, 유체 라인 등을 포함한다. 유동 세포는 표적 핵산의 검출을 위하여 통합 시스템에서 구성되고/되거나 사용될 수 있다. 예시적인 유동 세포는, 예를 들면, 각각이 본 명세서에 참고로 편입되는 제US 2010/0111768 A1호 및 미국 제13/273,666호에 기재된다. 유동 세포를 위한 예시화로서, 통합 시스템의 하나 이상의 유체 구성요소는 증폭 방법 및 검출 방법에 사용될 수 있다. 예로서, 핵산 서열화 실시형태를 취하는 경우, 통합 시스템의 하나 이상의 유체 구성요소는 본 명세서에 기재된 증폭 방법 및 상기에서 예시화된 것들과 같은 서열화 방법에서 서열화 시약의 전달을 위하여 사용될 수 있다. 대안적으로, 통합 시스템은 증폭 방법을 수행하고 검출 방법을 수행하기 위하여 별개의 유체 시스템을 포함할 수 있다. 증폭된 핵산을 생성할 수 있고 또한 핵산의 서열을 결정할 수 있는 통합 서열화 시스템의 예는 MiSeqTM 플랫폼(일루미나사, 미국 캘리포니아주 샌디에고 소재) 및 본 명세서에 참고로 편입된 미국 제13/273,666호에 기재된 장치를 포함하지만 이에 한정되지 않는다.
상기 소개된 바와 같이, 상기 서열화 방법과 같은 방법을 통해 샘플로부터 검출된 뉴클레오타이드는 샘플로부터의 판독물로 지칭될 수 있다.
대체물
실시형태에 따라, 본 명세서에 기재된 임의의 알고리즘의 특정한 작용, 사건, 또는 기능은 상이한 순서로 수행될 수 있고, 첨가되거나 합병되거나 완전히 버려질 수 있다(예를 들면, 모든 기재된 작용 또는 사건이 알고리즘의 실시에 필수적인 것은 아님). 게다가, 특정한 실시형태에서, 작용 또는 사건이 순차적이기 보다는 동시에, 예를 들면, 멀티-스레드 처리, 인터럽트 처리, 또는 다중 프로세서 또는 프로세서 코어를 통해 또는 다른 평행한 구조물 상에서 수행될 수 있다.
본 명세서에 개시된 실시형태와 관련하여 기재된 다양한 예시적인 논리적 블록, 모듈 및 알고리즘 단계는 전자 하드웨어, 컴퓨터 소프트웨어 또는 둘 다의 조합으로서 실시될 수 있다. 이러한 하드웨어 및 소프트웨어의 상호 교환성을 분명하게 설명하기 위하여, 다양한 예시적인 구성요소, 블록, 모듈 및 단계는 일반적으로 기능성의 관점에서 상기 기재되었다. 이러한 기능성이 하드웨어 또는 소프트웨어로서 실시되는지 여부는 특정한 응용 및 전체 시스템에서 도입된 디자인 구조에 따라 좌우된다. 기재된 기능성은 각각의 특정한 응용을 위하여 다양한 방식으로 실시될 수 있지만, 이러한 실시 결정은 개시내용의 범위로부터 벗어나는 것을 유발하는 것으로 해석되어서는 안 된다.
본 명세서에 기재된 실시양태와 관련하여 기재된 다양한 예시적인 논리적 블록 및 모듈은 기계, 예를 들면, 범용 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그램 가능 게이트 어레이(FPGA) 또는 기타 프로그램 가능 논리 장치, 별개의 게이트 또는 트랜지스터 로직, 별개의 하드웨어 구성요소, 또는 본 명세서에 기재된 기능을 수행하도록 설계된 임의의 이의 조합에 의해 실시되거나 수행될 수 있다. 범용 프로세서는 마이크로프로세서일 수 있지만, 대안으로서, 프로세서는 컨트롤러, 마이크로컨트롤러, 또는 상태 기계, 동일한 것의 조합 등일 수 있다. 프로세서는 또한 컴퓨팅 장치의 조합, 예를 들면, DSP 및 마이크로프로세서, 복수의 마이크로프로세서, DSP 코어와 함께 하나 이상의 마이크로프로세서, 또는 임의의 기타 이러한 구성의 조합으로서 실시될 수 있다.
본 명세서에 개시된 실시형태와 함께 기재된 방법, 과정, 또는 알고리즘의 요소는 하드웨어, 프로세서에 의해 실시되는 소프트웨어 모듈, 또는 둘의 조합으로 직접적으로 실시될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 이동식 디스크, CD-ROM 또는 당해 분야에 공지된 컴퓨터-판독 가능 기억 매체의 임의의 기타 형태에 존재할 수 있다. 기억 매체는 프로세서가 기억 매체로부터 정보를 읽고 이에 정보를 쓸 수 있도록 프로세서에 연결될 수 있다. 대안으로서, 기억 매체는 프로세서에 필수적일 수 있다. 프로세서 및 기억 매체는 ASIC에 존재할 수 있다. ASIC는 사용자 단말기에 존재할 수 있다. 대안으로서, 프로세서 및 기억 매체는 사용자 단말기에서 별개의 구성요소로서 존재할 수 있다.
본 명세서에서 사용되는 조건법 언어는, 예를 들면, 그 중에서도 "할 수 있다", "일 수 있다", "일지도 모른다", "예를 들면" 등은, 달리 구체적으로 기재되지 않는 한, 또는 달리 사용되는 맥락 내에서 이해하자면, 일반적으로 특정한 실시형태가 특정한 특징부, 요소 및/또는 상태를 포함하지만 다른 실시형태는 포함하지 않는다는 것을 전달하는 것으로 의도된다. 따라서, 이러한 조건법 언어는 일반적으로 특징부, 요소 및/또는 상태가 하나 이상의 실시형태에 대하여 어떠한 방식으로 필요하다거나 하나 이상의 실시형태가 이들 특징부, 요소 및/또는 상태가 포함되는지 여부 또는 임의의 특정한 실시형태로 수행되는지 여부를 저자 입력 또는 프롬프팅과 함께 또는 없이, 결정을 위한 논리를 포함한다는 것을 의미하는 것으로 의도되지 않는다. 용어 "포함하는(comprising)", "포함하는(including)", "갖는", "포함하는(involving)" 등은 동의어이고, 개방 종결형으로 포괄적으로 사용되고, 추가의 요소, 특징부, 작용, 작업 등을 배제하지 않는다. 또한, 용어 "또는"은, 예를 들면, 요소의 목록에 연결되어 사용되는 경우, 용어 "또는"은 목록에서 하나, 일부 또는 모든 요소를 의미하도록 이의 (배타적인 의미가 아닌) 포괄적인 뜻으로 사용된다.
이접적 언어, 예를 들면, "X, Y 또는 Z 중 적어도 하나"라는 구는, 달리 구체적으로 기재되지 않는 한, 일반적으로 물품, 용어 등이 X, Y 또는 Z, 또는 이의 임의의 조합(예를 들면, X, Y 및/또는 Z)일 수 있다는 것을 제시하는데 사용되는 바와 같이 맥락과 함께 이해된다. 따라서, 이러한 이접적 언어는 특정한 실시형태가 각각 제시되는 적어도 하나의 X, 적어도 하나의 Y 또는 적어도 하나의 Z를 포함하는 것을 의미하는 것으로 의도되지 않으며 의미해서도 안 된다.
달리 명쾌하게 기재되지 않는 한, 단수 표현은 일반적으로 하나 이상의 기재된 물품을 포함하는 것으로 해석되어야 한다. 따라서, 예를 들면, "구성된 장치"라는 구는 하나 이상의 기재된 장치를 포함하는 것으로 의도된다. 이러한 하나 이상의 기재된 장치는 또한 총괄하여 기재된 설명을 수행하도록 구성될 수 있다. 예를 들면, "설명 A, B 및 C를 수행하도록 구성된 프로세서"는 설명 A 작업을 수행하도록 구성된 제1 프로세서를 설명 B 및 C를 수행하도록 구성된 제2 프로세서와 함께 포함할 수 있다.
상기 상세한 설명이 다양한 실시형태에 적용됨에 따라 신규한 특징을 나타내고, 기재하고, 지시하지만, 설명된 장치 또는 알고리즘의 형태 및 세부사항에서 다양한 생략, 치환, 및 변화가 개시내용의 취지를 벗어나지 않고 만들어질 수 있다는 것이 이해될 것이다. 인식될 것인 바와 같이, 본 명세서에 기재된 특정한 실시형태는 일부 특징이 다른 것과 별개로 사용되거나 실시될 수 있기 때문에 본 명세서에 기재된 모든 특징 및 이득을 제공하지 않는 형태로 실시될 수 있다. 청구항의 등가물의 의미 및 범위 내에 속하는 모든 변화는 이들 범위 내에 포함되는 것이다.
임의의 예로부터의 기술은 임의의 하나 이상의 다른 예에 기재된 기술과 조합될 수 있다. 개시된 기술의 원리가 적용될 수 있는 많은 가능한 실시형태의 관점에서, 설명된 실시형태는 개시된 기술의 예인 것으로 인식되어야 하고, 개시된 기술의 범위를 제한하지는 말아야 한다. 그보다, 개시된 기술의 범위는 하기 청구항에 의해 포함되는 것을 포함한다. 청구항의 범위 및 취지 내에 속하는 모든 것은 따라서 청구된다.

Claims (20)

  1. 스플라이스 변이체를 식별(identifying)하기 위한 시스템으로서,
    메모리;
    적어도 하나의 프로세서; 및
    명령어를 포함하는 적어도 하나의 비-일시적 컴퓨터 판독 가능 매체를 포함하되, 상기 명령어는, 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서로 하여금,
    단일 생물학적 샘플로부터의 복수의 RNA 서열 판독물(sequence read)로부터 하나 이상의 샘플 스플라이스 접합부를 결정하는 것;
    기준선 스플라이스 접합부의 세트를 검색(retrieving)하는 것으로서, 상기 기준선 스플라이스 접합부의 세트가 복수의 건강한 RNA 샘플로부터 결정되는, 상기 기준선 스플라이스 접합부의 세트를 검색하는 것;
    상기 하나 이상의 샘플 스플라이스 접합부를 상기 기준선 스플라이스 접합부의 세트와 비교하는 것; 및
    하나 이상의 필터링된 샘플 스플라이스 접합부를 식별하는 것으로서, 상기 필터링된 샘플 스플라이스 접합부가 상기 기준선 스플라이스 접합부의 세트와 겹치지 않는 샘플 스플라이스 접합부를 포함하는, 상기 하나 이상의 필터링된 샘플 스플라이스 접합부를 식별하는 것
    을 포함하는 동작을 수행하게 하고,
    상기 필터링된 샘플 스플라이스 접합부는 후보 종양원성 사건(candidate oncogenic event)인, 스플라이스 변이체를 식별하기 위한 시스템.
  2. 제1항에 있어서, 상기 후보 종양원성 사건의 목록을 출력하는 것을 더 포함하는, 스플라이스 변이체를 식별하기 위한 시스템.
  3. 제1항 또는 제2항에 있어서, 상기 복수의 건강한 RNA 샘플은 지리학적 영역, 연령, 성별, 인종 집단, 조직 유형, 또는 샘플 보존 품질 중 하나 이상의 단면(cross section)으로부터 취해진 건강한 RNA 샘플을 포함하는, 스플라이스 변이체를 식별하기 위한 시스템.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 복수의 건강한 RNA 샘플은 폐, 부신, 방광, 유방, 난소, 간, 전립선, 피부, 및 비장으로 구성되는 군으로부터 선택된 하나 이상의 조직으로부터의 샘플을 포함하는, 스플라이스 변이체를 식별하기 위한 시스템.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 복수의 건강한 RNA 샘플은 다양한 연령에 걸친 공여자로부터의 샘플을 포함하는, 스플라이스 변이체를 식별하기 위한 시스템.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 복수의 건강한 RNA 샘플로부터의 상기 기준선 스플라이스 접합부는 상기 단일 샘플로부터의 상기 샘플 접합부를 결정하기 전에 결정되는, 스플라이스 변이체를 식별하기 위한 시스템.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 기준선 스플라이스 접합부에 대한 상기 복수의 건강한 RNA 샘플은 상기 단일 생물학적 샘플로서 상기 동일한 생물학적 대상으로부터 수득되지 않는, 스플라이스 변이체를 식별하기 위한 시스템.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 기준선 접합부는 상기 샘플 접합부와 동일한 게놈 영역으로부터 유래되는, 스플라이스 변이체를 식별하기 위한 시스템.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 단일 생물학적 샘플은 종양 샘플로 유래되는, 스플라이스 변이체를 식별하기 위한 시스템.
  10. 제9항에 있어서, 상기 복수의 건강한 RNA 샘플은 비-종양 조직으로부터 유래되는, 스플라이스 변이체를 식별하기 위한 시스템.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 샘플 스플라이스 접합부와 상기 기준선 스플라이스 접합부는 둘 다 공통 검정을 사용하여 결정되는, 스플라이스 변이체를 식별하기 위한 시스템.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 하나 이상의 샘플 접합부를 결정하는 것이,
    상기 단일 생물학적 샘플로부터 상기 복수의 RNA 서열 판독물을 결정하는 것;
    상기 단일 생물학적 샘플로부터 상기 RNA 서열 판독물에 따라 정렬된 DNA 참조 서열을 검색하는 것; 및
    상기 DNA 참조와 비교하여 상기 RNA 판독물에서 누락된 인접 위치(missing contiguous region)로서 하나 이상의 샘플 접합부를 결정하는 것을 포함하는, 스플라이스 변이체를 식별하기 위한 시스템.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 필터링된 샘플 스플라이스 접합부는 제3자 접합부(third party junction)와 겹치지 않고, 상기 제3자 접합부는 주어진 유전자에 대한 엑손의 다중 대체 조합을 캡처하는 스플라이스 그래프로부터 결정되는, 스플라이스 변이체를 식별하기 위한 시스템.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 상기 기준선 스플라이스 접합부의 세트는 주어진 유전자에 대한 엑손의 다중 대체 조합을 캡처하는 스플라이스 그래프를 결정하지 않고 결정되는, 스플라이스 변이체를 식별하기 위한 시스템.
  15. 컴퓨터 실행 방법으로서,
    적어도 하나의 프로세서를 사용하여, 단일 생물학적 샘플로부터의 복수의 RNA 서열 판독물로부터 하나 이상의 샘플 스플라이스 접합부를 결정하는 단계;
    상기 적어도 하나의 프로세서에 의해 메모리로부터, 복수의 건강한 RNA 샘플로부터 기준선 스플라이스 접합부의 세트를 검색하는 단계;
    상기 하나 이상의 샘플 스플라이스 접합부를 상기 기준선 스플라이스 접합부의 세트와 비교하는 단계; 및
    상기 적어도 하나의 프로세서에 의해, 하나 이상의 필터링된 샘플 스플라이스 접합부를 식별하는 단계로서, 상기 필터링된 샘플 스플라이스 접합부가 상기 기준선 스플라이스 접합부와 겹치지 않는 샘플 스플라이스 접합부를 포함하는, 상기 하나 이상의 필터링된 샘플 스플라이스 접합부를 식별하는 단계를 포함하되,
    상기 하나 이상의 필터링된 샘플 스플라이스 접합부는 후보 종양원성 사건인, 컴퓨터 실행 방법.
  16. 제15항에 있어서, 상기 후보 종양원성 사건의 목록을 출력하는 단계를 더 포함하는, 컴퓨터 실행 방법.
  17. 제15항 또는 제16항에 있어서,
    상기 적어도 하나의 프로세서에 의해, 상기 단일 샘플로부터 RNA 판독물을 결정하는 단계;
    상기 적어도 하나의 프로세서에 의해 상기 메모리로부터, 상기 단일 샘플로부터의 상기 RNA 판독물에 따라 정렬된 DNA 참조를 검색하는 단계; 및
    상기 적어도 하나의 프로세서에 의해, 상기 DNA 참조와 비교하여 상기 RNA 판독물에서 누락된 인접 위치로서 상기 샘플 접합부를 결정하는 단계를 더 포함하는, 컴퓨터 실행 방법.
  18. 제15항 내지 제17항 중 어느 한 항에 있어서, 상기 복수의 건강한 RNA 샘플은 지리학적 영역, 연령, 성별, 인종 집단, 조직 유형, 또는 샘플 보존 품질 중 하나 이상의 단면으로부터 취해진 건강한 RNA 샘플을 포함하는, 컴퓨터 실행 방법.
  19. 제15항 내지 제18항 중 어느 한 항에 있어서, 상기 기준선 스플라이스 접합부에 대한 상기 복수의 건강한 RNA 샘플은 상기 단일 생물학적 샘플로서 상기 동일한 생물학적 대상으로부터 수득되는 것이 아닌, 컴퓨터 실행 방법.
  20. 제15항 내지 제19항 중 어느 한 항에 있어서, 상기 필터링된 샘플 접합부는 제3자 접합부와 겹치지 않고, 상기 제3자 접합부는 주어진 유전자에 대한 엑손의 다중 대체 조합을 캡처하는 스플라이스 그래프로부터 결정되는, 컴퓨터 실행 방법.
KR1020197021684A 2017-01-17 2018-01-16 종양원성 스플라이스 변이체 결정 KR102326612B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762447382P 2017-01-17 2017-01-17
US62/447,382 2017-01-17
PCT/US2018/013864 WO2018136416A1 (en) 2017-01-17 2018-01-16 Oncogenic splice variant determination

Publications (2)

Publication Number Publication Date
KR20190098233A true KR20190098233A (ko) 2019-08-21
KR102326612B1 KR102326612B1 (ko) 2021-11-15

Family

ID=61148514

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197021684A KR102326612B1 (ko) 2017-01-17 2018-01-16 종양원성 스플라이스 변이체 결정

Country Status (10)

Country Link
US (1) US20200090784A1 (ko)
EP (1) EP3571613A1 (ko)
JP (2) JP6806909B2 (ko)
KR (1) KR102326612B1 (ko)
CN (1) CN110178184B (ko)
AU (1) AU2018210316A1 (ko)
BR (1) BR112019014042A2 (ko)
CA (1) CA3045498C (ko)
SG (1) SG11201905640XA (ko)
WO (1) WO2018136416A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2697397T3 (pl) 2011-04-15 2017-08-31 The Johns Hopkins University System bezpiecznego sekwencjonowania
US11525163B2 (en) 2012-10-29 2022-12-13 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
JP7232476B2 (ja) 2017-08-07 2023-03-08 ザ ジョンズ ホプキンス ユニバーシティ がんを評価及び治療するための方法及び物質
JP6931860B2 (ja) * 2019-02-08 2021-09-08 株式会社Zenick mRNA前駆体の解析方法、情報処理装置、コンピュータプログラム
JPWO2021172315A1 (ko) * 2020-02-25 2021-09-02
WO2022109374A1 (en) * 2020-11-20 2022-05-27 H. Lee Moffitt Cancer Center And Research Institute, Inc. Methods and compositions relating to a novel epidermal growth factor receptor (egfr) splice variant

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
JP2002503954A (ja) 1997-04-01 2002-02-05 グラクソ、グループ、リミテッド 核酸増幅法
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
AU3087801A (en) * 2000-02-04 2001-08-14 Molecular Dynamics Inc Human genome-derived single exon nucleic acid probes useful for analysis of geneexpression in human breast and hbl 100 cells
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
CN100462433C (zh) 2000-07-07 2009-02-18 维西根生物技术公司 实时序列测定
JP2004508019A (ja) * 2000-07-28 2004-03-18 コンピュジェン インコーポレイテッド トランスクリプトームの中に場所を占めるrna転写物及びスプライス変異体を検出するためのオリゴヌクレオチドライブラリー
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US7678889B2 (en) * 2002-08-06 2010-03-16 Diadexus, Inc. Compositions and methods relating to ovarian specific genes and proteins
WO2004018497A2 (en) 2002-08-23 2004-03-04 Solexa Limited Modified nucleotides for polynucleotide sequencing
JP2006524035A (ja) * 2002-12-26 2006-10-26 シーマインズ リミテッド ライアビリティ カンパニー 癌の診断、予後診断および治療のための方法および組成物
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP2007525571A (ja) 2004-01-07 2007-09-06 ソレクサ リミテッド 修飾分子アレイ
CN101914620B (zh) 2004-09-17 2014-02-12 加利福尼亚太平洋生命科学公司 核酸测序的方法
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
JP2008534017A (ja) * 2005-03-30 2008-08-28 ノバルティス ヴァクシンズ アンド ダイアグノスティクス インコーポレイテッド 癌の診断および治療のためのdkkl−1のスプライス産物の調節因子
EP1888743B1 (en) 2005-05-10 2011-08-03 Illumina Cambridge Limited Improved polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP2018622B1 (en) 2006-03-31 2018-04-25 Illumina, Inc. Systems for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
EP2653861B1 (en) 2006-12-14 2014-08-13 Life Technologies Corporation Method for sequencing a nucleic acid using large-scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP2318544A2 (en) * 2008-07-14 2011-05-11 The United States of America, as Represented by The Secretary, Department of Health and Human Services Method for predicting and detecting tumor metastasis
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
JP2010252787A (ja) * 2009-03-31 2010-11-11 Shizuoka Prefecture 大腸癌又は胃癌マーカー
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
JP2013039111A (ja) * 2011-08-19 2013-02-28 Shizuoka Prefecture スプライシングバリアント
EP3290528B1 (en) 2011-09-23 2019-08-14 Illumina, Inc. Methods and compositions for nucleic acid sequencing
BR112014024789B1 (pt) 2012-04-03 2021-05-25 Illumina, Inc aparelho de detecção e método para formação de imagem de um substrato
EP3122901B1 (en) * 2014-03-27 2018-08-15 Life Technologies Corporation Gene fusions and gene variants associated with cancer
CN105989246B (zh) * 2015-01-28 2018-10-26 深圳华大智造科技有限公司 一种基于基因组组装的变异检测方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
H. Dvinge 외, "Widespread intron retention diversifies most cancer transcriptomes", Genomic Medicine (2015) 7:45. *
Q. Huang 외, "RNA-Seq Analyses Generate Comprehensive Transcriptomic Landscape and Reveal Complex Transcript Patterns in Hepatocellular Carcinoma", PLOS ONE, 6권, 10호, 2011.10.* *

Also Published As

Publication number Publication date
AU2018210316A1 (en) 2019-06-27
CA3045498C (en) 2021-07-13
CN110178184A (zh) 2019-08-27
JP2020506684A (ja) 2020-03-05
WO2018136416A1 (en) 2018-07-26
CA3045498A1 (en) 2018-07-26
BR112019014042A2 (pt) 2020-02-04
SG11201905640XA (en) 2019-08-27
AU2021201007A1 (en) 2021-03-11
JP2021036895A (ja) 2021-03-11
CN110178184B (zh) 2024-04-19
KR102326612B1 (ko) 2021-11-15
EP3571613A1 (en) 2019-11-27
JP6806909B2 (ja) 2021-01-06
AU2021201007B2 (en) 2023-02-23
US20200090784A1 (en) 2020-03-19

Similar Documents

Publication Publication Date Title
KR102326612B1 (ko) 종양원성 스플라이스 변이체 결정
US11837328B2 (en) Methods and systems for detecting sequence variants
AU2020201622B2 (en) Methods and system for detecting sequence variants
US20210389236A1 (en) Phasing correction
AU2014337089B2 (en) Methods and systems for genotyping genetic samples
AU2014308794B2 (en) Methods and systems for aligning sequences
JP2016533182A (ja) 疾患に誘導された変異を同定するための方法およびシステム
Deshpande et al. RNA-seq data science: From raw data to effective interpretation
US20240038327A1 (en) Rapid single-cell multiomics processing using an executable file
KR20230167028A (ko) 시퀀싱을 위한 뉴클레오티드 샘플 슬라이드 내 거품을 검출하기 위한 기계-학습 모델
US20230144221A1 (en) Methods and systems for detecting alternative splicing in sequencing data
Xiao et al. High-throughput RNA sequencing in B-cell lymphomas
Wang et al. An automated archival single-nucleus total RNA sequencing platform mapping integrative and retrospective cell atlas of gliomas
CN115691671A (zh) 一种基于三代测序的转录组嵌合体的切分方法、装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant