KR20200107774A - 표적화 핵산 서열 분석 데이터를 정렬하는 방법 - Google Patents

표적화 핵산 서열 분석 데이터를 정렬하는 방법 Download PDF

Info

Publication number
KR20200107774A
KR20200107774A KR1020197035546A KR20197035546A KR20200107774A KR 20200107774 A KR20200107774 A KR 20200107774A KR 1020197035546 A KR1020197035546 A KR 1020197035546A KR 20197035546 A KR20197035546 A KR 20197035546A KR 20200107774 A KR20200107774 A KR 20200107774A
Authority
KR
South Korea
Prior art keywords
sequence
primer
target
reference genome
sequences
Prior art date
Application number
KR1020197035546A
Other languages
English (en)
Inventor
고든 제프 빈
조슬린 브루안드
라이언 매튜 켈리
치 리
도로테아 마르게리타 에미그-아지우스
에릭 알렌
요우팅 쑨
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20200107774A publication Critical patent/KR20200107774A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

RNA를 정렬하는 컴퓨터 구현 방법으로서, 데이터 저장 장치에 프라이머 서열 및 유전자 모델을 기반으로 한 참조 게놈으로부터 전사 가능한 전사체 서열을 수신하는 단계, 프라이머 서열과 전사체 서열의 조합으로부터 증폭되는 표적 서열을 생성시키는 단계, 복수의 표적 서열을 기반으로 변형된 참조 게놈을 생성시키는 단계, RNA 앰플리콘 분자를 포함하는 시험 샘플로부터 생성된 서열 판독물을 표적 서열에 대해서 정렬시키는 단계, 및 정렬을 기반으로 시험 샘플에 대하여 정렬 프로파일을 생성시키는 단계를 포함하는 방법이 제공된다. 또한 상기 방법을 수행하는 컴퓨터 시스템이 제공된다.

Description

표적화 핵산 서열 분석 데이터를 정렬하는 방법
관련 출원에 대한 상호 참조
본 출원은 2018년 1월 5일자로 출원된 미국 가특허 출원 제62/614,088호의 우선권의 이득을 주장하고, 이의 전문은 본 명세서에 참고로 원용된다.
발명의 분야
본 명세서에 개시된 주제는 RNA를 정렬하는 방법 및 컴퓨터 시스템에 관한 것이다. 더 구체적으로는, 본 개시내용은 발현된 RNA로부터의 판독물(read)을 유전자 모델에 따른 프라이머를 갖는 참조 게놈으로부터 전사 가능한 전사체를 포함하는 변형된 참조 게놈에 대해서 정렬하는 것에 관한 것이다.
RNA 정렬은 시험 샘플에 존재하는 RNA 전사체, 예를 들면, 세포 또는 세포 집단에 의해 생성된 RNA를 동정하는 것을 포함한다. 표준 전체-게놈 정렬 분석은 앰플리콘 데이터가 독특한 프라이머 인공물을 함유하고, 허위 양성(오프-타깃(off-target)) 증폭의 영향을 받고, 표준 도구에 의해 만들어진 일부 추정을 훼손하는 질적인 차이, 예를 들면, 커버리지 균일성의 부족, 다수의 복제 등을 나타내기 때문에, 앰플리콘 서열 분석 데이터를 가공하기 위하여 잘 개조되지 않는다. 추가로, 통상적인 RNA 정렬 방법은 컴퓨팅으로(computationally) 매우 비효율적이고, 이는 이러한 방법을 수행하는데 사용될 수 있는 컴퓨터 시스템의 다양성 및 이러한 방법 및 시스템의 유용성을 제한한다. 예를 들면, 통상적인 RNA 정렬 방법은 32 기가바이트 이하의 다량의 RAM을 필요로 하고, 이는 많은 컴퓨터 시스템 및 서열 분석 장치를 필요한 시간 프레임 내에 RNA 정렬을 수행할 수 없거나 RNA 정렬을 수행하는데 적합하지 않은 프로세서를 갖도록 만든다.
추가로, RNA가 완전한 참조 게놈에 대해서 정렬되는 통상적인 RNA 정렬 방법은 이들이 정렬된 후에 판독물이 대응하는 표적을 동정하는 것을 포함한다. 오직 그 후에만 표적-당-판독물(read-per-target)이 정량될 수 있다. 즉, 지정된 표적에 대한 RNA의 양의 정량이 시험 샘플에 나타나는 적용에서, 통상적인 방법에 따라 먼저 RNA는 전체 참조 게놈에 대해서 정렬된다. 그러나, RNA 전사체가 이들이 전사되는 것으로부터 게놈에서 완전히 인접하지 않는 조립된 서열을 포함할 수 있기 때문에, 그렇게 하는 것이 판독물이 대응하는 전사체 표적의 동정을 직접적으로 가능하게 하지는 않는다. 그보다, 추가의 분석은 통상적인 RNA 정렬 방법에 따라, 정렬된 판독물이 대응하는 전사체 표적을 동정하는 것이 필요하다. 이러한 필요는 이들을 구현하는 이러한 방법 및 컴퓨터 시스템의 사용자에게 추가의 시간과 주의 요구뿐만 아니라 분석에서의 지연 및 출력 용량을 방해하는 연산 용량에 대한 추가의 요구의 시행을 부과함에 따라 작업흐름을 복잡하게 만든다.
본 개시내용은 통상적인 RNA 정렬 방법 및 이를 위한 컴퓨터 시스템에서 이들을 및 다른 결점을 극복하는 것에 관한 것이다.
하나의 양상에서, RNA를 정렬하는 컴퓨터 구현 방법으로서, 데이터 저장 장치에 참조 게놈으로부터 복수의 프라이머 서열 및 복수의 전사체 서열을 수신하는 단계(전사체 서열은 유전자 모델을 기반으로 참조 게놈으로부터 전사 가능함); 마이크로프로세서를 사용하여, 복수의 프라이머 서열과 복수의 전사체 서열의 조합으로부터 증폭될 복수의 표적 서열을 생성시키는 단계; 마이크로프로세서를 사용하여, 복수의 표적 서열을 기반으로 변형된 참조 게놈을 생성시키는 단계; 마이크로프로세서를 사용하여, RNA 앰플리콘 분자를 포함하는 시험 샘플로부터 생성된 서열 판독물을 변형된 참조 게놈에 대해서 정렬시키는 단계; 및 정렬을 기반으로 시험 샘플에 대한 정렬 프로파일을 생성시키는 단계를 포함하는 방법이 제공된다.
실시형태에 있어서, 방법은 또한 프라이머 서열에 각각의 전사체 서열의 위치에 대응하는 개별적인 위치를 할당하는 단계를 포함할 수 있다. 예를 들면, 방법은 하나 이상의 온-타깃 서열(on-target sequence)에 걸쳐 있는(spanning) 생성된 표적 서열 중 하나 이상을 기반으로 생성된 표적 서열 중 하나 이상을 제거하는 단계를 포함할 수 있다. 또 다른 예에 있어서, 복수의 프라이머 서열은 복수의 프라이머 쌍을 포함할 수 있고, 제1 프라이머 쌍은 제1 위치에 대하여 제1 프라이머 및 제2 프라이머를 포함할 수 있고, 제2 프라이머 쌍은 제2 위치에 대하여 제1 프라이머 및 제2 프라이머를 포함할 수 있다.
또 다른 실시형태에 있어서, 유전자 모델은 참조 게놈에서 스플라이스 접합부, 융합 접합부, 또는 둘 다의 동정을 포함할 수 있다. 예를 들면, 방법은 스플라이스 및 융합 접합부로부터 유래된 표적에 대해서 정렬된 서열 판독물을 번역하는 단계를 더 포함할 수 있다.
또 다른 실시형태에 있어서, 복수의 표적 서열은 온-타깃 서열 및 오프-타깃 서열을 포함할 수 있다. 예를 들면, 방법은 하나 이상의 프라이머 서열을 복수의 프라이머 서열로부터 배제시킴으로써 다수의 오프-타깃 서열을 감소시키는 단계를 포함할 수 있다.
추가의 실시형태에 있어서, 방법은 2개 이상의 샘플의 유전자 발현을 컴퓨팅으로 비교하는 단계를 더 포함할 수 있되, RNA의 제1 샘플로부터 생성된 모든 정렬된 판독물이 RNA의 제2 샘플로부터 생성된 정렬된 판독물과 비교되고, 정렬은 복수의 표적 서열을 사용하여 수행된다. 또 다른 실시형태에 있어서, 정렬 프로파일은 시험 샘플의 서열 판독물에 대하여 배치, 품질 점수, 및 서열 완전성 중 적어도 하나를 포함할 수 있다. 또 다른 실시형태에 있어서, 방법은 맵핑된 표적 서열 및 변형된 참조 게놈을 사용하여 시험 샘플로부터의 서열 판독물을 전체 참조 게놈으로 번역하는 단계를 포함할 수 있다.
또 다른 실시형태에 있어서, 정렬 프로파일의 생성은 정렬되지 않은 융합 접합부를 포함하는 서열 판독물을 참조 게놈의 비인접 서열에 대해서 정렬시키는 것을 더 포함할 수 있고, 여기서 정렬되지 않은 융합 접합부는 유전자 모델에서 동정되지 않았던 것이다. 또 다른 실시형태에 있어서, 정렬 프로파일은 융합 접합부를 포함할 수 있고, 융합 접합부는 유전자 모델에서 동정되었던 것이다.
추가의 실시형태에 있어서, RNA를 정렬하는 컴퓨터 구현 방법으로서, 데이터 저장 장치에 참조 게놈으로부터 복수의 프라이머 서열 및 복수의 전사체 서열을 수신하는 단계(전사체 서열은 참조 게놈에서 스플라이스 접합부, 융합 접합부, 또는 둘 다의 동정을 포함하는 유전자 모델을 사용하여 참조 게놈으로부터 전사 가능함); 프라이머 서열에 각각의 전사체 서열의 위치에 대응하는 개별적인 위치를 할당하는 단계; 마이크로프로세서를 사용하여, 복수의 전사체 서열과 복수의 프라이머 서열의 조합으로부터 증폭될 복수의 표적 서열을 생성시키는 단계; 마이크로프로세서를 사용하여, 복수의 표적 서열을 기반으로 변형된 참조 게놈을 생성시키는 단계; 마이크로프로세서를 사용하여, RNA 앰플리콘 분자를 포함하는 시험 샘플로부터 생성된 서열 판독물을 변형된 참조 게놈에 대해서 정렬시키는 단계; 정렬 프로파일을 생성시키는 단계(여기서 정렬 프로파일은 시험 샘플의 서열 판독물에 대하여 배치, 품질 점수, 및 서열 완전성 중 적어도 하나를 포함함); 및 맵핑된 표적 서열 및 변형된 참조 게놈을 사용하여 시험 샘플로부터의 서열 판독물을 전체 참조 게놈으로 번역하는 단계를 포함하는 방법이 제공된다.
또 다른 양상에서, 하나 이상의 마이크로프로세서; 참조 게놈으로부터의 복수의 프라이머 서열 및 복수의 전사체 서열, 및 유전자 모델을 저장하는 하나 이상의 메모리(여기서 전사체 서열은 유전자 모델을 기반으로 참조 게놈으로부터 전사 가능함)를 포함하되; 하나 이상의 메모리는 명령어를 저장하되, 명령어는, 하나 이상의 마이크로프로세서에 의해 실행되는 경우, 컴퓨터 시스템으로 하여금, 복수의 프라이머 서열과 복수의 전사체 서열의 조합으로부터 증폭될 복수의 표적 서열을 생성하게 하고, 복수의 표적 서열을 기반으로 변형된 참조 게놈을 생성하게 하고, RNA 앰플리콘 분자를 포함하는 시험 샘플로부터 생성된 서열 판독물을 변형된 참조 게놈에 대해서 정렬하게 하고, 그리고 정렬을 기반으로 시험 샘플에 대하여 정렬 프로파일을 생성하게 하는, RNA를 정렬하는 컴퓨터 시스템이 제공된다.
실시형태에 있어서, 명령어는 컴퓨터 시스템이 프라이머 서열에 각각의 전사체 서열의 위치에 대응하는 개벌적인 위치를 할당하도록 유발할 수 있다. 예에 있어서, 명령어는 컴퓨터 시스템이 하나 이상의 온-타깃 서열에 걸쳐 있는 생성된 표적 서열 중 하나 이상을 기반으로 생성된 표적 서열 중 하나 이상을 제거하도록 유발할 수 있다. 또 다른 예에 있어서, 복수의 프라이머 서열은 복수의 프라이머 쌍을 포함할 수 있고, 제1 프라이머 쌍은 제1 위치에 대하여 제1 프라이머 및 제2 프라이머를 포함할 수 있고, 제2 프라이머 쌍은 제2 위치에 대하여 제1 프라이머 및 제2 프라이머를 포함할 수 있다.
또 다른 실시형태에 있어서, 유전자 모델은 참조 게놈에서 스플라이스 접합부, 융합 접합부, 또는 둘 다의 동정을 포함할 수 있다. 또 다른 실시형태에 있어서, 복수의 표적 서열은 온-타깃 서열 및 오프-타깃 서열을 포함할 수 있다. 예에 있어서, 명령어는 컴퓨터 시스템이 하나 이상의 프라이머 서열을 복수의 프라이머 서열로부터 배제시킴으로써 다수의 오프-타깃 서열을 감소시키는 것을 유발할 수 있다.
또 다른 실시형태에 있어서, 명령어는 컴퓨터 시스템으로 하여금 2개 이상의 샘플의 유전자 발현을 비교하여, 이로써 RNA의 제1 샘플로부터 생성된 정렬된 판독물을 RNA의 제2 샘플로부터 생성된 정렬된 판독물과 비교하게 할 수 있다.
또 다른 실시형태에 있어서, 정렬 프로파일의 생성은 정렬되지 않은 융합 접합부를 포함하는 서열 판독물을 참조 게놈의 비인접 서열에 대해서 정렬시키는 것을 더 포함할 수 있고, 여기서 정렬되지 않은 융합 접합부는 유전자 모델에서 동정되지 않았던 것이다. 또 다른 실시형태에 있어서, 정렬 프로파일은 융합 접합부를 포함할 수 있고, 융합 접합부는 유전자 모델에서 동정되었던 것이다.
본 개시내용의 이들 및 다른 특징, 양상, 및 이점은 하기 발명을 실시하기 위한 구체적인 내용을 첨부된 도면과 관련하여 읽을 때 더 잘 이해될 것이고, 여기서:
도 1은 참조 서열에 대하여 오프-타깃 정합(match) 검출을 구현하는 예시적인 시스템의 블록 다이어그램이다.
도 2는 오프-타깃 정합 검출의 예시적인 방법의 흐름도이다.
도 3은 후보 정합을 검증하는 예시적인 시스템의 블록 다이어그램이다.
도 4는 후보 정합을 검증하는 예시적인 방법의 흐름도이다.
도 5는 후보 스트링 내의 공통 영역에 대하여 캐시를 갖는 예시적인 시스템의 블록 다이어그램이다.
도 6은 캐시를 통해 후보 스트링에 대한 정합을 동정하는 예시적인 방법의 흐름도이다.
도 7은 후보 프라이머 서열에 대하여 캐시를 건설하는 예시적인 방법의 흐름도이다.
도 8은 다중-레벨 캐시를 구현하는 예시적인 시스템의 블록 다이어그램이다.
도 9는 k량체(k-mer) 지수를 사용하는 예시적인 시스템의 블록 다이어그램이다.
도 10은 오프-타깃 예측자를 구현하는 예시적인 시스템의 블록 다이어그램이다.
도 11은 후보 프라이머 서열에 대한 오프-타깃 예측을 생성하는 예시적인 방법의 흐름도이다.
도 12는 서열 근접성 그룹화를 구현하는 예시적인 시스템의 블록 다이어그램이다.
도 13은 서열 근접성 그룹화를 통해 오프-타깃 정합을 동정하는 예시적인 방법의 흐름도이다.
도 14는 예시적인 오프-타깃 정합 조건의 블록 다이어그램이다.
도 15는 오프-타깃 결정을 위하여 서열 근접성 그룹화를 사용하는 예시적인 시스템의 블록 다이어그램이다.
도 16은 공통 영역에 대하여 다중-레벨 캐시를 도시하는 블록 다이어그램이다.
도 17은 캐시를 통해 생략된 후보를 도시하는 블록 다이어그램이다.
도 18은 공통 영역의 신장을 보여주는 블록 다이어그램이다.
도 19는 규칙 만족 캐시에 의한 결과를 도시하는 블록 다이어그램이다.
도 20은 참조 게놈의 양성 및 음성 가닥 상의 히트 사이의 상관관계를 도시하주는 블록 다이어그램이다.
도 21은 상이한 서열 길이에 대하여 후보의 수와 히트의 수 사이의 상관관계를 도시하는 블록 다이어그램이다.
도 22는 히트의 수 대 계산 A를 사용하는 예측의 이력 데이터를 도시하는 블록 다이어그램이다.
도 23 및 도 24는 정합에 대한 검색 전에 정합 예측을 적용하기 위한 결과를 도시한다.
도 25는 기재된 실시형태가 구현될 수 있는 예시적인 컴퓨팅 시스템의 다이어그램이다.
도 26은 본 개시내용에 따른 RNA 정렬에 대한 흐름도를 도시한다.
도 27은 변형된 참조 게놈의 생성에서 표적의 생성을 위하여 프라이머 세트로부터의 프라이머의 전사체 서열에 대한 정합을 결정하는 방법의 예를 보여준다.
도 28은 위치 또는 위치들이 프라이머 또는 프라이머들로 어떻게 할당되는지의 예를 도시한다.
도 29는 예상된 교차-위치 표적을 필터링하기 위한 예의 도식이다.
도 30은 일부 서열을 공유하지만 다른 것은 공유하지 않는 상이한 RNA 전사체로부터 생성될 수 있는 상이한 증폭 가능한 표적의 도식이다.
도 31은 정렬된 서열 판독물을 스플라이스 접합부로부터 유래된 표적으로 번역하는 예의 도식이다.
도 32는 배제 기준에 관한 융합 접합부 허위 양성의 플롯이다.
본 명세서에 개시된 주제의 일부 실시형태는 하기 상세하게 논의된다. 실시형태의 설명에서, 명확성을 위하여 특정한 용어가 사용된다. 그러나, 개시된 방법 및 컴퓨터 시스템은 그렇게 선택된 특정한 용어로 한정되는 것으로 의도되지 않는다. 당해 분야의 숙련가는 본 명세서에 개시된 주제를 벗어나지 않으면서 다른 동등한 성분이 사용될 수 있고 다른 방법이 개발될 수 있다는 것을 인식할 것이다. 배경기술 및 발명을 실시하기 위한 구체적인 내용 부분을 포함하여 본 명세서의 어디든지 기재된 모든 참조는 각각이 개별적으로 포함된 경우와 마찬가지로 참조로서 포함된다.
시험 샘플(인간 샘플이든지 또는 다른 유기체로부터의 샘플이든지), 예를 들면, 세포 또는 세포 집단으로부터의 시험 샘플에 존재하는 RNA 전사체의 동정은 RNA의 카피를 증폭하는 것, 증폭된 카피를 서열 분석하는 것, 및 서열 분석된 카피, 또는 판독물을 참조 게놈, 예를 들면, RNA가 샘플인 세포 유형의 참조 게놈에 대해서 정렬하는 것을 포함할 수 있다. 예를 들면, 이러한 시험 샘플에 대하여 세포 또는 세포들의 "트랜스크립톰"(transcriptome)으로서 지칭될 수 있는 세포 또는 세포 집단에 의해 생성된 RNA 분자의 전체는 지정된 세포, 예를 들면, 지정된 조직 유형, 또는 잠재적으로 환부 조직, 예를 들면, 종양의 세포에서 전사되는 모든 게놈 서열을 동정하거나, 상이한 개별적인 트랜스크립톰의 비교를 위하여, 또는 지정된 세포에서 전사에 대한 상이한 환경 인자 또는 처리의 효과의 비교를 위하여 증폭되고, 서열 분석되고, 정렬된다. 이러한 방법은 세포 또는 세포 집단의 RNA를 DNA로 역전사한 다음, 역전사된 DNA를 증폭시켜 서열 분석을 허용하고, 트랜스크립톰의 결정을 위하여 정렬하는 것을 포함한다.
DNA 증폭은 표적 핵산 분자(예를 들면, 모든 또는 실질적으로 모든 세포의 RNA를 포함하는, 세포의 RNA로부터 역전사된 DNA를 포함하는, RNA 또는 DNA)의 카피의 수를 증가시키는 기술이다. DNA 증폭의 예는 다중 중합효소 연쇄 반응(다중 PCR)이다. 다중 PCR 검정은 단일 반응에서 다중 표적 핵산 분자의 증폭을 포함한다. 전형적으로, 올리고뉴클레오타이드 프라이머의 쌍은 각각의 표적 핵산 분자의 증폭을 위하여 선택된다. RNA의 정렬을 위하여, 증폭은 RNA를 DNA로 역전사하는 것을 포함하고, 뉴클레오타이드의 쌍을 사용하여 존재하는 RNA 서열에 대응하는 DNA 서열을 생성하고 증폭시키고, 이러한 공정은 역전사 PCR로 지칭된다. 본 명세서에서 사용되는 바와 같은 용어 PCR은 역전사 PCR을 포함한다. 표적 핵산 분자를 포함하는 주형 핵산을 함유하는 샘플은 프라이머의 쌍을 샘플에서 주형 상의 표적으로 혼성화하는 것을 허용하는 조건하에 선택된 올리고뉴클레오타이드 프라이머의 쌍과 접촉한다. 프라이머는 적합한 조건하에 신장되고, 주형으로부터 해리되고, 재어닐링되고, 신장되고, 해리되어 표적 핵산 분자의 카피의 수를 증폭시킨다. 증폭의 생성물은 필요에 따라, 예를 들면, 핵산 서열 분석에 의해 특성화될 수 있다.
표적 핵산 분자는 세포 RNA로부터 역전사된 DNA를 포함하는 샘플에서 주형 핵산 내에 함유된 임의의 핵산 분자일 수 있다. 다중 PCR 검정을 위한 표적 핵산 분자는 길이가 70-1000개의 염기 쌍, 예를 들면, 길이가 100-150개, 200-300개, 400-500개, 및 심지어 70-120개의 염기 쌍일 수 있다. 다중 PCR 검정을 위하여 선택된 프라이머 쌍의 수는 표적 핵산 분자의 업스트림 및 다운스트림 말단에 혼성화되어 증폭을 개시한다.
프라이머는 핵산 분자, 일반적으로 길이가 약 10-50개 또는 20-25개의 뉴클레오타이드(더 긴 길이가 또한 가능함)인 DNA 올리고뉴클레오타이드이다. 프라이머는 최대 길이, 예를 들면, 길이가 25개, 40개, 50개, 75개 또는 100개 이하의 뉴클레오타이드일 수 있다. 특정한 프라이머의 혼성화 특이성은 전형적으로 이의 길이에 따라 증가한다. 따라서, 예를 들면, 프라이머 20개의 연속 뉴클레오타이드를 포함하는 프라이머는 전형적으로 오직 10개의 뉴클레오타이드의 대응하는 프라이머보다 더 높은 특이성을 갖는 표적으로 어닐링될 것이다. 다중 PCR 검정을 위한 올리고뉴클레오타이드 프라이머의 5' 말단은 증폭된 표적의 분석에서 사용을 위하여 추가의 잔기(추가의 올리고뉴클레오타이드 포함)에 연결될 수 있다. 예를 들면, 프라이머 쌍에서 프라이머의 5' 말단은 증폭된 표적의 서열 분석 및 수득된 서열 판독물(예를 들면, 어댑터 서열, 바 코드 서열 등)의 분석을 촉진하는 추가의 올리고뉴클레오타이드 서열에 연결될 수 있다.
본 명세서에서 논의되는 바와 같이, 다중 PCR 검정을 위한 프라이머의 설계 및 선택은 다중 PCR 검정을 방해할 것인 후보 프라이머의 참조 서열(참조 스트링)을 갖는 주형 핵산 분자에 대한 오프-타깃 혼성화 경우(오프-타깃 정합)의 가능성이 존재하는지의 여부를 결정하는 후보 서열을 갖는 후보 프라이머의 스크리닝을 포함할 수 있다. 이는 프라이머가 혼성화될 수 있는 주형 핵산 분자 상의 후보 혼성화 위치(후보 정합 위치)를 동정하는 것, 및 하나 이상의 검증 기준(정합 검증 규칙)에 따라 후보 정합 위치의 서열과 후보 프라이머 서열을 비교하는 것을 기반으로 후보 혼성화 위치가 검증된 혼성화 위치(검증된 정합 위치)인지의 여부를 결정하는 것을 포함한다. 본 명세서에 기재된 용어에 관하여, 후보 서열은 프라이머 서열의 형태일 수 있고, 이는 쌍 프라이머(예를 들면, 스트링)으로 표현된다. 편의상, 이러한 내부 표현은 종종 단순하게 "서열"이라고 지칭된다. 실제 물리적 서열은 캐릭터의 스트링에 의해 내부적으로 표현된다. 참조 게놈 서열은 프라이머에 의해 표적화된 참조 게놈 또는 부분 참조 게놈의 표현의 형태일 수 있다. 따라서, 참조 게놈 서열은 뉴클레오타이드의 서열을 나타낼 수 있고, 지정된 3' 말단 및 5' 말단을 나타낼 수 있다. 양성 및 음성 가닥은 둘 다 프라이머의 역상보체를 생성하고 이들을 후보 스트링으로서 포함하는 기술에서 단일 참조 게놈 서열에 의해 표현될 수 있다. 참조 게놈 서열에 정합하는 프라이머 역상보체는 정합에 의해 나타난 위치에서 참조 게놈의 음성 가닥 상의 정합을 나타낸다. 프라이머 역상보체의 이러한 정합은 이들이 임계 거리(예를 들면, 오프-타깃 조건 창 길이) 내에 있는 경우, 이들이 적절한 PCR 반응을 방해할 수 있고 오프-타깃 조건을 야기할 수 있기 때문에 흥미롭다.
후보 혼성화 위치가 검증된 혼성화 위치로 동정되는 경우, 검증 기준이 만족되기 때문에, 추가의 분석을 수행하여, 후보 프라이머의 검증된 혼성화 위치로의 혼성화가, 다중 PCR 검정에 대하여 추가의 후보 프라이머의 대응하는 주형 핵산 분자 상의 검증된 혼성화 위치로의 혼성화와 조합으로, 표적 핵산 분자의 증폭을 방해하고/하거나 비-표적 핵산 분자를 증폭(오프-타깃 조건을 형성)할 수 있는지의 여부를 결정할 수 있다. 제1 후보 프라이머에 대한 검증 기준이 또한 제2 후보 프라이머에 적용되는 경우(예를 들면, 2개의 후보 프라이머의 서열의 유사성 때문에), 효율을 위하여 검증 기준이 제1 후보 프라이머에 대하여 만족되는지의 여부를 결정하는 분석을 제2 후보 프라이머에 대하여 재사용할 수 있다.
후보 프라이머 서열과 참조 게놈 서열 사이의 캐릭터 레벨에서 정합은 2개의 캐릭터가 상보적 뉴클레오타이드인지의 여부(예를 들면, 이들은 결합할 것임)를 기반으로 계산될 수 있다. 따라서 'A'는 'T'에 상보적인 것으로 간주되고, 'C'는 'G'에 상보적인 것으로 간주된다. 이해될 것인 바와 같이, DNA 서열은 'T' 뉴클레오타이드를 포함하는 반면, 대신 RNA는 'T' 대신에 'U' 뉴클레오타이드를 포함하고, 'A' 뉴클레오타이드는 'U' 뉴클레오타이드에 상보적이다. RNA의 DNA로의 역전사 및 역전사된 DNA의 다중 증폭에서, 시험 샘플의 RNA 서열에 대응하는 DNA 서열은 'U" 뉴클레오타이드 대신에 'T' 뉴클레오타이드를 가질 것이고, 따라서 시험 샘플 RNA로부터 역전사되고 증폭된 서열에서 'T' 뉴클레오타이드의 존재는 이것이 역전사되고 증폭된 RNA 서열에서 'U' 뉴클레오타이드의 존재를 나타낼 것이다.
시험 샘플의 RNA에 대응하는 서열을 증폭시킴으로써, 즉, 시험 샘플의 전사된 RNA로부터 DNA를 역전사시키고 상기 역전사체를 증폭시킴으로써 시험 샘플의 트랜스크립톰을 정렬시키기 위하여, 참조 게놈에 대한 정렬이 컴퓨팅으로 요구된다. 메신저 RNA(mRNA)의 뉴클레오타이드 서열은 엑손이 결핍될 수 있고, 이는 이들이 게놈에서 직접적으로 인접하지는 않지만 게놈 DNA가 전사된 후에는 스플라이싱 메커니즘에 의해 결합되는 서열의 부분으로 구성된다는 것을 의미한다. 게다가, 상이한 기관 또는 조직의 상이한 세포 유형 또는 세포는 이러한 전사체가 다른 세포 유형, 기관, 또는 조직에서 스플라이싱되는 방식이 상이하게 지정된 전사체를 스플라이싱할 수 있고, 지정된 세포 유형 또는 조직 또는 기관은 상이한 조건하에 또는 상이한 시간에 상이하게 스플라이싱된 전사체를 생성할 수 있고, 이로써 이러한 상이한 세포 유형 또는 기관 또는 조직에서 스플라이스 변이체의 존재를 수득한다. 그렇게 해서 다른 개체 또는 비-환부 조직으로부터의 세포, 기관, 또는 조직의 RNA 전사체와 상이한 스플라이스를 나타냄으로써, 상이한 개별적인 세포 또는 조직의 트랜스크립톰은 상이하거나 환부 조직의 트랜스크립톰은 상이할 수 있다. 추가로, 초기에 1차 RNA 전사체의 부분으로서가 아닌, 게놈 DNA의 상이한 영역으로부터 전사된 RNA가 서로 부착되어 연속 RNA 전사체를 형성하는 RNA 융합은 RNA의 정렬에서 가변성 및 복합성의 추가의 규모를 추가한다. 다른 경우에, 하나의 위치에서 또 다른 위치로의 게놈 DNA의 전좌는 융합으로서 나타나는 RNA 전사체의 생성을 야기할 수 있고, 게놈 DNA가 전좌되는 위치에 대응하는 서열의 전사체의 한 부분은 이로부터 게놈 DNA가 전좌되는 위치에 대응하는 서열을 갖는 전사체의 또 다른 부분에 인접해 있다.
예를 들면, 트랜스크립톰 내의 스플라이스 변이체 및 RNA 융합의 존재는 통상적인 뉴클레오타이드 정렬 방법의 복합성 위에 계산 복합성의 층을 추가한다. 통상적인 RNA 정렬 방법은 계산 능력에 큰 부담을 주며, 수행되는 정렬 처리를 위하여 32 기가바이트 이하의 RAM을 전통적으로 필요로 한다. 많은 경우에 이러한 계산적 요구는 RNA 정렬을 이용 가능한 컴퓨터 시스템으로 수행할 수 없게 만들거나, 이용 불가능하거나 그렇지 않으면 불필요하게 강력하거나 비싼 컴퓨터 시스템, 또는 서열 분석에 사용되는 다른 하드웨어의 구성요소로서 용이하게 제공될 수 없는 것의 사용을 필요로 한다. 본 명세서에 개시된 바와 같이, 프라이머 설계를 시험 샘플로부터 증폭될 수 있는 서열을 나타내는 변형된 참조 게놈의 생성과 조합함으로써, RNA 정렬에 대한 계산적 요구는 실질적으로 감소하고, 따라서 RNA, 예를 들면, 시험 샘플의 트랜스크립톰의 정렬은 오직 16 기가바이트 이하의 RAM을 사용하여 수행될 수 있다. 본 명세서에 개시된 간소화된 방법, 및 이의 수행을 위한 컴퓨터 시스템은 처리 능력의 요구를 감소시킴으로써 컴퓨터의 기능을 개선시키고, 이로써 부과된 불필요한 단계를 제거함으로써 추가로 작업 흐름을 개선시킨다.
RNA의 정렬을 위하여, 하기 더 완전하게 설명되는 바와 같이, 지정된 게놈으로부터 전사 가능할 수 있는 RNA의 전체 세트를 동정하고, 이러한 동정된 전사 가능한 서열의 세트를 사용하는 것은 본 명세서에 개시된 바와 같이 RNA 정렬을 단순화한다. 완전한 참조 게놈은 전사되지 않는 DNA의 중요한 부분, 및 전사되지만 인트론이고 따라서 RNA로부터 제거된 다른 부분을 포함한다. 참조 게놈은 또한 전사된 RNA 서열이 스플라이싱되거나 함께 융합될 수 있는지를 결정하는 서열을 함유함에도 불구하고 스플라이스 변이체 또는 융합 RNA 전사체를 직접적으로 동정하지 않을 수 있다. 따라서 참조 게놈으로부터 이론적으로 전사 가능한 모든 RNA 세트는 컴퓨터 시스템에서 참조 게놈보다 훨씬 더 적은 메모리 저장을 차지하고, 이는 비-전사 가능한 DNA를 배제시킴으로써, 이의 서열 정보에 접근하는데 필요한 메모리 요구를 감소시키고, 또한 참조 게놈에 직접적으로 존재하지 않는 스플라이스 변이체 및 융합 RNA를 포함한다. 본 명세서에 기재된 바와 같이, 시험 샘플에 존재하는 RNA는 참조 게놈 그 자체보다 참조 게놈으로부터 가상으로 전사 가능한 서열의 부분에 더 유사할 가능성이 있기 때문에, 참조 게놈으로부터 전사 가능한 서열의 전사체는 시험 샘플의 RNA의 정렬에서 참조 서열의 공급원으로서 사용될 수 있다.
참조 게놈의 전사체 서열은 참조 게놈 및 유전자 모델을 참조하여 컴퓨터에 의해 건설될 수 있다. 유전자 모델은 특정한 서열의 전사, 전사 중지 지점, 전사된 서열 내의 엑손-인트론 경계, 가변성 스플라이싱 순열, 생성될 수 있는 RNA 융합 생성물, 및 모든 다른 가능한 전사 경우가 발생하는 경우, 참조 게놈의 서열이 포함될지 배제될지의 여부, 및 전사 생성물의 변이체가 가능한지의 여부를 결정하는 다른 인자를 지시하는 참조 게놈의 영역의 동정을 기반으로, 참조 게놈으로부터 전사 가능할 수 있는 서열을 특정하는 규칙을 동정하는 컴퓨터 프로세서에 의해 실행 가능한 명령어 세트를 포함할 수 있다. 유전자 모델은 전사된 서열의 발생 및 서열, 및 스플라이싱, RNA 융합 또는 둘 다를 기반으로 이들의 잠재적인 상이한 서열 배열을 나타내는 것으로 알려진 참조 게놈의 서열을 기반으로 전사체 서열에서 전사 가능한 서열을 포함하는 명령어를 포함할 수 있다. 유전자 모델은 또한 지정된 참조 게놈을 갖는 세포에 의해 생성되는 것으로 알려진 전사체를 기반으로 변형된 전사체 서열에서 전사 가능한 서열을 포함하는 명령어를 포함할 수 있다.
상기 기재된 바와 같이, 시험 샘플의 RNA의 정렬은 프라이머의 사용을 통해 시험 샘플의 RNA의 증폭을 포함할 수 있다. 시험 샘플의 RNA에 대응하는 DNA의 다중 합성 및 증폭을 위한 프라이머의 선택은 정렬을 위한 판독물을 생성하기 위하여 샘플로부터 증폭될 수 있는 온-타깃 및 오프-타깃 서열을 결정한다. 시험 샘플에서 뉴클레오타이드 서열로부터 증폭될 수 있는 온-타깃 및 오프-타깃 서열을 동정하는 시스템 및 방법은 미국 특허 출원 제15/705,079호에 기재되고, 이의 내용은 그 전문이 본 명세서에 참조로서 포함된다. 지정된 프라이머 서열 세트에 있어서, 참조 게놈으로부터 또는 유전자 모델에 따른 참조 게놈으로부터 전사 가능한 전사체 서열로부터 증폭될 것인 서열이 결정될 수 있다. 물론, 참조 게놈의 표적 서열에서 표적 서열에 대응하는 서열의 증폭으로부터 야기된 온-타깃 서열을 나타내는 서열, 및 표적 서열 이외의 프로브의 혼성화 및 표적 서열 이외의 후속적인 증폭으로부터 야기된 오프-타깃 서열을 나타내는 서열이 동정될 수 있다. 지정된 프라이머 세트에 의한 참조 게놈의 지정된 참조 전사체 세트로부터 증폭 가능한 온-타깃 서열 및 오프-타깃 서열의 동정은 증폭된 표적이 온-타깃 또는 오프-타깃 규정을 만족시키는지의 여부를 규정하는 규칙을 기반으로 변형될 수 있다. 예를 들면, 프라이머가 다중 증폭 동안 증폭을 정렬하고 촉진할 수 있는 프라이머의 서열과 참조 게놈의 전사체 서열의 영역 사이의 다수의 부정합(mismatch)의 일부 허용 상한이 설정될 수 있다. 또는 프라이머의 말단, 예를 들면, 이의 3' 말단에서 뉴클레오타이드와 프라이머가 다중 증폭 동안 증폭을 정렬하고 촉진할 수 있는 참조 게놈의 전사체 서열의 영역 사이의 부정합의 최대 허용 수가 설정될 수 있다.
이러한 프라이머의 이러한 영역에 대한 혼성화로부터 야기된 프라이머는 다중 증폭 동안 오프-타깃 서열의 생성을 야기하는 것으로 여겨질 수 있다. 부정합 또는 프라이머-말단 부정합의 최대 수의 증가 또는 감소는 각각 지정된 프라이머가 다중 증폭에서 사용되는 경우에 오프-타깃으로서 분류된 표적의 수를 감소시키거나 증가시킬 수 있다. 적은 오프-타깃 서열 또는 오프-타깃 서열 부재에 대한 선호가 있는 경우, 오프-타깃 서열을 동정하는데 더 엄중한 파라미터를 사용할 수 있고, 오프-타깃 서열의 증폭을 야기하는 프라이머를 증폭에서의 사용으로부터 배제할 수 있다.
시험 샘플의 RNA로부터 생성된 판독물의 동정 및 정렬을 위하여, 변형된 참조 게놈은 유전자 모델에 따른 참조 게놈으로부터 생성된 전사체 서열로부터 생성될 수 있다. 시험 샘플의 RNA로부터 생성될 가능성이 있는 증폭 생성물을 미리 결정함으로써, 시험 샘플의 RNA의 정렬은, 상기 설명된 바와 같이, 시험 샘플 RNA로부터의 판독물을 참조 게놈에 대해서 정렬하는 것과 반대로, 뿐만 아니라 참조 게놈으로부터 모든 가능한 전사 가능한 서열을 포함하는 가상적인 트랜스크립톰에 대해서 정렬하는 것과 비교해서도, 훨씬 더 컴퓨팅으로 효율적이 된다. 이의 증폭이 다중 증폭 공정에서 적합한 프라이머의 사용에 의해 유도될 것인 서열만이 RNA 정렬 방법에서 판독물에 대응하는 것으로 예상될 것이다. 본 명세서에 개시된 바와 같이, 프라이머 세트를 분석하여 RNA 정렬 방법에서 개발 중인 증폭 생성물 및 따라서 이들이 야기하는 판독물을 결정할 수 있다.
유전자 모델에 따른 참조 게놈으로 전사 가능한 전사체 서열, 및 프라이머 서열은 데이터 저장 장치에 의해 수신될 수 있다. 그 다음, 하나 이상의 마이크로프로세서는 이러한 프라이머가 다중 증폭 공정에서 발생을 야기할 전사체를 동정할 수 있다. 따라서 동정된 표적은 시험 샘플의 RNA에 대응하는 판독물이 정렬되는 것에 대항하는 변형된 참조 게놈의 역할을 할 것이다. 참조 변형된 게놈의 크기는 이를 생성하는데 사용되는 프라이머의 수에 따라 좌우되고, 오프-타깃 서열의 규정을 위한 파라미터의 엄격함 및 변형된 참조 게놈에서 오프-타깃 서열의 포함 또는 배제에 대한 규칙에 따라 좌우될 수 있다. 시험 샘플에서 모든 RNA 서열의 증폭이 본 명세서에 개시된 방법 및 시스템에 또한 포함되지만, 프라이머는 시험 샘플에 존재하는 모든 RNA 전사체에 대응하는 서열의 증폭을 위하여 선택될 필요는 없다. 어떠한 경우에도, RNA 정렬을 위한 다중 증폭 공정에서 사용이 의도되는 프라이머 또는 제시된 후보 프라이머는 먼저 분석되어 유전자 모델에 따른 참조 게놈의 전사체 서열에 대한 참조에 의해 증폭이 예측될 것인 서열을 결정할 수 있다.
본 명세서에서 임의의 예에 있어서, 후보 프라이머 서열은 길이 k(k량체)의 하위스트링 또는 하위서열로 분해되어 정합을 찾는 것을 촉진할 수 있다. k량체는 후보 프라이머 서열을 위하여 생성될 수 있다. 실제로, 모든 이러한 하위스트링 또는 하위서열은 생성되지만, 다른 배열도 가능하다.
본 명세서에서 임의의 예에 있어서, 후보 프라이머 서열에 대한 참조 게놈 서열 상의 정합 위치를 동정하는 것은 후보 프라이머 서열을 k량체로 분해하는 것, 및 k량체로 k량체 지수를 검색하는 것을 포함할 수 있다.
프라이머 서열, 또는 k량체는 참조 게놈으로부터의 전사체 서열에 대하여 정합하여 프라이머가 증폭 표적을 발생시키는지의 여부를 결정할 수 있다. 프라이머와 전사체 서열 사이의 연속 염기 쌍 정합의 최소 수, 허용된 프라이머를 교차하는 부정합의 최대 수, 및 프라이머의 5' 말단과 허용된 전사체 서열 사이의 부정합의 최대 수를 포함하는 파라미터는 k량체가 그렇게 하는지의 여부를 위하여 설정될 수 있다. 또한 지정된 프라이머에 대한 참조 게놈의 전사체 서열로부터 변형된 참조 게놈을 생성하기 위한 규칙에 포함된 것은 변형된 참조 게놈에 포함된 최대 및 최소 길이 또는 예측된 표적일 수 있다. 표적을 생성하는 프라이머를 규정하기 위한 파라미터 세트를 만족시키지 못하는 프라이머, 및 참조 게놈에 포함되는 표적을 위한 규정 세트를 만족시키지 못하는 표적은 배제될 수 있다.
변형된 참조 게놈에 포함되는 표적을 동정하는 예에 있어서, 프라이머는 5' 말단에서 시작하고 3' 말단으로 이어지는 참조 게놈의 전사체 서열에 정합된다. 전사체 서열은 플러스 가닥 및 상보적인 마이너스 가닥으로부터의 서열 정보를 포함하고, 프라이머는 상기 기재된 바와 같은 정합으로서 프라이머를 분류하기 위하여 확립된 파라미터에 따라, 이들이 각각의 가닥에 정합하는지의 여부를 위하여 분석될 수 있다. 프라이머가 플러스 가닥 상의 서열에 정합하는 경우, 이것 및 이의 정합 위치는 메모리 캐시에 저장될 수 있다. 프라이머가 마이너스 가닥에 정합하는 경우, 이는 메모리 캐시에 저장될 수 있다. 하나가 참조 게놈 전사체 서열의 상보적 가닥의 쌍의 각각에 정합하는 프라이머의 쌍인 정 및 역 프라이머는 다중 증폭 동안 함께 증폭된 생성물을 생성한다. 따라서, 음성 가닥에 정합하는 프라이머가 동정되고 캐싱되는 경우, 이는 참조 게놈의 전사체 서열의 서열을 정합함으로써 이전에 캐싱된 프라이머와 비교될 수 있다. 캐싱된 프라이머, 즉 하나의 정 및 역 프라이머가 표적의 증폭을 야기하는 것으로 결정되는 경우, 표적은 변형된 참조 게놈에 추가될 수 있다.
프라이머의 전사체 서열에 대한 정합이 전사체 서열에 따라 5'로부터 3'로 진행되고, 추가의 프라이머의 정합이 프라이머에 의해 증폭 가능한 표적의 동정을 위한 업스트림 프라이머 정합과의 비교를 위하여 동정됨에 따라, 새로운 프라이머 정합이 사전 업스트림 정합과 함께 증폭 가능한 표적을 형성할 수 있는지의 여부를 확인하는 것은 모든 사전 정합에 대하여 수행될 수 있다. 하나가 주형 서열로 진행됨에 따라, 사전 정합 및 새로운 정합의 정합 서열의 위치는 더 멀리 떨어지게 될 것이고, 따라서 그들 사이의 잠재적으로 증폭 가능한 표적은 더 길어질 것이다. 새로운 프라이머 정합과 사전 업스트림 프라이머 정합 사이의 증폭 가능한 표적이 변형된 참조 게놈에 포함되는 표적에 대한 파라미터를 초과하는 길이일 것인 경우, 업스트림 표적은 증폭 가능한 표적의 후속적인 평가에서 무시될 수 있다.
프라이머 쌍은, 프라이머 정합 및 표적 크기에 대한 임의의 파라미터가 만족되는 한, 변형된 참조 게놈에서 표적의 생성 및 포함을 야기한다. 그러나, 프라이머는 참조 게놈의 전사체 서열에서 하나 이상의 서열에 정합할 수 있다. 이러한 복제가 동정되고 제거되지 않는 한, 변형된 참조 게놈에서 표적의 복제가 야기될 수 있다. 예에 있어서, 이러한 복제를 회피하기 위하여, 프라이머 정합에 대한 단일 위치가 결정된다. 전사체 서열에서 영역에 고유한 각각의 프라이머에 있어서, 프라이머는 위치에 할당될 수 있다. 주형의 증폭을 야기하도록 결정된 프라이머의 쌍의 프라이머 중 적어도 하나가 하나 이상의 전사체에서 서열에 정합하는 경우, 이러한 전사체가 존재한다면 두 프라이머가 모두 정합 서열을 갖도록 하는 전사체의 위치가 할당될 수 있다. 두 프라이머가 모두 정합 서열을 갖는 다중 전사체가 존재하는 경우, 각각의 또는 두 프라이머에 대한 위치로서 이러한 다중 전사체를 할당하기 위한 임의의 규칙이 사용될 수 있다. 예에 있어서, 알파벳순으로 이의 위치 ID에 따른 제1 전사체는 각각의 프라이머에 할당될 수 있다. 쌍의 하나의 프라이머가 다중 전사체의 서열에 정합하는 경우, 쌍의 두 프라이머가 정합하는 서열을 갖는 단일 전사체가 없다면, 하나의 프라이머의 위치로서 이러한 다중 전사체를 할당하기 위한 임의의 규칙을 사용할 수 있다. 예를 들면, 각각의 프라이머 정합에 대한 서열을 갖는, 알파벳순으로 이의 위치 ID에 따른 제1 전사체는 각각의 프라이머에 각각 할당될 수 있다.
2개의 표적이 비교적 서로 근접한 경우, 그 사이에 2개의 표적을 포함하는 더 긴 표적이 또한 검출될 수 있다. 이러한 교차-위치는 가까운 표적이 증폭 동안 교차-위치 표적으로부터 형성 가능할 수 있지만 더 큰 표적은 더 작은 표적으로부터 형성될 수 없으며, 이들이 더 낮은 카피 수일 것이며 따라서 덜 표현될 것이라는 것을 의미하기 때문에 정렬에서 큰 문제를 일으키지 않는다. 그럼에도 불구하고, 이러한 교차-위치 표적은 이들을 오프-타깃 서열로 특성화함으로써 변형된 참조 게놈으로부터 이들을 필터링하고 이에 추가되지 않을 수 있다. 변형된 참조 게놈으로부터 필터링하기 위하여, 더 큰 표적의 업스트림 표적은 하나의 의도된 표적 내의 서열에 정합하여야 하고, 이의 다운스트림 프라이머는 상이한 표적에 정합하여야 하고, 더 큰 표적은 이의 프라이머가 정합하는 표적보다 더 커야 한다.
그 다음, 변형된 참조 게놈 내의 서열은 변형된 참조 게놈에서 대응하는 게놈 위치 정보의 포함을 위하여 참조 게놈으로 다시 맵핑될 수 있다. 스플라이싱 및 RNA 융합으로 인하여, 변형된 참조 게놈의 인접한 서열은 참조 게놈에서의 위치로 다시 맵핑되기 위하여 분할이 필요하다. 다중 증폭 동안 프라이머 세트에서 프라이머에 의해 증폭되는 경우, 서로 상이한 샘플에서 RNA 전사체는 서로 동일한 증폭 생성물, 또는 앰플리콘을 생성할 수 있다는 것이 가능하다. 예를 들면, 2개의 스플라이스 변이체는, 스플라이스 변이체의 다른 부분들 사이의 차이에도 불구하고, 프라이머의 쌍이 각각의 스플라이스 변이체에 함유된 이웃 엑손에 걸쳐 있는 서열의 증폭을 야기하는 경우, 서로 동일한 앰플리콘을 생성할 수 있다. 다른 프라이머 쌍은 스플라이스 변이체로부터 서로 상이한 앰플리콘을 생성할 수 있다. 예를 들면, 이의 엑손이 다른 스플라이스 변이체로부터 부재하는 하나의 스플라이스 변이체에서 프라이머 사이의 엑손의 존재는 프라이머 쌍에 의해 스플라이스 변이체로부터 생성된 상이한 앰플리콘을 야기할 것이다. RNA 주형은 다중 증폭에서 사용되는 프라이머 세트에 의해 그로부터 증폭될 수 있는 표적의 목록이 서로 게놈에서 동일한 위치에 대응하는 경우, 서로 동일한 것으로 간주된다.
일단 변형된 참조 게놈이 건설되면, 변형된 참조 게놈의 건설에서 사용된 프라이머 세트의 프라이머의 서열을 갖는 프라이머는 시험 샘플에서 RNA 서열의 다중 PCR 증폭에 대하여 사용될 수 있다. 그 다음, 판독물은 시험 샘플로부터 변형된 참조 게놈으로 다시 맵핑되는 검출된 앰플리콘에 대응하게 생성될 수 있다. 맵핑은 임의의 겹치는 말단을 기반으로 서열을 인접하게 정렬하는 것, 및 변형된 참조 게놈에서 대응하는 판독물을 동정하는 것을 포함한다. 일반적으로, 서열 분석의 부분으로서 합쳐진 서열 분석 데이터는 서열 정렬 데이터세트에 저장된다. 서열 정렬 데이터를 저장하기 위한 일반적인 파일 유형은 SAM(.sam) 및 BAM(.bam) 파일 형식이다. 서열 정렬 소프트웨어("얼라이너")는 서열 정렬 데이터세트 파일, 예를 들면, BAM 파일을 출력하고, 이는 판독물 서열(들)의 참조 게놈 또는, 본 개시내용에 따라, 참조 게놈의 전사체 서열로부터의 증폭 가능한 표적으로 구성되는 변형된 게놈 참조에 대한 정렬을 나타낸다.
정렬 파일은 정렬을 기반으로 한 시험 샘플에 대한 정렬 프로파일을 포함할 수 있다. 정렬 프로파일은 정렬 파일에 함유된 바와 같은 정렬된 서열에 관련된 추가의 정보를 함유할 수 있다. 예를 들면, 본 명세서에서 실시예에 개시된 바와 같이, 변형된 참조 게놈에 포함된 서열 정보는 변형된 참조 게놈에서의 서열에 대응하는 참조 게놈에서의 위치의 동정을 함유할 수 있고, 그 다음, 시험 샘플로부터 판독물을 변형된 참조 게놈에 대해서 정렬하는 것은 판독물을 참조 게놈으로 맵핑하는 것을 가능하게 하고, 또한 정렬된 판독물과 관련된 변형된 참조 게놈 서열에 함유된 참조 게놈 위치에 대한 참조에 의한다. 일부 경우에, 이는 스플라이스 및 융합 접합부로부터 유래된 표적에 대해서 정렬된 서열 판독물을 번역하는 것을 포함할 수 있다. 예를 들면, 변형된 참조 게놈으로부터의 표적은 엑손-엑손 경계를 함유할 수 있고, 판독물 또는 판독물 내의 서열은 이러한 경계를 교차하여 정렬될 수 있다. 또는 변형된 참조 게놈으로부터의 표적은 단일 전사체로부터 유래된 것이 아닌 참조 게놈 내의 독립적인 위치로부터 전사된 개별적인 전사체 분자로부터 유래된 RNA의 서열 사이의 접합부를 포함하는 RNA 융합을 포함할 수 있다. 또 다른 예에서, 융합은 2개의 사전 비인접 위치로부터의 서열 정보를 갖는 RNA 전사체를 야기하는 게놈 DNA의 전좌로부터 야기될 수 있다. 변형된 참조 게놈이 염색체 위치-동정 정보를 포함하는 경우, 판독물의 정렬은 이로부터 정렬된 판독물 또는 정렬된 판독물 내의 서열이 전사되는 참조 게놈 내의 염색체 위치의 동정을 포함하는 정렬된 판독물의 프로파일을 생성시키는 것을 포함할 수 있다. 유사하게, 엑손-엑손 경계 또는 RNA 융합 서열에서 융합된 서열 사이의 경계에 결쳐져 있지 않은 정렬된 판독물은 참조 게놈 내의 염색체 위치로 다시 번역될 수 있고, 이러한 정보는 정렬 프로파일에 포함된다.
일부 예에 있어서, 샘플은 유전자 모델에서 설명되는 RNA 융합 생성물을 함유할 수 있다. 이러한 경우에, 이러한 융합 접합부는 유전자 모델이 참조 게놈으로부터 전사 가능함에 따라 이를 동정할 수 있었기 때문에 변형된 참조 게놈에 존재할 수 있다. 이러한 융합 접합부에 대응하는 서열 판독물이 존재하는 경우, 이는 변형된 참조 게놈에 대해서 정렬될 수 있고, 정렬된 융합 접합부로서 분류될 수 있다. 이러한 분류는 정렬 프로파일에 반영될 수 있다.
다른 예에 있어서, 샘플은 유전자 모델에 존재하지 않는 RNA 융합 생성물을 함유할 수 있다. 이러한 경우, 대응하는 융합 접합부는 변형된 참조 게놈으로부터 부재할 수 있다. 따라서 샘플로부터의 융합 접합부 함유 전사체에 대응하는 서열 판독물은 변형된 참조 게놈에 대해서 정렬될 수 없거나, 불완전하거나 불량하게 정렬될 수 있다. 예를 들면, 이들은 하나는 융합 접합부의 5' 측에 존재하는 서열에 대응하고 다른 것은 융합 접합부의 3' 측에 존재하는 서열에 대응하여 변형된 참조 게놈에서 2개의 비인접 또는 분산된 위치 각각에만 부분적으로 정렬될 수 있다. 이러한 융합 접합부에 대응하는 서열 판독물의 정렬은 변형된 참조 게놈에 대해서 정렬되지 않을 수 있다. 이러한 예에 있어서, 이러한 서열 판독물을 변형된 참조 게놈에 대해서 정렬하려는 성공적이지 못한 시도는 정렬되지 않은 융합 접합부로서 분류되는 것을 야기할 수 있다.
본 명세서에서 논의되는 바와 같이, 정렬되지 않은 융합 접합부는 여전히 정렬될 수 있고, 이의 정렬은 생성된 정렬 프로파일에 포함된다. 정렬되지 않은 융합 접합부는 참조 게놈으로부터 전사 가능한 복수의 표적 서열로부터 조립된 변형된 참조 게놈 보다는 참조 게놈에 대해서 정렬될 수 있다. 이러한 예에 있어서, 정렬되지 않은 융합 접합부를 참조 게놈에 대해서 정렬하는 것은 융합 접합부의 각각의 측에 대응하는 게놈 위치의 동정을 야기할 수 있고, 즉, 융합 접합부의 생성에서 스플라이싱에 의해 결합되거나 게놈 DNA의 전좌에 의해 결합된 서열을 나타낸다. RNA 전사체에 대응하는 서열 판독물의 정렬은 종종 분리될 수 있는 게놈 DNA의 영역으로 판독물을 맵핑하는 것을 포함하고, 예를 들면, 여기서 RNA 전사체로부터의 인트론의 제거 및 인트론의 다른 측 상의 엑손과 스플라이싱은 궁극적으로 참조 게놈에서 게놈 DNA의 하나의 부분에 대응하는 서열을 갖는 5' 부분 및 참조 게놈에서 게놈 DNA의 상이한 부분에 대응하는 서열을 갖는 또 다른 3' 부분을 갖는 서열 판독물의 생성을 야기한다. 유사한 방식으로, 정렬되지 않은 융합 접합부를 참조 게놈에 대해서 정렬하는 것이 가능하고, 서열 판독물을 수득하는 전사체의 정보에 함께 있는 참조 게놈에서 이질적인 위치를 동정하는 것이 가능하다.
상기 논의된 바와 같이, 서열 판독물을 참조 게놈에 대해서 정렬하는 것은 컴퓨팅으로 부담이 크고 시간이 소비되는 컴퓨터 구현 방법일 수 있다. 이러한 높은 연산적 요구에 대한 이유는 샘플로부터 생성될 수 있고 정렬을 필요로 하는 서열 판독물의 높은 수를 포함한다. 본 명세서에 개시된 방법 및 시스템의 예의 이득은 참조 게놈에 대한 정렬이 필요한 판독물의 수가 감소될 수 있다는 것일 수 있다. 예를 들면, 서열 판독물을 변형된 참조 게놈에 대해서 정렬하고 이들은 다시 참조 게놈으로 번역한 후, 후속적으로 이러한 서열 판독물을 참조 게놈에 대해서 직접적으로 재정렬하는 것이 불필요할 수 있고, 참조 게놈에서 이들의 대응하는 위치는 이미 기재된 바와 같이 동정되었다. 정렬되지 않은 융합 접합부가 분류된 경우, 이들은 참조 게놈에 대해서 직접적으로 정렬될 수 있다. 그러나, 이러한 경우, 연산적 및 시간 요구는 먼저 정렬되지 않은 융합 접합부(즉, 변형된 참조 게놈을 참고하여 정렬되지 않음)로서 분류되지 않으면서 이들이 정렬되는 경우에 필요할 것인 요구와 비교하여 실질적으로 감소할 수 있다. 서열 판독물을 변형된 참조 게놈에 대해서 정렬하고 정렬되지 않은 융합 접합부를 분류함으로써, 정렬되지 않은 융합 접합부를 참조 게놈에 대해서 정렬하는 것은 변형된 참조 게놈에 대해서 정렬된 서열 판독물을 정렬할 필요 없이 수행될 수 있다. 먼저 서열 판독물을 변형된 참조 게놈에 대해서 정렬함으로써, 참조 게놈에 대해서 정렬되기 위한 서열 판독물의 총 수는, 즉, 정렬되지 않은 융합 접합부로만 실질적으로 감소될 수 있다. 참조 게놈에 대해서 직접적으로 정렬되기 위한 서열 판독물의 수에서 이러한 감소는 정렬되지 않은 융합 접합부를 참조 게놈에 대해서 정렬하는데 필요한 연산적 및 시간적 소비를 유의미하게 감소시키고, 그렇지 않으면 이는 샘플로부터의 서열 판독물의 완전한 세트와 함께 참조 게놈에 대해서 정렬시켜야 할 것이다.
일부 이러한 예에 있어서, 변형된 참조 게놈에 대해서 정렬되지 않은 것이 아닌 서열 판독물은 참조 게놈에 대해서 정렬될 수 있고, 이러한 정렬은 서열 판독물이 융합 접합부를 나타낸다는 것을 지시하지만, 이러한 지시는 서열 판독물이 사실 융합 접합부를 나타내지 않는다는 점에서 부정확할 수 있다. 이러한 예는 융합 접합부 허위 양성으로 지칭될 수 있다. 서열 판독물이 실제 융합 접합부를 포함하지 않는 일부 예에서 정렬되지 않은 융합 접합부로서 분류된 서열 판독물의 동정이 참조 게놈에 대해서 정렬되는 정렬되지 않은 융합 접합부 중에 포함될 수 있고 이들 중 일부가 참조 게놈에 대해서 정렬될 수 있는 반면 융합 접합부로서 잘못 동정될 수 있는 경우, 변형된 참조 게놈에 대해서 정렬되지 않은 것은 참조 게놈에 대해서 일단 정렬된 후 융합 접합부로서 정확하게 동정될 수 있다. 변형된 참조 게놈에 대해서 정렬되고 융합 접합부로 정확하게 동정된 정렬되지 않은 융합 접합부와 융합 접합부 허위 양성을 구별하는 것은 유리할 수 있다.
정확하게 동정된 융합 접합부과 융합 접합부 허위 양성을 구별하는 스크린의 몇몇 예가 본 개시내용에 따라 개별적으로 또는 함께 사용될 수 있다. 예를 들면, 최소 서열 판독물 정렬 길이는 정렬 길이가 이러한 최소 서열 판독물 정렬 길이 미만이 아닌 한, 정렬되지 않은 융합 접합부로 분류된 후, 융합 접합부로 동정된 다음, 참조 게놈에 대해서 정렬된 서열 판독물이 허위 양성으로 분류되지 않도록 확립될 수 있다. 예를 들면, 서열 판독물은 이의 정렬 길이가 70개 이하인 경우, 융합 접합부 허위 양성으로 분류될 수 있다. 다른 최소 정렬 길이, 예를 들면, 최소 서열 판독물 정렬 길이로서 50개, 60개, 80개, 90개, 100개, 150개, 또는 200개의 뉴클레오타이드가 대신에 사용될 수 있다.
또 다른 예에서, 서열 판독물은 융합 접합부 허위 양성으로서 특성화되지 않기 위하여 서열 판독물의 샘플에서 반영된 카피의 적어도 최소 수를 가져야 할 필요가 있을 수 있다. 예를 들면, 정렬되지 않은 융합 접합부가 참조 게놈에 대해서 정렬되고 융합 접합부로서 동정되는 경우, 요건은 이것이 적어도 100개의 판독물을 갖지 않는 한, 융합 접합부 허위 양성으로서 특성화됨에 따라 적용될 수 있다. 일부 예에 있어서, 판독물의 최소 수는 200개, 또는 300개, 또는 500개, 또는 750개, 또는 1000개일 수 있다. 다른 최소값이 또한 사용될 수 있다.
다른 예에 있어서, 국소 정렬 길이에 대한 서열 판독물의 정렬 길이의 비는 서열 판독물이 융합 접합부 허위 양성으로 분류되지 않기 위하여 최소값을 초과할 필요가 있을 수 있다. 예를 들면, 판독물의 하나의 말단이 참조 게놈의 한 부분에 대해서 정렬될 수 있고 서열 판독물의 다른 말단이 첫 번째 것과 인접하지 않은 참조 게놈의 또 다른 영역(예를 들면, 상이한 염색체 상의 것, 또는 동일한 염색체 상의 첫 번째 것과 이질적인 것)에 대해서 정렬될 수 있다는 점에서, 서열 판독물은 융합 접합부를 표현하는 것으로 나타날 수 있다. 그러나, 서열 판독물은 추가로 인접한 방식으로(즉, 비인접 영역에 걸치지 않거나 융합 접합부를 나타내지 않는 방식으로) 참조 게놈의 또 다른 영역과, 적어도 부분적으로, 정렬 가능한 것으로 나타날 수 있다. 이러한 후자 정렬은, 융합 접합부를 나타내는 정렬에 대안적으로, 국소 정렬로서 지칭될 수 있다. 융합 접합부의 존재를 나타내는 정렬은 참조 게놈에(하나의 위치에 부분적으로 및 또 다른 위치에 부분적으로) 맞춰 정렬되는 이의 서열의 길이인 정렬 길이를 가질 수 있다. 대안적인 국소 정렬은 또한 참조 게놈의 인접한 서열에 대해서 대안적으로 정렬 가능한 이의 서열의 길이인 국소 정렬 길이를 가질 수 있다. 융합 접합부로 특성화되지 않기 위하여(즉, 허위 양성으로 특성화를 위한 자격으로서), 융합 접합부로서 정렬되는 서열 판독물의 정렬 길이는 서열 판독물에 대한 대안적인, 국소 정렬 길이를 초과할 필요가 있을 수 있다. 서열 판독물이 하나의 가능한 국소 정렬 길이보다 클 수 있는 경우에, 가장 긴 이러한 국소 정렬 길이는 선택될 수 있고, 융합 접합부 정렬 길이에 대한 비교를 위하여 사용될 수 있다.
일부 예에 있어서, 서열 판독물은 융합 접합부 허위 양성로 분류되지 않기 위하여 이들 기준 중 임의의 1개, 2개, 또는 모든 3개를 만족시킬 필요가 있을 수 있다. 변형된 참조 게놈에 대해서 정렬되지 않은 융합 접합부의 참조 게놈에 대해서 정렬하고, 이들이 융합 접합부 허위 양성으로 분류되지 않는 것을 확인한 후, 융합 접합부 및 참조 게놈에서 대응하는 위치는 정렬 프로파일에 포함될 수 있다.
추가의 정보가 또한 정렬 프로파일에 포함될 수 있다. 예를 들면, 프로파일은 품질 점수 또는 서열 판독물 완전성으로 알려진 특정한 판독물이 잘못 정렬되었는지의 여부를 나타내는 점수, 또는 판독물의 정확성 또는 완전성의 다른 표시, 삽입 또는 삭제 또는 다른 부정합의 추정상 존재 등을 포함할 수 있다.
본 명세서에 개시된 방법은 또한 참조 게놈에 대하여 임의의 정해진 샘플을 시험하는 것(본 명세서에 개시된 변형된 참조 게놈에 대한 정렬을 통해) 이외에 상이한 시험 샘플의 RNA 정렬을 서로 비교하는데 사용될 수 있다. 변형된 참조 게놈은 참조 게놈으로부터 건설될 수 있고, 그 다음, 서열 정렬은 상이한 시험 샘플에 함유된 RNA로부터 생성될 수 있다. 상이한 샘플은 상이한 개체, 개체로부터의 상이한 조직, 또는 환부 조직, 예를 들면, 종양 세포 집단 및 비환부 조직으로부터의 것일 수 있다. 정렬 파일은 각각의 샘플에 대하여 생성될 수 있고, 각각의 파일은 또한 정렬 프로파일을 포함할 수 있다. 그 다음, 2개 이상의 샘플의 정렬 파일을 비교하여 각각의 샘플 유형에 존재하는 RNA에서 차이를 동정하는 것이 가능하다. 차등 표현 소프트웨어는 공통의 변형된 참조 게놈에 대하여 생성된 상이한 시험 샘플의 정렬 파일을 비교하고 정렬 파일 사이의 명백한 차이가 샘플의 RNA 사이의 실제 차이를 나타내는지의 여부를 분석하는데 사용될 수 있다.
실시예
하기 실시예는 본 개시내용의 특정한 실시형태를 설명하는 것을 의도하지만 이의 범위를 제한하는 것을 의미하지 않는다.
본 명세서에서 임의의 실시예에서, 기술은 다중 중합효소 연쇄 반응 시나리오에서 프라이머에 대한 특이성 계산에 적용될 수 있다. 따라서, 다중 중합효소 연쇄 반응 프라이머 설계를 위한 빠른 특이성 확인이 달성될 수 있다. 다중 중합효소 연쇄 반응은 흥미 있는(표적) 다중 DNA 영역을 동시에 증폭시키는 진단적 시험 및 법의학적 시험에서 광범위하게 사용될 수 있다. 다중 PCR의 성공적인 작동은 프라이머 쌍의 적합한 세트의 설계를 포함한다. 프라이머의 각각의 쌍은 표적의 상부 및 하부 영역으로부터 추출된 정 프라이머 및 역 프라이머를 포함한다. 이상적으로, 각각의 설계된 쌍은 어떠한 의도되지 않은 표적(오프 타깃)이 아닌 오직 의도된 표적만을 증폭시켜야 한다. 가능한 오프-타깃을 확인하는 공정은 프라이머 설계에서 주요 단계인 특이성 확인이라고 지칭된다.
프라이머 서열은 참조 게놈 서열의 표적 영역을 기반으로 클러스터로 그룹화될 수 있다. 예를 들면, 프라이머 생성 도구를 사용하여 다중 PCR 시나리오에서 다중 표적 영역에 대한 프라이머 후보를 생성하는 경우, 프라이머는 표적 영역을 기반으로 연관되게 저장될 수 있다(즉, 상이한 표적 영역에 대한 프라이머는 상이한 클러스터에 저장된다). 공통 영역 결정은 이러한 클러스터를 기반으로 본 명세서에 기재된 바와 같이 수행될 수 있다.
따라서, 본 명세서에서 후보 프라이머 서열은 표적에 정합하는 것으로 알려질 수 있고, 이러한 후보 프라이머에 대한 오프-타깃 정합이 적거나 없는 경우가 바람직할 수 있다. 후보 프라이머 서열 쌍은 이들의 표적을 나타내는 참조 게놈에 대하여 알려진 위치와 연관될 수 있고, 오프-타깃 조건의 확인을 허용한다. 표적에서 정합은 온-타깃인 것으로 간주된다.
특이성 확인의 작업은 DNA 또는 RNA 영역이 프라이머에 의해 증폭될 수 있는지의 여부를 결정하는 경우에 고려되는 몇몇 인자, 특히, 표적의 전체 유사성 및 3' 말단의 안정성이 존재하기 때문에 사소하지 않다. 전형적인 기존의 접근법은 최대 수백개의 프라이머의 결과만을 보고한다. 본 명세서에 기재된 기술은 수십만개의 프라이머로 용이하게 규모를 신장할 수 있다. 따라서, 기술은 규칙 계산 캐싱, 오프 타깃 예측, 및 서열 근접성 그룹화를 개조함으로써 특이성 확인의 실행 시간을 극적으로 감소시킬 수 있다.
오프-타깃 검출은 본 명세서에 기재된 바와 같이 복수의 후보 프라이머 서열에 대하여 구현될 수 있다. 캐싱은 공통 영역을 공유하는 후보 프라이머 서열에 대한 규칙 만족 계산을 재사용할 수 있다. 정합 예측은 후보를 필터링하는데 사용될 수 있고, 서열 근접성 그룹화는 오프-타깃 정합 조건의 동정을 촉진하는데 사용될 수 있다. 공통 영역에 관한 다른 특징들이 본 명세서에 기재된 바와 같은 기술을 달성하는데 사용될 수 있다.
기술의 이득은 특히 큰 참조 게놈 서열 상의 다중 영역을 표적화하는 후보 프라이머 서열의 큰 수에 대하여 더 큰 신장성을 포함한다.
오프-타깃 검출은 본 명세서에 기재된 바와 같은 특이성 계산에 유용할 수 있다.
따라서, 오프-타깃 검출의 전체 수행은 본 명세서에 기재된 바와 같이 개선될 수 있다.
실시예 1 - 오프-타깃 정합 검출을 구현하는 예시적인 시스템
도 1은 전사체 서열(180)로부터 변형된 참조 게놈 서열을 생성하기 위한 오프-타깃 정합 검출을 구현하는 예시적인 시스템(100)의 블록 다이어그램이다. 본 명세서에서 임의의 실시예에서, 스트링은 가치있는 스트링을 표현하는 캐릭터의 서열의 형태를 가질 수 있다. 본 명세서에서 "스트링"으로 지칭함에도 불구하고, 내부 표현은 스트링, 어레이, 또는 다른 데이터 구조의 형태를 가질 수 있다. 캐릭터는 캐릭터 또는 이러한 캐릭터를 표현하는 코드의 형태를 가질 수 있다.
실시예에서, 복수의 후보 프라이머 서열(110)은 오프-타깃 검출 도구(150)에 의한 입력으로서 수신된다. 본 명세서에 기재된 바와 같이, 이러한 후보 프라이머 서열(110)은 본 명세서에 기재된 바와 같은 참조 게놈으로부터 전사 가능한 전사체 서열의 양성 및 음성 가닥을 표현하는 전사체 서열(180) 상의 특정한 위치를 표적화하는 프라이머 쌍의 형태를 가질 수 있다. 따라서, 후보 프라이머 서열(110)은 전사체 서열(180) 상의 표적을 목표로 한다. 일부 경우에, 동일한 쌍 또는 또 다른 쌍(예를 들면, 위치-사이 오프-타깃 정합)에서 프라이머와 함께 오프-타깃 정합이 또한 발생할 수 있다. 다중 시나리오에서, 후보 프라이머 서열(110)은 전사체 서열(180)의 다중 위치에 대하여 표적화될 수 있고, 이는 오프-타깃 정합을 확인할 때 더 높은 연산적 복합성을 야기한다. 이러한 더 높은 연산적 복합성은 더 많은 자원의 사용 및 더 많은 양의 시간의 처리를 야기한다.
오프-타깃 검출 도구는 허용되는 서열(160)(예를 들면, 검출된 오프-타깃 정합의 관점에서 허용되는 것으로 간주되는 입력 후보 프라이머 서열(예를 들면, 프라이머 쌍))을 생성한다.
내적으로, 오프-타깃 검출 도구(150)는 프라이머 서열이 전사체 서열(180)의 위치를 정합하는지의 여부를 결정할 때 복수의 규칙(120)을 적용할 수 있다. 도구(150)는 또한 정합 결정을 보조하기 위하여 전사체 서열(180)의 k량체 지수(170)를 사용할 수 있다. 실제로, 정합은 초기에 후보 정합으로 고려될 수 있고, 그 다음, 검증된 정합으로 검증될 수 있다.
규칙 만족 계산 캐시(125)를 사용하여 다중 시나리오와 연관된 연산적 복합성을 완화시킬 수 있다. 본 명세서에 기재된 바와 같이, 캐시(125)는 후보 프라이머 서열(110)의 클러스터에서 공통 영역을 레버리징(leveraging)할 수 있다.
오프-타깃 상관기(127)는 검증된 정합을 받아들이고, 이러한 검증된 정합이 오프-타깃 정합 조건을 야기하는지의 여부를 결정할 수 있다. 본 명세서에 기재된 바와 같이, 서열 근접성 그룹화는 오프-타깃 정합 조건을 동정하는데 포함된 연산을 감소시키는데 적용될 수 있다.
오프-타깃 검출 도구(150)는 또한 규칙(120)에 대한 파라미터 등과 같은 작업을 구성하는 입력으로서 설정을 받아들일 수 있다.
본 명세서에서 임의의 실시예에서, 일부 하위시스템은 단일 박스에 나타남에도 불구하고, 실제로, 이들은 하나 이상의 장치를 갖는 컴퓨팅 시스템으로서 구현될 수 있다. 구성요소 간의 경계는 변할 수 있다. 예를 들면, 오프-타깃 검출 도구(150)가 단일 독립체로서 나타남에도 불구하고, 이는 복수의 위치를 교차하는 복수의 장치에 의해 구현될 수 있다. 규칙(120)은 다중 도구(150) 등에 의해 공유될 수 있다.
실제로, 본 명세서에 나타난 시스템, 예를 들면, 시스템(100)은 추가적이거나 더 적은 기능성, 더 많거나 적은 복합 구성요소 등과 함께 복합성이 변할 수 있다. 예를 들면, 추가의 지수, 표 등은 시스템(100)의 부분으로서 구현될 수 있다. 보안, 중복, 부하 균형, 감사 등을 구현하기 위하여 추가의 구성요소가 포함될 수 있다.
실제로, 더 큰 수의 후보 프라이머 서열(110) 및 큰 참조 게놈 서열(180)은 다중 시나리오에서 오프-타깃 정합에 대하여 확인될 수 있다.
기재된 컴퓨팅 시스템은 유선 또는 무선 네트워크 연결을 통해 네트워크화될 수 있다. 대안적으로, 시스템은 인트라넷 연결을 통해 연결될 수 있다(예를 들면, 기업 환경, 정부 환경, 교육 환경, 연구 환경 등).
시스템(100) 및 본 명세서에 기재된 임의의 다른 시스템은 본 명세서에 기재된 하드웨어 구성요소, 예를 들면, 하기 기재된 컴퓨팅 시스템(예를 들면, 처리 장치, 메모리 등)과 함께 구현될 수 있다. 본 명세서에서 임의의 실시예에서, 입력, 출력, 캐시, 지수, 스트링, 규칙 등은 하나 이상의 컴퓨터-판독 가능한 저장 매체 또는 컴퓨터-판독 가능한 저장 장치에 저장될 수 있다. 본 명세서에 기재된 기술은 시스템 또는 하드웨어를 작동시키는 세부사항에 대하여 포괄적일 수 있으며, 기재된 특징의 이점을 얻기 위하여 임의의 다양한 환경에서 적용될 수 있다.
실시예 2 - 오프-타깃 정합 검출의 예시적인 방법
도 2는 오프-타깃 정합 검출을 구현하는 예시적인 방법(200)의 흐름도이고, 예를 들면, 도 1에 도시된 바와 같은 시스템에서 구현될 수 있다. 전사체 서열 상의 다중 표적을 표적화하는 복수의 후보 프라이머 서열이 지지될 수 있다.
실제로, 프라이머 생성 도구 등을 사용하여 후보 프라이머 서열 쌍을 생성하는 것과 같은 작업을 방법이 시작하기 전에 수행할 수 있다.
220에서, 후보 프라이머 서열이 수신된다. 후보 프라이머 서열은 본 명세서에 기재된 임의의 형태를 가질 수 있다.
230에서, 후보 프라이머 서열을 위하여, 전사체 서열 상의 정합이 동정된다. 정합 결정은 본 명세서에 기재된 바와 같은 복수의 규칙을 적용하는 것을 포함할 수 있다. 예를 들면, 복수의 후보 정합 조건은 전사체 서열 상에서 동정될 수 있다(예를 들면, 본 명세서에 기재된 바와 같은 정합 규칙을 통해). 후보 정합 위치 중에서, 전사체 서열 상의 검증된 정합 위치는 동정될 수 있다. 이러한 검증은 전사체 서열 상의 후보 위치가 본 명세서에 기재된 바와 같은 정합 규칙을 만족시키는지의 여부를 결정하는 것을 포함할 수 있다.
후보 정합 위치의 동정 또는 정합 위치의 검증은 본 명세서에 기재된 바와 같은 후보 프라이머 서열을 갖는 공통 영역을 공유하는 또 다른 후보 프라이머 서열에 대하여 이미 계산된 규칙 만족 계산을 재사용하는 것을 포함할 수 있다.
240에서, 검증된 정합 위치가 전사체 서열 상에 오프-타깃 정합 조건을 형성하는지의 여부가 결정된다. 본 명세서에 기재된 바와 같이, 정합은 오프-타깃 정합을 야기하는 후보 프라이머 서열의 쌍을 찾는 또 다른 후보 프라이머 서열(예를 들면, 본 명세서에 기재된 바와 같이 표현된 또 다른 반대 방향 전사체 서열)에 대한 정합과 함께 간주될 수 있다.
검증된 정합 위치가 오프-타깃 정합 조건을 형성하는지의 여부를 기반으로, 후보 프라이머 서열이 허용 가능한지의 여부가 결정된다. 예를 들면, 오프-타깃 정합의 임계 수는 적용될 수 있거나 오프-타깃 정합이 허용되지 않을 수 있다. 후보 프라이머 서열 쌍, 또는 이의 연관된 후보 표적은 이들이 오프-타깃 임계를 만족시키는 경우에 허용되는 프라이머 서열에 포함된다. 더 많은 오프-타깃 정합은 더 낮은 특이성을 야기하고, 이는 후보 프라이머 서열을 덜 바람직하게 만든다.
상기 기재된 바와 같이, 방법(200)은 복수의 후보 프라이머 서열에 대하여 수행될 수 있다(예를 들면, 이는 다른 후보 프라이머 서열에 대하여 반복된다). 실제로, 병렬 및/또는 병행 계산 시나리오가 적용될 수 있다.
방법(200) 및 본 명세서에 기재된 임의의 다른 방법은 하나 이상의 컴퓨터-판독 가능한 매체(예를 들면, 저장 또는 다른 유형 매체)에 저장되거나 하나 이상의 컴퓨터-판독 가능한 저장 장치에 저장된 컴퓨터-실행 가능한 명령어(예를 들면, 컴퓨팅 시스템이 방법을 수행하도록 야기하는)에 의해 수행될 수 있다. 이러한 방법은 소프트웨어, 펌웨어, 하드웨어, 또는 이의 조합에서 수행될 수 있다. 이러한 방법은 컴퓨팅 시스템(예를 들면, 하나 이상의 컴퓨팅 장치)에 의해 적어도 부분적으로 수행될 수 있다.
본 명세서에 기재된 임의의 기술에서, 설명된 작용은 여전히 기술을 구현하면서 대안적인 관점에서 기재될 수 있다. 예를 들면, 220에서, 방법은 후보 프라이머 서열을 수신하는 것을 설명한다. 그러나, 이러한 작용은 상이한 관점에서 "후보 프라이머 서열을 전송하는 것"으로 기재될 수 있다.
실시예 3 - 예시적인 오프-타깃 정합 검출
본 명세서에서 임의의 실시예에서, 오프-타깃 정합은 본 명세서에 기재된 바와 같이 근접한 위치에서 정합하는 후보 프라이머 서열의 쌍(예를 들면, 원래 쌍 또는 2개의 상이한 쌍으로부터)의 형태를 가질 수 있다. 실제로, 근접한 위치는 본 명세서에 기재된 바와 같이 2개의 상이한(예를 들면, 원래의 것 및 원래의 것에 역 및 상보적인 것) 전사체 서열일 수 있고; 계산은 후보 프라이머 서열의 역상보체를 갖고 이를 후보 프라이머 서열에 포함함으로써 단일 전사체 서열에 의해 달성될 수 있다. 본 명세서에 기재된 바와 같이, 이러한 오프-타깃 정합의 검출은 후보 프라이머 서열이 허용되거나 허용되지 않는지의 여부를 결정하는데 사용될 수 있다. 오프-타깃 정합 조건 임계를 초과하는 후보 프라이머 서열(및 이의 쌍)은 허용되지 않는 것으로 간주될 수 있다.
실시예 4 - 예시적인 k량체
본 명세서에서 임의의 실시예에서, 후보 프라이머 서열을 길이 k의 하위스트링 또는 하위서열(k량체)로 분해하여 정합을 찾는 것을 촉진할 수 있다. k량체는 후보 프라이머 서열에 대하여 생성될 수 있다. 실제로, 모든 이러한 하위스트링 또는 하위서열은 생성되지만, 다른 배열이 가능하다.
본 명세서에서 임의의 실시예에서, 후보 프라이머 서열에 대한 전사체 서열 상의 정합 위치를 동정하는 것은 후보 프라이머 서열을 k량체로 분해하는 것 및 k량체로 k량체 지수를 검색하는 것을 포함할 수 있다.
실시예 5 - 예시적인 정합
본 명세서에서 임의의 실시예에서, 서열은 규칙이 만족되는 경우에 특정한 위치에서 전사체 서열에 정합하는 것으로 간주된다. 예시적인 정합 규칙은 하기를 포함할 수 있다:
규칙 1. 적어도 k개의 연속 정합 캐릭터가 존재한다(예를 들면, 캐릭터 레벨에서의 정합).
규칙 2. 전체적으로 e * l개 이하의 캐릭터 부정합이 존재하고, 여기서 l은 후보 프라이머 서열의 길이이고, e는 파라미터(예를 들면, 퍼센트, 분율 등)이다.
규칙 3. 후보 프라이머 서열의 말단에 m개 이하의 캐릭터 부정합이 존재한다.
정합 및 부정합 캐릭터는 본 명세서에 기재된 바와 같은 캐릭터 사이의 상보적 정합을 기반으로 결정될 수 있다. 정합 처리 동안, 정합은 3개의 규칙이 만족됨에 따라 검증될 때까지 후보로서 처리될 수 있고, 이 시점에서 정합은 검증된 정합이 될 수 있다.
본 명세서에서 임의의 실시예에서, 상기 3개의 정합 규칙은 정합을 결정하기 위하여 포함될 수 있다. 하나 이상의 규칙은 초기 규칙으로 지정될 수 있고, 하나 이상의 다른 것들은 정합 검증 규칙으로 지정된다. 예를 들면, 연속 정합에 관한 규칙 #1은 초기 규칙으로 지정될 수 있고, 초기 규칙을 만족하는 후보 정합은 다른 규칙을 통해 검증될 수 있다. 규칙에 대한 다른 배열이 구현될 수 있다.
본 명세서에서 임의의 실시예에서, 정합은 정합이 발생하는 전사체 서열의 상의 위치의 형태(예를 들면, 전사체 서열의 시작으로부터 i개의 캐릭터를 지시하는 정수, 위치에 대한 지시자 등)를 가질 수 있다. 정합은 또한 포함된 후보 프라이머 서열의 지시의 형태(및 쌍의 식별자 또는 쌍에서 또 다른 후보 프라이머 서열의 식별자)를 가질 수 있다. 다중 전사체 서열 또는 이의 표현을 갖는 시나리오에서, 정합은 또한 전사체 서열 상에 정합이 발생한다는 것을 지시할 수 있다.
검증된 정합은 정합의 형태를 가질 수 있고, 또한 정합이 검증되었다는 것의 지시를 포함할 수 있다. 검증이 암시될 수 있다(예를 들면, 정합이 검증된 정합의 목록에서 나타나기 때문에).
실시예 6 - 예시적인 후보 정합 검증
본 명세서에서 임의의 실시예에서, 전사체 서열 상의 정합의 동정은 후보 정합의 검증의 형태를 가질 수 있다. 도 3은 후보 프라이머 서열(310)의 후보 정합을 검증하는 예시적인 시스템(300)의 블록 다이어그램이고, 본 명세서에서 임의의 실시예에서 사용될 수 있다. 정합을 결정하기 위한 계산을 분리함으로써, 일부 계산을 공통 영역을 공유하는 후보 프라이머 서열에 대하여 재사용할 수 있다. 예를 들면, 특정한 후보 정합(325)은 안전하게 생략될 수 있다. 이러한 배열은 도 1에 도시된 시스템을 구현하는데 사용될 수 있다.
실시예에서, 오프-타깃 검출 도구(350)는 검증된 정합(360)을 결정하기 위하여 정합 규칙(320)을 적용하는 정합 파인더(340)를 사용한다.
실제로, 전사체 서열(380)에 대한 k량체 지수(370)를 사용하여 후보 정합(325)을 동정할 수 있다(예를 들면, 전사체 서열의 k량체 지수는 후보 프라이머 서열의 분해된 k량체에 대하여 검색될 수 있고, 히트는 후보 정합을 나타낸다). 일부 정합(328A, 328B)은 검증된 정합(360)으로서 검증되고, 다른 것은 고려로부터 폐기한다.
실시예 7 - 후보 정합을 검증하는 예시적인 방법
도 4는 후보 정합을 검증하는 예시적인 방법(400)의 흐름도이고, 예를 들면, 도 3에 도시된 바와 같은 시스템에서 구현될 수 있다.
430에서, 후보 정합(예를 들면, 전사체 서열 상의 위치)은 동정될 수 있다(예를 들면, k량체 지수를 사용하여 후보 프라이머 서열의 k량체의 발생을 검색하여 초기 정합 규칙, 예를 들면, 본 명세서에 기재된 규칙 #1이 만족되거나 부분적으로 만족되는지는 찾는다). 그 다음, 후보 정합을 440에서 정합 검증 규칙을 통해 검증한다. 예를 들면, 후보 프라이머 서열의 추가의 부분 또는 추가의 규칙이 고려될 수 있다.
방법(400)은 복수의 후보 정합에 대하여 수행될 수 있다(예를 들면, 방법은 다른 후보 정합에 대하여 반복된다).
실시예 8 - 공통 영역에 대한 예시적인 규칙 계산 캐시
도 5는 본 명세서에 기재된 임의의 실시예에서 사용될 수 있는 후보 프라이머 서열 내의 공통 영역에 대한 규칙 만족 계산 캐시를 갖는 예시적인 시스템(500)의 블록 다이어그램이다. 실시예에서, 클러스터(510A, 510B) 또는 후보 프라이머 서열(520A-F)은 공통 영역(530A-B)과 연관되고, 그 다음, 이는 전사체 서열(580) 상의 위치와 연관된다.
공통 영역(530A-B)은 후보(예를 들면, 후보는 동일한 하위스트링, 하위서열 등을 함유한다) 중에서 공유되는 후보 프라이머 서열의 영역(예를 들면, 하위스트링, 하위서열 등)이다.
규칙 만족 계산 캐시(540)는 상이한 공통 영역에 의해 조직화되고, 입력 후보 프라이머 서열(520A-F)의 상이한 각각의 클러스터(510A-B)와 연관된 공통 영역 530A-B의 각각에 대하여 규칙 만족 계산(532A-B)을 저장한다. 본 명세서에 기재된 바와 같이, 특정한 후보 정합(538A, 538B)은 사전 계산이 매칠 규칙이 만족되지 않았다(예를 들면, 규칙 #2는 너무 많은 부정합이 있기 때문에 만족되지 않았다)는 것을 이미 결정했기 때문에 후보 프라이머 서열에 대하여 안전하게 생략될 수 있다.
실시예 9 - 예시적인 규칙 만족 계산 캐시
본 명세서에서 임의의 실시예에서, 규칙이 만족되는지의 여부를 결정하기 위한 계산이 규칙 만족 계산 캐시(예를 들면, 정합 규칙 만족 계산 캐시)에서 복수의 후보 프라이머 서열에 의한 사용을 위하여 캐싱될 수 있다. 본 명세서에 기재된 바와 같이, 후보 프라이머 서열 중의 공통 영역이 결정될 수 있다.
규칙의 논리를 기반으로, 규칙 만족에 관한 특정한 계산이 재사용될 수 있다. 예를 들면, 공통 영역이 적어도 k개의 연속 정합을 갖는 것으로 알려진 경우, 이러한 영역을 함유하는 임의의 후보 프라이머 서열은 규칙 #1을 만족시킨다(예를 들면, 이것은 k개 이상의 연속 정합만을 가질 수 있다). 따라서, 영역이 규칙 #1을 만족시킨다는 결정은 공통 영역을 갖는 후보 프라이머 서열에 대하여 재사용될 수 있다. 유사하게, 공통 영역이 e * l개 초과의 부정합을 갖는 것으로 알려진 경우, 길이 l의 임의의 후보 프라이머 서열은 규칙 #2를 만족하지 않을 것이다(예를 들면, 이것은 e * l개 이하의 부정합을 가질 수 있다). 따라서, 영역이 규칙 #2를 만족시키지 못한다는 결정은 공통 영역을 갖는 후보 프라이머 서열에 대하여 재사용될 수 있다.
캐싱된 규칙 만족 계산은 계산이 적용된 위치(예를 들면, 캐싱된 계산에 포함된 참조 게놈 서열 상의 위치, 예를 들면, 정합이 발생하는 위치, 부정합이 발생하는 위치 등)에서 저장된 위치를 포함할 수 있다.
캐시의 다중 레벨은 상이한 조건 또는 서열의 상이한 길이(예를 들면, l, l+1, l+3 등)에 대하여 규칙 만족 계산을 저장할 수 있다.
실제로, 그 다음, 비-공통 영역은 결정으로 포함될 수 있다. 예를 들면, 캐시가 공통 영역에서 m개의 부정합이 존재하는 것을 나타내는 경우, 추가의 부정합을 m에 더하여 전체 후보 프라이머 서열 부정합을 결정하고, 전체 부정합이 규칙 #2를 만족하는지를 계산할 수 있다.
따라서, 총 규칙 만족 계산(예를 들면, 규칙의 조건이 만족되는지의 여부) 또는 부분적인 규칙 만족 계산(예를 들면, 규칙의 조건이 만족하는지의 여부의 부분적인 계산)이 캐싱될 수 있다.
실시예 10 - 캐시를 통해 정합을 동정하는 예시적인 방법
도 6은 캐시를 통해 후보 프라이머 서열에 대한 정합을 동정하는 예시적인 방법(600)의 흐름도이고, 예를 들면, 도 5에 도시된 바와 같은 시스템에서 구현될 수 있다. 실제로, 이러한 방법은 정합 파인더 또는 오프-타깃 검증 도구의 다른 부분에 의해 수행되고, 도 4에 도시된 방법의 부분으로서 수행될 수 있다.
후보 프라이머 서열은 정합 처리가 시작될 때 수신될 수 있다.
630에서, 공통 영역은 후보 프라이머 서열에 대하여 동정된다. 후보 프라이머 서열과 공통 영역 사이의 연관성은 캐시가 건설될 때 저장될 수 있다.
640에서, 공통 영역의 규칙 만족 계산은 후보 정합을 위하여 재사용된다. 다시 말해서, 캐시는 규칙 만족을 위한 계산을 재수행하는 대신에 참고될 수 있다. 예를 들면, 계산은 후보 정합을 안전하게 생략하는데 사용될 수 있다(예를 들면, 후보 프라이머 서열은 아마 전사체 서열 상의 위치를 정합할 수 없다). 또는, 계산은 후보 프라이머 서열이 규칙 조건을 만족시키는지를 확인하는데 사용될 수 있다.
방법(600)은 복수의 후보 프라이머 서열에 대하여 수행될 수 있다. 따라서, 이는 다른 후보 프라이머 서열에 대하여 반복될 수 있다.
실시예 11 - 규칙 만족 계산 캐시를 통해 정합을 동정하는 예시적인 방법
도 7은 후보 프라이머 서열에 대한 캐시를 건설하는 예시적인 방법(700)의 흐름도이고, 도 5에 도시된 것과 같이 캐시를 사용하는 임의의 시스템에서 구현될 수 있다. 캐시 건설은 정합 처리 전에 또는 이와 함께 수행될 수 있다(예를 들면, 도 4에 도시된 바와 같음).
730에서, 클러스터로 그룹화된 후보 프라이머 서열이 수신된다. 실제로, 한 세트의 후보 프라이머 서열은 공통 영역과 연관되어 있고, 이들은 따라서 클러스터로 그룹화될 수 있다. 또는, 클러스터화는 서열 중의 예상 공통 영역을 찾음으로써 수행될 수 있다.
740에서, 공통 영역은 클러스터에 대하여 동정된다. 새로 생긴 클러스터는 이미 공통 영역 또는 예상 공통 영역의 일부 초기 지시를 가질 수 있거나, 후보 프라이머 서열은 정렬되어 공통 영역을 결정할 수 있다. 초기 공통 영역은 신장되기 전에 "시드(seed)"로 지칭될 수 있다.
본 명세서에서 임의의 실시예에서, 공통 영역은 750에 도시된 바와 같이 신장될 수 있다. 컴퓨팅 리소스의 증가는 공통 영역의 신장의 결과로서 컴퓨팅 리소스의 감소에 대항하여 균형이 맞춰질 수 있다. 공통 영역의 신장의 이점 및 단점은 영역을 신장하는지의 여부를 결정할 때 고려될 수 있다. 예를 들면, 영역의 신장을 위한 컴퓨팅 리소스 증가(예를 들면, 캐시 건설을 위하여 신장된 리소스)를 계산할 수 있고, 공통 영역의 신장을 위한 컴퓨팅 리소스 감소(예를 들면, 캐시에 의한 검색에 의해 절약되는 리소스)를 계산할 수 있고, 영역을 신장하지 않는 경우의 컴퓨팅 리소스 증가(예를 들면, 캐시 없이 검색할 때 신장되는 리소스)를 계산할 수 있다. 공통 영역의 신장 여부를 결정하는 것은 컴퓨팅 리소스 감소에 대항하여 컴퓨팅 리소스 증가를 균형 맞춤으로써 결정될 수 있다. 예를 들면, 공통 영역의 신장은 클러스터에서 후보 프라이머 서열의 부분집합에 도달할 수 있다.
760에서, 공통 영역에 대한 규칙 만족 계산을 본 명세서에 기재된 바와 같이 저장한다. 이러한 계산은 공통 영역을 갖는 후보 프라이머 서열을 처리할 때 후속적인 사용을 위하여 캐시에서 공통 영역과 연관될 수 있다. 유사하게, 공통 영역과 공통 영역을 함유하는 후보 프라이머 서열 사이의 연관성이 저장될 수 있다.
방법(700)은 복수의 클러스터에 대하여 수행될 수 있다. 예를 들면, 이는 다른 클러스터에 대하여 반복될 수 있다.
본 명세서에서 임의의 실시예에서, 후보 프라이머 서열과 또 다른 후보 프라이머 서열 사이의 공통 영역이 동정될 수 있다. 규칙 만족 계산은 공통 영역에 대하여 수행될 수 있고, 규칙 만족 계산은 캐시에 저장될 수 있다. 캐시를 기반으로, 계산은 생략될 수 있다(예를 들면, 후보 프라이머 서열에 대하여). 캐시는 본 명세서에 기재된 바와 같은 다중 레벨(예를 들면, 후보 프라이머 서열의 각각의 상이한 길이에 관하여)을 지지할 수 있다.
실시예 12 - 다중-레벨 캐시를 구현하는 예시적인 시스템
도 8은 다중-레벨 캐시(810)를 구현하는 예시적인 시스템(800)의 블록 다이어그램이고, 캐시를 사용하는 본 명세서에서 임의의 실시예에서 구현될 수 있다.
실시예에서, 규칙 만족 계산 캐시(810)는 공통 영역(830A)에 의해 조직화되고, 캐시(810)의 상이한 레벨에 대하여 저장되는 분리된 규칙 만족 계산(832AA 및 832AB)을 포함한다.
예를 들면, 상이한 규칙에 대한 계산, 또는 규칙의 상이한 파라미터(예를 들면, 상이한 후보 프라이머 서열 길이)에 대한 계산이 저장될 수 있다.
공통 영역 및 전사체 서열(880)에 대한 다양한 후보 정합은 캐시와 연관될 수 있다. 특정한 후보 정합(838A, 838B)은 규칙을 만족시키지 못하는 것으로 나타날 수 있고, 따라서 공통 영역을 함유하는 다른 후보 프라이머 서열을 처리할 때 안전하게 생략될 수 있다. 상이한 길이의 이들 후보 프라이머 서열은 규칙에 적절한 것에 대한 계산의 재사용을 제한할 수 있다(예를 들면, 상기 규칙 #2는 길이 구성요소를 포함한다).
실시예 13 - k량체 지수를 구현하는 예시적인 시스템
도 9는 k량체 지수(950)를 구현하는 예시적인 시스템(900)의 블록 다이어그램이다. 실시예는 기본 구현을 나타낸다. 실제로, 임의의 수의 변형이 가능하다. 임의의 다양한 k량체 지수 계획이 기술을 대하여 사용될 수 있다.
실시예에서, 지수(950)는 k량체 키(952A-N) 및 k량체가 전사체 서열(980)에서 발생하는 각각의 위치(954A-N)를 포함한다. 위치는 목록(예를 들면, 정수, 지시자, 또는 전사체 서열(980)에서의 위치를 명시하는 것)의 형태를 가질 수 있다.
실시예 14 - 예시적인 오프-타깃 예측자
프라이머의 특이성을 확인하는 구현에서, 오프-타깃 결정은 프라이머가 게놈의 의도되지 않은 영역을 증폭시킬지의 여부를 참조하여 수행될 수 있다. 도 14는 예시적인 오프-타깃 정합 조건의 블록 다이어그램이다.
의도되지 않은 영역이 증폭될 때, 오프-타깃 정합 조건은 프라이머를 위해 존재한다. 프라이머 쌍은 정 프라이머 및 역 프라이머를 포함할 수 있다. 프라이머 쌍이 의도되지 않는 위치에 결합할 때, 의도되지 않은 증폭이 야기될 수 있다. 따라서, 참조 게놈으로부터 전사 가능한 RNA 또는 서열로부터 유래된 앰플리콘의 하나의 가닥 상의 위치에서 하나의 프라이머의 정합의 검출은 앰플리콘의 다른 가닥 또는 대응하는 전사체 서열 상의 이웃한 위치에서 또 다른 프라이머의 정합의 검출과 함께 오프-타깃 정합 조건을 나타낸다. 프라이머가 또 다른 쌍으로부터의 것일 때, 오프-타깃 정합 조건은 여전히 야기되고, "위치 사이의 오프 타깃" 조건으로 지칭된다. 다중 PCR 프라이머 설계에 의해, 몇몇 표적에 대한 프라이머 세트는 동시에 설계되고, 이는 더 복잡하고 어려운 프라이머 선택을 만든다.
오프-타깃을 검출하는 방법은 전사체 서열 상의 수집된 정합(예를 들면, 규칙 조건을 만족시키는 프라이머에 대한 정합 위치)을 수신할 수 있고, 전사체 서열 상의 서로의 임계 거리(예를 들면, 오프-타깃 조건 창 길이) 내의 정합이 존재하는지의 여부를 확인할 수 있다. 이러한 방법은 적어도 하나의 다른 후보 프라이머 서열에 대한 적어도 하나의 다른 정합과 함께 고려될 때 검증된 정합 위치가 전사체 서열 상의 오프-타깃 정합 조건을 형성하는지의 여부를 결정하는 것을 수행할 수 있다. 프라이머의 역상보체는 음성 가닥을 설명하기 위하여 기재되는 바와 같이 포함될 수 있다. 전사체 서열 상의 원하는 표적 위치에 있지 않은 이러한 수집된 정합은 오프-타깃 정합으로 간주된다. 오프-타깃 조건을 검출하는 하나의 방법은 다른 정합 위치에 대한 각각의 정합 위치(예를 들면, 서로 정합 위치)를 단순하게 비교하여 이들이 임계 거리 내에 있는지의 여부를 볼 수 있고, 이는 n2차 계산을 야기한다. 임계 거리 내의 2개의 정합 위치의 검출하에, 추가의 처리를 수행하여(예를 들면, 정합이 전사체 서열의 상이한 가닥 상에 있는지를 확인하여) 오프-타깃 조건을 확인할 수 있다. 정합의 가닥은 이의 표시의 부분으로서 저장될 수 있다(예를 들면, 연관된 후보 프라이머가 역상보체인 경우, 이는 음성 가닥 상의 정합인 것을 나타내고, 그렇지 않은 경우, 이는 양성 가닥 상의 정합이다). 의도된 표적에서 정합의 한 세트는 오프-타깃 조건으로서 나타나지 않는다.
본 명세서에서 임의의 실시예에서, 오프-타깃 조건 창 길이는 본 명세서에 기재된 바와 같은 PCR 반응에서 표적 핵산 분자의 최대 예상 길이(예를 들면, 전형적으로 25-1000개의 염기 쌍의 길이, 200-1000, 500-1000, 200-800, 또는 300-700개의 염기 쌍의 길이)와 동일하거나 실질적으로 유사할 수 있다. 본 명세서에 기재된 실시예에서 오프-타깃 조건 창 길이에 대하여 1000의 값을 사용할 수 있다. 오프-타깃은 이들의 길이를 기반으로 점수화된다.
도 10은 오프-타깃 예측자를 구현하는 예시적인 시스템(1000)의 블록 다이어그램이고, 본 명세서에서 임의의 실시예에서 후보 프라이머 서열에 대하여 사용될 수 있다. 이러한 예측자는 캐시를 갖거나 갖지 않는 구현으로 사용될 수 있다. 정합에 대한 검색 전에, 다수의 정합이 예측될 수 있다. 다수의 정합은 오프-타깃 정합과 상관관계를 갖는다. 따라서, 예측된 수의 정합이 임계값을 만족시키는 경우, 후보 프라이머 서열은 폐기(예를 들면, 생략)될 수 있고, 따라서 계산의 수를 감소시키고 성능을 증가시킨다.
하나의 예측자는 숙달된 파라미터 a, b, c, 및 d를 사용하는 하기 계산 A의 형태를 갖는다:
y = e (a * log x + b* l + c*floor[ l *e] + d)
상기 식에서,
y: 히트의 수(높은 상관관계가 있는, + 또는 - 가닥)
x: 후보 프라이머 서열에 대하여 k량체 지수에 의해 반송된 후보 히트(정합)의 수
l: 후보 프라이머 서열의 길이
e: 허용된 부정합(규칙 #2로부터)의 분율 또는 허용된 부정합률 또는 허용된 착오율.
파라미터 a, b, c, 및 d는 이력 데이터로부터 계산될 수 있다. 선형 회귀는 예측 모델 계산 A를 y 및 x 히트의 관찰된 데이터 세트에 적합화시키는데 사용될 수 있다. 파라미터 a, b, c, 및 d는 x의 추가 값이 이의 수반하는 y 값 없이 제공되는 경우에 적용될 수 있고, 맞춰진 모델은 y 값을 예측하는데 사용될 수 있다.
실시예에서, 오프-타깃 예측자(1050)는 입력으로서 후보 프라이머 서열(1010)을 수용하고, 파라미터 a, b, c, 및 d를 예측 엔진(1060)(상기 나타낸 계산)에 적용하여 전사체 서열 상의 정합의 예측된 수를 생성한다. lx는 후보 프라이머 서열(1010)로부터 유래될 수 있다. 정합이 임계값을 만족시키는(또는 초과하는) 경우, 후보 프라이머 서열은 고려에서 폐기될 수 있다(예를 들면, 정합 처리는 후보 프라이머 서열 또는 이의 서열 쌍에 대하여 수행될 필요가 없다). 따라서, 오프-타깃 검출 도구는 임계값을 저장할 수 있고 기재된 바와 같이 이를 적용할 수 있다.
본 명세서에서 임의의 실시예에서, 오프-타깃 예측 기술은 사전 필터링으로서 사용되어 임계 수보다 큰 수의 히트를 갖는 이들 후보 프라이머를 폐기할 수 있다. 인간 게놈을 포함하는 하나의 구현에서, 1,000의 임계값(예를 들면, 오프-타깃 조건 창 길이)을 사용하였지만, 800-1200 범위의 다른 값이 사용될 수 있다(예를 들면, 900, 1100 등이 사용될 수 있다). 1000, 또는 800-1,200, 또는 900 또는 1,100의 대응하는 임계값, 또는 더 높거나 낮거나 중간인 다른 임계값을 포함하는 유전자 모델에 따른 인간 게놈으로부터 전사 가능한 전사체를 포함하는 다른 구현이 사용될 수 있다. 예측은 본 명세서에 기재된 바와 같은 후보 프라이머에 대하여 생성되고, 예측된 히트의 수가 임계값을 만족시키는 경우, 후보 프라이머는 고려로부터 폐기된다(예를 들면, 캐시는 후보 프라이머 서열에 대하여 고려될 필요가 없다).
도 23은 정합에 대한 검색 전에, 파라미터와 함께, 인간 게놈을 사용하여 상기 기재된 계산 A를 통해 정합 예측을 적용하는 것의 결과를 도시하는 블록 다이어그램을 도시한다. 실시예에서, 1000 정합의 임계값이 설정되었다. 특정한 후보 프라이머 서열에 대한 예측이 임계값을 만족시키는 경우, 이는 고려로부터 폐기되었다. 작동시간 개선 및 메모리 사용의 극적인 감소가 야기되었다. 오프 타깃 확인 시간은 1 시간 내지 10 분으로 감소하였다. 간단한 방법은 프라이머당 5.5 초를 야기하고; 캐싱된 방법은 프라이머당 0.38 초를 야기하고; 예측/필터링 방법은 프라이머당 0.29 초를 야기하였다. 서열의 14%를 필터링하여, 정합(히트)의 56.4%를 필터링하였다. 너무 많은 히트를 갖는 서열을 필터링하는 것은 메모리 사용량을 감소시킬 수 있다.
도 24에 도시된 바와 같이, 필터링된 서열의 93% 이상은 800개 이상의 실제 관찰된 히트를 갖는다. 따라서, 계산 A에 의해 생성된 예측을 기반으로 한 필터링은 유효한 것으로 간주될 수 있다.
약 250, 약 500, 약 1000, 약 1500, 또는 약 2000의 다른 임계값이 또한 사용될 수 있다.
따라서, 일부 후보 프라이머 서열의 필터링은 많은 히트를 갖는 것으로 예측되는 프라이머 서열을 제거함으로써 달성될 수 있다(예를 들면, 따라서 오프-타깃 정합 조건을 야기할 수 있다). 도 10 및 11의 실시형태는 이러한 접근법을 구현할 수 있다. 따라서, 본 명세서에서 임의의 실시예에서, 프라이머는 히트(정합)의 임계 수를 갖는 것으로 예측되는 이들 프라이머를 제거함으로써 사전 필터링될 수 있다. 이러한 예측은 실제 정합의 관찰을 기반으로 한 계산된 결과를 숙련함으로써 생성될 수 있다(예를 들면, 이는 프라이머의 길이를 기반으로 다양하기 때문에). 예측을 생성하는 계산의 임의의 수가 사용될 수 있다. 하기 계산 A는 본 명세서에 기재된 바와 같은 파라미터를 갖는 예로서 사용될 수 있다.
y = e (a * log x + b* l + c*floor[ l *e] + d)
임의의 하기 실시형태가 구현될 수 있다. 예를 들면, 후보 프라이머의 사전 필터링은 캐시 및 서열 근접성 그룹화 기술과 관계 없이 임의의 다중 PCR 시나리오에서 도 10 및 11의 정합 예측 기술을 사용하여 달성될 수 있다. 따라서, 다중 PCR 반응에서 프라이머로서 포함이 고려되는 후보 프라이머 서열에 대하여, 서열이 수신될 수 있고, 후보 프라이머 서열에 대한 전사체 서열 상의 다수의 정합의 예측이 생성될 수 있고, 정합의 예측된 수가 임계값을 초과한다는 결정에 반응하여, 후보 프라이머 서열은 고려로부터 폐기될 수 있다(예를 들면, 필터링된다). 계산 및 임계값은 본 명세서에 기재된 형태를 가질 수 있다.
서열 근접성 그룹화를 통한 오프-타깃 검출은 캐시 및 정합 예측 기술과 관계 없이 임의의 다중 PCR 프라이머 특이성 평가 시나리오에 적용될 수 있다. ‹Q라서, 복수의 후보 프라이머에 대한 복수의 검증된 정합에 있어서, 검증된 정합을 본 명세서에 기재된 바와 같은 서열 근접성 그룹화로 위치시킬 수 있다. 이러한 정합은 본 명세서에 기재된 캐시 기술 이외의 기술을 통해(예를 들면, 본 명세서에 기재된 캐시 없이 정합 규칙을 적용하여) 검증될 수 있다. 그 다음, 근접성 그룹화를 확인하여 오프-타깃 정합 조건을 동정할 수 있다.
실시예 15 - 오프-타깃 예측의 예시적인 방법
도 11은 후보 프라이머 서열에 대한 오프-타깃 예측을 생성하는 예시적인 방법(1100)의 흐름도이고, 예를 들면, 도 10에 도시된 바와 같은 시스템에서 구현될 수 있다. 이러한 방법은 캐시를 사용하거나 사용하지 않는 구현과 함께 사용될 수 있다.
1130에서, 후보 프라이머 서열은 수신된다.
1140에서, 전사체 서열 상의 정합의 수의 예측은 파라미터를 예측 엔진에 적용하는 것을 통해 생성된다.
1150에서, 후보 프라이머 서열은 정합의 예측된 수가 임계값을 초과한다는 결정에 반응하여 고려로부터 폐기된다(예를 들면, 실제 정합은 결정되지 않는다).
실제로, 방법(1100)은 복수의 후보 프라이머 서열에 대하여 수행될 수 있다(예를 들면, 이는 다른 후보 프라이머 서열에 대하여 반복된다).
실시예 16 - 근접성 그룹화를 구현하는 예시적인 시스템
도 12는 스트링 또는 서열 근접성 그룹화를 구현하는 예시적인 시스템(1200)의 블록 다이어그램이고, 본 명세서에서 임의의 실시예에서 오프-타깃 정합 조건을 동정하는데 사용될 수 있다. 오프-타깃 상관기(1250)는 오프-타깃 검출 도구에 포함될 수 있다(예를 들면, 도 1의 도구(150)에서 상관기(127)로서). 서열 근접성 그룹화는 캐시를 갖지 않는 시스템에서 사용될 수 있다.
상관기(1250)는 검증된 정합(1210) 및 의도된 표적(1220)을 수용한다. 실제로, 시스템은 본 명세서에 기재된 임의의 기술을 통해 결정된 다수의 후보 프라이머 서열에 대한 검증된 정합(1210)을 처리할 수 있다. 의도된 표적(1220)은 후보 프라이머 서열에 대하여 의도된 표적을 나타내고, 이는 본 명세서에 기재된 바와 같이 쌍으로 조직화될 수 있다.
상관기(1250)는 후보 프라이머 서열에 대하여 검증된 정합이 오프-타깃 정합인지의 여부를 결정하는 것을 보조하는 서열 근접성 그룹화(1260)를 생성할 수 있다. 본 명세서에 기재된 바와 같이, 이러한 결정은 처리가 수행되는 2개의 전사체 서열을 참조하여 만들어질 수 있고, 2개의 서열은 본 명세서에 기재된 바와 같이 단일 서열을 통해 표현될 수 있다.
서열 근접성 그룹화(1260)를 기반으로, 상관기(1250)는 오프-타깃 결정(1280)을 출력할 수 있다. 이러한 결정은 특정한 후보 프라이머 서열이 오프-타깃 정합을 야기한다는 것을 나타낼 수 있다. 다른 정보, 예를 들면, 전사체 서열 상의 오프-타깃 정합이 발생하는 곳, 위치 사이의 오프-타깃 정합인지의 여부 등이 포함될 수 있다.
실시예 17 - 근접성 그룹화를 통해 오프-타깃 정합 조건을 동정하는 예시적인 방법
도 13은 서열 근접성 그룹화를 통해 오프-타깃 정합을 동정하는 예시적인 방법(1300)의 흐름도이고, 예를 들면, 도 12에 도시된 바와 같은 시스템에서 구현될 수 있다(예를 들면, 오프-타깃 상관기에 의해). 서열 근접성 그룹화는 캐시를 사용하거나 사용하지 않는 방법에서 사용될 수 있다.
1330에서, 복수의 후보 프라이머 서열에 대한 복수의 검증된 정합이 수신된다. 본 명세서에 기재된 바와 같이, 검증된 정합은 전사체 서열 상에 정합이 발생하는 곳의 지시를 포함할 수 있다.
1340에서, 정합은 게놈 서열 상에 정합이 발생하는 곳에 따라 서열 근접성 그룹화로 배치되거나 클러스터화된다. 그룹화는 오프-타깃 조건 창 길이를 기반으로 할 수 있다.
1350에서, 서열 근접성 그룹화를 확인하여 본 명세서에 기재된 바와 같이 오프-타깃 정합 조건을 동정할 수 있다.
실시예 18 - 예시적인 서열 근접성 그룹화
본 명세서에서 임의의 실시예에서, 전사체 서열은 위치의 범위로 나뉠 수 있다. 범위의 크기는 오프-타깃 조건 창 길이를 기반으로 할 수 있다. 따라서, 제1 그룹은 창_길이를 통해 위치 1을 포함하고, 제2 그룹은 창_길이*2를 통해 위치 창_길이+1을 포함하는 등이다. 따라서 그룹 g에 대한 범위는 (창_길이 * g)를 통해 1+(창_길이 *(g-1))이다.
그룹은 그룹의 범위 내의 위치에서 발생하는 검증된 정합의 목록을 함유한다. 오프-타깃 정합 쌍에 대한 확인은 확인이 전사체 서열의 근접한 위치(예를 들면, 이웃 그룹)에서 발생하는 정합 쌍 사이에서만 수행될 필요가 있기 때문에 단순할 수 있다. 이러한 방식으로, 서로의 오프-타깃 조건 창 길이의 거리 내의 정합은 오프-타깃 조건의 검출을 위하여 동정되고 처리될 수 있다.
실시예 19 - 예시적인 구현: 프라이머 쌍에 대한 특이성 계산
본 명세서에 기재된 바와 같이, k량체 지수는 적용될 수 있고, 중간체는 규칙 만족 계산 캐시에서 캐싱되어 정확성을 잃지 않고 작동시간을 감소시킬 수 있다.
특이성 확인 작업은 2개의 단계를 통해 진행될 수 있다: 프라이머 히트(정합)의 검색 및 이러한 정합이 2개의 프라이머에 대하여 오프-타깃 정합 조건을 야기하는지의 여부의 확인. 길이 l 및 게놈 영역 r을 갖는 정해진 프라이머 p, r은 이것이 하기 3개의 조건(정합 규칙)을 만족시킬 때 프라이머의 히트이다: 1. 적어도 k개의 연속 정합이 존재하고, 2. 총 e * l개 초과의 부정합이 존재할 수 없고, 3. 프라이머의 3' 말단 상에 m개 초과의 부정합이 존재할 수 없다. 조건은 본 명세서에 기재된 바와 같이 정합 규칙으로서 구현될 수 있다(이러한 실시예에서, 유전자 모델에 따른 참조 게놈으로부터 전사 가능한 RNA 또는 전사체로부터의 DNA 앰플리콘에서 T는 RNA 분자에서 U에 대응할 것이라는 것이 이해될 것이다)
Figure pct00001
예를 들면, 전사체 영역 r은 하기의 경우에 히트일 수 있다: 1. 프라이머 뉴클레오타이드 서열과 전사체 영역 r의 뉴클레오타이드 서열 사이에 적어도 6-10(예를 들면, 적어도 6-8)개의 연속 정합, 예를 들면, 적어도 6, 7, 8, 9, 또는 10개의 연속 정합이 존재한다. 2. 프라이머 뉴클레오타이드의 20% 이하(예를 들면, 15% 이하 또는 10% 이하)가 프라이머 뉴클레오타이드 서열과 전사체 영역 r의 뉴클레오타이드 서열 사이에서 부정합된다. 3. 5개 이하의 부정합(예를 들면, 4개 이하, 3개 이하, 또는 2개 이하의 부정합, 또는 1개 이하의 부정합)이 프라이머의 3' 말단으로부터 프라이머의 20% 상에(뉴클레오타이드에 의해) 프라이머 뉴클레오타이드 서열과 전사체 영역 r의 뉴클레오타이드 서열 사이에 (예를 들면, 연속적으로) 존재한다. 프라이머의 3' 말단은 일부 실시형태에서 5개의 염기 쌍으로서 정의될 수 있다. 다른 실시형태에 있어서, 프라이머의 3' 말단은 1-5개의 염기 쌍 길이로 규정될 수 있다. 예를 들면, 프라이머의 길이보다는 중합 효소에 따라 마지막 5개의 염기 쌍에서 3개 이하의 부정합 또는 마지막 3개의 염기 쌍에서 2개 이하의 부정합이 컷오프가 될 수 있다. 전형적으로, 3' 말단 부정합은 증폭을 방지할 수 있다(중합효소는 부정합으로부터 신장되지 않을 수 있다). 그러나, 고충실도 중합효소는 전형적으로 부정합 염기를 다시 물어 재합성할 수 있고, 따라서 오류를 수정하지만 또한 오프-타깃이 증폭될 기회를 증가시킨다.
따라서, 기술은 프라이머와 표적 사이의 프라이머 길이의 퍼센트로서 허용되는 부정합의 총 수의 특성화를 허용한다. 프라이머와 표적 사이의 영역에서 허용되는 3'에서 맞춤 영역이 규정될 수 있고, 부정합의 수는 특정될 수 있다. 다중 기존의 프라이머에 대한 특이성이 결정될 수 있다. 기술은 수십만개의 프라이머로 규모를 신장할 수 있다.
전사체 가닥 상의 정합은 3개의 규칙이 만족되는 것으로 검증될 때까지 후보 정합으로 간주될 수 있다.
실시예 20 - 예시적인 구현: 오프-타깃 결정
도 15는 오프-타깃 결정을 위하여 서열 근접성 그룹화를 사용하는 예시적인 시스템(1500)의 블록 다이어그램이고, 도 12 또는 13에 도시된 배열에 대하여 사용될 수 있다. 실시예에서, 전사체 서열에 대한 표적 서열 가닥(1580)은 오프-타깃 조건 창 길이(1525A)에 따른 범위로 나뉜 전사체 서열 세트에 의해 표시된다. 음성 가닥은 프라이머의 역상보체가 또한 후보 프라이머 서열에 포함된다는 점에서 전사체 서열(1580)에 의해 표시된다. 따라서, 원치않는 증폭을 유발하거나 PCR 공정 동안 표적 위치의 증폭을 방해할 것인 오프-타깃 위치가 동정될 수 있다. 이러한 방식으로, 본 명세서에 기재된 바와 같은 서열 근접성 그룹화는 구현된다. 대안적인 실시형태에 있어서, 2개의 상이한 서열(서로 역 및 상보적)은 상이한 가닥을 표시하는데 사용될 수 있다.
가닥(1580)에 대하여 검증된 정합은 가닥 상에 검증된 정합이 발생하는 곳에 따라 목록(1520A-N)에 위치한다. 예를 들면, 도 2의 방법은 프라이머 서열 및 프라이머 서열의 역상보체에 대하여 수행될 수 있고, 이는 두 가닥 모두에 대하여 검증된 정합을 야기한다. 그 다음, 오프-타깃 정합은 목록을 사용하여 동정될 수 있다.
오프-타깃 정합 조건의 확인은 동일한 그룹 및 이웃 그룹 내의 정합을 확인(1530)함으로써 달성될 수 있다. 확인은 그룹에 대하여 순차적으로 진행될 수 있기 때문에, 실제로, 그룹은 다음 그룹에 대하여 단순하게 확인될 수 있다(예를 들면, 목록(1520B)을 처리하는 경우, 1520A에 대한 처리가 이미 수행되었기 때문에 목록(1520A)에 대하여 확인할 필요가 없다). 예를 들면, 목록(1520A)에서 정합은 오프-타깃 정합 조건이 존재하는지(예를 들면, 원하는 표적이 아닌 서로 오프-타깃 조건 창 길이 내의 2개의 프라이머 히트가 존재하는지) 여부를 보기 위하여 목록(1520B)에서 정합에 대하여 확인될 수 있고, 그 다음, 1520B에서 정합은 1520C에 대하여 확인될 수 있는 등이다. 만약 그렇다면, 오프-타깃 정합 조건에서 프라이머는 오프-타깃 정합 조건에 포함된다고 기록될 수 있다. 프라이머 쌍이 또한 그렇게 기록될 수 있다.
따라서 목록(1520A-N)은 오프-타깃 검출 처리의 속도를 크게 높이는데 정합의 지수로서 작용할 수 있다.
따라서 특이성은 프라이머 또는 프라이머 쌍에 대하여 검출되는 오프-타깃 정합 조건의 수를 기반으로 계산될 수 있다. 특이성은 오프-타깃 정합의 계산된 수의 형태를 가질 수 있다. 일부 응용분야는 단일 오프-타깃 정합이 허용되지 않는 것으로 간주되는 것을 요구할 수 있다. 그러나, 이러한 엄격한 조건을 만족시키는 후보 프라이머를 찾는 것이 항상 가능하지 않을 수 있기 때문에, 더 복잡한 통계 기술이 응용분야에 따라 적용될 수 있다.
오프-타깃 예측은 후보 스트링이 후보 프라이머 서열의 형태를 가지는 경우 달성될 수 있다. 이러한 후보 프라이머 서열은 예측이 본 명세서에 기재된 바와 같은 임계값을 만족시키는 경우, 추가의 고려로부터 사전 필터링될 수 있다. 이러한 사전 필터링된 서열에 있어서, 캐시 및 오프-타깃 고려 계산은 수행될 필요가 없다. 이러한 계산은 대신에 생략될 수 있다.
실시예 21 - 예시적인 추가 설명
도 16은 공통 영역에 대한 캐싱을 보여주는 블록 다이어그램이다. 실시예에서, 시드 서열은 프라이머 클러스터에서 확인되었다. 시드 서열은 공통 영역으로 신장되었다. 다중-레벨 캐시는 k 연속 정합을 갖는 공통 영역에 대한 계산을 저장한다. 따라서, 이러한 공통 영역은 다른 프라이머에 대한 재계산을 할 필요 없이 규칙 #1을 만족시키는 것으로 간주될 수 있다.
다중-레벨 캐시는 전체적으로 최대 e * l개의 부정합을 갖는 공통 영역에 대한 계산을 저장한다. 따라서, 이러한 공통 영역은 길이 l의 다른 프라이머에 대한 재계산을 할 필요 없이 규칙 #2에 실패한 것으로 간주될 수 있다. 캐시의 또 다른 레벨은 전체적으로 최대 e *(l +1)개의 부정합을 갖는 공통 영역에 대한 계산을 저장한다. 따라서, 이러한 공통 영역은 길이 l+1의 다른 프라이머에 대한 재계산을 할 필요 없이 규칙 #2에 실패한 것으로 간주될 수 있다.
도 17은 캐시를 통해 생략된 후보를 도시하는 블록 다이어그램이다. 실시예에서, 검색하는 공간은 규칙 #1 및 #2를 만족시키는 것으로 결정되는 공통 영역을 갖는 이들 프라이머 서열을 포함한다. 규칙 #2에 실패한 것들은 안전하게 생략될 수 있다. 새로운 k량체 목록은 공통 영역의 외부의 프라이머 서열의 영역에 대하여 확인될 수 있다.
도 18은 클러스터화된 프라이머 서열(1840)에 대한 공통 영역을 신장하기 위한 배열(1800)을 보여주는 블록 다이어그램이다. 도면의 하부에서 선(1820)은 프라이머의 특정한 위치에서 동일한 뉴클레오타이드를 갖는 프라이머의 수를 반영한다(예를 들면, 프라이머가 겹치는 영역에 의해 정렬되는 경우). 실시예에서, 초기 발견된 공통 영역(1825)(예를 들면, 때때로 "시드 서열"로 지칭됨)이 신장을 위하여 고려 중인 것이다. 위치에서 동일한 값을 공유하는 프라이머 서열(1820)의 수는 계산이 증가하거나 감소할 것인지의 여부를 결정하는 경우에 본 명세서에 기재된 바와 같이 고려될 수 있다. 일부 경우에, 공통 영역(1825)의 신장은 논리적으로 분리된 공통 영역을 야기할 것이고, 이들 중 일부는 상이한 프라이머(1840)에 의해 공유된다.
실시예 22 - 예시적인 구현 결과: 캐시
캐시의 구현은 캐시를 갖는 일부 서열을 검색하는 것을 허용하였다. 일부 후보는 캐시를 통해 검증되거나 생략될 수 있고, 이는 결정 시간에서 10배 속도 증가를 야기한다.
간단한 방법은 캐시, 필터링, 또는 서열 근접성 그룹화를 사용하지 않았다. 대신에, 접근법은 프라이머를 k량체로 분해하고, 위치 목록에 대하여 k량체 지수를 검색하고, 모든 목록의 연합을 취한 다음, 후보를 검증하여 최종 결과를 수득하였다. 이러한 접근법은 비트 오퍼페이션에 의해 최적화될 수 있었다. 이러한 접근법은 평균적으로 프라이머 서열당 5.5초가 걸리고, 이는 115, 116개의 프라이머 서열(687개의 표적을 가짐)에 대하여 175시간의 작동 시간을 야기하였다.
도 19는 규칙 만족 캐시에 의한 결과를 도시하는 블록 다이어그램이다. 실시예(인간 참조 게놈 서열로부터 전사 가능한 전사체 서열이 아닌 인간 참조 게놈 서열을 실시예로서 사용하는 것이 동일하게 사용될 수 있음)에서, 서열의 96.9%는 캐시에 의해 검색될 수 있고, 이의 32.5%는 검증된 후보였으며, 67.5%는 생략된 후보였다. 결정을 완료하는 결과 시간은 프라이머당 0.38초였고, 이는 간단한 방법(예를 들면, 캐시 없이)에 대하여 프라이머당 5.5초에 대하여 10배 속도 증가를 야기한다.
실시예 23 - 예시적인 구현 결과: 오프-타깃 예측
도 20은 참조 인간 게놈 서열의 양성 및 음성 가닥 상의 히트 사이의 상관관계를 도시하는 블록 다이어그램이다. 도시된 바와 같이, 프라이머의 양성 가닥 상의 히트 수 및 음성 가닥 상의 히트 수는, 예를 들면, 인간 게놈에서 일반적으로 매우 상관관계가 있을 수 있다. 따라서, 하나의 가닥에 대한 예측은 음성 결과 없이 두 가닥 모두에 사용될 수 있다. 따라서, 본 명세서에서 도시된 바와 같은 예측자는 단일 가닥에 대한 단일 예측을 생성할 수 있고, 필터링 없이 또는 필터링하에 후보 프라이머 서열을 필터링하는데 사용될 수 있다. 비교 가능한 분석은 유전자 모델에 따른 참조 인간 게놈으로부터 전사 가능한 전사체를 사용하는 경우를 적용할 것이다.
도 21은 상이한 서열 길이에 대하여 후보 수과 히트 수 사이의 상관관계를 도시하는 블록 다이어그램이다. 도시된 바와 같이, 상관관계는 상이한 서열 길이에 걸쳐 존재한다. 프라이머의 서열 길이와 참조 인간 게놈 서열 상의 실제 히트 수 사이의 상관관계의 관찰된 현상(예를 들면, 다양한 서열 길이에 대하여)은 본 명세서에 기재된 바와 같이 서열 길이를 기반으로 예측자를 건설하기 위한 기반으로서 사용될 수 있다. 비교 가능한 분석은 참조 인간 게놈 대신에 유전자 모델에 따른 참조 인간 게놈으로부터 전사 가능한 전사체를 사용하는 경우를 적용할 것이다.
도 22는 본 명세서에 기재된 계산 A를 사용하여 히트 수의 대 예측(예를 들면, 히트의 예측된 수)의 이력 데이터를 도시한다. 실시예에서, 인간 게놈을 사용하였고, 연습은 도시된 파라미터를 야기하였다. 사용된 파라미터는 a=1.97, b=1.23, c=1.96, d=-4.43이었다. 이러한 파라미터를 사용하여, 프라이머에 대한 정합(히트) 수는 정합에 대한 검색 전에 예측될 수 있다. 이력 데이터는 예측자가 도면에서 실제 정합 수와 분명한 정합의 예측된 수 사이의 강한 상관관계로 인하여 정확하다는 것을 확립한다. 파라미터는 이력 데이터를 기반으로 유래될 수 있고, 게놈의 어떤 버전이 사용되는지에 따라 변할 수 있다. 비교 가능한 분석은 참조 인간 게놈 대신에 유전자 모델에 따른 참조 인간 게놈으로부터 전사 가능한 전사체를 사용하는 경우를 적용할 것이다.
실시예 24 - 추가의 조합
추가로, 기술은 캐싱, 정합 예측에 의한 필터링, 및 서열 근접성 그룹화가 함께 작동되도록 조합될 수 있다. 이러한 실시예에서, 전사체 서열 상의 오프-타깃 정합을 동정하는 컴퓨터 구현 방법은 후보 프라이머 서열을 수신하는 단계; 후보 프라이머 서열에 있어서, 전사체 서열 상의 복수의 후보 정합 위치를 동정하는 단계; 후보 정합 위치 외에, 전사체 서열 상의 검증된 정합 위치를 동정하는 단계로서, 여기서 검증된 정합 위치는 전사체 서열 상의 후보 정합 위치의 결정이 하나 이상의 정합 검증 규칙을 만족시키는지를 결정하는 것 및 후보 프라이머 서열과 공통 영역을 공유하는 상이한 후보 프라이머 서열에 대하여 이미 계산된 규칙 만족 계산을 재사용하는 것을 포함하는 단계; 및 적어도 하나의 다른 후보 프라이머 서열에 대하여 적어도 하나의 다른 정합과 함께 고려될 때, 검증된 정합 위치가 전사체 서열 상의 오프-타깃 정합 조건을 형성하는지의 여부를 결정하는 단계를 포함하고; 여기서 방법은 적어도 하나의 추가의 후보 프라이머 서열을 필터링하는 단계를 더 포함하고, 여기서 필터링은 추가의 후보 프라이머 서열에 대하여 전사체 서열 상의 다수의 정합의 예측을 생성하는 것, 및 정합의 수가 임계값을 초과하는지의 여부를 결정하는 것에 반응하여, 추가의 후보 프라이머 서열을 폐기하는 것을 포함하고; 여기서 방법은 검증된 정합을 서열 근접성 그룹화로 위치시키는 단계, 및 근접성 그룹화를 확인하여 오프-타깃 정합 조건을 동정하는 단계를 더 포함한다.
실시예 25 - 예시적인 컴퓨팅 시스템
도 25는 몇몇 기재된 혁신기술이 구현될 수 있는 적합한 컴퓨팅 시스템(2500)의 일반화된 예를 도시한다. 혁신기술은 특정한 목적의 컴퓨팅 시스템을 포함하여 다양한 컴퓨팅 시스템에서 구현될 수 있으므로, 컴퓨팅 시스템(2500)은 용도 또는 기능성의 범위에 관하여 어떠한 제한도 제시하는 것을 의도하지 않는다. 실제로, 컴퓨팅 시스템은 도시된 컴퓨팅 시스템의 다중 네트워크된 경우를 포함할 수 있다.
도 25와 관련하여, 컴퓨팅 시스템(2500)은 하나 이상의 처리 장치(2510, 2515) 및 메모리(2520, 2525)를 포함한다. 도 25에서, 이러한 기본 구성(2530)은 점선 내에 포함된다. 처리 장치(2510, 2515)는 컴퓨터-실행 가능한 명령어를 실행한다. 처리 장치는 중앙 처리 장치(CPU), 주문형 집적 회로(ASIC)의 프로세서, 또는 임의의 다른 유형의 프로세서일 수 있다. 다중 처리 시스템에서, 다중 처리 장치는 컴퓨터-실행 가능한 명령어를 실행하여 처리 능력을 증가시킨다. 예를 들면, 도 25는 중앙 처리 장치(2510)뿐만 아니라 그래픽 처리 장치 또는 동시-처리 장치(2515)를 도시한다. 유형의 메모리(2520, 2525)는 처리 장치(들)에 의해 접근 가능한 휘발성 메모리(예를 들면, 레지스터, 캐시, RAM), 비휘발성 메모리(예를 들면, ROM, EEPROM, 플래시 메모리 등), 또는 둘의 일부 조합일 수 있다. 메모리(2520, 2525)는 본 명세서에 기재된 하나 이상의 혁신기술을 처리 장치(들)에 의한 실행에 적합한 컴퓨터-실행 가능한 명령어의 형태로 구현하는 소프트웨어(2580)를 저장한다.
컴퓨팅 시스템은 추가의 특징부를 가질 수 있다. 예를 들면, 컴퓨팅 시스템(2500)은 저장소(2540), 하나 이상의 입력 장치(2550), 하나 이상의 출력 장치(2560), 및 하나 이상의 통신 연결(2570)을 포함한다. 상호연결 메커니즘(도시되지 않음), 예를 들면, 버스, 컨트롤러, 또는 네트워크는 컴퓨팅 시스템(2500)의 구성요소와 상호연결된다. 전형적으로, 운영 체제 소프트웨어(도시되지 않음)는 컴퓨팅 시스템(2500)에서 실행되는 다른 소프트웨어를 위한 운영 환경을 제공하고, 컴퓨팅 시스템(2500)의 구성요소의 활동을 조정한다.
유형의 저장소(2540)는 제거 가능하거나 제거 가능하지 않을 수 있고, 자기 디스크, 자기 테이프 또는 카세트, CD-ROM, DVD, 또는 일시적이지 않은 방식으로 정보를 저장하는데 사용될 수 있고 컴퓨팅 시스템(2500) 내에서 접근될 수 있는 임의의 다른 매체일 수 있다. 저장소(2540)는 본 명세서에 기재된 하나 이상의 혁신기술을 구현하는 소프트웨어(2580)에 대한 명령어를 저장한다.
입력 장치(들)(2550)는 터치식 입력 장치, 예를 들면, 키보드, 마우스, 펜, 또는 트랙볼, 음성 입력 장치, 스캐닝 장치, 또는 컴퓨팅 시스템(2500)에 입력을 제공하는 또 다른 장치일 수 있다. 영상 인코딩을 위하여, 입력 장치(들)(2550)는 카메라, 비디오 카드, TV 수신 카드, 또는 아날로그 또는 디지털 형태로 영상 입력을 수용하는 유사한 장치, 또는 판독물 영상 샘플을 컴퓨팅 시스템(2500)으로 판독하는 CD-ROM 또는 CD-RW일 수 있다. 출력 장치(들)(2560)는 디스플레이, 프린터, 스피커, CD-라이터, 또는 컴퓨팅 시스템(2500)으로부터 출력을 제공하는 또 다른 장치일 수 있다.
통신 연결(들)(2570)은 또 다른 컴퓨팅 독립체에 대하여 통신 매체 상에서 통신을 가능하게 한다. 통신 매체는 정보, 예를 들면, 컴퓨터-실행 가능한 명령어, 음성 또는 영상 입력 또는 출력, 또는 조절된 데이터 신호에서 다른 데이터를 전달한다. 조절된 데이터 신호는 신호에서 정보를 인코딩하는 방식으로 하나 이상의 이의 특유의 세트를 갖거나 변화하는 신호이다. 예의 방식으로, 제한 없이, 통신 매체는 전기, 광학, RF, 또는 다른 매개체를 사용할 수 있다.
혁신기술은 표적 실제 또는 가상 프로세서 상의 컴퓨팅 시스템에서 실행되는, 프로그램 모듈에 포함된 것들과 같은 컴퓨터-실행 가능한 명령어의 일반적인 맥락에서 기재될 수 있다. 일반적으로, 프로그램 모듈은 특정한 작업을 수행하거나 특정한 추상 데이터형을 구현하는 루틴, 프로그램, 라이브러리, 객체, 클래스, 구성요소, 데이터 구조 등을 포함한다. 프로그램 모듈의 기능성은 다양한 실시형태에서 원하는 대로 프로그램 모듈 사이에서 조합되거나 분할될 수 있다. 프로그램 모듈을 위한 컴퓨터-실행 가능한 명령어는 로컬 또는 분산 컴퓨팅 시스템에서 실행될 수 있다.
표시를 위하여, 상세한 설명은 컴퓨팅 시스템에서 컴퓨터 작업을 설명하는데 "결정하다" 및 "사용하다"와 같은 용어를 사용한다. 이들 용어는 컴퓨터에 의해 수행되는 작업에 대한 고수준의 추상적 개념이고, 인간에 의해 수행되는 작업과 혼동되어서는 안된다. 이들 용어에 대응하는 실제 컴퓨터 작업은 구현에 따라 변한다.
본 명세서에 추가로 개시된 바와 같이 RNA 정렬 방법을 수행하기 위하여 건설된 컴퓨터 시스템이 또한 제공된다. 컴퓨터 시스템은 본 명세서에 기재된 바와 같은 방법의 수행을 위한 코드를 실행할 수 있는 프로세서 또는 프로세서들, 예를 들면, 마이크로프로세서 또는 마이크로프로세서들을 포함할 수 있다. 컴퓨터 시스템은 또한 저장소 장치 또는 장치들, 예를 들면, 참조 게놈 서열, 참조 게놈으로부터 전사 가능한 전사체 서열, 프라이머 세트에서 프라이머의 서열, 프라이머 세트의 프라임 서열을 갖는 참조 게놈의 전사체 서열로부터 전사 가능한 표적, 증폭된 표적 서열을 포함하는 변형된 참조 게놈, 및 시험 샘플 또는 샘플의 RNA로부터 수득된 판독물에 대응하는 서열 판독물 파일과 같은 정보의 저장소를 위한 하드 드라이브를 가질 수 있다. 마이크로프로세서 또는 마이크로프로세서들은 저장 장치 또는 장치들과 통신하고, 이로부터 마이크로프로세서(들)는 그 안에 저장된 정보에 접근하고, 여기서 방법을 실행할 때 마이크로프로세서 또는 마이크로프로세서들에 의해 생성된 서열 및 다른 데이터가 저장될 수 있다. 컴퓨터 시스템은 RNA 정렬 동안 생성되고 접근되는 정보의 일시적인 저장소를 위하여 캐시, 및 방법의 양상을 수행하는데 사용된 코드의 실행을 위한 RAM를 가질 수 있다.
컴퓨터 시스템은 다른 하드웨어의 부분, 예를 들면, 서열 분석 기구 또는 그 부분을 포함하는 컴퓨터 시스템일 수 있거나, 이러한 다른 기구로부터 분리될 수 있다. 컴퓨터 시스템은 또한 자립형이거나 네트워크 시스템 상에 네트워크화되어 프로세서 및 저장 장치가 상이한 위치에 있지만 네트워크를 통해 서로 통신된다. 네트워크는 유선이거나 무선일 수 있거나, 연결의 형태로 둘 다를 포함할 수 있다. 컴퓨터 시스템의 일부 부분은 서열 분석 또는 다른 기구에 포함되거나 이의 부분일 수 있고, 컴퓨터 시스템의 다른 부분은 분리될 수 있고, 컴퓨터 시스템의 모든 양상은 유선 통신으로 또는 무선으로 통신된다. 컴퓨터 시스템은 또한 클라우드 기반 시스템일 수 있고, 여기서 시스템의 특정한 구성요소는 하나의 위치에 있고, 다른 구성요소는 또 다른 위치에 있고, 구성요소는 인터넷을 통해 서로 통신한다.
실시예 26 - 컴퓨터-판독 가능한 매체
본 명세서에서 임의의 컴퓨터-판독 가능한 매체는 비일시적(예를 들면, 휘발성 메모리, 예를 들면, DRAM 또는 SRAM, 비휘발성 메모리, 예를 들면, 자기 저장소, 광학 저장소 등)이고/이거나 유형일 수 있다. 본 명세서에 기재된 임의의 저장 작용은 하나 이상의 컴퓨터-판독 가능한 매체(예를 들면, 컴퓨터-판독 가능한 저장소 매체 또는 다른 유형의 매체)를 저장함으로써 구현될 수 있다. 저장되는 것으로 기재된 임의의 것들(예를 들면, 구현 동안 생성되고 사용된 데이터)는 하나 이상의 컴퓨터-판독 가능한 매체(예를 들면, 컴퓨터-판독 가능한 저장소 매체 또는 다른 유형의 매체)에 저장될 수 있다. 컴퓨터-판독 가능한 매체는 신호로 구성되지 않은 구현으로 제한될 수 있다.
본 명세서에 기재된 임의의 방법은 하나 이상의 컴퓨터-판독 가능한 매체(예를 들면, 컴퓨터-판독 가능한 저장소 매체 또는 다른 유형의 매체) 또는 하나 이상의 컴퓨터-판독 가능한 저장소 장치(예를 들면, 메모리, 자기 저장소, 광학 저장소 등)에 (예를 들면, 저장되거나 인코딩되는 등) 컴퓨터-실행 가능한 명령어에 의해 구현될 수 있다. 이러한 명령어는 컴퓨팅 장치가 방법을 수행하도록 유발할 수 있다. 본 명세서에 기재된 기술은 다양한 프로그래밍 언어로 구현될 수 있다.
실시예 27 - RNA의 변형된 참조 게놈에 대한 정렬
도 26은 본 명세서에 기재된 바와 같은 RNA 정렬에 대한 흐름도(2600)를 도시한다. 전사체 서열 및 프라이머 서열은 컴퓨터 시스템의 데이터 저장 장치 또는 장치들로 수신될 수 있다(2610). 프라이머는 증폭에 유용한 것으로 결정될 수 있는 공지되지 않은 표적의 동정을 위하여 선택되거나 제안되거나 둘 다의 조합인 표적의 증폭에 대하여 선택되거나 설계될 수 있다. 전사체 서열은 유전자 모델에 따른 참조 게놈으로부터 전사될 수 있는 전사체를 포함한다. 유전자 모델의 구조 및 파라미터에 따라, 전사체 서열은 전사된 영역에 대응하는 어떤 서열이 또한 전사체 중에서 발생하는 것으로 알려지거나 예측되거나 가정되는 전사체 및 RNA 융합 경우에서 발생한다고 예측된 스플라이싱 경우에 관한 정보를 포함할 수 있거나 상기 모든 것을 포함할 수 있는지의 여부를 나타내는 참조 게놈에 함유된 서열 정보를 기반으로, 참조 게놈으로부터 전사될 수 있는 일차 전사체를 함유할 것이다. 이해될 것인 바와 같이, 프라이머 서열 및 변형된 참조 게놈은 서로 분리되어 제조되거나 제공될 수 있기 때문에 함께 수신될 필요가 없다.
그 다음, 변형된 참조 게놈으로부터 증폭 가능한 표적 서열이 생성된다(2620). 마이크로프로세서는 전사체 서열이 RNA 시험 샘플에 존재한 경우 프라이머의 정해진 세트로부터의 RNA 시험 샘플로부터 증폭되는 것으로 예측될 것인 전사체 서열 상의 표적 서열을 결정한다. 그 다음, 변형된 참조 게놈은 전사체 서열로부터 증폭 가능한 표적 서열로부터 생성된다(2630). 변형된 참조 게놈은 참조 게놈의 전사체 서열로부터 생성되는 것으로 예측된 표적 서열을 포함한다. 일부 표적은 온-타깃일 수 있다. 일부는 오프-타깃 서열이 표적 서열의 생성 동안 생성되는 것으로 예측되는지의 여부에 따라 오프-타깃 서열일 수 있고, 그러한 경우, 변형된 참조 게놈의 생성을 위하여 개조된 파라미터는 그 안에서 오프-타깃 서열인 것으로 결정되는 서열의 포함을 허용하였다.
그 다음, 서열 판독물 파일 또는 파일들은 저장 장치로 수신되고(2640), 정렬 소프트웨어를 사용하는 마이크로프로세서에 의해 변형된 참조 게놈에 대해서 정렬된다(2650). 정렬 소프트웨어는 정렬 프로파일을 생성할 수 있고(2660), 이는 배치, 품질 점수, 및 서열 완전성, 또는 서열 판독물의 다른 특성 또는 지표를 포함할 수 있다.
실시예 28 - 전사체 서열에 대한 프라이머의 정합
도 27은 변형된 참조 게놈의 생성에서 표적의 생성을 위하여 프라이머 세트로부터의 프라이머의 전사체 서열에 대한 정합을 결정하는 공정의 예를 도시한다. 전사체 서열이 도시되고, 다양한 프라이머가 일부 정방향(fwdA1, fwdB1', fwdB1, fwdB2, 및 fwdA3) 및 다른 역방향(revA1, revB1, revA2, revB2, revA3)의 정합 서열을 갖는 서열이 전사체 서열에서 강조된다. 전사체 서열의 3' 말단으로부터 시작하여 잠재적인 프라이머 정합 부위가 동정될 수 있다. 정방향 프라이머 정합 부위가 동정됨에 따라, 프라이머 및 이의 위치가 캐싱되고, 그 다음, 다른 프라이머는 첫 번째 것으로부터 잠재적인 정합 부위 다운스트림에 대하여 확인될 수 있다. 또 다른 역방향 프라이머에 대한 정합 부위가 동정되는 경우, 변형된 참조 게놈에서 표적 서열의 포함에 대한 파라미터(예를 들면, 최소 길이)를 만족하는 표적이 만족되는지의 여부를 결정하기 위하여 캐싱된 프라이머 위치 전에 참조될 수 있다. 그러한 경우, 표적은 변형된 참조 게놈에 포함될 수 있다. 정 프라이머는 프라이머가 전사체 서열에 정합되는 부위가 캐싱된 프라이머와 현재 정합 프라이머 사이에서 증폭 가능한 임의의 표적 서열이 최대 표적 서열 길이 파라미터를 초과할 것인 전사체 서열에 따라 충분히 아래인 경우에 캐시로부터 제거될 수 있다.
예를 들면, 도 27에서 전사체 서열 및 프라이머와 관련하여, 프라이머 정합은 프라이머 서열 fwdA1이 정합인 전사체 서열의 3'(상부 좌측) 말단에서 시작할 것이고, 따라서 캐시에 추가될 것이다. 3'에서 '5'로 방향으로 전사체 서열이 내려감에 따라, revA1은 캐시에 추가될 것이다. fwdA1 및 revA1이 마주보는 프라이머의 쌍임에도 불구하고, 이 경우 이의 길이가 당해 실시예(25개 염기)에서 선택된 최소 표적 서열 길이 미만인 경우와 같이, fwdA1-부터-revA1까지의 표적 서열은 변형된 참조 게놈에 추가되지 않을 것이다. 그 다음, fwdB1'은 캐시에 추가되고, revA1-부터-fwdB1'까지의 서열은 변형된 참조 게놈에 추가된 다음, revA1-부터-fwdB1까지가 추가될 것이다. 그 다음, revB1은 추가되고, fwdA1 및 revA1에 대항하여 확인되고, fwdA1-부터-revB1까지는 변형된 참조 게놈에 추가될 것이다. revA2는 캐시에 추가될 것이다. 그 다음, fwdB2는 fwdA1, revA1, revA2에 대항하여 확인되고, fwdB2-부터-revA1까지 및 fwdB2-부터-revA2까지는 변형된 참조 게놈에 추가될 것이다. 그 다음, revB2가 추가되고, fwdA1, revA1, 및 revA2에 대항하여 확인되고, fwdA1-부터-revB2까지가 변형된 참조 게놈에 추가될 것이다. 이는 당해 실시예에서 가장 긴 허용 가능한 표적 서열 길이(200개의 염기)이기 때문에, fwdA1은 revB2로부터 후속적인 프라이머 정합 다운스트림에 대항한 확인으로부터 폐기될 수 있다.
실시예 29 - 프라이머에 대한 위치 할당
도 28은 위치 또는 위치들을 어떻게 프라이머 또는 프라이머들에 할당하는지의 예시를 도시한다. 프라이머 서열이 오직 하나의 전사체 서열 위치에 정합하는 경우, 이는 그 위치에 할당된다. 프라이머 서열이 2개의 전사체 서열 위치에 정합하는 경우, 이의 할당된 위치는 쌍으로 표적을 증폭시키는 프라이머(즉, 전사체 서열의 증폭에서 쌍으로 있는 반대 방향의 프라이머)에 따라 좌우된다. 두 프라이머가 정합하는 오직 하나의 전사체 서열 위치가 존재하는 경우, 그 위치는 프라이머에 할당된다. 프라이머가 상기 규칙에 따라 다중 위치가 할당되는 경우, 이는 알파벳순으로 제1 위치 ID를 갖는 위치가 할당된다.
예를 들면, 도 28에서, 위치는 4개의 위치를 교차하여 7개의 프라이머 쌍에 할당된다. 프라이머 정_1_2 및 역_1의 쌍에 있어서, 둘 다 위치 1이 할당되는데 이는 그것이 프라이머 역_1이 정합하는 유일한 위치이기 때문이다. 프라이머 정_1_2 및 역_2_3에 있어서, 이들은 둘 다 위치 2가 할당되는데 이는 그것이 둘 다 정합하는 유일한 위치이기 때문이다. 프라이머 정_3 및 역_2_3에 있어서, 이들은 둘 다 위치 3이 할당되는데 이는 그것이 둘 다 정합하는 유일한 위치이기 때문이다. 프라이머 정_4 및 역_4에 있어서, 이들은 위치 4가 할당되는데 이는 그것이 프라이머가 정합하는 유일한 위치이기 때문이다. 프라이머 정_3 및 역_1에 있어서, 이들은 각각 위치 3 및 1이 할당되는데 이는 각각이 동일한 위치가 아닌 유일한 1 위치에 정합하기 때문이다. 프라이머 정_4 및 역_2_3에 있어서, 이들은 상이한 위치가 할당되는데 이는 이들이 둘 다 정합하는 단일한 위치가 없기 때문이고, 프라이머 정_4는 위치 4가 할당되는데 이는 이것이 정합하는 유일한 위치이기 때문이고, 프라이머 역_2_3은 위치 2가 할당되는데 이는 이것이 위치 2에 정합하고 알파벳순으로 먼저 오기 때문이다. 그리고, 프라이머 정 _1_2 및 역_4에 있어서, 이들은 상이한 위치에 할당되는데 이는 이들이 둘 다 정합하는 단일한 위치가 없기 때문이고, 프라이머 정_1_2은 위치 1이 할당되는데 이는 이것이 위치 1에 정합하고 알파벳순으로 먼저 오기 때문이고, 프라이머 역_4는 위치 4가 할당되는데 이는 그것이 정합을 형성하는 유일한 위치이기 때문이다.
실시예 30 - 교차-위치 표적의 필터링
도 29는 예상된 교차-위치 표적을 필터링하는 실시예의 도식을 도시한다. 교차-위치 표적은 프라이머 세트의 일부 프라이머 쌍이 서로 비교적 근접한 표적을 증폭시키는 것으로 예측될 것인 곳으로 예측될 것이다. 이러한 경우에, 표적을 증폭시키는 원인이 되는 프라이머의 부분집합은 또한 다중 위치로부터 더 큰 표적을 증폭시키도록 조합될 수 있고, 이는 2개의 원래 표적을 포함할 것이다. 3개의 의도된 표적은 도시되고, 이들의 각각의 업스트림 위치-특이적 올리고(ULSO) 및 다운스트림 위치-특이적 올리고(DLSO)의 옆에 배치된다. 의도된 표적을 증폭시키는데 사용된 조합이 아닌 ULSO 및 DLSO의 조합은 또한 하기 도시된 바와 같이 이들을 증폭시키는데 사용된 6개의 프라이머 중에서 가능하다. 예를 들면, 교차-위치 표적은 가장 왼쪽의 의도된 표적으로부터 ULSO을 사용하고 가장 오른쪽의 의도된 표적으로부터 DLSO를 사용하여 증폭될 수 있고, 교차-위치 표적은 모든 표적의 서열을 포함할 것이다. 마찬가지로 2개의 가장 오른쪽의 의도된 표적, 또는 2개의 가장 왼쪽의 의도된 표적을 포함하는 교차-위치 표적이 증폭될 수 있다. 이러한 오프-타깃 교차 위치 표적은 변형된 참조 게놈으로부터 필터링될 수 있다. 예를 들면, 오프-타깃 서열이 분리된 의도된 표적에 정합하고 표적보다 큰 ULSO 및 DLSO를 갖는 경우, 이는 교차-위치 표적으로서 변형된 참조 게놈으로부터 필터링될 수 있다.
실시예 31 - 다양한 전사체로부터 앰플리콘의 동정
도 30은 다른 것이 아닌 일부 서열(예를 들면, 일부 엑손)을 공유하는 상이한 RNA 전사체로부터 생성될 수 있는 상이한 증폭 가능한 표적의 도식일 수 있다. 프라이머의 상이한 쌍은 하나의 전사체, 다른 전사체, 또는 전사체 둘 다로부터 서열을 증폭하는 것으로 예측될 수 있다. 변형된 참조 게놈의 생성에서, 참조는 참조 게놈의 전사체 서열로부터 증폭될 수 있는 표적에 관하여 유지된다. 예를 들면, 프라이머 녹색A 및 녹색B는 적색 및 청색 전사체로부터 동일한 서열을 증폭시킬 것인 반면, 프라이머 오렌지색A 및 오렌지색B/황색B는 서로 상이한 적색 및 청색 전사체로부터 서열을 증폭시킬 것이고(적색 전사체가 아닌 청색 전사체에서 중개 엑손 3의 존재로 인하여), 프라이머 황색A 및 오렌지색B/황색B는 적색이 아닌 청색 전사체로부터 서열을 증폭시킬 것이다(프라이머 황색A가 엑손 3의 서열에 대한 정합을 형성하기 때문에).
실시예 32 - 스플라이스 및 융합 접합부로부터 유래된 표적에 대해서 정렬된 서열 판독물의 번역
일부 실시예에서, 변형된 참조 게놈에 대해서 정렬된 판독물은 이로부터 변형된 참조 게놈은, 예를 들면, 본 명세서에 개시된 바와 같은 유전자 모델을 기반으로 전사 가능한 전사체 서열의 동정에 의해 생성된 참조 게놈에 대해서 추가로 정렬될 수 있다. 일부 예에서, 이의 서열이 엑손-엑손 경계를 교차하는 RNA 판독물은 변형된 참조 게놈에 대해서 정렬될 것이다. 예를 들면, 판독물은 변형된 참조 게놈으로부터 정해진 표적에 대응하는 것으로 동정될 수 있다. 이러한 표적은 판독물 내의 서열의 인접한 부분에서 반영되는 바와 같이 엑손-엑손 접합부를 포함할 수 있다. 판독물에 대응하는 이로부터 변형된 참조 게놈이 유래되는 참조 게놈 내의 위치를 동정하는 것이 바람직할 수 있다. 변형된 참조 게놈은 참조 게놈으로부터 정해진 염색체 상에서 이의 서열, 특히, 예를 들면, 이의 엑손이 유래되는 곳의 대응하는 정보를 포함할 수 있다. 이러한 엑손 서열은 참조 게놈의 전사되지 않은 부분, 또는 스플라이싱 동안 제거된 인트론 서열에 대응하는 게놈의 전사된 부분으로 분리될 수 있다는 것이 이해될 것이다. 판독물이 이러한 게놈 위치 동정을 함유하는 변형된 참조 게놈에 대해서 정렬되는 경우, 판독물은 변형된 참조 게놈에 대해서 정렬될 뿐만 아니라 변형된 참조 게놈에서 대응하는 위치로 다시 번역될 수 있고, 이는 판독물의 부분을 발생시키기 위하여 게놈의 어떤 부분이 전사되는지를 나타냈다.
실시예는 도 31에 도시된다. 도 31은 이로부터 RNA 판독물의 부분이 전사되는 부위에 대응하는 연색체 위치로 RNA 판독물을 번역하는 공정의 그림 표현이 도시된다(3100). 이러한 실시예에서, sn RNA 판독물(3110)은 변형된 참조 게놈 표적(3120)에 대해서 정렬된다. 이러한 표적(t)에서, 몇몇 엑손(3120A, 3120B, 3120C, 3120D, 및 3120E)가 존재한다. RNA 판독물(3110)은 이들 엑손 사이의 경계에 대해서 정렬된다. 변형된 참조 게놈(3120)은 즉, 이로부터 참조 게놈(3130)에서 정해진 염색체 상에서 이것이 번역되는 이의 엑손이 대응하는 참조 게놈(3130) 상의 위치를 나타내는 위치-식별자를 포함한다. 변형된 참조 게놈에서 표적(t)에 대한 RNA 판독물(3110) 정렬은 참조 게놈(3130), 염색체(c), 및 동정된 정렬된 엑손을 인코딩하는 염색체 내의 특이적인 위치(l)로 다시 번역될 수 있다. 일부 실시예에서, RNA 판독물에 함유된 서열에 대응하는 염색체 위치를 동정하는 배치 정보를 포함하는 정렬 프로파일이 생성될 수 있다.
일부 실시예에서, RNA 판독물은, 표적 또는 판독물이 단일 엑손 또는 단일 엑손 내의 서열로 구성된 곳과 같은 엑손-엑손 경계가 결핍된 표적, 또는 이러한 경계가 결핍된 표적의 부분에 대응할 수 있다. 이러한 판독물은 또한 도 31에 도시된 비교 가능한 방식으로 참조 게놈으로 다시 번역될 수 있다. 다른 실시예에서, RNA 판독물은 융합 RNA에 대응하는 표적에 대해서 정렬될 수 있고, 이는 초기 전사 상의 분리된 RNA 분자로서 기원된 전사체로부터 함께 융합된 서열을 포함한다. 변형된 참조 게놈이 이러한 잠재적인 융합 표적, 및 대응하는 염색체 위치-동정 정보를 포함하는 경우, 이러한 융합 RNA 표적에 대응하는 RNA 판독물의 부분은 또한 엑손-엑손 경계에 걸쳐 있는 RNA 판독물이 도 31에 도시된 바와 같이 참조 게놈으로 다시 번역될 수 있는 방식과 동등하게 참조 게놈에서 염색체 위치로 다시 번역될 수 있다. 이러한 경우는 상이한 염색체로 다시 판독물의 부분을 번역하는 것을 포함할 수 있다. 판독물의 서열이 융합 접합부를 포함하지 않는 융합 RNA의 부분에 대해서 정렬되는 경우, 이는 또한 이의 염색체 기원의 위치로도 다시 번역될 수 있다.
실시예 33 - 참조 게놈에 대한 정렬되지 않은 융합 접합부의 정렬.
본 명세서에 개시된 바와 같이, 예를 들면, 서열 판독물이 융합 접합부에 대응하고 융합 접합부가 변형된 참조 게놈의 생성에 사용된 유전자 모델에 포함되지 않은 경우, 서열 판독물은 변형된 참조 게놈에 대해서 정렬 가능하지 않을 수 있거나 정렬되지 않을 수 있다. 이러한 경우에, 변형된 참조 게놈에 대한 비-정렬 후, 정렬되지 않은 융합 접합부로 분류된 서열 판독물은 참조 게놈에 대해서 정렬될 수 있다. 이러한 정렬이 최소 요건을 만족시켜 서열 판독물의 융합 접합부 허위 양성으로서의 특성화를 회피한다면, 서열 판독물은 융합 접합부로서 특성화될 수 있고, 그와 같이 이러한 정렬 프로파일에 포함될 수 있다.
실시예에서, 서열 판독물은 2개는 융합 접합부가 결핍된 것으로 알려지고 2개는 융합 접합부를 갖는 것으로 알려진 4개의 샘플 각각으로부터 생성되었다. 각각의 샘플의 8개의 복제본을 사용하여 총 32개의 샘플을 수득하였다. 본 명세서에 개시된 바와 같이 변형된 참조 게놈에 대해서 샘플의 서열 판독물을 정렬한 후, 정렬되지 않은 융합 접합부를 동정하였다. 그 다음, 이들 정렬되지 않은 융합 접합부를 참조 게놈에 대해서 정렬하였다. 일부는 후속적으로 샘플에 존재하는 융합 접합부에 대응하는 것으로 확인되었다(즉, 융합 접합부는 유전자 모델에 존재하지 않았고, 따라서 변형된 참조 게놈에 대해서 정렬되지 않거나 정렬 가능하지 않았지만, 참조 게놈에 대해서 융합 접합부로서 정렬되고 정확하게 동정되었다). 일부 샘플에 존재하는 것으로 독립적으로 확인되고 변형된 참조 게놈에 대한 정렬 후 정렬되지 않은 융합 접합부로 분류된 융합 접합부는 변형된 참조 게놈에 대한 후속적인 정렬 후 샘플에 존재하는 융합 접합부로서 정확하게 동정되었다.
다른 것들은 참조 게놈에 대해서 정렬된 후, 융합 접합부 허위 양성로서 특성화되었다. 예를 들면, 이들의 융합 정렬 길이는 최소 융합 정렬 길이 임계값을 초과하지 않았거나, 대응하는 서열 판독물의 불충분하게 낮은 수가 존재하거나, 국소 정렬 길이의 것에 대한 서열 판독물의 정렬 길이의 비율이 1 이하였다. 실시예에서, 이들이 융합 접합부인 경우와 마찬가지로 2,100개 초과의 서열 판독물(2,165개)이 참조 게놈에 대해서 정렬되었지만, 이들은 샘플에 존재하는 융합 접합부를 정확히 표시하는지는 확인되지 않았다. 그러나, 본 명세서에 개시된 바와 같은 융합 접합부 허위 양성의 분류에 대하여 이들을 스크리닝하면, 2,100개 초과의 이들(2,107개)은 융합 접합부 허위 양성으로서 정확하게 분류되었다. 구체적으로, 이러한 서열 판독물은 이들이 하기 3개의 기준 중 임의의 하나 이상을 만족하는 경우에 (1) 서열 판독물 융합 정렬 길이가 70개의 뉴클레오타이드를 초과하지 않았고/거나, (2) 의도된 융합 접합부에 대응하는 100개 이하의 서열 판독물이 존재하지 않았고/거나, (3) 융합 정렬 길이가 그곳에서 임의의 다른 정렬된 판독물보다 더 높은 정렬 점수를 갖는 위치에 대하여 적어도 정렬 길이 또는 판독물만큼 길지 않았다.
상기 실시예에서, 도 32는 수득된 다수의 허위 양성의 동정 및 제거를 허용할 수 있는 방식으로 융합 접합부 허위 양성의 플롯을 도시한다. 상기 실시예에서 동정된 2,165개의 허위 양성 중, 하기 규칙에 따라 70개 초과의 서열 판독물 길이를 갖는 것들이 도 32에 플롯팅된다.
융합 접합부로서 초기에 동정된 서열 판독물에 있어서, 이에 대해서 정렬되는 참조 게놈에서 영역(또는, 의도된 융합 접합부의 경우, 비인접 영역)을 동정하였다. 융합 접합부가 이에 대해서 정렬되는 참조 게놈의 길이(서열 판독물 융합 접합부 정렬의 각각의 말단에서 정렬의 조합된 길이)를 결정하였다. 서열 판독물의 국소 정렬에서와 마찬가지로, 대안적으로 서열 판독물을 참조 게놈의 인접한 영역에 대해서 정렬 가능한 경우에, 국소 정렬 길이에서와 마찬가지로 이러한 국소 정렬의 길이를 결정하였다. 하나 이상의 국소 정렬을 잠재적으로 정렬 가능한 경우, 가장 긴 국소 정렬 길이를 갖는 국소 정렬을 국소 정렬 길이로 선택하였다. 그 다음, 융합 접합부로서 초기에 동정된 각각의 서열 판독물에 대하여 계산하였다. 이러한 비율의 분자는 의도된 융합 접합부의 정렬 길이이고, 이러한 비율의 분모는 국소 정렬 길이였다. 이 비율은 도 32에 도시된 플롯의 x축을 따라 플롯팅된다. 이러한 실시예에서, 1 이하의 비율(수직선)을 갖는 임의의 의도된 융합 접합부를 허위 양성으로서 동정하였다.
추가로, 각각의 의도된 융합 접합부에 대응하는 서열 판독물의 수를 또한 동정하였고, 도 32에서 y축에 플롯팅하였다. 이러한 실시예에서, 의도된 융합 접합부를 이러한 융합 접합부를 나타내는 대응하는 서열 판독물의 수가 100개 이하(수평선)인 경우, 허위 양성으로 동정하였다.
도 32에서 플롯 상의 선은 이러한 실시예에서 사용된 융합 접합부 허위 양성 기준을 나타낸다(70 초과의 정렬 길이에 추가로): 1 초과의 국소 정렬 길이에 대한 정렬 길이의 비율(수직선), 및 100개 초과의 판독물 수(수평선). 많은 융합 접합부 허위 양성은 이들 배제 기준의 외부(즉, 수직선 왼쪽 및 수평선 아래)에 플롯팅되고, 따라서 허위 양성으로 동정되고, 융합 접합부를 나타내는 것으로 최종적으로 동정되었다.
대안
임의의 실시예로부터의 기술은 임의의 하나 이상의 다른 실시예에 기재된 기술과 조합될 수 있다. 개시된 기술의 원리가 적용될 수 있는 많은 가능한 실시형태의 관점에서, 예시된 실시형태는 개시된 기술의 예이고, 개시된 기술의 범위를 제한하지 않아야 한다는 것을 인식하여야 한다. 그보다, 개시된 기술의 범위는 하기 청구범위에 포함된 것을 포함한다. 청구항의 범위 및 취지 내에 있는 모든 것들이 따라서 청구된다.
바람직한 실시형태가 기재되었고 본 명세서에서 상세하게 기재되었음에도 불구하고, 당해 분야의 숙련가는 다양한 변형, 추가, 치환 등이 본 개시내용의 취지를 벗어나지 않고 만들어질 수 있고, 따라서 이들은 하기 청구범위에서 규정되는 바와 같은 본 개시내용의 범위 내에 있는 것으로 간주된다는 것을 인식할 것이다.

Claims (24)

  1. RNA를 정렬하는 컴퓨터 구현 방법으로서,
    데이터 저장 장치에 참조 게놈으로부터 복수의 프라이머 서열 및 복수의 전사체 서열을 수신하는 단계로서, 상기 전사체 서열은 유전자 모델을 기반으로 한 상기 참조 게놈으로부터 전사 가능한, 상기 수신하는 단계;
    마이크로프로세서를 사용하여, 상기 복수의 프라이머 서열과 상기 복수의 전사체 서열의 조합으로부터 증폭될 복수의 표적 서열을 생성시키는 단계;
    마이크로프로세서를 사용하여, 상기 복수의 표적 서열을 기반으로 변형된 참조 게놈을 생성시키는 단계;
    마이크로프로세서를 사용하여, RNA 앰플리콘 분자를 포함하는 시험 샘플로부터 생성된 서열 판독물(sequence read)을 상기 변형된 참조 게놈에 대해서 정렬시키는 단계; 및
    상기 정렬을 기반으로 상기 시험 샘플에 대한 정렬 프로파일을 생성시키는 단계를 포함하는, 컴퓨터 구현 방법.
  2. 제1항에 있어서, 각각의 전사체 서열의 위치에 대응하는 개별적인 위치를 할당하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  3. 제2항에 있어서, 하나 이상의 온-타깃 서열(on-target sequence)에 걸쳐 있는(spanning) 상기 생성된 표적 서열 중 하나 이상을 기반으로 상기 생성된 표적 서열 중 하나 이상을 제거하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  4. 제2항에 있어서, 상기 복수의 프라이머 서열이 복수의 프라이머 쌍을 포함하고, 제1 프라이머 쌍이 제1 위치에 대하여 제1 프라이머 및 제2 프라이머를 포함하고, 제2 프라이머 쌍이 제2 위치에 대하여 상기 제1 프라이머 및 제2 프라이머를 포함하는, 컴퓨터 구현 방법.
  5. 제1항에 있어서, 상기 유전자 모델이 상기 변형된 참조 게놈에서 스플라이스 접합부, 융합 접합부, 또는 둘 다의 동정을 포함하는, 컴퓨터 구현 방법.
  6. 제5항에 있어서, 스플라이스 및 융합 접합부로부터 유래된 표적에 대해서 정렬된 서열 판독물을 번역하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  7. 제1항에 있어서, 상기 복수의 표적 서열은 온-타깃 서열 및 오프-타깃 서열(off-target sequence)을 포함하는, 컴퓨터 구현 방법.
  8. 제7항에 있어서, 하나 이상의 프라이머 서열을 상기 복수의 프라이머 서열로부터 배제시킴으로써 다수의 오프-타깃 서열을 감소시키는 단계를 더 포함하는, 컴퓨터 구현 방법.
  9. 제1항에 있어서, 2개 이상의 샘플의 유전자 발현을 컴퓨팅으로(computationally) 비교하는 단계를 더 포함하되, RNA의 제1 샘플로부터 생성된 정렬된 판독물이 RNA의 제2 샘플로부터 생성된 정렬된 판독물과 비교되고, 상기 정렬은 상기 복수의 표적 서열을 사용하여 수행되는, 컴퓨터 구현 방법.
  10. 제1항에 있어서, 상기 정렬 프로파일은 상기 시험 샘플의 상기 서열 판독물에 대한 배치, 품질 점수, 및 서열 완전성 중 적어도 하나를 포함하는, 컴퓨터 구현 방법.
  11. 제1항에 있어서,
    상기 맵핑된 표적 서열 및 상기 변형된 참조 게놈을 사용하여 상기 시험 샘플로부터의 상기 서열 판독물을 전체 참조 게놈으로 번역하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  12. 제1항에 있어서, 정렬 프로파일을 생성시키는 단계는 정렬되지 않은 융합 접합부를 포함하는 서열 판독물을 상기 참조 게놈의 비인접 서열에 대해서 정렬시키는 것을 더 포함하되, 상기 정렬되지 않은 융합 접합부는 상기 유전자 모델에서 동정되지 않았던 것인, 컴퓨터 구현 방법.
  13. 제5항에 있어서, 상기 정렬 프로파일은 융합 접합부를 포함하되, 상기 융합 접합부는 상기 유전자 모델에서 동정되었던 것인, 컴퓨터 구현 방법.
  14. RNA를 정렬하는 컴퓨터 구현 방법으로서,
    데이터 저장 장치에 참조 게놈으로부터 복수의 프라이머 서열 및 복수의 전사체 서열을 수신하는 단계로서, 상기 전사체 서열은 상기 참조 게놈에서 스플라이스 접합부, 융합 접합부, 또는 둘 다의 동정을 포함하는 유전자 모델을 사용하여 상기 참조 게놈으로부터 전사 가능한, 상기 수신하는 단계;
    프라이머 서열에 각각의 전사체 서열의 위치에 대응하는 개별적인 위치를 할당하는 단계;
    마이크로프로세서를 사용하여, 상기 복수의 전사체 서열과 상기 복수의 프라이머 서열의 조합으로부터 증폭될 복수의 표적 서열을 생성시키는 단계;
    마이크로프로세서를 사용하여, 상기 복수의 표적 서열을 기반으로 변형된 참조 게놈을 생성시키는 단계;
    마이크로프로세서를 사용하여, RNA 앰플리콘 분자를 포함하는 시험 샘플로부터 생성된 서열 판독물을 상기 변형된 참조 게놈에 대해서 정렬시키는 단계;
    정렬 프로파일을 생성시키는 단계로서, 상기 정렬 프로파일은 상기 시험 샘플의 상기 서열 판독물에 대한 배치, 품질 점수, 및 서열 완전성 중 적어도 하나를 포함하는, 상기 정렬 프로파일을 생성시키는 단계; 및
    상기 맵핑된 표적 서열 및 상기 변형된 참조 게놈을 사용하여 상기 시험 샘플로부터의 상기 서열 판독물을 전체 참조 게놈으로 번역하는 단계를 포함하는, 컴퓨터 구현 방법.
  15. RNA를 정렬하는 컴퓨터 시스템으로서,
    하나 이상의 마이크로프로세서,
    참조 게놈으로부터의 복수의 프라이머 서열 및 복수의 전사체 서열, 및 유전자 모델을 저장하는 하나 이상의 메모리로서, 상기 전사체 서열은 상기 유전자 모델을 기반으로 한 상기 참조 게놈으로부터 전사 가능한, 상기 하나 이상의 메모리를 포함하되;
    상기 하나 이상의 메모리는 명령어를 저장하되, 상기 명령어는, 상기 하나 이상의 마이크로프로세서에 의해 실행되는 경우, 상기 컴퓨터 시스템으로 하여금,
    상기 복수의 프라이머 서열과 상기 복수의 전사체 서열의 조합으로부터 증폭될 복수의 표적 서열을 생성하게 하고;
    상기 복수의 표적 서열을 기반으로 변형된 참조 게놈을 생성하게 하고;
    RNA 앰플리콘 분자를 포함하는 시험 샘플로부터 생성된 서열 판독물을 상기 변형된 참조 게놈에 대해서 정렬하게 하고; 그리고
    상기 정렬을 기반으로 상기 시험 샘플에 대하여 정렬 프로파일을 생성하게 하는, 컴퓨터 시스템.
  16. 제15항에 있어서, 상기 명령어는 상기 컴퓨터 시스템으로 하여금 각각의 전사체 서열의 위치에 대응하는 개별적인 위치를 할당하게 하는, 컴퓨터 시스템
  17. 제16항에 있어서, 상기 명령어는 상기 컴퓨터 시스템으로 하여금 하나 이상의 온-타깃 서열에 걸쳐 있는 상기 생성된 표적 서열 중 하나 이상을 기반으로 상기 생성된 표적 서열 중 하나 이상을 제거하게 하는, 컴퓨터 시스템
  18. 제16항에 있어서, 상기 복수의 프라이머 서열이 복수의 프라이머 쌍을 포함하고, 제1 프라이머 쌍이 제1 위치에 대하여 제1 프라이머 및 제2 프라이머를 포함하고, 제2 프라이머 쌍이 제2 위치에 대하여 상기 제1 프라이머 및 제2 프라이머를 포함하는, 컴퓨터 시스템.
  19. 제15항에 있어서, 상기 유전자 모델은 상기 변형된 참조 게놈에서 스플라이스 접합부, 융합 접합부, 또는 둘 다의 동정을 포함하는, 컴퓨터 시스템.
  20. 제15항에 있어서, 상기 복수의 표적 서열은 온-타깃 서열 및 오프-타깃 서열을 포함하는, 컴퓨터 시스템.
  21. 제20항에 있어서, 상기 명령어는 상기 컴퓨터 시스템으로 하여금 하나 이상의 프라이머 서열을 상기 복수의 프라이머 서열로부터 배제시킴으로써 다수의 오프-타깃 서열을 감소시키게 하는, 컴퓨터 시스템.
  22. 제21항에 있어서, 상기 명령어는 상기 컴퓨터 시스템으로 하여금 2개 이상의 샘플의 유전자 발현을 비교하게 하고, 이로써 RNA의 제1 샘플로부터 생성된 정렬된 판독물을 RNA의 제2 샘플로부터 생성된 정렬된 판독물과 비교하는, 컴퓨터 시스템.
  23. 제15항에 있어서, 정렬 프로파일을 생성시키는 것은 정렬되지 않은 융합 접합부를 포함하는 서열 판독물을 상기 참조 게놈의 비인접 서열에 대해서 정렬시키는 것을 더 포함하되, 상기 정렬되지 않은 융합 접합부는 상기 유전자 모델에서 동정되지 않았던 것인, 컴퓨터 시스템.
  24. 제19항에 있어서, 상기 정렬 프로파일은 융합 접합부를 포함하되, 상기 융합 접합부는 상기 유전자 모델에서 동정되었던 것인, 컴퓨터 시스템.
KR1020197035546A 2018-01-05 2019-01-07 표적화 핵산 서열 분석 데이터를 정렬하는 방법 KR20200107774A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862614088P 2018-01-05 2018-01-05
US62/614,088 2018-01-05
PCT/US2019/012511 WO2019136364A1 (en) 2018-01-05 2019-01-07 Process for aligning targeted nucleic acid sequencing data

Publications (1)

Publication Number Publication Date
KR20200107774A true KR20200107774A (ko) 2020-09-16

Family

ID=65433730

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197035546A KR20200107774A (ko) 2018-01-05 2019-01-07 표적화 핵산 서열 분석 데이터를 정렬하는 방법

Country Status (10)

Country Link
US (1) US20190325990A1 (ko)
EP (1) EP3616204A1 (ko)
JP (1) JP7319197B2 (ko)
KR (1) KR20200107774A (ko)
CN (1) CN110692101B (ko)
AU (1) AU2019205780A1 (ko)
CA (1) CA3061740A1 (ko)
NZ (1) NZ759420A (ko)
SG (1) SG11201910046SA (ko)
WO (1) WO2019136364A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024106826A1 (ko) * 2022-11-16 2024-05-23 주식회사 세니젠 기준 서열 데이터와 타겟 및 비-타겟종의 교차검증을 활용한, PCR을 위한 K-mer 유전자 데이터 프로세싱 방법 및 그 장치

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942809B (zh) * 2019-11-08 2022-06-10 浪潮电子信息产业股份有限公司 一种序列比对的Seed处理方法、系统、装置及可读存储介质
CN111261223B (zh) * 2020-01-12 2022-05-03 湖南大学 一种基于深度学习的crispr脱靶效应预测方法
KR20230022965A (ko) * 2020-06-24 2023-02-16 주식회사 씨젠 복수의 핵산서열에 대한 올리고뉴클레오타이드 세트의 커버리지를 제공하는 컴퓨터-구현 방법
CN111681711B (zh) * 2020-06-28 2021-03-16 江苏先声医学诊断有限公司 一种兼并引物的设计筛选方法
CN113241118A (zh) * 2021-07-12 2021-08-10 法玛门多(常州)生物科技有限公司 一种基因突变有害性预测的方法
WO2023184065A1 (zh) * 2022-03-28 2023-10-05 京东方科技集团股份有限公司 融合基因的鉴定方法、装置、设备、程序及存储介质
CN115896256A (zh) * 2022-11-25 2023-04-04 臻悦生物科技江苏有限公司 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160194694A1 (en) * 2011-04-28 2016-07-07 Life Technologies Corporation Multiplex transcriptome analysis
WO2016011378A1 (en) * 2014-07-18 2016-01-21 Life Technologies Corporation Systems and methods for detecting structural variants
CN104657628A (zh) * 2015-01-08 2015-05-27 深圳华大基因科技服务有限公司 基于Proton的转录组测序数据的比较分析方法和系统
US10971249B2 (en) * 2016-09-15 2021-04-06 Illumina, Inc. Systems and methods for off-target sequence detection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024106826A1 (ko) * 2022-11-16 2024-05-23 주식회사 세니젠 기준 서열 데이터와 타겟 및 비-타겟종의 교차검증을 활용한, PCR을 위한 K-mer 유전자 데이터 프로세싱 방법 및 그 장치

Also Published As

Publication number Publication date
WO2019136364A1 (en) 2019-07-11
JP2021509572A (ja) 2021-04-01
AU2019205780A1 (en) 2019-12-12
CN110692101A (zh) 2020-01-14
CA3061740A1 (en) 2019-07-11
JP7319197B2 (ja) 2023-08-01
SG11201910046SA (en) 2019-11-28
EP3616204A1 (en) 2020-03-04
NZ759420A (en) 2022-07-01
US20190325990A1 (en) 2019-10-24
CN110692101B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
JP7319197B2 (ja) 標的核酸のシークエンシングデータをアライメントする方法
US10192026B2 (en) Systems and methods for genomic pattern analysis
Rumble et al. SHRiMP: accurate mapping of short color-space reads
US11961589B2 (en) Models for targeted sequencing
Dolled-Filhart et al. Computational and bioinformatics frameworks for next-generation whole exome and genome sequencing
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
US20130261005A1 (en) System and methods for indel identification using short read sequencing
US20150142334A1 (en) System, method and computer-accessible medium for genetic base calling and mapping
Llinares-López et al. Genome-wide genetic heterogeneity discovery with categorical covariates
US20200105375A1 (en) Models for targeted sequencing of rna
US20210233612A1 (en) Systems and methods for off-target sequence detection
Liu et al. iMapSplice: Alleviating reference bias through personalized RNA-seq alignment
WO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
EP3663890B1 (en) Alignment method, device and system
US20190108311A1 (en) Site-specific noise model for targeted sequencing
Kim et al. A Universal Analysis Pipeline for Hybrid Capture-Based Targeted Sequencing Data with Unique Molecular Indexes
Lin et al. Evaluation of classical statistical methods for analyzing bs-seq data
Yan et al. IS-Seq: a bioinformatics pipeline for integration sites analysis with comprehensive abundance quantification methods
US20200105374A1 (en) Mixture model for targeted sequencing
US20140288847A1 (en) Systems and techniques for segmentation of sequential data
US20220399079A1 (en) Method and system for combined dna-rna sequencing analysis to enhance variant-calling performance and characterize variant expression status
Kavak et al. Robustness of massively parallel sequencing platforms
NZ788962A (en) Process for aligning targeted nucleic acid sequencing data
Chlis et al. Extracting reliable gene expression signatures through stable bootstrap validation
Bevilacqua et al. A novel approach to clustering and assembly of large-scale roche 454 transcriptome data for gene validation and alternative splicing analysis

Legal Events

Date Code Title Description
A201 Request for examination