KR102447812B1

KR102447812B1 - 서열-특정 오류(sse)를 유발시키는 서열 패턴을 식별하기 위한 심층 학습-기반 프레임워크

Info

Publication number: KR102447812B1
Application number: KR1020227007154A
Authority: KR
Inventors: 도르나 카셰프하기기; 아미르알리 키아; 카이-하우 파
Original assignee: 일루미나, 인코포레이티드
Priority date: 2018-07-11
Filing date: 2019-07-09
Publication date: 2022-09-27
Also published as: AU2019272065A1; KR102628141B1; MX2019015567A; AU2021203538B2; JP6785995B2; EP3619712C0; IL288276B2; AU2021203538A1; AU2019272065C1; IL296738A; EP3619712A1; BR112019027637A2; IL271213B; EP3619712B1; RU2745733C1; JP2020529644A; SG11201912766VA; KR20220136462A; IL288276A; CA3064226A1

Abstract

개시된 기술은 서열-특정 오류(SSE)를 야기시키는 서열 패턴을 식별하는, 심층 학습-기반 프레임워크를 나타낸다. 시스템 및 방법은 서열 패턴과 거짓 변이체 호출 간의 원인 의존성을 학습하기 위해 대규모 변이 데이터 상에 변이체 필터를 트레이닝한다. 변이체 필터는 딥 신경망, 예를 들어, 컨볼루션 신경망 및 완전-연결 신경망 상에 구축된 계층적 구조를 갖는다. 시스템 및 방법은 변이체 필터링에 대한 이의 효과를 위한 공지된 서열 패턴을 시험하기 위해 변이체 필터를 이용하는 시뮬레이션을 구현한다. 시뮬레이션의 전제는 하기와 같다: 시험되는 반복 패턴 및 호출된 변이체의 쌍은 시뮬레이션된 입력 서열의 일부로서 변이체 필터에 공급되고, 변이체 필터는 호출된 변이체를 거짓 변이체 호출로서 분류할 때, 반복 패턴은 거짓 변이체 호출을 유발시키고 SSE-유발로서 식별되는 것으로 여겨진다.

Description

서열-특정 오류(SSE)를 유발시키는 서열 패턴을 식별하기 위한 심층 학습-기반 프레임워크{Deep Learning-Based Framework For Identifying Sequence Patterns That Cause Sequence-Specific Errors (SSES)}

우선권 출원

본 출원은 하기 출원들을 우선권으로 주장하거나 하기 출원들의 이익을 주장한다:

미국 가특허 출원 제62/696,699호(발명의 명칭: "DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs)", 출원일: 2018년 7월 11일(대리인 문서 번호 ILLM 1006-1/IP-1650-PRV));

네덜란드 출원 제2021473호(발명의 명칭: "DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs)", 2018년 8월 16일(대리인 문서 번호 ILLM 1006-4/IP-1650-NL)); 및

미국 정규 특허출원 제16/505,100호(발명의 명칭: "DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs)", 출원일: 2019년 7월 8일(대리인 문서 번호 ILLM 1006-2/IP-1650-US)).

이러한 우선권 출원들은 모든 목적을 위하여 본 명세서에 참고로 포함된다.

도입부

하기는 본 명세서에 완전히 기술된 것처럼 모든 목적을 위해 참고로 포함된다:

PCT 국제 특허 출원 PCT/US17/61554호, 발명의 명칭 "Validation Methods and Systems for Sequence Variant Calls", 출원일: 2017년 11월 14일;

미국 가특허 출원 제62/447,076호, 발명의 명칭 "Validation Methods and Systems for Sequence Variant Calls", 출원일: 2017년 1월 17일;

미국 가특허 출원 제62/422,841호, 발명의 명칭 "Methods and Systems to Improve Accuracy in Variant Calling", 출원일: 2016년 11월 16일; 및

N. ten DIJKE, "Convolutional Neural Networks for Regulatory Genomics," Master's Thesis, Universiteit Leiden Opleiding Informatica, 17 June 2017.

개시된 기술의 분야

개시된 기술은 인공 지능형 컴퓨터 및 디지털 데이터 처리 시스템 및 지능의 모방을 위한 상응하는 데이터 처리 방법 및 제품(즉, 지식 기반 시스템, 추론 시스템, 및 지식 획득 시스템); 및 불확실성(uncertainty)을 추론하기 위한 시스템(예를 들어, 퍼지 논리 시스템), 적응형 시스템, 기계 학습 시스템, 및 인공 신경망에 관한 것이다. 특히, 개시된 기술은 딥 신경망(deep neural network), 예를 들어, 데이터를 분석하기 위한 컨볼루션 신경망(convolutional neural network: CNN) 및 완전-연결 신경망(fully-connected neural network: FCNN)을 이용하는 것에 관한 것이다.

본 부문에서 논의되는 주제는 단지 본 부문에서의 이의 언급의 결과로서 종래 기술인 것으로 가정되어서는 안 된다. 유사하게, 본 부문에서 언급되거나 배경으로서 제공된 주제와 관련된 문제는 종래 기술에서 이전에 인식된 것으로 가정되어서는 안 된다. 본 부문에서의 주제는 단지 상이한 접근법을 나타내는데, 이는 그 자체로 또한, 청구된 기술의 구현예들에 대응할 수 있다.

차세대 서열분석(next-generation sequencing)은 변이체 필터링(variant filtering)을 위해 대량의 서열분석된 데이터(sequenced data)를 이용 가능할 수 있다. 서열분석된 데이터는 매우 연관이 있고 복잡한 상호의존성을 갖는데, 이는 변이체 필터링 작업에 대한 지원 벡터 기계와 같은 전통적인 분류기(classifier)의 적용을 방해한다. 이에 따라, 서열분석된 데이터로부터 고수준 특징을 추출할 수 있는 발달된 분류기가 요망된다.

딥 신경망은 고수준 특징을 연속적으로 모델링하기 위해 다수의 비선형 및 복잡한 변형층을 이용하는 인공 신경망의 한 타입이다. 딥 신경망은 파라미터를 조정하기 위해 관찰된 출력과 예측된 출력 간의 차이를 전달하는 역전파를 통한 피드백을 제공한다. 딥 신경망은 대규모 트레이닝 데이터세트의 입수 가능성, 병렬 및 분산 컴퓨팅의 파워(power), 및 정교한 트레이닝 알고리즘으로 진화하였다. 딥 신경망은 컴퓨터 비전, 음성 인식, 및 자연어 처리와 같은 수많은 도메인에서 주요 발전을 촉진하고 있다.

컨볼루션 신경망(CNN) 및 순환 신경망(recurrent neural network: RNN)은 딥 신경망의 구성요소들이다. 컨볼루션 신경망은 컨볼루션층(convolution layer), 비선형 층(nonlinear layer), 및 풀링 층(pooling layer)을 포함하는 아키텍처(architecture)로 특히 이미지 인식에서 성공하였다. 순환 신경망은 퍼셉트론(perceptron), 장단기 메모리 유닛, 및 게이트 순환 유닛과 같은 빌딩 블록(building block) 간에 주기적인 연결로 입력 데이터의 순차적 정보를 사용하도록 설계된다. 또한, 딥 시공간 신경망, 다차원 순환 신경망, 및 컨볼루션 오토-인코더와 같은 다수의 다른 새로운 딥 신경망은 제한된 환경에 대해 제안되었다.

트레이닝 딥 신경망의 목표는 각 층에서 가중치 파라미터의 최적화로서, 이는 가장 적합한 계층적 표현(hierarchical representation)이 데이터로부터 학습될 수 있도록 더 단순한 특징을 복잡한 특징으로 점진적으로 결합시키는 것이다. 최적화 공정의 단일 사이클은 하기와 같이 조직화된다. 첫째로, 트레이닝 데이터세트가 제공되면, 포워드 패스(forward pass)는 각 층에서 출력을 순차적으로 계산하고, 망을 통해 함수 신호(function signal)를 순방향으로 전파한다. 최종 출력층에서, 총 목표 손실 함수(objective loss function)는 추론된 출력과 제공된 라벨 간에 오류(error)를 측정한다. 트레이닝 오류(training error)를 최소화하기 위해, 백워드 패스(backward pass)는 오류 신호를 역전파하고 신경망 전반에 걸친 모든 가중치에 대한 경사(gradient)를 계산하기 위한 체인 법칙(chain rule)을 이용한다. 마지막으로, 가중치 파라미터는 확률적 경사 하강(stochastic gradient descent)를 기초로 한 최적화 알고리즘을 이용하여 업데이트된다. 배취 경사 하강(batch gradient descent)가 각 완전한 데이터세트에 대해 파라미터 업데이트를 수행하지만, 확률적 경사 하강은 각각의 작은 세트의 데이터 예에 대한 업데이트를 수행함으로써 확률적 근사치를 제공한다. 여러 최적화 알고리즘은 확률적 경사 하강에서 유래한다. 예를 들어, Adagrad 및 Adam 트레이닝 알고리즘은 각 파라미터에 대한 업데이트 빈도 및 경사의 모멘트를 각각 기초로 하여 학습 속도를 적응적으로 변경시키면서 확률적 경사 하강을 수행한다.

딥 신경망의 트레이닝에서 다른 핵심 구성요소는 정규화(regularization)로서, 이는 오버피팅(overfitting)을 피하도록 의도된 전략을 지칭하고, 이에 따라, 양호한 일반화 성능을 달성한다. 예를 들어, 가중치 감소는 가중치 파라미터가 더 작은 절대값으로 수렴하도록 총 목표 손실 함수에 페널티 항(penalty term)을 부가한다. 드롭아웃(dropout)은 트레이닝 동안 신경망으로부터 은닉 유닛(hidden unit)을 무작위적으로 제거하고, 가능한 서브망의 앙상블이 고려될 수 있다. 드롭아웃의 능력을 향상시키기 위해, rnnDrop으로 불리는 순환 신경망에 대한 새로운 활성화 함수, 맥스아웃(maxout), 및 드롭아웃의 변형이 제안되었다. 또한, 배취 정규화(batch normalization)는 미니-배취(mini-batch) 내에서 각 활성화에 대한 스칼라 특징(scalar feature)의 정규화 및 파라미터로서 각 평균 및 분산의 학습을 통한 신규한 정규화 방법을 제공한다.

서열분석된 데이터가 다차원적이고 고차원적이라는 것을 고려할 때, 딥 신경망은 이의 넓은 적용가능성 및 향상된 예측력으로 인해 생물정보학 연구에 큰 가능성을 갖는다. 컨볼루션 신경망은 모티프 발견, 병원성 변이체 식별, 및 유전자 발현 추론과 같은 게놈에서의 서열-기반 문제를 해결하도록 구성되었다. 컨볼루션 신경망의 특징은 컨볼루션 필터의 사용이다. 정교하게 설계되고 수동적으로 제작된 특징을 기초로 하는 전통적인 분류 방법과는 달리, 컨볼루션 필터는 미가공 입력 데이터를 지식의 유용한 표현으로 맵핑하는 공정과 유사한, 특징들의 적응 학습을 수행한다. 이러한 의미에서, 컨볼루션 필터는, 한 세트의 이러한 필터가 입력에서 관련 패턴을 인식하고 트레이닝 절차 동안 그 자체를 업데이트할 수 있기 때문에, 일련의 모티프 스캐너로서 역할을 한다. 순환 신경망은 단백질 또는 DNA 서열과 같은, 다양한 길이의 순차적 데이터의 장기간 의존성(long-range dependency)을 포착할 수 있다.

이에 따라, 서열분석 오류와 서열 패턴을 연관시키는 원칙적인 심층 학습-기반 프레임워크를 사용할 기회가 생긴다.

도면에서, 유사한 참조 문자는 일반적으로, 상이한 도면 전반에 걸쳐 유사한 부분을 지칭한다. 또한, 도면은 반드시 축척대로 도시된 것은 아니며, 대신에 개시된 기술의 원리를 예시 시에 일반적으로 강조된다. 하기 설명에서, 개시된 기술의 다양한 구현은 하기 도면을 참조하여 기술된다.
도 1은 서열-특정 오류(sequence-specific error: SSE)를 유발시키는 서열 패턴을 식별하기 위한 딥-러닝 기반 프레임워크인, DeepPOLY의 다양한 양태를 도시한 블록 다이어그램이다. 도 1은 모듈, 예를 들어, 변이체 필터(variant filter), 시뮬레이터(simulator), 및 분석기(analyzer)를 포함한다. 도 1은 또한, 오버레이 샘플(overlaid sample), 뉴클레오타이드 서열, 및 반복 패턴(repeat pattern)을 저장하는 데이터베이스를 포함한다.
도 2는 변이체 필터의 예시적 아키텍처를 예시한 것이다. 변이체 필터는 컨볼루션 신경망(CNN) 및 완전-연결 신경망(FCNN) 상에 탑재된 계층적 구조를 갖는다. DeepPOLY는 변이체 필터링에 대한 이의 효과를 위해 공지된 서열 패턴을 시험하기 위한 변이체 필터를 이용한다.
도 3은 변이체 필터의 처리 파이프라인의 하나의 구현예를 도시한 것이다.
도 4a는 홀드-아웃 데이터(held-out data)에 대한 변이체 필터의 성능을 그래프로 예시한 참 및 거짓 양성 플롯(true and false positive plot)을 도시한 것이다.
도 4b 및 도 4c는 변이체 필터의 정확성을 검증하는 정렬된 판독물(read)의 누적 이미지(pile-up image)를 도시한 것이다.
도 5는 각 측면 상에 20 내지 50개의 염기 측면에 위치한 타깃 위치에서 호출된 변이체체(called variant)를 갖는 오버레이 샘플을 인코딩하기 위해 사용된 원-핫 인코딩(one-hot encoding)의 하나의 구현예를 도시한 것이다.
도 6은 뉴클레오타이드 서열 상에 반복 패턴을 오버레이시킴으로써 입력 준비기(input preparer)에 의해 생성된 오버레이 샘플의 예를 예시한 것이다.
도 7a는 오버레이 샘플에서 타깃 위치에 변이체 뉴클레오타이드의 좌측에 있는 반복 패턴에 의해 서열-특정 오류 원인을 식별하기 위해 박스-앤드-위스커 플롯(box-and-whisker plot)을 사용한다.
도 7b는 오버레이 샘플에서 타깃 위치에 변이체 뉴클레오타이드의 우측에 있는 반복 패턴에 의해 서열-특정 오류 원인을 식별하기 위해 박스-앤드-위스커 플롯을 사용한다.
도 7c는 오버레이 샘플에서 타깃 위치에 변이체 뉴클레오타이드를 포함하는 반복 패턴에 의해 서열-특정 오류 원인을 식별하기 위해 박스-앤드-위스커 플롯을 사용한다.
도 8a는 뉴클레오타이드 서열 상에 다양한 오프셋에 오버레이된 단일 염기 "C"의 호모폴리머의 반복 패턴에 의해 서열-특정 오류 원인을 식별하기 위해 박스-앤드-위스커 플롯을 사용한다.
도 8b는 뉴클레오타이드 서열 상에 다양한 오프셋에 오버레이된 단일 염기 "G"의 호모폴리머의 반복 패턴에 의해 서열-특정 오류 원인을 식별하기 위해 박스-앤드-위스커 플롯을 사용한다.
도 8c는 뉴클레오타이드 서열 상에 다양한 오프셋에 오버레이된 단일 염기 "A"의 호모폴리머의 반복 패턴에 의해 서열-특정 오류 원인을 식별하기 위해 박스-앤드-위스커 플롯을 사용한다.
도 8d는 뉴클레오타이드 서열 상에 다양한 오프셋에 오버레이된 단일 염기 "T"의 호모폴리머의 반복 패턴에 의해 서열-특정 오류 원인을 식별하기 위해 박스-앤드-위스커 플롯을 사용한다.
도 9는 단일 염기의 호모폴리머의 반복 패턴이 타깃 위치에서 4개의 염기 각각의 변이체 뉴클레오타이드 "전" 및 "후"에 하나씩 배치될 때 변이체 뉴클레오타이드가 참 변이체(true variant) 또는 거짓 변이체(false variant)일 가능성에 대한 분포로서 분류 스코어를 나타낸 것이다.
도 10a 내지 도 10c는 거짓 변이체 분류에 기여하는 샘플 뉴클레오타이드 서열 각각에서 코폴리머의 자연발생 반복 패턴의 표현을 나타낸 것이다.
도 11은 변이체 필터를 구현하기 위해 사용될 수 있는 컴퓨터 시스템의 단순화된 블록 다이어그램이다.
도 12는 서열-특정 오류(SSE)가 거짓 변이체 분류를 기초로 하여 반복 패턴과 어떻게 연관이 있는 지의 하나의 구현예를 예시한 것이다.

하기 논의는 임의의 당업자가 개시된 기술을 제조하고 이용할 수 있도록 제시되고, 특정 적용 및 이의 요건의 맥락에서 제공된다. 개시된 구현예에 대한 다양한 변형은 당업자에게 자명하게 될 것이며, 본 명세서에서 규정된 일반적인 원리는 개시된 기술의 사상 및 범위를 벗어나지 않으면서 다른 구현예 및 적용에 적용될 수 있다. 이에 따라, 개시된 기술은 나타낸 구현예로 제한되도록 의도되지 않지만, 본 명세서에 개시된 원리 및 특징과 일치하는 가장 넓은 범위를 따라야 한다.

도입부

서열-특정 오류(SSE)는 특정 서열 패턴에 의해 유발된 염기 호출 오류(base calling error)이다. 예를 들어, 서열 패턴 'GGC' 및 'GGCNG' 및 이들의 반전된 반복부는 다량의 착오호출(miscall)을 유발시키는 것으로 밝혀졌다. SSE는 어셈블리 갭(assembly gap) 및 맵핑 인공물(mapping artifact)을 초래한다. 또한, 임의의 착오호출이 변이로 오인할 수 있기 때문에, SSE는 거짓 변이체 호출(flase variant call)을 초래하고, 정확한 변이체 호출(variant calling)에 대한 주요 장애물이다.

본 발명자들은 심층 학습-기반 프레임워크, DeepPOLY를 개시하는데, 이는 SSE를 유발시키는 서열 패턴을 식별한다. DeepPOLY는 서열 패턴과 거짓 변이체 호출 간의 인과 관계 의존성을 학습하기 위해 대규모 변이 데이터에 대한 변이체 필터를 트레이닝시킨다. 변이체 필터는 다수의 공간 스케일에서 입력 서열을 평가하고 변이체 필터링을 수행하는, 즉, 입력 서열에서 호출된 변이체가 참 변이체 호출 또는 거짓 변이체 호출인지를 예측하는 딥 신경망 상에 탑재된 계층적 구조를 갖는다. 대규모 변이 데이터는 혈통 변이체(pedigree variant)를 포함하는데, 이들 중에서 선천적인 변이체는 참 변이체 호출의 트레이닝 예로서 사용되며, 단지 한 어린이에서 관찰된 데노보 변이체는 거짓 변이체 호출의 트레이닝 예로서 사용된다. 일부 구현예에서, 단지 한 어린이에서 관찰된 데노보 변이체들 중 적어도 일부는 참 변이체 호출의 트레이닝 예로서 사용된다.

트레이닝 동안, 딥 신경망의 파라미터는 경사 하강 방법을 이용하여 필터링 정확성을 최대화하기 위해 최적화된다. 생성된 변이체 필터는 입력 서열에서 서열 패턴과 거짓 변이체 호출을 연결시키기 위해 학습한다.

DeepPOLY는 이후에, 변이체 필터링에 대한 이의 효과를 위해 공지된 서열 패턴을 시험하기 위한 변이체 필터를 이용하는 시뮬레이션을 구현한다. 공지된 서열 패턴은 염기 조성, 패턴 길이, 및 반복 인자가 상이한 반복 패턴(또는 코폴리머)이다. 반복 패턴은 호출된 변이체로부터 다양한 오프셋으로 시험된다.

시뮬레이션의 전제는 하기와 같다: 한 쌍의 시험 중인 반복 패턴 및 호출된 변이체가 시뮬레이션된 입력 서열의 일부로서 변이체 필터에 공급되고 변이체 필터가 거짓 변이체 호출로서 호출된 변이체를 분류할 때, 반복 패턴은 거짓 변이체 호출을 야기시키고 SSE-유발로서 식별되는 것으로 여겨진다. 이러한 전제 하에서, DeepPOLY는 오프셋 감도로, SSE-유발시키는 것을 식별하기 위해 수 백 및 수 천개의 반복 패턴을 시험한다.

DeepPOLY는 또한, 변이체 필터를 통해 자연발생 입력 서열을 처리하고 처리 동안 딥 신경망의 파라미터 활성화를 분석함으로써 SSE를 유발시키는 자연발생 서열 패턴을 발견한다. 그러한 서열 패턴은 SSE-유발로서 식별되며, 이를 위하여, 딥 신경망의 입력 뉴런은 가장 높은 파라미터 활성화를 생성시키며, 출력 뉴런은 거짓 변이체 호출 분류를 생성한다.

DeepPOLY는 이전에 공지된 SSE-유발 서열 패턴을 확인하고 신규한 보다 특정의 서열 패턴을 보고한다.

DeepPOLY는 기저 서열분석 화학, 서열분석 플랫폼, 및 서열분석 폴리머라제의 애그노스틱(agnostic)이고, 상이한 서열분석 화학, 서열분석 플랫폼, 및 서열분석 폴리머라제에 대한 SSE-유발 서열 패턴의 포괄적인 프로파일을 생성시킬 수 있다. 이러한 프로파일은 서열분석 화학을 개선시키고, 더 고품질의 서열분석 플랫폼을 구축하고, 상이한 서열분석 폴리머라제를 생성시키기 위해 사용될 수 있다. 이러한 것은 또한, 염기 호출 품질 스코어(base call quality score)를 다시 계산하고 변이체 호출(variant calling) 정확성을 개선시키기 위해 사용될 수 있다.

변이체 필터는 2가지의 딥 신경망, 즉, 컨볼루션 신경망(CNN), 이후, 완전-연결 신경망(FCNN)을 갖는다. 시험 중인 반복 패턴은 오버레이 샘플을 생성하기 위해 뉴클레오타이드 서열 상에 오버레이된다. 오버레이 샘플은 각 측면 상에 20 내지 50개의 염기가 측면에 있는 타깃 위치에서 호출된 변이체를 갖는다. 본 발명자들은 4가지 타입의 염기, 즉, A, C, G 및 T를 수치적으로 인코딩하는 다수의 채널을 갖는 이미지로서 오버레이 샘플을 간주한다. 호출된 변이체에 걸쳐 있는 오버레이 샘플은 오버레이 샘플에서 각 개별 염기의 위치-특정 정보를 보존하기 위해 원-핫 인코딩된다.

컨볼루션 신경망은 오버레이 샘플 내에 공간적 국소 관계를 보존할 수 있기 때문에, 원-핫 오버레이 샘플을 수용한다. 컨볼루션 신경망은 다수의 컨볼루션층을 통해 오버레이 샘플을 처리하고, 하나 이상의 중간 콘볼루션된 특징을 생산한다. 컨볼루션층은 오버레이 샘플 내에서 서열 패턴을 검출하기 위해 컨볼루션 필터를 사용한다. 컨볼루션 필터는 오버레이 샘플을 저수준 모티프에 대해 스캐닝하고 염기 서열 패턴에 따라 상이한 강도의 신호를 생성하는 모티프 검출기로서 역할을 한다. 컨볼루션 필터는 수백 및 수천의 참 및 거짓 변이체 호출의 트레이닝 예들에 대한 트레이닝 후에 자동적으로 학습된다.

완전-연결 신경망은 이후에, 다수의 완전-연결층을 통해 중간 컨볼루션된 특징을 처리한다. 완전-연결층의 조밀하게 연결된 뉴런은 컨볼루션된 특징에서 인코딩된 고수준 서열 패턴을 검출한다. 마지막으로, 완전-연결 신경망의 분류층(classification layer)은 참 변이체 호출 또는 거짓 변이체 호출인 호출된 변이체에 대한 확률을 출력한다.

드롯아웃을 이용하는 것 이외에, 배취 정규화 및 정류된 선형 단위 비선형성의 쌍은 학습 속도를 향상시키고 오버피팅을 감소시키기 위해 컨볼루션층과 완전-연결층 사이에 배치된다.

용어

특허, 특허 출원, 기사, 서적, 논문 및 웹 페이지를 포함하지만 이로 제한되지는 않는, 본 출원에서 인용된 모든 문헌 및 유사한 자료는 이러한 문헌 및 유사한 자료의 포맷과는 무관하게, 이의 전문이 참고로 명확하게 포함된다. 포함된 문헌 및 유사한 자료들 중 하나 이상이 규정된 용어, 용어 사용, 기술된 기술 등을 포함하지만, 이로 제한되지는 않는, 본 출원과 상이하거나 상반되는 경우에, 본 출원이 제어한다.

본 명세서에서 사용되는 하기 용어는 명시된 의미를 갖는다.

염기는 뉴클레오타이드 염기 또는 뉴클레오타이드, A(아데닌), C(사이토신), T(티민), 또는 G(구아닌)를 지칭한다.

용어 "염색체"는 DNA 및 단백질 성분(특히, 히스톤)을 포함하는 염색질 가닥으로부터 유래된, 살아있는 세포의 유전-보유 유전자 운반체를 지칭한다. 국제적으로 인정된 통상적인 개별 인간 게놈 염색체 넘버링 시스템이 본 명세서에서 사용된다.

용어 "부위"는 참조 게놈 상의 독특한 위치(예를 들어, 염색체 ID, 염색체 위치 및 방향)을 지칭한다. 일부 구현예에서, 부위는 잔기, 서열 태그, 또는 서열 상의 세그먼트의 위치일 수 있다. 용어 "유전자좌(locus)"는 참조 염색체 상의 핵산 서열 또는 다형성의 특정 위치를 지칭하기 위해 사용될 수 있다.

본 명세서에서 용어 "샘플"은 서열분석되고/되거나 단계화되는 핵산 또는 적어도 하나의 핵산 서열을 함유한 핵산들의 혼합물을 함유한 생물학적 유체, 세포, 조직, 장기, 또는 유기체로부터 통상적으로 유래된, 샘플을 지칭한다. 이러한 샘플은 담/경구 유체, 양수, 혈액, 혈액 분획, 미세 니들 생검 샘플(예를 들어, 외과적 생검, 미세 니들 생검 등), 소변, 복막액, 흉막액, 조직 외식편, 장기 배양물 및 임의의 다른 조직 또는 세포 제조물, 또는 이의 또는 이로부터 단리된 분획 또는 유도체를 포함하지만, 이로 제한되는 것은 아니다. 샘플이 종종 인간 대상체(예를 들어, 환자)로부터 획득되지만, 샘플은 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만, 이로 제한되지 않는, 염색체를 갖는 임의의 유기체로부터 획득될 수 있다. 샘플은 생물학적 공급원으로부터 얻어진 그대로 직접적으로 사용되거나 샘플의 특징을 개질시키기 위해 사전처리 후에 사용될 수 있다. 예를 들어, 이러한 사전처리는 혈액으로부터 혈장을 제조하고, 점성의 유체를 희석시키는 것 등을 포함할 수 있다. 사전처리 방법은 또한, 여과, 침전, 희석, 증류, 혼합, 원심분리, 냉동, 동결건조, 농축, 증폭, 핵산 단편화, 간섭 성분의 비활성화, 시약의 첨가, 용해 등을 포함할 수 있지만, 이로 제한되는 것은 아니다.

용어 "서열"은 서로 연결된 뉴클레오타이드의 가닥을 포함하거나 이를 나타낸다. 뉴클레오타이드는 DNA 또는 RNA를 기반으로 할 수 있다. 하나의 서열이 다수의 하위-서열을 포함할 수 있는 것으로 이해되어야 한다. 예를 들어, 단일 서열(예를 들어, PCR 앰플리콘)은 350개의 뉴클레오타이드를 가질 수 있다. 샘플 판독물은 이러한 350개의 뉴클레오타이드 내에 다수의 하위-서열을 포함할 수 있다. 예를 들어, 샘플 판독물은 예를 들어, 20 내지 50개의 뉴클레오타이드를 갖는 제1 및 제2 측면 하위서열을 포함할 수 있다. 제1 및 제2 측면 하위-서열은 상응하는 하위-서열(예를 들어, 40 내지 100개의 뉴클레오타이드)을 갖는 반복 세그먼트의 측면 상에 위치될 수 있다. 측면 하위-서열 각각은 프라이머 하위-서열(예를 들어, 10 내지 30개의 뉴클레오타이드)을 포함할 수 있다(또는 이의 일부를 포함할 수 있다). 용이하게 읽기 위하여, 용어 "하위-서열"은 "서열"로서 지칭될 것이지만, 2개의 서열이 공통 가닥 상에 반드시 서로 분리될 필요는 없는 것으로 이해된다. 본 명세서에 기술된 다양한 서열을 구별하기 위하여, 서열은 상이한 라벨(예를 들어, 타깃 서열, 프라이머 서열, 플랭킹 서열(flanking sequence), 참조 서열 등)이 제공될 수 있다. 다른 용어, 예를 들어, "대립유전자"는 동일한 물체를 구별하기 위해 상이한 라벨이 제공될 수 있다.

용어 "페어드-엔드 서열분석(paired-end sequencing)"은 타깃 단편의 양 단부를 서열분석하는 서열분석 방법을 지칭한다. 페어드-엔드 서열분석은 유전자 융합 및 신규한 전사체뿐만 아니라 게놈 재배열 및 반복 세그먼트의 검출을 촉진시킬 수 있다. 페어드-엔드 서열분석을 위한 방법은 PCT 출원 WO07010252호, PCT 출원 PCTGB2007/003798호 및 미국 특허 출원 공개 US 2009/0088327호에 기술되며, 이들 각각은 본 명세서에 참고로 포함된다. 일례에서, 일련의 작업이 하기와 같이 수행될 수 있다: (a) 핵산의 클러스터를 생성시키고; (b) 핵산을 선형화하고; (c) 제1 서열분석 프라이머를 혼성화시키고 상기에 기술된 바와 같이, 연장, 스캐닝 및 탈블로킹의 반복된 사이클을 수행하고; (d) 상보적 사본을 합성함으로써 플로우 셀 표면 상에 타깃 핵산을 "반전시키고(invert)"; (e) 재합성된 가닥을 선형화하고; (f) 제2 서열분석 프라이머를 혼성화시키고 상기에 기술된 바와 같이, 연장, 스캐닝 및 탈블로킹의 반복된 사이클을 수행한다. 반전 작업은 단일 사이클의 브리지 증폭을 위한 상기에 기술된 바와 같은 시약을 전달하여 수행될 수 있다.

용어 "참조 게놈" 또는 "참조 서열"은 대상체로부터 동정된 서열을 참조하기 위해 사용될 수 있는 임의의 유기체의 임의의 특정의 공지된 게놈 서열(부분적이든 또는 완전하든)을 지칭한다. 예를 들어, 인간 대상체뿐만 아니라 다수의 다른 유기체를 위하 사용되는 참조 게놈은 ncbi.nlm.nih.gov에서 국립 생물공학 정보 센터(National Center for Biotechnology Information)에서 확인된다. "게놈"은 핵산 서열에서 발현된, 유기체 또는 바이러스의 완전한 유전 정보를 지칭한다. 게놈은 유전자 및 DNA의 비코딩 서열 둘 모두를 포함한다. 참조 서열은 정렬된 판독물보다 더 클 수 있다. 이는 적어도 약 100배 더 크거나, 적어도 약 1000배 더 크거나, 적어도 약 10,000배 더 크거나, 적어도 약 10⁵배 더 크거나, 적어도 약 10⁶배 더 크거나, 적어도 약 10⁷배 더 클 수 있다. 일례에서, 참조 게놈 서열은 전장 인간 게놈의 서열이다. 다른 예에서, 참조 게놈 서열은 특정 인간 염색체, 예를 들어, 염색체 13으로 제한된다. 일부 구현예에서, 참조 염색체는 인간 게놈 버전 hg19로부터의 염색체 서열이다. 이러한 서열은 염색체 참조 서열로서 지칭될 수 있으며, 용어 참조 게놈은 이러한 서열을 포함하는 것으로 의도된다. 참조 서열의 다른 예는 다른 종의 게놈뿐만 아니라, 임의의 종의 염색체, 하위-염색체 영역(예를 들어, 가닥) 등을 포함한다. 다양한 구현예에서, 참조 게놈은 다수의 개체로부터 유래된 공통 서열 또는 다른 조합이다. 그러나, 특정 적용예에서, 참조 서열은 특정 개체로부터 획득될 수 있다.

용어 "판독물(read)"은 뉴클레오타이드 샘플 또는 참조물의 단편을 기술한 서열 데이터의 콜렉션(collection)을 지칭한다. 용어 "판독물"은 샘플 판독물 및/또는 참조물 단편을 지칭할 수 있다. 통상적으로, 반드시 그러한 것은 아니지만, 판독물은 샘플 또는 참조물에서 연속 염기쌍의 짧은 서열을 나타낸다. 판독물은 샘플 또는 참조 단편의 염기쌍 서열(ATCG)에 의해 상징적으로 나타낼 수 있다. 이는 메모리 소자에 저장되고, 적절한 경우 판독물이 참조 서열과 매칭되거나 다른 기준을 충족시키는지의 여부를 결정하기 위해 처리될 수 있다. 판독물은 서열분석 장치로부터 직접적으로 또는 샘플과 관련된 저장된 서열 정보로부터 간접적으로 얻어질 수 있다. 일부 경우에, 판독물은 더 큰 서열 또는 영역을 식별하기 위해 사용될 수 있는, 예를 들어, 염색체 또는 게놈 영역 또는 유전자에 정렬되고 특이적으로 할당될 수 있는 충분한 길이(예를 들어, 적어도 약 25 bp)의 DNA 서열이다.

차세대 서열분석 방법은 예를 들어, 합성 기술에 의한 서열분석(Illumina), 파이로서열분석(454), 이온 반도체 기술(Ion Torrent Sequencing), 단일-분자 실시간 서열분석(Pacific Biosciences) 및 결찰에 의한 서열분석(SOLiD Sequencing)을 포함한다. 서열분석 방법에 따라, 각 판독물의 길이는 약 30 bp 내지 10,000 bp 이상으로 달라질 수 있다. 예를 들어, SOLiD 시퀀서를 이용한 Illumina 서열분석 방법은 약 50 bp의 핵산 판독물을 생성시킨다. 다른 예에 대하여, Ion Torrent 서열분석은 400 bp 이하의 핵산 판독물을 생성시키며 454 파이로서열분석은 약 700 bp의 핵산 판독물을 생성시킨다. 또 다른 예에 대하여, 단일-분자 실시간 서열분석 방법은 10,000 bp 내지 15,000 bp의 판독물을 생성시킬 수 있다. 이에 따라, 특정 구현예에서, 핵산 서열 판독물은 30 내지 100 bp, 50 내지 200 bp, 또는 50 내지 400 bp의 길이를 갖는다.

용어 "샘플 판독물", "샘플 서열" 또는 "샘플 단편"은 샘플로부터의 관심대상 게놈 서열에 대한 서열 데이터를 지칭한다. 예를 들어, 샘플 판독물은 순방향 및 역방향 프라이머 서열을 갖는 PCR 앰플리콘으로부터의 서열 데이터를 포함한다. 서열 데이터는 임의의 선택 서열 방법으로부터 얻어질 수 있다. 샘플 판독물은 예를 들어, 합성에 의한 서열분석(sequencing-by-synthesis; SBS) 반응, 결찰에 의한 서열분석(sequencing-by-ligation) 반응, 또는 반복 요소의 길이 및/또는 동일성을 결정하는 것이 요망되는 임의의 적합한 서열분석 방법으로부터 유래될 수 있다. 샘플 판독물은 다수의 샘플 판독물로부터 유래된 공통(예를 들어, 평균 또는 가중) 서열일 수 있다. 특정 구현예에서, 참조 서열을 제공하는 것은 PCR 앰플리콘의 프라이머 서열을 기초로 한 관심대상 유전자좌를 동정하는 것을 포함한다.

용어 "미가공 단편(raw fragment)"은 샘플 판독물 또는 샘플 단편 내에 지정된 위치 또는 관심대상 2차 위치와 적어도 일부 중첩하는 관심대상 게놈 서열의 일부에 대한 서열 데이터를 지칭한다. 미가공 단편의 비제한적인 예는 듀플렉스 스티치 단편, 심플렉스 스티치 단편, 듀플렉스 비-스티치 단편 및 심플렉스 비-스티치 단편을 포함한다. 용어 "미가공"은, 미가공 단편이 샘플 판독물에서 잠재적인 변이체에 상응하고 이를 인증하거나 확인하는지와는 무관하게, 미가공 단편이 샘플 판독물에서 서열 데이터와의 일부 관련성을 갖는 서열 데이터를 포함함을 나타내기 위해 사용된다. 용어 "미가공 단편"은 단편이 샘플 판독물에서 변이체 호출을 검증하는 지지 변이체를 반드시 포함함을 나타내는 것은 아니다. 예를 들어, 샘플 판독물이 제1 변이체를 나타내기 위해 변이체 호출 어플리케이션에 의해 결정될 때, 변이체 호출 어플리케이션은 하나 이상의 미가공 단편이 샘플 판독물에서 제공된 변이체를 일으킬 것으로 달리 예상될 수 있는 상응하는 타입의 "지지" 변이체가 결여된다는 것을 결정할 수 있다.

용어 "맵핑(mapping)", "정렬된(aligned)," "정렬," 또는 "정렬하는"은 판독물 또는 태그(tag)를 참조 서열과 비교하고 이에 의해 참조 서열이 판독물 서열을 함유하는 지를 결정하는 공정을 지칭한다. 참조 서열이 판독물을 함유하는 경우에, 판독물은 참조 서열에, 또는 특정 구현예에서, 참조 서열의 특정 위치에 맵핑될 수 있다. 일부 경우에, 정렬은 간단하게 판독물이 특정 참조 서열의 구성원인지의 여부(즉, 판독물이 참조 서열에 존재하는지의 여부)를 말한다. 예를 들어, 인간 염색체 13에 대한 참조 서열에 판독물의 정렬은, 판독물이 염색체 13에 대한 참조 서열에 존재하는지의 여부를 말할 것이다. 이러한 정보를 제공하는 툴은 한 세트의 멤버쉽 시험기(set membership tester)로 지칭될 수 있다. 일부 경우에, 정렬은 추가적으로, 판독물 또는 태그가 맵핑되는 참조 서열의 위치를 나타낸다. 예를 들어, 참조 서열이 전체 인간 게놈 서열인 경우에, 정렬은 판독물이 염색체 13에 존재함을 지시할 수 있고, 판독물이 염색체 13의 특정 가닥 및/또는 부위 상에 존재함을 추가로 나타낼 수 있다.

용어 "인델(indel)"은 유기체의 DNA의 염기의 삽입 및/또는 결실을 지칭한다. 마이크로-인델은 1 내지 50개의 뉴클레오타이드의 전체 변화를 초래하는 인델을 나타낸다. 게놈의 코딩 영역에서, 인델 길이가 3의 배수가 아닌 경우에, 이는 프레임시프트 돌연변이를 생성할 것이다. 인델은 포인트 돌연변이와 대조될 수 있다. 인델은 서열로부터 뉴클레오타이드를 삽입하고 결실하는 반면, 포인트 돌연변이는 DNA의 전체 수를 변경시키지 않으면서 뉴클레오타이드 중 하나를 대체하는 치환의 형태이다. 인델은 또한, 텐덤 염기 돌연변이(Tandem Base Mutation: TBM)와 대조적일 수 있는데, 이는 인접한 뉴클레오타이드에서 치환으로서 규정될 수 있다(주로 2개의 인접한 뉴클레오타이드에서 치환, 그러나, 3개의 인접한 뉴클레오타이드에서 치환이 관찰됨).

용어 "변이체(variant)"는 핵산 참조물과는 상이한 핵산 서열을 지칭한다. 통상적인 핵산 서열 변이체는, 비제한적으로, 단일 뉴클레오타이드 다형성(SNP), 짧은 결실 및 삽입 다형성(Indel), 카피 수 변이(copy number variation: CNV), 미부수체 마커 또는 짧은 텐뎀 반복부 및 구조적 변이를 포함한다. 체세포 변이체 호출은 DNA 샘플에서 낮은 빈도로 존재하는 변이체를 식별하기 위한 노력이다. 체세포 변이체 호출은 암 치료의 상황에서 관심대상이다. 암은 DNA에서 돌연변이의 축적에 의해 야기된다. 일부 정상 세포, 암 진행의 초기 단계(돌연변이가 적음)에서의 일부 세포, 및 일부 후기-단계 세포(돌연변이가 더 많음)를 포함하는, 종양으로부터의 DNA 샘플은 일반적으로, 이종성이다. 이러한 이종성으로 인하여, (예를 들어, FFPE 샘플로부터) 종양을 서열분석할 때, 체세포 돌연변이는 종종 낮은 빈도로 나타날 것이다. 예를 들어, SNV는 제공된 염기를 포함하는 판독물의 단지 10%에서만 확인될 수 있다. 변이체 분류기에 의해 체세포 또는 생식선으로서 분류되는 변이체는 또한, 본 명세서에서 "시험 중인 변이"로서 지칭된다.

용어 "노이즈(noise)"는 서열분석 공정에서 그리고/또는 변이체 호출 어플리케이션에서 하나 이상의 오류로부터 형성된 오인된 변이체 호출을 지칭한다.

용어 "변이체 빈도"는 집단에서 특정 유전자좌에서 대립유전자(유전자의 변이체)의 상대적 빈도를 나타내는 것으로서, 분율 또는 백분율로서 표현된다. 예를 들어, 분율 또는 백분율은 그러한 대립유전자를 지닌 집단에서 모든 염색체의 분율일 수 있다. 일례로서, 샘플 변이체 빈도는 개체로부터 관심대상 게놈 서열에 대해 얻어진 샘플 및/또는 판독물의 수에 해당하는 "집단"에 대한 관심대상 게놈 서열을 따른 특정 유전자좌/위치에서의 대립유전자/변이체의 상대적 빈도를 나타낸다. 다른 예로서, 베이스라인 변이체 빈도는 정상 개체의 집단으로부터 하나 이상의 베이스라인 게놈 서열에 대해 판독물 및/또는 샘플의 수에 해당하는 "집단"이 얻어진 하나 이상의 베이스라인 게놈 서열을 따라 특정 유전자좌/위치에서 대립유전자/변이체의 상대적 빈도를 나타낸다.

용어 "변이체 대립유전자 빈도(variant allele frequency: VAF)"는 타깃 위치에서 전체 커버리지에 의해 나누어진 변이와 매칭되는 것으로 관찰된 서열분석된 판독물의 백분율을 지칭한다. VAF는 변이체를 수행하는 서열분석된 판독물의 비율의 척도이다.

용어 "위치," "명시된 위치" 및 "유전자좌"는 뉴클레오타이드의 서열 내에 하나 이상의 뉴클레오타이드의 위치 또는 좌표를 지칭한다. 용어 "위치," "명시된 위치" 및 "유전자좌"는 또한, 뉴클레오타이드의 서열에서 하나 이상의 염기쌍의 위치 또는 좌표를 지칭한다.

용어 "일배체형(haplotype)"은 함께 상속된 염색체 상의 인접한 부위에 대립유전자들의 조합을 지칭한다. 일배체형은 임의로 발생하는 경우에, 제공된 세트의 유전자좌들 사이에서 일어나는 재조합 사건의 수에 따라 하나의 유전자좌, 수 개의 유전자좌, 또는 전체 염색체일 수 있다.

본 명세서에서 용어 "임계치"는 샘플, 핵산, 또는 이의 일부(예를 들어, 판독물)를 특징분석하기 위해 컷오프로서 사용되는 수치 또는 비수치적 값을 지칭한다. 임계치는 경험적 분석을 기초로 하여 다양할 수 있다. 임계치는 이러한 값을 발생시키는 소스가 특정 방식으로 분류되어야 하는지의 여부를 결정하기 위해 측정되거나 계산된 값과 비교될 수 있다. 임계치 값은 경험적으로 또는 분석적으로 확인될 수 있다. 임계치의 선택은 사용자가 분류를 하고자 하는 신뢰도의 수준에 의존적이다. 임계치는 (예를 들어, 감도 및 선택성의 균형을 이루기 위해) 특정 목적을 위해 선택될 수 있다. 본 명세서에서 사용되는 용어 "임계치"는 분석 과정이 변경될 수 있는 포인트 및/또는 작용이 촉발될 수 있는 포인트를 나타낸다. 임계치는 사전결정된 수일 필요는 없다. 대신에, 임계치는 예를 들어, 복수의 인자를 기초로 한 함수일 수 있다. 임계치는 상황에 적응할 수 있다. 또한, 임계치는 상한치, 하한치, 또는 이러한 한계 사이의 범위를 나타낼 수 있다.

일부 구현예에서, 서열분석 데이터를 기초로 한 메트릭(metric) 또는 스코어는 임계치와 비교될 수 있다. 본 명세서에서 사용되는 용어 "메트릭" 또는 "스코어"는 서열분석 데이터로부터 결정된 값 또는 결과를 포함할 수 있거나, 서열분석 데이터로부터 결정된 값 또는 결과를 기초로 한 함수를 포함할 수 있다. 임계치와 마찬가지로, 메트릭 또는 스코어는 상황에 적응할 수 있다. 예를 들어, 메트릭 또는 스코어는 정규화된 값일 수 있다. 스코어 또는 메트릭의 일례로서, 하나 이상의 구현예는 데이터를 분석할 때 카운트 스코어를 이용할 수 있다. 카운트 스코어는 샘플 판독물의 수를 기초로 할 수 있다. 샘플 판독물은, 샘플 판독물이 적어도 하나의 공통 특징 또는 품질을 갖도록 하나 이상의 필터링 스테이지를 거칠 수 있다. 예를 들어, 카운트 스코어를 결정하기 위해 사용되는 샘플 판독물 각각은 참조 서열과 정렬될 수 있거나, 잠재적인 대립유전자로서 할당될 수 있다. 공통 특징을 갖는 샘플 판독물의 수는 판독물 카운트를 결정하기 위해 계수될 수 있다. 카운트 스코어는 판독물 카운트를 기초로 할 수 있다. 일부 구현예에서, 카운트 스코어는 판독물 카운트와 동일한 값일 수 있다. 다른 구현예에서, 카운트 스코어는 판독물 카운트 및 다른 정보를 기초로 할 수 있다. 예를 들어, 카운트 스코어는 유전자좌의 특정 대립유전자의 판독물 카운트 및 유전자좌에 대한 판독물의 총 수를 기초로 할 수 있다. 일부 구현예에서, 카운트 스코어는 판독물 카운트 및 유전자좌에 대한 사전에 얻어진 데이터를 기초로 할 수 있다. 일부 구현예에서, 카운트 스코어는 사전결정된 값들 사이의 정규화된 스코어일 수 있다. 카운트 스코어는 또한, 샘플의 다른 유전자좌로부터의 판독물 카운트의 함수 또는 관심대상 샘플과 동시에 실행하는 다른 샘플로부터의 판독 카운트의 함수일 수 있다. 예를 들어, 카운트 스코어는 특정 대립유전자의 판독 카운트 및 샘플에서의 다른 유전자좌의 판독 카운트 및/또는 다른 샘플로부터의 판독 카운트의 함수일 수 있다. 일례로서, 다른 유전자좌로부터의 판독 카운트 및/또는 다른 샘플로부터의 판독 카운트는 특정 대립유전자에 대한 카운트 스코어를 정규화시키기 위해 사용될 수 있다.

용어 "범위(coverage)" 또는 "단편 범위(fragment coverage)"는 서열의 동일한 단편에 대한 샘플 판독물의 카운트 또는 수의 다른 척도를 지칭한다. 판독 카운트는 상응하는 단편을 포함하는 판독물의 수의 카운트를 나타낼 수 있다. 대안적으로, 이러한 범위는 역사적 지식, 샘플의 지식, 유전자좌의 지식 등을 기초로 한 명시된 인자에 의해 판독 카운트를 곱함으로써 결정될 수 있다.

용어 "판독 깊이(read depth)"(통상적으로, 숫자 다음에 "×"가 이어짐)는 타깃 위치에서 중첩 정렬을 갖는 서열분석된 판독물의 수를 지칭한다. 이는 종종 한 세트의 간격(예를 들어, 엑손, 유전자, 또는 패널)에 걸쳐 컷오프를 초과하는 평균 또는 백분율로서 표현된다. 예를 들어, 임상 보고서는 패널 평균 범위가 1,105×이고 타깃화된 염기의 98%가 100× 초과를 커버한다고 한다.

용어 "염기 호출 품질 스코어(base call quality score)" 또는 "Q 스코어"는 단일 서열분석된 염기가 정확한 확률에 반비례하여 0 내지 20 범위의 PHRED-스케일 확률을 지칭한다. 예를 들어, 20의 Q를 갖는 T 염기 호출은 0.01의 신뢰도 P-값으로 정확할 것으로 여겨진다. Q<20을 갖는 임의의 염기 호출은 낮은 품질로 여겨져야 하며, 변이체를 지지하는 실질적인 비율의 서열분석된 판독물이 낮은 품질인 것으로 식별된 임의의 변이체는 잠재적으로 거짓 양성으로 여겨져야 한다.

용어 "변이체 리드" 또는 "변이체 리드 번호"는 변이체의 존재를 지지하는 서열분석된 판독물의 수를 지칭한다.

DeepPOLY

본 발명자들은 DeepPOLY, 서열-특정 오류(SSE)를 유발시키는 서열 패턴을 식별하기 위한 심층 학습-기반 프레임워크를 기술한다. 본 시스템 및 공정은 도 1을 참조하여 기술된다. 도 1이 구조적 다이어그램이기 때문에, 특정 세부사항은 설명의 명확성을 개선하기 위해 의도적으로 생략된다. 도 1의 논의는 하기와 같이 구조화된다. 먼저, 도면의 모듈이 도입되며, 이후에, 상호연결된다. 이후에, 모듈의 사용은 보다 상세히 기술된다.

도 1은 시스템(100)을 포함한다. 시스템(100)은 변이체 필터(111)(또한, 본 명세서에서 변이체 필터 서브시스템으로 지칭됨), 입력 준비기(161)(또한, 본 명세서에서 입력 준비 서브시스템으로 지칭됨), 시뮬레이터(116)(또한, 본 명세서에서 시뮬레이션 서브시스템으로 지칭됨), 분석기(194)(또한, 본 명세서에서 분석 서브시스템으로 지칭됨), 반복 패턴 데이터베이스(196), 뉴클레오타이드 서열 데이터베이스(169), 오버레이 샘플 데이터베이스(119), 및 반복 패턴 출력기(198)(또한, 본 명세서에서 반복 패턴 출력 서브시스템으로 지칭됨)를 포함한다.

모듈로서 지정된, 도 1의 처리 엔진 및 데이터베이스는 하드웨어 또는 소프트웨어에서 구현될 수 있고, 도 1에 도시된 것과 정밀하게 동일한 블록에서 분할될 필요는 없다. 일부 모듈은 또한, 상이한 프로세서, 컴퓨터, 또는 서버 상에서 구현되고, 다수의 상이한 프로세서, 컴퓨터, 또는 서버 중에 분산될 수 있다. 또한, 일부 모듈이 달성되는 기능에 영향을 미치지 않으면서, 도 1에 도시된 것과 병행하여 또는 이와는 상이한 순서로 결합, 작동될 수 있는 것으로 인식될 것이다. 도 1에서 모듈은 또한, 방법에서 플로우차트 단계로 생각될 수 있다. 모듈은 또한, 메모리에 연속적으로 배치된 모든 이의 코드를 반드시 가질 필요는 없다. 코드의 일부분은 다른 모듈 또는 이들 사이에 배치된 다른 기능으로부터의 코드를 갖는 모드의 다른 부분과 분리될 수 있다.

환경(100)의 모듈의 상호연결이 기술되어 있다. 네트워크(들)(114)는 처리 엔진 및 데이터베이스를, 모두 서로 소통하게(실선 이중-화살표선으로 표시됨) 결합한다. 실제 소통 경로는 공공 및/또는 사설 네트워크를 통한 포인트-대-포인트일 수 있다. 소통은 다양한 네트워크, 예를 들어, 사설 네트워크, VPN, MPLS 회로, 또는 인터넷을 통해 일어날 수 있고, 적절한 어플리케이션 프로그래밍 인터페이스(application programming interface; API) 및 데이터 인터체인지 포맷, 예를 들어, Representational State Transfer(REST), JavaScript Object Notation(JSON), Extensible Markup Language(XML), Simple Object Access Protocol(SOAP), Java Message Service(JMS), 및/또는 Java Platform Module 시스템을 이용할 수 있다. 모든 소통은 암호화될 수 있다. 소통은 일반적으로, 네트워크, 예를 들어, LAN(local area network), WAN(wide area network), 텔레폰 네트워크(Public Switched Telephone Network(PSTN), Session Initiation Protocol(SIP), 무선 네트워크, 포인트-대-포인트 네트워크, 스타 네트워크, 토큰 링 네트워크(token ring network), 허브 네트워크(hub network), Internet, 모바일 인터넷 포함, EDGE, 3G, 4G LTE, Wi-Fi, 및 WiMAX와 같은 프로토콜을 통함)를 통하여 이루어진다. 추가적으로, 다양한 인가 및 인증 기술, 예를 들어, 사용자명/패스워드, 개방 인가 (OAuth), Kerberos, SecureID, 디지털 인증서 등은 통신을 보호하기 위해 이용될 수 있다.

서열분석 공정

본 명세서에 기술된 구현예는 서열 변이를 식별하도록 핵산 서열을 분석하기 위해 적용 가능할 수 있다. 구현예는 유전자 위치/좌의 잠재적인 변이체/대립유전자를 분석하거나 유전자좌의 유전자형을 결정하거나, 다시 말해서, 유전자좌를 위한 유전자형 호출을 제공하기 위해 사용될 수 있다. 일례로서, 핵산 서열은 미국 특허 출원 공개 제2016/0085910호 및 미국 특허 출원 공개 제2013/0296175호에 기술된 방법 및 시스템에 따라 분석될 수 있으며, 이러한 문헌의 완전한 주제는 전문이 본원 참고로 명확하게 포함된다.

일 구현예에서, 서열분석 공정은 DNA와 같은 핵산을 포함하거나 포함할 것으로 의심되는 샘플을 수용하는 것을 포함한다. 샘플은 공지되거나 미지의 소스, 예를 들어, 동물(예를 들어, 인간), 식물, 박테리아, 또는 진균으로부터 유래할 수 있다. 샘플은 이러한 소스로부터 직접적으로 획득될 수 있다. 예를 들어, 혈액 또는 타액은 개체로부터 직접적으로 획득될 수 있다. 대안적으로, 샘플은 이러한 소스로부터 직접적으로 수득되지 않을 수 있다. 이후에, 하나 이상의 프로세서는 시스템에 서열분석을 위해 샘플을 준비하도록 지시한다. 이러한 준비는 외부 물질을 제거하고/거나 특정 물질(예를 들어, DNA)을 단리시키는 것을 포함할 수 있다. 생물학적 샘플은 특정 검정을 위한 특징을 포함하기 위해 준비될 수 있다. 예를 들어, 생물학적 샘플은 합성에 의한 서열분석(SBS)을 위해 준비될 수 있다. 특정 구현예에서, 이러한 준비는 게놈의 특정 영역의 증폭을 포함할 수 있다. 예를 들어, 이러한 준비는 STR 및/또는 SNP를 포함하는 것으로 알려진 사전결정된 유전자좌를 증폭시키는 것을 포함할 수 있다. 유전자좌는 사전결정된 프라이머 서열을 사용하여 증폭될 수 있다.

다음에, 하나 이상의 프로세서는 시스템에 샘플을 서열분석하도록 지시한다. 서열분석은 다양한 공지된 서열분석 프로토콜을 통해 수행될 수 있다. 특정 구현예에서, 서열분석은 SBS를 포함한다. SBS에서, 복수의 형광-표지된 뉴클레오타이드는 광학 기질의 표면(예를 들어, 플로우 셀에서 채널을 적어도 부분적으로 규정하는 표면) 상에 존재하는 복수의 증폭된 DNA 클러스터(아마도 수 백만개의 클러스터)를 서열분석하기 위해 사용된다. 플로우 셀은 서열분석을 위한 핵산 샘플을 함유할 수 있으며, 여기서, 플로우 셀은 적절한 플로우 셀 홀더 내에 배치된다.

핵산은 이러한 것이 미지의 타깃 서열에 인접한 공지된 프라이머 서열을 포함하도록 제조될 수 있다. 제1 SBS 서열분석 사이클을 개시하기 위하여, 하나 이상의 상이하게 표지된 뉴클레오타이드, 및 DNA 폴리머라제 등은 유체 플로우 서브시스템에 의해 플로우 셀 내/통해 흐를 수 있다. 뉴클레오타이드의 각 단일 타입은 한번에 첨가될 수 있거나, 서열분석 절차에서 사용되는 뉴클레오타이드는 가역적 종결 성질을 지니도록 특별히 설계될 수 있으며, 이에 따라, 여러 타입의 표지된 뉴클레오타이드(예를 들어, A, C, T, G)의 존재 하에서 서열분석 반응의 각 서열분석 반응 사이클을 동시에 일어나게 할 수 있다. 뉴클레오타이드는 형광단과 같은 검출 가능한 표지 모이어티를 포함할 수 있다. 4개의 뉴클레오타이드가 함께 혼합되는 경우에, 폴리머라제는 혼입할 정확한 염기를 선택할 수 있으며, 각 서열은 단일 염기에 의해 연장된다. 혼입되지 않은 뉴클레오타이드는 플로우 셀을 통해 세척 용액을 흘려서 세척될 수 있다. 하나 이상의 층은 핵산을 자극시키고 형광을 유도할 수 있다. 핵산으로부터 방출된 형광은 혼입된 염기의 형관단을 기초로 하며, 상이한 형광단은 상이한 파장의 방출광을 방출할 수 있다. 탈블로킹 시약은 연장되고 검출된 DNA 가닥으로부터 가역적 종결자 기를 제거하기 위해 플로우 셀에 첨가될 수 있다. 탈블로킹 시약은 이후에, 플로우 셀을 통해 세척 용액을 흘려서 세척될 수 있다. 플로우 셀은 이후에, 상기에 기술된 바와 가티 표지된 뉴클레오타이드의 도입으로 출발하여 추가 서열분석 사이클을 위해 준비되어 있다. 유체 및 검출 작업은 서열분석 실행을 완료하기 위해 여러 번 반복될 수 있다. 예시적인 서열분석 방법은 예를 들어, 문헌[Bentley et al., Nature 456:53-59 (2008), 국제공개 WO 04/018497호; 미국특허 제7,057,026호; 국제공개 WO 91/06678호; 국제공개 WO 07/123744호; 미국특허 제7,329,492호; 미국특허 제7,211,414호; 미국특허 제7,315,019호; 미국특허 제7,405,281호, 및 미국 특허 출원 공개 제2008/0108082호]에 기술되어 있으며, 이러한 문헌 각각은 본 명세서에 참고로 포함된다.

일부 구현예에서, 핵산은 표면에 부착되고 서열분석 이전에 또는 동안에 증폭될 수 있다. 예를 들어, 증폭은 표면 상에 핵산 클러스터를 형성하기 위해 브리지 증폭을 이용하여 수행될 수 있다. 유용한 브리지 증폭 방법은 예를 들어, 미국특허 제5,641,658호; 미국 특허 출원 공개 제2002/0055100호; 미국특허 제7,115,400호; 미국 특허 출원 공개 제2004/0096853호; 미국 특허 출원 공개 제2004/0002090호; 미국 특허 출원 공개 제2007/0128624호; 및 미국 특허 출원 공개 제2008/0009420호에 기술되어 있으며, 이러한 문헌 각각은 전문이 본 명세서에 참고로 포함된다. 표면 상에 핵산을 증폭하기 위한 다른 유용한 방법은 예를 들어, 문헌[Lizardi et al., Nat. Genet. 19:225-232 (1998) 및 미국 특허 출원 공개 제2007/0099208 A1호]에 기술된 바와 같이 회전환 증폭(rolling circle amplification; RCA)이며, 이러한 문헌 각각은 본 명세서에 참고로 포함된다.

SBS 프로토콜의 하나의 예는 예를 들어, 국제공개 WO 04/018497호, 미국 특허 출원 공개 제2007/0166705 A1호, 및 미국특허 제7,057,026호에 기술된 바와 같이, 제거 가능한 3' 블록을 갖는 변형된 뉴클레오타이드를 이용하며, 이러한 문헌 각각은 본 명세서에 참고로 포함된다. 예를 들어, SBS 시약의 반복된 사이클은 예를 들어, 브리지 증폭 프로토콜의 결과로서, 타깃 핵산이 부착된 플로우 셀로 전달될 수 있다. 핵산 클러스터는 선형화 용액을 사용하여 단일 가닥 형태로 전환될 수 있다. 선형화 용액은 예를 들어, 각 클러스터의 하나의 가닥을 분열시킬 수 있는 제한 엔도뉴클레아제를 함유할 수 있다. 다른 분열 방법은 그 중에서도, 화학적 분열(예를 들어, 과요오드산염으로의 디올 연결의 분열), 열 또는 알칼리에 대한 노출에 의한, 엔도뉴클레아제로의 분열에 의한 무염기 부위의 분열(예를 들어, NEB(Ipswich, Mass., USA)에 의해 공급된 바와 같은, 'USER", 파트 번호 M5505S), 달리 데옥시리보뉴클레오타이드를 포함하는 증폭 산물 내에 혼입된 리보뉴클레오타이드의 분열, 광화학적 분열 또는 펩타이드 링커의 분열을 포함하는, 제한 효소 또는 절단 효소에 대한 대안으로서 사용될 수 있다. 선형화 작업 후에, 서열분석 프라이머는 서열분석되는 타깃 핵산에 서열분석 프라이머의 혼성화를 위한 조건 하에서 플로우 셀에 전달될 수 있다.

이후에, 플로우 셀은 단일 뉴클레오타이드 첨가에 의해 각 타깃 핵산에 혼성화된 프라이머를 연장시키는 조건 하에서 제거 가능한 3' 블록 및 형광 표지와 함께 개질된 뉴클레오타이드를 갖는 SBS 연장 시약과 접촉될 수 있다. 단지 단일 뉴클레오타이드는, 개질된 뉴클레오타이드가 서열분석되는 주형의 영역에 대해 상보적인 성장하는 폴리뉴클레오타이드 사슬 내에 혼입된 직후에, 추가 서열 연장을 유도하기 위해 이용 가능한 자유 3'-OH 기가 존재하지 않기 때문에 각 프라이머에 첨가되며, 이에 따라, 폴리머라제는 추가 뉴클레오타이드를 첨가할 수 없다. SBS 연장 시약은 제거되고, 방사선으로의 여기 하에서 샘플을 보호하는 성분들을 함유한 스캔 시약으로 대체될 수 있다. 스캔 시약의 예시적 성분들은 미국 특허 출원 공개 제2008/0280773 A1호 및 미국 특허 출원 제13/018,255호에 기술되어 있으며, 이들 각각은 본 명세서에 참고로 포함된다. 이후에, 연장된 핵산은 스캔 시약의 존재 하에서 형광 검출될 수 있다. 형광이 검출된 직후에, 3' 블록은 사용되는 블로킹 기에 적절한 탈블록 시약을 사용하여 제거될 수 있다. 개개 블로킹 기를 위해 유용한 예시적인 탈블록 시약은 WO004018497호, US 2007/0166705A1호 및 미국특허 제7,057,026호에 기술되어 있으며, 이들 각각은 본 명세서에 참고로 포함된다. 탈블록 시약은 세척되어 추가 뉴클레오타이드의 첨가를 위해 적절한 3'-OH를 갖는 연장된 프라이머에 혼성화되는 타깃 핵산을 남길 수 있다. 이에 따라, 작업들 중 하나 이상 사이에서 선택적인 세척과 함께, 연장 시약, 스캔 시약, 및 탈블록 시약을 첨가하는 사이클은 요망되는 서열이 얻어질 때까지 반복될 수 있다. 상기 사이클은, 개질된 뉴클레오타이드 각각이 특정 염기에 상응하는 것으로 알려진, 여기에 부착된 상이한 표지를 가질 때, 사이클 당 단일 연장 시약 전달 작업을 이용하여 수행될 수 있다. 상이한 표지는 각 혼입 작업 동안 첨가되는 뉴클레오타이드들 간의 구별을 용이하게 한다. 대안적으로, 각 사이클은 확장 시약 전달의 별개의 작업, 이후, 스캔 시약 전달 및 검출의 별개의 작업을 포함할 수 있으며, 이러한 경우에, 뉴클레오타이드들 중 둘 이상은 동일한 표지를 가질 수 있고, 공지된 전달 순서를 기초로 하여 구별될 수 있다.

서열분석 작업이 특정 SBS 프로토콜과 관련하여 상기에서 논의되었지만, 임의의 다양한 다른 분자 분석을 서열분석하기 위한 다른 프로토콜이 요망되는 경우에 수행될 수 있는 것으로 이해될 것이다.

이후에, 시스템의 하나 이상의 프로세서는 후속 분석을 위한 서열분석 데이터를 수신한다. 서열분석 데이터는 다양한 방식, 예를 들어, .BAM 파일로 포맷화될 수 있다. 서열분석 데이터는 예를 들어, 다수의 샘플 판독물을 포함할 수 있다. 서열분석 데이터는 뉴클레오타이드의 상응하는 샘플 서열을 갖는 복수의 샘플 판독물을 포함할 수 있다. 단지 하나의 샘플 판독물이 논의되지만, 서열분석 데이터가 예를 들어, 수백, 수천, 수십만, 또는 수백만의 샘플 판독물을 포함할 수 있다. 상이한 샘플 판독물은 상이한 수의 뉴클레오타이드를 가질 수 있다. 예를 들어, 샘플 판독물은 10개의 뉴클레오타이드 내지 약 500개의 뉴클레오타이드 또는 그 이상의 범위일 수 있다. 샘플 판독물은 소스(들)의 전체 게놈에 걸쳐 있을 수 있다. 일례로서, 샘플 판독물은 사전결정된 유전자좌, 예를 들어, 의심되는 STR 또는 의심되는 SNP를 갖는 그러한 유전자좌 쪽으로 유도된다.

각 샘플 판독물은 뉴클레오타이드의 서열을 포함할 수 있으며, 이는 샘플 서열, 샘플 단편 또는 타깃 서열로서 지칭될 수 있다. 샘플 서열은 예를 들어, 프라이머 서열, 플랭킹 서열, 및 타깃 서열을 포함할 수 있다. 샘플 서열 내의 뉴클레오타이드의 수는 30, 40, 50, 60, 70, 80, 90, 100 또는 그 이상을 포함할 수 있다. 일부 구현예에서, 하나 이상의 샘프르 리드(또는 샘플 서열)는 적어도 150개의 뉴클레오타이드, 200개의 뉴클레오타이드, 300개의 뉴클레오타이드, 400개의 뉴클레오타이드, 500개의 뉴클레오타이드, 또는 그 이상을 포함한다. 일부 구현예에서, 샘플 판독물은 1000개 초과의 뉴클레오타이드, 2000개의 뉴클레오타이드, 또는 그 이상을 포함할 수 있다. 샘플 리드(또는 샘플 서열)는 하나의 단부 또는 두 단부 모두에서 프라이머 서열을 포함할 수 있다.

다음에, 하나 이상의 프로세서는 잠재적인 변이체 호출(들) 및 샘플 변이체 호출(들)의 샘플 변이체 빈도를 얻기 위해 서열분석 데이터를 분석한다. 이러한 작업은 또한, 변이체 호출 어플리케이션 또는 변이체 호출기(variant caller)로서 지칭될 수 있다. 이에 따라, 변이체 호출기는 변이체를 식별하거나 검출하며, 변이체 분류기는 검출된 변이체를 체세포 또는 생식세포로서 분류한다. 대안적인 변이체 호출기는 본원의 구현예에 따라 이용될 수 있으며, 여기서, 상이한 변이체 호출기는 수행되는 서열분석 작업의 타입, 관심대상 샘플의 특징 등을 기초로 하여 이용될 수 있다. 변이체 호출 어플리케이션의 하나의 비제한적인 예에는 예를 들어, https://github.com/Illumina/Pisces에서 호스팅되고 문헌[Dunn, Tamsen & Berry, Gwenn & Emig-Agius, Dorothea & Jiang, Yu & Iyer, Anita & Udar, Nitin & Stromberg, Michael. (2017). Pisces: An Accurate and Versatile Single Sample Somatic and Germline Variant Caller. 595-595. 10.1145/3107411.3108203]에 기술된 일루미나사(Illumina Inc.)(캘리포니아주 샌디에고 소재)에 의한 Pisces™ 어플리케이션이 있으며, 이러한 문헌의 전체 주제는 전문이 본 명세서에 참고로 명확하게 포함된다.

이러한 변이체 호출 어플리케이션은 4개의 순차적으로 실행되는 모듈을 포함할 수 있다:

(1) Pisces 리드 스티처(Read Stitcher): BAM에서 페어드 판독물을 공통 리드 내에 스티칭함으로써 노이즈를 감소시킨다(동일한 분자의 리드 1 및 리드 2). 출력은 스티치 BAM이다.

(2) Pisces 변이체 호출기: 작은 SNV 호출, 삽입 및 결실. Pisces는 리드 경계, 기본 필터링 알고리즘, 및 단순 Poisson-기반 변이체 신뢰도-스코어링 알고리즘에 의해 붕괴된 변이체를 합착시키기 위한 변이체-붕괴 알고리즘을 포함한다. 출력은 VCF이다.

(3) Pisces 변이체 품질 재교정기(Variant Quality Recalibrator: VQR): 변이체 호출이 압도적으로 열적 손상 또는 FFPE 탈아민화와 관련된 패턴으로 이어지는 경우에, VQR 스텝은 의심되는 변이체 호출의 변이 Q 스코어를 다운그레이딩할 것이다. 출력은 조정된 VCF이다.

(4) Pisces 변이체 페이저(Variant Phaser)(Scylla): 클론 하위집단으로부터의 복잡한 대립유전자 내에 작은 변이체를 조립하기 위한 리드-배킹 그리디 클러스터링 방법(read-backed greedy clustering method)을 이용한다. 이는 다운스트림 툴에 의한 기능적 결과의 더욱 정확한 결정을 가능하게 한다. 출력은 조정된 VCF이다.

추가적으로 또는 대안적으로, 작업은 https://github.com/Illumina/strelka에서 호스팅되고 문헌[T Saunders, Christopher & Wong, Wendy & Swamy, Sajani & Becq, Jennifer & J Murray, Lisa & Cheetham, Keira. (2012). Strelka: Accurate somatic small-variant calling from sequenced tumor-normal sample pairs. Bioinformatics (Oxford, England). 28. 1811-7. 10.1093/bioinformatics/bts271]에 기술된 일루미나사에 의한 변이체 호출 어플리케이션 Strelka™ 어플리케이션을 이용할 수 있으며, 이러한 문헌의 모든 주제는 전문이 본 명세서에 참고로 포함된다. 또한, 추가적으로 또는 대안적으로, 작업은 https://github.com/Illumina/strelka에서 호스팅되고 문헌[Kim, S., Scheffler, K., Halpern, A.L., Bekritsky, M.A., Noh, E., Kaellberg, M., Chen, X., Beyter, D., Krusche, P., and Saunders, C.T. (2017). Strelka2: Fast and accurate variant calling for clinical sequencing applications]에 기술된 일루미나사에 의한 변이체 호출 어플리케이션 Strelka2™ 어플리케이션을 이용하며, 이러한 문헌의 전체 주제는 전문이 본 명세서에 참고로 명확하게 포함된다. 또한, 추가적으로 또는 대안적으로, 작업은 변이체 주석/호출 툴, 예를 들어, https://github.com/Illumina/Nirvana/wiki에서 호스팅되고 문헌[Stromberg, Michael & Roy, Rajat & Lajugie, Julien & Jiang, Yu & Li, Haochen & Margulies, Elliott. (2017). Nirvana: Clinical Grade Variant Annotator. 596-596. 10.1145/3107411.3108204]에 기술된 일루미나사에 의한 Nirvana™ 어플리케이션을 이용할 수 있으며, 이러한 문헌의 전체 주제는 전문이 본 명세서에 참고로 명확하게 포함된다.

이러한 변이체 주석/호출 툴은 상이한 알고리즘 기술, 예를 들어, Nirvana에 개시된 것을 적용할 수 있다:

a. 간격 어레이로 모든 중첩 트랜스크립트를 식별함: 기능적 주석을 위하여, 본 발명자들은 변이체를 중첩시키는 모든 트랜스크립트를 식별할 수 있으며, 인터벌 트리(interval tree)가 사용될 수 있다. 그러나, 한 세트의 인터벌이 고정될 수 있기 대문에, 본 발명자들은 인터벌 어레이에 이를 추가로 최적화할 수 있다. 인터벌 트리는 O(min(n,k lg n)) 시간에 모든 중첩 트랜스크립트를 되돌아오게 하고, 여기서, n은 트리에서 인터벌의 수이며, k는 중첩 인터벌의 수이다. 실제로, k가 대부분의 변이체에 대해 n과 비교하여 실제 작기 때문에, 인터벌 트리에서 유효 런타임은 O(k lg n)일 것이다. 본 발명자들은, 제1 중첩 인터벌을 확인하고 잔류하는 (k-1)을 통해 열거하도록, 모든 인터벌이 분류된 어레이에 저장된 인터벌 어레이를 생성시킴으로써 O(lg+k)로 개선시켰다.

b. CNV/SV(Yu): 카피 수 변이 및 구조적 변이체에 대한 주석이 제공될 수 있다. 작은 변이의 주석과 유사하게, SV 및 또한 이전에 보고된 구조적 변이체와 중첩하는 트랜스크립트는 온라인 데이터베이스에서 주석을 달 수 있다. 작은 변이체와는 달리, 너무 많은 트랜스크립트가 큰 SV로 중첩될 것이기 때문에, 모두 중첩하지 않은 트랜스크립트는 주석을 달 필요가 없다. 대신에, 모든 중첩된 트랜스크립트는 부분 중첩 유전자에 속하는 것으로 주석을 달 수 있다. 상세하게, 이러한 트랜스크립트의 경우에, 구조적 변이체에 의해 유발된 영향을 받은 인트론, 엑손 및 결과가 보고될 수 있다. 모든 중첩하는 트랜스크립트를 출력하기 위한 옵션이 이용 가능하지만, 이러한 트랜스크립트에 대한 기본 정보, 예를 들어, 유전자 기호, 기본 중첩(canonical overlap) 또는 트랜스크립트와 일부 중첩이 존재하지의 플래그가 보고될 수 있다. 각 SV/CNV에 대하여, 또한, 이러한 변이체가 연구되었는지 그리고 상이한 집단에서의 이의 빈도를 아는 것이 관심대상이다. 이에 따라, 본 발명자들은 외부 데이터베이스, 예를 들어, 1000 게놈, DGV 및 ClinGen에서 중첩하는 SV를 보고하였다. SV가 중첩되는지를 결정하기 위해 임의의 컷오프를 이용하는 것을 피하기 위해, 대신에 모든 중첩하는 트랜스크립트가 사용될 수 있으며, 상호 중첩이 계산될 수 있으며, 즉, 이러한 2개의 SV 길이의 최소값으로 나누어진 중첩 길이가 계산될 수 있다.

c. 리포팅 보충 주석: 보충 주석은 2가지 타입을 갖는다: 즉, 작은 구조적 변이체(SV). SV는 중첩하는 SV를 식별하기 위해 인터벌로서 모델링되고 상기에 논의된 인터벌 어레이를 사용할 수 있다. 작은 변이체는 포인트로서 모델링되고, 위치 및 (선택적으로) 대립유전자에 의해 매칭된다. 이와 같이, 이러한 것은 이진-검색-형 알고리즘을 이용하여 검색된다. 보충 주석 데이터베이스가 매우 클 수 있기 때문에, 보충 주석이 존재하는 파일 위치에 염색체 위치를 맵핑하기 위해 훨씬 더 작은 인덱스가 생성된다. 인덱스는 위치를 이용하여 이진 검색될 수 있는 객체의 분류된 어레이(염색체 위치 및 파일 위치로 구성됨)이다. 인덱스 크기를 작게 유지하기 위하여, 다수의 위치(최대 특정 최대 타깃)는 제1 위치에 대한 값 및 후속 위치에 대한 델타(delta)만을 저장하는 하나의 객체로 압축된다. 본 발명자가 이진 검색을 사용하기 때문에, 런타임은 O(lg n)이며, 여기서, n은 데이터베이스에서 항목의 수이다.

d. VEP 캐시 파일

e. 트랜스크립트 데이터베이스: 트랜스크립트 캐시(Transcript Cache)(cache) 및 보충 데이터베이스(SAdb) 파일은 트랜스크립트 및 보충 주석과 같은 데이터 객체의 직렬화된 덤프이다. 본 발명자들은 캐시를 위한 본 발명자의 데이터 소스로서 Ensembl VEP 캐시를 사용한다. 캐시를 생성하기 위해, 모든 트랜스크립트는 인터벌 어레이(interval array)에 삽입되며, 어레이의 최종 상태는 캐시 파일에 저장된다. 이에 따라, 주석 동안, 본 발명자들은 사전-계산된 인터벌 어레이를 로딩하고 여기에 검색을 수행해야 한다. 캐시가 메모리에 로딩되고 검색이 매우 빠르기 때문에(전술됨), Nirvana에서 중첩된 트랜스크립트의 확인이 매우 빠르다(총 런타임의 1% 미만으로 프로파일링됨).

f. 보충 데이터베이스: SAdb에 대한 데이터 소스는 보충 자료 아래에 나열된다. 작은 변이체에 대한 SAdb는, 데이터베이스(참조 이름 및 위치에 의해 식별됨)에서 각 대상이 모든 관련된 보충 주석을 보유하도록 모든 데이터 소스의 k-웨이 병합에 의해 생성된다. 데이터 소스의 분석 동안 발생하는 문제는 Nirvana의 홈페이지에 상세히 설명되었다. 메모리 사용을 제한하기 위해, 단지 SA 인덱스만이 메모리에 로딩된다. 이러한 인덱스는 보충 주석에 대한 파일 위치를 빠르게 찾을 수 있다. 그러나, 데이터가 디스크로부터 가져오기 때문에, 보충 주석의 첨가는 Nirvana의 최대 병목 현상으로서 확인되었다(총 런타임의 약 30%로 프로파일링됨).

g. 결과 및 서열 온톨로지: Nirvana의 기능적 주석(제공될 때)은 서열 온톨로지(SO)(http://www.sequenceontology.org/) 가이드라인을 따른다. 결과적으로, 본 발명자들은 현 SO에서의 문제를 식별하고 주석 상태를 개선시키기 위해 SO 팀과 협력할 기회를 갖는다.

이러한 변이체 주석 툴은 사전-처리를 포함할 수 있다. 예를 들어, Nirvana는 ExAC, EVS, 1000 게놈 프로젝트, dbSNP, ClinVar, Cosmic, DGV 및 ClinGen과 같은, 외부 데이터 소스로부터 다수의 주석을 포함하였다. 이러한 데이터베이스의 최대한 활용하기 위하여, 본 발명자들은 이러한 것으로부터 정보를 제거해야 한다. 본 발명자들은 상이한 데이터 소스로부터 존재하는 상이한 충돌을 처리하기 위해 상이한 전략을 구현하였다. 예를 들어, 동일한 위치에 대한 다수의 dbSNP 및 대체 대립유전자의 경우에, 본 발명자들은 모든 id를 id의 콤마(comma) 구분된 리스트로 결합시키며, 동일한 대립유전자에 대하여 상이한 CAF 값을 갖는 다수의 엔트리가 존재하는 경우에, 본 발명자들은 제1 CAF 값을 이용한다. 충돌하는 ExAC 및 EVS 엔트리의 경우에, 본 발명자들은 샘플 카운트의 수를 고려하며, 더 높은 샘플 카운트를 갖는 엔트리가 사용된다. 1000 게놈 프로젝트에서, 본 발명자들은 충돌하는 대립유전자의 대립유전자 빈도를 제거하였다. 다른 무제는 부정확한 정보이다. 본 발명자들은 주로 1000 게놈 프로젝트로부터 대립유전자 빈도 정보를 추출하였지만, 본 발명자들은, GRCh38에 대하여, info 필드에 보고된 대립유전자 빈도가 입수 가능하지 않은 유전자형을 갖는 샘플을 배제하지 않아서, 모든 샘플에 대해 입수 가능하지 않은 변이체에 대한 빈도 저하를 초래한다는 것을 주지하였다. 본 발명자의 주석의 정확성을 보장하기 위해, 본 발명자들은 참 대립유전자 빈도를 계산하기 위해 모든 개별 수준 유전자형을 사용한다. 알려진 바와 같이, 동일한 변이체는 상이한 정렬을 기초로 하여 상이한 표현을 가질 수 있다. 본 발명자가 이미 식별된 변이체에 대한 정보를 정확하게 보고할 수 있도록 하기 위해, 본 발명자들은 이러한 것들을 일관된 표현을 갖도록 만들기 위해 상이한 자원으로부터 변이체를 사전처리하여야 한다. 모든 외부 데이터 소스에 대하여, 본 발명자들은 참조 대립유전자 및 대안적인 대립유전자 둘 모두에서 중복된 뉴클레오타이드를 제거하기 위해 대립유전자를 잘라낸다. ClinVar에 대하여, 본 발명자들은 모든 변이체에 대해 5-프라임 정렬을 수행한 xml 파일을 직접 분석하는데, 이는 종종 vcf 파일로 사용된다. 상이한 데이터베이스는 동일한 세트의 정보를 함유할 수 있다. 불필요한 중복을 피하기 위해, 본 발명자들은 일부 중복된 정보를 제거하였다. 예를 들어, 본 발명자들은 더욱 상세한 정보와 함께 1000개의 게놈에서 이러한 변이체를 이미 보고하였기 때문에, 1000 게놈 프로젝트로서의 데이터 소스를 갖는 DGV에서 변이체를 제거하였다.

적어도 일부 구현예에 따르면, 변이체 호출 어플리케이션은 저 빈도 변이체에 대한 호출, 생식선 호출(germline calling) 등을 제공한다. 비제한적인 예로서, 변이체 호출 어플리케이션은 종양-전용 샘플 및/또는 종양-일반 페어드 샘플 상에서 실행할 수 있다. 변이체 호출 어플리케이션은 단일 뉴클레오타이드 변이(single nucleotide variation: SNV), 다중 뉴클레오타이드 변이(multiple nucleotide variation: MNV), 인델 등에 대해 조사할 수 있다. 변이체 호출 어플리케이션은 변이체를 식별하며, 서열분석 또는 샘플 준비 오류로 인한 미스매칭에 대해 필터링한다. 각 변이체에 대하여, 변이체 호출기는 참조 서열, 변이체의 위치, 및 잠재적인 변이체 서열(들)(예를 들어, A 내지 C SNV, 또는 AG 내지 A 결실)을 식별한다. 변이체 호출 어플리케이션은 샘플 서열(또는 샘플 단편), 참조 서열/단편, 및 변이가 존재하는 지의 표시로서 변이체 호출을 식별한다. 변이체 호출 어플리케이션은 미가공 단편을 식별하고, 미가공 단편의 지정, 잠재적인 변이체 호출을 입증하는 미가공 단편 수의 카운트, 지지 변이체가 일어나는 미가공 단편 내의 위치, 및 다른 관련 정보를 출력할 수 있다. 미가공 단편의 비제한적인 예는 듀플렉스 스티치 단편, 심플렉스 스티치 단편, 듀플렉스 비-스티치 단편, 및 심플렉스 비-스티치 단편을 포함한다.

변이체 호출 어플리케이션은 다양한 포맷, 예를 들어, .VCF 또는 .GVCF 파일로 호출을 출력할 수 있다. 단지 일례로서, 변이체 호출 어플리케이션은 MiSeqReporter 파이프라인(예를 들어, MiSeq^® 시퀀서 기기에서 구현될 때)에 포함될 수 있다. 선택적으로, 어플리케이션은 다양한 작업흐름으로 구현될 수 있다. 분석은 요망되는 정보를 얻기 위한 지정된 방식으로 샘플 판독물을 분석하는 단일 프로토콜 또는 프로토콜들의 조합을 포함할 수 있다.

이후에, 하나 이상의 프로세서는 잠재적인 변이체 호출과 관련하여 검증 작업을 수행한다. 검증 작업은 하기에서 설명되는 바와 같이, 품질 스코어, 및/또는 티어드 시험(tiered test)의 계층을 기초로 할 수 있다. 검증 작업이 그러한 잠재적인 변이체 호출을 인증하거나 검증할 때, 검증 작업은 변이체 호출 정보(변이체 호출 어플리케이션으로부터의)를 샘플 보고서 생성기로 전달한다. 대안적으로, 검증 작업이 잠재적인 변이체 호출을 무효화하거나 실격시킬 때, 검증 작업은 상응하는 표시(예를 들어, 네가티브 표시기, 무 호출 표시기, 유효하지 않은 호출 표시기)를 샘플 보고서 생성기로 전달한다. 검증 작업은 또한, 변이체 호출이 정확하거나 유효하지 않은 호출 지정이 정확한 신뢰도와 관련된 신뢰도 스코어를 전달할 수 있다.

다음에, 하나 이상의 프로세서는 샘플 보고서를 생성하고 저장한다. 샘플 보고서는 예를 들어, 샘플에 관한 복수의 유전자좌에 관한 정보를 포함할 수 있다. 예를 들어, 사전결정된 세트의 유전자좌의 각 유전자좌에 대해, 샘플 보고서는 적어도, 유전자형 호출을 제공하거나, 유전자형 호출이 만들어질 수 없음을 명시하거나; 유전자형 호출의 확실성에 대한 신뢰도 스코어를 제공하거나; 하나 이상의 유전자좌에 관한 검정이 갖는 잠재적인 문제를 명시할 수 있다. 샘플 보고서는 또한, 샘플을 제공한 개체의 성별을 명시하고/거나 샘플이 다수의 소스를 포함함을 명시할 수 있다. 본 명세서에서 사용되는 "샘플 보고서"는 유전자좌 또는 사전결정된 유전자좌 세트의 디지털 데이터(예를 들어, 데이터 파일) 및/또는 유전자좌 또는 유전자좌 세트의 프린팅된 보고서를 포함할 수 있다. 이에 따라, 생성 또는 제공은 데이터 파일을 생성시키고/거나 샘플 보고서를 프린팅하거나, 샘플 보고서를 디스플레이하는 것을 포함할 수 있다.

샘플 보고서는 변이체 호출이 결정되었지만 검증되지 않았음을 나타낼 수 있다. 변이체 호출이 유효하지 않는 것으로 결정될 때, 샘플 보고서는 변이체 호출을 검증하지 않은 결정의 근거에 관한 추가적인 정보를 명시할 수 있다. 예를 들어, 보고서에서 추가적인 정보는 미가공 단편의 설명 및 미가공 단편이 변이체 호출을 지지하거나 부인하는 정도(예를 들어, 카운트)를 포함할 수 있다. 추가적으로 또는 대안적으로, 보고서에서 추가적인 정보는 본 명세서에 기술된 구현예에 따라 얻어진 품질 스코어를 포함할 수 있다.

변이체 호출 어플리케이션

본 명세서에 개시된 구현예는 잠재적인 변이체 호출을 식별하기 위해 서열분석 데이터를 분석하는 것을 포함한다. 변이체 호출은 사전에 수행된 서열분석 작업을 위해 저장된 데이터에 대해 수행될 수 있다. 추가적으로 또는 대안적으로, 이는 서열분석 작업이 수행되는 동안 실시간으로 수행될 수 있다. 샘플 판독물 각각은 상응하는 유전자좌에 할당된다. 샘플 판독물은 샘플 판독물의 뉴클레오타이드의 서열, 또는 다시 말해서, 샘플 판독물 내의 뉴클레오타이드(예를 들어, A, C, G, T)의 순서를 기초로 하여 상응하는 유전자좌에 할당될 수 있다. 이러한 분석을 기초로 하여, 샘플 판독물은 특정 유전자좌의 가능한 변이체/대립유전자를 포함하는 것으로 지정될 수 있다. 샘플 판독물은 유전자좌의 가능한 변이체/대립유전자를 포함하는 것으로서 지정된 다른 샘플 판독물와 함께 수집(또는 응집 또는 제거)될 수 있다. 할당 작업은 또한, 호출 작업으로서 지칭될 수 있으며, 여기서, 샘플 판독물은 특정 유전자 위치/좌와 가능하게 관련된 것으로서 식별된다. 샘플 판독물은 다른 샘플 판독물과 샘플 판독물을 구별하는 뉴클레오타이드의 하나 이상의 식별 서열(예를 들어, 프라이머 서열)을 위치시키기 위해 분석될 수 있다. 더욱 상세하게, 식별 서열(들)은 특정 유전자좌와 관련이 있는 것으로서 샘플 판독물로부터 샘플 판독물을 식별할 수 있다.

할당 작업은 식별 서열의 n개 뉴클레오타이드의 시리즈가 선택 서열들 중 하나 이상과 효과적으로 매칭되는지를 결정하기 위해 식별 서열의 n개 뉴클레오타이드의 시리즈를 분석하는 것을 포함할 수 있다. 특정 구현예에서, 할당 작업은 샘플 서열의 제1의 n개 뉴클레오타이드가 선택 서열들 중 하나 이상과 효과적으로 매칭되는지를 결정하기 위해 샘플 서열의 제1의 n개 뉴클레오타이드를 분석하는 것을 포함할 수 있다. 숫자 n은 다양한 값을 가질 수 있는데, 이는 프로토콜 내에 프로그래밍되거나 사용자에 의해 입력될 수 있다. 예를 들어, 숫자 n은 데이터베이스 내에서 가장 짧은 선택 서열의 뉴클레오타이드의 수로서 규정될 수 있다. 숫자 n은 사전결정된 숫자일 수 있다. 사전결정된 숫자는 예를 들어, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 또는 30 뉴클레오타이드일 수 있다. 그러나, 더 적은 또는 더 많은 뉴클레오타이드가 다른 구현예에서 사용될 수 있다. 숫자 n은 또한, 개인, 예를 들어, 시스템의 사용자에 의해 선택될 수 있다. 숫자 n은 하나 이상의 조건을 기초로 할 수 있다. 예를 들어, 숫자 n은 데이터베이스 내에서 가장 짧은 프라이머 서열의 뉴클레오타이드의 수, 또는 지정된 숫자, 더 작은 숫자로서 규정될 수 있다. 일부 구현예에서, n에 대한 최소 값이 사용될 수 있고, 예를 들어, 15개 미만의 뉴클레오타이드인 임의의 프라이머 서열이 예외로서 지정될 수 있도록, 15가 사용될 수 있다.

일부 경우에, 식별 서열의 n 뉴클레오타이드의 시리즈는 선택 서열의 뉴클레오타이드를 정밀하게 매칭시키지 못할 수 있다. 그럼에도 불구하고, 식별 서열은 식별 서열이 선택 서열과 거의 동일한 경우 선택 서열을 효과적으로 매칭시킬 수 있다. 예를 들어, 샘플 판독물은 식별 서열의 n 뉴클레오타이드의 시리즈(예를 들어, 제1 n 뉴클레오타이드)가 지정된 수의 미스매칭(예를 들어, 3), 및/또는 지정된 수의 이동(예를 들어 2)를 초과하지 않게 선택 서열을 매칭시키는 경우에 유전자좌에 대해 호출될 수 있다. 이러한 미스매칭 또는 이동이 샘플 판독물과 프라이머 서열 간의 차이로서 계수될 수 있도록 규칙이 확립될 수 있다. 차이의 수가 지정된 수 미만인 경우에, 샘플 판독물은 상응하는 유전자좌에 대해 호출될 수 있다(즉, 상응하는 유전자좌에 할당될 수 있다). 일부 구현예에서, 샘플 판독물의 식별 서열과 유전자좌와 관련된 선택 서열 간의 차이의 수를 기초로 하여 매칭 스코어가 결정될 수 있다. 매칭 스코어가 지정된 매칭 임계치를 통과하는 경우에, 선택 서열에 해당하는 유전자좌는 샘플 판독물에 대한 가능한 좌로서 지정될 수 있다. 일부 구현예에서, 샘플 판독물이 유전자좌를 필요로 하는지의 여부를 결정하기 위해 후속 분석이 수행될 수 있다.

샘플 판독물이 데이터베이스에서 선택 서열들 중 하나와 효과적으로 매칭되는 경우(즉, 전술된 바와 같이 정확하게 매칭되거나 거의 매칭되는 경우), 샘플 판독물은 선택 서열과 연관성이 있는 유전자좌에 할당되거나 지정된다. 이는 유전자좌 호출(locus calling) 또는 임시적-유전자좌 호출(provisional-locus calling)으로서 지칭될 수 있으며, 여기서, 샘플 판독물은 선택 서열과 연관성이 있는 유전자좌를 필요로 한다. 그러나, 상기에서 논의된 바와 같이, 샘플 판독물은 하나 초과의 유전자좌를 필요로 할 수 있다. 이러한 구현예에서, 추가 분석은 잠재적인 유전자좌의 단 하나에 대한 샘플 판독물을 호출하거나 할당하기 위해 수행될 수 있다. 일부 구현예에서, 참조 서열의 데이터베이스와 비교한 샘플 판독물은 페어드-엔드 서열분석으로부터의 제1 판독물이다. 페어드-엔드 서열분석을 수행할 때, 샘플 판독물과 연관성이 있는 제2 판독물(열 단편을 나타냄)이 얻어진다. 할당 후에, 할당된 판독물로 수행된 후속 분석은 할당된 판독물을 필요로 하는 유전자좌의 타입을 기초로 할 수 있다.

다음에, 샘플 판독물은 잠재적인 변이체 호출을 식별하기 위해 분석된다. 다른 것들 중에서, 분석 결과는 잠재적인 변이체 호출, 샘플 변이체 빈도, 참조 서열 및 변이체가 존재하는 관심대상 게놈 서열 내의 위치를 식별한다. 예를 들어, SNP를 포함하기 위한 유전자좌가 알려진 경우에, 유전자좌를 필요로 한 할당된 판독물은 할당된 판독물의 SNP를 식별하기 위해 분석될 수 있다. 유전자좌가 다형성 반복 DNA 구성요소를 포함하는 것으로 알려진 경우에, 할당된 판독물은 샘플 판독물 내의 다형성 반복 DNA 구성요소를 식별하거나 특성화하기 위해 분석될 수 있다. 일부 구현예에서, 할당된 판독물이 STR 좌 및 SNP 좌와 효과적으로 매칭되는 경우에, 경고(warning) 또는 플래그(flag)가 샘플 판독물에 할당될 수 있다. 샘플 판독물은 STR 좌 및 SNP 좌 둘 모두로서 지정될 수 있다. 분석은 할당된 판독물의 서열 및/또는 길이를 결정하기 위해 정렬 프로토콜에 따라 할당된 판독물을 정렬하는 것을 포함할 수 있다. 정렬 프로토콜은 2013년 3월 15일에 출원된 국제 특허 출원 PCT/US2013/030867호(공개번호 WO 2014/142831호)에 기술된 방법을 포함할 수 있으며, 이러한 문헌은 전문이 본 명세서에 참고로 포함된다.

이후에, 하나 이상의 프로세서는 미가공 단편 내의 상응하는 위치에 지지 변이체가 존재하는지의 여부를 결정하기 위해 미가공 단편을 분석한다. 다양한 타입의 미가공 단편이 식별될 수 있다. 예를 들어, 변이체 호출기는 본래 변이체 호출을 검증하는 변이체를 나타내는 한 타입의 미가공 단편을 식별할 수 있다. 예를 들어, 미가공 단편은 듀플렉스 스티치 단편, 심플렉스 스티치 단편, 듀플렉스 비-스티치 단편 또는 심플렉스 비-스티치 단편을 나타낼 수 있다. 선택적으로, 다른 미가공 단편은 상기 예 대신에 또는 이에 추가하여 식별될 수 있다. 각 타입의 미가공 단편을 식별하는 것과 관련하여, 변이체 호출기는 또한, 지지 변이체가 존재하는 미가공 단편 내의 위치뿐만 아니라, 지지 변이체를 나타낸 미가공 단편의 수의 카운트를 식별한다. 예를 들어, 변이체 호출기는 미가공 단편의 10개의 판독물이 특정 위치 X에서 지지 변이체를 갖는 듀플렉스 스티치 단편을 나타내는 것으로 식별된 표시를 출력할 수 있다. 변이체 호출기는 또한, 미가공 단편의 5개의 판독물이 특정 위치 Y에서 지지 변이체를 갖는 심플렉스 비-스티치 단편을 나타내는 것으로 식별된 표시를 출력할 수 있다. 변이체 호출기는 또한, 참조 서열에 해당된 미가공 단편의 수를 출력할 수 있고, 이에 따라, 관심대상 게놈 서열에서 잠재적인 변이체 호출을 검증하는 증거를 제공하는 지지 변이체를 포함하지 않았다.

다음에, 지지 변이체뿐만 아니라, 지지 변이체가 존재하는 위치를 포함하는 미가공 단편의 카운트가 유지된다. 추가적으로 또는 대안적으로, (샘플 판독물 또는 샘플 단편에서 잠재적인 변이체 호출의 위치에 대해) 관심대상 위치에서 지지 변이체를 포함하지 않는 미가공 단편의 카운트가 유지될 수 있다. 추가적으로 또는 대안적으로, 참조 서열에 해당하고 잠재적인 변이체 호출을 인증하거나 확인하지 않는 미가공 단편의 카운트가 유지될 수 있다. 결정된 정보는 잠재적인 변이체 호출을 지지하는 미가공 단편의 카운트 및 타입, 미가공 단편에서 지지 분산의 위치, 잠재적인 변이체 호출을 지지하지 않는 미가공 단편의 카운트 등을 포함하는, 변이체 호출 검증 적용에 대해 출력된다.

잠재적인 변이체 호출이 식별될 때, 공정은 잠재적인 변이체 호출, 변이체 서열, 변이 위치 및 이와 관련된 참조 서열의 표시를 출력한다. 변이체 호출은 거짓 변이체를 식별하기 위해 오류가 호출 공정을 유발시킬 수 있기 때문에 "잠재적인" 변이체를 나타내도록 지정된다. 본원의 구현예에 따르면, 잠재적인 변이체 호출은 거짓 변이체 또는 거짓 양성을 감소시키고 제거하기 위해 분석된다. 추가적으로 또는 대안적으로, 공정은 샘플 판독물과 관련된 하나 이상의 미가공 단편을 분석하고, 미가공 단편과 관련된 상응하는 변이체 호출을 출력한다.

변이체 필터(Variant Filter)

변이체 필터(111)는 컨볼루션 신경망(CNN) 및 완전-연결 신경망(FCNN)을 포함한다. 변이체 필터(111)에 대한 입력은 오버레이 샘플 데이터베이스(119)로부터 뉴클레오타이드 서열의 오버레이 샘플이다. 뉴클레오타이드 서열 데이터베이스(169)로부터의 뉴클레오타이드 서열은 오버레이 샘플을 발생시키기 위해 반복 패턴 데이터베이스(196)로부터의 반복 패턴과 오버레이된다. 오버레이어(181)는 오버레이 샘플 데이터베이스(119)에 저장된 오버레이 샘플을 형성하기 위해 데이터베이스(169)로부터 뉴클레오타이드 서열 상에 반복 패턴을 오버레이시킨다. 시뮬레이터(116)는 분석을 위한 변이체 필터에 적어도 100개의 오버레이 샘플의 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 조합을 공급한다. 시험 중인 반복 패턴을 갖는 오버레이 샘플이 변이체 필터(111)를 입력할 때 제공될 때, 변이체 필터(111)는 오버레이 샘플 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어를 출력한다. 마지막으로, 분석기(194)는 반복 패턴에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어를 디스플레이한다.

반복 패턴

반복 패턴 발생기(171)는 별개의 반복 인자 "m"를 갖는 길이 "n"의 호모폴리머 또는 코폴리머 패턴을 이용하여 반복 패턴 "rp"를 발생시킨다. 호모폴리머 반복 패턴은 단일 염기(A, C, G 또는 T)를 포함하며, 코폴리머 반복 패턴은 하나 초과의 염기를 포함한다. "반복 패턴"은 "패턴"에 "반복 인자(m)"를 적용함으로써 발생된다. 길이(n)의 패턴, 반복 인자(m) 및 반복 패턴(rp) 간의 관계는 하기와 같은 방정식 (1)로 표현된다:

[방정식 1]

패턴 * m = rp

표 1은 호모폴리머 반복 패턴의 예를 나타낸다. 호모폴리머 패턴의 길이는 1이며, 즉, "n=1"이다.

표 2는 코폴리머의 예시적 반복 패턴을 제시한다. 코폴리머 패턴의 길이는 1보다 크며, 즉, "n>1"이다.

변이체 필터

도 2는 변이체 필터(111)의 예시적인 아키텍처(200)를 예시한 것이다. 변이체 필터(111)는 컨볼루션 신경망(CNN) 및 완전-연결 신경망(FCNN) 상에 구축된 계층적 구조를 갖는다. DeepPOLY는 변이체 필터링에 대한 효과를 위한 공지된 서열 패턴을 시험하기 위해 변이체 필터(111)를 사용한다. 변이체 필터(111)로의 입력은 중심에 있고 50개의 뉴클레오타이드에 의해 좌측 및 우측 상의 측면에 있는 변이체 뉴클레오타이드를 갖는 길이(101)의 뉴클레오타이드 서열을 포함한다. 상이한 길이의 뉴클레오타이드 서열이 변이체 필터(111)로의 입력으로서 사용될 수 있는 것으로 이해된다.

컨볼루션 신경망은 입력값과, 트레이닝 동안 여러 구배 업데이트 반복에 걸쳐 학습되는 컨볼루션 필터(가중치의 행렬) 간에 컨볼루션 작업을 수행하는 컨볼루션층을 포함한다.

(m, n)은 필터 크기이며, W는 가중치의 행렬이며, 컨볼루션층은 도트 곱 W · x + b를 계산함으로써 입력 X와 W의 컨볼루션을 수행하며, 상기 식에서, x는 X의 일 경우이며, b는 바이어스(bias)이다. 입력을 가로질러 컨볼루션 필터가 슬라이딩되는 스텝 크기는 스트라이드(stride)로 지칭되며, 필터 면적(m × n)은 수용 영역(receptive field)으로 지칭된다. 동일한 컨볼루션 필터는 상이한 입력 위치를 가로질러 적용되며, 이는 학습된 가중치의 수를 감소시킨다. 이는 또한, 위치 불변 학습을 허용하며, 즉, 중요한 패턴이 입력에 존재하는 경우에, 컨볼루션 필터는 서열에 존재하는 지와의 문제없이 학습한다. 컨볼루션 신경망에 대한 추가적인 세부사항은 문헌[I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio, "CONVOLUTIONAL NETWORKS," Deep Learning, MIT Press, 2016; J. Wu, "INTRODUCTION TO CONVOLUTION NEURAL NETWORKS," Nanjing University, 2017; 및 N. ten DIJKE, "Convolution neural networks for Regulatory Genomics," Master's Thesis, Universiteit Leiden Opleiding Informatica, 17 June 2017]에서 확인될 수 있으며, 이러한 문헌의 완전한 주제는 전문에 본 명세서에 참고로 명확하게 포함된다. 도 2에 예시된 컨볼루션 신경망 아키텍처는 2개의 컨볼루션층을 갖는다. 제1 컨볼루션 층은 각각 크기 3의 64개의 필터를 이용하여 입력을 처리한다. 제1 컨볼루션 층의 출력은 배취 정규화층으로 전달된다.

컨볼루션 신경망의 각 층의 분포는 트레이닝 동안 변경되며, 이는 층에 따라 달라진다. 이는 최적화 알고리즘의 수렴 속도를 감소시킨다. 배취 정규화(Ioffe and Szegedy 2015)는 이러한 문제를 극복하기 위한 기술이다. 배취 정규화 층의 입력을 x로 및 z를 이용한 이의 출력을 나타내는 경우에, 배취 정규화는 x에 대한 다음 변환을 적용한다:

배취 정규화는 μ 및 σ를 사용하여 입력 x에 평균-분산 정규화를 적용하고, γ 및 β를 이용하여 선형으로 스케일링하고 이를 이동시킨다. 정규화 파라미터 μ 및 σ는 지수 이동 평균으로 불리는 방법을 이용하여 트레이닝 세트에서 현재의 층에 대해 계산된다. 다시 말해서, 이러한 것은 트레이닝 가능한 파라미터가 아니다. 상반되게, γ 및 β는 트레이닝 가능한 파라미터이다. 트레이닝 동안 상기 계산된 μ 및 σ에 대한 값은 생산 동안 포워드 패스에서 사용된다. 정류 선형 유닛(rectified linear unit)(ReLU) 비선형성 함수는 정규화 출력을 형성하기 위해 배취 정규화 층의 출력에 적용된다. 비선형성 함수의 다른 예는 S자형, 쌍곡 탄젠트(tanh) 및 누출 ReLU를 포함한다.

제2 컨볼루션층은 정규화된 출력에서 크기 5의 128개의 필터를 작동시킨다. 도 2에 도시된 예시적인 CNN은 제2 컨볼루션층으로부터의 출력을 제2 세트의 배취 정규화 및 ReLU 활성화 층으로 통과되는 1차원 어레이로 평탄화하는 평탄화 층을 포함한다. 제2 컨볼루션층으로부터의 정규화된 출력은 완전-연결 신경망(FCNN)에 공급된다. 완전-연결 신경망은 완전-연결층을 포함하며, 즉, 각 뉴런은 모든 이전 층의 뉴런으로부터 입력을 수용하고, 다음 층에서 모든 뉴런에 이의 출력을 송부한다. 이는 뉴런이 다음 층의 단지 일부 뉴런에 이의 출력을 송부하는 곳에서 컨볼루션층이 작동하는 방식과 대조적이다. 완전-연결층의 뉴런은 트레이닝 동안 다수의 구배 업데이트 반복에 대해 최적화된다. 완전-연결 신경망에 대한 추가적인 세부사항은 문헌[I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio, "CONVOLUTIONAL NETWORKS," Deep Learning, MIT Press, 2016; J. Wu, "INTRODUCTION TO CONVOLUTIONAL NEURAL NETWORKS," Nanjing University, 2017; 및 N. ten DIJKE, "Convolutional Neural Networks for Regulatory Genomics," Master's Thesis, Universiteit Leiden Opleiding Informatica, 17 June 2017]에서 확인될 수 있으며, 이러한 문헌의 완전한 주제는 전문이 본 명세서에 참고로 명백하게 포함된다. 분류층(예를 들어, 소프트맥스층(softmax layer)), 이후, 완전-연결층은 타깃 뉴클레오타이드 위치에서 각 후보 변이체가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어를 형성한다. 분류층은 소프트맥스층 또는 S자형 층일 수 있다. 구현예에 따라, 부류의 수 및 이의 타입이 변경될 수 있다.

도 3은 변이체 필터(111)의 공정 파이프라인(300)의 일 구현예를 도시한 것이다. 예시된 구현예에서, 컨볼루션 신경망(CNN)은 2개의 컨볼루션층을 가지며, 완전-연결 신경망(FCNN)은 2개의 완전-연결층을 갖는다. 다른 구현예에서, 변이체 필터(111), 및 이의 컨볼루션 신경망 및 완전-연결 신경망은 추가적인, 수 개, 또는 상이한 파라미터 및 하이퍼파라미터를 가질 수 있다. 파라미터의 일부 예는 컨볼루션층의 수, 배취 정규화 및 ReLU 층의 수, 완전-연결층의 수, 개개 컨볼루션층에서 컨볼루션 필터의 수, 개개 완전-연결층에서 뉴런의 수, 최종 분류층에 의해 생성된 출력의 수, 및 잔부 연결성이다. 하이퍼파라미터의 일부 예는 컨볼루션 필터의 윈도우 크기, 컨볼루션 필터의 스트라이드 길이, 패딩(padding), 및 확장(dilation)이다. 하기 논의에서, 용어 "레이어"는 소프트웨어 논리 또는 모듈로서 코드로 구현된 알고리즘을 지칭한다. 층의 일부 예는 https://keras.io/layers/about-keras-layers/에서 입수 가능한 Keras™ 에서 확인될 수 있으며, 이러한 문헌의 완전한 주제는 전문이 본 명세서에 참고로 명확하게 포함된다.

원-핫 인코딩된 입력 서열(302)은 컨볼루션 신경망(CNN)의 제1 컨볼루션층(304)에 공급된다. 입력 서열(302)의 차원성(dimensionality)은 101, 5,이며, 여기서, 101은 각 측면 상에 50개의 뉴클레오타이드의 측면에 있는 중심 타깃 위치에서 특정 변이체를 갖는 입력 서열(302)에서의 101개의 뉴클레오타이드를 나타내며, 5는 입력 서열(302)을 인코딩하기 위해 사용되는 5개의 채널, A, T, C, G, N을 나타낸다. 입력 서열(302)의 준비는 도 5를 참조로 하여 기술된다.

제1 컨볼루션층(304)은 64개의 필터를 가지며, 이들 각각은 3의 윈도우 크기 및 1의 스트라이드 길이를 갖는 입력 서열(302) 위에 컨볼루션된다. 컨볼루션 이후에, 배취 정규화 및 ReLU 비선형 층(306)이 이어진다. 결과는 차원성 101, 64의 출력(피처 맵)(308)이다. 출력(308)은 제1의 중간 컨볼루션된 특징으로서 여겨질 수 있다.

출력(308)은 컨볼루션 신경망의 제2 컨볼루션층(310)에 입력으로서 공급된다. 제2 컨볼루션층(310)은 128개의 필터를 가지며, 이들 각각은 5의 윈도우 크기 및 1의 스트라이드 길이를 갖는 출력(308) 위에 컨볼루션된다. 이러한 컨볼루션 이후에 배취 정규화 및 ReLU 비선형 층(312)이 이어진다. 결과는 차원성 101, 128의 출력(피처 맵)(314)이다. 출력(314)은 제2의 중간 컨볼루션된 특징 및 또한 컨볼루션 신경망의 최종 출력으로서 여겨질 수 있다.

드롭아웃은 신경망이 오버피팅되는 것을 방지하기 위한 효과적인 기술이다. 이는 트레이닝의 각 반복에서 네트워크로부터 뉴런의 일부를 무작위적으로 삭제함으로써 작용한다. 이는, 선택된 뉴런의 출력 및 구배가 0으로 설정되고 이에 따라 포워드 및 백워드 패스에 어떠한 영향을 미치지 않음을 의미한다. 도 3에서, 드롭아웃은 0.5의 확률을 이용하여 드롭아웃층(316)에서 수행된다.

드롭아웃 층을 통해 출력을 처리한 후에, 출력은 완전-연결 신경망에 의해 다운스트림 처리를 허용하기 위해 평탄화 층(318)에 의해 평탄화된다. 평탄화는 하나의 열 또는 하나의 컬럼을 갖도록 출력(314)을 벡터화하는 것을 포함한다. 즉, 일례로서, 차원성 101, 128의 출력(314)을 차원성 1, 12928의 평탄화된 벡터로의 전환(1 열 및 101×128 = 12928 컬럼).

평탄화 층(318)으로부터 차원성 1, 12928의 평탄화된 출력은 이후에 완전-연결 신경망(FCNN)에 입력으로서 공급된다. 완전-연결 신경망은 2개의 완전-연결층(320 및 328)을 갖는다. 제1 완전-연결층(320)은 128개의 뉴런을 갖는데, 이는 제2 완전-연결층(328)에서 2개의 뉴런에 완전히 결합된다. 제1 완전-연결층(320) 이후에, 배취 정규화, ReLU 비선형성 및 드롭 아웃층(322 및 326)이 이어진다. 제2 완전-연결층(328) 이후에, 배취 정규화 층(330)이 이어진다. 분류층(332)(예를 들어, 소프트맥스)은 참 변이체 또는 거짓 변이체인 특정 변이체에 대한 제2 분류 스코어 또는 확률(334)을 출력하는 2개의 뉴런을 갖는다.

홀드-아웃 데이터에 대한 변이체 호출기의 성능

도 4a는 홀드-아웃 데이터에 대한 변이체 필터의 성능을 그래픽으로 예시한 참 및 거짓 양성 플롯을 도시한 것이다. 홀드-아웃 데이터 세트에는 28,000개의 검증 예가 존재하며, 참 변이체(양성 예)의 약 14,000개의 검증 예 및 거짓 변이체(음성 예)의 14,000개의 검증 예가 존재한다. 2개의 플롯(410 및 416)은 28,000개의 검증 예가 검증 스테이지 동안 입력으로서 공급될 때 변이체 필터(111)의 성능을 나타낸다. 그래프(410 및 416)는 x-축을 따라 분류 스코어를 플롯팅하는데, 이는 참 변이체 및 거짓 변이체를 참 양성으로서 예측하는데 트레이닝된 모델의 신뢰도를 나타낸다. 이에 따라, 트레이닝된 모델은 참 변이체에 대해 높은 분류 스코어를 및 거짓 변이체에 대해 낮은 분류 스코어를 형성할 것으로 예상된다. 수직 막대의 높이는 x-축을 따른 개개 분류 스코어와 함께 검증 예의 총수를 나타내는 것이다.

플롯(416)은 변이체 필터(111)가 거짓 변이체의 7,000개 초과의 검증 예를 "낮은 신뢰도 참 양성"(즉, 분류 스코어 < 0.5(예를 들어, 426))으로서 분류하였음을 나타내는데, 이는 이러한 모델이 음성 예를 거짓 변이체로서 분류하도록 성공적으로 학습됨을 확인한다. 변이체 필터(111)는 거짓 변이체의 일부 검증 예를 "높은 신뢰도 참 양성"(예를 들어, 468)으로서 분류하였다. 이는, 트레이닝 데이터에서 및/또는 홀드-아웃 데이터에서, 단지 1명의 어린이에서 관찰된 일부 데노보 변이체가 이러한 것이 실제로 참 변이체일 때 거짓 변이체로서 잘못 표기되었다.

플롯(410)은 변이체 필터(111)가 참 변이체의 11,000 초과의 검증 예를 "높은 신뢰도 참 양성"(즉, 분류 스코어 > 0.5)으로서 분류하였음을 나타내는데, 이는 이러한 모델이 양성 예를 참 변이체로서 분류하기 위해 성공적으로 학습됨을 확인한다.

도 4b에서, 변이체 필터(111)의 분류 결과는 참조 서열(498)에 대해 시퀀서에 의해 형성된 판독물을 정렬하는 누적 이미지로부터 유도된 분석과 비교된다. 참조 서열(498)은 도 4b에 라벨(494)로 나타낸 바와 같이 단일 염기 "T"의 길이 18의 호모폴리머 반복 패턴을 포함한다. 누적 이미지는 적어도 7개의 리드(참조 라벨(455)로 표시됨)이 참조 게놈(498)에 대해 "G" 뉴클레오타이드의 위치에서 "T" 염기를 보고함을 나타낸다. 이에 따라, 서열에서 이러한 위치에 염기에 대한 2개의 가능한 결과 호출이 존재한다: "G" 또는 "T". "플래티넘 게놈 혈통"으로부터의 실측 자료(ground truth)는 어떠한 부모 및 조부모도 이의 개개 참조 서열에서 이러한 위치에서 변이체 뉴클레오타이드를 가짐을 나타낸다. 이에 따라, "T" 염기 호출은 서열분석 오류로 인해 발생한 "거짓 양성"으로서 결정된다. 또한, 누적 이미지는 "T"가 판독물 1의 단부에만 나타남을 나타내는데, 이는 변이체가 거짓임을 추가로 확인한다.

변이체 필터(111)의 성능은 도 4b에서 "P(X는 거짓임) = 0.974398"로 예시된 바와 같이, 변이체 필터(111)가 뉴클레오타이드를 이러한 위치에서 높은 신뢰도로 거짓 변이체로서 분류되기 때문에 상기 분석과 일치한다.

도 4c는 참 변이체를 함유한 일례에 대한 서열분석 판독물의 누적 이미지(412)를 도시한 것이다. 어린이에 대한 서열분석 판독물("NA12881"로서 표기됨)은 라벨 495에 의해 식별된 적어도 3개의 "T" 뉴클레오타이드를 갖는다. 참조 서열은 라벨 496에 의해 식별된 바와 같은 그러한 위치에 "C" 뉴클레오타이드를 갖는다. 그러나, 모(mother)의 서열분석 판독물은 동일한 위치에서 적어도 7개의 "T" 뉴클레오타이드를 나타낸다. 이에 따라, 이는 좌측 상단 코너 상에 플롯(410)에 의해 도시된 바와 같이 참 변이체를 갖는 일례의 경우이다. 변이체 필터(111)는 이러한 예를 낮은 신뢰도 스코어("P(X는 참임) = 0.304499")를 갖는 참 양성으로서 분류하였다. 즉, 변이체 필터(111)는, 타깃 뉴크레오타이드의 위치 이전에 코폴리머 "AC"의 반복 패턴의 존재로 인하여 타깃 뉴클레오타이드를 거짓 변이체로서 분류하였다(또는 약하게 참 변이체로서 분류하였다). 트레이닝된 서열은 반복 패턴을 잠재적인 서열-특정 오류(SSE)로서 여겨지고, 이에 따라, 낮은 신뢰도 스코어를 갖는 변이 "T"를 분류하였다.

도 5는 변이체 필터(111)에 입력을 위한 타깃 위치에서 변이체 뉴클레오타이드를 갖는 오버레이 뉴클레오타이드 서열을 인코딩하기 위해 원-핫 인코딩을 이용하여 입력 입력 준비기(161)에 의해 예시적인 입력 준비를 도시한 것이다. 타깃 위치에서 변이체 뉴클레오타이드의 양 측면(좌측 및 우측) 상에 적어도 50개의 뉴클레오타이드를 포함하는 뉴클레오타이드 서열(514)은 입력을 준비하기 위해 사용된다. 뉴클레오타이드 서열(514)이 참조 게놈의 일부임을 주지한다. 원-핫 인코딩에서, 서열에서 각 염기쌍은 4개의 비트의 이원 벡터로 인코딩되며, 비트 중 하나는 핫(즉, 1)이며, 다른 것은 0이다. 예를 들어, T = (1, 0, 0, 0), G = (0, 1, 0, 0), C = (0, 0, 1, 0) 및 A = (0, 0, 0, 1). 일부 구현예에서, 미지 뉴클레오타이드는 N = (0, 0, 0, 0)으로서 인코딩된다. 숫자는 인코딩된 원-핫을 이용하여 나타낸 101개의 뉴클레오타이드의 예시적 뉴클레오타이드 서열을 나타낸 것이다.

도 6은 뉴클레오타이드 서열 상에 반복 패턴을 오버레이시킴으로써 입력 준비기에 의해 형성된 오버레이 샘플의 준비를 예시한 것이다. 오버레이 샘플은 오버레이 샘플 데이터베이스(119)에 저장된다. 예는 오버레이 샘플의 타깃 위치에 중심 뉴클레오타이드에 대해 좌측에 7개의 "A"의 호모폴리머 반복 패턴을 오버레이시킴으로써 발생된 오버레이 샘플(1)을 도시한다. 오버레이 샘플(2)은 중심 뉴클레오타이드를 포함하기 위해 뉴클레오타이드 서열 상에 7개의 "A"의 동일한 반복 패턴을 오버레이시킴으로써 생성된다. 제3 오버레이 샘플 n은 오버레이 샘플에서 중심 뉴클레오타이드의 우측에 7개의 "A"의 반복 패턴을 오버레이시킴으로서 발생된다.

변이체 필터 서브시스템은 변이체 필터(111)에 의한 분석을, 오버레이 샘플 각각에서 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시킨다. 변이체 필터 서브시스템 이후에, 분석 서브시스템으로 이어지며, 여기서, 분석기(194)는 반복 패턴에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어의 디스플레이를 야기시킨다. 도 7a 내지 도 7c는 분석기(194)로부터 이러한 디스플레이의 예를 나타낸 것이다. 도 7a는 오버레이 샘플에서 중심 뉴클레오타이드의 좌측에 오버레이된 반복 패턴에 의해 서열-특정 오류 원인을 식별하기 위해 박스-앤드-위스커 플롯을 도시한 것이다.

그래픽 플롯의 y-축은 상이한 반복 패턴을 함유한 오버레이 샘플이 입력으로서 변이체 필터에 공급되었을 때 변이체 필터에 의해 출력된 분류 스코어의 분포를 나타낸다. x-축은 입력으로서 공급된 반복 패턴을 형성한 패턴에 적용된 반복 인자(m)를 나타낸다. 여기에서 고려된 반복 패턴은 x-축 상에 명시된 반복 인자를 이용함으로써 발생된 호모폴리머이다. 예는 독특한 반복 인자 값 당 4개의 박스-앤드-위스커 플롯을 나타낸다. 4개의 플롯은 4가지 타입의 뉴클레오타이트(G, A, T, 및 C)의 호모폴리머 반복 패턴에 상응한다. 각 반복 패턴은 변이체 필터(111)의 CNN에 입력으로서 공급된 100개의 오버레이 샘플을 발생시키기 위해 적어도 100개의 뉴클레오타이드 서열 상에 배치된다. 다른 구현예에서, 적어도 200개의 뉴클레오타이드 서열은 반복 패턴 당 적어도 200개의 오버레이 샘플을 발생시키기 위해 사용된다. 동일한 공정은 x-축을 따라 도시된 모든 반복 인자에 대한 호모폴리머 반복 패턴을 발생시키기 위해 반복된다.

도 7a의 그래픽 플롯은 단일 염기 "G"의 더 짧은 반복 패턴(10개 미만의 뉴클레오타이드의 길이)이 변이체 식별에서 서열-특정 오류를 도입할 수 있음을 도시한다. 유사하게, 단일 염기 "C"의 더 짧은 반복 패턴은 또한, 일부 오류를 도입할 수 있으며, 뉴클레오타이드 염기 "A" 및 "T"의 반복 패턴은 반복 패턴이 더 짧을 때 서열-특정 오류를 덜 유발시킬 수 있다. 그러나, 모두 4개 타입의 뉴클레오타이드의 더 긴 반복 패턴(10개 초과의 뉴클레오타이드의 길이)은 더 많은 서열 특정 오류를 유발시킨다.

도 7b는 반복 패턴이 오버레이 샘플에서 중심 뉴클레오타이드의 우측의 뉴클레오타이드 서열 상에 오버레이될 때 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분포로서 분류 스코어를 디스플레이하는 박스-밀-위스커 플롯이다. 도 7a와 비교하여, 단일 뉴클레오타이드 "C"의 호모폴리머의 더 짧은 패턴은 참 변이체의 식별에서 오류를 더욱 유발시킬 수 있다. 도 7c는 반복 패턴이 오버레이 샘플에서 중심 뉴클레오타이드(타깃 위치에서)를 포함할 때 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분포로서 분류 스코어를 디스플레이하는 박스-앤드-위스커 플롯이다. 도 7a 및 도 7b와 비교하여, 도 7c는 모두 4개의 뉴클레오타이드 타입의 더 짧은 반복 패턴이 변이체 식별에서 서열-특정 오류를 덜 유발시킬 수 있음을 도시한다.

도 8a 내지 도 8c는 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 다양한 오프셋으로 단일 염기(A, C, G 또는 T)의 호모폴리머 반복 패턴이 오버레이될 때 서열 특정 오류 원인을 식별하기 위한 그래픽 플롯을 제시한 것이다. 다양한 오프셋은 뉴크레오타이드 서열 상에 반복 패턴이 오버레이된 위치를 다양하게 한다. 다양한 오프셋은 반복 패턴의 본래 위치와 뉴클레오타이드 서열의 본래 위치 간의 오프셋으로서 측정 가능하다. 일 구현예에서, 적어도 10개의 오프셋은 오버레이 샘플을 형성하기 위해 사용된다. 10개는 서열 특정 오류 원인을 분석하기 위해 다양한 오프셋으로 반복 패턴을 갖는 오버레이 샘플을 발생시키는데 적절한 플로어(floor)이다.

도 8a는 뉴클레오타이드 서열 상에 다양한 오프셋으로 오버레이된 단일 염기 "C"의 호모폴리머의 반복 패턴에 의해 서열-특정 오류 원인을 식별하기 위한 박스-앤드-위스커 플롯이다. 반복 인자 m=15는 반복 패턴이 단일 염기 "C"의 길이 15의 호모폴리머임을 의미한다. 이러한 반복 패턴은 다양한 오프셋으로 오버레이 샘플을 발생시키기 위해 101개의 뉴클레오타이드로 이루어진 뉴클레오타이드 서열 상에 오버레이된다. 각 오프셋 값의 경우에, 적어도 100개의 오버레이 샘플의 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 조합은 도 1의 변이체 필터의 CNN에 공급된다. 도 8a는 15개의 단일 염기 "C"의 반복 패턴인 뉴클레오타이드 서열 상에 오버레이될 때 0, 2, 4, 최대 84에서 오프셋 위치에 대한 박스-앤드-위스커 플롯을 도시한 것이다. 예를 들어, 오프셋이 "0"일 때, 반복 패턴의 본래 위치는 뉴클레오타이드 서열의 본래 위치와 일치한다. 오프셋 "2"에서, 반복 패턴의 본래 위치는 뉴클레오타이드 서열 상에 반복 패턴을 오버레이시키기 위해 제3 염기(2의 지수에서)에 정렬된다. 오프셋이 증가함에 따라, 오버레이된 반복 패턴은 타깃 위치 뉴클레오타이드 서열에서 변이체 뉴클레오타이드에 더 가깝다. 도 8a의 예시 목적을 위해 사용되는 예에서, 타깃 뉴클레오타이드는 101개의 뉴클레오타이드를 포함하는 뉴클레오타이드 서열의 중심인 "50"의 지수 위치에 있다. 오프셋 값이 50 초과로 증가함에 따라, 반복 패턴은 변이체 뉴클레오타이드를 지나 이동하고, 타깃 위치에서 변이체 뉴클레오타이드의 우측 상에 정위된다.

도 8b, 도 8c 및 도 8d는 뉴클레오타이드 서열 상에 다양한 오프셋으로 오버레이된, 단일 염기 "G", "A", 및 "T" 각각의 호모폴리머의 반복 패턴에 의한 서열-특정 오류 원인을 식별하기 위해 전술된 바와 유사한 박스-앤드-위스커 플롯이다. 3개의 반복 패턴 각각에 대해 반복 인자 m=15.

도 9는 단일 염기의 호모폴리머의 반복 패턴이 변이체 뉴클레오타이드 "전" 및 "후"에 오버레이될 때 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분포로서 분류 스코어의 디스플레이를 도시한 것이다. 호모폴리머 반복 패턴은 오버레이 샘플을 형성하기 위해 타깃 위치에서 변이체 뉴클레오타이드의 전 및 후에 나란이 오버레이된다. 박스-앤드-위스커 플롯(932)은 단일 염기 "G"의 호모폴리머 반복 패턴이 뉴클레오타이드 서열 상에 중심 뉴클레오타이드의 좌측에 오버레이될 때의 분류 스코어를 도시한 것이다. 결과는 호모폴리머 반복 패턴 이후에 타깃 위치에 변이체 뉴클레오타이드로서 4가지 타입의 뉴클레오타이드(A, C, G 및 T)에 대해 발생된다. 결과는 타깃 뉴클레오타이드가 타입 "A" 또는 "C"인 경우 분류 스코어가 더 큰 spread에 의해 달라짐을 나타낸다.

그래픽 플롯(935)은 뉴클레오타이드 서열(912) 상에 중심 뉴클레오타이드의 우측에 오버레이된 단일 염기 "C"의 호모폴리머 반복 패턴에 대한 것을 제외하고 유사한 시각화를 도시한 것이다. 박스-앤드-위스커 플롯의 비교는 타깃 뉴클레오타이드가 타입 "G"일 때 분류 스코어의 더 큰 분포를 나타낸다.

도 10a 내지 도 10c는 거짓 변이체 분류에 기여하는 샘플 뉴클레오타이드 서열 각각에서 코폴리머의 자연발생 반복 패턴의 디스플레이를 제시한 것이다. 도 10a 내지 도 10c에 제시된 그래픽 시각화는 https://arxiv.org/pdf/1605.01713.pdf에서 입수 가능한 문헌[Shrikumar et. el., in their paper, "Not Just a Black Box: Learning Important Features Through Propagating Activation Differences"](참조 문헌 1)에서 제시된 DeepLIFT를 이용하여 발생된다. DeepLIFT 모델의 구현예는 http://github.com/kundajelab/deeplift(참조문헌 2)에서 제시되며, DeepLIFT를 구현하기 위한 추가 세부사항은 https://www.biorxiv.org/content/biorxiv/suppl/2017/10/05/105957.DC1/105957-6.pdf(참조 문헌 3)에 제시된다. 타깃 위치에서 변이체 뉴클레오타이드를 포함한 코폴리머의 하나 이상의 자연발생 반복 패턴은 도 10a 내지 도 10c에 도시된 시각화를 발생시키기 위해 DeepLIFT 모델에 입력으로서 제공된다. DeepLIFT 모델의 출력은 타깃 위치에서 변이체 뉴클레오타이드의 변이체 분류에 대한 입력의 기여의 어레이이다.

예를 들어, 그래픽 시각화(911)에 도시된 입력 서열이 고려된다. 변이체 뉴클레오타이드(916)는 101개의 뉴클레오타이드를 포함하는 샘플 뉴클레오타이드 서열에서 위치 50에 존재한다. 타깃 위치에서 변이체 뉴클레오타이드는 샘플 뉴클레오타이드 서열에서 위치 0 내지 49 및 51 내지 100에서 각 측면 상에서 50개의 뉴클레오타이드의 측면에 존재한다. 도 2의 변이체 필터(111)는 타깃 위치에서 변이체 뉴클레오타이드("C")를 거짓 변이체로서 분류하였다. DeepLIFT의 출력은 자여발생 반복 패턴(917)이 변이체 뉴클레오타이드(916)의 분류에 최대로 기여함을 나타낸 시각화(911)이다. 뉴클레오타이드의 높이는 변이체 뉴클레오타이드의 분류에 대한 이의 개개 기여를 나타낸다. 그래픽 시각화(911)에 도시된 바와 같이, 가장 높은 기여는 단일 염기 "A"를 포함하는 반복 패턴인 뉴클레오타이드(917)의 서열로부터인 것이다.

DeepLIFT 기여 어레이는 입력과 동일한 형상, 즉, 표준 원-핫 인코딩(도 5에 제시됨)에 대해 뉴클레오타이드의 입력 서열에 4를 곱한 것을 갖는다. 이에 따라, DeepLIFT는 고정된 서열 위치와 관련된 입력 뉴런의 기여를 합산함으로써 각 서열 위치에 스코어를 할당하고, 입력 샘플 뉴클레오타이드 서열에서 그러한 위치에 존재하는 뉴클레오타이드와 이러한 합산된 기여를 연관시킨다. 합산된 기여는 "DeepLIFT 해석 스코어"로서 지칭된다. 하기 제안된 최상의 실무(상기 참조문헌 3에 제시된 바와 같음)는 DeepLIFT 모델의 적용에서 이어진다. 출력 뉴런의 사전-활성화(최종 비-선형성을 적용하기 전 활성화)에 대한 입력 뉴런의 기여가 계산된다. 출력층이 소프트맥스 비선형성을 이용할 때, 출력 뉴런 세트에 고정된 끝에서 두번째 층 뉴런을 연결시키는 가중치는 평균 중심화된다. 샘플 뉴클레오타이드 서열이 도 5에 도시된 바와 같이 원-핫 인코딩되기 때문에, "제한된 입력을 위한 가중 정규화"의 방법은 상기 참고문헌 3에 기술된 바와 같이 Keras에서 DeepLIFT로 전환시키기 전에 이용된다.

그래픽 시각화(921, 931, 및 941)는 반복 패턴(927, 934, 및 946)을 각각 나타내어, 샘플 뉴클레오타이드 서열에서 변이체 뉴클레오타이드의 분류에 가장 크게 기여한다. 도 10b는 그래픽 시각화(921, 931, 941, 및 951)를 포함한다. 이러한 그래픽 시각화에서, 코폴리머의 반복 패턴이 둘 이상의 뉴클레오타이드의 패턴을 함유한다는 것이 주목된다. 유사하게, 도 10c는 그래픽 시각화(931, 932, 933, 및 934)의 더 많은 예를 나타내어, 개개 입력 뉴클레오타이드 서열에서 타깃 위치에 변이체 뉴클레오타이드의 분류에 기여하는 다양한 반복 패턴을 예시한 것이다.

컴퓨터 시스템

도 11은 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위한 도 1의 변이체 필터(111)를 구현하기 위해 사용될 수 있는 컴퓨터 시스템(1100)의 단순화된 블록 다이어그램이다. 컴퓨터 시스템(1100)은 버스 서브시스템(1155)을 통해 다수의 주변 디바이스와 통신하는 적어도 하나의 중앙 처리 유닛(CPU)(1172)을 포함한다. 이러한 주변 디바이스는 예를 들어, 메모리 디바이스 및 파일 저장 서브시스템(1136)을 포함하는 저장 서브시스템(1110), 사용자 인터페이스 입력 디바이스(1138), 사용자 인터페이스 출력 디바이스(1176), 및 네트워크 인터페이스 서브시스템(1174)을 포함할 수 있다. 입력 및 출력 디바이스는 사용자가 컴퓨터 시스템(1100)과 상호작용할 수 있게 한다. 네트워크 인터페이스 서브시스템(1174)은 다른 컴퓨터 시스템에서 상응하는 인터페이스에 대한 인터페이스를 포함하는, 외부 네트워크에 인터페이스를 제공한다.

일 구현예에서, 도 1의 변이체 필터(111)는 저장 서브시스템(1110) 및 사용자 인터페이스 입력 디바이스(1138)에 통신 가능하게 연결된다.

사용자 인터페이스 입력 디바이스(1138)는 키보드; 포인팅 디바이스, 예를 들어, 마우스, 트랙볼, 터치패드, 또는 그래픽 태블릿; 스캐너; 디스플레이 내에 도입된 터치 스크린; 오디오 입력 디바이스, 예를 들어, 음성 인식 시스템 및 마이크로폰; 및 다른 타입의 입력 디바이스를 포함할 수 있다. 일반적으로, 용어 "입력 디바이스"의 사용은 모든 가능한 타입의 디바이스 및 정보를 컴퓨터 시스템(1100)에 입력하는 방식을 포함하도록 의도된다.

사용자 인터페이스 출력 디바이스(1176)는 디스플레이 서브시스템, 프린터, 팩스 기계, 또는 비-시각적 디스플레이, 예를 들어, 오디오 출력 디바이스를 포함할 수 있다. 디스플레이 서브시스템은 LED 디스플레이, 음극선관(CRT), 평판 디바이스, 예를 들어, 액정 디스플레이(LCD), 프로젝션 디바이스, 또는 가시적 이미지를 생성시키기 위한 일부 다른 메커니즘을 포함할 수 있다. 디스플레이 서브시스템은 또한, 비-시각적 디스플레이, 예를 들어, 오디오 출력 디바이스를 제공할 수 있다. 일반적으로, 용어 "출력 디바이스"의 사용은 모든 가능한 디바이스의 타입, 및 컴퓨터 시스템(1100)으로부터 사용자로 또는 다른 기계 또는 컴퓨터 시스템으로 정보를 출력하는 방식을 포함하도록 의도된다.

저장 서브시스템(1110)은 본 명세서에 기술된 모듈 및 방법 중 일부 또는 전부의 기능성을 제공하는 프로그래밍 및 데이터 구조를 저장한다. 서브시스템(1178)은 그래픽 처리 유닛(GPU) 또는 필드-프로그래밍 가능한 게이트 어레이(FPGA)일 수 있다.

저장 서브시스템(1110)에서 사용되는 메모리 서브시스템(1122)은 프로그램 실행 동안 명령어 및 데이터의 저장을 위한 메인 랜덤 액세스 메모리(RAM)(1132) 및 고정된 명령어가 저장된 판독 전용 서브시스템(ROM)(1134)을 포함하는 다수의 메모리를 포함할 수 있다. 파일 저장 서브시스템(1136)은 프로그램 및 데이터 파일을 위한 영구 저장소를 제공할 수 있고, 하드 디스크 드라이브, 관련된 탈착 가능한 매체와 함께 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브, 또는 탈착 가능한 매체 카트리지를 포함할 수 있다. 특정 구현예의 기능성을 구현하는 모듈은 저장 서브시스템(1110)에서, 또는 프로세서에 의해 액세스 가능한 다른 기계에서 파일 저장 서브시스템(1136)에 의해 저장될 수 있다.

버스 서브시스템(1155)은 컴퓨터 시스템(1100)의 다양한 구성요소 및 서브시스템을 의도하는 경우에 서로 소통되게 하기 위한 메커니즘을 제공한다. 버스 서브시스템(1155)이 단일 버스로 개략적으로 도시되어 있지만, 버스 서브시스템의 대안적인 구현예는 다수의 버스를 사용할 수 있다.

컴퓨터 시스템(1100) 자체는 개인용 컴퓨터, 포터블 컴퓨터, 워크스테이션, 컴퓨터 터미널, 네트워크 컴퓨터, 텔레비전, 메인프레임, 서버 팜 느슨하게 네트워크된 컴퓨터의 널리 분포된 세트, 또는 임의의 다른 데이터 처리 시스템 또는 사용자 디바이스를 포함하는 다양한 타입을 가질 수 있다. 컴퓨터 및 네트워크의 변화하는 특성으로 인하여, 도 11에 도시된 컴퓨터 시스템(1100)의 설명은 본 발명의 바람직한 구현예를 예시할 목적을 위하여 오로지 특정 예로서 의도된다. 컴퓨터 시스템(1100)의 다수의 다른 구성은 도 11에 도시된 컴퓨터 시스템보다 더 많은 또는 더 적은 구성요소들을 가질 수 있다.

서열-특정 오류(SSE) 상관관계

도 12는 거짓 변이체 분류를 기초로 하여 서열-특정 오류(SSE)가 반복 패턴과 어떻게 관련되는지의 일 구현예를 예시한 것이다.

입력 준비 서브시스템(161)은 다수의 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 컴퓨터 계산으로 오버레이시키고, 오버레이 샘플(119)을 형성시킨다. 각 반복 패턴은 특정 길이를 갖고 특정 오프셋 위치에서 오버레이 샘플에서 나타나는 특정 뉴클레오타이드 조성을 나타낸다. 각 오버레이 샘플은 변이체 뉴클레오타이드인 것으로 간주되는 타깃 위치를 갖는다. 특정 뉴클레오타이드 조성, 특정 길이 및 특정 오프셋 위치의 각 조합에 대하여, 한 세트의 오버레이 샘플이 컴퓨터 계산으로 발생된다.

사전-트레이닝된 변이체 필터 서브시스템(111)은 컨볼루션 신경망(200)을 통해 오버레이 샘플(119)을 처리하고, 컨볼루션 신경망(200)의 컨볼루션 필터에 의한 오버레이 샘플(119)에서 뉴클레오타이드 패턴의 검출을 기초로 하여, 오버레이 샘플 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어(334)를 발생시킨다.

반복 패턴 출력 서브시스템(1202)은 반복 패턴의 존재로 형성된 거짓 변이체 분류에 대한 사전-트레이닝된 변이체 필터 서브시스템(111)의 감수성을 나타내는 분류 스코어(334)의 분포(1212)를 출력한다.

서열-특정 오류 상관 서브시스템(199)은 임계치(1222)를 기초로 하여, 분류 스코어의 서브셋을 거짓 변이체 분류를 나타내는 것으로서 지정하고, 거짓 변이체 분류를 지시하는 분류 스코어의 서브셋과 관련이 있는 그러한 반복 패턴(1232)을 서열-특정 오류를 유발시키는 것으로 분류한다. 서열-특정 오류 상관 서브시스템(199)은 서열-특정 오류를 유발시키는 것으로 분류된 반복 패턴(1232)의 특정 길이 및 특정 오프셋 위치를 또한 서열-특정 오류를 유발시키는 것으로서 분류한다.

도 7a, 도 7b 및 도 7c는 임계치(702)보다 높은 분류 스코어의 서브셋을 식별하기 위해 분류 스코어(334)의 출력 분포(1212)에 적용되는 예시적 임계치(702)(예를 들어, 0.6)를 도시한 것이다. 이러한 분류 스코어는 거짓 변이체 분류를 나타내며, 이와 관련된 반복 패턴은 서열-특정 오류를 유발시키는 것으로서 분류된다.

특정 구현예

개시된 기술은 서열-특정 오류를 유발시키는 반복 패턴을 식별하는 것에 관한 것이다.

개시된 기술은 시스템, 방법, 디바이스, 제품, 컴퓨터 판독 가능한 매체, 또는 제조품으로서 실행될 수 있다. 구현예의 하나 이상의 특징들은 기본 구현예와 결합될 수 있다. 상호 배타적이지 않은 구현예는 결합 가능한 것으로 교시된다. 구현예의 하나 이상의 특징은 다른 구현예와 결합될 수 있다. 이러한 개시내용은 이러한 옵션들의 사용자에게 주기적으로 상기시킨다. 이러한 옵션을 반복하는 설명의 일부 구현예로부터의 생략은 이전 부문에 교시된 조합을 제한하는 것으로 간주되어서는 안 된다. 즉, 이러한 설명은 하기 구현예 각각을 참조로 하여 본 명세서에 포함된다.

개시된 기술의 제1 시스템 구현예는 메모리에 연결된 하나 이상의 프로세서를 포함한다. 메모리에는 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위한 컴퓨터 명령어가 로딩되어 있다. 시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행되는 입력 준비 서브시스템을 포함한다. 입력 준비 서브시스템은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 오버레이시킨다. 오버레이 샘플 각각은 각 측면 상에 적어도 20개의 뉴클레오타이드가 측접(flank)하는 타깃 위치에 변이체 뉴클레오타이드를 갖는다. 반복 패턴은 반복 패턴에서 다수의 단일 염기의 반복 횟수를 지정하는 적어도 6개의 반복 인자를 갖는 단일 염기(A, C, G 또는 T)의 호모폴리머이다. 시스템은 분석을 위한 변이체 필터에 적어도 100개의 오버레이 샘플의 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 각 조합을 공급하는 시뮬레이션 서브시스템을 포함한다. 시스템은 변이체 필터 서브시스템을 포함하며, 이는 변이체 필터에 의한 분석을, 오버레이 샘플 각각에서 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시킨다. 마지막으로, 시스템은 반복 인자 각각에 대한 분포로서 분류 스코어의 디스플레이가 반복 패턴에 의한 서열-특정 오류 원인의 평가를 지지하는 분석 서브시스템을 포함한다.

이러한 시스템 구현예 및 개시된 다른 시스템은 선택적으로, 하기 특징들 중 하나 이상을 포함한다. 시스템은 또한, 개시된 방법과 관련하여 기술된 특징을 포함할 수 있다. 간결화를 도모하기 위하여, 시스템 특징의 대안적인 조합은 개별적으로 열거되지 않는다. 시스템, 방법, 및 제조품에 적용 가능한 특징은 베이스 특징의 각 법으로 규정된 부류 세트에 대해 반복되지 않는다. 독자는, 이러한 부문에서 식별된 특징들이 다른 법으로 규정된 부류의 베이스 특징과 용이하게 결합할 수 있는 방법을 이해할 것이다.

일 구현예에서, 반복 패턴은 오버레이 샘플에서 중심 뉴클레오타이드의 우측에 존재하고, 중심 뉴클레오타이드와 오버레이되지 않는다. 다른 구현예에서, 반복 패턴은 오버레이 샘플에서 중심 뉴클레오타이드의 좌측에 존재하고, 중심 뉴클레오타이드와 오버레이되지 않는다. 다른 구현예에서, 반복 패턴은 오버레이 샘플에서 중심 뉴클레오타이드를 포함한다.

반복 인자는 5 내지 오버레이 샘플에서 뉴클레오타이드의 총수의 1/4의 범위의 정수이다. 시스템은 4개의 염기(A, C, G 및 T) 각각에 대한 단일 염기의 호모폴리머인 반복 패턴에 적용하도록 더 구성된다.

입력 준비 서브시스템은 4개의 염기 각각에 대한 호모폴리머에 대한 반복 패턴 및 오버레이 샘플을 형성하도록 더 구성되며, 분석 서브시스템은 병렬로 호모폴리머 각각에 대한 분류 스코어 분포의 디스플레이를 야기시키도록 더 구성된다.

반복 패턴은 오버레이 샘플에서 중심 뉴클레오타이드에 대해 우측에 존재하며, 병렬은 중심 뉴클레오타이드에 대해 우측에 오버레이된 호모폴리머에 적용한다. 반복 패턴은 오버레이 샘플에서 중심 뉴클레오타이드에 대해 좌측에 존재하며, 병렬은 중심 뉴클레오타이드에 대해 좌측에 오버레이된 호모폴리머에 적용한다. 반복 패턴이 오버레이 뉴클레오타이드 서열은 무작위적으로 발생된다. 반복 패턴이 오버레이 뉴클레오타이드 서열은 자연발생 DNA 뉴클레오타이드 서열로부터 무작위적으로 선택된다. 분석 서브시스템은 박스-앤드-위스커 플롯을 이용하여 반복 인자 각각에 대한 분류 스코어 분포의 디스플레이를 야기시키도록 더 구성된다.

변이체 필터는 참 변이체의 적어도 500000회 트레이닝 예들 및 거짓 변이체의 적어도 50000회 트레이닝 예들로 트레이닝된다. 각 트레이닝 예는 각 측면 상에 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는 뉴클레오타이드 서열이다. 변이체 필터는 2개의 컨볼루션층 및 완전-연결층을 갖는 컨볼루션 신경망(CNN)이다.

다른 구현예는 전술된 시스템의 기능을 수행하기 위해 프로세서에 의해 실행 가능한 명령어를 저장한 비-일시적 컴퓨터 판독 가능한 저장 매체를 포함할 수 있다. 또 다른 구현예는 전술된 시스템의 기능을 수행하는 방법을 포함할 수 있다.

개시된 기술의 제1 컴퓨터-구현 방법 구현예는 서열-특정 오류를 유발시키는 반복 패턴을 식별하는 것을 포함한다. 컴퓨터-구현 방법은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 오버레이시킴으로써 입력을 준비하는 것을 포함한다. 오버레이 샘플 각각은 각 측면 상에 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는다. 반복 패턴은 반복 패턴에서 단일 염기의 반복 횟수를 지정하는 적어도 6개의 반복 인자를 갖는 단일 염기(A, C, G 또는 T)의 호모폴리머이다. 컴퓨터-구현 방법은 분석을 위한 변이체 필터에 적어도 100개의 오버레이 샘플의 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 각 조합을 공급하는 것을 포함한다. 컴퓨터-구현 방법은 변이체 필터에 의한 분석을, 오버레이 샘플 각각의 변이체 뉴클레오타이드가 출력에 대한 참 변이체 또는 거짓 변이체일 가능성에 대해 분류 스코어로 전환시키는 것을 포함한다. 마지막으로, 컴퓨터-구현 방법은 반복 패턴에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어의 디스플레이를 야기시키는 것을 포함한다.

제1 시스템 구현예에 대한 이러한 특정 구현예 부문에서 논의된 특징들 각각은 이러한 컴퓨터-구현 방법 구현예에 동일하게 적용한다. 상기에 명시된 바와 같이, 모든 시스템 특징은 여기에서 반복되지 않고, 참조에 의해 반복되는 것으로 간주되어야 한다.

컴퓨터 판독 가능한 매체(computer readable media: CRM) 구현예는 전술된 바와 같이 컴퓨터-구현 방법을 수행하기 위해 프로세서에 의해 실행 가능한 명령어를 저장한 비-일시적 컴퓨터 판독 가능한 저장 매체를 포함한다. 다른 CRM 구현예는 전술된 바와 같이 컴퓨터-구현 방법을 수행하기 위해, 메모리, 및 메모리에 저장된, 명령어를 실행하도록 작동 가능한 하나의 프로세서를 포함한 시스템을 포함할 수 있다.

시스템 구현예를 위한 이러한 특정 구현예 부문에서 논의된 특징들 각각은 이러한 CRM 구현예에 동일하게 적용한다. 상기에서 명시된 바와 같이, 모든 시스템 특징은 여기에서 반복되지 않고, 참조에 의해 반복되는 것으로 간주되어야 한다.

개시된 기술의 제2 시스템 구현예는 메모리에 연결된 하나 이상의 프로세서를 포함한다. 메모리에는 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위한 컴퓨터 명령어가 로딩되어 있다. 시스템은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상의 다양한 오프셋에 시험 중인 반복 패턴을 오버레이시키는 입력 준비 서브시스템을 포함한다. 오버레이 샘플 각각은 각 측면 상에서 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는다. 반복 패턴은 반복 패턴에서 단일 염기의 반복 횟수를 지정하는 적어도 6개의 반복 인자를 갖는 단일 염기(A, C, G 또는 T)의 호모폴리머이다. 다양한 오프셋은 반복 패턴이 뉴클레오타이드 서열 상에 오버레이되어 있는 위치를 다양하게 한다. 다양한 오프셋은 반복 패턴의 본래 위치와 뉴클레오타이드 서열의 본래 위치 사이의 오프셋으로서 측정 가능하다. 일 구현예에서, 적어도 10개의 오프셋은 오버레이 샘플을 형성하기 위해 사용된다.

시스템은 분석을 위한 변이체 필터에, 적어도 100개의 오버레이 샘플의 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 각 조합을 공급하는 시뮬레이션 서브시스템을 추가로 포함한다. 시스템은 변이체 필터에 의한 분석을, 오버레이 샘플 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시키는 변이체 필터 서브시스템을 포함한다. 마지막으로, 시스템은 다양한 오프셋으로 반복 패턴의 존재에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어를 디스플레이하는 분석 서브시스템을 포함한다.

다른 구현예는 전술된 시스템의 기능을 수행하기 위해 프로세서에 의해 실행 가능한 명령어를 저장하는 비-일시적 컴퓨터 판독 가능한 저장 매체를 포함할 수 있다. 또 다른 구현예는 전술된 시스템의 기능을 수행하는 방법을 포함할 수 있다.

개시된 기술의 제2 컴퓨터-구현 방법 구현예는 서열-특정 오류를 유발시키는 반복 패턴을 식별하는 것을 포함한다. 본 방법은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 다양한 오프셋으로 시험 중의 반복 패턴을 오버레이시키는 것을 포함한다. 오버레이 샘플 각각은 각 측면 상에서 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는다. 반복 패턴은 반복 패턴에서 단일 염기의 반복 횟수를 지정하는 적어도 6개의 반복 인자를 갖는 단일 염기(A, C, G 또는 T)의 호모폴리머이다. 다양한 오프셋은 뉴크레오타이드 서열 상에 반복 패턴이 오버레이된 위치를 다양하게 한다. 오프셋은 반복 패턴의 본래 위치와 뉴클레오타이드 서열의 본래 위치 사이의 오프셋으로서 측정 가능하다. 일 구현예에서, 적어도 10개의 오프셋은 오버레이 샘플을 형성하기 위해 사용된다.

컴퓨터-구현 방법은 분석을 위한 변이체 필터에, 적어도 100개의 오버레이 샘플의 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 각 조합을 공급하는 것을 포함한다. 이후에, 변이체 필터에 의한 분석을 오버레이 샘플 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시킨다. 마지막으로, 컴퓨터-구현 방법은 다양한 오프셋으로 반복 패턴의 존재에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어를 디스플레이한다.

컴퓨터 판독 가능한 매체(CRM) 구현예는 전술된 바와 같이 컴퓨터-구현 방법을 수행하기 위해 프로세서에 의해 실행 가능한 명령어를 저장하는 비-일시적 컴퓨터 판독 가능한 저장 매체를 포함한다. 다른 CRM 구현예는 전술된 바와 같이 컴퓨터-구현 방법을 수행하기 위해, 메모리, 및 메모리에 저장된, 명령어를 실행하도록 작동 가능한 하나 이상의 프로세서를 포함하는 시스템을 포함할 수 있다.

개시된 기술의 제3 시스템 구현예는 메모리에 연결된 하나 이상의 프로세서를 포함한다. 메모리에는 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위한 컴퓨터 명령어가 로딩되어 있다. 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 오버레이시키는, 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 작동하는, 입력 준비 서브시스템을 포함한다. 오버레이 샘플 각각은 각 측면 상에서 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는다. 반복 패턴은 반복 패턴에서 적어도 2개의 염기의 반복 횟수를 지정하는 적어도 6개의 반복 인자를 갖는 4개의 염기(A, C, G 및 T)로부터의 적어도 2개의 염기의 코폴리머이다. 시스템은 분석을 위한 변이체 필터에 적어도 100개의 오버레이 샘플의 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 각 조합을 공급하는, 병렬로 작동하고 메모리에 연결된 다수의 프로세서 상에서 작동하는 시뮬레이션 서브시스템을 포함한다. 시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행되는 변이체 필터 서브시스템을 포함한다. 변이체 필터 서브시스템은 변이체 필터에 의한 분석을 오버레이 샘플 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시킨다. 마지막으로, 시스템은 반복 패턴에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어를 디스플레이하는, 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행되는 분석 서브시스템을 포함한다.

개시된 이러한 시스템 구현예 및 다른 시스템은 선택적으로, 하기 특징들 중 하나 이상을 포함한다. 시스템은 개시된 방법은 또한, 개시된 방법과 관련하여 기술된 특징을 포함할 수 있다. 간결하게 하기 위해, 시스템 특징들의 대안적인 조합은 개별적으로 나열되지 않는다. 시스템, 방법 및 제조품에 적용 가능한 특징은 각 법정 클래스 세트의 베이스 특징들에 대해 반복되지 않는다. 독자는 이러한 부문에서 식별된 특징들이 다른 법정 부류에서 기본 특징과 어떻게 용이하게 조합될 수 있는 지를 이해할 것이다.

반복 패턴은 다양한 반복 인자 및 다양한 패턴 길이의 보조패턴의 조합 나열이다.

개시된 기술의 제3 컴퓨터-구현 방법 구현예는 서열-특정 오류를 유발시키는 반복 패턴을 식별하는 것을 포함한다. 본 방법은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 오버레이시키는 것을 포함한다. 오버레이 샘플 각각은 각 측면 상에서 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는다. 반복 패턴은 반복 패턴의 적어도 2개의 염기의 반복 횟수를 지정하는 적어도 6개의 반복 인자를 갖는 4개의 염기(A, C, G 및 T)로부터의 적어도 2개의 염기의 코폴리머이다. 본 방법은 분석을 위한 변이체 필터에 적어도 100개의 오버레이 샘플의 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 각 조합을 공급하는 것을 포함한다. 본 방법은 변이체 필터에 의한 분석을, 오버레이 샘플 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시키는 것을 포함한다. 마지막으로, 본 방법은 반복 패턴에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각의 분포로서 분류 스코어를 디스플레이하는 것을 포함한다.

제3 시스템 구현예에 대한 이러한 특정 구현 부문에서 논의된 특징들 각각은 이러한 컴퓨터-구현 방법 구현예에 동일하게 적용한다. 상기에서 명시된 바와 같이, 모든 시스템 특징은 여기에서 반복되지 않고, 참조에 의해 반복되는 것으로 간주되어야 한다.

컴퓨터 판독 가능한 매체(CRM) 구현예는 전술된 바와 같이 컴퓨터-구현 방법을 실행하기 위해 프로세서에 의해 실행 가능한 명령어를 저장하는 비-일시적 컴퓨터 판독 가능한 저장 매체를 포함한다. 다른 CRM 구현예는 전술된 바와 같이 컴퓨터-구현 방법을 실행하기 위해, 메모리, 및 메모리에 저장된, 명령어를 실행시키도록 작동 가능한 하나 이상의 프로세서를 포함하는 시스템을 포함할 수 있다.

제3 시스템 구현예에 대한 이러한 특정 구현예 부문에서 논의된 특징들 각각은 이러한 CRM 구현예에 동일하게 적용한다. 상기에서 명시된 바와 같이, 모든 시스템 특징은 여기에서 반복되지 않고, 참조에 의해 반복되는 것으로 간주되어야 한다.

개시된 기술의 제4 시스템 구현예는 메모리에 연결된 하나 이상의 프로세서를 포함한다. 메모레에는 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위한 컴퓨터 명령어가 로딩되어 있다. 시스템은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 다양한 오프셋으로 시험 중인 반복 패턴을 오버레이시키는, 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 입력 준비 서브시스템을 포함한다. 오버레이 샘플 각각은 각 측면 상에서 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는다. 반복 패턴은 반복 패턴에서 적어도 2개의 염기의 반복 횟수를 지정하는 적어도 6개의 반복 인자를 갖는 4개의 염기(A, C, G 및 T)로부터의 적어도 2개의 염기의 코폴리머이다. 다양한 오프셋은 뉴크레오타이드 서열 상에 반복 패턴이 오버레이된 위치를 다양하게 한다. 다양한 오프셋은 반복 패턴의 본래 위치와 뉴클레오타이드 서열의 본래 위치 간의 오프셋으로서 측정 가능하다. 일 구현예에서, 적어도 10개의 오프셋은 오버레이 샘플을 형성하기 위해 사용된다.

시스템은 반복 패턴의 각 조합을 공급하는, 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 시뮬레이션 서브시스템을 포함한다. 반복 패턴은 분석을 위한 변이체 필터에 대한 적어도 100개의 오버레이 샘플에서 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된다. 시스템은 또한, 변이체 필터에 의한 분석을 오버레이 샘플 각각에서의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시키는, 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 변이체 필터 서브시스템을 포함한다. 마지막으로, 시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 분석 서브시스템을 포하만다. 분석 서브시스템은 다양한 오프셋으로 반복 패턴의 존재에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어를 디스플레이한다.

개시된 기술의 제4 컴퓨터-구현 방법 구현예는 서열-특정 오류를 유발시키는 반복 패턴을 식별하는 것을 포함한다. 컴퓨터-구현 방법은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 시험 중인 반복 패터을 오버레이시키는 것을 포함한다. 오버레이 샘플 각각은 각 측면 상에서 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는다. 반복 패턴은 적어도 6개의 반복 인자를 갖는 4개의 염기(A, C, G 및 T)로부터의 적어도 2개의 염기의 코폴리머이다. 반복 인자는 반복 패턴에서 적어도 2개의 염기의 반복 횟수를 지정한다. 다양한 오프셋은 뉴크레오타이드 서열 상에 반복 패턴이 오버레이된 위치를 다양하게 한다. 반복 인자는 반복 패턴의 본래 위치와 뉴클레오타이드 서열의 본래 위치 간의 오프셋으로서 측정 가능하다. 일 구현예에서, 적어도 10개의 오프셋은 오버레이 샘플을 형성하기 위해 사용된다. 컴퓨터-구현 방법은 분석을 위한 변이체 필터에 적어도 100개의 오버레이 샘플의 적어도 100개의 뉴클레오타이드 서열 상에 중춥된 반복 패턴의 각 조합을 공급하는 것을 포함한다. 컴퓨터-구현 방법은 변이체 필터에 의한 분석을, 오버레이 샘플 각각에서의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시키는 것을 추가로 포함한다. 마지막으로, 컴퓨터-구현 방법은 다양한 오프셋으로 반복 패턴의 존재에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어를 디스플레이하는 것을 포함한다.

컴퓨터 판독 가능한 매체(CRM) 구현예는 전술된 바와 같이 컴퓨터-구현 방법을 실행하기 위해 프로세서에 의해 실행 가능한 명령어를 저장하는 비-일시적 컴퓨터 판독 가능한 저장 매체를 포함한다. 다른 CRM 구현예는 전술된 바와 같이 컴퓨터-구현 방법을 실행하기 위해 메모리, 및 메모리에 저장된, 명령어를 실행시키도록 작동 가능한 하나 이상의 프로세서를 포함하는 시스템을 포함할 수 있다.

개시된 기술의 제5 시스템 구현예는 메모리에 연결된 하나 이상의 프로세서를 포함한다. 메모레에는 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위한 컴퓨터 명령어가 로딩되어 있다. 시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 입력 준비 서브시스템을 포함한다. 입력 준비 서브시스템은 천연 DNA 뉴클레오타이드 서열로부터 샘플 뉴클레오타이드 서열을 선택한다. 샘플 뉴클레오타이드 서열 각각은 각 측면 상에 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 코폴리머의 하나 이상의 자연발생 반복 패턴 및 변이체 뉴클레오타이드를 갖는다. 시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 시뮬레이션 서브시스템을 포함한다. 시뮬레이션 서브시스템은 분석을 위한 변이체 필터에 샘플 뉴클레오타이드 서열 각각을 공급한다.

시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 변이체 필터 서브시스템을 포함한다. 변이체 필터 서브시스템은 변이체 필터에 의한 분석을, 샘플 뉴클레오타이드 서열 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시키고, 분석에 반응하여 변이체 필터의 파라미터의 입수 가능한 활성화를 만든다. 마지막으로, 시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 분석 서브시스템을 포함한다. 분석 서브시스템은 변이체 필터의 파라미터의 활성화를 분석하고, 거짓 변이체 분류에 기여하는 샘플 뉴클레오타이드 서열 각각에서 코폴리머의 자연발생 반복 패턴의 표현을 디스플레이한다.

개시된 기술의 제5 컴퓨터-구현 방법은 서열-특정 오류를 유발시키는 반복 패턴을 식별하는 것을 포함한다. 컴퓨터-구현 방법은 천연 DNA 뉴클레오타이드 서열로부터 샘플 뉴클레오타이드 서열을 선택하는 것을 포함한다. 샘플 뉴클레오타이드 서열 각각은 코폴리머의 하나 이상의 자연발생 반복 패턴, 및 각 측면 상에 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는다. 컴퓨터-구현 방법은 분석을 위한 변이체 필터에 샘플 뉴클레오타이드 서열 각각을 공급하는 것을 포함한다. 본 방법은 변이체 필터에 의한 분석을, 샘플 뉴클레오타이드 서열 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시키는 것을 포함한다. 컴퓨터-구현 방법은 분석에 반응하여 변이체 필터의 파라미터의 입수 가능한 활성화를 만든다. 마지막으로, 컴퓨터-구현 방법은 변이체 필터의 팔라미터의 활성화를 분석하고 거짓 변이체 분류에 기여하는 샘플 뉴클레오타이드 서열 각각의 코폴리머의 자연발생 반복 패턴의 표현을 디스플레이하는 것을 포함한다.

개시된 기술은 서열-특정 오류를 유발하는 반복 패턴을 식별하기 위한 시스템을 제시한다.

시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서를 실행하는 입력 준비 서브시스템을 포함한다. 입력 준비 서브시스템은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 오버레이시킨다. 오버레이 샘플 각각은 각 측면 상에서 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는다. 반복 패턴은 적어도 6개의 반복 인자와 함께 4개의 염기(A, C, G 및 T)로부터의 적어도 1개의 염기를 포함한다.

시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 시뮬레이션 서브시스템을 포함한다. 시뮬레이션 서브시스템은 분석을 위한 변이체 필터에 적어도 100개의 오버레이 샘플에서 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 각 조합을 공급한다.

시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 변이체 필터 서브시스템을 포함한다. 변이체 필터 서브시스템은 변이체 필터에 의한 분석을, 오버레이 샘플 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시킨다.

시스템은 병렬로 작동하고 메모리에 연결된 다수의 프로세서에서 실행하는 분석 서브시스템을 포함한다. 분석 서브시스템은 반복 패턴에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어를 디스플레이한다.

제1 시스템 구현예에 대한 이러한 특정 구현예 부문에서 논의된 특징들 각각은 이러한 시스템 구현예에 동일하게 적용한다. 상기에서 명시된 바와 같이, 모든 시스템 특징은 여기에서 반복되지 않고, 참조에 의해 반복되는 것으로 간주되어야 한다.

일 구현예에서, 반복 패턴은 반복 패턴에서 단일 염기의 반복 횟수를 지정하는 적어도 6개의 반복 인자를 갖는 단일 염기(A, C, G 또는 T)의 호모폴리머이다.

다른 구현예에서, 반복 패턴은 반복 패턴에서 적어도 2개의 염기의 반복 횟수를 지정하는 적어도 6개의 반복 인자를 갖는 4개의 염기(A, C, G 및 T)로부터의 적어도 2개의 염기의 코폴리머이다.

일부 구현예에서, 입력 준비 서브시스템은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 다양한 오프셋으로 시험 중인 반복 패턴을 오버레이시키도록 더 구성된다. 다양한 오프셋은 반복 패턴의 본래 위치와 뉴클레오타이드 서열의 본래 위치 간에 오프셋으로서 측정 가능한, 뉴클레오타이드 서열 상에 반복 패턴이 오버레이된 위치를 다양하게 하며, 적어도 10개의 오프셋이 오버레이 샘플을 형성하기 위해 사용된다. 이러한 구현예에서, 분석 서브시스템은 다양한 오프셋으로 반복 패턴의 존재에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어를 디스플레이하도록 더 구성된다.

일 구현예에서, 반복 패턴은 오버레이 샘플에서 중심 뉴클레오타이드의 우측에 존재하고 중심 뉴클레오타이드에 오버레이되지 않는다. 다른 구현예에서, 반복 패턴은 오버레이 샘플에서 중심 뉴클레오타이드의 좌측에 존재하고, 중심 뉴클레오타이드에 오버레이되지 않는다. 다른 구현예에서, 반복 패턴은 오버레이 샘플에서 중심 뉴클레오타이드를 포함한다.

반복 인자는 5 내지 오버레이 샘플에서 뉴클레오타이드의 총수의 1/4의 범위의 정수이다. 시스템은 4개의 염기(A, C, G 및 T) 각각에 대한 단일 염기의 호모폴리머인 반복 패턴을 적용하도록 더 구성된다.

입력 준비 서브시스템은 4개의 염기 각각에 대한 호모폴리머에 대한 반복 패턴 및 오버레이 샘플을 형성하도록 더 구성되며, 분석 서브시스템은 병렬로 호모폴리머 각가에 대한 분류 스코어 분포를 디스플레이하도록 더 구성된다.

반복 패턴은 오버레이 샘플에서 중심 뉴클레오타이드에 대해 우측에 존재하며, 병치는 중심 뉴클레오타이드에 대해 우측에 오버레이된 호모폴리머에 적용된다. 반복 패턴은 오버레이 샘플에서 중심 뉴클레오타이드에 대해 좌측에 존재하며, 병치는 중심 뉴클레오타이드에 대해 좌측에 오버레이된 호모폴리머에 적용된다. 반복 패턴인 오버레이 뉴클레오타이드 서열은 무작위적으로 발생된다. 반복 패턴이 오버레이 뉴클레오타이드 서열은 자연발생 DNA 뉴클레오타이드 서열로부터 무작위적으로 선택된다. 분석 서브시스템은 박스-앤드-위스커 플롯을 이용하여 반복 인자 각각에 대한 분류 스코어 분포를 디스플레이하도록 더 구성된다.

변이체 필터는 참 변이체의 적어도 500000 트레이닝 예들, 및 거짓 변이체의 적어도 50000 트레이닝 예들로 트레이닝된다. 각 트레이닝 예는 각 측면 상에 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 변이체 뉴클레오타이드를 갖는 뉴클레오타이드 서열이다. 변이체 필터는 2개의 컨불루션층 및 완전-연결층을 갖는 컨볼루션 신경망(CNN)이다.

개시된 기술은 서열-특정 오류를 유발하는 반복 패턴을 식별하는 컴퓨터-구현 방법을 제시한다.

컴퓨터-구현 방법은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 오버레이시키는 것을 포함한다.

컴퓨터-구현 방법은 분석을 위한 변이체 필터에 적어도 100개의 오버레이 샘플의 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 각 조합을 공급하는 것을 포함한다.

컴퓨터-구현 방법은 변이체 필터에 의한 분석을, 오버레이 샘플 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어로 전환시키는 것을 포함한다.

컴퓨터-구현 방법은 반복 패턴에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어를 디스플레이하는 것을 포함한다.

제1 시스템 구현예에 대한 이러한 특정 구현예 부문에서 논의된 특징들 각각은 이러한 컴퓨터-구현 방법 구현예에 동일하게 적용한다. 상기에서 명시된 바와 같이, 모든 시스템 특징은 여기에서 반복되지 않고, 참조에 의해 반복되는 것으로 간주되어야 한다.

개시된 기술은 뉴클레오타이드 서열분석 데이터에서 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위한 다른 시스템을 제시한다. 시스템은 하나 이상의 프로세서, 및 입력 준비 서브시스템, 변이체 필터 서브시스템, 및 하나 이상의 프로레서에서 실행할 때 반복 패턴 출력 서브시스템을 구현하기 위해 하나 이상의 프로세서를 야기시키는 명령어를 저장하는 하나 이상의 저장 장치를 포함한다.

입력 준비 서브시스템은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 오버레이시키도록 구성된다. 오버레이 샘플 각각은 변이체 뉴클레오타이드를 가지며, 반복 패턴은 4개의 염기(A, C, G 및 T)로부터의 적어도 1개의 염기를 포함한다.

변이체 필터 서브시스템은 오버레이 샘플 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어를 발생시키기 위해 오버레이 샘플의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 각 조합을 처리하도록 구성된다.

반복 패턴 출력 서브시스템은 분류 스코어를 기초로 하여 뉴클레오타이드 서열분석 데이터에서 서열-특정 오류를 유발시키는 반복 패턴 중 특정 반복 패턴을 출력하도록 구성된다.

시스템은 반복 패턴에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각의 분포로서 분류 스코어를 디스플레이하도록 구성된 분석 서브시스템을 포함하도록 더 구성된다.

개시된 기술은 뉴클레오타이드 서열분석 데이터에서 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위한 다른 시스템을 제시한다. 시스템은 하나 이상의 프로세서, 및 하나 이상의 프로세서 상에서 실행될 때, 입력 준비 서브시스템, 변이체 필터 서브시스템, 및 하나 이상의 프로세서가 반복 패턴 출력 서브시스템을 구현시키게 하는 명령어를 저장하는 하나 이상의 저장 장치를 포함한다.

반복 패턴 출력 서브시스템은 분류 스코어를 기초로 하여 뉴클레오타이드 서열분석 데이터의 서열-특정 오류를 유발시키는 반복 패턴 중 특정 반복 패턴을 출력하도록 구성된다.

시스템은 반복 패턴에 의한 서열-특정 오류 원인의 평가를 지지하기 위해 반복 인자 각각에 대한 분포로서 분류 스코어를 디스플레이하도록 구성된 분석 서브시스템을 포함하도록 더 구성된다.

개시된 기술은 뉴클레오타이드 서열분석 데이터에서 서열-특정 오류를 유발시키는 반복 패턴을 식별하는 컴퓨터-구현 방법을 제시한다.

컴퓨터-구현 방법은 오버레이 샘플을 형성하기 위해 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 오버레이시키는 것을 포함한다. 오버레이 샘플 각각은 변이체 뉴클레오타이드를 가지며, 반복 패턴은 4개의 염기(A, C, G 및 T)로부터의 적어도 1개의 염기를 포함한다.

컴퓨터-구현 방법은 오버레이 샘플 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어를 발생시키기 위해 변이체 필터 서브시스템을 통해 오버레이 샘플의 뉴클레오타이드 서열 상에 오버레이 반복 패턴의 각 조합을 처리하는 것을 포함한다.

컴퓨터-구현 방법은 분류 스코어를 기초로 하여 뉴클레오타이드 서열분석 데이터에서 서열-특정 오류를 유발시키는 반복 패턴 중 특정 반복 패턴을 출력하는 것을 포함한다.

개시된 기술은 뉴클레오타이드 서열분석 데이터에서 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위한 다른 시스템을 제시한다. 시스템은 하나 이상의 프로세서, 및 하나 이상의 프로세서에서 실행될 때, 하나 이상의 프로세서가 입력 준비 서브시스템, 변이체 필터 서브시스템, 및 반복 패턴 출력 서브시스템을 구현시키게 하는 명령어를 저장하는 하나 이상의 저장 장치를 포함한다.

입력 준비 서브시스템은 천연 DNA 뉴클레오타이드 서열로부터 샘플 뉴클레오타이드 서열을 선택하도록 구성된다. 샘플 뉴클레오타이드 서열 각각은 코폴리머의 하나 이상의 자연발생 반복 패턴 및 변이체 뉴클레오타이드를 갖는다.

변이체 필터 서브시스템은 샘플 뉴클레오타이드 서열 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어를 발생시키기 위해 샘플 뉴클레오타이드 서열 각각을 처리하도록 구성된다.

반복 패턴 출력 서브시스템은 분석에 반응하여 변이체 필터 서브시스템의 파라미터의 입수 가능한 활성화를 만들고 분류 스코어를 기초로 하여 뉴클레오타이드 서열분석 데이터에서 서열-특정 오류를 유발시키는 반복 패턴 중 특정 반복 패턴을 출력하도록 구성된다.

시스템은 변이체 필터 서브시스템의 파라미터의 활성화를 분석하고 거짓 변이체 분류에 기여하는 샘플 뉴클레오타이드 서열 각각에서 코폴리머의 자연발생 반복 패턴의 표현을 디스플레이하도록 구성된 분석 서브시스템을 포함하도록 더 구성된다.

컴퓨터-구현 방법은 천연 DNA 뉴클레오타이드 서열로부터 샘플 뉴클레오타이드 서열을 선택하는 것을 포함한다. 샘플 뉴클레오타이드 서열 각각은 코폴리머의 하나 이상의 자연발생 반복 패턴 및 변이체 뉴클레오타이드를 갖는다.

컴퓨터-구현 방법은 샘플 뉴클레오타이드 서열 각각의 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어를 발생시키기 위해 변이체 필터 서브시스템을 통해 샘플 뉴클레오타이드 서열 각각을 처리하는 것을 포함한다.

컴퓨터-구현 방법은 분석에 반응하여 변이체 필터 서브시스템의 파라미터의 입수 가능한 활성화를 만드는 것을 포함한다.

상기에서 기술되거나 참조된 임의의 데이터 구조 및 코드는 컴퓨터-판독 가능한 저장 매체 상의 여러 구현예에 따라 저장되며, 이는 컴퓨터 시스템에 의해 사용하기 위한 코드 및/또는 데이터를 저장할 수 있는 임의의 디바이스 또는 매체일 수 있다. 이러한 것은 휘발성 메모리, 비-휘발성 메모리, 주문형 집적 회로(ASIC), 필드-프로그래밍 가능한 게이트 어레이(FPGA), 자기 및 광학 저장 장치, 예를 들어, 디스크 드라이브, 자기 테이프, CD(컴팩트 디스크), DVD(디지털 다목적 디스크 또는 디지털 비디오 디스크), 또는 현재 공지되거나 후에 개발될 컴퓨터-판독 가능한 매체를 저장할 수 있는 다른 배체를 포함하지만, 이로 제한되지 않는다.

상기 설명은 개시된 기술의 제조 및 이용을 가능하게 하기 위해 제시된다. 개시된 구현예에 대한 다양한 변형은 명백할 것이며, 본 명세서에서 규정된 일반적인 원리는 개시된 기술의 사상 및 범위를 벗어나지 않고 다른 구현예 및 적용에 적용될 수 있다. 이에 따라, 개시된 기술은 도시된 구현예로 제한되도록 의도되지 않고, 본 명세서에 개시된 원리 및 특징과 일치하는 가장 넓은 범위에 따라야 한다. 개시된 기술의 범위는 첨부된 청구범위에 의해 규정된다.

조항(clause)

본 개시내용은 또한 하기 조항을 포함한다:

1. 뉴클레오타이드 서열분석 데이터에서 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위한 시스템으로서,

하나 이상의 프로세서, 및 명령어를 저장하는 하나 이상의 저장 장치를 포함하되, 명령어는, 하나 이상의 프로세서 상에서 실행될 때, 상기 하나 이상의 프로세서로 하여금,

다수의 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 컴퓨터 계산으로 오버레이하고 오버레이 샘플을 생성하도록 구성된 입력 준비 서브시스템으로서,

각 반복 패턴은 특정 길이를 가지고 특정 오프셋 위치에서 오버레이 샘플에 나타나는 특정 뉴클레오타이드 조성을 나타내고,

각 오버레이 샘플은 변이체 뉴클레오타이드인 것으로 여겨지는 타깃 위치를 가지고, 특정 뉴클레오타이드 조성, 특정 길이 및 특정 오프셋 위치의 각 조합에 대하여, 한 세트의 오버레이 샘플이 컴퓨터 계산으로 생성되는, 상기 입력 준비 서브시스템;

컨볼루션 신경망을 통해 오버레이 샘플을 처리하고, 컨볼루션 신경망의 컨볼루션 필터에 의해 오버레이 샘플 내 뉴클레오타이드 패턴의 검출을 기초로 하여, 오버레이 샘플 각각에서 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어를 생성하도록 구성된 사전-트레이닝된 변이체 필터 서브시스템;

반복 패턴의 존재에 기인하는 거짓 변이체 분류에 대한 사전-트레이닝된 변이체 필터 서브시스템의 감수성을 나타내는 분류 스코어의 분포를 출력하도록 구성된 반복 패턴 출력 서브시스템; 및

임계치를 기초로 하여, 분류 스코어의 서브세트를 거짓 변이체 분류를 나타내는 것으로서 지정하고, 거짓 변이체 분류를 나타내는 분류 스코어의 서브세트와 관련된 그러한 반복 패턴을 서열-특정 오류를 유발시키는 것으로서 분류하도록 구성된 서열-특정 오류 상관 서브시스템

을 구현하게 하는, 시스템.

2. 조항 1에 있어서, 서열-특정 오류 상관 서브시스템이,

서열-특정 오류를 유발시키는 것으로서 분류된 반복 패턴의 특정 길이 및 특정 오프셋 위치를 또한 서열-특정 오류를 유발시키는 것으로서 분류하도록 더 구성된, 시스템.

3. 조항 1 또는 2에 있어서, 변이체 뉴클레오타이드가 각 측면 상에 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에 존재하는, 시스템.

4. 조항 1 내지 3 중 어느 한 항에 있어서, 사전-트레이닝된 변이체 필터 서브시스템이 적어도 100개의 오버레이 샘플에서 적어도 100개의 뉴클레오타이드 서열 상에 오버레이된 반복 패턴의 각 조합을 처리하도록 구성된, 시스템.

5. 조항 1 내지 5 중 어느 한 항에 있어서, 반복 패턴이 적어도 6개의 반복 인자를 갖는 4개의 염기(A, C, G 및 T)로부터의 적어도 1개의 염기를 포함하는, 시스템.

6. 조항 5에 있어서, 반복 패턴이 적어도 6개의 반복 인자를 갖는 단일 염기(A, C, G 또는 T)의 호모폴리머이고; 그리고

적어도 6개의 반복 인자는 반복 패턴에서 단일 염기의 반복 수를 특정하는, 시스템.

7. 조항 1 내지 6 중 어느 한 항에 있어서, 반복 패턴이 적어도 6개의 반복 인자를 갖는 4개의 염기(A, C, G 및 T)로부터 적어도 2개의 염기의 코폴리머이고; 그리고

적어도 6개의 반복 인자는 반복 패턴에서 적어도 2개의 염기의 반복 수를 특정하는, 시스템.

8. 조항 1 내지 7 중 어느 한 항에 있어서, 오프셋 위치가 반복 패턴의 본래 위치와 뉴클레오타이드 서열의 본래 위치 간의 오프셋으로서 측정 가능한, 뉴클레오타이드 서열 상에 오버레이된 위치의 관점에서 다양하며, 적어도 10개의 오프셋은 오버레이 샘플을 형성하기 위해 사용되는, 시스템.

9. 조항 1 내지 8 중 어느 한 항에 있어서, 반복 패턴이 오버레이 샘플에서 중심 뉴클레오타이드의 우측에 존재하고, 중심 뉴클레오타이드와 중첩하지 않는, 시스템.

10. 조항 1 내지 9 중 어느 한 항에 있어서, 반복 패턴이 오버레이 샘플에서 중심 뉴클레오타이드의 좌측에 존재하고, 중심 뉴클레오타이드와 중첩하지 않는, 시스템.

11. 조항 1 내지 10 중 어느 한 항에 있어서, 반복 패턴이 오버레이 샘플에서 중심 뉴클레오타이드를 포함하는, 시스템.

12. 조항 1 내지 11 중 어느 한 항에 있어서, 반복 인자가 5 내지 오버레이 샘플에서의 뉴클레오타이드의 총수의 1/4의 범위의 정수인 시스템.

13. 조항 6에 있어서, 4개의 염기(A, C, G 및 T) 각각에 대한 단일 염기의 호모폴리머인 반복 패턴에 적용하도록 더 구성된, 시스템.

14. 조항 13에 있어서, 입력 준비 서브시스템이 4개의 염기 각각에 대한 호모폴리머를 위한 반복 패턴 및 오버레이 샘플을 형성하도록 더 구성된, 시스템.

15. 조항 14에 있어서, 반복 패턴이 오버레이 샘플에서 중심 뉴클레오타이드의 우측에 있으며, 병치가 중심 뉴클레오타이드에 대해 우측에 오버레이된 호모폴리머에 적용되는, 시스템.

16. 조항 14에 있어서, 반복 패턴이 오버레이 샘플에서 중심 뉴클레오타이드의 좌측에 있으며, 병치가 중심 뉴클레오타이드에 대해 좌측에 오버레이된 호모폴리머에 적용되는, 시스템.

17. 조항 1 내지 16 중 어느 한 항에 있어서, 반복 패턴이 오버레이된 뉴클레오타이드 서열이 무작위적으로 생성된, 시스템.

18. 조항 1 내지 17 중 어느 한 항에 있어서, 반복 패턴이 오버레이된 뉴클레오타이드 서열이 자연발생 DNA 뉴클레오타이드 서열로부터 무작위적으로 선택된, 시스템.

19. 조항 1 내지 18 중 어느 한 항에 있어서, 분석 서브시스템이 반복 인자 각각에 대한 분류 스코어의 분포를 디스플레이하도록 구성된, 시스템.

20. 조항 1 내지 19 중 어느 한 항에 있어서, 사전-트레이닝된 변이체 필터 서브시스템이 참 변이체의 적어도 500000 트레이닝 예들 및 거짓 변이체의 적어도 50000 트레이닝 예들에서 트레이닝되며,

각 트레이닝 예는 각 측면 상에 적어도 20개의 뉴클레오타이드가 측접하는 타깃 위치에서 변이체 뉴클레오타이드를 갖는 뉴클레오타이드 서열인 시스템.

21. 조항 1 내지 20 중 어느 한 항에 있어서, 사전 트레이닝된 변이체 필터 서브시스템이 컨볼루션층, 완전-연결층 및 분류층을 갖는, 시스템.

22. 뉴클레오타이드 서열분석 데이터에서 서열-특정 오류를 유발시키는 반복 패턴을 식별하는 컴퓨터-구현 방법으로서,

다수의 뉴클레오타이드 서열 상에 시험 중인 반복 패턴을 컴퓨터 계산으로 오버레이하고 오버레이 샘플을 생성시키는 단계로서, 각 반복 패턴은 특정 길이를 가지고 특정 오프셋 위치에서 오버레이 샘플에 나타나는 특정 뉴클레오타이드 조성을 나타내며, 각 오버레이 샘플은 변이체 뉴클레오타이드인 것으로 여겨지는 타깃 위치를 가지며, 특정 뉴클레오타이드 조성, 특정 길이 및 특정 오프셋 위치의 각 조합에 대하여, 한 세트의 오버레이 샘플이 컴퓨터 계산으로 생성되는 단계;

컨볼루션 신경망을 통해 오버레이 샘플을 처리하고, 컨볼루션 신경망의 컨볼루션 필터에 의해 오버레이 샘플 내 뉴클레오타이드 패턴의 검출을 기초로 하여, 오버레이 샘플 각각에서 변이체 뉴클레오타이드가 참 변이체 또는 거짓 변이체일 가능성에 대한 분류 스코어를 생성시키는 단계;

반복 패턴의 존재에 기인하는 거짓 변이체 분류에 대한 사전-트레이닝된 변이체 필터 서브시스템의 감수성을 나타내는 분류 스코어의 분포를 출력하는 단계; 및

임계치를 기초로 하여, 분류 스코어의 서브세트를 거짓 변이체 분류를 나타내는 것으로서 지정하고 거짓 변이체 분류를 나타내는 분류 스코어의 서브세트와 관련된 그러한 반복 패턴을 서열-특정 오류를 유발시키는 것으로서 분류하는 단계를 포함하는, 컴퓨터-구현 방법.

23. 조항 22에 있어서, 궁극적으로 조항 1의 종속항인 항들 각각을 구현하는, 컴퓨터-구현 방법.

24. 뉴클레오타이드 서열분석 데이터에서 서열-특정 오류를 유발시키는 반복 패턴을 식별하기 위해 컴퓨터 프로그램 명령어가 부여되는 비-일시적 컴퓨터 판독 가능한 저장 매체로서,

명령어는, 프로세서 상에서 실행될 때,

다수의 뉴클레오타이드 서열 상에 시험 중에 반복 패턴을 컴퓨터 계산으로 오버레이하고 오버레이 샘플을 생성하는 단계로서, 각 반복 패턴은 특정 길이를 가지고 특정 오프셋 위치에서 오버레이 샘플에 나타나는 특정 뉴클레오타이드 조성을 나타내고, 각 오버레이 샘플은 변이체 뉴클레오타이드인 것으로 여겨지는 타깃 위치를 가지고, 특정 뉴클레오타이드 조성, 특정 길이 및 특정 오프셋 위치의 각 조합에 대하여, 한 세트의 오버레이 샘플이 컴퓨터 계산으로 생성되는, 상기 오버레이 샘플을 생성하는 단계;

임계치를 기초로 하여, 분류 스코어의 서브세트를 거짓 변이체 분류를 나타내는 것으로서 지정하고 상기 거짓 변이체 분류를 나타내는 분류 스코어의 서브세트와 관련된 그러한 반복 패턴을 서열-특정 오류를 유발시키는 것으로서 분류시키는 단계를 포함하는 컴퓨터-구현 방법을 구현하는, 비-일시적 컴퓨터 판독 가능한 저장 매체.

25. 궁극적으로 조항 1의 종속항인 항들 각각을 구현하는, 조항 24의 비-일시적 컴퓨터 판독 가능한 저장 매체.

Claims

훈련된 컨볼루션 신경망에 의해, 뉴클레오타이드의 변이체 서열에서의 변이체 뉴클레오타이드의 정확한 분류에 대한 뉴클레오타이드 반복 패턴의 영향을 평가하도록 구성된 시스템으로서,
뉴클레오타이드 반복 패턴의 세트에 대해, 각각의 변이체 뉴클레오타이드 전 또는 후에 하나 이상의 거리에서 각각의 변이체 서열에서의 일부 뉴클레오타이드를 대체하는 각각의 반복 패턴을 오버레이함으로써, 변형된 변이체 서열을 준비하도록 구성된 입력 준비 서브시스템으로서, 각각의 변이체 서열은, 변형 전에, 각각의 변이체 뉴클레오타이드의 실측 자료 식별(ground truth identification)을 참 또는 거짓 변이체로 갖는, 상기 입력 준비 서브시스템;
상기 변이체 뉴클레오타이드가 참 변이체인지 거짓 변이체인지에 대한 분류 스코어를 생성하기 위해, 상기 훈련된 컨볼루션 신경망을 통해 상기 변형된 변이체 서열을 처리하도록 구성된 테스트 서브시스템; 및
상기 분류 스코어를 실측 자료와 비교함으로써, 상기 훈련된 컨볼루션 신경망에 의해 생성된 분류 스코어의 정확한 생성에 부정적인 영향을 미치는 상기 뉴클레오타이드 반복 패턴의 서브세트를 식별하도록 구성된 오류 검출 및 보고 서브시스템을 포함하는, 시스템.
제1항에 있어서, 상기 뉴클레오타이드 반복 패턴은 상기 뉴클레오타이드 반복 패턴의 각각에서의 단일 염기(A, C, G 및 T) 또는 적어도 2개의 염기의 반복 횟수를 특정하는, 시스템.
제1항에 있어서, 상기 뉴클레오타이드 반복 패턴은 반복되는 단일 염기 또는 적어도 2개의 염기에 대한 적어도 6개의 별개의 반복 횟수를 포함하는, 시스템.
제1항에 있어서, 상기 오류 검출 및 보고 서브시스템은 분류 스코어의 정확한 생성에 부정적인 영향을 미치는 서브세트에서의 오프셋 위치 및 뉴클레오타이드 반복 패턴의 길이를 보고하도록 더 구성되는, 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 오류 검출 및 보고 서브시스템은 분류 스코어의 정확한 생성에 부정적인 영향을 미치는 서브세트에서의 오프셋 위치 및 뉴클레오타이드 반복 패턴의 길이를 그래프로 나타내도록 더 구성되는, 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 변이체 뉴클레오타이드는 각 측에서 적어도 20개의 뉴클레오타이드에 의해 플랭킹되는, 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 입력 준비 서브시스템은 적어도 100개의 변형된 변이체 서열을 생성하기 위해 적어도 100개의 변이체 서열에 대한 세트에서의 각각의 뉴클레오타이드 반복 패턴을 오버레이하도록 더 구성되는, 시스템.
제1항 내지 제4항 중 어느 한 항에 있어서, 디스플레이를 위해 상기 식별된 서브세트를 보고하도록 더 구성된, 시스템.
훈련된 컨볼루션 신경망에 의해, 뉴클레오타이드의 변이체 서열에서의 변이체 뉴클레오타이드의 정확한 분류에 대한 뉴클레오타이드 반복 패턴의 영향을 평가하기 위한 컴퓨터 프로그램 명령어를 기록한 비일시적 컴퓨터 판독 가능 저장 매체로서, 프로세서에 의해 실행될 때 상기 명령어는 컴퓨터 구현되는 방법을 실행하고, 상기 방법은:
뉴클레오타이드 반복 패턴의 세트에 대해, 각각의 변이체 뉴클레오타이드 전 또는 후에 하나 이상의 거리에서 각각의 변이체 서열에서의 일부 뉴클레오타이드를 대체하는 각각의 반복 패턴을 오버레이함으로써, 변형된 변이체 서열을 준비하는 단계로서, 각각의 변이체 서열은, 변형 전에, 각각의 변이체 뉴클레오타이드의 실측 자료 식별(ground truth identification)을 참 또는 거짓 변이체로 갖는, 상기 준비하는 단계;
상기 변이체 뉴클레오타이드가 참 변이체인지 거짓 변이체인지에 대한 분류 스코어를 생성하기 위해, 상기 훈련된 컨볼루션 신경망을 통해 상기 변형된 변이체 서열을 처리하는 단계; 및
상기 분류 스코어를 실측 자료와 비교함으로써, 상기 훈련된 컨볼루션 신경망에 의해 생성된 분류 스코어의 정확한 생성에 부정적인 영향을 미치는 상기 뉴클레오타이드 반복 패턴의 서브세트를 식별하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
제9항에 있어서, 상기 뉴클레오타이드 반복 패턴은 상기 뉴클레오타이드 반복 패턴의 각각에서의 단일 염기(A, C, G 및 T) 또는 적어도 2개의 염기의 반복 횟수를 특정하는, 비일시적 컴퓨터 판독 가능 저장 매체.
제9항에 있어서, 상기 뉴클레오타이드 반복 패턴은 반복되는 단일 염기 또는 적어도 2개의 염기에 대한 적어도 6개의 별개의 반복 횟수를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
제9항에 있어서, 상기 방법은 분류 스코어의 정확한 생성에 부정적인 영향을 미치는 서브세트에서의 오프셋 위치 및 뉴클레오타이드 반복 패턴의 길이를 보고하는 단계를 더 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
제9항 내지 제12항 중 어느 한 항에 있어서, 상기 방법은 분류 스코어의 정확한 생성에 부정적인 영향을 미치는 서브세트에서의 오프셋 위치 및 뉴클레오타이드 반복 패턴의 길이를 그래프로 나타내는 단계를 더 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
제9항 내지 제12항 중 어느 한 항에 있어서, 상기 변이체 뉴클레오타이드는 각 측에서 적어도 20개의 뉴클레오타이드에 의해 플랭킹되는, 비일시적 컴퓨터 판독 가능 저장 매체.
제9항 내지 제12항 중 어느 한 항에 있어서, 상기 방법은 적어도 100개의 변형된 변이체 서열을 생성하기 위해 적어도 100개의 변이체 서열에 대한 세트에서의 각각의 뉴클레오타이드 반복 패턴을 오버레이하는 단계를 더 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
제9항 내지 제12항 중 어느 한 항에 있어서, 상기 방법은 디스플레이를 위해 상기 식별된 서브세트를 보고하는 단계를 더 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
훈련된 컨볼루션 신경망에 의해, 뉴클레오타이드의 변이체 서열에서의 변이체 뉴클레오타이드의 정확한 분류에 대한 뉴클레오타이드 반복 패턴의 영향을 평가하는 방법으로서,
뉴클레오타이드 반복 패턴의 세트에 대해, 각각의 변이체 뉴클레오타이드 전 또는 후에 하나 이상의 거리에서 각각의 변이체 서열에서의 일부 뉴클레오타이드를 대체하는 각각의 반복 패턴을 오버레이함으로써, 변형된 변이체 서열을 준비하는 단계로서, 각각의 변이체 서열은, 변형 전에, 각각의 변이체 뉴클레오타이드의 실측 자료 식별(ground truth identification)을 참 또는 거짓 변이체로 갖는, 상기 준비하는 단계;
상기 변이체 뉴클레오타이드가 참 변이체인지 거짓 변이체인지에 대한 분류 스코어를 생성하기 위해, 상기 훈련된 컨볼루션 신경망을 통해 상기 변형된 변이체 서열을 처리하는 단계; 및
상기 분류 스코어를 실측 자료와 비교함으로써, 상기 훈련된 컨볼루션 신경망에 의해 생성된 분류 스코어의 정확한 생성에 부정적인 영향을 미치는 상기 뉴클레오타이드 반복 패턴의 서브세트를 식별하는 단계를 포함하는, 방법.
제17항에 있어서, 상기 뉴클레오타이드 반복 패턴은 상기 뉴클레오타이드 반복 패턴의 각각에서의 단일 염기(A, C, G 및 T) 또는 적어도 2개의 염기의 반복 횟수를 특정하는, 방법.
제17항에 있어서, 상기 뉴클레오타이드 반복 패턴은 반복되는 단일 염기 또는 적어도 2개의 염기에 대한 적어도 6개의 별개의 반복 횟수를 포함하는, 방법.
제17항에 있어서, 분류 스코어의 정확한 생성에 부정적인 영향을 미치는 서브세트에서의 오프셋 위치 및 뉴클레오타이드 반복 패턴의 길이를 보고하는 단계를 더 포함하는, 방법.
제17항 내지 제20항 중 어느 한 항에 있어서, 분류 스코어의 정확한 생성에 부정적인 영향을 미치는 서브세트에서의 오프셋 위치 및 뉴클레오타이드 반복 패턴의 길이를 그래프로 나타내는 단계를 더 포함하는, 방법.
제17항 내지 제20항 중 어느 한 항에 있어서, 상기 변이체 뉴클레오타이드는 각 측에서 적어도 20개의 뉴클레오타이드에 의해 플랭킹되는, 방법.
제17항 내지 제20항 중 어느 한 항에 있어서, 적어도 100개의 변형된 변이체 서열을 생성하기 위해 적어도 100개의 변이체 서열에 대한 세트에서의 각각의 뉴클레오타이드 반복 패턴을 오버레이하는 단계 더 포함하는, 방법.
제17항 내지 제20항 중 어느 한 항에 있어서, 상기 실측 자료는 범주적인(categorical), 방법.
제17항 내지 제20항 중 어느 한 항에 있어서, 상기 실측 자료는 분류 스코어인, 방법.
제17항 내지 제20항 중 어느 한 항에 있어서, 디스플레이를 위해 상기 식별된 서브셋을 보고하는 단계를 더 포함하는, 방법.