KR20140006846A - Dna 서열의 데이터 분석 - Google Patents

Dna 서열의 데이터 분석 Download PDF

Info

Publication number
KR20140006846A
KR20140006846A KR1020137019861A KR20137019861A KR20140006846A KR 20140006846 A KR20140006846 A KR 20140006846A KR 1020137019861 A KR1020137019861 A KR 1020137019861A KR 20137019861 A KR20137019861 A KR 20137019861A KR 20140006846 A KR20140006846 A KR 20140006846A
Authority
KR
South Korea
Prior art keywords
sequence
sequences
high quality
data
read
Prior art date
Application number
KR1020137019861A
Other languages
English (en)
Inventor
슈리드하란 스리람
나빈 엘란고
래크쉬미 새스트리-덴트
조셉 페토리노
Original Assignee
다우 아그로사이언시즈 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 다우 아그로사이언시즈 엘엘씨 filed Critical 다우 아그로사이언시즈 엘엘씨
Publication of KR20140006846A publication Critical patent/KR20140006846A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

데이터 분석을 위한 시스템 및 방법이 제공된다. 일 실시예에서, 복수의 서열 및 참조 서열에 관한 서열 데이터를 전자적으로 수신하는 단계, 서열 데이터를 적어도 두 그룹 중의 하나와 연관시키는 단계, 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계, 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계, 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 정렬하는 단계를 포함하는 분석 방법이 제공된다. 방법은 타겟 위치 내의 돌연변이를 식별, 타겟 돌연변이를 디스플레이, 및 기술의 효율성에 따라 돌연변이를 일으키는 기술의 우선순위를 매기는 것을 더 포함한다. 일례에서, 시스템 및 방법은 여러 ZFN 후보의 활동을 특성화하기 위해 이용된다.

Description

DNA 서열의 데이터 분석{DATA ANALYSIS OF DNA SEQUENCES}
본 출원은 2010년 12월 29일자로 출원된 미국 가출원 제61/428,191호 및 2011년 7월 1일자로 출원된 미국 가출원 61/503,784호에 대해 우선권을 주장하고, 전체 개시는 참조로서 원용된다.
징크 핑거 뉴클레아제(zinc finger nucleases, ZFN)는 게놈(genome) 내의 특정 서열에서 DNA 가닥을 잘라서 이중 가닥 절단물(double strand breaks)을 생성하도록 조작할 수 있는 효소이다. 이중 가닥 절단물을 복구하는 하나의 방법은 비상동 말단 접합(non-homologous end joining, NHEJ)이다. NHEJ 매개 복구는 ZFN 절단 부위(cleavage site)에서 임의의 염기 쌍의 삽입 및/또는 결실이라는 결과를 초래하여, ZFN 유도 게놈 변형을 야기한다. 변형은 생물학적 분석을 위해 이용될 수 있는 차별적으로 코딩된 DNA 가닥을 생성할 수 있다. ZFN 유도 게놈 변형의 분석으로 게놈 내의 특정 절단 위치/부위에서의 특정 ZFN의 상대적인 효능을 나타낼 수 있다.
DNA의 서열을 자르거나 변형시키기 위해 다양한 도구를 이용할 수 있다. 예컨대, 46268 인디아나주, 인디아나폴리스 자이언즈빌 로드 9330에 위치한 다우 아그로사이언시즈로부터 입수가능한, EXZACT Precision Technology 브랜드의 장비는 게놈 변형을 위한 최첨단이고, 다목적이면서 강력한 툴킷(toolkit)이다. 이는 ZFN의 이용 및 디자인에 기초한다.
새로운 시퀀싱(sequencing) 기술의 급속한 발전은 게놈 광폭 변이의 스캔, 새로운 게놈의 어셈블리(assembly) 및 전사체학(transcriptomics) 연구를 비롯한 많은 생물학적 어플리케이션의 해상도 및 규모를 상당히 확장시키고 있다. 로슈 다이아그노틱스 코포레이션(Roche Diagnostics Corp.)으로부터 입수가능한 Roche 454 브랜드의 시퀀싱 플랫폼, 일루미나 인크(Illumina, Inc.)로부터 입수가능한 ILLUMINA 및/또는 SOLEXA 브랜드의 시퀀싱 플랫폼, 및 어플라이드 바이오시스템즈(Applied Biosystems)로부터 입수가능한 SOLiD 브랜드의 시퀀싱 플랫폼을 비롯한, 제조되는 모든 차세대 시퀀싱(NGS) 플랫폼은, 일일 기계 당 기가 염기쌍(giga base pairs, Gbp) 정도(order)의 데이터를 생성할 수 있다. ILLUMINA(SOLEXA) 및 SOLiD 브랜드의 시퀀서가 판독 시퀀싱 플랫폼이 짧은(일반적으로 ~36-100 bp) 반면 Roche 454 브랜드의 시퀀싱 플랫폼은 긴 '판독' 서열을 생성한다. 차세대 시퀀싱(NGS) 기술은 많은 양의 시퀀싱 데이터의 생성을 가능하게 하고, 높은 수준의 검출 감도를 제공하며 많은 수의 샘플들이 분석되도록 가능하게 한다.
본 개시의 실시예에서, 분석 시스템 및 연산 방법이 징크 핑거 뉴클레아제의 타겟팅 활동을 정량화하기 위해 제공된다. 특정 게놈 시스템 내의 특정 타겟에서 작용할 많은 양의 ZFN을 가려내고 평가하기 위해 이용될 수 있는 시스템 및 방법이 제공된다. 시스템 및 방법은 임의의 기술(예시적인 기술은 단백질 또는 소분자(small molecule) 지향 방법 또는 양자의 조합 또는 이들과 물리적 방법들의 조합을 포함함)을 이용하여 수행되는 임의의 게놈 변형(예시적인 게놈 변형은 뉴클레오티드(nucleotide) 삽입/결실, 유전자 삽입, 점 돌연변이(point mutations), 및 메틸화를 포함함)의 유효성을 검사하기 위해 이용될 수 있다. 추가적으로, 시스템 및 방법은 또한 게놈 변형(즉, 변형된 게놈의 단백질 산물)의 기능적인 판독(read out)을 가능하게 하는 번역 스크립트(translational scripts)를 수용하기 위해 변형될 수 있다.
본 개시의 예시적인 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 사이로부터 복수의 고품질 판독 서열(high quality read sequences)을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열(unique read sequences)을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플(reference sample)에 대응하는 참조 서열(reference sequence)에 대해 비교하는 단계를 포함한다.
본 개시의 다른 예시적인 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 비교하는 단계를 포함한다. 방법은 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열 데이터에 대해 정렬한 후에, 고품질 정렬(high quality alignments)을 계산하는 단계를 더 포함한다.
본 개시의 또 다른 예시적인 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 비교하는 단계를 포함한다. 방법은 정렬된 고유 판독 서열의 정성 분석을 수행하는 단계를 더 포함한다.
본 개시의 또 다른 예시적인 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 비교하는 단계를 포함한다. 방법은 정렬된 고유 판독 서열의 정량 분석을 수행하는 단계를 더 포함한다.
본 개시의 또 다른 예시적인 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 비교하는 단계를 포함한다. 방법은 정렬된 고유 판독 서열을 시각화하는(visualizing) 단계를 더 포함한다.
본 개시의 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 비교하는 단계를 포함한다. 방법은 복수의 고유 판독 서열 각각과 참조 서열 사이의 정렬을 계산하는 단계를 더 포함한다.
본 개시의 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 비교하는 단계를 포함한다. 방법은 서열 데이터에 관한 신뢰 구간 데이터(confidence interval data)를 전자적으로 수신하는 단계를 더 포함하는데, 여기서 신뢰 구간 데이터는 적어도 부분적으로 상기 복수의 고품질 판독 서열을 식별하기 위해 이용된다.
본 개시의 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 비교하는 단계를 포함하고, 여기서 복수의 서열 각각은 식물 게놈의 적어도 일부분을 설명한다.
본 개시의 또 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 비교하는 단계를 포함하고, 여기서 하나 이상의 바코드(barcodes)를 설명하는 바코드 정보는 상기 서열 데이터와 연관되어 전자적으로 수신된다.
본 개시의 또 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 비교하는 단계를 포함하고, 여기서 하나 이상의 바코드를 설명하는 바코드 정보는 서열 데이터와 연관되어 전자적으로 수신되고 서열 데이터를 적어도 두 그룹 중의 하나와 연관시키는 것은 상기 서열 데이터와 연관된 상기 바코드 정보를 판독하는 것, 및 상기 하나 이상의 바코드에 따른 상기 서열 데이터를 연관시키는 것을 포함한다.
본 개시의 또 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은, 복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계; 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출하는 단계; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열에 대해 비교하는 단계를 포함한다. 방법은 서열 데이터를 적어도 두 그룹 중의 하나와 연관시키는 단계를 더 포함한다.
본 개시의 다른 예시적인 실시예에서, 분석 시스템이 제공된다. 시스템은 복수의 서열에 관한 서열 데이터를 수신하기 위한 모듈; 및 계산 모듈(calculation module)을 포함한다. 계산 모듈은 복수의 서열 중에서 복수의 고품질 판독 서열을 식별; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열과 비교하도록 동작가능하다.
본 개시의 또 다른 예시적인 실시예에서, 분석 시스템이 제공된다. 시스템은 복수의 서열에 관한 서열 데이터를 수신하기 위한 모듈; 및 계산 모듈을 포함한다. 계산 모듈은 복수의 서열 중에서 복수의 고품질 판독 서열을 식별; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열과 비교하도록 동작가능하고, 여기서 계산 모듈은 또한 복수의 고품질 판독 서열로부터 고품질 정렬을 계산하도록 동작가능하다.
본 개시의 또 다른 예시적인 실시예에서, 분석 시스템이 제공된다. 시스템은 복수의 서열에 관한 서열 데이터를 수신하기 위한 모듈; 및 계산 모듈을 포함한다. 계산 모듈은 복수의 서열 중에서 복수의 고품질 판독 서열을 식별; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열과 비교하도록 동작가능하다. 시스템은 정렬된 고유 판독 서열의 정성 분석을 수행하기 위한 모듈을 더 포함한다.
본 개시의 또 다른 예시적인 실시예에서, 분석 시스템이 제공된다. 시스템은 복수의 서열에 관한 서열 데이터를 수신하기 위한 모듈; 및 계산 모듈을 포함한다. 계산 모듈은 복수의 서열 중에서 복수의 고품질 판독 서열을 식별; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열과 비교하도록 동작가능하다. 시스템은 정렬된 고유 판독 서열의 정량 분석을 수행하기 위한 모듈을 더 포함한다.
본 개시의 또 다른 예시적인 실시예에서, 분석 시스템이 제공된다. 시스템은 복수의 서열에 관한 서열 데이터를 수신하기 위한 모듈; 및 계산 모듈을 포함한다. 계산 모듈은 복수의 서열 중에서 복수의 고품질 판독 서열을 식별; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열과 비교하도록 동작가능하다. 시스템은 정렬된 고유 판독 서열을 시각화하기 위한 모듈을 더 포함한다.
본 개시의 예시적인 추가 실시예에서, 분석 시스템이 제공된다. 시스템은 복수의 서열에 관한 서열 데이터를 수신하기 위한 모듈; 및 계산 모듈을 포함한다. 계산 모듈은 복수의 서열 중에서 복수의 고품질 판독 서열을 식별; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열과 비교하도록 동작가능하고, 여기서 계산 모듈은 또한 복수의 고유 판독 서열 각각과 상기 참조 서열 사이의 정렬을 계산하도록 동작가능하다.
본 개시의 예시적인 추가 실시예에서, 분석 시스템이 제공된다. 시스템은 복수의 서열에 관한 서열 데이터를 수신하기 위한 모듈; 및 계산 모듈을 포함한다. 계산 모듈은 복수의 서열 중에서 복수의 고품질 판독 서열을 식별; 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출; 및 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열과 비교하도록 동작가능하고, 여기서 계산 모듈은 또한 상기 서열 데이터를 두 그룹 중의 하나와 연관시킨다.
본 개시의 다른 예시적인 실시예에서, 분석 방법이 제공된다. 방법은 복수의 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열은 식물 게놈의 적어도 일부분을 설명하고, 복수의 서열은 하나 이상의 징크 핑거 뉴클레아제(zinc finger nucleases)에 사전에 노출되어 서열을 자름 - 하는 단계; 서열 데이터에 관한 신뢰 구간 데이터를 전자적으로 수신하는 단계; 적어도 부분적으로 신뢰 구간 데이터에 기초하여 상기 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 하나 이상의 고품질 판독 서열로부터 고유 판독 서열을 추출하는 단계; 및 고유 판독 서열을 참조 샘플에 대응하는 서열 데이터에 대해 정렬하는 단계를 포함한다.
본 개시의 다른 예시적인 실시예에서, 분석 방법이 제공된다. 방법은 복수의 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열은 식물 게놈의 적어도 일부분을 설명하고, 복수의 서열은 하나 이상의 징크 핑거 뉴클레아제(zinc finger nucleases)에 사전에 노출되어 서열을 자름 - 하는 단계; 서열 데이터에 관한 신뢰 구간 데이터를 전자적으로 수신하는 단계; 적어도 부분적으로 신뢰 구간 데이터에 기초하여 상기 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계; 하나 이상의 고품질 판독 서열로부터 고유 판독 서열을 추출하는 단계; 및 고유 판독 서열을 참조 샘플에 대응하는 서열 데이터에 대해 정렬하는 단계를 포함한다. 방법은 서열 데이터와 연관된 바코드 정보를 전자적으로 수신하는 단계; 및 적어도 부분적으로 바코드 정보에 기초하여 서열 데이터를 적어도 두 그룹 중의 하나와 연관시키는 단계를 더 포함한다.
본 개시의 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은 제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및 부분적으로 참조 서열에 기초하여, 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 제2번 서열은 서열을 자르기 위해 이용되는 ZFN 및 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 제2번 서열은 제1번 서열보다 적어도 두자릿수(two orders of magnitude) 더 적음 - 하는 단계를 포함한다.
본 개시의 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은 제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및 부분적으로 참조 서열에 기초하여, 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 제2번 서열은 서열을 자르기 위해 이용되는 ZFN 및 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 제2번 서열은 제1번 서열보다 적어도 오더가 2개 더 적음 - 하는 단계를 포함하는데, 여기서 제2번 서열은 제1번 서열보다 적어도 네자릿수 더 적다.
본 개시의 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은 제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및 부분적으로 참조 서열에 기초하여, 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 제2번 서열은 서열을 자르기 위해 이용되는 ZFN 및 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 제2번 서열은 제1번 서열보다 적어도 두자릿수 더 적음 - 하는 단계를 포함하는데, 여기서 서열로의 복구에 대한 제1 특성은 타겟 컷 영역(target cut region) 내의 다수의 삽입 및 다수의 결실 중 적어도 하나에 대한 척도(measure)를 포함한다.
본 개시의 또 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은 제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및 부분적으로 참조 서열에 기초하여, 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 제2번 서열은 서열을 자르기 위해 이용되는 ZFN 및 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 제2번 서열은 제1번 서열보다 적어도 두자릿수 더 적음 - 하는 단계를 포함하는데, 여기서 부분적으로 참조 서열에 기초하여, 제2번 서열을 전자적으로 결정하는 단계는 각각의 서열을 자르기 위해 이용되는 ZFN에 기초하여 제1번 서열을 복수의 그룹으로 분리하는 단계; 제1번 서열 내의 복수의 고품질 판독 서열을 식별 - 복수의 고품질 판독 서열은 제1번 서열보다는 적고 제2번 서열보다는 큰 제3번 서열을 가짐 - 하는 단계; 제3번 서열로부터 복수의 고유 판독 서열을 식별 - 복수의 고유 판독 서열은 제3번 서열보다는 적고 제2번 서열보다는 더 크거나 적은 제4번 서열을 가짐 - 하는 단계; 및 참조 서열에 대해 제4번 서열 각각을 비교하여 복수의 고품질 정렬 서열을 식별하는 단계를 포함한다.
본 개시의 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은 제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및 부분적으로 참조 서열에 기초하여, 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 제2번 서열은 서열을 자르기 위해 이용되는 ZFN 및 서열에 대한 복구의 적어도 하나의 특성에 기초하여 선택되고, 제2번 서열은 제1번 서열의 1 퍼센트보다 더 적음 - 하는 단계를 포함한다.
본 개시의 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은 제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및 부분적으로 참조 서열에 기초하여, 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 제2번 서열은 서열을 자르기 위해 이용되는 ZFN 및 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 제2번 서열은 제1번 서열의 1 퍼센트보다 더 적음 - 하는 단계를 포함하는데, 여기서 제2번 서열은 제1번 서열의 0.1 퍼센트보다 더 적다.
본 개시의 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은 제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및 부분적으로 참조 서열에 기초하여, 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 제2번 서열은 서열을 자르기 위해 이용되는 ZFN 및 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 제2번 서열은 제1번 서열의 1 퍼센트보다 더 적음 - 하는 단계를 포함하는데, 여기서 제2번 서열은 제1번 서열의 0.01 퍼센트보다 더 적다.
본 개시의 또 다른 예시적인 추가 실시예에서, 분석 방법이 제공된다. 방법은 제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및 부분적으로 참조 서열에 기초하여, 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 제2번 서열은 서열을 자르기 위해 이용되는 ZFN 및 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 제2번 서열은 제1번 서열의 1 퍼센트보다 더 적음 - 하는 단계를 포함하는데, 여기서 제2번 서열은 제1번 서열의 0.01 퍼센트보다 더 적고 제1번 서열은 적어도 100만 개의 서열이다.
본 개시의 또 다른 예시적인 실시예에서, 분석 방법이 제공된다. 방법은 제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및 부분적으로 참조 서열에 기초하여, 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 제2번 서열은 서열을 자르기 위해 이용되는 ZFN 및 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 제2번 서열은 제1번 서열의 1 퍼센트보다 더 적음 - 하는 단계를 포함하는데, 여기서 서열로의 복구에 대한 제1 특성은 타겟 컷 영역 내의 다수의 삽입 및 다수의 결실 중 적어도 하나에 대한 척도를 포함한다.
본 개시의 또 다른 예시적인 실시예에서, 분석 방법이 제공된다. 방법은 제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및 부분적으로 참조 서열에 기초하여, 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 제2번 서열은 서열을 자르기 위해 이용되는 ZFN 및 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 제2번 서열은 제1번 서열의 1 퍼센트보다 더 적음 - 하는 단계를 포함하는데, 여기서 부분적으로 참조 서열에 기초하여, 제2번 서열을 전자적으로 결정하는 단계는 각각의 서열을 자르기 위해 이용되는 상기 ZFN에 기초하여 제1번 서열을 복수의 그룹으로 분리하는 단계; 제1번 서열 내의 복수의 고품질 판독 서열을 식별 - 복수의 고품질 판독 서열은 제1번 서열보다는 적고 제2번 서열보다는 큰 제3번 서열을 가짐 - 하는 단계; 제3번 서열로부터 복수의 고유 판독 서열을 식별 - 복수의 고유 판독 서열은 제3번 서열보다는 적고 제2번 서열보다는 더 크거나 적은 제4번 서열을 가짐 - 하는 단계; 및 참조 서열에 대해 제4번 서열 각각을 비교하여 복수의 고품질 정렬 서열을 식별하는 단계를 포함한다.
도면의 상세한 설명이 첨부된 도면을 구체적으로 참조한다.
도 1은 본 개시의 실시예에 따른 데이터 분석 방법을 도시하는 순서도;
도 2는 본 개시의 실시예에 따른 도 1에서의 데이터 사전 처리(pre-processing)를 도시하는 순서도;
도 3은 본 개시의 실시예에 따른 도 1에서의 데이터 정렬을 도시하는 순서도;
도 4는 본 개시의 실시예에 따른 도 1에서의 데이터 사후 처리(post-processing)를 도시하는 순서도;
도 5는 본 개시의 실시예에 따른 시퀀서(sequencer)에서 데이터 분석기로의 시료 및 데이터에 대한 순서도;
도 6은 본 개시의 실시예에 따른 데이터 분석기의 시스템도;
도 7은 본 개시의 실시예에 따른 바코드(barcode)를 구비하는 서열의 예시적인 세트;
도 8a는, 본 개시의 실시예에 따른, 바코드에 따라 서열을 체계화하는, 도 7의 서열의 예시적인 세트에 대한 차트;
도 8b는, 본 개시의 실시예에 따른, 바코드에 따라 서열을 체계화하는, 도 7의 서열의 예시적인 세트에 대한 차트;
도 8c는, 각 고유 서열과 연관된 서열 수의 카운트가 함께 있는, 도 8b의 서열의 예시적인 세트에 대한 차트;
도 9는 본 개시의 실시예에 따른 각 염기에 대한 신뢰 구간(confidence intervals)을 포함하는 두 서열의 예시적인 세트;
도 10은 본 개시의 실시예에 따른 서열 수의 예시적인 시각화;
도 11은 본 개시의 실시예에 따른, 하나 이상의 필터가 총 판독(read)에 적용된 후에 얻어진 고품질 판독의 개수와 시퀀서로부터의 총 판독을 비교한 것의 예시적인 세트;
도 12는 본 개시의 실시예에 따른, 여러 ZFN의 예시적인 정량 분석;
도 13은 본 개시의 실시예에 따른 ZFN 활동을 상세히 나타내는 그래프의 예시적인 세트; 및
도 14는 본 개시의 실시예에 따른 ZFN 활동을 상세히 나타내는 그래프의 예시적인 세트.
대응 참조 부호는 여러 곳에 걸쳐 대응되는 부분을 나타낸다. 본 명세서에 정리된 예시들은 본 개시의 예시적인 실시예들을 도시하고 이러한 예시들은 어떠한 방식으로도 본 개시의 범위를 제한하는 것으로서 해석될 수 없다.
본 명세서에 설명된 개시의 실시예들은 개시된 해당 형태 그대로 본 개시를 제한하거나 배제하려는 것이 아니다. 오히려, 설명을 위해 선택된 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 개시의 요지를 실시할 수 있도록 선택된 것이다. 본 개시가 분석 시스템의 특정 구성을 설명하더라도, 본 명세서에 제공된 개념은 본 개시와 일관된 다른 다양한 구성에서 이용될 수 있다는 것이 이해되어야 한다. 나아가, ZFN에 노출된 DNA 서열의 분석이 설명되지만, 본 명세서의 설명은 ZFN 또는 다른 효소에 노출된 다른 서열의 분석에도 적용될 수 있다.
도 1은 본 개시의 실시예에 따른 데이터 분석 방법을 도시하는 순서도를 도시한다. 박스(101)에 도시된 바와 같이, 하나 이상의 시퀀서는 하나 이상의 샘플로부터 서열 데이터를 생성한다. 박스(103)에 도시된 바와 같이, 시퀀서로부터 수집된 데이터는 이용가능한 데이터를 체계화하여 분석될 데이터의 전체 양을 감소시키기 위해 사전 처리된다. 박스(105)에 도시된 바와 같이, 서열은 참조 샘플에 대해 정렬되고 분석된다. 박스(107)에 도시된 바와 같이, 정렬된 서열로부터의 서열 데이터는 분리되어 있고 ZFN 각각의 효능은 사후 처리에서 정량적 및 정성적으로 분석될 수 있다. 방법은 도 2 내지 4를 참조하여 설명되고, 사전 처리를 구체적으로 보여주기 위한 서열의 예시적인 세트가 도 7 내지 9에 도시된다.
관심 있는 유기체로부터의 하나 이상의 세포/조직을 함유하는 샘플에 소정량의 ZFN을 첨가함으로써 분석될 샘플을 제조할 수 있다. 하나 이상의 세포는 ZFN에 의해 타겟팅된 특정 절단 부위를 포함하는 게놈 DNA를 함유한다. ZFN 분자는 특정 절단 부위에서 DNA 가닥 중 하나 이상을 자를 수 있다. DNA는 하나 이상의 다른 효소에 의해 복구될 수 있고, DNA의 복구는 절단 부위에서 하나 이상의 임의의 변형을 포함할 수 있다. 어떤 경우에는, DNA 가닥은 그 서열이 잘리기 전의 DNA 가닥의 서열과 정확하게 같게 되도록 복구될 수 있다. 다른 경우에서, DNA 가닥은 하나 이상의 추가적인 염기를 포함할 수 있거나, 또는 DNA 가닥에서 하나 이상의 염기가 제거될 수 있다. 추가적으로, ZFN의 첨가 없이 관심 있는 유기체로부터의 하나 이상의 세포/조직만을 포함하는 하나 이상의 샘플을 제조할 수 있다. ZFN없는 샘플은 대조 샘플(control sample)로서 참조된다. 일반적으로, 각각 고유한 ZFN 처리가 이루어진 복수의 샘플이 제조된다. 두 개 이상의 샘플은 복제 처리(replicate treatment)를 위해 동일한 ZFN을 포함할 수 있다. 각 ZFN의 효능을 분석함으로써, 주어진 게놈 DNA에 대한 하나 이상의 관심 있는 ZFN을 식별할 수 있다.
통상적인 DNA 가닥 및 통상적인 ZFN을 이용하는 샘플에서, 고유 식별 마커(marker) 또는 바코드가 DNA 가닥에 첨가된다. 일 실시예에서, 예컨대, 바코드는 DNA 가닥의 5' 말단에서 여섯 뉴클레오티드, 그리고 DNA 가닥의 3' 말단에서 여섯 뉴클레오티드를 가지는 일련의 뉴클레오티드이다. 실시예에서, 바코드는 각 말단에서 여섯 뉴클레오티드보다 많거나 적을 수 있다. 실시예에서, 바코드는 DNA 가닥의 5' 말단에만 또는 DNA 가닥의 3' 말단에만 있을 수 있고 여섯 뉴클레오티드, 여섯 뉴클레오티드보다 더 적은 뉴클레오티드, 여섯 뉴클레오티드보다 더 많은 뉴클레오티드 중 하나를 포함할 수 있다. 더 많거나 적은 뉴클레오티드가 바코드로서 이용될 수 있다. 바코드를 통해 한번의 시퀀서 실행으로 복수의 샘플의 DNA 가닥을 분석하도록 할 수 있다. 복수의 서열 각각은 샘플로부터 나오는데, 이 샘플은 바코드의 존재로 인해 시퀀서에 의해 인식될 수 있다. 서열은 시퀀싱 후에 바코드에 의해 분리될 수 있고, 프로세싱 및 분석 중에 징크 핑거 뉴클레아제를 첨가함에 따라 분리될 수 있다. 일 실시예에서, 적어도 하나의 바코드가 ZFN 처리되지 않은 대조 DNA 가닥(control DNA strands)에 첨가된다.
샘플은 시퀀서의 프로토콜(protocol)이나 동작 지침(operating instructions)에 따라 시퀀서에 로드된다(loaded). 예컨대, Solexa ILLUMINA 브랜드의 시퀀싱 기계 또는 Roche 454 브랜드의 시퀀싱 기계를 이용할 수 있다. 시퀀서는 서열에 관련된 데이터를 생성한다. 데이터는 샘플 내의 DNA 가닥의 서열에 관한 정보를 포함하는 하나 이상의 텍스트 파일 또는 기타 데이터 파일을 포함할 수 있지만, 위에 열거된 예에 국한되지 않는다. 실시예에서, 서열 정보는 또한 신뢰 데이터(confidence data)를 포함해서, 서열 내의 각 염기가 신뢰 데이터와 연관된 신뢰 구간을 가질 수 있게 되거나, 각 서열이 신뢰 데이터와 연관된 신뢰 구간을 가지게 된다. 신뢰 구간은 시퀀서에 의해 계산된 수학적 계산결과이고, 시퀀서에 의해 특정 염기의 판독의 강도를 포함할 수 있다. 구체적인 일례에서, 신뢰 구간은 1부터 9까지의 정수이다. 예컨대, 1의 신뢰 구간은 보고된 염기가 DNA 가닥 내의 염기라는 것에 대해 시퀀서가 상대적으로 낮은 신뢰도를 가지고 있음을 나타낸다. 9의 신뢰 구간은 보고된 염기가 DNA 가닥 내의 염기라는 것에 대해 시퀀서가 상대적으로 높은 신뢰도를 가지고 있음을 나타낸다. 실시예에서, 시퀀서는 신뢰 구간뿐만 아니라 다른 정보 또한 보고한다. 예컨대, 시퀀서는 염기를 읽을 수 없을 때를 보고할 수 있다.
이제 도 2를 보면, 본 개시의 실시예에 따른 도 1에서의 데이터 사전 처리를 도시하는 순서도가 도시된다. 박스(201)에 도시된 바와 같이, 시퀀싱 실행에 대한 데이터가 시퀀서로부터 판독된다. 실시예에서, 데이터는 하나 이상의 텍스트 파일의 형태로 되어 있는데, 텍스트 파일은 시퀀서 및/또는 데이터 세트에 관한 서열 정보 및 기타 데이터를 포함한다. 데이터는 짧은 DNA 서열, 또는 "판독 서열(read)"을 포함한다. 실시예에서, 데이터는 판독 각각에서 시퀀서에 의해 판독된 염기 각각에 대한 신뢰 구간 점수를 또한 포함한다. 도 5와 6을 참조하여 아래에 더 자세히 설명된 바와 같이, 바코드 데이터는 분석 시스템(507)에 의해 판독되고, 만약 샘플이 바코드로 코딩되었다면, 같은 바코드에 있는 판독이 같이 위치하게 되도록, 판독이 바코드에 의해 분리된다. 실시예에서, 바코드에 관한 정보는 데이터베이스, 스프레드시트, 또는 기타 데이터 파일 또는 파일에 저장되고, 바코드 정보 및 바코드에 관한 정보가 분석 시스템(507)에서 이용가능하게 된다.
바코드를 구비하는 서열의 예시적인 세트가 도 7에 도시된다. 서열 각각은 타겟 부위, 및 5' 말단과 3' 말단을 가진다. 구체적인 예에서, 바코드는 서열의 5' 및 3' 말단 모두에 부착된다. 실시예에서, 바코드는 서열의 5' 말단에만, 또는 서열의 3' 말단에만 부착될 수 있다. 도 7에서, 두 개의 바코드, 바코드1 및 바코드2가 존재한다. 서열 각각은 바코드 중 하나와 연관되어서, 서열1, 서열2, 서열4, 서열7, 및 서열8은 각각 바코드1을 가지고, 서열3, 서열5, 서열6, 서열9, 및 서열10은 각각 바코드2를 가지게 된다. 일 실시예에서, 제1 ZFN 처리된 모든 서열은 바코드1을 가지는 반면 제2 ZFN 처리된 모든 서열은 바코드2를 가진다. 일 실시예에서, 서열에 대응하는 DNA 가닥은 시퀀서 내의 샘플 수집 챔버(sample collection chamber)에 배치된다. 다른 실시예에서, DNA 가닥은 3' 말단에서 5' 말단으로 조합되어(적절한 바코드와 함께) 연속적인 DNA 가닥을 형성하고, 연속적인 가닥은 시퀀서 내의 샘플 수집 챔버에 배치된다. 본 실시예에서, 시퀀서 및/또는 분석 시스템(507)은 시퀀싱 후에 서열을 분리한다.
도 2의 박스(203)에 도시된 바와 같이, 동일한 바코드를 가진 판독은 같이 배치된다. 분석 시스템(507), 또는 기타 사전 처리 시스템은, 판독으로부터 바코드 정보를 결실하고, 그래서 판독에 대한 DNA 서열 정보가 분석을 위해 유지된다.
바코드에 따라 체계화된, 도 7의 서열의 예시적인 세트는, 도 8a에 도시된다. 서열1, 서열2, 서열4, 서열7, 및 서열8은 서열3, 서열5, 서열6, 서열9, 및 서열10과 분리된다. 서열은 바코드에 의해 그룹화되고, 이어서 바코드는 서열로부터 제거된다. 일 실시예에서, 서열은 메모리에 저장되고, 바코드에 의해 그룹화된다.
도 2의 박스(205)에 도시된 바와 같이, 판독에 대한 서열 데이터가 검토된다. 추가적인 고려를 통해 저품질 판독을 제거함으로써 서열의 수가 감소한다.
일 실시예에서, 서열이 저품질 판독으로 고려되는지 여부는 서열 데이터와 연관된 신뢰 구간 정보에 기초하여 판단된다. 신뢰 구간 정보가 시퀀서에 의해 제공되거나 신뢰 구간 정보가 계산될 수 있으면, 염기 각각에 대한 신뢰 구간 정보가 검토된다. 일 실시예에서, 신뢰 구간 값보다 아래로 떨어지는 하나 이상의 염기를 가진 판독은 저품질 판독으로서 거부된다. 모든 염기가 신뢰 구간 값보다 위인 판독은 고품질 판독으로서 수용된다. 0은 낮은 신뢰 구간이고 100은 높은 신뢰 구간이며, 임계 신뢰 구간 값은 30인, 0과 100 사이의 신뢰 구간을 가지는 시퀀서에 대해, 65, 50, 40, 및 70의 신뢰 구간을 가지는 예시적인 판독은, 신뢰 구간 각각이 30보다 위이기 때문에, 고품질 판독으로서 수용된다. 25, 10, 90, 및 56의 신뢰 구간을 가지는 다른 예시적인 판독은, 신뢰 구간 중의 적어도 하나가 30 아래로 떨어졌기 때문에, 저품질 판독으로서 거부된다. 하나 이상의 선택 기준을 결정하기 위해 다른 형태의 분석 또한 이용할 수 있다. 예컨대, 판독의 각 염기에 대한 신뢰 구간의 평균이 계산될 수 있고, 평균 신뢰 구간이 임계 신뢰 구간 값 아래이면 판독이 거부될 수 있다. 실시예에서, 신뢰 구간은 프로토콜에 의해 설정되거나, 분석 시스템(507)의 입력 장치(601)를 통해 사용자가 신뢰 구간을 설정한다. 사용자 또는 프로토콜에 의해 판단했을 때, 너무 많은 판독이 거부되면, 또는 너무 많은 판독이 수용되면, 사용자는 신뢰 구간 값을 또한 조정할 수 있다. 너무 많은 판독이 거부되면, 또는 너무 많은 판독이 수용되면 분석 시스템(507)은 추가적인 사용자 입력 없이도 신뢰 구간을 또한 조정할 수 있다.
도 9는 신뢰 구간을 포함하는 두 서열(901, 905)의 예시적인 세트를 도시한다. 제1 서열(901)은 50개의 염기, 및 염기 각각과 연관된 1과 9 사이의 신뢰 구간(903)을 포함한다. 신뢰 구간은 시퀀서에 의해 할당되고, 특정 염기가 올바르게 식별되었다는 시퀀서의 상대적 신뢰도(relative confidence)를 나타낸다. 예에서 9의 신뢰 구간은 시퀀서가 염기가 올바르게 식별되었다고 매우 확신한다는 것을 나타낸다. 예에서 1의 신뢰 구간은 시퀀서가 염기가 올바르게 식별되었다고 확신하지 않음을 나타낸다. 예에서, 임계 신뢰 구간 값은 4로 설정되고, 이는 4보다 낮은 염기 신뢰 구간을 가지는 서열은 모두 거부된다는 것을 의미한다. 분석 시스템(507)은 제1 예시 서열(901) 및 제2 예시 서열(905) 모두를 검토할 수 있다. 제1 예시 서열(901)은 각 염기에 대해 5 이상의 신뢰 구간(903)을 포함하고, 그래서 분석 시스템(507)은 추가적인 처리를 위해 제1 서열(901)을 수용한다. 제2 예시 서열(905)과 연관된 신뢰 구간(907)은 2의 값을 가지는 한 신뢰 구간(909)을 나타내고, 그래서 분석 시스템(507)은 제2 예시 서열을 거부한다. 실시예에서, 특정 서열의 염기와 연관된 일련의 신뢰 구간으로부터 평균 신뢰 구간이 결정된다. 평균 신뢰 구간이, 예컨대, 신뢰 구간 값 아래이면, 서열은 거부된다. 다른 실시예에서, 신뢰 구간 값 아래인 신뢰 구간이 두 개 이상이면 서열은 거부되어야 한다. 분석 시스템은 전체 서열의 신뢰 구간에 기초하여 어떤 서열이 수용 또는 거부될 것인지 결정할 수 있거나, 전체 서열의 서브세트에 기초하여 어떤 서열이 수용 또는 거부될 것인지 결정할 수 있다. 예컨대, 분석 시스템은 서열의 타겟 부위, 또는 타겟 부위에 인접한 하나 이상의 염기에 대한 신뢰 구간을 검토할 수 있다.
신뢰 구간에 의해 결정된 바와 같이, 저품질 판독은 분석 시스템(507)에 의해 제거될 수 있고, 더 이상 고려되지 않을 수 있다. 신뢰 구간에 의해 결정된 바와 같이, 고품질 판독은 추가적인 처리를 위해 분석 시스템(507)에 의해 수용될 수 있다. 고품질 판독은 바코드에 의해 분리되어 남게 된다. 일 실시예에서, 판독은 바코드에 의해 분리되기 전에 저품질 또는 고품질로 결정된다.
박스(207)에 도시된 바와 같이, 고유 판독 서열이 고품질 판독으로부터 추출된다. 분석 시스템(507)은 주어진 바코드에 대한 판독을 검토하고, 판독을 서로 비교하며, 고유한 판독을 추출한다. 실시예에서, 분석 시스템(507)은 고유 서열과 일치하는 판독의 수를 또한 카운트하고, 특정 고유 서열과 일치하는 판독의 수에 기초하여 추가적인 분석에 가중치를 매긴다(weights).
도 8b는 고유 서열로 분류된 도 7 및 도 8a의 서열을 도시한다. 바코드1과 연관된 서열 내에서, 서열1, 서열4, 및 서열7이 일치하고, 서열2 및 서열8이 일치하다. 바코드2와 연관된 서열 내에서, 서열3, 서열6, 및 서열10이 일치하고, 서열3은 고유하며, 서열9는 고유하다.
도 8c는, 각 고유 서열과 연관된 서열의 카운트 수와 함께, 도 8b의 서열의 예시적인 세트에 대한 차트를 도시한다. 예에서, 고유 서열은 도 8b에 도시된 고유 서열의 세트 내에서 제1 서열의 식별자에 의해 식별된다. 바코드1과 연관되어, 서열1에 의해 식별되는 고유 서열에는 세 개의 일치 서열(서열1, 서열4, 및 서열7)이 있고, 서열2로 식별된 고유 서열에는 두 개의 일치 서열(서열2 및 서열8)이 있다. 바코드2와 연관되어, 서열5에 의해 식별된 고유 서열에는 세 개의 일치 서열(서열5, 서열6, 및 서열10)이 있고, 서열3으로 식별되는 고유 서열은 고유하며, 서열9에 의해 식별된 고유 서열은 고유하다.
이제 도 3을 보면, 본 개시의 실시예에 따른 도 1에서의 데이터 정렬을 도시하는 순서도가 도시된다. 박스(301)에 도시된 바와 같이, 참조 샘플의 서열(ZFN 처리되지 않음)에 대해 판독이 정렬되어 만약 복구 메커니즘이 판독에 대해 이루어졌다면 그 변화를 결정하게 된다.
일 실시예에서, 분석 시스템(507)은 스미스-워터맨 알고리즘(Smith-Waterman algorithm)을 이용하여 참조 샘플의 서열에 대해 판독을 정렬한다. 실시예에서, 성능을 향상시키거나 다른 변형을 만들기 위해 스미스-워터맨 알고리즘을 변형하거나 사용자정의 할 수 있다. 실시예에서, JAligner 오픈 소스 소프트웨어 패키지(JAligner open source software package)를 이용할 수 있거나, 스미스-워터맨 알고리즘을 구현하는 JAligner 소프트웨어 패키지의 수정 버전을 이용할 수 있어서 참조 샘플의 서열에 대한 판독을 정렬할 수 있다.
스미스-워터맨 알고리즘은 뉴클레오티드 또는 단백질 서열들 사이의 유사성을 결정하기 위한 동적 프로그래밍 방법이다. 알고리즘은 최적 국부 정렬(optimal local alignment)을 위한 검색으로써 서열들 사이의 상동 영역을 식별하기 위해 이용된다. 최적 국부 정렬을 찾기 위해, 특정 갭 페널티(gap penalties) 세트를 포함하는 스코어링 시스템(scoring system)을 이용한다. 스미스-워터맨 알고리즘은 최고의 국부 정렬을 식별하기 위해 두 서열 사이의 가능한 모든 길이의 세그먼트(segments)를 비교하는 원리로 구축된다. 알고리즘은 동적 프로그래밍에 기초하는데, 동적 프로그래밍은 문제 전체를 다루는 완전한 솔루션을 위해 문제의 각 작은 조각에 대한 솔루션을 만들기 전에, 서브 문제로 문제를 분할하고 이러한 서브 문제를 풀기 위해 사용되는 일반적인 기술이다. 동적 프로그래밍 기술을 구현하여, 스미스-워터맨 알고리즘은 비교될 두 서열의 임의의 위치에서 시작하고 끝나는 모든 가능한 길이의 정렬을 고려하여 최적 국부 정렬을 찾는다.
서열 정렬은 일반적으로 네 가지 카테고리 중 하나에 속한다. 제1 카테고리에서, 판독 및 참조 샘플 서열은 정확히 매치된다. 판독 및 참조 샘플 서열은 두 가지 조건 하에서 정확히 매치된다. 첫째, ZFN이 특정 판독에서 활성화되지 않았어야 한다(즉, ZFN이 DNA 가닥을 자르지 않았다). 둘째, ZFN이 DNA 가닥을 잘랐지만, 복구 메커니즘이 그 가닥을 완벽하게 복구해서, 복구된 가닥이 참조 샘플 서열과 정확히 동일했어야 한다.
제2 카테고리에서, 하나 이상의 염기가 참조 샘플 서열로부터 변형 또는 돌연변이되면, 판독은 참조 샘플 서열과 정렬된다. 돌연변이 염기는 타겟 부위 내에, 또는 타겟 부위의 외부에 있을 수 있다. 돌연변이 염기가 타겟 부위 내에 있으면, ZFN은 타겟 부위에서 DNA 가닥을 잘랐을 수 있고, 복구 메커니즘이 임의적인 염기를 추가하여 DNA 가닥을 복구했을 수 있다. 돌연변이 염기가 타겟 부위의 외부에 있으면, 복구 메커니즘이 DNA 가닥을 잘못 복구했을 수 있거나, 시퀀서가 DNA 가닥을 잘못 판독했을 수 있거나, ZFN이 타겟 부위가 아닌 다른 위치에서 DNA 가닥을 잘랐을 수 있다. 실시예에서, 돌연변이 염기가 타겟 부위의 내부에 있으면, 판독이 유지된다. 돌연변이 염기가 타겟 부위의 외부에 있으면, 판독이 거부된다.
제3 카테고리에서, 하나 이상의 염기가 삽입되면 판독이 참조 샘플 서열과 정렬된다(즉, 판독이 참조 샘플 서열과 정렬되도록 하나 이상의 염기가 삽입되어야 한다).
제4 카테고리에서, 하나 이상의 염기가 판독으로부터 결실되면 판독이 참조 샘플 서열과 정렬된다(즉, 판독이 참조 샘플 서열과 정렬되도록 하나 이상의 염기가 결실되어야 한다).
일 실시예에서, 판독은 위의 네 가지 카테고리 중 하나인 것으로 평가된다. 실시예에서, 판독이 제1 카테고리에 있으면, 추가적인 고려로부터 제거된다. 판독이 제2 카테고리에 있으면, 추가적인 고려로부터 제거된다. 제3 또는 제4 카테고리에 있는 판독은 추가적으로 고려된다.
정렬 알고리즘은 파라미터 최적화, 특정 스코어링 기준의 개발, 및 출력 정렬 형식의 조작을 포함하도록 변형될 수 있어서, 다른 시각화나 분석 프로그램 또는 알고리즘과 형식이 호환된다. 예컨대, 판독이 고품질인지 저품질인지를 결정하도록 판독을 "스코어(score)"하기 위해 파라미터 값을 이용한다. 변형된 알고리즘에 이용될 수 있는 파라미터 값은 다음을 포함하는데, 이는 매치 점수 - 3, 미스매치 점수 - 0, 갭 개방 페널티 - 2, 및 갭 확장 페널티 - 1이다. 각 염기에는 점수가 할당될 수 있고, 판독은 염기 각각의 누계 점수(aggregate score), 또는 평균 점수에 따라 거부될 수 있거나 추가적인 프로세싱을 위해 수용될 수 있다.
알고리즘은 두 서열 사이의 각 잔여 비교(residue comparison)에 점수를 할당한다. 매치 또는 대체(substitutions) 및 삽입/결실에 대해 점수를 할당함으로써, 주어진 세포에 대한 가능한 모든 경로의 계산에 의해 각 문자 쌍의 비교가 매트릭스에 가중된다. 임의의 매트릭스 셀(cell)에서, 값은 이러한 좌표에서 끝나는 최적 맞춤 점수를 표현하고, 매트릭스는 최적 정렬과 같은 가장 높은 스코어링 정렬을 보고한다. 매트릭스로부터 최적 국부 정렬을 구성하기 위해, 시작점은 가장 높은 스코어링 매트릭스 셀이 된다. 이어서 경로는 셀 스코어링이 0이 될 때까지 배열을 통해 다시 추적된다. 각 셀의 점수는 이 특정 셀의 좌표에서 끝나는 임의의 길이의 정렬에 대한 가능한 최대 점수이기 때문에, 이 가장 높은 스코어링 세그먼트를 정렬하는 것은 가장 높은 스코어링 국부 정렬 - 최적 국부 정렬 - 을 얻게 할 수 있다. 일 실시예에서, 매트릭스, 갭 초기 비용 및 갭 연장 비용을 포함하는 갭 페널티, E-값(E-value), 기타 등은 스미스-워터맨 검색으로부터 최적의 성능을 얻기 위해 고려된다.
알고리즘에 대한 매트릭스의 체계는 다음과 같은데, 스미스-워터맨 알고리즘을 이용하여 비교될 두 서열의 길이는 매트릭스의 행과 열 차원으로서 이용된다. 예컨대, 매트릭스 H는 다음과 같이 구축된다.
Figure pct00001
Figure pct00002
Figure pct00003
이면
Figure pct00004
이고
Figure pct00005
이면
Figure pct00006
이다.
Figure pct00007
여기서
a, b = 뉴클레오티드 또는 단백질 서열;
m = length(a);
n = length(b);
H(i,j)는 접미사 a[1...i]와 접미사 b[1...j] 사이의 최대 유사성 점수이고; 및
Figure pct00008
에서 '-'은 갭 스코어링 체계이다.
추가적인 데이터가 판독 각각에 대해 계산될 수 있다. 예컨대, 퍼센트 정렬은 다음 식에 따라 계산될 수 있다.
Figure pct00009
퍼센트 정렬 수치는 판독의 상대적인 품질을 평가하기 위해 이용될 수 있다. 실시예에서, 기타 데이터도 계산된다. 기타 데이터는, 다음의 경우에 해당한다면, 예컨대 그리고 제한의 의미 없이, 판독 내의 전체적인 단일 염기 다형성(single nucleotide polymorphisms, SNPs)의 수, 참조 샘플 서열과 비교하여 판독에서 이루어진 삽입의 수 또는 결실의 수, 및 판독 상의 타겟 부위 내에서의 삽입 또는 결실의 업스트림 및 다운스트림인 정렬된 염기의 수를 포함한다. 판독 상의 타겟 부위 내에서의 삽입 또는 결실의 업스트림 및 다운스트림인 정렬된 염기의 수는, 많은 판독을 통해, ZFN이 안정적으로 특정 위치를 자를 수 있는지를 나타낼 수 있다.
박스(303)에서 도시된 바와 같이, 판독은 순위 매겨지거나 스코어링되거나 필터링될 수 있고, 고품질 정렬이 추출될 수 있다. 실시예에서, 하나 이상의 필터가 저품질 정렬로부터 고품질 정렬을 분리하기 위해 이용된다. 예컨대, 그리고 제한의 의미 없이, 판독을 정렬하기 위해 퍼센트 정렬 값을 이용할 수 있다. 사용자는 퍼센트 정렬 값을 선택할 수 있거나, 분석 시스템(507)이 퍼센트 정렬 값으로 제공될 수 있어서, 고품질 정렬 및 저품질 정렬 사이를 구별할 수 있다. 예컨대, 사용자가 기준으로서 95%의 정렬 퍼센트를 선택하면, 분석 시스템(507)은 95% 이하인 정렬 퍼센트를 가진 판독을 버리고, 95% 초과인 정렬 퍼센트를 가지는 판독을 유지한다. 다른 필터는 판독 내의 SNP의 수일 수 있다. 예컨대, 네 개 이상의 SNP를 가진 판독이 거부될 수 있거나, 다른 수의 SNP가 판독을 수용 또는 거부하기 위해 이용될 수 있다. 또 다른 필터는 타겟 부위의 업스트림 및/또는 다운스트림인 정렬된 염기의 수일 수 있다. 예컨대, 타겟 부위 내에서의 삽입 또는 결실의 업스트림 및/또는 다운스트림인 염기의 수에서 두 개보다 적은 염기가 참조 샘플과 정렬되면, 판독은 거부될 수 있다. 다른 실시예에서, 다른 수의 정렬된 업스트림 또는 다운스트림 염기가 선택된다. 또 다른 필터는 판독 상의 삽입 또는 결실의 수일 수 있다. 예컨대, 판독이 참조 샘플과 비교해서 두 개 이상의 삽입 또는 결실를 가지면, 판독은 거부될 수 있거나, 다른 수의 삽입 또는 결실가 선택될 수 있다. 타겟 부위에서 삽입 또는 결실가 없는 판독은 ZFN에 의해 변형되지 않았을 수 있기 때문에, 또 다른 판독은 판독이 타겟 부위에서 적어도 하나의 삽입 또는 결실를 가져야 하는 것일 수 있다. 실시예에서, 정의된 필터 각각을 통과하는 판독은 고품질 정렬일 수 있다.
도 11은 시퀀서로부터의 총 판독들 사이를 비교한 것의 예시적인 세트이고, 하나 이상의 품질 점수 임계 필터가 총 판독에 적용된 후에 고품질 판독의 수가 얻어진다. 도 11에 도시된 비교의 예시적인 세트에서, 서열 내의 임의의 위치에서, 품질 점수의 신뢰 구간이 5 미만인 임의의 염기를 포함하는 각 바코드 내에 있는 서열이 제거된다. 또한, 염기 중 하나 이상이 판독될 수 없다는 것을 나타내는, 서열 내의 임의의 위치에서 "N"를 포함하는 각 바코드 내에 있는 서열도 또한 제거된다. 이러한 필터를 통과한 서열은 본 예에서 고품질 서열을 구성한다.
이제 도 4를 보면, 본 개시의 실시예에 따른 도 1에서의 데이터 사후 처리를 도시하는 순서도가 도시된다. 박스(401)에 도시된 바와 같이, 잠재적 ZFN 매개 게놈 변형이 판독 각각에서 식별된다. 박스(407)에 도시된 바와 같이, 실시예에서, 프로세스는 ZFN 매개 변형의 정성 분석을 포함하는데, 참조 서열의 각 위치에서 삽입 및 결실가 있는 서열의 퍼센트가 ZFN 처리 샘플 및 대조 샘플과 비교된다. 프로세스는 ZFN 매개 변형의 정량 분석도 또한 포함할 수 있다. 정량 분석은 타겟 부위에서 삽입 또는 결실를 포함하는 고품질 판독의 퍼센트를 연산하는 것을 포함할 수 있다. ZFN 효능을 계산하기 위한 실시예에서 이용할 수 있는 방정식은 다음과 같다.
Figure pct00010
ZFN 효능 수는, ZFN 첨가 없이 대조 샘플에 대한 효능 수와 다른 ZFN 단백질에 대한 효능 수를 비교했을 때, 활성화 부위에서 다른 ZFN 단백질의 상대적인 활동의 정량화를 제공하고, 제공된 모든 ZFN 단백질은 동등하게 표현된다.
박스(403 및 405)에 도시된 바와 같이, 정렬은 주석처리 될 수 있고, 정렬은 시각화 소프트웨어 및/또는 하드웨어에 입력될 수 있어서, 타겟 부위에서 ZFN에 의해 생성된 변형을 시각적으로 점검할 수 있다. 사용자 또는 분석 시스템(507)은, 예컨대 그리고 제한의 의미 없이, 서열과 상호작용 및/또는 주석처리하기 위한 Gbrowse 또는 기타 게놈 뷰어를 이용하여 고품질 판독을 시각화할 수 있다. 예시적인 시각화가 도 10에 도시된다. 예시적인 시각화가 도 10에 도시되어, 여러 고품질 서열 및 참조 서열(1001)에 대한 정렬을 도시한다. 본 예시적인 시각화에서, 참조 서열 내의 ZFN의 타겟 부위는 박스(1003) 내의 뉴클레오티드에 의해 표현된다. 각 고품질 서열은 참조 서열(1001) 내의 대응 뉴클레오티드에 대해 정렬되어 있다. 서열 헤더 또는 ID(1005)는 각 고품질 서열과 연관되고 서열의 상단에 도시된다. ID(1005)는 서열에 관한 시퀀서 특정 정보 및 서열 데이터세트 내에서 발생한 정확한 서열의 횟수를 나타내는 수를 포함한다. 시각화에서, 참조와 고품질 내의 뉴클레오티드의 정확한 매치가 제1 시각적 특성에 의해 나타나고, 미스매치된 뉴클레오티드는 제2 시각적 특성에 의해 나타나며, 결실는 제3 시각적 특성에 의해 나타난다. 도시된 정렬에서, 참조 서열과 고품질 서열내의 뉴클레오티드의 정확한 매치가 제1 색깔(1007)로 뉴클레오티드를 강조함으로써 나타나고, 반면 미스매치된 뉴클레오티드는 제2 색깔(1009)로 뉴클레오티드를 강조함으로써 나타난다. 고품질 서열의 결실는 "-"(1011)로서 나타난다.
여러 ZFN의 예시적인 정량 분석이 도 12에 도시된다. 도 13 및 도 14는 ZFN 활동을 상세히 설명하는, 그래프의 예시적인 세트를 도시한다. 그래프의 Y축은 참조 서열 내의 위치를 나타내고, 그래프의 X축은 참조 서열 내의 특정 위치에 삽입 또는 결실된 서열의 퍼센트를 나타낸다. 그래프 내의 스파이크는 특정 위치에서의 높은 활동을 나타낸다. 특히 효과적인 ZFN은 타겟 부위에서 그래프의 높은 스파이크를 가질 수 있다. 또한, 특히 효과적인 ZFN은 참조 샘플의 분포 토폴로지(distribution topology)와 다른 분포 토폴로지를 가질 수 있다. 일례에서, 참조 샘플은 타겟 부위의 시작에서 짧은 피크를 포함하는 분포 토폴로지를 가질 수 있지만, ZFN 처리된 샘플의 분포 토폴로지는 더 퍼져있을 수 있거나 타겟 부위를 확장하는 더 높고 넓은 피크를 가질 수 있다. 특히 효과적이지 않은 ZFN은 참조 샘플의 그래프와 구별될 수 없는 그래프를 가질 수 있다. 다른 ZFN의 활동 분포가 더 높은 활성을 가진 후보를 식별하기 위해 Y축 상에 동일한 스케일로 비교될 수 있다. 통계적 테스트를 이용하여, 이어서 효과적인 ZFN과 효과적이지 않은 ZFN을 구별하기 위해 처리된 샘플 및 비처리(wild-type) 샘플 사이의 활동의 분포의 차이를 이용할 수 있다.
여러 후보 ZFN의 활동의 예시적인 정량 분석이 도 12에 도시된다. 그림의 제1 열은 식물 시스템의 타겟 게놈 위치에서의 생물학적 노이즈를 캡처한 대조 샘플의 ID 및 특정한 후보 ZFN 처리된 샘플의 ID를 나타낸다. 대조 샘플 내의 생물학적 노이즈는 대상 타겟에서의 기존 게놈의 변화 또는 식물 샘플로부터의 DNA 시퀀싱 및 추출 실험 과정 동안 유도된 게놈의 변화를 포함한다. 제2 열은 샘플 또는 실험에 기초한 서열을 분리하기 위해 이용된 6개의 뉴클레오티드 바코드를 나타낸다. 제3 열은 서열의 수를 나타내는데, 이는 타겟 부위에서의 삽입 또는 결실를 포함했던 모든 고품질 서열 내에서의 서열의 수이다. 제4 및 제5 열은 각각 결실 및 삽입을 포함하는 제3 열에서의 서열의 서브셋에 대한 카운트를 나타낸다. 제6 열은 제3 열에서 나타난 모든 서열 중에서의 고유 삽입 또는 결실의 수를 나타낸다. 제7 열은 ZFN 활동을 표현하는데, 처리된 샘플인 경우, 노이즈의 레벨을, 대조 샘플인 경우, 삽입 또는 결실를 포함하는 고품질 서열의 퍼센트로 표현하고, 이는 수학식 5를 이용하여 계산된다. 특정 ZFN 처리 샘플의 ZFN 활동과 이의 대응되는 대조 샘플에서의 생물학적 노이즈의 레벨을 비교하는 것은 게놈 내의 타겟 위치에서의 특정 ZFN의 효율성의 정량 측정을 제공한다. 모든 후보 ZFN은 이러한 측정에 기초하여 또한 순위 매겨질 수 있다.
예시적인 일 실시예에서, 시퀀서는 적어도 200만 개의 서열에 관한 데이터를 제공한다. 분석 시스템(507)은 고품질 판독 서열을 식별함으로써 약 180만개, 또는 초기 서열의 약 5 %로 서열의 수를 감소시킬 수 있다. 180만 개의 서열 중, 2000개에서 5000개 사이의 서열은 분석 시스템(507)에 의해 고유한 것으로서 식별된다. 분석 시스템(507)은 참조 서열에 대해 2000개에서 5000개의 서열을 정렬하고, 고품질 정렬을 계산한다. 100과 500 사이의 고품질 정렬이 있을 수도 있다. 따라서, 분석 시스템(507)은 네자릿수 크기만큼 그리고 약 99.975에서 99.995 퍼센트만큼, 상이한 ZFN 처리된 서열을 포함하는 서열의 수를 감소시켰다. 일 실시예에서, 분석 시스템(507)은 적어도 약 99 %에 의해 서열의 수를 감소시켰다.
이제 도 5를 보면, 본 개시의 실시예에 따른 시퀀서에서 데이터 분석기로의 시료 및 데이터에 대한 순서도가 도시된다. 박스(501)에 도시된 바와 같이 하나 이상의 샘플이 제조된다. 샘플 각각은 DNA의 가닥의 다수 사본을 포함할 수 있고, ZFN의 양이 샘플에 추가될 수 있다. 각 샘플은 상이한 ZFN을 가질 수 있다. 본 명세서에서 설명된 바와 같이 ZFN은 타겟 지역에서 DNA 가닥을 자른다. 이어서 DNA 가닥이 복구된다. ZFN의 기능은 DNA 가닥을 자르는 것이고 DNA 가닥의 복구 특성이 분석된다. 실시예에서, 샘플은 샘플 및 ZFN 조합에 대해 고유한 바코드로 읽혀진다. 박스(503)에서 도시된 바와 같이, 참조 샘플 또한 제조되는데, 참조 샘플은 샘플에 대해 이용된 것과 같은 동일한 DNA 가닥을 포함한다. 다양한 ZFN으로 처리된 샘플, 및 참조 샘플 및 참조 샘플이, 박스(505)에 도시된, 시퀀서에 배치된다. 샘플의 분석을 제공하는 프로세스 또는 기계의 어떤 유형도 이용될 수 있지만, 예컨대 그리고 제한의 의미 없이, 시퀀서는 하나 이상의 시퀀서일 수 있다. 시퀀서(505)는 샘플 내의 DNA 가닥의 서열을 결정한다. 실시예에서, 시퀀서(505)는 또한 추가적인 계산을 수행하여, 예컨대 그리고 제한의 의미 없이, 시퀀서가 식별하는 염기 각각에 대한 신뢰 구간을 결정한다. 시퀀서(505)는 데이터를 생성한다. 데이터는, 예컨대 그리고 제한의 의미 없이, 신뢰 구간과 같은, 서열 정보 또는 서열 정보에 관한 기타 계산의 형태이고, 텍스트 파일 또는 기타 데이터 파일로 제공된다.
시퀀서로부터의 데이터가 분석 시스템(507)에 제공된다. 데이터는 네트워크 또는 시퀀서와 분석 시스템(507) 사이의 전용 연결(dedicated connection)에 의해, 또는 시퀀서에서 분석 시스템(507)로늬 이동식 저장장치에 의해 제공될 수 있다. 다른 실시예에서, 시퀀서는 스크린 또는 프린터로 데이터를 출력하고, 데이터는, 예컨대 그리고 제한의 의미 없이, 키보드 또는 스캐너로부터 분석 시스템(507)으로 입력된다. 일 실시예에서, 분석 시스템은 시퀀서의 일부이다.
분석 시스템(507)은 시퀀서로부터 데이터를 수신하고, 고품질의 정렬에 대한 서열 정보, 또는 판독에 관한 기타 데이터를 계산한다. 실시예에서, 분석 시스템(507)은 또한 기타 분석 시스템, 데이터 저장 시스템, 또는 하나 이상의 시각화 시스템 또는 시각화 모듈로, 계산된 데이터를 제공한다. 다른 실시예에서, 분석 시스템(507)은 스크린 또는 프린터로 데이터를 출력하고, 데이터는, 예컨대 그리고 제한의 의미 없이, 키보드 또는 스캐너에 의해 시각화 시스템 또는 데이터 저장 시스템에 입력된다.
도 6은 본 개시의 실시예에 따른 도 5의 분석 시스템(507)의 구성요소 그림을 도시한다. 분석 시스템(507)은 입력 모듈(603), 계산 모듈(605), 출력 모듈(607), 및 시각화 모듈(611)을 포함할 수 있고, 이들은 분석 시스템(507)의 메모리(615) 내에 존재한다. 모듈은 분석 시스템(507)의 컨트롤러(625)에 의해 실행될 수 있다. 컨트롤러(625)는 하나 이상의 프로세서일 수 있다. 메모리(615)는 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 분석 시스템(507)의 하나 이상의 프로세서에 의해 액세스될 수 있고 휘발성 및 비휘발성 매체 양자 모두를 포함할 수 있는 임의의 이용가능한 매체일 수 있다. 또한, 컴퓨터 판독가능 매체는 이동식 및 비이동식 미디어 중 하나 또는 양자 모두일 수 있다. 예컨대, 컴퓨터 판독가능 매체는, RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 기타 광 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 원하는 정보를 저장하기 위해 이용할 수 있고 분석 시스템(507)에 의해 액세스될 수 있는 임의의 기타 매체를 포함할 수 있지만, 위에 열거된 예에 국한되지 않는다. 분석 시스템(507)은 단일 시스템일 수 있거나, 서로 통신되는 둘 이상의 시스템일 수 있다. 일 실시예에서, 분석 시스템(507)은 하나 이상의 입력 장치, 하나 이상의 출력 장치, 하나 이상의 프로세서, 및 하나 이상의 프로세서와 연관된 메모리를 포함한다. 하나 이상의 프로세서와 연관된 메모리는, 모듈의 실행과 연관된 메모리, 및 데이터의 저장과 연관된 메모리를 포함할 수 있지만, 위에 열거된 예에 국한되지 않는다. 실시예에서, 분석 시스템(507)은 하나 이상의 네트워크와 연관되고, 하나 이상의 네트워크를 통해 하나 이상의 추가적인 시스템과 통신한다. 모듈은 하드웨어 또는 소프트웨어, 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 실시예에서, 분석 시스템(507)은 또한 분석 시스템(507)이 입력 장치, 출력 장치, 프로세서, 메모리, 및 모듈에 액세스할 수 있게 하는 추가적인 하드웨어 및/또는 소프트웨어를 포함한다. 모듈, 또는 모듈들의 조합은, 예컨대, 별개의 시스템 상의 상이한 프로세서 및/또는 메모리와 연관될 수 있고, 시스템은 서로 별도로 위치될 수 있다. 일 실시예에서, 모듈은 하나 이상의 프로세스 또는 서비스로서 동일한 시스템에서 실행된다. 모듈은 서로 통신하고 정보를 공유하도록 동작가능하다. 모듈이 서로 분리되고 별개인 것으로서 설명되지만, 둘 이상의 모듈의 기능은 동일한 프로세스에서, 또는 동일한 시스템에서 대신 실행될 수 있다.
입력 모듈(603)은 입력 장치(601)로부터 데이터를 수신한다. 입력 모듈(603)은 또한 다른 시스템으로부터 네트워크를 통해 입력을 수신할 수 있다. 예컨대, 제한의 의미 없이, 입력 모듈(603)은 하나 이상의 네트워크를 통해 컴퓨터로부터 하나 이상의 신호를 수신한다. 입력 모듈(603)은 입력 장치(601)로부터 데이터를 수신하고, 계산 모듈(605)에 의해 인식 가능한 형식으로 데이터를 다시 정리하거나 다시 프로세싱할 수 있어서, 결국 데이터는 계산 모듈(605)로 전송될 수 있다.
입력 장치(601)는 전용 연결 또는 임의의 기타 유형의 연결을 통해 입력 모듈(603)과 통신할 수 있다. 예컨대, 제한의 의미 없이, 입력 장치(601)는 범용 직렬 버스("USB") 연결을 통해, 입력 모듈(603)로의 직렬 또는 병렬 연결을 통해, 또는 입력 모듈(603)로의 광 또는 무선 링크를 통해 입력 모듈(603)과 통신할 수 있다. 전송은 또한 하나 이상의 물리적 오브젝트를 통해 발생할 수 있다. 예컨대, 시퀀서는 하나 이상의 파일을 생성하고, 시퀀서 또는 사용자는, USB 저장장치 또는 하드 드라이브와 같은, 이동식 저장장치에 하나 이상의 파일을 복사하며, 사용자는 시퀀서로부터 이동식 저장장치를 제거하여 분석 시스템(507)의 입력 모듈(603)에 저장장치를 부착할 수 있다. 입력 장치(601)와 입력 모듈(603) 사이의 통신을 위해 임의의 통신 프로토콜을 이용할 수 있다. 예컨대, 제한의 의미 없이, USB 프로토콜 또는 블루투스 프로토콜을 이용할 수 있다.
일 실시예에서, 입력 장치(601)는 시퀀서이다. 시퀀서는 하나 이상의 샘플을 분석하고 하나 이상의 샘플에 관한 서열 데이터를 생성한다. 실시예에서, 데이터는 하나 이상의 파일의 형태이고, 또는 시퀀서는 스크린 또는 프린터로 데이터를 출력할 수 있으며, 예컨대 그리고 제한의 의미 없이, 키보드, 마우스, 또는 스캐너에 의해, 분석 시스템(507)로 입력된다. 실시예에서, 시퀀서는 또한 샘플을 설명하는 추가적인 데이터를 포함한다.
네트워크는 로컬 영역 네트워크, 광역 네트워크, IEEE 802.11x 통신 프로토콜을 이용하는 무선 네트워크와 같은 무선 네트워크, 케이블 네트워크, 광섬유 네트워크 또는 기타 광 네트워크, 토큰 링 네트워크, 또는 임의의 기타 종류의 패킷 교환 네트워크 중 하나 이상을 포함할 수 있고, 위에 열거된 예들을 이용할 수 있다. 네트워크는 인터넷을 포함할 수 있거나, 공용 또는 개인 네트워크의 임의의 기타 유형을 포함할 수 있다. 용어 "네트워크"의 이용은 네트워크의 단일 스타일 또는 유형의 네트워크로 의미를 제한하지 않거나, 하나의 네트워크가 이용된다는 것을 의미하지 않는다. 임의의 통신 프로토콜 또는 유형의 네트워크들의 조합이 이용될 수 있다. 예컨대, 둘 이상의 패킷 교환 네트워크를 이용할 수 있거나, 또는 패킷 교환 네트워크가 무선 네트워크와 통신할 수 있다.
계산 모듈(605)은 입력 모듈(603)로부터 입력을 수신하고, 입력에 기초하여 하나 이상의 계산을 수행한다. 예컨대, 제한의 의미 없이, 계산 모듈(605)은 판독으로부터 바코드를 분리하고 기타 판독 서열로부터 고품질 판독 서열을 추출하기 위해 하나 이상의 알고리즘을 적용하며, 고품질 판독 서열로부터 고유 판독 서열을 추출하기 위해 판독을 분석한다. 계산 모듈(605)은 또한 고품질 판독 서열로부터 서열 정보를 판독할 수 있고, 그 서열을 하나 이상의 참조 샘플 서열과 정렬하도록 시도할 수 있다. 참조 샘플 서열과 고품질 판독 서열의 정렬은, 예컨대, 고품질 판독 서열에서 참조 샘플 서열에의 변형의 수에 관한 데이터, 또는 삽입 및/또는 결실의 수에 관한 데이터와 같은, 추가적인 데이터를 생성한다. 실시예에서, 도 1 내지 4에서 도시된 바와 같이, 계산 모듈(605)은 고품질 판독 서열을 스코어링하고, 고품질 판독 서열로부터 고품질 정렬을 추출한다. 도 4에서 도시된 바와 같이, 고품질 정렬은 또한 분석될 수 있어서, ZFN에 관한 데이터를 분석하게 된다. 추가적으로, 실시예에서, 고품질의 정렬이 분석 및/또는 시각화된다.
계산 모듈(605)은, 예컨대, 고품질 정렬에 관한 데이터, 고품질 정렬에 대한 판독 서열, 및/또는 고품질 정렬 중 하나 이상을 시각화하기 위해 시각화 모듈에 의해 이용될 데이터를, 출력으로서 제공한다.
시각화 모듈(611)은 고품질 정렬 중 하나 이상의 서열에 관한 계산 모듈로부터의 입력으로서 데이터를 수신한다. 시각화 모듈은 사용자가 고품질 정렬을 시각화 및/또는 조작할 수 있게 한다. 실시예에서, 시각화 모듈(611)은 Gbrowse, 또는 Gbrowse의 수정된 버전을 이용할 수 있다. 사용자는 고품질 정렬 중 하나 이상의 시각적 표현을 조작할 수 있는 능력을 가질 수 있다. 시각화 모듈은 사용자가 원래의 참조 서열에 대한 게놈 변형과 고품질 서열의 정렬을 보게 할 수 있다. 시각화 단계는 사용자가 ZFN의 활동, 대조 샘플 내의 배경 노이즈, 또는 특정 게놈 변형의 유형 또는 길이 또는 주파수를 이해하게 할 수 있다. 이러한 시각화는 활성 또는 비활성 후보로서 ZFN 뉴클레아제에 대한 추천을 제공하는 데 도움이 된다. 변형된 서열의 시각화 및 후속 번역은 변형의 단백질 판독(read-out)을 제공한다. 판독은 유전자 녹아웃 어플리케이션에서 이용될 수 있다. 유전자 녹아웃 어플리케이션의 예는, 다우 아그로사이언시즈의에서 입수가능한, EXZACT™ Precision Technology 브랜드가 매개하는 유전자 녹아웃 어플리케이션을 포함할 수 있다.
출력 모듈(607)은 입력을 수신하고, 출력 장치(609)로 입력을 전송한다. 일 실시예에서, 출력 모듈(607)은 영숫자 데이터(alphanumeric data)의 형태로 계산 모듈(605)로부터 입력을 수신하고, 출력 장치(609)가 이해할 수 있는 형식으로 데이터를 재포맷하고(reformat), 출력 장치(609)로 데이터를 전송한다. 출력 모듈(607) 및 출력 장치(609)는 서로 통신한다. 예컨대, 제한의 의미 없이, 출력 모듈(607) 및 출력 장치(609)는 네트워크를 통해 통신하거나, 케이블 또는 무선 링크와 같은, 전용 연결을 통해 통신한다. 출력 모듈(607)은 또한 출력 장치(609)에 의해 이용할 수 있는 형식으로 계산 모듈(605)로부터 수신된 데이터를 재포맷할 수 있다. 예컨대, 출력 모듈(607)은 출력 장치(609)에 의해 판독될 수 있는 하나 이상의 파일을 생성할 수 있다.
실시예에서, 출력 장치(609)는 시각화 시스템, 다른 데이터 분석 시스템(507), 또는 데이터 저장 시스템이다. 출력 모듈(607)은 출력 장치(609)에 하나 이상의 전자 파일을 전송함으로써 출력 장치(609)와 통신한다. 전송은, 예컨대 USB 연결 또는 직렬 연결과 같은, 전용 링크를 통해 발생할 수 있거나, 하나 이상의 네트워크 연결을 통해 발생할 수 있다. 전송은 또한 하나 이상의 물리적 오브젝트를 통해 발생할 수 있다. 예컨대, 출력 모듈(607)은 하나 이상의 파일을 생성할 수 있고, USB 저장장치 또는 하드 드라이브와 같은, 이동식 저장장치로 하나 이상의 파일을 복사할 수 있으며, 사용자는 분석 시스템(507)으로부터 이동식 저장장치를 제거할 수 있고 저장장치를 시각화 시스템, 다른 데이터 분석 시스템, 또는 데이터 저장 시스템에 부착할 수 있다.
본 개시는 예시적인 설계를 가지는 것으로서 설명되었지만, 본 개시는 본 개시의 사상 및 범위 내에서 변형될 수도 있다. 따라서 본 출원은 그 일반적인 원리를 이용하여 본 개시의 어떤 변화, 사용 또는 적응을 망라하도록 의도된다. 또한, 본 출원은 본 개시에 존재하는 본 발명이 속하는 분야에서 알려진 또는 관습적인 실무에서 유래하는 본 개시로부터의 이러한 외적 범위를 망라하도록 의도된다.

Claims (30)

  1. 분석 방법으로서,
    복수의 서열에 관한 서열 데이터를 전자적으로 수신하는 단계;
    상기 복수의 서열 중에서 복수의 고품질 판독 서열(high quality read sequences)을 식별하는 단계;
    상기 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열(unique read sequences)을 추출하는 단계; 및
    상기 복수의 고유 판독 서열을 참조 샘플(reference sample)에 대응하는 참조 서열(reference sequence)에 대해 비교하는 단계를 포함하는, 분석 방법.
  2. 제1항에 있어서, 상기 복수의 고유 판독 서열을 상기 참조 샘플에 대응하는 상기 참조 서열 데이터에 대해 정렬한 후에, 고품질 정렬(high quality alignments)을 계산하는 단계를 더 포함하는, 분석 방법.
  3. 제1항에 있어서, 상기 정렬된 고유 판독 서열의 정성 분석을 수행하는 단계를 더 포함하는, 분석 방법.
  4. 제1항에 있어서, 상기 정렬된 고유 판독 서열의 정량 분석을 수행하는 단계를 더 포함하는, 분석 방법.
  5. 제1항에 있어서, 상기 정렬된 고유 판독 서열을 시각화하는 단계를 더 포함하는, 분석 방법.
  6. 제1항에 있어서, 상기 복수의 고유 판독 서열 각각과 상기 참조 서열 사이의 정렬을 계산하는 단계를 더 포함하는, 분석 방법.
  7. 제1항에 있어서, 상기 서열 데이터에 관한 신뢰 구간 데이터(confidence interval data)를 전자적으로 수신 - 상기 신뢰 구간 데이터는 적어도 부분적으로 상기 복수의 고품질 판독 서열을 식별하기 위해 이용됨 - 하는 단계를 더 포함하는, 분석 방법.
  8. 제1항에 있어서, 상기 복수의 서열 각각은 식물 게놈의 적어도 일부분을 설명하는, 분석 방법.
  9. 제1항에 있어서, 하나 이상의 바코드(barcodes)를 설명하는 바코드 정보는 상기 서열 데이터와 연관되어 전자적으로 수신되는, 분석 방법.
  10. 제1항에 있어서, 하나 이상의 바코드를 설명하는 바코드 정보는 상기 서열 데이터와 연관되어 전자적으로 수신되고 상기 서열 데이터를 적어도 두 그룹 중의 하나와 연관시키는 것은 상기 서열 데이터와 연관된 상기 바코드 정보를 판독하는 것, 및 상기 하나 이상의 바코드에 따른 상기 서열 데이터를 연관시키는 것을 포함하는, 분석 방법.
  11. 제1항에 있어서, 상기 서열 데이터를 적어도 두 그룹 중의 하나와 연관시키는 단계를 더 포함하는, 분석 방법.
  12. 분석 시스템으로서,
    복수의 서열에 관한 서열 데이터를 수신하기 위한 모듈; 및
    계산 모듈(calculation module)을 포함하고,
    상기 계산 모듈은
    상기 복수의 서열 중에서 복수의 고품질 판독 서열을 식별;
    상기 복수의 고품질 판독 서열로부터 복수의 고유 판독 서열을 추출; 및
    상기 복수의 고유 판독 서열을 참조 샘플에 대응하는 참조 서열과 비교하도록 동작가능한, 분석 시스템.
  13. 제12항에 있어서, 상기 계산 모듈은 또한 상기 복수의 고품질 판독 서열로부터 고품질 정렬을 계산하도록 동작가능한, 분석 시스템.
  14. 제12항에 있어서, 상기 정렬된 고유 판독 서열의 정성 분석을 수행하기 위한 모듈을 더 포함하는, 분석 시스템.
  15. 제12항에 있어서, 상기 정렬된 고유 판독 서열의 정량 분석을 수행하기 위한 모듈을 더 포함하는, 분석 시스템.
  16. 제12항에 있어서, 상기 정렬된 고유 판독 서열을 시각화하기 위한 모듈을 더 포함하는, 분석 시스템.
  17. 제12항에 있어서, 상기 계산 모듈은 또한 상기 복수의 고유 판독 서열 각각과 상기 참조 서열 사이의 정렬을 계산하도록 동작가능한, 분석 시스템.
  18. 제12항에 있어서, 상기 계산 모듈은 또한 상기 서열 데이터를 두 그룹 중의 하나와 연관시키는, 분석 시스템.
  19. 분석 방법으로서,
    복수의 서열에 관한 서열 데이터를 전자적으로 수신 - 상기 복수의 서열은 식물 게놈의 적어도 일부분을 설명하고, 상기 복수의 서열은 하나 이상의 징크 핑거 뉴클레아제(zinc finger nucleases)에 사전에 노출되어 상기 서열을 자름 - 하는 단계;
    상기 서열 데이터에 관한 신뢰 구간 데이터를 전자적으로 수신하는 단계;
    적어도 부분적으로 상기 신뢰 구간 데이터에 기초하여 상기 복수의 서열 중에서 복수의 고품질 판독 서열을 식별하는 단계;
    하나 이상의 고품질 판독 서열로부터 고유 판독 서열을 추출하는 단계; 및
    상기 고유 판독 서열을 참조 샘플에 대응하는 서열 데이터에 대해 정렬하는 단계를 포함하는, 분석 방법.
  20. 제20항에 있어서, 상기 서열 데이터와 연관된 바코드 정보를 전자적으로 수신하는 단계; 및
    적어도 부분적으로 상기 바코드 정보에 기초하여 상기 서열 데이터를 적어도 두 그룹 중의 하나와 연관시키는 단계를 더 포함하는, 분석 방법.
  21. 분석 방법으로서,
    제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 상기 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며(repaired), 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및
    부분적으로 참조 서열에 기초하여, 상기 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 상기 제2번 서열은 상기 서열을 자르기 위해 이용되는 상기 ZFN 및 상기 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 상기 제2번 서열은 상기 제1번 서열보다 적어도 두자릿수(two orders of magnitude) 더 적음 - 하는 단계를 포함하는, 분석 방법.
  22. 제21항에 있어서, 상기 제2번 서열은 상기 제1번 서열보다 적어도 네자릿수 더 적은, 분석 방법.
  23. 제21항에 있어서, 상기 서열로의 복구에 대한 제1 특성은 타겟 컷 영역(target cut region) 내의 다수의 삽입 및 다수의 결실 중 적어도 하나에 대한 척도(measure)를 포함하는, 분석 방법.
  24. 제21항에 있어서, 부분적으로 상기 참조 서열에 기초하여, 상기 제2번 서열을 전자적으로 결정하는 단계는
    상기 각각의 서열을 자르기 위해 이용되는 상기 ZFN에 기초하여 제1번 서열을 복수의 그룹으로 분리하는 단계;
    상기 제1번 서열 내의 복수의 고품질 판독 서열을 식별 - 상기 복수의 고품질 판독 서열은 제1번 서열보다는 적고 제2번 서열보다는 큰 제3번 서열을 가짐 - 하는 단계;
    상기 제3번 서열로부터 복수의 고유 판독 서열을 식별 - 상기 복수의 고유 판독 서열은 제3번 서열보다는 적고 제2번 서열보다는 더 크거나 적은 제4번 서열을 가짐 - 하는 단계; 및
    상기 참조 서열에 대해 상기 제4번 서열 각각을 비교하여 복수의 고품질 정렬 서열을 식별하는 단계를 포함하는, 분석 방법.
  25. 분석 방법으로서,
    제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 상기 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및
    부분적으로 참조 서열에 기초하여, 상기 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 상기 제2번 서열은 상기 서열을 자르기 위해 이용되는 상기 ZFN 및 상기 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 상기 제2번 서열은 상기 제1번 서열의 1 퍼센트보다 더 적음 - 하는 단계를 포함하는, 분석 방법.
  26. 제25항에 있어서, 상기 제2번 서열은 상기 제1번 서열의 0.1 퍼센트보다 더 적은, 분석 방법.
  27. 제25항에 있어서, 상기 제2번 서열은 상기 제1번 서열의 0.01 퍼센트보다 더 적은, 분석 방법.
  28. 제25항에 있어서, 상기 제2번 서열은 상기 제1번 서열의 0.01 퍼센트보다 더 적고 제1번 서열은 적어도 100만 개의 서열인, 분석 방법.
  29. 제25항에 있어서, 상기 서열로의 복구에 대한 제1 특성은 타겟 컷 영역 내의 다수의 삽입 및 다수의 결실 중 적어도 하나에 대한 척도를 포함하는, 분석 방법.
  30. 분석 방법으로서,
    제1번 서열에 관한 서열 데이터를 전자적으로 수신 - 복수의 서열을 포함하는 상기 제1번 서열은 복수의 징크 핑거 뉴클레아제(ZFN)에 의해 잘리고 그 뒤에 복구되며, 제1번 서열의 제1 부분은 제1 ZFN에 의해 잘리고 그 뒤에 복구되며 그리고 제1번 서열의 제2 부분은 제2 ZFN에 의해 잘리고 그 뒤에 복구됨 - 하는 단계; 및
    부분적으로 참조 서열에 기초하여, 상기 제1번 서열의 서브그룹인 제2번 서열을 전자적으로 결정 - 상기 제2번 서열은 상기 서열을 자르기 위해 이용되는 상기 ZFN 및 상기 서열로의 복구에 대한 적어도 하나의 특성에 기초하여 선택되고, 상기 제2번 서열은 상기 제1번 서열의 1 퍼센트보다 더 적음 - 하는 단계를 포함하고,
    부분적으로 상기 참조 서열에 기초하여, 상기 제2번 서열을 전자적으로 결정하는 단계는,
    상기 각각의 서열을 자르기 위해 이용되는 상기 ZFN에 기초하여 상기 제1번 서열을 복수의 그룹으로 분리하는 단계;
    상기 제1번 서열 내의 복수의 고품질 판독 서열을 식별 - 상기 복수의 고품질 판독 서열은 제1번 서열보다는 적고 제2번 서열보다는 큰 제3번 서열을 가짐 - 하는 단계;
    상기 제3번 서열로부터 복수의 고유 판독 서열을 식별 - 상기 복수의 고유 판독 서열은 제3번 서열보다는 적고 제2번 서열보다는 더 크거나 적은 제4번 서열을 가짐 - 하는 단계; 및
    상기 참조 서열에 대해 상기 제4번 서열 각각을 비교하여 복수의 고품질 정렬 서열을 식별하는 단계
    를 포함하는, 분석 방법.
KR1020137019861A 2010-12-29 2011-12-20 Dna 서열의 데이터 분석 KR20140006846A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201061428191P 2010-12-29 2010-12-29
US61/428,191 2010-12-29
US201161503784P 2011-07-01 2011-07-01
US61/503,784 2011-07-01
PCT/US2011/066284 WO2012092039A1 (en) 2010-12-29 2011-12-20 Data analysis of dna sequences

Publications (1)

Publication Number Publication Date
KR20140006846A true KR20140006846A (ko) 2014-01-16

Family

ID=45509679

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137019861A KR20140006846A (ko) 2010-12-29 2011-12-20 Dna 서열의 데이터 분석

Country Status (13)

Country Link
US (1) US20120173153A1 (ko)
EP (1) EP2659411A1 (ko)
JP (1) JP6066924B2 (ko)
KR (1) KR20140006846A (ko)
CN (1) CN103403725A (ko)
AR (1) AR084631A1 (ko)
AU (1) AU2011352786B2 (ko)
BR (1) BR112013016631A2 (ko)
CA (1) CA2823061A1 (ko)
IL (1) IL227246A (ko)
RU (1) RU2013135282A (ko)
WO (1) WO2012092039A1 (ko)
ZA (1) ZA201305274B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220036447A (ko) 2020-09-15 2022-03-23 전남대학교산학협력단 Dna 연성 정보 연산 방법, 이를 위한 dna 저장 장치 및 이를 위한 프로그램

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140195216A1 (en) * 2013-01-08 2014-07-10 Imperium Biotechnologies, Inc. Computational design of ideotypically modulated pharmacoeffectors for selective cell treatment
TWI721478B (zh) 2013-11-04 2021-03-11 美商陶氏農業科學公司 最適玉米基因座(二)
TWI672378B (zh) 2013-11-04 2019-09-21 陶氏農業科學公司 最適大豆基因座(一)
CN104200135A (zh) * 2014-08-30 2014-12-10 北京工业大学 基于MFA score和排除冗余的基因表达谱特征选择方法
CN107004069B (zh) * 2015-04-30 2021-12-03 株式会社Xcoo 基因组解析装置及基因组可视化方法
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
WO2017024138A1 (en) * 2015-08-06 2017-02-09 Arc Bio, Llc Systems and methods for genomic analysis
EP3414693A4 (en) * 2016-02-09 2019-10-30 TOMA Biosciences, Inc. SYSTEMS AND METHOD FOR THE ANALYSIS OF NUCLEIC ACIDS
TWI695890B (zh) * 2017-12-29 2020-06-11 行動基因生技股份有限公司 序列比對與突變位點分析的方法及系統

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60029572T2 (de) * 1999-03-23 2007-07-26 Biovation Ltd. Isolierung und analyse von proteinen
AU2008305568B2 (en) * 2007-09-27 2013-11-21 Corteva Agriscience Llc Engineered zinc finger proteins targeting 5-enolpyruvyl shikimate-3-phosphate synthase genes
AU2009283194B2 (en) * 2008-08-22 2014-10-16 Sangamo Therapeutics, Inc. Methods and compositions for targeted single-stranded cleavage and targeted integration
CN101429559A (zh) * 2008-12-12 2009-05-13 深圳华大基因研究院 一种环境微生物检测方法和系统
US8871905B2 (en) * 2009-03-20 2014-10-28 Sangamo Biosciences, Inc. Modification of CXCR4 using engineered zinc finger proteins

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220036447A (ko) 2020-09-15 2022-03-23 전남대학교산학협력단 Dna 연성 정보 연산 방법, 이를 위한 dna 저장 장치 및 이를 위한 프로그램

Also Published As

Publication number Publication date
AR084631A1 (es) 2013-05-29
JP6066924B2 (ja) 2017-01-25
US20120173153A1 (en) 2012-07-05
BR112013016631A2 (pt) 2016-10-04
JP2014505935A (ja) 2014-03-06
AU2011352786A1 (en) 2013-08-01
IL227246A (en) 2017-03-30
EP2659411A1 (en) 2013-11-06
CA2823061A1 (en) 2012-07-05
AU2011352786B2 (en) 2016-09-22
CN103403725A (zh) 2013-11-20
WO2012092039A1 (en) 2012-07-05
ZA201305274B (en) 2014-09-25
RU2013135282A (ru) 2015-02-10

Similar Documents

Publication Publication Date Title
KR20140006846A (ko) Dna 서열의 데이터 분석
Ewing et al. Base-calling of automated sequencer traces using phred. II. Error probabilities
US10127351B2 (en) Accurate and fast mapping of reads to genome
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
JP2018535481A5 (ko)
Zhang et al. TAPER: Pinpointing errors in multiple sequence alignments despite varying rates of evolution
Michaeli et al. Automated cleaning and pre-processing of immunoglobulin gene sequences from high-throughput sequencing
CN116864007B (zh) 基因检测高通量测序数据的分析方法及系统
US7912652B2 (en) System and method for mutation detection and identification using mixed-base frequencies
GB2579110A (en) Method for determining a consensus sequence of a target polymer
Te Boekhorst et al. Computational problems of analysis of short next generation sequencing reads
JP5403563B2 (ja) 網羅的フラグメント解析における遺伝子同定方法および発現解析方法
JP2008161056A (ja) Dna配列解析装置、dna配列解析方法およびプログラム
JP7166638B2 (ja) 多型検出法
Hesse K-Mer-Based Genome Size Estimation in Theory and Practice
WO2023181370A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
WO2016143062A1 (ja) 配列データ解析装置、dna解析システムおよび配列データ解析方法
JP7122006B2 (ja) 挿入・欠失・逆位・転座・置換検出法
KR20170046315A (ko) 차세대 시퀀싱을 이용한 분자마커 개발 방법
Hesse Check Chapter 4 updates for
Piwluang et al. iPRIns: A Tool with the Improved Precision and Recall for Insertion Detection in the Human Genome
CN117831627A (zh) 一种用于复杂结构变异的可视化检测方法及系统
Shomroni Development of algorithms and next-generation sequencing data workflows for the analysis of gene regulatory networks
CN114420204A (zh) 用于预测待测基因的拷贝数的方法、计算设备和存储介质
Zeller et al. Resequencing data of 20 Arabidopsis ecotypes

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application