KR20170106979A - 구조 변이 및 위상 조정 정보를 시각화하기 위한 시스템 및 방법 - Google Patents

구조 변이 및 위상 조정 정보를 시각화하기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20170106979A
KR20170106979A KR1020177021184A KR20177021184A KR20170106979A KR 20170106979 A KR20170106979 A KR 20170106979A KR 1020177021184 A KR1020177021184 A KR 1020177021184A KR 20177021184 A KR20177021184 A KR 20177021184A KR 20170106979 A KR20170106979 A KR 20170106979A
Authority
KR
South Korea
Prior art keywords
nucleic acid
individual
data
data set
sequence analysis
Prior art date
Application number
KR1020177021184A
Other languages
English (en)
Inventor
미쉘 슈날-레빈
알렉산더 웅
데이비드 스태퍼드
Original Assignee
10엑스 제노믹스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 10엑스 제노믹스, 인크. filed Critical 10엑스 제노믹스, 인크.
Publication of KR20170106979A publication Critical patent/KR20170106979A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • G06F19/26
    • G06F19/18
    • G06F19/28
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Abstract

구조 변이 또는 위상 조정 정보를 제공하기 위한 시스템이 제공된다. 상기 시스템은 샘플의 표적 핵산에 대응하는 핵산 서열 데이터 세트에 액세스한다. 상기 데이터 세트는 헤더, 시놉시스 및 데이터 섹션을 포함한다. 상기 데이터 섹션은 복수의 서열 분석 판독을 포함한다. 각각의 서열 분석 판독은 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 서열 분석 판독을 위한 식별자를 인코딩하는 제2 부분을 포함한다. 상기 시스템의 메모리 내의 하나 이상의 프로그램은 상기 시스템의 마이크로프로세서를 사용하여, 상기 데이터 세트로부터의 구조 변이 또는 위상 조정 정보에 대한 요청을 수신하는 하플로타입 시각화 툴을 제공한다. 상기 요청은 상기 시놉시스에 대해 평가되어, 이에 따라, 상기 데이터 섹션의 일부가 식별된다. 구조 변이 또는 위상 조정 정보는 상기 데이터 섹션의 식별 부분을 사용하여, 하플로타입 시각화 툴에 디스플레이하기 위해, 포맷화된다.

Description

구조 변이 및 위상 조정 정보를 시각화하기 위한 시스템 및 방법
본 출원은 2015년 2월 25일 출원된 "구조 변이 및 위상 조정 정보를 시각화하기 위한 시스템 및 방법"이란 명칭의 미국 특허출원 제 62/120,873호에 관한 것이며, 그 전문은 본 명세서에서 참조로 포함된다.
본 출원은 또한 2015년 1월 13일 출원된 "구조 변이 및 위상 조정 정보를 시각화하기 위한 시스템 및 방법"이란 명칭의 미국 특허출원 제 62/102,926호에 관한 것이며, 그의 전문은 본 명세서에서 참조로서 포함된다.
본 명세서는 핵산 서열 분석 데이터에서 구조 변이 및 위상 조정 정보를 시각화하는 것과 관련된 기술을 개시한다.
대규모 병렬 서열 분석 방법론을 사용하여, 서열화된 인간 게놈으로부터 얻은 실험 데이터로부터의 하플로타입 어셈블리가 유전 데이터의 주요 소스로 나타났다. 이러한 데이터는 유전학 기반의 진단뿐만 아니라 인간의 질병 연구, 검출 및 개별화 치료를 비용 효율적으로 실현하는 방법으로 사용되고 있다.
이러한 대규모 병렬 서열 분석 방법론에 의해 제공되는 광범위 정보는, 예를 들어, 2014년 10월 29일 출원된 "핵산 서열의 분석"이란 명칭의 미국 특허출원 제 62/072,214호에 개시되어 있다. 이러한 기술은 전좌, 대규모 결실 또는 유전자 융합과 같은 게놈의 대규모 구조 변이의 검출을 크게 용이하게 한다. 다른 예로는, 이로 제한되는 것은 아니나, 서열 분석-바이-합성 플랫폼 (ILLUMINA), Bentley et al., 2008, "Accurate whole human genome sequencing using reversible terminator chemistry, Nature 456:53-59; 서열 분석-바이-결찰 플랫폼 (POLONATOR; ABI SOLiD), Shendure et al., 2005, "Accurate Multiplex Polony Sequencing of an Evolved bacterial Genome" Science 309:1728-1732; 파이로시퀀싱 플랫폼 (ROCHE 454), Margulies et al., 2005, "Genome sequencing in microfabricated high-density picoliter reactors," Nature 437:376-380; 및 단일 분자 서열 분석 플랫폼 (HELICOS HELISCAPE); Pushkarev et al ., 2009, "Single-molecule sequencing of an individual human genome," Nature Biotech 17:847-850, (PACIFIC BIOSCIENCES) Eid et al., "Real-time sequencing form single polymerase molecules," Science 323:133-138이 포함되며, 상기 문헌의 전문은 각각 본 명세서에서 참조로서 포함된다.
인간 게놈의 대부분에 걸쳐있는 하플로타입 데이터의 이용 가능성은, 특히 개인 게놈에 대한 전체 게놈 서열 분석 비용을 $1000 이하로 절감시킨다는 점에서, 진단, 발견 및 치료의 전술한 목적에 근접하기 위해, 이러한 데이터를 이용하여 효과적으로 작업하는 방법에 대한 필요가 대두되고 있다. 이러한 데이터로부터 하플로타입을 컴퓨터상에서 어셈블리하기 위해, 샘플에 존재하는 두 가지 하플로타입으로부터의 판독을 해결하고, 두 가지 하플로타입의 공통 서열을 추론할 필요가 있다. 이러한 문제는 NP 어려운 것으로 나타났다. 본 명세서에서 참조로서 포함되는 문헌 [Lippert et al., 2002, "Algorithmic strategies for the single nucleotide polymorphism haplotype assembly problem," Brief. Bionform 3:23-31]을 참조한다.
Consed 어셈블리 뷰는 전술한 서열 분석 방법으로부터 얻어진 판독의 시각화를 지원한다. 문헌 [Gordon 1998, "Consed: A graphical tool for sequencing finishing," Genome Research 8:198-202]을 참조한다.
또 다른 시각화 툴에는 EagleView가 있다. 문헌 [Huang and Marth, 2008, "EagleView: A genome assembly viewer for next-generation sequencing technologies," Genome Research 18:1538-1543]을 참조한다.
또 다른 이러한 뷰어 HapEdit이다. 문헌 [Kim et al ., "HapEdit: an accuracy assessment viewer for haplotype assembly using massively parallel DNA-sequencing technologies." Nucleic Acids Research, 2011, 1-5]을 참조한다. HapEdit은 하플로타입 어셈블리의 정확성을 평가할 수 있는 툴을 제공하며, 사용자가 다양한 상이한 서열 분석 기술을 통해 판독의 조성비를 서열에 적용할 수 있도록 한다.
전술된 프로그램은 그 자체로 각각 중요한 진보이나, 이들은, 서열 분석 데이터에서, 구조 변이체 (예를 들어, 결실, 복제, 카피 수 변이, 삽입, 역위, 전좌, 긴 말단 반복서열 (long terminal repeat) (LTR), 짧은 연속 반복서열 (short tandem repeat) (STR) 및 다양한 기타 유용한 특성화)를 시각적으로 평가하기 위한 툴에 대한 당업계의 필요를 적절히 해소시키지 못한다.
구조 변이를 시각적으로 평가하기 위한 기술적 해결수단 (예를 들어, 컴퓨팅 시스템, 방법 및 비 일시적 컴퓨터 판독 가능한 저장 매체)이 제공된다. 본 명세서에서 참조로서 포함되는 것으로서, "핵산 서열의 분석"이란 명칭의 2014년 10월 29일 출원된 미국 특허출원 제 62/072,214호에 개시된 것과 같은 플랫폼을 사용하여, 게놈은 표적 식별 전에, 단편화되고, 구분되며, 바코드화된다. 따라서, 바코드 정보의 완전성은 게놈 전체에 걸쳐 유지된다. 바코드 정보는, 현저한 바코드 중첩을 나타내는 게놈 영역을 검출하여 잠재적인 구조 변이 브레이크 포인트를 식별하는 데 사용된다. 이들은 또한 위상 조정 정보를 얻기 위해, 사용된다.
이하는, 본 발명의 일부 양상의 기본적인 이해를 제공하기 위해, 본 발명의 개요를 나타낸다. 이 개요는 본 발명의 광범위한 개관은 아니다. 이는 본 발명의 핵심/중요 요소를 식별하거나, 본 발명의 범위를 기술하기 위한 것이 아니다. 그 유일한 목적은 본 발명의 개념 중 일부를 후술되는 더욱 상세한 설명의 서두로서 간략화한 형태로 제시하는 것이다.
본 발명의 일 양상은 원격 클라이언트 컴퓨터에 대한 네트워크 연결을 통해 구조 변이 또는 위상 조정 정보를 제공하기 위한 시스템이다. 이 시스템은 하나 이상의 마이크로프로세서, 영구 메모리 및 비 영구 메모리를 포함한다. 영구 메모리 (예를 들어, 하드 드라이브) 및 비영구 메모리 (예를 들어, RAM 메모리)는 하나 이상의 핵산 서열 데이터 세트를 집합적으로 저장한다. 하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트는 복수의 샘플 중 개별 샘플의 적어도 하나의 표적 핵산에 대응한다. 각각의 샘플은 일부 실시형태에서 개별 샘플의 분석을 위한 벤치마크로서 기능할 수 있는 종의 표준 게놈과 관련된다. 예를 들어, 일부 실시형태에서, 각각의 샘플은 표준 게놈에 매핑되고, 이에 따라 표준 게놈은 개별 샘플의 일부를 시각화하기 위해, 쿼리 (query)를 파싱 (parsing)하기 위해, 주형 (참조)로서 사용된다. 예를 들어, 일부 실시형태에서, 샘플은 인간 대상체의 것이다. 이러한 예에서, 인간 게놈은 (다른 종으로부터의 게놈과 달리) 참조 게놈으로서 기능하고, 개별 샘플은 인간 게놈에 매핑된다. 이러한 방식으로, 샘플의 특정 인간 염색체 또는 그의 일부분에서 시각적 서열 또는 서열 변이에 대한 요청은 참조 게놈에 대한 이러한 매핑에 기초하여, 개시된 시스템 및 방법을 사용하여, 해석되고 처리될 수 있다.
각각의 핵산 서열 분석 데이터 세트는 (i) 헤더, (ii) 시놉시스, 및 (iii) 데이터 섹션을 포함한다. 데이터 섹션은 샘플로부터의 복수의 정렬된 서열 판독 및 만들어진 각각의 변이 호출(call)에 관한 정보를 포함한다. 유리하게는, 데이터 섹션은 확장 가능하며, 추가 데이터를 저장할 수 있다. 복수의 서열 분석의 각각의 개별 서열 분석 판독은, 개별 샘플에서 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 각각의 서열 분석 판독을 위한 개별 식별자를 인코딩하는 제2 부분을 포함한다. 각각의 개별 식별자는 적어도 하나의 표적 핵산의 서열과 무관하다. 복수의 서열 분석 판독 중 서열 분석 판독은 복수의 식별자를 집합적으로 포함한다.
영구 메모리 및 비영구 메모리는, 하나 이상의 마이크로프로세서를 사용하여, 원격 클라이언트 컴퓨터에 설치하기 위해, 클라이언트에게 하플로타입 시각화 툴을 제공하는 하나 이상의 프로그램을 추가로 집합적으로 저장한다. 이 시스템은 하나 이상의 데이터 세트 중 제1 데이터 세트를 사용하여, 네트워크 연결 (예를 들어, 인터넷)을 통해 클라이언트로부터 송신된, 구조 변이 또는 위상 조정 정보에 대한 요청을 수신한다. 요청이 수신된 것에 반응하여, 상기 요청은, 비 영구 메모리에 아직 로딩되지 않은 경우, 영구 메모리에 데이터 섹션을 보유하면서, 비영구 메모리에 제1 데이터 세트의 헤더 및 시놉시스를 로딩하는 단계를 포함하는 방법을 수행함으로써 자동으로 필터링된다. 이 방법에서, 요청은 제1 데이터 세트의 시놉시스에 비교 (분석)하여, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별한다. 데이터 섹션의 이러한 하나 이상의 식별 부분은 차례로 비영구 메모리에 로딩된다. 구조 변이 또는 위상 조정 정보는 제1 데이터 세트를 사용하여, 클라이언트 컴퓨터에 디스플레이되기 위해, 포맷화된다. 그 후, 포맷화된 구조 변이 또는 위상 조정 정보는 클라이언트 장치에 표시하기 위해, 클라이언트 장치에 대한 네트워크 연결을 통해 전송된다.
일부 실시형태에서, 상기 헤더는 상기 각각의 핵산 서열 분석 데이터 세트의 복수의 구성요소 (component)를 기술한다. 일부 실시형태에서, 상기 복수의 구성요소는, 서머리 (summary), 변이 호출 데이터 (variant call data)에 대한 인덱스, 단계 블록 트랙 (phase block track), 참조 서열 인덱스 트랙 (refseq index track), 유전자 트랙, 엑손 트랙, 판독 데이터에 대한 인덱스, 구조 변이 데이터 세트 트랙, 표적 데이터 세트에 대한 인덱스 및 단편 데이터 세트에 대한 인덱스로 이루어진 그룹으로부터 선택되는 2개 이상의 구성요소, 3개 이상의 구성요소, 4개 이상의 구성요소 또는 5개 이상의 구성요소를 포함한다.
일부 실시형태에서, 상기 복수의 구성요소는 상기 개요를 포함하고, 상기 개요는, 상기 각각의 핵산 서열 분석 데이터 세트에서 위상 조정된 공지의 SNP의 백분율, 상기 각각의 핵산 서열 분석 데이터 세트에서 가장 긴 단계 블록, 상기 각각의 핵산 서열 분석 데이터 세트에 사용된 복수의 고유 바코드, 상기 각각의 핵산 서열 분석 데이터 세트의 평균 단편 길이 (average fragment length), 상기 개별 핵산 서열 분석 데이터 세트의 평균 단편 길이의 평균, 상기 각각의 핵산 서열 분석 데이터 세트에서 하위 임계치보다 큰 단편의 백분율, 상기 각각의 핵산 서열 분석 데이터 세트의 단편 길이 히스토그램, 상기 개별 핵산 서열 분석 데이터 세트의 N50 단계 블록 크기, 상기 각각의 핵산 서열 분석 데이터 세트의 단계 블록 히스토그램, 상기 각각의 핵산 서열 분석 데이터 세트에 의해 표시되는 복수의 서열 판독, 상기 각각의 핵산 서열 분석 데이터 세트의 중간 인서트 (insert) 크기, 상기 개별 핵산 서열 분석 데이터 세트의 중간 깊이, 상기 각각의 핵산 서열 분석 데이터 세트에서 제로 커버리지 (zero coverage)를 갖는 표적 게놈의 백분율, 상기 개별 핵산 서열 분석 데이터 세트의 매핑된 판독 백분율, 상기 각각의 핵산 서열 분석 데이터 세트의 PCR 복제 백분율, 상기 각각의 핵산 서열 분석 데이터 세트의 커버리지 히스토그램, 상기 개별 핵산 서열 분석 데이터 세트의 기초를 형성하는 시험 핵산의 주체, 상기 각각의 핵산 서열 분석 데이터 세트의 게놈 소스, 상기 각각의 핵산 서열 분석 데이터 세트에서 적어도 하나의 시험 핵산이 유래된 유기체의 성별 (sex), 상기 각각의 핵산 서열 분석 데이터 세트에서 개별 샘플이 유래된 유기체의 성별, 상기 각각의 핵산 서열 분석 데이터 세트의 데이터 세트 파일 포맷 버전, 및 상기 각각의 핵산 서열 분석 데이터 세트에 대해 만들어진 복수의 구조 변이 호출의 포인터 (pointer)로 이루어진 그룹 중 2개 이상의 아이템, 3개 이상의 아이템, 4개 이상의 아이템, 5개 이상의 아이템 또는 6개 이상의 아이템을 포함한다. 유리하게는, 정보 목록의 이러한 비 제한적인 예가 개시된 바와 같이, 개시된 핵산 서열 분석 데이터 세트는, 서열 분석 데이터와 함께 사용자가 관심을 가질 수 있는 임의의 비트의 메타 데이터 (예를 들어, 주석 데이터)를 포함할 수 있다.
일부 실시형태에서, 상기 복수의 구성요소는, 상기 각각의 범위의 변이 호출 데이터가 나타나는 데이터 섹션의 오프셋 (offset)에 대한 상기 종의 게놈의 각각의 범위 간의 대응성을 제공하는 변이 호출 데이터에 대한 인덱스를 포함한다.
일부 실시형태에서, 상기 복수의 구성요소는 상기 단계 블록 트랙을 포함한다. 상기 단계 블록 트랙은 (i) 딕셔너리 (dictionary) 및 (ii) 적어도 하나의 종의 게놈의 하나 이상의 염색체에 대한 단계 정보를 포함하는 트랙 데이터 섹션을 포함한다. 일부 실시형태에서, 상기 딕셔너리는 복수의 명칭을 포함하고, 상기 복수의 명칭 중 각각의 개별 명칭에서, 대응 명칭이 기록된 트랙 데이터로의 오프셋이 나타난다. 일부 실시형태에서, 상기 트랙 데이터 섹션은 복수의 기록을 포함하고, 상기 복수의 기록 중 각각의 기록은 상기 표적 핵산의 단계 블록을 표시한다. 일부 실시형태에서, 상기 트랙 데이터 섹션은 JSON 파일 포맷이다.
일부 실시형태에서, 상기 복수의 기록 중 각각의 개별 기록은 (i) 상기 개별 기록에 대응하는 염색체 번호, (ⅱ) 상기 단계 블록이 염색체상에서 시작하는 위치, (ⅲ) 상기 단계 블록이 종결되는 위치, (iv) 상기 기록의 고유 명칭 및 (ⅴ) 상기 단계 블록에 관한 위상 조정 정보를 지정한다.
일부 실시형태에서, 상기 복수의 기록 중 각각의 개별 기록은 복수의 인터벌 트리 중 개별 인터벌 트리 내의 복수의 노드 중 하나의 노드에 의해 표시되고, 상기 복수의 인터벌 트리 중 각각의 인터벌 트리는 상기 종의 복수의 염색체 중 하나의 염색체를 표시한다. 일부 실시형태에서, 상기 복수의 인터벌 트리 중 제1 인터벌 트리의 복수의 노드 중 하나의 노드는 상기 노드의 중점을 저장하고, 상기 노드의 중점은 상기 노드에 대응하는 단계 블록의 대응 염색체상의 중점의 위치이고, 제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드는 좌측 자식 노드에 링크를 가지며, 이는 상기 종의 게놈 내에 개별 노드에 의해 표시되는 단계 블록의 바로 좌측 (즉, 수치적으로 더 작은) 단계 블록에 대응하며, 제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드는 우측 자식 노드에 링크를 가지며, 이는 상기 종의 게놈 내에 개별 노드에 의해 표시되는 단계 블록의 바로 우측 (즉, 수치적으로 더 큰) 단계 블록에 대응하고, 제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드는 이러한 단계 블록의 좌측 위치에 의해 정렬된 개별 노드의 중점과 중첩되는 단계 블록을 표시하는 정렬된 노드 세트를 가지며, 제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드는 이러한 단계 블록의 우측 위치에 의해 정렬된 개별 노드의 중점과 중첩되는 단계 블록을 표시하는 정렬된 노드 세트를 가진다. 일부 이러한 실시형태에서, 제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드는 명칭을 추가로 포함하며, 이는 복수의 기록 중 상기 개별 노드에 대응하는 단계 블록의 단계 정보를 포함하는 기록에 트랙 데이터 섹션의 오프셋이다.
일부 실시형태에서, 상기 헤더는 상기 핵산 서열 분석 데이터 세트에 의해 사용되는 데이터 세트 구조의 버전을 추가로 포함한다. 일부 실시형태에서, 상기 복수의 구성요소는 상기 참조 서열 인덱스를 포함하고, 상기 참조 서열 인덱스는, 상기 샘플에서 호출되는 복수의 분자 변이 식별자의 인덱스를 포함한다. 일부 이러한 실시형태에서, 상기 복수의 분자 변이 식별자 중 각각의 개별 분자 변이 식별자는 dbSNP 식별자이다.
일부 실시형태에서, 상기 복수의 구성요소는 상기 유전자 트랙을 포함한다. 이러한 실시형태에서, 상기 유전자 트랙은 복수의 유전자 및 상기 복수의 유전자 중 각각의 개별 유전자에서, 상기 개별 유전자 내에 다수의 단일 뉴클레오티드 다형 (nucleotide polymorphism)을 포함한다.
본 발명의 다른 양상은 로컬 컴퓨터를 사용하여, 네트워크 연결을 통해 프로그램 출력을 처리하는 시스템을 제공하는 것이며, 여기서 상기 로컬 컴퓨터는 하나 이상의 마이크로프로세서 및 하나 이상의 프로그램을 저장하는 메모리를 포함한다. 상기 하나 이상의 프로그램은 하나 이상의 마이크로프로세서를 사용하여, 로컬 컴퓨터상에서 실행되는 제1 작동 시스템에 따라 방법을 실행한다. 이 방법에서는 제1 프로그램의 제1 인스턴스가 인보크 (invoke)된다. 그 후, 사용자로부터 제1 프로그램의 제1 인스턴스를 통해, 원격 컴퓨터의 사용자 계정에 대한 로그인 및 암호를 얻는다. 이는 로컬 컴퓨터와 원격 컴퓨터 간의 네트워크 연결을 통해 사용자를 원격 컴퓨터의 사용자 계정에 자동으로 로그인시키는데 사용된다 (제1 프로그램의 제1 인스턴스에 의해 제공된 로그인과 패스워드 사용). 원격 컴퓨터의 성공적인 로그인에 반응하여, 원격 컴퓨터가 사용자 계정에서 이용 가능한 제1 프로그램을 이미 가지고 있지 않은 경우, 원격 컴퓨터로 전송시, 원격 컴퓨터에 자동 설치되도록 구성된 제1 프로그램의 제2 인스턴스가 인간의 개입 없이 자동으로 송신된다. 다음으로, 원격 컴퓨터로부터 제1 프로그램의 제1 인스턴스 내의 패널을 오픈하라는 요청이 수신된다. 상기 패널은 원격 컴퓨터에서 실행되는 제1 프로그램의 제2 인스턴스에 의해 유도된다. 상기 패널은 제1 프로그램의 제2 인스턴스를 제어하기 위해, 사용자로부터 입력을 요청한다. 로컬 컴퓨터의 패널에서 제1 프로그램의 제2 인스턴스를 제어하기 위해, 사용자로부터 입력을 수신한 것에 반응하여, 네트워크 연결 (예를 들어, 무선 또는 유선 연결)을 통해 원격 컴퓨터의 제1 프로그램의 제2 인스턴스로 입력이 송신된다. 다음으로, 네트워크 연결을 통해 원격 컴퓨터로부터 입력에 반응하여, 제1 프로그램의 제2 인스턴스로부터 출력이 수신된다. 이 출력은 로컬 컴퓨터에 디스플레이된다.
본 발명의 다른 양상은 핵산 서열 데이터를 보기 위한 시스템을 제공한다. 상기 시스템은 하나 이상의 마이크로프로세서 및 메모리를 포함한다. 상기 메모리는 하나 이상의 마이크로프로세서를 사용하여, 샘플의 적어도 하나의 표적 핵산에 대응하는 핵산 서열 분석 데이터 세트를 얻는 하나 이상의 프로그램을 저장한다. 핵산 서열 분석 데이터 세트는 샘플의 복수의 서열 분석 판독을 포함한다. 복수의 서열 분석 판독 중 각각의 개별 서열 분석은, 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 개별 서열 분석 판독을 위한 개별 식별자 (예를 들어, 바코드)를 인코딩하는 제2 부분을 포함한다. 각각의 개별 식별자는 적어도 하나의 표적 핵산의 서열과 무관하다. 복수의 서열 분석 판독은 복수의 식별자를 집합적으로 포함한다. 시각화 툴이 디스플레이된다. 시각화 툴을 통해 사용자로부터 요청을 얻는다. 상기 요청은 핵산 서열 분석 데이터 세트에 의해 표시되는 게놈 영역을 지정한다. 요청을 얻은 것에 반응하여, 상기 요청은 핵산 서열 분석 데이터 세트로부터 게놈 영역 내의 복수의 서열 분석 판독을 얻음으로써, 파싱된다. 스캔 창이 복수의 서열 분석 판독에 대해 실행됨으로써, 복수의 창이 생성되고, 복수의 창 중 각각의 개별 창은 게놈 영역 중 상이한 영역에 대응하고, 핵산 서열 분석 데이터 세트의 게놈 영역 중 상이한 영역의 각각의 서열 분석 판독의 주체를 포함한다. 복수의 창에서 각각의 가능한 창 쌍을 표시하는 2차원 히트 맵이 디스플레이된다. 각각의 개별 창 쌍은 개별 창 쌍의 공통 식별자의 수에 기초하여, 컬러 도식으로부터 선택된 컬러로서 2차원 히트 맵에 디스플레이된다.
첨부된 청구 범위의 범위 내의 시스템, 방법 및 장치의 다양한 실시형태는 각각 여러 양상을 가지며, 그 중 하나만이 본 명세서에 개시된 바람직한 속성에 단독으로 원인이 되는 것은 아니다. 첨부된 청구 범위의 범위를 제한하지 않으면서, 본 명세서에 몇몇 주요 특징들이 개시된다. 이 논의에 대한 고려 후, 특히 "상세한 설명"이라는 제목의 부분을 읽은 후에, 다양한 실시형태의 특징이 사용되는 방법이 이해될 것이다.
참조 도입
본 명세서에서 언급된 모든 간행물, 특허 및 특허 출원은 각각의 개별 간행물, 특허 또는 특허 출원이 구체적이고 개별적으로 참조로 도입되는 것으로 나타내도록 그의 전체가 본 명세서에 참조로 포함된다.
본 명세서에 개시된 구현예는, 한정하지 않는 예로서, 첨부 도면에 나타낸다. 도면 전체에 걸쳐서 동일한 참조 번호는 대응하는 부분을 지칭한다.
도 1은 일부 구현 예에 따른 컴퓨팅 장치를 도시하는 예시적인 블록 도이다.
도 2는 본 발명의 일 실시형태에 따른 예시적인 구성을 도시한다.
도 3은 본 발명의 일 실시형태에 따른 핵산 서열 분석 데이터 세트의 개요를 제공한다.
도 4는 일부 실시형태에 따른 핵산 서열 분석 데이터 세트 내의 예시적인 위상 블록 트랙의 데이터 구조를 도시한다.
도 5는 일부 실시형태에 따른 예시적인 위상 블록 트랙을 도시한다.
도 6은 일부 실시형태에 따른 예시적인 유전자 트랙의 데이터 구조를 도시한다.
도 7은 일부 실시형태에 따른 예시적인 유전자 트랙을 도시한다.
도 8은 일부 실시형태에 따른 핵산 서열 분석 데이터 세트 내의 예시적인 구조 변이 데이터 세트 트랙의 데이터 구조를 도시한다.
도 9는 일부 실시형태에 따른 예시적인 구조 변이 데이터 세트 트랙을 도시한다.
도 10은 일부 실시형태에 따른 핵산 서열 분석 데이터 세트 내의 표적, 단편 및 서열 판독 데이터를 도시한다.
도 11은 일부 실시형태에 따른 핵산 서열 분석 데이터 세트 내의 변이 호출 데이터를 도시한다.
도 12는 일부 실시형태에 따른 하플로타입 시각화 툴의 요약 모듈을 도시한다.
도 13은 추가 실시형태에 따른 하플로타입 시각화 툴의 요약 모듈을 도시한다.
도 14a는 일부 실시형태에 따른 하플로타입 시각화 툴의 단계 시각화 모듈의 스크린 샷을 도시한다.
도 14b는 일부 실시형태에 따른 하플로타입 시각화 툴의 단계 시각화 모듈의 다른 스크린 샷을 도시한다.
도 15는 일부 실시형태에 따른 하플로타입 시각화 툴의 단계 시각화 모듈의 다른 스크린 샷을 도시한다.
도 16은 일부 실시형태에 따른 하플로타입 시각화 툴의 단계 시각화 모듈의 다른 스크린 샷을 도시한다.
도 17은 일부 실시형태에 따른 하플로타입 시각화 툴의 검색 기능 피처 (feature)를 도시한다.
도 18은 일부 실시형태에 따른 하플로타입 시각화 툴의 구조 변이 모듈의 스크린 샷을 도시한다.
도 19는 일부 실시형태에 따른 하플로타입 시각화 툴의 구조 변이 모듈의 다른 스크린 샷을 도시한다.
도 20은 일부 실시형태에 따른 하플로타입 시각화 툴의 구조 변이 모듈의 다른 스크린 샷을 도시한다.
도 21은 일부 실시형태에 따른 하플로타입 시각화 툴의 구조 변이 모듈의 추가 스크린 샷을 도시한다.
도 22는 일부 실시형태에 따른 하플로타입 시각화 툴의 판독 시각화 모듈의 스크린 샷을 도시한다.
도 23은 일부 실시형태에 따른 하플로타입 시각화 툴의 구조 변이 모듈의 다른 스크린 샷을 도시한다.
도 24는 일부 실시형태에 따른 하플로타입 시각화 툴의 구조 변이 모듈의 다른 스크린 샷을 도시한다.
도 25는 일부 실시형태에 따른 하플로타입 시각화 툴의 구조 변이 모듈의 또 다른 스크린 샷을 도시한다.
도 26은 일부 실시형태에 따른 하플로타입 시각화 툴의 단계 시각화 모듈을 도시한다.
도 27은 일부 실시형태에 따른 하플로타입 시각화 툴의 단계 시각화 모듈의 다른 양상를 도시한다.
도 28a는 일부 실시형태에 따른 하플로타입 시각화 툴의 단계 시각화 모듈의 다른 양상를 도시한다.
도 28b는 일부 실시형태에 따른 하플로타입 시각화 툴의 단계 시각화 모듈의 다른 양상을 도시한다.
도 29는 일부 실시형태에 따른 하플로타입 시각화 툴의 단계 시각화 모듈의 다른 양상를 도시한다.
도 30은 일부 실시형태에 따른 하플로타입 시각화 툴의 단계 시각화 모듈의 다른 양상를 도시한다.
도 31은 일부 구현 예에 따른 컴퓨팅 시스템을 도시하는 예시적인 블록 도이다.
도 32는 개시된 실시형태에 따른 하플로타입 시각화 툴의 인스턴스의 원격 개시에 대한 크리덴셜 챌린지 (credential challenge)의 예이다.
도 33은 서열 판독 필터가 꺼져 있는 일부 실시형태에 따른 하플로타입 시각화 툴의 구조 변이체 모듈을 도시한다.
도 34는 서열 판독 필터가 켜져 있는 일부 실시형태에 따른 하플로타입 시각화 툴의 구조 변이체 모듈을 도시한다.
이하 실시형태를 상세히 설명하며, 그의 실시예는 첨부 도면에서 나타낸다. 하기 상세한 설명에서, 다수의 특정 세부 정보들이 본 발명의 철저한 이해를 제공하기 위해, 설명된다. 그러나, 본 발명이 이러한 특정 세부 정보들 없이 실시될 수 있다는 것이 당업자에게 명백할 것이다. 다른 예에서, 널리 공지된 방법들, 절차들, 구성요소들, 회로들 및 네트워크들은 실시형태의 양상을 불필요하게 불명료하게 하지 않기 위해, 상세히 설명되지 않았다.
제1, 제2 등의 용어가 본 명세서에서 다양한 요소를 설명하기 위해, 사용될 수 있으나, 이들 요소는 이들 용어에 의해 제한되어서는 안된다는 것이 또한 이해될 것이다. 이들 용어는 하나의 요소를 다른 요소와 구별하기 위해서만 사용된다. 예를 들어, 제1 대상체는 제2 대상체로 지칭될 수 있고, 마찬가지로, 제2 대상체는 본 발명의 범위를 벗어나지 않으면서, 제1 대상체로 지칭될 수 있다. 제1 대상체와 제2 대상체는 모두 대상체이지만 동일한 대상체는 아니다.
본 발명에서 사용되는 용어는 단지 특정 실시형태를 설명하기 위한 것이며, 본 발명을 제한하려는 것이 아니다. 본 발명의 설명 및 첨부된 청구 범위에서 사용된 바와 같이, 단수 형태 "하나 (a, an)" 및 "상기 (the)"는 문맥상 달리 명시하지 않는 한, 복수 형태를 포함하는 것으로 의도된다. 본 명세서에서 사용되는 "및/또는"이라는 용어는 하나 이상의 관련 열거 항목의 임의의 모든 가능한 조합을 지칭하며, 이를 포괄하는 것이다. 본 명세서에서 사용되는 경우, "~를 포함한다" 및/또는 "~를 포함하는"이라는 용어는 명시된 피처, 정수, 단계, 작동, 요소 및/또는 구성요소의 존재를 지정하나, 하나 이상의 다른 피처, 정수, 단계, 작동, 요소, 구성요소 및/또는 그의 그룹의 존재 또는 첨가를 배제하는 것은 아니다.
본 명세서에 사용된 바와 같이, "~하는 경우 (if)"란 용어는 문맥에 따라 "~하는 때" 또는 "~할 시 (upon)" 또는 "측정에 반응하여" 또는 "검출에 반응하여"를 의미하는 것으로 해석될 수 있다. 유사하게, "측정된 경우" 또는 "[명시된 조건 또는 사건]이 검출된 경우"라는 문구는 문맥에 따라 "측정시" 또는 "측정에 반응하여" 는 "(명시된 조건 또는 사건) 검출시" 또는 "(명시된 조건 또는 사건) 검출에 반응하여"를 의미하는 것으로 해석될 수 있다.
본 명세서에 기술된 구현예는 구조 변이 (예를 들어, 결실, 복제, 카피 수 변이, 삽입, 역위, 전좌, 긴 말단 반복서열 (LTR), 짧은 연속 반복서열 (STR) 및 구조 변이를 검출하기 위한 다양한 기술적 해결수단 및 생물학적 샘플로부터 얻어진 시험 핵산의 데이터를 서열 분석하는 데 유용할 수 있는 다양한 기타의 것을 제공한다. 구현 예의 세부 정보가 지금부터 도면과 관련하여 설명된다.
도 1은 일부 구현 예에 따른 구조 변이 및 위상 조정 시각화 시스템 (100)을 도시하는 블록 도이다. 일부 구현 예에서 장치 (100)는 하나 이상의 처리 유닛 CPU (102) (프로세서로도 지칭됨), 하나 이상의 네트워크 인터페이스 (104), 사용자 인터페이스 (106), 메모리 (112) 및 이들 구성요소를 상호 연결하기 위한 하나 이상의 통신 버스 (114)를 포함한다. 통신 버스 (114)는 선택적으로 시스템 구성요소들 간의 통신을 상호 연결하고 제어하는 회로 (종종 칩세트 (chipset)라고도 함)를 포함한다. 메모리 (112)는 전형적으로 DRAM, SRAM, DDR RAM, ROM, EEPROM, 플래시 메모리, CD-ROM, DVD (digital versatile disk) 또는 다른 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 다른 랜덤 액세스 고체 메모리 장치 (random access solid state memory device), 또는 원하는 정보를 저장하는데 사용될 수 있는 임의의 다른 매체를 포함하며; 하나 이상의 자기 디스크 저장 장치, 광학 디스크 저장 장치, 플래시 메모리 장치 또는 다른 비휘발성 고체 저장 장치와 같은 비휘발성 메모리를 선택적으로 포함한다. 메모리 (112)는 CPU (102)로부터 원격으로 위치된 하나 이상의 저장 장치를 선택적으로 포함한다. 메모리 (112) 또는 대안적으로 메모리 (112) 내의 비휘발성 메모리 장치 (들)는 비 일시적 컴퓨터 판독 가능 저장 매체를 포함한다. 일부 구현 예에서, 메모리 (112) 또는 대안적으로 비 일시적 컴퓨터 판독 가능 저장 매체는 하기 프로그램, 모듈 및 데이터 구조, 또는 이들의 서브 세트를 저장한다:
ㆍ 다양한 기초 시스템 서비스를 처리하고, 하드웨어 종속 태스크를 수행하기 위한 절차가 포함된 선택적 작동 시스템 (116);
ㆍ 장치 (100)를 다른 장치 또는 통신 네트워크와 연결하기 위한 선택적 네트워크 통신 모듈 (또는 명령들) (118);
ㆍ 하나의 종의 단일 유기체의 유전 샘플의 구조 변이를 식별하기 위한 구조 변이 측정 서브 모듈 (120) 및 상기 유전 샘플의 각각의 서열 분석 판독의 하플로타입을 식별하기 위한 위상 조정 서브 모듈 (124)을 포함하는, 열 분석 판독을 처리하기 위한 선택적 서열 분석 판독 처리 모듈 (120);
ㆍ 하나 이상의 핵산 서열 분석 데이터 세트 (126)-하나의 종의 단일 유기체의 유전 샘플을 사용하여, 얻은 각각의 이러한 데이터 세트;
ㆍ 선택적으로, 유전자 트랙 인터벌 트리 형태의 유전자 주석 데이터 (128);
ㆍ 선택적으로, 엑손 트랙 인터벌 트리 형태의 엑손 주석 데이터 (142);
ㆍ 선택적으로, 인터벌 트리 형태의 주석 데이터의 하나 이상의 추가 소스 (146);
ㆍ 요약 모듈 (150), 단계 시각화 모듈 (152), 구조 변이 (시각화) 모듈 (154) 및 판독 시각화 모듈 (156) 중 하나 이상의 임의의 조합을 포함하는 핵산 서열 분석 데이터에서 구조 변이 및 위상 조정 정보를 시각화하기 위한 하플로타입 시각화 툴 (148).
일부 구현 예에서, 사용자 인터페이스 (106)는 사용자가 시스템 (100) 및 디스플레이 (108)와 상호 작용하기 위한 입력 장치 (예를 들어, 키보드, 마우스, 터치 패드, 트랙 패드 및/또는 터치 스크린) (100)를 포함한다.
일부 구현 예에서, 상기 식별된 엘리먼트 중 하나 이상은 전술한 메모리 장치들 중 하나 이상에 저장되고, 전술한 기능을 수행하기 위한 명령들의 세트에 대응한다. 상기 식별된 모듈들 또는 프로그램들 (예를 들어, 명령어 세트)은 개별적인 소프트웨어 프로그램, 절차 또는 모듈로서 구현될 필요가 없으며, 따라서 이들 모듈의 다양한 서브 세트는 다양한 구현 예에서 조합되거나, 그렇지 않으면 재배열될 수 있다. 일부 구현 예에서, 메모리 (112)는 상기 식별된 데이터 구조 및 모듈의 서브 세트를 선택적으로 저장한다. 또한, 일부 실시형태에서, 상기 메모리는 상술되지 않은 부가적인 모듈 및 데이터 구조를 저장한다. 일부 실시형태에서, 상기 식별된 엘리먼트들 중 하나 이상은 시스템 (100) 이외의 컴퓨터 시스템에 저장되며, 즉, 시스템 (100)에 의해 어드레서블 (addressable)하여, 시스템 (100)이 필요한 경우, 이러한 데이터 전체 또는 그 일부를 조회할 수 있다.
도 1이 "구조 변이 및 위상 조정 시각화 시스템 (100)"을 도시하지만, 상기 도면은 본 명세서에 설명된 구현 예의 구조 개략도보다는 컴퓨터 시스템에 존재할 수 있는 다양한 피처의 기능적 설명으로 의도된다. 실제로, 당업자에 의해 인식되는 바와 같이, 개별적으로 도시된 아이템들은 조합될 수 있고, 일부 아이템들은 분리될 수 있다.
바람직하게는, 핵산 서열 데이터 세트 (126)가 전형적인 실시형태에서 대용량 (예를 들어, 1 기가바이트 이상, 5 기가바이트 이상 또는 10 기가바이트 이상)이므로, 일부 실시형태에서, 구조 변이 및 위상 조정 시각화 시스템 (100)은 통신 네트워크 (3106)를 통해 도 1의 구조 변이 및 위상 조정 시각화 시스템 (100)과 전자 통신되는 하나 이상의 클라이언트 장치 (3102)를 포함한다. 이러한 네트워크 토폴로지 (topology )는 과학자 및 다른 사용자가 다수의 네트워크 기반 기술을 사용하여, 전형적 실시형태에서, 강력한 서버 컴퓨터이나, 클라이언트 장치 (3102)에서 결과를 볼 수 있고, 예를 들어, 랩탑 컴퓨터일 수 있는 시스템 (100) 상에서, 하플로타입 시각화 툴 (148)을 실행시킬 수 있도록 한다. 이 네트워크 토폴로지를 구현하기 위한 임의의 형태의 네트워크 기술이 본 발명 내에 포함된다. 예를 들어, 일부 실시형태에서는 X-창 세션 포워딩 (X-windows session forwarding) (도 31에 도시되지 않음)이 사용된다. 다른 실시형태에서, 인터넷 (웹)이 사용된다. 특히, 브라우저 애플리케이션이 클라이언트 장치 (3102) 상에서 실행된다.
원격 컴퓨터 (예를 들어, 시스템 (3100)에서 구조 변이 및 위상 조정 시각화 시스템 (100)이 원격으로 간주됨)에서 프로그램을 실행하고 클라이언트 장치 (3102) (예를 들어, 데스크탑 또는 랩탑)에서 결과를 보는 프로세스가 복잡하다. 사용자는 일반적으로 (i) 컴퓨터 (3102) 및 서버 (100)의 다른 부분에 프로그램의 특정 부분을 설치해야 하고 (ii) SSH 또는 방화벽 소프트웨어를 사용하여, 두 컴퓨터를 (시스템 (3102)을 클라이언트 장치 (100)에) 연결하는 오픈 네트워크 포트를 생성해야 하며, (iii) 다른 시스템에서 프로그램의 다른 부분을 독립적으로 시작해야 한다. 예를 들어, 본 명세서에 참조로 포함된 URL blog.trackets.com/2014/05/17/ssh-tunnel-local-and-remote-port-forwardingexplained-with-examples.html은 포워딩을 설정하는 한 가지 방법을 설명한다. 또 다른 예로, URL itg.chem.indiana.edu/inc/wiki/software/openssh/200.html은 포워딩을 설정하는 다른 방법을 설명한다. 본 발명은 이러한 기술을 포괄한다. 그러나, 유리하게도, 일부 실시형태들에서, 본 발명은 전술한 프로세서의 자동화 및 개선을 모색하는 것으로서, 전술한 네트워킹 기술들에 대한 해결책을 제공한다. 일단 사용자가 그들의 클라이언트 장치 (3102) 상에 하플로타입 시각화 툴 (148)을 설치하면, 사용자는, 하플로타입 시각화 툴 (148)을 실행하기 위한 컴퓨터 설비 및 상기 데이터를 갖는 원격 컴퓨터 (구조 변이 및 위상 조정 시각화 시스템 (100))에 대한 그들의 크리덴셜 (예를 들어, 사용자 명 및 패스워드)을 가지는 톨 (148)을 제공하기만 하면 된다. 예를 들어, 일부 실시형태에서, 도 32를 참조하면, 클라이언트 (3102) 상에서 하플로타입 시각화 툴 (148)을 실행하는 사용자에게는, 서버 명칭 또는 어드레스 (3204), 사용자 명 (3206), 선택적인 SSH 키 파일 (암호화 연결을 가능하게 하기 위해) (3208), 선택적인 SSH 키 패스워드 (3210), 및 서버상의 작업 위치 (3212)에 대한 쿼리를 포함하는 챌린지 (3200)가 제공될 것이다. 그 후, 클라이언트 장치 (3102)상의 하플로타입 시각화 툴 (148)의 인스턴스는 원격 컴퓨터 (100)에 연결되고, 제공된 크리덴셜을 사용하여, 사용자로서 인증된다. 이 연결을 사용하여, 원격 컴퓨터에 하플로타입 시각화 툴 (148)을 설치한 후, 시작하고, 필요한 네트워크 포트 포워딩을 구성한다. 하플로타입 시각화 툴이 이를 실행하면, 원격 구조 변이 및 위상 조정 시각화 시스템에서 실행되는 하플로타입 시각화 툴에 "연결된" 클라이언트 장치 (3102)에 새로운 창이 열린다. 특히, 이러한 실시형태에서, 클라이언트 장치 (3102) 상의 하플로타입 시각화 툴 (148)은 구조 변이 및 위상 조정 시각화 시스템 (100) 상에서 실행되도록 의도된 그 자체의 사본에 포함된다. 일부 실시형태에서, 구조 변이 및 위상 조정 시각화 시스템 (100)은 제1 작동 시스템을 실행하고, 클라이언트 장치 (3102)는 제2 작동 시스템을 실행시킨다. 일부 실시형태에서, 제1 작동 시스템 및 제2 작동 시스템은 동일하다. 일부 실시형태에서, 제1 작동 시스템 및 제2 작동 시스템은 상이하다. 일부 실시형태에서, 제1 작동 시스템은 iOS, DARWIN, RTXC, LINUX, UNIX, OS X 또는 WINDOWS 중 하나이며, 제2 작동 시스템은 제1 작동 시스템 이외의 것으로서, iOS, DARWIN, RTXC, LINUX, UNIX, OS X 또는 WINDOWS 중 하나이다. 개시된 실시형태에서, 클라이언트 장치 (3102) 상에서 실행되는 하플로타입 시각화 툴 (148)은 하플로타입 시각화 툴 (148)의 보관된 카피를 구조 변이 및 위상 조정 시스템 (100)에 카피하고, 설정 프로세스 동안 설치된다 (이전에 설치되지 않은 경우). 원격 컴퓨터상의 하플로타입 시각화 툴 (148)의 원격 시작을 위해, 개시된 시스템 및 방법은, 로컬 컴퓨터상에서 작동되는 부수적 비주얼 인터페이스를 갖는 원격 서버의 컴퓨터 리소스를 필요로 하는 광범위한 애플리케이션에 적용 가능하여, 이러한 애플리케이션을 제어하고, 실시간 또는 거의 실시간으로 데이터 및 컴퓨터 결과를 시각화할 수 있다는 것이 이해될 것이다.
도 1, 도 31 및 도 32를 다시 참조하면, 본 발명의 일 양상은 로컬 컴퓨터 (3102)를 사용하여, 네트워크 연결 (3106) (예를 들어, 유선 또는 무선)을 통해 프로그램 출력을 처리하는 시스템 (3100)을 제공한다. 로컬 컴퓨터 (3102)는 하나 이상의 마이크로프로세서 (도시되지 않음), 및 하나 이상의 프로그램 (예컨대, 하플로타입 시각화 툴 (148))을 저장하는 메모리 (도시되지 않음)를 포함한다. 하나 이상의 프로그램은 하나 이상의 마이크로프로세서를 사용하여, 로컬 컴퓨터상에서 실행되는 제1 작동 시스템에 따라 방법을 실행한다. 이 방법에서, 제1 프로그램의 제1 인스턴스가 인보크된다 (예를 들어, 하플로타입 시각화 툴 (148)의 제1 인스턴스가 클라이언트 장치 (3102) 상에 인보크됨). 인보크된 제1 프로그램의 제1 인스턴스를 통해, 원격 컴퓨터상 (예를 들어, 구조 변이 및 위상 조정 시각화 시스템 (100))의 사용자 계정에 대한 로그인 및 패스워드를 사용자로부터 얻는다. 그 후, 사용자는 로컬 컴퓨터와 원격 컴퓨터 (예를 들어, 통신 네트워크 3106) 간의 네트워크 연결을 통해, 제1 프로그램의 제1 인스턴스에서 제공한 로그인과 패스워드를 사용하여, 원격 컴퓨터의 사용자 계정에 자동으로 로그인된다. 원격 컴퓨터 (100)에의 성공적인 로그인에 반응하여, 상기 방법은 인간의 개입 없이 원격 컴퓨터로의 전송시 원격 컴퓨터 (100)에 자동 설치되도록 구성된 제1 프로그램 (148)의 제2 인스턴스를 자동으로 송신함으로써 계속된다. 일부 실시형태에서, 원격 컴퓨터는 이미 제1 프로그램 (148)의 제2 인스턴스가 설치되어 있으며, 따라서, 일부 이러한 실시형태에서는 설치를 위해, 제1 프로그램의 제2 인스턴스가 원격 컴퓨터로 전송되지 않는다. 제1 프로그램의 제2 인스턴스가 원격 컴퓨터 (100)에 설치되면, 원격 컴퓨터로부터 패널 (도시되지 않음)을 오픈하라는 요청이 수신된다. 이 패널은 원격 컴퓨터 (100)에서 실행되는 제1 프로그램의 제2 인스턴스에 의해 유도된다. 상기 패널은 제1 프로그램의 제2 인스턴스를 제어하기 위해, 사용자로부터의 입력을 요청한다. 예를 들어, 일부 실시형태에서, 이 패널은 도 12-21 중 어느 하나에 도시된 형태이다. 일부 실시형태에서, 패널은 보다 단순하며, 예를 들어, 특정 데이터 세트에서 검색을 위한 데이터 세트 명 또는 검색 쿼리에 대한 프롬프트를 포함한다. 로컬 컴퓨터상의 패널에서 제1 프로그램의 제2 인스턴스를 제어하기 위한 사용자로부터의 입력을 수신하는 것에 반응하여, 입력은 네트워크 연결을 통해 원격 컴퓨터 (100)에서 실행되는 제1 프로그램의 제2 인스턴스로 전송된다. 원격 컴퓨터는 네트워크 연결을 통해 이 입력을 수신하고, 이어서 입력에 반응하는 제1 프로그램의 제2 인스턴스에서의 출력이 로컬 컴퓨터에 출력으로 디스플레이된다 (예를 들어, 제1 프로그램의 제1 인스턴스 또는 별도의 웹 브라우저).
도 2를 참조하면, 개시된 시스템 및 방법에 따라, 대상체의 생물학적 샘플의 시험 (표적) 핵산 (206)을 사용한 복수의 서열 분석 판독 (도 2에서 전체적으로 도시되지 않음)이 얻어진다. 전형적인 실시형태에서, 시험 (표적) 핵산 (206)은 생물학적 샘플의 게놈의 단편이다. 일부 실시형태에서, 구획 내에 단일 시험 (표적) 핵산 (206) (단편)이 존재한다. 일부 실시형태에서, 생물학적 샘플의 종의 게놈의 상이한 부분에 각각 대응하는 구획 내에 2개 이상의 시험 핵산 (206) (단편)이 존재한다. 일부 실시형태에서, 생물학적 샘플의 종의 게놈의 상이한 부분에 각각 대응하는 구획 내에 5개 이상의 핵산 (206) (단편)이 존재한다. 일부 실시형태에서, 생물학적 샘플의 종의 게놈의 상이한 부분에 각각 대응하는 구획 내에 10개 이상의 핵산 (206)이 존재한다. 일부 실시형태에서, 생물학적 샘플은 혼합물이고, 하나의 종에서 2 이상의 개체의 게놈을 표시하는 핵 데이터를 포함한다. 일부 실시형태에서, 생물학적 샘플은 혼합물이고 2 이상의 종의 게놈을 표시하는 핵 데이터를 포함한다. 예를 들어, 일부 실시형태에서, 생물학적 샘플은 레트로바이러스에 감염된다. 다른 예에서, 샘플은 모래 또는 흙 또는 일부 다른 위치에서 채취되고, 그 목적이 샘플에 존재하는 모든 다른 게놈을 찾는 것이므로, 생물학적 샘플은 메타게놈 (metagenome)을 포함한다.
서열 분석 판독은 궁극적으로 핵산 서열 분석 데이터 세트 (126)의 기초를 형성한다. 복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독 (202)은 시험 핵산의 서브 세트에 대응하는 제1 부분 및 개별 서열 분석 판독을 위해, 식별 정보를 인코딩하는 제2 부분을 포함한다. 식별 정보는 시험 핵산의 서열 분석 데이터와 무관하다.
일부 실시형태에서, 서열 분석 판독 길이는 N50을 갖는다 (명시된 N50보다 큰 서열 판독 길이의 합계는 모든 서열 분석 판독 길이의 합계의 50%임). 전형적 실시형태에서, 서열 분석 판독은 길이가 수십 또는 수백개의 염기이며, 차례로 적어도 약 10kb, 적어도 약 20kb, 또는 적어도 약 50kb의 작제물을 형성하도록 정렬된다. 더욱 바람직한 양상에서, 서열 분석 판독은 길이가 수십 또는 수백개의 염기이고, 차례로 적어도 약 100kb, 적어도 약 150kb, 적어도 약 200kb, 및 많은 경우에 적어도 약 250kb, 적어도 약 300kb, 적어도 약 350kb, 적어도 약 400kb 및 일부 경우, 적어도 약 500kb 또는 그 이상을 가지는 작제물을 형성하도록 정렬된다.
일부 실시형태에서, 대상체의 생물학적 샘플로부터 복수의 서열 분석 판독을 얻기 위해, 시험 핵산 (206)이 단편화되고, 이들 단편은 구획화되거나, 분리된 구획 또는 분할 (본 명세서에서 분할로서 상호 호환적으로 지칭됨)로 구획되거나 분할된다. 일부 실시형태에서, 시험 핵산은 인간과 같은 다중 염색체 유기체의 게놈이다. 전형적 실시형태에서, 길이가 수십 또는 수백개의 염기인 길이를 갖는 각각의 이러한 구획 또는 분할로부터 다중 서열 분석 판독이 측정된다. 동일한 바코드를 갖는 동일한 구획 또는 분할로부터의 서열 분석 판독은 길이가 적어도 약 25kb, 적어도 약 50kb, 100kb, 적어도 약 150kb, 적어도 약 200kb, 많은 경우, 적어도 약 250kb, 적어도 약 300kb, 적어도 약 350kb, 적어도 약 400kb, 일부 경우에는 적어도 약 500kb 또는 그 이상인 서열 작제물을 형성하도록 정렬될 수 있다.
각각의 분할은 자신의 내용물을 다른 분할의 내용물과 분리하여 유지한다. 본 명세서에 사용된 바와 같이, 분할은 다양한 상이한 형태, 예를 들어, 웰, 튜브, 마이크로 또는 나노 웰, 관통 구멍 등을 포함할 수 있는 통 또는 용기를 지칭한다. 그러나, 바람직한 양상에서, 분할은 유체 스트림 내에서 유동 가능하다. 일부 실시형태에서, 이들 용기는, 예를 들어, 매트릭스 내에 물질을 동반 및/또는 보유할 수 있는 다공성 매트릭스를 가지거나 또는 내부 유체 중심 또는 중앙을 둘러싸는 외부 격막을 가지는 마이크로캡슐 또는 마이크로-소포 (micro-vesicle)로 구성된다. 그러나, 바람직한 양상에서, 이들 분할은 비 수성 연속 상, 예를 들어 유상 내에 수성 유체의 액적을 포함한다. 예를 들어, 다양한 상이한 용기가 2013년 8월 13일 출원된 미국 특허출원 제 13/966,150호에 기재되어 있으며, 이는 본 명세서에서 그 전문이 참조로서 포함된다. 마찬가지로, 비 수성 또는 연속 유상 내에 안정한 액적을 생성하기 위한 에멀젼 시스템이, 예를 들어, 본 명세서에 그 전문이 참조로 인용된 미국 특허출원 공개 제 2010-0105112호에 상세히 기술되어 있다. 특정 실시형태에서, 미세 유체 채널 네트워크가 본 명세서에 기재된 바와 같은 분할을 생성하는데 특히 적합하다. 이러한 미세 유체 장치의 예에는 PCT/US15/025197뿐만 아니라 2014년 4월 4일 출원된 미국 가특허 출원 제 61/977,804호에 상세히 기술된 것들이 포함되며, 이들의 전체 개시 내용은 모든 목적을 위해, 그 전문이 본 명세서에서 참조로서 포함된다. 세포의 수성 혼합물이 비 수성 유체로 압출되는 다공성 막을 포함하는 개개의 세포의 분할에 대체 메커니즘이 또한 사용될 수 있다. 이러한 시스템은 일반적으로 예를 들어, NANOMI, Inc에서 입수 가능하다.
에멀젼 중의 액적의 경우, 시험 핵산 단편을 개별적인 분할로 분할하는 것은 일반적으로 수성 샘플 함유 스트림을 접합부 내로 유동시켜, 접합부 내로 또한 분할 유체, 예를 들어 유동 오일의 비 수성 스트림을 유동시키고, 유동 스트림 분할 유체 내에 수성 액적이 형성되도록 함으로써, 달성될 수 있으며, 여기서, 이러한 액적은 샘플 물질을 포함한다. 후술되는 바와 같이, 분할, 예를 들어, 액적은 또한 전형적으로 공동 분할 바코드 올리고뉴클레오티드를 포함한다.
임의의 특정 분할 내의 샘플 물질의 상대적인 양은, 예를 들어 수성 스트림 내의 시험 핵산 단편의 농도, 수성 스트림 및/또는 비수성 스트림의 유속 등을 포함하여, 시스템의 다양한 상이한 파라미터를 제어함으로써, 조정될 수 있다. 본 명세서에 기술된 분할은 종종, 1000 pL 미만, 900 pL 미만, 800 pL 미만, 700 pL 미만, 600 pL 미만, 500 pL 미만, 400 pL 미만, 300 pL 미만, 200 pL 미만, 100 pL 미만, 50 pL 미만, 20 pL 미만, 10 pL 미만 또는 심지어 1 pL 미만의 총 용적을 갖는 것을 특징으로 한다. 비드에 의해 공동 분할된 경우, 분할 내의 샘플 유체 용적이 전술된 용적의 90% 미만, 80% 미만, 70% 미만, 60% 미만, 50% 미만, 40% 미만, 30% 미만, 20% 미만 또는 심지어 전술된 용적의 10% 미만일 수 있다는 것이 이해될 것이다. 일부 경우에, 작은 반응 용적 분할을 사용하면, 매우 소량의 출발 시약, 예를 들어, 투입 시험 핵산 단편과의 반응을 수행하는데 특히 유리하다. 소량의 투입 핵산을 갖는 샘플을 분석하기 위한 방법 및 시스템이 2014년 6월 26일자 미국 가특허출원 제 62/017,580호에 제공되어 있으며, 그 전체 개시 내용은 본 명세서에서 그 전문이 참조로 포함된다.
시험 핵산 단편이 그들의 개별 분할로 도입되면, 분할 내의 시험 핵산 단편은 일반적으로 고유 식별자가 제공되어, 이러한 시험 핵산 단편의 특성화시, 이들은 이들의 개별 분할로부터 유래된 바와 같은 특질을 가질 수 있다. 이러한 고유 식별자는, 특정 구획 내에 포함된 샘플 핵산 및 특히, 분할 내로 본래 축적될 수 있는 인접 샘플 핵산의 비교적 긴 스트레치에, 핵산 서열 정보와 같은 특성의 후속 부여를 가능하게 하기 위해, 구획화되거나 분할된 시험 핵산 단편을 보유하는 분할로 사전에, 추후에 또는 동시에 전달될 수 있다.
따라서, 시험 핵산 단편은 전형적으로 고유 식별자 (예를 들어, 바코드 서열)와 공동 분할된다. 특히 바람직한 양상에서, 분할 내의 시험 핵산 단편에 부착된 핵산 바코드 서열을 포함하는 고유 식별자가 올리고뉴클레오티드의 형태로 제공된다. 상기 올리고뉴클레오티드는, 하나의 지정 분할 내의 올리고뉴클레오티드 간에는, 그 내부에 함유되어 있는 핵산 바코드 서열이 동일하나, 상이한 분할 간에는, 상기 올리고뉴클레오티드가 상이한 바코드 서열을 가질 수 있고, 바람직하게는 상이한 바코드 서열을 갖도록 분할된다. 일부 실시형태에서는, 하나의 지정 분할 내에, 2 이상의 상이한 바코드 서열이 존재한다 할지라도, 일부 실시형태에서는, 단지 하나의 핵산 바코드 서열만이 하나의 지정 분할과 관련된다.
핵산 바코드 서열은 전형적으로 올리고뉴클레오티드의 서열 내에 6개 내지 약 20개 이상의 뉴클레오티드를 포함할 것이다. 이들 뉴클레오티드는 완전히 인접하여, 즉 인접한 뉴클레오티드의 단일 스트레치에 존재할 수 있거나, 이들은, 하나 이상의 뉴클레오티드에 의해 분리된 2개 이상의 별개의 서브 서열로 분리될 수 있다. 전형적으로, 분리된 서브 서열은 전형적으로 길이가 약 4 내지 약 16개의 뉴클레오티드일 수 있다.
시험 핵산은 전형적으로, 핵산이 인접 핵산 분자의 비교적 긴 단편 또는 스트레치의 분할 내에 존재하도록 분할된다. 이들 단편은 전형적으로 분석될 전체 시험 핵산, 예를 들어 전체 염색체, 엑솜 또는 다른 큰 게놈 단편의 다수의 중첩 단편을 나타낸다. 이러한 시험 핵산은 전체 게놈, 개별 염색체, 엑솜, 앰플리콘 또는 임의의 다양한 다른 관심 대상 핵산을 포함할 수 있다. 전형적으로, 분할된 시험 핵산의 단편은 1kb 초과, 5kb 초과, 10kb 초과, 15kb 초과, 20kb 초과, 30kb 초과, 40kb 초과, 50kb 초과, 60kb 초과, 70kb 초과, 80kb 초과, 90kb 초과, 또는 심지어는 100kb 초과이다.
시험 핵산은 또한 전형적으로, 지정 분할이 출발 시험 핵산의 2개의 중첩 단편을 포함할 가능성이 매우 낮은 수준으로 분할된다. 이는 전형적으로, 분할 과정 동안, 소량의 투입량 및/또는 농도에서 시험 핵산을 제공함으로써, 달성된다. 결과적으로, 바람직한 경우, 지정 분할은 출발 시험 핵산의 길지만 중첩되지 않는 복수의 단편을 포함한다. 그 후, 상이한 분할 내의 핵산 단편은 고유 식별자와 관련되며, 임의의 지정 분할에 대해, 그 내부에 함유된 핵산은 동일한 고유 식별자를 가지지만, 상이한 분할은 상이한 고유 식별자를 포함한다. 또한, 분할 단계가 샘플 성분을 매우 작은 용적의 분할 또는 액적으로 할당하므로, 전술한 바와 같이 원하는 할당을 달성하기 위해, 예를 들어, 튜브 또는 멀티 웰 플레이트의 웰보다 큰 용적의 과정의 경우, 필요한 바와 같은 샘플의 실질적인 희석을 수행할 필요가 없다. 또한, 본 명세서에 설명된 시스템은 이러한 상위 수준의 바코드 다양성을 사용하므로, 상기에서 제공된 바와 같이, 더 많은 수의 게놈 균등물 사이에 다양한 바코드를 할당할 수 있다. 일부 실시형태에서, 10,000, 100,000, 500,000 등의 초과의 다양한 바코드 유형이, 또한, 더욱 많은 수의 게놈의 로딩을 가능하게 하고 (예를 들어, 100개 초과의 게놈/분석, 500개 초과의 게놈/분석, 1000개의 게놈/분석 또는 심지어 그 이상의 상태), 게놈 당 훨씬 향상된 바코드 다양성을 제공하면서, 1:50 이하, 1:100 이하, 1:1000 이하 또는 심지어 더 작은 비율의 상태의 게놈:(바코드 유형) 비율을 달성하기 위해, 사용된다. 여기서, 각각의 이러한 게놈은 시험 핵산의 예이다.
도 2를 참조하면, 패널 A 및 B, 종종 전술한 분할은 분할 단계 전에, 비드 (308)에 분리 가능하게 부착된 올리고 뉴클레오티드 태그 세트 (바코드 포함)와 시험 핵산을 함유하는 샘플을 조합시킴으로써 수행된다. 올리고뉴클레오티드는 적어도 프라이머 영역 (216) 및 바코드 (214) 영역을 포함할 수 있다. 지정 분할 내의 올리고뉴클레오티드 사이에서, 바코드 영역 (214)은 실질적으로 동일한 바코드 서열이지만, 상이한 분할 사이와 같이, 대부분의 경우, 바코드 영역은 상이한 바코드 서열이다. 일부 실시형태에서, 프라이머 영역 (216)은 분할 내의 샘플의 핵산을 프라이밍하는데 사용되는 N-머 (특정 서열을 표적으로 하기 위해, 설계된된 랜덤 N-머 또는 N-머)이다. 일부 경우에, N-머가 특정 서열을 표적으로 하도록 설계되는 경우, 프라이머 영역 (216)은 특정 염색체 (예를 들어, 인간의 염색체 1, 13, 18 또는 21), 또는 염색체의 영역, 예를 들어, 엑솜 또는 기타 표적 영역을 표적으로 하도록 설계된다. 일부 경우, N-머는 질환 또는 장애 (예를 들어, 암)와 관련된 유전자 또는 영역과 같은 특정 유전자 또는 유전 영역을 표적으로 하도록 설계된다. 일부 경우, N-머는 특정 구조 변이를 표적으로 하도록 설계된다. 분할 내에서, 프라이머 서열 (216) (예를 들어, N-머)을 사용하여, 증폭 반응을 수행하여, 핵산 길이를 따라 상이한 위치에서 핵산 샘플을 프라이밍한다. 증폭의 결과로서, 각각의 분할은 동일하거나 거의 동일한 바코드에 부착되고, 각각의 분할 내의 핵산의 더 작은 중첩 단편을 나타내는 핵산 (202)의 증폭 산물을 함유한다. 따라서, 바코드 (214)는, 핵산 세트가 동일한 분할에서 유래되고, 따라서, 또한 잠재적으로, 동일한 가닥의 시험 핵산에서 유래된 것을 나타내는 마커로서 기능한다. 증폭 후, 서열 분석 알고리즘을 사용하여, 핵산을 풀링한 후, 서열 분석하고, 정렬한다. 더욱 짧은 서열 판독이 연관된 바코드 서열에 의해 정렬되어, 시험 핵산의 긴 단일 단편으로 기인할 수 있으므로, 그 서열상의 식별된 변이는 모두 시험 핵산의 단일 유래 단편 및 단일 유래 염색체에 기인할 수 있다. 또한, 여러개의 긴 단편에 걸쳐 함께 위치하는 다수의 변이를 정렬함으로써, 염색체 기여도를 추가로 특성화할 수 있다. 따라서, 특정 유전 변이의 위상 조정에 관한 결론을 내릴 수 있다. 이러한 정보는, 일반적으로 동일한 핵산 가닥 또는 상이한 핵산 가닥 상에 존재하는 유전 변이의 특정 세트인 하플로타입을 식별하는데 유용할 수 있다. 또한, 추가적으로 또는 대안적으로, 구조 변이가 식별된다.
일부 실시형태에서, 공동 분할된 올리고뉴클레오티드는 또한 분할 내의 샘플의 핵산의 프라이머 영역 (216) 영역 및 바코드 영역 (214) 이외에 기능 서열을 포함한다. 예를 들어, 그 전문이 본 명세서에서 참조로서 포함되는, 2014년 2월 7일 출원된 미국 특허 출원 제 61/940,318호, 2014년 5월 9일자로 출원된 제 61/991,018호, 2014년 6월 26일 출원된 미국 특허 출원 제 14/316,383호 (대리인 문서 번호 43487-708.201) 및 2014년 2월 7일 출원된 미국 특허 출원 제 14/175,935호에 기재된 바와 같은 샘플 물질과 함께 올리고뉴클레오티드 및 관련 바코드 및 다른 기능적 서열의 공동 분할에 대한 개시를 참조한다.
하나의 예시적인 방법에서, 비드가 제공되며, 각각의 이러한 비드는 비드에 분리 가능하게 부착된 전술된 복수의 올리고뉴클레오티드를 포함한다. 이러한 실시형태에서, 특정 비드에 부착된 모든 올리고뉴클레오티드가 동일한 핵산 바코드 서열을 포함하나, 많은 수의 다양한 바코드 서열이 사용된 비드 집단 전체에 걸쳐 표시된다. 전형적으로, 비드 집단은, 적어도 1000개의 상이한 바코드 서열, 적어도 10,000개의 상이한 바코드 서열, 적어도 100,000개의 상이한 바코드 서열, 또는 일부 경우, 적어도 1,000,000개의 상이한 바코드 서열을 포함하는 다양한 바코드 서열 라이브러리를 제공한다. 또한, 각각의 비드는 전형적으로 복수의 올리고뉴클레오티드 분자가 부착된 채로 제공된다. 특히, 개별 비드 상에 바코드 서열을 포함하는 올리고뉴클레오티드 분자의 수는 적어도 약 10,000개의 올리고뉴클레오티드, 적어도 100,000개의 올리고뉴클레오티드 분자, 적어도 1,000,000개의 올리고뉴클레오티드 분자, 적어도 100,000,000개의 올리고뉴클레오티드 분자 및 일부 경우, 적어도 1,000,000,000개의 올리고뉴클레오티드 분자일 수 있다.
일부 실시형태에서, 올리고 뉴클레오티드는 비드에 특정 자극을 가하면 비드로부터 방출될 수 있다. 일부 경우, 상기 자극은, 예를 들어, 올리고뉴클레오티드를 방출할 수 있는 광 불안정한 결합의 절단을 통한 광 자극일 수 있다. 일부 경우, 열 자극이 사용될 수 있는데, 이때 비드 환경의 온도 상승은 비드를 형성하는 올리고뉴클레오티드의 결합의 절단 또는 다른 방출을 초래할 수 있다. 일부 경우에는, 올리고뉴클레오티드와 비드의 결합을 절단하거나, 그렇지 않으면 비드로부터 올리고뉴클레오티드의 방출을 초래할 수 있는 화학적 자극이 사용될 수 있다.
본 명세서에 기술된 방법 및 시스템에 따라, 부착된 올리고뉴클레오티드를 포함하는 비드는, 단일 비드 및 단일 샘플이 개별 분할 내에 포함되도록 개별 샘플과 공동 분할될 수 있다. 일부 경우, 단일 비드 분할이 요구되는 경우에는, 평균적으로 분할이, 점유하는 분할이 주로 단독으로 점유되는 것을 보장하기 위해, 분할마다 하나 이하의 비드가 분할에 포함되도록, 유체의 상대 유속을 제어하는 것이 바람직할 수 있다. 마찬가지로, 비 점유 분할의 비율을 조금만 허용하는 등 고 비율의 분할이 점유되도록, 제공되는 유속을 제어하고자 할 수 있다. 바람직한 양상에서, 유동 및 채널 아키텍처는, 바람직한 단일 점유 분할의 수가 비점유 분할의 특정 수준보다 작으며, 다중 점유 분할의 특정 수준보다 작을 것을 보장하기 위해, 제어된다.
본 명세서에서 참조로 포함되는 것으로서, "핵산 서열 분석"이라는 제목의 2014년 10월 29일 출원된 미국 특허 출원 제 62/072,214호의 도 3 및 도 3에 대해 기술하고 있는 상기 출원의 설명 부분은 본 출원의 일 실시형태에 따른 바코드화 방법 및 시험 핵산 (참조에서, "샘플 핵산"으로 지칭된)의 후속 서열 분석 방법의 상세한 예가 제공된다. 전술한 바와 같이, 단일 비드 점유가 가장 바람직한 상태일 수 있으나, 다중 점유 분할 또는 비점유 분할이 종종 존재할 수 있다는 것을 알 수 있을 것이다. 본 명세서에서 참조로서 포함되는 것으로서, "핵산 서열 분석"이라는 제목의 2014년 10월 29일 출원된 미국 특허 출원 제 62/072,214호의 도 4 및 도 4에 대해 기술하고 있는 상기 출원의 설명 부분은 본 발명의 일 실시형태에 따른 바코드 올리고뉴클레오티드를 포함하는 비드 및 샘플의 공동 분할을 위한 미세 유체 채널 구조의 상세한 예를 제공한다.
공동 분할되면, 비드 상에 배치된 올리고뉴클레오티드는 분할된 샘플을 바코드화하고, 증폭시키는데 사용될 수 있다. 샘플을 증폭하고 바코드화하는 데 있어서 이들 바코드 올리고뉴클레오티드를 사용하기 위한 한가지 방법이, 그 전문이 본 명세서에서 참조로서 포함되는 것으로서, 2014년 2월 7일 출원된 미국 특허 출원 제 61/940,318호, 2014년 5월 9일 출원된 미국 특허 출원 제 61/991,018호 및 2014년 6월 26일 출원된 미국 특허 출원 제14/316,383호 (대리인 관리 번호 43487-708.201)에 상세히 개시되어 있다. 요약하면, 일 양상에서, 샘플과 공동 분할된 비드 상에 존재하는 올리고뉴클레오티드는 샘플과 함께 분할 내로 비드로부터 방출된다. 올리고뉴클레오티드는 전형적으로 바코드 서열과 함께 5' 말단의 프라이머 서열을 포함한다. 이 프라이머 서열은 샘플의 복수의 상이한 영역을 랜덤으로 프라이밍하기 위한 랜덤 올리고뉴클레오티드 서열일 수 있거나, 또는 샘플의 특정 표적 영역의 프라이머 상류를 표적으로 하는 특정 프라이머 서열일 수 있다.
일단 방출되면, 올리고뉴클레오티드의 프라이머 부분은 샘플의 상보적 영역에 어닐링될 수 있다. 또한 DNA 중합효소, 뉴클레오시드 트리포스페이트, 보인자 (예를 들어, Mg2 + 또는 Mn2 + 등)와 같은 연장 반응 시약은 샘플 및 비드와 함께 공동 분할된 후, 샘플을 주형으로 사용하여, 프라이머 서열을 연장시켜, 올리고뉴클레오티드 및 그 관련 바코드 서열을 포함하는 상보적 단편에 의해, 프라이머가 어닐링된 주형 가닥에 상보적인 단편을 생성한다. 샘플의 다른 부분에 대한 다중 프라이머의 어닐링 및 연장은 샘플의 상보적인 단편이 중첩되는 대규모 풀을 생성할 수 있으며, 이때, 각각은 생성된 분할을 나타내는 자체 바코드 서열를 보유한다. 일부 경우, 이들 상보적 단편 자체는, 다시 바코드 서열을 포함하는 보체의 보체를 생성하기 위해, 분할 내에 존재하는 올리고뉴클레오티드에 의해 프라이밍된 주형으로서 그 자체가 사용될 수 있다. 일부 경우, 이 복제 과정은, 첫 번째 보체가 복제되는 경우, 이것이 그 말단에 또는 그 인접 부위에 2개의 상보적 서열을 생성하여, 추가의 반복 카피를 생성하기 위한 기준 단위일 수 있는 분자의 능력을 감소시키는 헤어핀 구조 또는 부분적 헤어핀 구조의 형성을 가능하게 한다. 이것의 한 예에 대한 개략적인 도식이 도 2에 나와 있다.
도 2에 도시된 바와 같이, 바코드 서열 (214)를 포함하는 올리고뉴클레오티드 (202)는, 예를 들어, 샘플 시험 핵산 단편 (206)과 함께 에멀젼 내의 액적 (204)에 공동 분할된다. 일부 실시형태에서, 올리고뉴클레오티드 (202)는, 도 2의 패널 (A)에 도시된 바와 같이, 올리고뉴클레오티드가 바람직하게는 비드 (208)로부터 방출될 수 있는 시험 핵산 단편 (206)과 공동 분할된 비드 (208) 상에 제공된다. 도 2 패널 (B)에 도시된 바와 같이, 올리고뉴클레오티드 (202)는 하나 이상의 기능 서열, 예를 들어, 서열 (212), (214) 및 (216)에 더하여, 바코드 서열 (214)을 포함한다. 예를 들어, 올리고뉴클레오티드(202)는 ILLUMINA, HISEQ 또는 MISEQ 시스템의 유동 세포에서의 부착에 사용되는 P5 서열과 같은 지정 서열 시스템을 위한 부착 또는 고정화 서열로서 기능할 수 있는 서열(212)을 추가로 포함하는 것으로 나타난다. 달리 말하면, 부착 서열 (212)은 일부 실시형태에서 비드 (208)에 올리고뉴클레오티드 (202)를 가역적으로 부착시키는데 사용된다. 도 2의 패널 B에 도시된 바와 같이, 올리고뉴클레오티드 (202)는 또한, 샘플 시험 핵산 단편 (206)의 일부의 프라이밍 복제를 위한 랜덤 또는 표적 N-머 (전술됨)를 포함할 수 있는 프라이머 서열 (216)을 포함한다. 서열 분석 시스템에서 합성 반응에 의해 중합 효소 매개, 주형 유도 서열 분석을 프라이밍하는데 사용되는 "read1" 또는 R1 프라이밍 영역과 같은 서열 분석 프라이밍 영역을 제공할 수 있는 서열 (210)이 또한, 도 2 패널 B의 예시적 올리고뉴클레오티드 (202)에 포함된다. 많은 경우, 바코드 서열 (214), 고정 (부착) 서열 (212) 및 예시적인 R1 서열 (214)은 지정 비드에 부착된 모든 올리고뉴클레오티드 (202)에 공통적일 수 있다. 프라이머 서열 (216)은 랜덤 N-머 프라이머에 대해 변할 수 있거나, 특정 표적화된 적용을 위해, 지정 비드상의 올리고뉴클레오티드에 공통적일 수 있다. 2014년 2월 9일자로 출원된 "구조 변이를 측정하기 위한 시스템 및 방법"이라는 제목의 미국 가출원 제 62/113,693호의 도 3b 내지 도 3e 및 이들 도면에 대해 기술하고 있는 설명 부분은, 올리고뉴클레오티드 (202)가 샘플 시험 핵산의 서열 분석 판독을 형성하는 방법으로서, 각각의 이러한 서열 분석 판독이, 샘플 시험 핵산의 서열 분석 판독인 제1 부분 및 올리고뉴클레오티드 (202)인 제2 부분을 포함하는 방법을 상세히 설명하고 있다. 이러한 서열 분석 판독 및 이러한 서열 분석 판독의 분석은 개시된 핵산 서열 분석 데이터 세트 (126)의 기초를 형성한다.
일부 실시형태에서, 적어도 하나의 표적 핵산을 서열 분석하기 위해, 핵산 서열 분석 데이터 세트 (126)에서의 서열 분석 판독이 처리된다. 일부 실시형태에서, 적어도 하나의 표적 핵산의 서열을 확립하기 위해, 핵산 서열 판독을 처리하기 위한 통상적인 방법이 사용된다. 일부 실시형태에서, 본 명세서에 참조로 포함되는 것으로서, 2015년 6월 26일 출원된 "핵산 서열 어셈블리를 위한 프로세스 및 시스템"이란 명칭의 PCT 국제출원 PCT/US2015/038175에 개시된 신규 방법이 적어도 하나의 표적 핵산의 서열을 확립하기 위해, 핵산 서열 판독을 처리하는데 사용된다. 일부 실시형태에서, 이러한 서열 분석은, 샘플이 채취된 종의 게놈과 같은 표준 게놈으로 서열 분석 판독을 매핑하는 단계를 포함한다. 일부 실시형태에서, 샘플은 다중 게놈 (예를 들어, 인간 샘플과 같은 샘플이 레트로바이러스에 감염된 경우)을 함유할 것으로 예상되거나 의심된다. 이러한 경우, 상이한 종의 다중 참조 게놈이 동시에 사용될 수 있다.
일부 실시형태에서, 서열 분석 판독은 위상 조정 및 구조 변이의 관찰에 의해, 처리된다. 일부 실시형태에서, 종래의 위상 조정 방법 및 구조 변이 방법이 사용된다. 일부 실시형태에서, 본 명세서에서 참조로서 포함되는 것으로서, 2015년 10월 6일 출원된 "확률론적 모델을 사용한 구조 변이 측정 시스템 및 방법"이란 명칭의 미국 가특허출원 제 62,238,077호에 개시된 바와 같은 신규의 위상 조정 방법 및 구조 변이 방법이 사용된다. 이 참조 문헌에 개시되지는 않았으나, 일부 실시형태에서, 참조 문헌의 교시 내용이, 샘플이 잠재적으로, 다중 참조 게놈의 핵산을 포함하는 예에서, 다중 참조 게놈을 통합하도록 확장된다. 예를 들어, 샘플이 인간이지만 레트로바이러스에 감염되었을 가능성이 있는 경우, 레트로바이러스의 게놈은 추가적인 염색체로 취급된다. 이러한 방식으로, 연구중인 샘플의 게놈 내로 레트로바이러스와 같은 핵산 작제물의 삽입을 식별하기 위해, 본 발명에 개시된 시각화 방법을 확장하는 것이 가능하다.
따라서, 예를 들어, 개시된 기술들은 바코드를 사용하여, 하기의 2가지 시나리오를 구별할 수 있다. 하나는 샘플에 HPV 바이러스가 자유 유동 중인 인간 샘플이지만 바이러스는 인간의 DNA에 삽입되어 있지 않다. 이들은 자유 유동 분자-별개의 분자, 별개의 바이러스, 별개의 인간 DNA이다. 이 경우, 측정된 서열 판독 결과는 인간 게놈뿐만 아니라 HPV에도 매핑되지만, 인간 게놈과 HPV가 구별된다는 것을 의미하는 것으로서, HPV 및 인간 게놈과 공통된 바코드는 존재하지 않는다. 다른 한편으로, HPV 분자가 하나의 인간 염색체 또는 2개에 삽입된 경우, 측정 대상은 인간 염색체와 HPV에 동시에 매핑되고, 이들이 별개의 분자와 반대로, 동일한 분자에 존재한다는 것 (예를 들어, HPV는 인간 염색체로 통합됨)을 의미하는 것으로서, 동일한 바코드를 공유하는 서열 판독이다. 또한, 바코드는 인간의 염색체로의 HPV 삽입의 정확한 위치 (들)를 위치화시키는데 사용될 수 있다.
도 3은 대상체 (예를 들어, 특정 인간)의 생물학적 샘플로부터 얻어진 데이터를 도시한다. 이 데이터는 핵산 서열 데이터 세트 (126)의 형태로 요약된다. 일부 경우, 전술한 유형의 전장 게놈 실행은 30-40 기가바이트 상당의 데이터를 생성한다. 본 명세서의 일부 양상에 따르면, 이러한 미가공 데이터는 미가공 데이터의 크기의 일부분인 핵산 서열 데이터 세트 (126)로 압축된다. 일부 실시형태에서, 미가공 데이터를 압축하여, 핵산 서열 데이터 세트 (126)를 형성하나, 데이터 세트 (126)는 여전히 너무 대용량이어서, 일반적인 컴퓨터의 RAM에 로딩할 수 없다. 예를 들어, 일부 실시형태에서, 핵산 서열 데이터 세트 (126)는 5 기가바이트 이상, 10 기가바이트 이상 또는 15 기가바이트 이상이다.
도 3에 도시된 바와 같이, 예시적인 핵산 서열 분석 데이터 세트 (126)는 3개의 부분, 즉 헤더 (302), 시놉시스 (308) 및 데이터 섹션 (340)으로 조직화된다. 헤더 (302)의 목적은, 선택적으로 데이터 세트 (126) 구조의 버전 (306), 예를 들어, 버전 1.7을 제공할 뿐만 아니라, 데이터 세트 (126)의 구성요소 (304)를 기술하는 것이다. 일부 실시형태에서, 헤더 (302)는 웹 브라우저와 같은 웹 기반 애플리케이션을 사용하여, 로딩을 용이하게 하기 위해, JSON 구조로 포맷된다. 본 명세서에 참조로 포함된 URL json.org를 참조한다. 예를 들어, 일부 실시형태에서, 헤더는 JSON 오브젝트 (object)로 포맷되며: 이는 (좌측 브레이스(left brace))로 시작하여, (우측 브레이스)로 종결되고, 각 명칭은 :(콜론)으로 이어지며, 명칭/값 쌍은 ,(콤마)로 구분된다. 하나의 예시적인 실시형태에서, 헤더(302)는 서열 분석 데이터 세트 (126)가 하기의 구성요소를 가짐을 특정한다: 단편 트랙 (예를 들어, 데이터 세트 내의 모든 단편의 길이, 위치, 바코드 및 단계), 표적 트랙 (처리 중에 사용된 캡처 프로토콜에 의해 선택된 게놈 영역), 구조 변이 트랙 (샘플에서 호출된 모든 구조 변이 목록), 표적 데이터 세트에 대한 인덱스, vcf_index (데이터 세트 (126) 파일의 위치에 대한 게놈 영역 관련 인덱스), 마커, 단계 블록 서머리 (시험 핵산 (206)의 다양한 단계 블록에 대한 설명), 유전자 트랙 (각 유전자의 SNP 수를 표시한 모든 인간 유전자에 대한 설명), BAM 데이터 (해당 범위의 판독 정보가 포함된 파일 위치로의 게놈의 관련 범위), 서머리 (서열 분석 데이터에서 추출된 상위 수준 측정 기준 (metrics)) 및 참조 서열 인덱스 (결국 그의 게놈 내 위치의 RSID와 관련된 것으로서, 샘플에서 호출된 SNP의 dbSNP 식별자 (RSID)의 목록을 포함하는 인덱스).
시놉시스 섹션 (308)은, 데이터 세트 (126)가 액세스되는 경우, 전형적으로는 전체적으로 하플로타입 시각화 툴 (148)에 의해 휘발성 (예를 들어, 랜덤 액세스) 메모리로 판독되는 데이터를 포함한다. 이 데이터는 시각화 툴 (148)에 의해 자주 참조되는 다른 데이터뿐만 아니라 데이터 섹션 (340)에 대한 인덱스로 구성된다. 도 3에 도시된 바와 같이, 시놉시스 섹션 (308)은, 헤더 섹션 (302)에서, "인덱스" 어레이 (예를 들어, 구성요소 목록 (302))에 대응하는 다수의 구성요소로 분리된다.
서머리 (310)는 데이터로부터 추출된 상위 수준 측정 기준를 제공한다. 일부 실시형태에서, 서머리 (310)는 도 12 및 도 13에 도시된 바와 같은 서머리 데이터를 제공하기 위해, 서머리 모듈 (150)에 의해, 사용된다. 이것은 위상 조정된 공지의 SNP (예컨대, 인간 SNP)의 백분율 (1202), 최장 단계 블록 (1204), 유효 바코드 개수 (1206) (예를 들어, 데이터 세트 (126)에 사용되는 고유 바코드의 수), 평균 단편 길이 (1208), 평균 단편 길이의 평균 (1210), 하위 임계치 (예를 들어, 20kb) 보다 큰 단편의 백분율 (1212), 단편 길이 히스토그램 또는 다른 형태의 단편 길이 측정 기준 (1214), N50 단계 블록 크기 (1216), 단계 블록 길이 히스토그램 또는 다른 형태의 단계 블록 길이 측정 기준 (1218), 데이터 세트에 의해 표시된 서열 판독의 수 (1220), 중간 인서트 크기 (1222), 중간 깊이 (1224), 제로 커버리지를 가지는 표적 게놈의 백분율 (1226), 매핑된 판독 백분율 (1228), PCR 복제 백분율 (1230), 표적 염기 (%) (1232), 커버리지 히스토그램 또는 다른 형태의 커버리지 측정 기준 (1234), 메모리 (112) 내의 데이터 세트의 소스 (1234), 시험 핵산의 주체 (1236), 게놈 소스 (1238), 공여 유기체의 성별 (1240), 데이터 세트 파일 포맷 버전 (1242), 및 데이터 세트 (126)에 이루어진 구조 변이 호출 (1244)의 포인터 (1244)를 포함한다.
변이 호출 데이터에 대한 인덱스 (312)는 서머리에 나타난 인덱스의 일례이며, 개별 범위의 변이 호출 데이터가 나타나는 대응 데이터 섹션 (340)에서, 오프셋 (316)에 대한 표적 핵산 게놈의 개별 범위 (214)와 관련된다.
일부 실시형태에서, 단계 블록 트랙 (318)은 핵산 서열 분석 데이터 세트 (126)의 시놉시스 섹션 (308)에 저장된다. 예시적인 단계 블록 트랙 (318)의 아키텍처에 대한 더욱 상세한 내용이 도 4에 제시된다. 도 4를 참조하면, 일부 실시형태에서, 단계 블록 트랙 (318)은 딕셔너리 섹션 (402) 및 트랙 데이터 섹션 (408)을 포함한다. 트랙 데이터 섹션은 복수의 기록 (410)을 포함한다. 일부 실시형태에서, 복수의 기록 중 각각의 기록은 대응 염색체의 단계 정보를 포함한다. 일부 실시형태에서, 하나 이상의 데이터 섹션 각각은 하나 이상의 대응 염색체의 단계 정보를 저장한다. 일부 실시형태에서, 하나 이상의 데이터 섹션 각각은 대응 염색체에 대한 인터벌 트리 (422) 포맷으로 단계 정보를 저장한다.
단계 블록 트랙 (318)의 딕셔너리 (402)는 복수의 명칭 (404) 및 개별 명칭 (404)에 있어서, 대응 명칭 (404)에 대한 기록이 나타나는 트랙 데이터 (408)로의 오프셋 (406)을 포함한다. 일부 실시형태에서, 단계 블록 트랙 (318)에 대한 딕셔너리 (402)는 단일 명칭, 예를 들어 "단계_데이터"를 포함한다.
일부 실시형태에서, 트랙 데이터 (408)는 JSON 포맷이다. 일부 실시형태에서, 각각의 기록 (410)은 표적 핵산의 단계 블록을 표시한다. 이와 같이, 일부 실시형태에서, 각각의 기록 (410)은 단계 블록이 존재하는 염색체 번호 (412) 뿐만 아니라, 단계 블록이 염색체 (412) 상에서 시작되는 위치 (414) 및 단계 블록이 염색체 (412) 상에서 종결되는 위치 (416)를 지정한다. 또한, 각각의 기록에 대한 고유 명칭 (418) 및 단계 블록에 관한 위상 조정 정보 (420)가 있다. 일부 실시형태에서, 정보 (420)의 목적은 단계 블록의 위상 조정 정보의 세부 정보를 제공하는 것이다. 일부 실시형태에서, 단계 블록은 두 부모에 대응하는 두 개의 하플로타입 (예를 들어, 각각 하플로타입 "A" 및 하플로타입 "B"로 표시됨)에 관한 정보를 포함한다. 따라서, 일부 실시형태에서, 단계 정보는 위상ASNP 422 (단계 블록에서의 하플로타입 "A"의 계수된 단일 뉴클레오티드 다형의 수), 위상 조정되지 않은 SNP 424 (단계 블록에서 미지의 하플로타입의 계수된 단일 뉴클레오티드 다형의 수) 및 위상BSNP (단계 블록에서 하플로타입 "B"의 계수된 단일 뉴클레오티드 다형의 수)를 포함한다. 이와 같이, 트랙 데이터 (408)는 핵산 서열 분석 데이터 세트 (126)에 대한 특정 단계 블록 데이터 (예를 들어, SNP 개수)를 보유한다. 게놈 데이터 및 단계 블록을 위상 조정하기 위한 기술은, 그 전문이 본 명세서에서 참조로서 포함되는 문헌 [Browning and Browning, "Haplotype phasing: Existing methods and new developments," Nat Rev Genet.; 12(10): 703714. doi:10.1038/nrg3054]에 기술되어 있다.
일부 실시형태에서, 트랙 데이터 (408)는 대응 인터벌 트리 (422)에 의해 상황 정보에 도입된다. 이와 같이, 각각의 기록 (410)은 인터벌 트리 (422)의 노드 (424)에 의해 표시된다. 각각의 이러한 인터벌 트리 (422)는, 트리의 각 노드 (424)가 노드의 중점 xmed (432)을 저장하는 삼원 트리이다. 이러한 중점 (432)은 대응 염색체 상의 노드에 대응하는 단계 블록의 중점의 위치이다. 각각의 개별 노드 (424)는, 표적 (유전 소스) 유기체의 종의 게놈 내의 개별 노드 (424)에 의해 표시되는 단계 블록의 바로 좌측 단계 블록에 대응하는 좌측 자식 노드 (428)에 링크를 갖는다. 각각의 개별 노드 (424)는, 개별 노드 (424)에 의해 표시되는 단계 블록의 바로 우측 단계 블록에 대응하는 우측 자식 노드 (430)에 링크를 갖는다. 각각의 개별 노드 (424)는, 이러한 단계 블록의 좌측 위치에 의해 정렬된 개별 노드 (424)의 xmed (432)와 중첩되는 단계 블록 (424)을 표시하는 정렬된 노드 세트 (425)를 갖는다. 각각의 개별 노드 (424)는 이러한 단계 블록의 우측 위치에 의해 정렬된 개별 노드 (424)의 xmed (432)와 중첩하는 단계 블록을 표시하는 정렬된 노드 세트 (436)를 갖는다. 일부 실시형태에서, 정렬된 세트 (425) 및 (436)는 어레이 또는 링크된 목록에 의해 노드 (424)에 표시된다. 일부 실시형태에서, 각각의 개별 노드 (424)는 명칭 (426)을 추가로 포함하며, 이는 상기 개별 노드 (424)에 대응하는 단계 블록의 단계 정보 (420)를 포함하는 기록 (410)에 트랙 데이터 (410)의 오프셋이다.
도 4에 도시된 바와 같이, 일부 실시형태에서, 단계 블록 트랙 내의 각각의 염색체에 대한 별도의 인터벌 트리 (422)가 존재한다. 이러한 인터벌 트리는 유리하게도 표적 게놈의 사용자 지정 영역에 속하는 모든 기록 (410)을 식별하는 빠른 방법을 제공한다. 단계 블록 트랙 (318)의 예가 도 5에 도시되어 있다. 도 5에서, 도 4의 데이터 구조에 대응하는 예시적인 요소들이 도시되어 있다.
도 3을 참조하면, 일부 실시형태에서, 시놉시스 (308)는, 핵산 서열 분석 데이터 세트에 대응하는 샘플에 호출되는 분자 변이 (예를 들어, SNP) 식별자를 포함하는 인덱스인 참조 서열 인덱스 (319)을 추가로 포함한다. 참조 서열 인덱스 (319)는 이러한 각각의 식별자를 표적 유기체의 게놈 내의 그의 위치와 연관시킨다. 일부 실시형태에서, 표준 서열 인덱스 (319)는 JSON 데이터 구조로서 저장된다. 일부 실시형태에서, 표준 서열 인덱스 (319)의 각각의 다형 식별자는 NCBI (National Center for Biotechnology Information) 데이터베이스에 나타나는 dbSNP 식별자이다. 본 명세서에서 참조로서 포함되는 문헌 [Wheeler et al., 2007, "Database resources of the National Center for Biotechnology Information," Nucleic Acids Res. 35 (Database issue): D5-12]을 참조한다. 이러한 dbSNP 식별자는 참조 SNP 클러스터 ID (RSID)라고 한다.
일부 실시형태에서, 시놉시스 (308)는, 각각의 유전자에 나타나는 SNP의 수를 표기한 인간 유전자의 참조를 제공하는 유전자 트랙 (320)을 추가로 포함한다. 예시적 유전자 트랙 (320)의 아키텍처에 대한 더욱 상세한 사항은 도 6에 제시된다. 도 6을 참조하면, 일부 실시형태에서, 유전자 트랙 (320)은 딕셔너리 섹션 (602), 트랙 데이터 섹션 (608), 및 하나 이상의 데이터 섹션 (628)을 포함한다. 일부 실시형태에서, 하나 이상의 데이터 섹션 각각은 대응 염색체의 유전자 정보를 저장한다. 일부 실시형태에서, 하나 이상의 데이터 섹션 각각은 하나 이상의 대응 염색체의 유전자 정보를 저장한다. 일부 실시형태에서, 하나 이상의 데이터 섹션 각각은 대응 염색체에 대한 인터벌 트리 (628) 포맷으로 유전자 정보를 저장한다.
유전자 트랙 (320)의 딕셔너리 (602)는 복수의 명칭 (604) 및 개별 명칭 (604)에 있어서, 대응 명칭 (604)에 대한 기록이 나타나는 트랙 데이터 (608)로의 오프셋 (606)을 포함한다. 일부 실시형태에서, 딕셔너리 (602)의 각각의 명칭 (604)은 표적 게놈 내의 염색체의 명칭이다.
일부 실시형태에서, 유전자 트랙 (320)의 트랙 데이터 (608)는 복수의 유전자 기록 (610)을 포함한다. 일부 실시형태에서, 트랙 데이터 (608)는 JSON 포맷이다. 일부 실시형태에서, 각각의 유전자 기록 (610)은 표적 핵산의 종의 유전자를 표시한다. 이와 같이, 일부 실시형태에서, 각각의 유전자 기록 (610)은, 대응 유전자가 존재하는 염색체 번호 (612), 염색체 (612) 상에서 상기 유전자가 시작되는 위치 (614) 및 염색체 (612) 상에서 상기 유전자가 종결되는 위치 (616)를 지정한다. 또한, 각각의 유전자 기록에 대한 고유 명칭 (618) 및 상기 유전자에 관한 유전자 정보 (620)가 존재한다. 일부 실시형태에서, 정보 (620)의 목적은 유전자에 대한 유전 정보, 예를 들어 유전자의 대체 명칭 (622), 유전자상의 단일 뉴클레오티드 다형의 수 (624) 및 유전자의 방향 (예를 들어, 플러스 또는 마이너스) (626)을 제공하는 것이다.
일부 실시형태에서, 트랙 데이터 (608)는 대응 인터벌 트리 (628)에 의해 상황 정보에 도입된다. 각각의 유전자 기록 (610)은 인터벌 트리 (628)의 노드 (630)를 형성한다. 각각의 인터벌 트리 (628)는, 각 노드 (630)가 노드의 중점 xmed (642)을 저장하는 삼원 트리이다. 이러한 중점 (642)은 대응 염색체 상의 노드에 대응하는 유전자의 중점의 위치이다. 각각의 개별 노드 (630)는, 표적 유기체의 종의 개별 노드 (630)에 의해 표시되는 유전자의 바로 좌측 (염색체 상의 하위 위치) 유전자에 대응하는 좌측 자식 노드 (638)에 링크를 갖는다. 각각의 개별 노드 (630)는, 표적 유기체의 종에서 개별 노드 (630)에 의해 표시되는 유전자의 바로 우측 (염색체 상의 상위 위치) 유전자에 대응하는 우측 자식 노드 (640)에 링크를 갖는다. 각각의 개별 노드 (620)는, 좌측 위치에 의해 정렬된 개별 노드 (620)의 xmed (632)와 중첩되는 유전자를 개별적으로 표시하는 정렬된 노드 세트 (632)를 갖는다. 각각의 개별 노드 (630)는 우측 위치에 의해 정렬된 개별 노드 (630)의 xmed (642)와 중첩하는 유전자를 개별적으로 표시하는 정렬된 노드 세트 (630)를 갖는다. 일부 실시형태에서, 정렬된 세트 (632) 및 (644)는 어레이 또는 링크된 목록에 의해 노드 (630)에 표시된다. 각각의 개별 노드 (630)는 명칭 (636)을 추가로 포함하며, 이는 상기 개별 노드 (630)에 대응하는 유전자의 유전 정보 (620)를 포함하는 유전자 기록 (610)에 트랙 데이터 (608)의 오프셋이다.
도 6에 도시된 바와 같이, 일부 실시형태에서, 유전자 트랙 (320) 내의 각각의 염색체에 대해 별도의 인터벌 트리 (628)가 존재한다. 이러한 인터벌 트리는 유리하게는 표적 게놈의 사용자 지정 영역에 속하는 모든 기록 (610)를 식별하는 빠른 방법을 제공한다. 유전자 트랙 (320)의 예가 도 7에 나와 있다. 도 7에서, 도 6의 데이터 구조에 대응하는 예시적인 요소가 도시되어 있다.
일부 실시형태에서, 시놉시스 (308)는 엑손 트랙 (322)을 추가로 포함한다. 일부 실시형태에서, 엑손 트랙 (322)은, 유전자 트랙 (320)이 표적 유기체의 종의 유전자에 대한 유전 정보를 표시하고, 엑손 트랙 (320)이 표적 유기체의 종의 엑손에 대한 유전 정보를 제공하는 것을 제외하고, 유전자 트랙 (320)과 동일한 아키텍처를 갖는다.
일부 실시형태에서, 시놉시스 (308)는 판독 데이터에 대한 인덱스 (324)를 추가로 포함한다. 이러한 인덱스 (324)는, 도 10을 참조로 하여, 하기에서 더욱 상세히 개시되는 핵산 서열 분석 세트의 데이터 섹션 (340)의 서열/판독 데이터 (1048)에 대한 인덱스를 제공한다. 도 3을 참조하면, 인덱스 (324)는 데이터 세트에서 사용되는 바코드에 식별자를 연관시키는 데이터베이스를 포함한다 (도시되지 않음). 데이터 세트에 사용된 바코드에 식별자를 연관시키는 데이터베이스 (조회 표)는, 더 긴 실제 바코드 대신 식별자를 사용할 수 있기 때문에, 판독 데이터 (1048)의 크기를 압축하는 유용한 방법이다. 이는, 주어진 정도의 정보 내용에 대해, 이론적으로 가능한 모든 바코드가 지정 데이터 세트 (126)에 사용되지는 않기 때문이다.
인덱스 (324)는, 특정 게놈 범위의 대응 데이터의 조회를 가능하게 하는 각각의 이러한 데이터 엘리먼트의 길이뿐만 아니라, 판독 데이터 (1048)에 대한 염색체-오프셋 --> 파일-오프셋 연관의 염색체 당 어레이 (per chromosome array) (328)를 추가로 포함한다. 일부 실시형태에서, 판독 데이터는 블로킹된 인덱스로서 저장되고, 개별 기록 (328)은 데이터 세트 (126)에 통합된 BAM 파일의 각 엔트리에 대한 고정비트 기록이다. BAM 파일의 각각의 이러한 엔트리는 파일의 데이터 섹션 (340) 내 청크에 조직화된다. 시놉시스 (308)의 인덱스 (324)는 데이터 섹션 (340) 내의 정확한 청크를 찾아서 판독하는 것을 돕는다. 도 10을 참조하면, 인덱스 (324)에 의해 인덱스된 서열/판독 데이터 (1048)의 대응 아키텍처가 개시된다. 개별 염색체에 대해, 판독 데이터 (1048)는 청크 (1050)에 저장된다. 일부 실시형태에서, 각각의 데이터 청크 (1050)는 하기 포맷의 64비트 구조 (1052)의 어레이이다:
Figure pct00001
여기서, O는 항상 O이고, X는 판독 특질이 임계 값 (예를 들어, 60 미만) 이하임을 나타내며, L은 부모 하플로타입 A의 판독을 나타내고, R은 부모 하플로타입 B의 판독을 나타내며, I는 판독의 바코드에 대응하는 숫자 식별자이고, E는 판독의 '종결' 길이이며, S는 청크 (1050)의 시작에 대비한 이러한 판독의 '시작' 위치이다. 보다 일반적으로, 도 10을 참조하면, 각각의 구조 (1052)는 하나의 종의 단일 유기체에 대한 표적 핵산의 단일 판독에 대응하고, 시작 (오프셋), 길이, 바코드에 대한 표시자 및 일부 플래그를 포함한다. 일부 실시형태에서, 구조 (1052) 내의 시작은 인덱스 (324)의 기록 (328)의 염색체 오프셋 필드에서 청크 (1050)에 대해 저장된 시작 값을 뺀 염색체상의 실제 위치이다. 유리하게는, 이는 구조 (1052)에서 게놈 좌표의 더 큰 반복을 회피할 수 있게 한다. 이러한 좌표는 수십억에 달할 수 있으므로, 따라서, 저장하는데 30비트가 요구된다. 유리하게는, 서열/판독 데이터 (1048)에 개시된 바와 같이 청킹 (chunking)에 의해, 각각의 청크는 최대 약 100 만개의 염기 쌍을 포괄하고, 따라서, 임의의 지정 청크의 범위가 시놉시스 (308)에 저장된 인덱스 (324)의 대응 기록 (328)의 염색체 오프셋/길이 부분에 의해 지정되므로, 청크 내의 각각의 구조 (1052)에서 각 시작 (오프셋)은 단지 20비트를 필요로 한다. 유사하게, 상기에서 개괄된 바와 같이, 바람직한 실시형태에서, 구조 (1052)의 바코드 필드는 실제 바코드를 저장하지 않는다. 일부 실시형태에서, 구조 (1052)의 바코드 표시자는 인덱스 (324)에 저장된 바코드 표에 대한 24비트 인덱스이다. 따라서, 특정 판독과 관련된 실제 바코드가 필요한 경우, 판독에 대응하는 구조 (1052)가 액세스되고, 구조 (1052)의 24비트 바코드 표시자가 바코드를 얻기 위해, 인덱스 (324)의 바코드 표에 대해 쿼리한다. 이러한 방식으로, 구조 (1052) 내의 30비트 바코드가 회피된다. 일부 실시형태에서, 바코드는 30비트 초과 (예를 들어, 32비트, 34비트, 36비트 이상)이고, 구조 (1052)의 바코드에 대한 표시자는 20비트 초과 (예를 들어, 22비트, 24비트, 26비트 이상)이다. 일부 실시형태에서, 바코드는 30비트 미만 (예를 들어, 28비트, 26비트, 24비트 이하)이고, 구조 (1052)의 바코드에 대한 표시자는 20비트 미만 (예를 들어, 18비트, 16비트, 14비트 이하)이다. 일부 실시형태에서, 각각의 데이터 청크 (1050)는 동일한 소정의 크기 (예를 들어, 128비트, 64비트, 32비트 또는 일부 다른 고정 비트 크기)를 갖는 구조 (1052)의 어레이이다.
일부 실시형태에서, 시놉시스 (308)는 구조 변이 데이터 세트 트랙 (330)을 추가로 포함한다. 일부 실시형태에서, 구조 변이 데이터 세트 트랙 (330)은 데이터 세트 (126)에 의해 표시되는 샘플의 호출 구조 변이의 목록을 포함한다. 예시적인 구조 변형 데이터 세트 트랙 (330)의 아키텍처에 대한 더욱 상세한 내용이 도 8에 도시되어 있다. 도 8을 참조하면, 일부 실시형태에서, 구조 변이 데이터 세트 (330)는 딕셔너리 섹션 (802), 트랙 데이터 섹션 (808), 및 하나 이상의 데이터 섹션 (840)을 포함한다. 일부 실시형태에서, 하나 이상의 데이터 섹션 (840) 각각은 대응 염색체에 대한 구조 변이 호출 정보를 저장한다. 일부 실시형태에서, 하나 이상의 데이터 섹션 (840) 각각은 하나 이상의 대응 염색체에 대한 구조 변이 호출 정보를 저장한다. 일부 실시형태에서, 하나 이상의 데이터 섹션 (840) 각각은 대응 염색체에 대한 인터벌 트리 포맷으로 유전자 정보를 저장한다.
구조 변이 데이터 세트 트랙 (330)의 딕셔너리 (802)는 복수의 명칭 (804) 및 개별 명칭 (804)에 대해, 대응 명칭 (804)에 대한 기록이 나타나는 트랙 데이터 (808) 로의 오프셋 (606)을 포함한다. 일부 실시형태에서, 딕셔너리 (802)의 각 명칭 (804)은 표적 게놈 내의 염색체 명칭이다.
일부 실시형태에서, 구조 변이 데이터 세트 트랙 (330)에 트랙 데이터 (808)는 복수의 구조 변이 기록 (810)를 포함한다. 일부 실시형태에서, 트랙 데이터 (808)는 JSON 포맷이다. 일부 실시형태에서, 각각의 구조 변이 기록 (810)은 데이터 세트 (126)에 의해 표시되는 단일 유기체의 표적 핵산에 대해 만들어진 구조 변이 호출을 표시한다. 이와 같이, 일부 실시형태에서, 각각의 구조적 변이 기록 (810)은 염색체 번호 (812), 구조 변이에 의해 표시되는 시작 위치 (814), 염색체 (812)의 구조 변이에 의해 표시되는 종료 위치 (816), 구조 변이에 대한 고유 명칭 (818), 및 구조 변이에 관한 정보 (820)를 지정한다. 일부 실시형태에서, 구조 변이 데이터 세트 트랙 (330)은, 유리하게도 구조 변이 또는 쌍 말단 서열 정렬과 같은 분리된 게놈 피처를 간결하게 기술하기 위해, BEDPE 포맷과 유사하거나 그에 대응하는 정보를 포함한다. 본 명세서에서 참조로 포함되는 URL bedtools.readthedocs.org/en/latest/content/general-usage.html을 참조한다. 따라서, 일부 실시형태에서, 각각의 구조 변이 기록 (810)의 정보 섹션 (820)은 피처 (feature)의 제1 말단이 존재하는 염색체 명칭인 염색체 1 명칭 (822)을 포함한다. 일부 실시형태에서, 염색체 1 명칭 (822)은 "chr1", "III", "myChrom" 또는 "콘틱1112.23"과 같은 문자열 포맷이다.
일부 실시형태에서, 각각의 기록 (810) 내의 정보 섹션 (820)은 염색체 1 명칭 (822)상의 피처의 제1 말단의 제로-기반 시작 위치인 시작 1 위치 (830)를 추가로 포함한다.
일부 실시형태에서, 각각의 기록 (810)의 정보 섹션 (820)은 염색체 1 명칭 (822)상의 기록 (810)에 의해 표시되는 피처 (예를 들어, 구조 변이)의 제1 말단의 1-기반 종결 위치인 종료 1 (종결 1) 위치 (826)를 추가로 포함한다.
일부 실시형태에서, 각각의 기록 (810)의 정보 섹션 (820)은 기록 (810)에 의해 표시된 피처의 제2 말단이 존재하는 염색체의 명칭인 염색체 2 명칭 (836)을 추가로 포함한다. 일부 실시형태에서, 염색체 2 명칭 (836)은 "chr1", "III", "myChrom" 또는 "contig1112.23"과 같은 문자열 포맷이다.
일부 실시형태에서, 각각의 기록 (810) 내의 정보 섹션 (820)은 염색체 2 명칭 (836)상의 기록 (810)에 의해 표시되는 피처의 제2 말단의 제로-기반 시작 위치인 시작 2 위치 (828)를 추가로 포함한다.
일부 실시형태에서, 각각의 기록 (810)의 정보 섹션 (820)은 염색체 2 명칭 (836)상의 기록 (810)에 의해 표시되는 피처 (예를 들어, 구조 변이)의 제2 말단의 1-기반 종결 위치인 종료 2 (종결 2) 위치 (824)를 추가로 포함한다.
일부 실시형태에서, 각각의 기록 (810)의 정보 섹션 (820)은 기록 (810)에 의해 표시된 피처 (예를 들어, 구조 변이)의 명칭인 구조 변이 필드 (834)의 명칭을 추가로 포함한다. 일부 실시형태에서, 구조 변이 (834)는 "LINE", "Exon3", "HWIEAS_0001:3:1:0:266#0/1", 또는 "my_Feature"와 같은 문자열 포맷이다.
일부 실시형태에서, 각각의 기록 (810) 내의 정보 섹션 (820)은 기록 (810)에 의해 표시된 피처 (예를 들어, 구조 변이)의 특질을 등급화하는 임의의 측정 기준인 특질 (등급) 필드 (832)를 추가로 포함한다. 일부 실시형태에서, 특질 (832)는 문자열 포맷이므로, 어떤 과학적 측정 기준, 예를 들어, p-값, 평균 농축 값 등으로 피처의 특질 표시를 허용한다.
일부 실시형태에서, 각각의 기록 (810)의 정보 섹션 (820)은 정렬의 각 말단의 편집 거리 또는 "결실", "역위" 등과 같은 기록 (81)에 의해 표시된 피처에 대한 추가 정보 (838)를 추가로 포함한다.
계속해서 도 8을 참조하면, 일부 실시형태에서, 트랙 데이터 (808)는 대응 인터벌 트리 (840)에 의해 상황 정보에 도입된다. 각각의 기록 (810)은 인터벌 트리 (840)의 노드 (842)를 형성한다. 각각의 인터벌 트리 (840)는, 각각의 노드 (842)가 노드의 중점 xmed (852)을 저장하는 삼원 트리이다. 이러한 중점 (852)은 대응 기록 (810)에 의해 표시되고, 노드에 대응하는 피처 (예를 들어, 구조 변이)의 대응 염색체 상의 중점의 위치이다. 각각의 개별 노드 (842)는, 데이터 세트 (126)의 개별 노드 (842)에 의해 표시되는 피처의 바로 좌측 (염색체 상의 하위 위치) 피처 (예를 들어, 구조 변이)에 대응하는 좌측 자식 노드 (848)에 링크를 갖는다. 각각의 개별 노드 (842)는, 데이터 세트 (126)의 개별 노드 (842)에 의해 표시되는 피처의 바로 우측 (염색체 상의 상위 위치) 피처 (예를 들어, 구조 변이)에 대응하는 우측 자식 노드 (850)에 링크를 갖는다. 각각의 개별 노드 (842)는, 좌측 위치에 의해 정렬된 개별 노드 (842)의 xmed (852)와 중첩되는 피처 (예를 들어, 구조 변이)를 개별적으로 표시하는 정렬된 노드 세트 (854)를 갖는다. 각각의 개별 노드 (842)는, 우측 위치에 의해 정렬된 개별 노드 (842)의 xmed (852)와 중첩되는 피처를 개별적으로 표시하는 정렬된 노드 세트 (844)를 갖는다. 일부 실시형태에서, 정렬된 세트 (844) 및 (854)는 어레이 또는 링크 목록에 의해 노드 (840)에 표시된다. 각각의 개별 노드 (840)는 명칭 (846)을 추가로 포함하며, 이는 상기 개별 노드 (840)에 대응하는 특성 (예를 들어, 구조 변이)의 정보 (820)를 포함하는 기록 (810)에 트랙 데이터 (808)의 오프셋이다.
도 8에 도시된 바와 같이, 일부 실시형태에서, 구조 변이 데이터 세트 트랙 (330) 내의 각각의 염색체에 대한 별도의 인터벌 트리 (840)가 존재한다. 이러한 인터벌 트리는 유리하게도 표적 게놈의 사용자 지정 영역에 속하는 모든 기록 (810)을 식별하는 빠른 방법을 제공한다. 구조 변이 데이터 세트 트랙 (330)의 일부의 예가 도 9에 제시된다. 도 9에서, 도 8의 데이터 구조에 대응하는 예시적인 엘리먼트가 도시된다.
도 3을 참조하면, 일부 실시형태에서, 시놉시스 (308)는 표적 데이터 세트 (342)에 대한 인덱스 (332)를 추가로 포함한다. 표적 데이터 세트 (342)는, 핵산 서열 분석 데이터 세트에서 서열 분석을 위해 선택된 샘플의 적어도 하나의 표적 핵산의 영역을 포함한다. 일부 실시형태에서, 인덱스 (332) 및 표적 데이터 세트 (342)는 블로킹된 JSON 인덱스에 저장된다. 블로킹된 JSON 인덱스에는 시놉시스 섹션 (인덱스 (332))의 단일 JSON 오브젝트와 데이터 섹션 (표적 데이터 세트 (342))의 다중 JSON 오브젝트가 포함된다. 인덱스 (332)는 특정 쿼리를 수행하기 위해, 어느 데이터 구성요소가 판독되어야 하는지를 계산하는데 사용된다. 일부 실시형태에서, 인덱스 (332)는 염색체에 의해 분리된다. 각각의 염색체에 대해, 인덱스 (332)는, 그 범위에 대한 특정 데이터가 표적 데이터 세트에 나타날 수 있는 오프셋을 염색체 상의 범위와 연관시키는 어레이 (기록) (334)를 저장한다. 일부 실시형태에서, 표적 데이터 세트 (342)는 복수의 독립적인 어레이를 포함한다. 각각의 어레이는 게놈의 하나의 인접 범위에 대한 모든 범위 (및 관련 데이터)를 포함한다. 표적 데이터 세트 (342)의 각각의 어레이는 인덱스 (332)의 단일 어레이 (엔트리) (334)에 대응한다. 일부 실시형태에서, 표적 데이터 세트의 각각의 어레이는 약 1,000개의 엔트리를 포함하도록 크기가 정해진다. 특정 범위에서 다중 "청크"가 중첩될 수 있으므로, 동일한 데이터가 다중 연속 어레이에 작성될 수 있다. 도 3을 참조하면, 일부 실시형태에서, 시놉시스 (308)는 단편 데이터 세트 (344)에 대한 인덱스 (336)를 추가로 포함한다. 단편 데이터 세트 (344)는 핵산 서열 분석 데이터 세트 내의 모든 단편의 길이, 위치, 바코드 및 단계를 포함한다. 단편은 전술한 바와 같이 단일 분할의 핵산이다. 일부 실시형태에서, 인덱스 (336) 및 단편 데이터 세트 (344)는 블로킹된 JSON 인덱스에 저장된다. 블로킹된 JSON 인덱스에는 시놉시스 섹션 (인덱스 (336))의 단일 JSON 오브젝트와 데이터 섹션 (단편 데이터 세트 (344))의 다중 JSON 오브젝트가 포함된다. 인덱스 (336)는 특정 쿼리를 수행하기 위해, 어느 데이터 구성요소가 판독되어야 하는지를 계산하는 데 사용된다. 일부 실시형태에서, 인덱스 (336)는 염색체에 의해 분리된다. 각각의 염색체에 대해, 인덱스 (336)는, 그 범위의 특정 데이터가 단편 데이터 세트 (344)에 나타날 수 있는 오프셋을 염색체 상의 범위와 연관시키는 어레이 (338)를 저장한다. 단편 데이터 세트 (344)의 데이터 청크의 예는 하기와 같다:
Figure pct00002
따라서, 전술한 바와 같이, 본 발명에 개시된 핵산 서열 분석 데이터 세트 (126)는, 2차적 값만을 갖는 데이터와 함께 별도의 파일에 통상적으로 나타나는 여러 형태의 데이터를 조합하는 스트림라인 (streamlined) 파일 포맷을 제공한다. 유리하게는, 핵산 서열 분석 데이터 세트 (126) 파일 포맷은 자체 포함되어 있고, 하플로타입 시각화 툴 (148)의 피처를 지원하는데 필요한 모든 데이터를 갖는다.
도 12 내지 도 30은 핵산 서열 데이터 세트 (126)를 판독하는 하플로타입 시각화 툴 (148)의 일 실시형태를 도시한다. 일부 실시형태에서, 하플로타입 시각화 툴 (148)은 변이 유도 하플로타입 인식 게놈 브라우저이다. 이러한 뷰(view)를 생성하기 위해, 하플로타입 시각화 툴 (148)은 스크롤링 및 줌될 수 있는 디스플레이를 위한 단일 통합 핵산 서열 분석 데이터 세트 (126)로 트랙으로서 다수 소스의 데이터를 중첩시킨다. 일부 실시형태에서, 저장되는 트랙은 위상 조정 변이 호출, 단계 블록, 유전자, 엑손, 구조 변이 브레이크 포인트 및 판독 횟수 (커버리지)를 트랙으로 포함한다. 이러한 정보가 저장되는 방법에 대한 하나의 이러한 실시형태가 도 3에 도시되고, 또한 상기에서 기술되어 있다. 유리하게는, 핵산 서열 분석 세트 내의 개별 정보가 단일 디스플레이에 표시될 수 있다. 하플로타입 시각화 툴 (148)은 위상 조정 정보를 보여줄 수 있는 능력에 의해 다른 게놈 브라우저와 구별된다. 도 12 및 도 13을 참조하면, 도 12 및 도 13에 도시된 서머리 모듈로부터, 사용자는 유리하게는, 추가 분석을 위한 핵산 서열 분석 데이터 세트의 영역을 선택하기 위해, 검색 프롬프트 (1250)를 사용할 수 있다. 일부 실시형태에서, 검색 프롬프트 (1250)를 통해, 하플로타입 시각화 툴 (148)은 chr1:1000000 (염색체 1의 첫 번째 백만개의 뉴클레오티드 선택), chr1:1000000-2000000 (염색체 1의 두 번째 백만개의 뉴클레오티드 선택), BRCA1 및 BRCA2 (BRCA1 및 BRCA2 선택) 및 chr1:1000000-2000000, chr2:5000000-6000000 (염색체 1의 두 번째 백만개의 뉴클레오티드 및 염색체 2의 5번째 백만개의 뉴클레오티드 선택)과 같은 광범위 유효 검색 신텍스 (valid search syntaxe)를 지원한다. 일부 실시형태에서, 사용자는 유전자의 기호 명칭을 제공하고, 하플로타입 시각화 툴 (148)은, 기호 명칭을 게놈 좌표로 변환하는 하나 이상의 조회 표를 사용하여, 이 기호 명칭을 적절한 게놈 좌표로 변환한다. 유리하게는, 사용자는 절대 좌표 범위와 유전자 명칭의 믹스를 단일 검색으로 제공할 수 있다. 일부 실시형태에서, 사용자는 복수의 좌위를 포함하는 단일 검색 쿼리를 제공한다. 이러한 쿼리에 반응하여, 하플로타입 시각화 툴 (148)은 다수의 좌위를 파싱하고, 각각의 이러한 쿼리에 대한 결과를 제공한다. 일부 실시형태에서, 사용자는, X1:N1-N2인 신텍스의 검색 쿼리 (search query)를 제공하며, 여기서, X1은 선택된 제1 염색체 또는 선택된 제1 콘틱 서열의 주체이며, N1은 제1 염색체 또는 선택된 제1 콘틱 서열 내의 선택된 시작 위치이고, N2는 제1 염색체 또는 선택된 제1 콘틱 서열 내의 선택된 종결 위치이다. 이 문맥에서 사용된 용어 "콘틱 (contig)"는, 염색체 또는 불완전하게 어셈블리된 염색체 부분이 아닌 단리된 관심 대상 분자에 대응할 수 있는 참조 게놈의 "콘틱"를 의미한다. 일부 실시형태에서, 사용자는 신텍스 X1:N1-N2의 검색 쿼리를 제공하며, 여기서, X1은 선택된 제1 염색체 또는 선택된 제1 콘틱 서열 내의 주체이며, N1은 제1 염색체 또는 선택된 제1 콘틱 서열 내의 선택된 시작 위치이고, N2는 제1 염색체 또는 선택된 제1 콘틱 서열 내의 선택된 종결 위치이다. 일부 실시형태에서, 사용자는 신텍스 X1:N1의 검색 쿼리를 제공하며, 여기서, X1은 선택된 제1 염색체 또는 선택된 제1 콘틱 서열의 주체이며, N1은 제1 염색체 또는 선택된 제1 콘틱 서열의 원점에서 시작되는 뉴클레오티드의 수이다.
일부 실시형태에서, 사용자는 신텍스 Y1, Y2, …, YN의 검색 쿼리를 제공하며, 여기서, Y1, Y2, …, YN에서 각각의 Yi는 선택된 유전자의 영숫자 식별 (alphanumeric identification), 염색체 영역의 선택, 또는 콘틱 서열의 영역의 선택이다. 일부 이러한 실시형태에서, Y1, Y2, …, YN에서 첫 번째 Yi는 신텍스 X1:N1-N2를 가지는 제1 염색체 또는 제1 콘틱 서열의 주체이고, 여기서, X1은 제1 염색체 또는 제1 콘틱 서열의 주체이며, N1은 제1 염색체 또는 제1 콘틱 서열 내의 선택된 시작 위치이고, N2는 제1 염색체 또는 제1 콘틱 서열 내의 선택된 종결 위치이며, Y1, Y2, …, YN에서 제2 Yi는 선택된 유전자의 영숫자 식별이다. 기타 이러한 실시형태에서, Y1, Y2, …, YN에서 첫 번째 Yi는 신텍스 X1:N1-N2를 가지는 제1 염색체 또는 제1 콘틱 서열의 주체이고, 여기서, X1은 제1 염색체 또는 제1 콘틱 서열의 주체이며, N1은 제1 염색체 또는 제1 콘틱 서열 내의 선택된 시작 위치이고, N2는 제1 염색체 또는 제1 콘틱 서열 내의 선택된 종결 위치이며, Y1, Y2, …, YN에서 제2 Yi는 선택된 유전자의 영숫자 식별이다. 일부 실시형태에서, 유전자의 영숫자 엔트리 (alphanumeric entry)를 게놈 좌표와 일치시키는 하나 이상의 조회 표에의 상기 요청의 비교에 의해, 인간의 개입 없이, 상기 요청은 게놈 좌표로 변환된다. 일부 실시형태에서, 상기 요청은 하나 이상의 유전자 명칭, 하나 이상의 게놈 좌표, 또는 이들의 조합을 포함한다.
유리하게는, 하플로타입 시각화 툴 (148)은 다양한 상이한 시스템 토폴로지로 인보크될 수 있다. 예를 들어, 도 31을 참조하면, 일부 실시형태에서, 하플로타입 시각화 툴 (148)은 클라이언트 컴퓨터 (3102) 상에서 작동하고, 네트워크 연결을 통해 원격으로 핵산 서열 데이터 세트에 액세스한다. 예를 들어, 도 31을 참조하면, 일부 실시형태에서, 하플로타입 시각화 툴 (148)은 네트워크 연결 (3106)을 통해 구조 변이 및 위상 조정 시스템 (100)과 통신하는 클라이언트 컴퓨터 시스템 (3102) 상에 존재한다. 본 발명의 이러한 일 실시형태는 원격 클라이언트 컴퓨터 (3102)에 대한 네트워크 연결을 통해 구조 변이 또는 위상 조정 정보 (3100)를 제공하는 시스템 (3100)을 제공한다. 도 1 및 도 32를 참조하면, 시스템 (3100)은 하나 이상의 마이크로프로세서 (102), 영구 메모리 (예를 들어, 하드 드라이브) 및 비 영구 메모리 (예를 들어, 랜덤 액세스 메모리)를 갖는 서버 (100)를 포함한다. 당업자는 영구 메모리가, 시스템 (100)의 전원이 꺼진 경우에도, 정보를 저장하는 메모리인 반면, 비 영구 메모리는 시스템 (100)의 전원이 꺼진 경우, 정보를 저장할 수 없다는 것을 이해할 것이다. 또한, 당업자는 영구 메모리에 저장된 데이터의 액세스 시간이 비 영구 메모리에 저장된 데이터의 액세스 시간보다 느리다는 것을 알 수 있을 것이다. 또한, 비 영구 메모리는 영구 메모리보다 비싸다. 이와 같이, 개시된 대용량 핵산 데이터 세트 (126)는 전형적으로 영구 메모리의 저장으로 투입된다. 일부 실시형태에서, 핵산 서열 분석 데이터 세트는 1 기가바이트 이상, 5 기가바이트 이상 또는 10 기가바이트 이상이다.
일부 실시형태에서, 도 1에서 메모리 (112)로 총칭되는 영구 메모리 및 비 영구 메모리는 하나 이상의 핵산 서열 데이터 세트 (126)를 저장한다. 하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트 (126)는 복수의 샘플 중 개별 샘플의 적어도 하나의 표적 핵산에 대응한다. 개별 표본은 한 종의 게놈과 관련된다. 도 3을 참조하면, 상기 개별 핵산 서열 분석 데이터 세트 (126)는 (i) 헤더 (302), (ii) 시놉시스 (308), 및 (iii) 데이터 섹션 (340)을 포함한다.
데이터 섹션 (340)은 복수의 서열 분석 판독을 포함하고, 데이터 세트 (126)의 가장 큰 구성요소이다. 복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독은 개별 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 개별 서열 분석 판독을 위한 개별 식별자를 인코딩하는 제2 부분을 포함한다. 각각의 개별 식별자는 적어도 하나의 표적 핵산의 서열과 무관하다. 복수의 서열 분석 판독은 복수의 식별자를 집합적으로 포함한다.
영구 메모리 및 비 영구 메모리는 원격 클라이언트 컴퓨터에 설치하기 위해, 클라이언트에 하플로타입 시각화 툴 (148)을 제공하기 위해, 하나 이상의 마이크로프로세서 (102)를 사용하는 하나 이상의 프로그램을 추가로 집합적으로 저장한다. 다음으로, 하나 이상의 데이터 세트 중 제1 데이터 세트 (126)를 사용하여, 구조 변이 또는 위상 조정 정보를 얻기 위해, 네트워크 연결을 통해 클라이언트로부터 송신된 요청이 수신된다. 요청 수신에 반응하여, 요청은, 비 영구 메모리에 아직 로딩되지 않은 경우, 영구 메모리에 데이터 섹션 (340)을 유지하면서, 제1 데이터 세트의 헤더 (302) 및 시놉시스 (308)를 비 영구 메모리에 로딩함으로써, 자동 필터링된다. 이러한 방식으로, 비 영구 메모리의 양이 최소화된다. 요청은 제1 데이터 세트의 시놉시스 (308)와 비교되어, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별한다. 특히, 후술하는 바와 같이, 시놉시스 (308)의 다양한 구성요소는 데이터 (340)의 어느 부분이 요청을 수행하는 데 필요한지를 식별하는데 사용된다. 일부 실시형태에서, 요청은 특정 데이터 세트 (126) 및 게놈의 영역을 식별한다. 일부 실시형태에서, 요청은 특정 데이터 세트 (126) 및 하나 이상의 유전자를 식별한다. 일부 실시형태에서, 요청은 특정 데이터 세트 (126) 및 하나 이상의 엑손을 식별한다. 일단 요청을 수행하는 데 필요한 데이터 섹션의 부분이 식별되면, 비 영구 메모리에 로딩되고, 요청된 구조 변이 또는 위상 조정 정보는 제1 데이터 세트를 사용하여, 클라이언트 컴퓨터 (3102) 상에 디스플레이되도록 포맷된다. 그 후, 이렇게 포맷된 구조 변이 또는 위상 조정 정보는 클라이언트 장치상에 디스플레이하기 위해, 네트워크 연결 (3106)을 통해 클라이언트 장치로 송신된다. 일부 실시형태에서, 도 1에 개시된 바와 같이, 클라이언트 컴퓨터는 사용되지 않고, 하플로타입 시각화 툴은 구조 변이 및 위상 조정 시각화 시스템 (100) 상에 상주한다.
핵산 서열 데이터 세트 (126)를 분리시키는 이점이 설명되었으며, 지금부터, 하플로타입 시각화 툴 (148)의 그래픽 사용자 인터페이스 피처 및 그의 구성요소 모듈 (예를 들어, 서머리 모듈 (150), 단계 시각화 모듈 (152), 구조 변이 모듈 (154) 등)에 대해 더욱 상세히 설명한다. 도 12를 참조하면, 사용자가 패널 (1250)에 쿼리를 입력하면, 도 14 내지 도 16에 도시된 바와 같이, 단계 시각화 모듈 (152)이 쿼리 단계를 보기 위해, 사용될 수 있다. 예를 들어, 쿼리 chr1+10000000-chr1+10500000 (or chr1:10000000-chr1:10500000) 입력시, 선택 영역이 도 14a에 도시된 게놈 브라우저 (단계 시각화 모듈 (152))에 도시되어 있다. 여기서, 게놈의 선택 영역은 유리하게는, 선택 영역의 실제 물리적 구조를 반영하는 방식으로 제시된다: 두 개의 게놈 카피가 존재하며, 이는, 2개의 트랙, 각각의 하플로타입-하플로타입 1 (1402) 및 하플로타입 2 (1404) 중 하나, 및 부모 하플로타입이 측정되지 않은 중간 지역 (1406)을 보여줌으로써, 반영된다. 소량의 삽입 및 결실은 단계 조정 알고리즘을 기반으로 각각의 하플로타입에 매핑된다. 제1 하플로타입으로 위상 조정된 선택 영역 부분은 제1 하플로타입 1 영역 (1402)의 대응 부분에 바로서 제시되고, 제2 하플로타입으로 위상 조정된 선택 영역 부분은 제2 하플로타입 1 영역 (1404)의 대응 부분에서 바로서 제시되며, 하플로타입으로 위상 조정되지 않은 선택 영역 부분은 중간 지역 (1406)에서 바로서 제시된다.
하플로타입 보기에서, 선택 영역의 위상 조정 부분은 흑색 직사각형 박스 (1440) 내에 도식된다. 도 14a에 도시된 전체 영역은 단일 단계 블록 (1440-1)에 도시된다. 이것은 또한, 도 14B, 도 15 및 도 16의 경우 및 도 16의 염색체 1 및 2의 경우에도 적용된다. 그러나, 도 16의 염색체 4의 디스플레이 영역은, 각각 흑색 직사각형 박스로 표시된 5개의 상이한 단계 블록을 포함한다. 이들 박스는 위상 조정 알고리즘에 의해 측정된 바와 같은 염색체의 인접한 위상 조정 영역인 위상 조정 블록을 구분한다.
하플로타입 1 (1402), 하플로타입 2 (1404) 및 중간 지역 (1406)의 수직 바는 단일 뉴클레오티드 다형, 소량 삽입 및 결실을 표시한다. 일부 실시형태에서, 이들 바는 참조 유전자형을 표시하는 제1 컬러 (예를 들어, 회색) 및 대체 유전자형을 표시하는 제2 컬러 (예를 들어, 녹색)으로 컬러 코딩된다.
동형 SNP (homozygous SNP)는, 동형 변이가 위상 조정될 수 없기 때문에, 2개의 하플로타입 트랙과 중간 지역 (위상 조정되지 않은 트랙)에 걸쳐있는 수직 바를 가질 것이다. 이것은 도 26에 엘리먼트 (2602)로 도시된다.
위상 조정된 이형 SNP (Heterozygous SNP)는 하플로타입 트랙 (1402/1404) 상에 위치된다. 이는 도 26에 엘리먼트 (2604)로 도시된다.
이형 SNP는, 위상 조정되지 않은 경우, 하플로타입 트랙 (1402/1404) 사이에 끼여 있는 중간 지역 (1405) (위상 조정되지 않은 트랙)에 위치된다. 이것은 도 26에 엘리먼트 (2606)로 도시된다.
마지막으로, 두 개의 위상 조정된 단일 뉴클레오티드 다형이 대체 유전자형인 경우, 제2 컬러 (예를 들어, 녹색)의 2개의 수직 바가 각각의 트랙에 대해 하나씩 하플로타입 트랙 (1402/1404)에 디스플레이될 것이다. 이것은 도 26에 엘리먼트 (2608)로 도시된다.
하플로타입 트랙의 도 27의 영역 (2710)과 같은 어두운 영역은 높은 SNP 밀도를 갖는 지역을 표시한다. 영역 (2710)을 클릭하면, 영역 (2710) 내에 별도의 SNP로 줌된다. 또한, 일부 실시형태에서, 상기와 같이 실행되는 경우, 사용자가 SNP 그룹을 줌할 수 있게 하는 링크를 갖는 팝업 박스 (2712)가 나타날 것이다. 일반적으로 박스 (2712)는 위치, 표준 유전자형, 샘플의 하플로타입 1 및 2의 관찰 유전자형, SNP가 발견된 유전자 (유전자와 관련된 경우), 위상 조정 특질 및 2개의 관찰 유전자형의 대립 인자 개수와 같은 SNP에 대한 추가 정보를 제공한다. 박스 (2712)는 박스 코너의 X를 클릭하여 닫을 수 있다. 일부 실시형태에서, SNP에 대해 제공된 위상 조정 특질은 SNP의 위상 조정 특질을 정량화하는데 사용되는 Phred- 형 등급이다.
도 28A를 참조하면, 사용자가 변이에 대한 대립 인자들 중 하나를 클릭하면, 직사각형 박스 (예컨대, 직사각형 박스 (2802))는 그 변이를 강조 표시한다. 강조 표시된 변이 옆에 디스플레이된 숫자 2804는 해당 변이에 대해 선택된 대립 인자와 연관된 바코드의 수를 나타낸다. 예를 들어, 도 28A에서, 그 변이에 대해 선택된 대립 인자와 연관된 바코드의 수가 31임을 나타내는 숫자 "31"이 박스 (2802) 옆에 디스플레이된다. 또한, 박스 (2802)에 인접한 변이의 상단 및/또는 하단에 디스플레이된 숫자가 존재한다. 각각의 이러한 숫자는 선택된 대립 인자와 인접 변이의 두 대립 인자 중 하나의 대립 인자 사이에 중첩하는 바코드의 수를 표시한다. 제1 컬러 (예를 들어, 흑색)로 디스플레이된 숫자는 변이 (2802)의 위상 조정 호출과 일치하지만, 제2 컬러 (예를 들어, 적색)로 디스플레이된 숫자는 호출과 일치하지 않는다. 이웃 변이 사이에 존재하는 바코드 중첩이 클수록, 변이의 위상 조정에 대한 신뢰가 더욱 커진다. 예로서, 도 28A의 Chr7: 117,216,030의 참조 호출에 대해, 하플로타입 1 패널 (1402)의 상단의 31 (2804)은, 그 위치에 참조 대립 인자와 관련된 31개의 바코드가 존재한다는 것을 나타낸다. 도 28b를 참조하면, 동일한 위치의 변이 SNV (2802)가 선택되면, 13개의 바코드가 위상 조정을 지원하고, 표지된 인접 SNV는 도 28b에 도시된 바와 같이 변한다.
일부 실시형태에서, 게놈 브라우저는, 염색체 맵 (1424) 및 디스플레이되어 있는 염색체상의 위치 (1426)를 추가로 제공한다. 도 14a를 참조하면, 브라우저의 상단에서, 어두운 직사각형으로 표시되는 동심원을 갖는 소형 염색체 (1424)는 밝은 직사각형으로 표시된 염색체 밴드로 제시된다. 삼각형 (1426)은 현재 줌의 위치를 나타내며, 나머지 염색체에 대하여 검색 바 (1250)를 사용하여, 선택된 영역의 전체 모습을 사용자에게 제공한다.
개시된 게놈 브라우저는 디스플레이된 게놈 영역에 존재하는 각각의 유전자의 그래픽 표시 (1408)을 추가로 제공한다. 이 유전자 트랙 (1408)은 주석이 달린 참조 유전자를 디스플레이한다. 검색 바 (1250)를 사용하여, 관심 대상 유전자를 입력함으로써, 복수의 유전자가 표시될 수 있다. 각각의 유전자의 방향은 화살표로 표시된다. 도 14a에 나타내지는 않았지만, 엑손은 어두운 색조로 강조 표시된다. 이러한 피처는 그림 26-28에 도시된다. 일부 실시형태에서, 중첩 유전자는 유전자 트랙 (1408)에서 최대 3개의 트랙 상에 표시되지만, 다수의 유전자가 검색 바를 사용하여, 표시될 수 있다.
개시된 게놈 브라우저는 표시된 게놈 영역에 존재하는 엑손 (1410)의 그래픽 표시를 추가로 제공한다.
개시된 게놈 브라우저는 디스플레이된 게놈 영역 내의 커버리지에 대한 커버리지 트랙 (1412)을 추가로 제공한다. 정렬된 서열 판독은 커버리지 트랙에 표시된다. 커버리지 트랙 (1412) 내의 각각의 수직 바는 바 아래의 게놈 지역에 대한 일반 커버리지-당-염기를 나타낸다. 높이는 최대 높이가 중간 커버리지의 4 배가 되도록 조정된다. 일부 실시형태에서, 사용자가 커버리지 트랙 (1412) 부분을 클릭하면, 염기 쌍당 평균 판독 및 총 판독 수는 커버리지 트랙 부분에 대한 커버리지 세부 정보 팝업 블랙 박스에 디스플레이된다.
개시된 게놈 브라우저는 디스플레이된 영역의 브레이크 포인트 트랙 (1414)을 추가로 제공한다. 염색체 간 전좌, 유전자 융합, 역위 및 결실을 포함하는 구조 변이는 브레이크 포인트 트랙 (1414)에 강조 표시된다. 구조 변이는 디스플레이에서 임의의 숫자가 부여된다. 구조 변이 호출은 브레이크 포인트 트랙 (1414)에서 제1 컬러 (예를 들어, 주황색)로 표시되고, 구조 변이 후보는 브레이크 포인트 트랙 (1414)에서 제2 컬러 (예를 들어, 회색)로 지정된다. 구조 변이 브레이크 포인트 쌍을 디스플레이하기 위해, 사용자는 도 29에 도시된 바와 같이, 유전자에 대해 디스플레이된 구조 변이를 클릭할 수 있다. 구조 변이는 세부 정보 박스 (2902)에 표시된다. 도 30에 도시된 바와 같이, 세부 정보 박스 (2902)에서 "이 브레이크 포인트 상의 줌" (2094)을 선택함으로써, 브레이크 포인트의 다른 쪽이 브레이크 포인트로 줌된 추가의 하플로타입 트랙으로 표시된다.
유리하게는, 도 14A에 도시된 바와 같이, 개시된 게놈 브라우저의 디스플레이 모드의 일부 실시형태에 도시되지 않은 것은 기본 호출, 에러율, 특정 판독 및 정렬이다. 오히려, 개시된 게놈 브라우저는 선택 영역의 진행 사항에 대한 더욱 개념적인 표시를 제공하고, 이 정보를 이해하기 쉬운 방식으로 제공하기 위한 상태로 상위 수준에서 작동된다. 이러한 이유로, 개시된 브라우저의 일부 실시형태는 도 14A에 도시된 디스플레이 모드와 같은 디스플레이 모드를 제공하며, 여기서 모든 서열 판독 데이터가 도시되지는 않는다.
도 14A를 참조하면, 줌 어포던스 (1420)는 검색 바 (1250)에 의해 식별된 영역의 서브 세트로 줌 인하는데 사용될 수 있고, 줌 어포던스 (1422)는 상기 영역을 줌 아웃하는데 사용될 수 있다. 또한, 사용자는 특정 유전자를 표시하는 영역 (1408)의 아이콘을 클릭함으로써, 특정 유전자를 줌 인할 수 있다.
일부 실시형태에서, 개시된 게놈 브라우저의 검색 바 (1250)는 지능형 자동 완성 피처를 제공한다. 예를 들어, 사용자가 검색 바 (1250)에서 유전자 명을 타이핑하기 시작하면, 게놈 브라우저는 유전자에 대해 자동 완성된다. 일부 실시형태에서, 게놈 브라우저는, 유전자 트랙의 유전자 명과 같은 핵산 서열 분석 데이터 세트에 저장된 게놈 정보에 대해, 사용자가 입력한 부분적 검색 쿼리를 비교함으로써, 이를 수행한다. 유리하게는, 이러한 실시형태에서 검색 바 (1250)는 유전자 명에 대해 자동 완성된다. 예를 들어, 도 17을 참조하면, 사용자가 "atp"라는 표시를 검색 바에 입력하면, 핵산 서열 데이터 세트 (126) 내에 나타나는 여러 가능한 합치 정보 (matche) (1702-1 내지 1702-10)가 디스플레이된다.
도 12 내지 도 30에 도시된 바와 같이, 하플로타입 시각화 툴 (148)은 핵산 서열 데이터 세트에 대한 구조 변이 또는 위상 조정 (예를 들어, 하플로타입) 정보를 제공한다.
특히, 도 12 및 도 13을 참조하면, 하플로타입 시각화 툴 (148)의 위상 조정/하플로타입 토글 (1252)의 선택은 도 14-17 및 도 26-30에 도시된 바와 같이 단계 시각화 모듈 (152)을 인보크한다. 도 14-17 및 도 26-30에 도시된 바와 같이, 하플로타입에 대한 시각적으로 분리된 트랙뿐만 아니라 일종의 하플로타입에 할당될 수 없는 변이에 대한 가상 트랙이 제공된다. 위상 조정 변이는 하기와 같은 많은 종류의 분류를 가질 수 있다: 위상조정되지 않음(unphased), 동형(homozygous), 및/또는 참조-판독-없는-이형(heterozygous-with-no-reference-reads), 참조-판독-있는-이형(heterozygous-with-reference-reads). 하플로타입 시각화 툴 (148)은, 사용자가 이들을 빠르게 구별할 수 있도록 하기 위해, 이러한 상이한 구성에는 시각적으로 구별되는 스타일을 적용한다. 하플로타입 시각화 툴 (148)은 변이를 특정 단계 블록에 할당하는데 사용되는 바코드 근거의 양을 디스플레이할 수 있다. 일부 실시형태에서, 사용자가 변이를 "클릭"하면, 모든 다른 시각적 변이에 선택된 변이와 중첩되는 바코드의 개수가 부여된다. 호출된 하플로타입과 모순되는 데이터가 강조 표시된다. 또한, 하플로타입 시각화 툴 (148)은 사용자가 복수의 영역을 동시에 볼 수 있게 한다. 이것은 화면의 다른 지역에 별도의 하플로타입으로 디스플레이된다. 이 모드에서 "개수"는 디스플레이되는 각각의 영역 간에 공유되어, 사용자가 게놈의 이격된 영역 사이의 바코드 중첩을 볼 수 있게 한다.
다시 도 12 및 도 13을 참조하면, 하플로타입 시각화 툴 (148)의 구조 변이 토글 (1254)의 선택은 도 23-25 및 도 33-34에 도시된 바와 같이, 구조 변이 모듈 (154)을 인보크한다. 구조 변이 모듈 (154)에 의해 제공된 매트릭스 보기는 후보 구조 변이를 시각화하는 방법을 포함한다. 시각화는 게놈 (시험 핵산 데이터)의 2개의 (가능하면 중첩되는) 영역을 청크 당 100 내지 10,000 염기 쌍으로 정량화하여 작업한다. 모든 청크 쌍의 판독 사이의 공유 바코드 수가 계산된다. 도 23-25 및 도 33-34에서 도시된 바와 같이, 생성된 매트릭스 (한 영역의 청크는 행이고, 다른 영역은 열임)은 2차원 이미지 (히트 맵)로 디스플레이될 수 있다. 일부 실시형태에서, 픽셀의 컬러는 각각의 영역의 특정 청크 (예를 들어, 창) 사이의 구별되는 중첩 바코드의 수에 대응한다. 예를 들어, 하기와 같은 바코드에 의해, 연속된 청크가 존재하는 두 영역을 상정해 보자:
Figure pct00004
하기의 표 1에서 설명된 바와 같이, 매트릭스에 배치될 수 있는 영역 (1)과 영역 (2) 사이에 9개의 쌍의 청크가 존재한다.
Figure pct00005
각 셀의 두 세트의 바코드 사이의 중첩을 계산하면 표 2에 제시된 값이 산출된다.
Figure pct00006
표 2는 구조 변이 모듈 (154)에 의해 사용자에 낮은 바코드 연관성 및 높은 바코드 연관성의 지역을 효과적으로 보여주는 히트 맵으로서, 디스플레이될 수 있다. 일부 실시형태에서, 구조 변이 모듈 (154)은, 공지의 관심 대상 위치에 대한 데이터의 정렬을 용이하게 하기 위해, 매트릭스와 중첩된 유전자 및 엑손 경계와 같은 추가 정보를 제공한다. 일부 실시형태에서, 구조 변이 모듈 (154)은 또한 매트릭스의 텍스트 카피가 다른 컴퓨터 프로그램에 의한 분석을 위해, 다운로드되도록 한다. 일부 실시형태에서, 사용자는 실시간으로 스크롤링 또는 줌함으로써 구조 변이 모듈 (154)에서 시각화된 게놈의 영역을 조정할 수 있다. 일부 실시형태에서, 사용자는 게놈의 매우 작거나 매우 넓은 영역을 볼 때, 에일리어스 (aliases) 또는 과부하를 피하기 위해, 해상도 (청크 크기/창 크기)를 조정할 수 있다.
본 발명의 일부 실시형태는 핵산 서열 분석 데이터 (예를 들어, 핵산 서열 분석 데이터 세트 (126)로부터 얻어진 정보)를 보기 위한 시스템 (100)을 제공한다. 시스템 (100)은 하나 이상의 마이크로프로세서 (102) 및 메모리 (112)를 포함한다. 메모리는 샘플의 적어도 하나의 표적 핵산에 대응하는 핵산 서열 데이터 세트 (126)를 저장한다. 메모리는 하나 이상의 마이크로프로세서를 사용하여, 샘플로부터의 복수의 서열 분석 판독을 포함하는 핵산 서열 분석 데이터 세트를 얻는 하나 이상의 프로그램 (예를 들어, 하플로타입 시각화 툴 (148))을 저장한다. 그 후, 핵산 서열 분석 데이터 세트에 의해 표시되는 게놈 영역을 지정하는 요청을 (예를 들어, 도 12 및 도 13에 도시된 하플로타입 시각화 툴 (148)의 검색 바 (1250)를 통해) 사용자로부터 얻는다. 유리하게는, 이러한 요청은 본 발명에 개시된 신텍스들 중 임의의 것일 수 있다. 일부 실시형태에서, 요청의 게놈 영역은 전체 염색체이다. 일부 실시형태에서, 요청의 게놈 영역은 100 내지 10000개의 염기의 염색체이다. 일부 실시형태에서, 요청의 게놈 영역은 염색체의 10 내지 1 × 105개의 염기의 염색체이다. 일부 실시형태에서, 요청의 게놈 영역은 10 내지 1 × 106개의 염기의 염색체이다. 일부 실시형태에서, 요청의 게놈 영역은 10 내지 1 × 107개의 염기의 염색체이다. 일부 실시형태에서, 상기 요청은 샘플의 게놈 내의 유전자에 대한 것이다. 요청을 얻은 것에 반응하여, 요청은 핵산 서열 분석 데이터 세트 (126)로부터 요청의 게놈 영역의 복수의 서열 분석 판독 (1048)을 얻음으로써 파싱된다. 다음으로, 스캔 창이 복수의 서열 분석 판독에 대해 실행되어, 복수의 창 중 각각의 개별 창이 요청에서 게놈 영역 중 다른 영역에 대응하고, 핵산 서열 분석 데이터 세트에서 게놈 영역 중 다른 영역의 각각의 서열 분석 판독의 각각의 식별자 (예를 들어, 바코드)의 주체를 포함하는 복수의 창이 생성된다. 또한, 예를 들어, 도 34를 참조하면, 복수의 창 중 가능한 각각의 창 쌍을 표시하는 2차원 히트 맵 (3312)이 디스플레이된다. 각각의 개별 창 쌍은 개별 창 쌍의 공통 식별자의 수에 기초한 컬러 도식으로부터 선택된 컬러로서 2차원 히트 맵으로 디스플레이된다. 창 크기는 사용자가 시각화되도록 요청한 게놈의 양에 의존할 것이라는 것이 이해될 것이다. 일부 실시형태에서, 사용자가 게놈의 작은 영역을 시각화하도록 요청한 경우, 더 작은 창 크기가 사용되며, 사용자가 게놈의 더 큰 영역을 시각화하도록 요청한 경우, 더 큰 창 크기가 사용된다.
도 33 및 도 34를 참조하면, 어포던스 (3302 및 3304)는 디스플레이된 정보를 명확하게 하는 고유 툴을 제공한다. 먼저, "숨겨진 예상 중첩" 어포던스 (3302)의 선택은 정상 상태에 있는 게놈으로부터 예상되는 바코드 중첩 신호를 발생시키며, 여기서 바코드는, 숨어 있을 것이므로, 서로 인접되어 있는 판독과 관련된다. 어포던스 (3302)가 선택되지 않은 도 33을 어포던스 (3302)가 선택된 도 34와 비교한다. 어포던스 (3302)가 선택되는 경우, 제공되는 보기는, 예상되지 않은 것으로서, 현재 서로 접촉되어 있는 게놈 부분을 강조하기 위한 것이다. 예를 들어, 이러한 보기는, 참조 게놈에 기초하여, 예상되지 않았으나, 갑자기 바코드가 현재 연관성을 나타내는 다른 것으로의 하나의 염색체의 전좌와 같은 구조 변이를 강조 표시한다. 이와 같이, 어포던스 (3302)는 정상 신호를 숨기고 예상치 못한 신호를 강조 표시하는 필터를 활성화시킨다. 다시 말해서, 개별 창 쌍의 공통 식별자의 수는, 표준 게놈 서열에 기초하여, 서로 근접할 것으로 예상되는 바코드로부터 발생하는 바코드 신호를 제거하기 위해, 다운 웨이팅 (down-weight)된다. 일부 실시형태에서, 어포던스 (3302)와 연관된 필터는, 서열 분석된 표적 핵산의 단편의 평균 길이 (예를 들어, 50kb)를 고려한다. 어포던스 (3302)가 활성화되면, 단편의 평균 길이의 이러한 임계 거리 내에 있는 바코드는 히트 맵에 기여하지 않는다. 일부 실시형태에서, 필터는, 표준 게놈에 대해 정렬된 핵산 서열 분석 데이터 세트 (126)에서 바코드의 전체 세트를 취함으로써 가능해진다. 그 후, 평균 게놈 길이보다 큰 간격을 나타내는 참조 게놈에 따른 영역만이 디스플레이된다. 이와 같이, 어포던스 (3302) 필터는 예상된 것을 필터링하도록 작용하고, 바코드 데이터와 참조 게놈 간의 차이를 강조 표시한다.
어포던스 (3304)를 참조하면, 각각의 개별 서열 판독 (1048)은, 개별 서열 판독이 정확하게 매핑될 확률을 표시하는 신뢰도로 표준 게놈 상의 위치에 매핑된다. 디폴트 (default)는, 오도된 정보가 디스플레이되지 않도록, 이러한 신뢰도가 엄격한 (상위) 임계치를 충족시키는 경우의 서열 판독의 데이터만을 보여주어야 한다. 그러나, 때때로 사용자는, 엄격한 임계 신뢰도를 충족시키지 않는 서열 판독 정보를 보고 싶어한다. 예를 들어, 신뢰 임계치를 기초로, 지나치게 많은 데이터가 필터링되면, 히트 맵에 비정상적인 아티팩트가 나타날 수 있다. 예를 들어, 히트 맵의 영역에는 데이터가 없는 것으로 나타난다. 실제로, 이러한 영역은 단지, 서열 판독 (1048)의 위치화에 대한 신뢰도가 낮은 영역일 수 있다 (예를 들어, 광범위한 반복을 나타내는 게놈의 영역). 실제로 데이터가 없는지를 측정하기 위해 (광범위한 구조 변이를 나타낼 수 있음), 어포던스 (3304)는 사용자가 엄격한 임계치를 제거하고 (또는, 낮추고), 낮은 신뢰도의 참조 게놈으로 매핑된 서열 판독 (1048)의 데이터 디스플레이를 허용하는 것을 가능하게 한다. 이러한 방식으로, 사용자는, 엄격한 임계치가 나타난 경우, 데이터가 누락된 부위에 구조 변이가 실제로 존재하는지 여부 또는 상기 게놈 영역이 단지, 서열 판독에 대한 신뢰도가 낮은 영역을 표시하는지 여부를 측정할 수 있다.
어포던스 (3304)와 관련된 전형적인 사용 사례 시나리오에서, 특질 임계치를 충족하지 않는 서열 판독 (1084)은 폐기되어, 하류 위상 조정 알고리즘 및 구조 변이 알고리즘에 사용되지 않는다. 이러한 서열 판독의 폐기 결과, 도 33 및 도 34에 도시된 히트 맵 도식에서 구조가 어떤 형태인지가 제시될 수 있다. 예를 들어, 맵의 일부 영역이 밝아 지거나, 일부 선이 도입되어, 실제 샘플에 신호 변화를 초래할 수 있는 임의의 가능성이 존재하는지에 대한 의문을 발생시킬 수 있다. 어포던스 (3304)를 선택함으로써, 폐기된 판독은, 도식에서 관찰된 아티팩트의 제거를 초래하는지 여부를 알기 위해, 특질 등급과 상관없이, 위상 조정 및/또는 구조 변이 알고리즘으로 다시 도입된다. 이러한 방식으로, 데이터의 아티팩트는, 어포던스 (3304)의 적용 전후로, 도식 영역이 누락된 경우, 관찰된 아티팩트가 개별 샘플의 적어도 하나의 표적 핵산의 아티팩트 (예를 들어, 구조 변이) 또는 서열 판독 (1048)의 데이터의 폐기로부터 발생되는 아티팩트를 표시하는지를 확인할 수 있도록, 티징 (teasing)될 수 있다.
도 34를 참조하면, 표적 핵산의 개별 영역 사이의 바코드 중첩의 정도는 (표적 핵산의 개별 영역에 국한된 서열 판독의) 중첩 바코드의 수에 의해, 컬러 스케일 (3406)로 표시된다. 따라서, 일부 실시형태에서, 컬러 도식의 각각의 특정 컬러가 특정 수의 중첩 바코드를 고유하게 표시하는 컬러 도식이 사용된다. 예를 들어, 표적 핵산의 제1 및 제2 섹션이 첫 번째 숫자의 공통 바코드를 갖는다면, 표적 핵산의 제1 및 제2 섹션의 조합을 표시하기 위해, 컬러 도식에서 첫 번째 숫자와 연련된 컬러가 사용된다. 도 34에 도시된 바와 같이, X 축 (3308) 및 Y 축 (3310)은 각각 표적 핵산을 표시하고, 따라서 표적 핵산 내의 표적 핵산의 제1 및 제2 섹션의 좌표는 2차원 그리드의 X, Y 위치를 정의하고, 첫 번째 숫자의 바코드 값과 연관된 컬러는, 컬러 도식에 따른 2차원 그리드의 X, Y 위치에 컬러를 부여하는데 사용된다. 일부 실시형태에서, 표적 핵산의 제1 및 제2 섹션이 공통의 바코드를 갖지 않는 경우, 컬러 도식은, 표적 핵산의 제1 및 제2 섹션의 조합을 표시하는 X, Y 위치에 사용된 컬러가 백색이라는 것을 나타낸다. 일부 실시형태에서, 표적 핵산의 제1 및 제2 섹션이 단지 몇 개의 바코드를 공통으로 가지는 경우 (예를 들어, 다양한 실시형태에서, 단지 하나의 바코드가 공통되거나, 단지 2개의 바코드가 공통되거나, 단지 3개의 바코드가 공통되거나, 단지 4개의 바코드가 공통되거나, 또는 단지 5개의 바코드가 공통되는 경우), 컬러 도식은, 표적 핵산의 제1 및 제2 섹션의 조합을 표시하는 X, Y 위치에 사용된 컬러가 회색이라는 것을 나타낸다. 즉, 이러한 실시형태에서, 컬러 도식의 제1 위치는 공유된 바코드가 없음을 의미하는 백색이고, 컬러 도식의 제2 위치는 공통 바코드 세트가 최소임을 의미하는 회색이다. 일부 실시형태에서, 컬러 도식에는, 공유된 서열 판독의 10개의 상이한 값에 대응하는 10개의 상이한 값이 존재한다. 일부 실시형태에서, 컬러 도식에는, 공유된 서열 판독의 11개의 상이한 값에 대응하는 11개의 상이한 값이 존재한다. 일부 실시형태에서, 컬러 도식에는, 공유된 서열 판독의 12개의 상이한 값에 대응하는 12개의 상이한 값이 존재한다. 일부 실시형태에서, 컬러 도식에는, 공유된 서열 판독의 13개의 상이한 값에 대응하는 13개의 상이한 값이 존재한다. 일부 실시형태에서, 컬러 도식에는, 공유된 서열 판독의 14개의 상이한 값에 대응하는 14개의 상이한 값이 존재한다. 일부 실시형태에서, 컬러 도식에는, 공유된 서열 판독의 15개의 상이한 값에 대응하는 15개의 상이한 값이 존재한다. 일부 실시형태에서, 컬러 도식에는, 공유된 서열 판독의 5개 내지 100개의 상이한 값에 대응하는 5개 내지 100개의 상이한 값이 존재한다.
도 34를 참조하면, 참조 게놈의 상이한 영역들이 보여질 수 있도록, 검색 필드 (1250)에 의해 초기 선택된 보기를 패닝 (panning) (병진 운동) 시키기 위해, 어포던스 (3308)가 사용될 수 있다. 도 34를 참조하면, 어포던스 (3310)는, 상이한 양의 표준 게놈을 볼 수 있도록 하기 위해, 검색 필드 (1250)에 의해 초기에 선택된 보기를 줌하는데 사용될 수 있다.
일부 실시형태에서, 하플로타입 시각화 툴 (148)에 의해 제공된 다른 보기 (예를 들어, 하플로타입/단계 (152), 구조 변이 (154) 및 판독 (156))는 모두 링크된다. 예를 들어, 사용자는 어포던스 (1252, 1254 및 1256)를 사용하여, 정보를 다시 입력하지 않고도, 대체 시각화를 사용하여, 동일한 데이터를 보기 위해, 하나의 보기에서 다른 것으로 조종할 수 있다. 예를 들어, 사용자는 구조 변이 모듈 (154)의 매트릭스 보기 및 단계 시각화 모듈 (152)의 하플로타입 보기 사이에서 토글할 수 있다.
"스마트 (smart)" 검색 어포던스 (1250)가 다양한 보기에서 사용된다. 도 17을 참조하면, 사용자가 검색 어포던스 (1250)를 타이핑함에 따라, 프로그램은 실제 유전자 명 또는 다른 형태의 염색체 위치를 갖는 일부 쿼리를 실시간으로 자동 완성하려고 시도할 것이다. 일부 실시형태에서, 사용자가 검색 어포던스 (1250)에 다른 캐릭터를 입력할 때마다, 검색 어포던스 (1250) 내의 일부 쿼리가 대상체 핵산 서열 분석 데이터 세트 (126)의 조회 표에 대해 쿼리된다. 일부 실시형태에서, 이 조회 표는 유전자 트랙 (320) 및/또는 엑손 트랙 (322)이다. 유리하게는, 일부 실시형태에서, 하플로타입 시각화 툴 (148)은 과거 사용자 쿼리의 이력을 유지한다. 따라서, 사용자가 새로운 쿼리를 입력하기 시작하면, 선택을 위해, 이전 쿼리에 대한 합치 정보 (또는, 부분적 합치 정보)가 또한 사용자에게 디스플레이된다. 이것은 일부 실시형태에서, 검색 바 (1250)에 의해 지원되는 복잡한 쿼리 신택스가 주어지는 경우, 특히 유용하다. 예를 들어, 상기에서 논의된 바와 같이, 사용자는 다양한 문장 부호로 쿼리를 분리함으로써, 한번에 복수의 영역을 쿼리할 수 있다. 사용자는 여러 포맷으로 직접 게놈 좌표를 입력할 수도 있다.
일부 실시형태에서, 시스템 (100)은 커스텀 파일 포맷 (예를 들어, 핵산 서열 분석 데이터 세트 (126)의 포맷)으로 디스플레이될 게놈 데이터를 저장한다. 이 파일은 참조 데이터, VCF 파일, BAM, 파일 및 구조 변이 파일을 입력으로 취하여 단일 출력 핵산 서열 분석 데이터 세트 (126)를 생성하는 "프리프로세서"에 의해 생성된다. 핵산 서열 분석 데이터 세트 (126)는 지정 데이터 세트를 디스플레이하는 데 필요한 모든 정보를 포함한다. 파일은 여러 섹션으로 구성되어 있다. 대략 25MB인 작은 시놉시스 섹션 (308) 및 훨씬 더 큰 데이터 섹션 (340) (100MB 내지 20GB). 이러한 섹션은 상기에서 설명한 바와 같이, 추가로 세분된다. 핵산 서열 분석 데이터 세트 (126)가 로딩되면, 이것은 인덱스 섹션을 메모리에 로딩한다. 시스템 (100)은 그 데이터를 이용하여, 필요할 때 메모리에 로딩할 데이터 섹션의 적절한 범위를 찾는다. 변이 호출 및 판독 정보는 데이터 섹션에 저장되고, 나머지 데이터 루페 (loupe) 요청은 인덱스 섹션에 저장할 수 있을 만큼 작다.
데이터 섹션은 일부 실시형태에서 약 ~250KB인 청크로 구성된다. 시스템 (100)이 데이터 섹션에 저장된 정보를 필요로 하면, 이것은 시놉시스 섹션 (예를 들어, 유전자 트랙, 엑손 트랙 등) 내의 관련 인덱스를 참조하여, 데이터를 가져야하는 청크를 발견하고, 전체 청크를 메모리에 로딩한다. 일부 실시형태에서, 변이 데이터의 청크는 변이 데이터 및 지원 바코드 정보를 포함하는 JSON 인코딩 구조이다. 일부 실시형태에서, 판독 데이터의 청크는 각각의 구조가 단일 판독의 위치, 길이 및 바코드를 포함하는 작은 (8 바이트) 데이터 구조의 어레이를 갖는다. 일부 실시형태에서, 변이 및 판독 데이터는 모두 게놈 위치에 의해 정렬되어, 일반적으로 시스템 (100)은 데이터의 지정 서브 세트를 디스플레이하는데 필요한 모든 데이터를 획득하기 위해, 소수의 온-디스크 판독만을 수행할 것이다. 일부 실시형태에서, 시각화를 위해, 시스템 (100)이 필요로 하는 나머지 데이터 (예를 들어, 유전자 위치, 구조 변이 브레이크 포인트 등)는 "itree"로서, 핵산 서열 분석 데이터 세트 (126) 파일의 인덱스 (시놉시스) 섹션에 저장된다. itree는 인터벌 트리를 구현한 것이다. 이는 게놈 범위에 주석을 달기 위해, 재사용 가능한 데이터 구조 (일반적으로 JSON으로 인코딩됨)이다. 따라서 엑손, 유전자, 단계 블록 및 구조 변이 브레이크 포인트는 다르게 디스플레이되더라도 동일한 메커니즘으로 모두 인코딩된다.
본 명세서에서 단일 인스턴스로서 개시된 구성요소, 작동 또는 구조에 대해 복수의 인스턴스가 제공될 수 있다. 마지막으로, 다양한 구성요소, 작동 및 데이터 저장 사이의 경계는 다소 임의적이며, 특정 작동은 예시적인 특정 구성과 관련하여 도시된다. 다른 기능 분배가 계획되고, 구현 예 (들)의 범위 내에 포함될 수 있다. 일반적으로, 예시적인 구성에서 별도의 구성요소로서 제공되는 구조 및 기능은 조합된 구조 또는 구성요소로서 구현될 수 있다. 유사하게, 단일 구성요소로서 제공되는 구조 및 기능은 개별 구성요소로서 구현될 수 있다. 이들 및 다른 변형, 수정, 추가 및 개선은 구현 예 (들)의 범위 내에 포함된다.
"제1", "제2" 등의 용어가 다양한 요소를 설명하기 위해, 본 명세서에서 사용될 수 있지만, 이들 요소는 이들 용어에 의해 제한되어서는 안된다는 것이 또한 이해될 것이다. 이들 용어는 하나의 요소를 다른 것과 구별하기 위해, 사용된다. 예를 들어, "제1 오브젝트"의 모든 발생이 일관되게 재명명되고, "제2 오브젝트"의 모든 발생이 일관되게 재명명되는 한, 제1 오브젝트는 설명의 의미를 변화시키지 않으면서, 2 오브젝트로 지칭될 수 있고, 마찬가지로, 제2 오브젝트는 제1 오브젝트로 지칭될 수 있다. 제1 오브젝트와 제2 오브젝트는 모두 오브젝트이지만, 동일한 오브젝트는 아니다.
본 명세서에서 사용되는 용어는 특정 구현 예만을 설명하기 위한 것이며, 청구 범위를 제한하려는 것은 아니다. 구현 예 및 첨부된 청구 범위의 설명에 사용된 바와 같이, 단수 형태 "하나 (a, an)" 및 "상기 (the)"는 문맥 상 달리 명시하지 않는 한, 복수 형태를 포함하는 것으로 의도된다. 본 명세서에서 사용되는 "및/또는"이라는 용어는 하나 이상의 열거된 관련 아이템의 임의의 그리고 모든 가능한 조합을 지칭하고, 이를 포함한다. 본 명세서에서 사용되는 "~를 포함한다" 및/또는 "~를 포함하는"이라는 용어는 명시된 피처, 정수, 단계, 작동, 요소 및/또는 구성요소의 존재를 나타내지만, 하나 이상의 다른 피처, 정수, 단계, 작동, 요소, 구성요소 및/또는 이들의 그룹의 존재 또는 첨가를 배제하는 것은 아니다.
본 명세서에 사용된 바와 같이, "~하는 경우 (if)"란 용어는 문맥에 따라 명시된 조건 선례가 참인 것으로서, "~하는 때" 또는 "~할 시 (upon)" 또는 "측정에 반응하여" 또는 "측정에 따라" 또는 "검출에 반응하여"를 의미하는 것으로 해석될 수 있다. 유사하게, "(명시된 조건 선례가 참이라고) 측정된 경우" 또는 "(명시된 조건 선례가 참)인 경우"라는 "(명시된 조건 선례가 참)인 때"는 문맥에 따라 명시된 조건 선례가 참인 것으로서, "측정시" 또는 "측정에 반응하여" 또는 "측정에 따라" 또는 "검출시" 또는 "검출에 반응하여"를 의미하는 것으로 해석될 수 있다.
전술한 설명은, 예시적인 구현 예를 구현하는 예시적인 시스템, 방법, 기술, 명령 서열 및 컴퓨팅 머신 프로그램 제품을 포함한다. 설명의 목적상, 본 발명 주제의 다양한 구현 예의 이해를 제공하기 위해, 복수의 특정 세부 정보가 제시되었다. 그러나, 본 발명의 주제의 구현 예가 이러한 특정 세부 정보 없이 실시될 수 있다는 것이 당업자에게 명백할 것이다. 일반적으로, 널리 공지된 명령어 인스턴스, 프로토콜, 구조 및 기술은 상세히 제시되지 않았다.
전술한 설명은 기술 목적을 위해, 특정 구현예를 참조하여 설명되었다. 그러나, 전술한 예시적인 논의는 개시된 정확한 형태로 구현 예를 제한하거나 총 망라하려는 것은 아니다. 상기 교시의 관점에서 많은 수정 및 변형이 가능하다. 구현 예는 원리 및 그들의 실제 응용 례를 가장 잘 기술하고, 따라서, 당업자가 구현 예 및 의도된 특정 용도에 적합한 다양한 변형을 가지는 다양한 구현 예를 가장 잘 이용할 수 있게 하기 위해, 선택 및 설명되었다.

Claims (104)

  1. 네트워크 연결을 통해 원격 클라이언트 컴퓨터에 구조 변이 또는 위상 조정 정보 (phasing information)를 제공하기 위한 시스템으로서, 상기 시스템이 하나 이상의 마이크로프로세서, 영구 메모리 및 비영구 메모리를 포함하며, 상기 영구 메모리 및 비영구 메모리가 하나 이상의 핵산 서열 데이터 세트를 집합적으로 저장하고,
    하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트가 복수의 샘플 중 개별 샘플의 적어도 하나의 표적 핵산에 대응하며,
    상기 각각의 샘플이 적어도 하나의 종의 게놈과 관련되고,
    상기 각각의 핵산 서열 분석 데이터 세트가 (i) 헤더 (header), (ii) 시놉시스 (synopsis), 및 (iii) 데이터 섹션을 포함하며,
    상기 데이터 섹션이 복수의 서열 분석 판독을 포함하고,
    복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 각각의 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 (identifier) 중 각각의 서열 분석 판독을 위한 각각의 식별자를 인코딩하는 제2 부분을 포함하며,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하며,
    복수의 서열 분석 판독이 복수의 식별자를 집합적으로 포함하고,
    상기 영구 메모리 및 비 영구 메모리가 또한, 하나 이상의 마이크로프로세서를 사용하는 하나 이상의 프로그램을 집합적으로 저장하여,
    원격 클라이언트 컴퓨터에 설치하기 위한 시각화 툴 (visualization tool)을 제공하고,
    상기 하나 이상의 데이터 세트 중 제1 데이터 세트를 사용하여, 네트워크 연결을 통해 사용자로부터 상기 원격 클라이언트 컴퓨터로부터 송신된, 구조 변이 또는 위상 조정 정보에 대한 요청(request)를 얻으며,
    요청을 얻은 것에 반응하여,
    (i) 상기 비 영구 메모리에 아직 로딩되지 않은 경우, 상기 영구 메모리에 상기 데이터 섹션을 유지하면서, 제1 데이터 세트의 헤더 및 시놉시스를 상기 비 영구 메모리에 로딩하는 단계,
    (ii) 상기 요청을 제1 데이터 세트의 시놉시스와 비교하여, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별하는 단계,
    (iii) 상기 데이터 섹션의 하나 이상의 식별 부분을 비 영구 메모리에 로딩하는 단계로서, 상기 로딩이 상기 데이터 섹션 전체보다 적게 로딩되는 단계,
    (iv) 클라이언트 컴퓨터에 디스플레이하기 위해, 제1 데이터 세트를 사용하여 구조 변이 또는 위상 조정 정보를 포맷화(formatting)하는 단계, 및
    (v) 상기 원격 클라이언트 컴퓨터에 디스플레이하기 위해, 상기 네트워크 연결을 통해 포맷화된 구조 변이 또는 위상 조정 정보를 상기 원격 클라이언트 컴퓨터로 전송하는 단계에 의해, 상기 요청을 자동 파싱하는 시스템.
  2. 구조 변이 또는 위상 조정 정보를 제공하기 위한 시스템으로서, 상기 시스템이 하나 이상의 마이크로프로세서, 영구 메모리 및 비 영구 메모리를 포함하며, 상기 영구 메모리 및 비영구 메모리가 하나 이상의 핵산 서열 데이터 세트를 집합적으로 저장하고,
    하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트가 복수의 샘플 중 개별 샘플의 적어도 하나의 표적 핵산에 대응하며,
    상기 각각의 샘플이 적어도 하나의 종의 게놈과 관련되고,
    상기 각각의 핵산 서열 분석 데이터 세트가 (i) 헤더, (ii) 시놉시스, 및 (iii) 데이터 섹션을 포함하며,
    상기 데이터 섹션이 복수의 서열 분석 판독을 포함하고,
    복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 각각의 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 개별 서열 분석 판독을 위한 각각의 식별자를 인코딩하는 제2 부분을 포함하며,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하며,
    복수의 서열 분석 판독이 복수의 식별자를 집합적으로 포함하고,
    상기 영구 메모리 및 비 영구 메모리가 또한 하나 이상의 마이크로프로세서를 사용하는 하나 이상의 프로그램을 집합적으로 저장하여,
    시각화 툴을 제공하고,
    상기 하나 이상의 데이터 세트 중 제1 데이터 세트를 사용하여, 상기 시각화 툴을 통해 사용자로부터 구조 변이 또는 위상 조정 정보에 대한 요청을 얻으며,
    요청을 얻은 것에 반응하여,
    (i) 상기 비영구 메모리에 아직 로딩되지 않은 경우, 상기 영구 메모리에 상기 데이터 섹션을 유지하면서, 제1 데이터 세트의 헤더 및 시놉시스를 상기 비 영구 메모리에 로딩하는 단계,
    (ii) 서열 정보를 위한 요청을 제1 데이터 세트의 시놉시스와 비교하여, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별하는 단계,
    (iii) 상기 데이터 섹션의 하나 이상의 식별 부분을 비 영구 메모리에 로딩하는 단계로서, 상기 로딩이 상기 데이터 섹션 전체보다 적게 로딩되는 단계,
    (iv) 상기 시각화 툴에 디스플레이하기 위해, 제1 데이터 세트를 사용하여 구조 변이 또는 위상 조정 정보를 포맷화하는 단계, 및
    (v) 상기 시각화 툴에 포맷화된 구조 변이 또는 위상 조정 정보를 디스플레이하는 단계에 의해, 상기 요청을 자동 파싱하기 위는 시스템.
  3. 네트워크 연결을 통해 원격 컴퓨터로부터 구조 변이 또는 위상 조정 정보를 얻기 위한 시스템으로서, 상기 시스템이 하나 이상의 마이크로프로세서 및 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 하나 이상의 프로그램이 상기 하나 이상의 마이크로프로세서를 사용하여,
    (A) 시각화 툴을 인보크 (invoke)하는 단계;
    (B) 상기 시각화 툴을 통해, 상기 원격 컴퓨터에 저장된 하나 이상의 핵산 서열 분석 데이터 세트 중에서 제1 핵산 서열 분석 데이터 세트의 구조 변이 또는 위상 조정 정보에 대한 요청을 사용자로부터 얻는 단계로서, 하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트가 복수의 샘플 중 개별 샘플의 적어도 하나의 표적 핵산에 대응하며,
    상기 각각의 샘플이 적어도 하나의 종의 게놈과 무관하고,
    상기 각각의 핵산 서열 분석 데이터 세트가 (i) 헤더, (ii) 시놉시스, 및 (iii) 데이터 섹션을 포함하며,
    상기 데이터 섹션이 복수의 서열 분석 판독을 포함하고,
    복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 각각의 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 각각의 서열 분석 판독을 위한 개별 식별자를 인코딩하는 제2 부분을 포함하며,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하고,
    상기 복수의 서열 분석 판독이 상기 복수의 식별자를 집합적으로 포함하는 단계,
    (C) 상기 네트워크 연결을 통해 상기 원격 컴퓨터에 상기 요청을 송신하는 단계로서, 상기 원격 컴퓨터가 영구 메모리 및 비 영구 메모리를 갖추어, 상기 원격 컴퓨터로 하여금:
    (i) 상기 비 영구 메모리에 아직 로딩되지 않은 경우, 상기 영구 메모리에 상기 데이터 섹션을 유지하면서, 제1 데이터 세트의 헤더 및 시놉시스를 상기 비 영구 메모리에 로딩하는 단계,
    (ii) 서열 정보에 대한 요청을 제1 데이터 세트의 시놉시스와 비교하여, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별하는 단계,
    (iii) 상기 데이터 섹션의 하나 이상의 식별 부분을 비 영구 메모리에 로딩하는 단계로서, 상기 로딩이 상기 데이터 섹션 전체보다 적게 로딩되는 단계, 및
    (iv) 구조 변이 또는 위상 조정 정보를 포맷화하는 단계를 포함하는 방법을 실행하게 하는 단계; 및
    (D) 상기 시각화 툴에 디스플레이하기 위해, 네트워크 연결을 통해 상기 원격 컴퓨터로부터 포맷화된 구조 변이 또는 위상 조정 정보를 수신하는 단계를 포함하는 방법을 실행하는 시스템.
  4. 구조 변이 또는 위상 조정 정보를 제공하기 위한 시스템으로서, 상기 시스템이 하나 이상의 마이크로프로세서 및 메모리를 포함하고, 상기 시스템이 하나 이상의 핵산 서열 데이터 세트에 대한 엑세스 (access)를 가지며,
    상기 하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트가 복수의 샘플 중 개별 샘플의 적어도 하나의 표적 핵산에 대응하고,
    상기 각각의 샘플이 적어도 하나의 종의 게놈과 관련되며,
    상기 각각의 핵산 서열 분석 데이터 세트가 (i) 헤더, (ii) 시놉시스, 및 (iii) 데이터 섹션을 포함하고,
    상기 데이터 섹션이 복수의 서열 분석 판독을 포함하며,
    상기 복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 각각의 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 개별 서열 분석 판독을 위한 개별 식별자를 인코딩하는 제2 부분을 포함하고,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하며,
    상기 복수의 서열 분석 판독이 상기 복수의 식별자를 집합적으로 포함하고,
    상기 메모리가 또한, 하나 이상의 마이크로프로세서를 사용하는 하나 이상의 프로그램을 집합적으로 저장하여,
    시각화 툴을 제공하고;
    상기 하나 이상의 데이터 세트 중 제1 데이터 세트를 사용하여, 상기 시각화 툴을 통해, 사용자로부터 구조 변이 또는 위상 조정 정보에 대한 요청을 얻고,
    얻어진 요청에 반응하여,
    (i) 제1 데이터 세트의 시놉시스와 서열 정보에 대한 요청을 비교하여, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별하는 단계,
    (ii) 상기 시각화 툴에 디스플레이하기 위해, 제1 데이터 세트의 데이터 섹션의 식별된 하나 이상의 부분을 사용하여 구조 변이 또는 위상 조정 정보를 포맷화하는 단계로서, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분이 제1 데이터 세트의 데이터 섹션 전체보다 적은 단계, 및
    (iii) 상기 시각화 툴에 포맷화된 구조 변이 또는 위상 조정 정보를 디스플레이하는 단계에 의해, 상기 요청을 자동 파싱하는 시스템.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 헤더가 상기 개별 핵산 서열 분석 데이터 세트의 복수의 구성요소(component)를 기술하는 시스템.
  6. 제5항에 있어서, 상기 복수의 구성요소가 서머리(summary), 변이 호출 데이터 (variant call data)에 대한 인덱스, 단계 블록 트랙(phase block track), 참조 서열 인덱스 트랙(refseq index track), 유전자 트랙, 엑손 트랙, 판독 데이터에 대한 인덱스, 구조 변이 데이터 세트 트랙, 표적 데이터 세트에 대한 인덱스 및 단편 데이터 세트에 대한 인덱스로 이루어진 그룹으로부터 선택되는 2개 이상의 구성요소를 포함하는 시스템.
  7. 제6항에 있어서, 상기 복수의 구성요소가 상기 서머리를 포함하고, 상기 서머리가,
    상기 각각의 핵산 서열 분석 데이터 세트에서 위상 조정된 공지의 SNP의 백분율,
    상기 각각의 핵산 서열 분석 데이터 세트에서 가장 긴 단계 블록,
    상기 각각의 핵산 서열 분석 데이터 세트에 사용된 복수의 고유 바코드,
    상기 각각의 핵산 서열 분석 데이터 세트의 평균 단편 길이,
    상기 각각의 핵산 서열 분석 데이터 세트의 평균 단편 길이의 평균,
    상기 각각의 핵산 서열 분석 데이터 세트에서 하위 임계치보다 큰 단편의 백분율,
    상기 각각의 핵산 서열 분석 데이터 세트의 단편 길이 히스토그램,
    상기 각각의 핵산 서열 분석 데이터 세트의 N50 단계 블록 크기,
    상기 각각의 핵산 서열 분석 데이터 세트의 단계 블록 히스토그램,
    상기 각각의 핵산 서열 분석 데이터 세트에 의해 표시되는 복수의 서열 판독,
    상기 각각의 핵산 서열 분석 데이터 세트의 중간 인서트 (insert) 크기,
    상기 각각의 핵산 서열 분석 데이터 세트의 중간 깊이,
    상기 각각의 핵산 서열 분석 데이터 세트에서 제로 커버리지 (zero coverage)를 갖는 표적 게놈의 백분율,
    상기 각각의 핵산 서열 분석 데이터 세트의 매핑된 판독 백분율,
    상기 각각의 핵산 서열 분석 데이터 세트의 PCR 복제 백분율,
    상기 각각의 핵산 서열 분석 데이터 세트의 커버리지 히스토그램,
    상기 각각의 핵산 서열 분석 데이터 세트의 기초를 형성하는 시험 핵산의 주체,
    상기 각각의 핵산 서열 분석 데이터 세트의 게놈 소스,
    상기 각각의 핵산 서열 분석 데이터 세트에서 적어도 하나의 시험 핵산이 유래된 유기체의 성별 (sex),
    상기 각각의 핵산 서열 분석 데이터 세트에서 개별 샘플이 유래된 유기체의 성별,
    상기 각각의 핵산 서열 분석 데이터 세트의 데이터 세트 파일 포맷 버전, 및
    상기 각각의 핵산 서열 분석 데이터 세트에 대해 만들어진 복수의 구조 변이 호출에 대한 포인터 (pointer)로 이루어진 그룹 중 2개 이상의 아이템을 포함하는 시스템.
  8. 제6항에 있어서, 상기 복수의 구성요소가, 상기 개별 범위에 대한 변이 호출 데이터가 나타나는 데이터 섹션의 오프셋 (offset)에 대한 상기 종의 게놈의 각각의 범위 간의 대응성을 제공하는 변이 호출 데이터에 대한 인덱스를 포함하는 시스템.
  9. 제6항에 있어서, 상기 복수의 구성요소가 상기 단계 블록 트랙을 포함하고, 상기 단계 블록 트랙이 (i) 딕셔너리 (dictionary) 및 (ii) 적어도 하나의 종의 게놈의 하나 이상의 염색체에 대한 단계 정보를 포함하는 트랙 데이터 섹션을 포함하는 시스템.
  10. 제9항에 있어서, 상기 딕셔너리가 복수의 명칭을 포함하고, 상기 복수의 명칭 중 각각의 각각의 명칭에서, 대응 명칭이 기록된 트랙 데이터로의 오프셋이 발견되는 시스템.
  11. 제9항에 있어서, 상기 트랙 데이터 섹션이 복수의 기록을 포함하고, 상기 복수의 기록 중 각각의 기록이 상기 표적 핵산의 단계 블록을 표시하는 시스템.
  12. 제11항에 있어서, 상기 트랙 데이터 섹션이 JSON 파일 포맷인 시스템.
  13. 제11항에 있어서, 상기 복수의 기록 중 각각의 개별 기록이,
    (i) 상기 각각의 기록에 대응하는 염색체 번호,
    (ⅱ) 상기 단계 블록이 염색체상에서 시작하는 위치,
    (ⅲ) 상기 단계 블록이 종결되는 위치,
    (iv) 상기 기록의 고유 명칭 및
    (ⅴ) 상기 단계 블록에 관한 위상 조정 정보를 지정하는 시스템.
  14. 제11항에 있어서, 상기 복수의 기록 중 각각의 개별 기록이 복수의 인터벌 트리 (interval tree) 중 개별 인터벌 트리 내의 복수의 노드 (node) 중 하나의 노드에 의해 표시되고, 상기 복수의 인터벌 트리 중 각각의 개별 인터벌 트리가 적어도 하나의 종의 복수의 염색체 중 하나의 염색체를 표시하는 시스템.
  15. 제14항에 있어서,
    상기 복수의 인터벌 트리 중 제1 인터벌 트리의 복수의 노드 중 하나의 노드가 상기 노드의 중점을 저장하고,
    상기 노드의 중점이 상기 노드에 대응하는 단계 블록의 대응 염색체상의 중점의 위치이고,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가 좌측 자식 노드 (child node)에 링크를 가지며, 이는 적어도 하나의 종의 게놈 내에 개별 노드에 의해 표시되는 단계 블록의 바로 좌측 단계 블록에 대응하며,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가 우측 자식 노드에 링크를 가지며, 이는 적어도 하나의 종의 게놈 내에 개별 노드에 의해 표시되는 단계 블록의 바로 우측 단계 블록에 대응하고,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가, 이러한 단계 블록의 좌측 위치에 의해 정렬된 개별 노드의 중점과 중첩되는 단계 블록을 표시하는 정렬된 노드 세트를 가지며,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가 이러한 단계 블록의 우측 위치에 의해 정렬된 개별 노드의 중점과 중첩되는 단계 블록을 표시하는 정렬된 노드 세트를 갖는 시스템.
  16. 제15항에 있어서, 제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가 명칭을 추가로 포함하며, 이는 상기 복수의 기록 내의 각각의 노드에 대응하는 단계 블록에 대한 단계 정보를 포함하는 기록에 트랙 데이터 섹션의 오프셋인 시스템.
  17. 제5항에 있어서, 상기 헤더가 상기 핵산 서열 분석 데이터 세트에 의해 사용되는 데이터 세트 구조의 버전을 추가로 포함하는 시스템.
  18. 제6항에 있어서, 상기 복수의 구성요소가 상기 참조 서열 인덱스를 포함하고, 상기 참조 서열 인덱스가, 상기 샘플에서 호출되는 복수의 분자 변이 식별자의 인덱스를 포함하는 시스템.
  19. 제18항에 있어서, 상기 복수의 분자 변이 식별자 중 각각의 개별 분자 변이 식별자가 dbSNP 식별자인 시스템.
  20. 제6항에 있어서, 상기 복수의 구성요소가 상기 유전자 트랙을 포함하고, 상기 유전자 트랙이 복수의 유전자 및 상기 복수의 유전자 중 각각의 개별 유전자에서, 상기 개별 유전자 내에 다수의 단일 뉴클레오티드 다형 (nucleotide polymorphism)을 포함하는 시스템.
  21. 제6항에 있어서, 상기 복수의 구성요소가 상기 유전자 트랙을 포함하고, 상기 유전자 트랙이 (i) 유전자 트랙 딕셔너리 및 (ii) 유전자 트랙 데이터 섹션을 포함하는 시스템.
  22. 제21항에 있어서, 상기 유전자 트랙 딕셔너리가 복수의 명칭을 포함하고, 상기 복수의 명칭 중 각각의 개별 명칭에서, 대응 명칭이 기록된 유전자 트랙 데이터 섹션으로의 오프셋이 발견되는 시스템.
  23. 제21항에 있어서, 상기 유전자 트랙 데이터 섹션이 복수의 기록을 포함하고, 상기 복수의 기록 중 각각의 기록이 상기 표적 핵산의 유전자를 표시하는 시스템.
  24. 제23항에 있어서, 상기 유전자 트랙 데이터 섹션이 JSON 파일 포맷 내에 존재하는 시스템.
  25. 제23항에 있어서, 상기 복수의 기록 중 각각의 개별 기록이
    (i) 상기 각각의 기록에 대응하는 염색체 번호,
    (ii) 상기 각각의 기록에 의해 표시되는 유전자가 시작되는 염색체상의 위치,
    (iii) 상기 각각의 기록이 표시되는 유전자가 종결되는 염색체상의 위치,
    (iv) 상기 각각의 기록의 고유 명칭, 및
    (v) 유전자에 관한 유전 정보를 지정하는 시스템.
  26. 제23항에 있어서, 상기 유전자에 관한 유전 정보가 상기 유전자의 대체 명칭, 상기 유전자상의 단일 뉴클레오티드 다형의 개수 또는 상기 개별 염색체상의 상기 유전자의 방향을 포함하는 시스템.
  27. 제23항에 있어서, 상기 복수의 유전자 기록 중 각각의 개별 유전자 기록이 복수의 인터벌 트리 중 각각의 인터벌 트리 내의 복수의 노드 중 하나의 노드에 의해 표시되고, 상기 복수의 인터벌 트리 중 각각의 인터벌 트리가 적어도 하나의 종의 복수의 염색체 중 하나의 염색체를 표시하는 시스템.
  28. 제27항에 있어서,
    상기 복수의 인터벌 트리 중 제1 인터벌 트리의 복수의 노드 중 하나의 노드가 상기 노드의 중점을 저장하고,
    상기 노드의 중점이 상기 노드에 대응하는 유전자의 대응 염색체상의 중점의 위치이고,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가 좌측 자식 노드로의 링크를 가지며, 이는 적어도 하나의 종의 게놈 내에 개별 노드에 의해 표시되는 유전자의 바로 좌측 유전자에 대응하고,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가 우측 자식 노드로의 링크를 가지며, 이는 적어도 하나의 종의 게놈 내에 개별 노드에 의해 표시되는 유전자의 바로 우측 유전자에 대응하며,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가, 상기 개별 유전자의 좌측 위치에 의해 정렬된 개별 노드의 중점과 중첩되는 유전자를 표시하는 정렬된 노드 세트를 가지고,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가, 이러한 유전자의 우측 위치에 의해 정렬된 개별 노드의 중점과 중첩되는 유전자를 표시하는 정렬된 노드 세트를 가지는 시스템.
  29. 제28항에 있어서, 제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가 명칭을 추가로 포함하며, 이는 복수의 유전자 기록 중 상기 개별 노드에 대응하는 유전자의 유전 정보를 포함하는 유전자 기록에 트랙 데이터 섹션의 오프셋인 시스템.
  30. 제6항에 있어서, 상기 복수의 구성요소가 데이터를 판독하기 위한 인덱스를 포함하고, 상기 데이터를 판독하기 위한 인덱스가 상기 복수의 식별자 중 각각의 식별자와 상기 각각의 식별자의 단축 버전 간의 조회 표 (lookup table)을 포함하는 시스템.
  31. 제30항에 있어서,
    상기 데이터 섹션이 복수의 청크 (chunk)로 조직화된 기록들의 블록 인덱스로서 저장되며,
    상기 복수의 청크 중 각각의 개별 청크가 상기 복수의 서열 분석 판독의 서브 세트를 포함하고,
    데이터를 판독하기 위한 인덱스가 복수의 청크와 상기 적어도 하나의 종의 게놈 내의 절대 위치 사이의 염색체-오프셋 대 파일-오프셋 결합의 염색체 당 어레이 (per chromosome array)로서, 이에 따라, 상기 복수의 청크 중 각각의 청크에 상기 적어도 하나의 종 중 하나의 종의 게놈 내의 상이한 절대 위치가 할당되는 염색체 당 어레이를 포함하는 시스템.
  32. 제31항에 있어서,
    상기 복수의 청크 중 각각의 청크가 구조 어레이이며, 상기 어레이 내의 각각의 개별 구조가 상기 개별 청크에서 상기 복수의 서열 판독 중 대응 서열 분석 판독을 표시하고, 각각의 구조가:
    대응 서열 분석 판독의 판독 특질을 나타내도록 예정된 제1비트,
    대응 서열 분석 판독을 위한 제1 부모 하플로타입의 원점을 표시하는 제2비트,
    대응 서열 분석 판독을 위한 제2 부모 하플로타입의 원점을 표시하는 제3비트,
    대응 서열 분석 판독을 위해, 상기 복수의 식별자 중 하나의 식별자의 단축 버전을 표시하는 제1 복수의 비트,
    대응 서열 분석 판독의 길이를 표시하는 제2 복수의 비트, 및
    개별 청크에 할당된 종의 게놈 내의 절대 위치에 대비하여, 대응 서열 분석 판독의 시작 위치를 표시하는 제3 복수의 비트를 포함하는 시스템.
  33. 제32항에 있어서, 상기 종이 인간이고, 상기 개별 청크가 약 1 x 106개 이하의 염기 쌍을 표시하는 시스템.
  34. 제32항에 있어서, 제1 복수의 비트가 20비트이고, 상기 종이 인간이며, 상기 개별 청크가 약 1 x 106개 이하의 염기 쌍을 표시하고, 상기 구조 어레이 내의 각각의 구조가 소정의비트 크기인 시스템.
  35. 제32항에 있어서, 상기 식별자의 단축 버전에 대응하는, 판독 데이터에 대한 인덱스에 저장된 식별자가 24비트를 필요로 하는 시스템.
  36. 제32항에 있어서, 상기 식별자의 단축 버전에 대응하는, 판독 데이터에 대한 인덱스에 저장된 식별자가 30비트, 32비트, 34비트 또는 36비트를 필요로 하는 시스템.
  37. 제6항에 있어서, 상기 복수의 구성요소가 상기 구조 변이 데이터 세트 트랙을 포함하고,
    상기 구조 변이 데이터 세트 트랙이 (i) 딕셔너리 및 (ii) 상기 복수의 서열 분석 판독에서 식별된 구조 변이 호출 정보를 포함하는 트랙 데이터 섹션을 포함하는 시스템.
  38. 제37항에 있어서, 상기 딕셔너리가 복수의 명칭을 포함하고, 상기 복수의 명칭 중 각각의 개별 명칭에서, 대응 명칭이 기록된 트랙 데이터로의 오프셋이 발견되는 시스템.
  39. 제38항에 있어서, 상기 복수의 명칭 중 하나의 명칭이 하나의 염색체에 대응하는 시스템.
  40. 제38항에 있어서,
    상기 트랙 데이터 섹션이 복수의 구조 변이 기록을 포함하고,
    상기 복수의 구조 변이 기록 중 각각의 구조 변이 기록이 샘플의 적어도 하나의 표적 핵산에 만들어진 구조 변이 호출을 표시하는 시스템.
  41. 제40항에 있어서, 상기 트랙 데이터 섹션이 JSON 파일 포맷인 시스템.
  42. 제40항에 있어서, 상기 복수의 구조 변이 기록 중 각각의 구조 변이 기록이 상기 각각의 구조 변이 기록에 의해 표시되는 구조 변이의 제1 염색체상의 시작점 및 제2 염색체상의 종결점 및 하기의 것 중 적어도 하나를 지정하는 시스템:
    (i) 상기 각각의 구조 변이 기록에 의해 표시되는 구조 변이의 명칭 및
    (ii) 상기 각각의 구조 변이 기록에 의해 표시되는 구조 변이의 주체에 대한 신뢰도에서의 특질 표현.
  43. 제40항에 있어서,
    상기 복수의 구조 변이 기록 중 각각의 개별 구조 변이 기록이 복수의 인터벌 트리 중 개별 인터벌 트리 내의 복수의 노드 중 하나의 노드에 의해 표시되고,
    상기 복수의 인터벌 트리 중 각각의 인터벌 트리가 상기 종의 복수의 염색체 중 하나의 염색체를 표시하는 시스템.
  44. 제43항에 있어서,
    상기 복수의 인터벌 트리 중 제1 인터벌 트리의 복수의 노드 중 하나의 노드가 상기 노드의 중점을 저장하고,
    상기 노드의 중점이 상기 노드에 대응하는 구조 변이의 대응 염색체상의 중점의 위치이고,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가 좌측 자식 노드에 링크를 가지며, 이는 상기 종의 게놈 내에 개별 노드에 의해 표시되는 구조 변이의 바로 좌측 구조 변이에 대응하며,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가 우측 자식 노드에 링크를 가지며, 이는 상기 종의 게놈 내에 개별 노드에 의해 표시되는 구조 변이의 바로 우측 구조 변이에 대응하고,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가, 이러한 구조 변이의 좌측 위치에 의해 정렬된 개별 노드의 중점과 중첩되는 구조 변이를 표시하는 정렬된 노드 세트를 가지며,
    제1 인터벌 트리의 복수의 노드 중 각각의 개별 노드가 이러한 구조 변이의 우측 위치에 의해 정렬된 개별 노드의 중점과 중첩되는 구조 변이를 표시하는 정렬된 노드 세트를 갖는 시스템.
  45. 제6항에 있어서,
    상기 복수의 구성요소가 상기 표적 데이터 세트에 대한 인덱스를 포함하고,
    상기 표적 데이터 세트가, 상기 개별 핵산 서열 분석 데이터 세트에서, 서열 분석을 위해 선택된, 샘플의 적어도 하나의 표적 핵산의 영역을 포함하며,
    상기 표적 데이터 세트가 상기 시놉시스에 저장된 표적 데이터 세트 인덱스에 의해 인덱스되고,
    상기 표적 데이터 세트가 상기 데이터 섹션에 저장되는 시스템.
  46. 제45항에 있어서, 상기 요청을 충족시키기 위해 상기 표적 데이터 세트의 어느 부분이 표적 데이터 세트로부터 판독되어야하는지 계산하기 위해, 상기 표적 데이터 세트 인덱스를 사용하기 위해 상기 하나 이상의 물리적 프로세서에 의해 실행되는 명령을 추가로 포함하는 시스템.
  47. 제45항에 있어서,
    상기 표적 데이터 세트 인덱스가 염색체에 의해, 각각의 개별 염색체에 대해 분리되고,
    상기 표적 데이터 세트 인덱스가, 상기 범위에 대한 특정 데이터가 상기 표적 데이터 세트에서 발견될 수 있는 오프셋과 상기 개별 염색체상의 범위를 결합한 대응 어레이를 저장하는 시스템.
  48. 제6항에 있어서,
    상기 복수의 구성요소가 상기 단편 데이터 세트에 대한 인덱스를 포함하고,
    상기 단편 데이터 세트가 상기 샘플의 적어도 하나의 표적 핵산의 각각의 단편의 길이, 염색체 위치, 식별자 및 단계를 포함하며
    상기 단편 데이터 세트가 상기 시놉시스에 저장된 단편 데이터 세트 인덱스에 의해 인덱스되고,
    상기 단편 데이터 세트가 상기 데이터 섹션에 저장되는 시스템.
  49. 제48항에 있어서, 상기 요청을 충족시키기 위해, 상기 단편 데이터 세트로부터 상기 단편 데이터 세트의 어느 부분이 판독되어야 하는지를 계산하기 위해, 상기 단편 데이터 세트 인덱스를 사용하도록 상기 하나 이상의 물리적 프로세서에 의해 실행되는 명령을 추가로 포함하는 시스템.
  50. 제49항에 있어서, 상기 단편 데이터 세트 인덱스가 염색체에 의해, 각각의 개별 염색체에 대해 분리되고, 상기 단편 데이터 세트 인덱스가, 상기 범위에 대한 특정 데이터가 상기 단편 데이터 세트에서 발견될 수 있는 오프셋과 상기 개별 염색체상의 범위를 결합한 대응 어레이를 저장하는 시스템.
  51. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 요청은 상기 게놈의 영역 내 위상 조정 정보에 대한 것이고, 상기 포맷화된 위상 조정 정보가,
    제1 데이터 세트의 게놈 영역의 적어도 하나의 종 중 제1 종의 제1 부모 하플로타입에 대응하는 제1 하플로타입 트랙,
    제1 데이터 세트의 게놈 영역의 제1 종의 제2 부모 하플로타입에 대응하는 제2 하플로타입 트랙,
    제1 데이터 세트의 게놈 영역의 부모 하플로타입에 할당되지 않은 적어도 하나의 핵산 샘플의 영역에 대응하는 불확정 트랙을 포함하는 그래픽 표시를 포함하는 시스템.
  52. 제51항에 있어서, 제1 데이터 세트의 영역 내의 각각의 단계 블록이 직사각형 박스에 의해 둘러싸인 시스템.
  53. 제52항에 있어서, 제1 데이터 세트의 영역이 2개 이상의 단계 블록, 5개 이상의 단계 블록, 또는 10개 이상의 단계 블록을 포함하는 시스템.
  54. 제51항에 있어서, 제1 하플로타입 트랙, 제2 하플로타입 트랙 및 상기 불확정 트랙이 복수의 수직 바를 포함하고, 각각의 수직 바가 상기 적어도 하나의 표적 핵산에서 단일 뉴클레오티드 다형, 삽입 또는 결실을 표시하는 시스템.
  55. 제54항에 있어서, 상기 복수의 수직 바 중 각각의 수직 바가 표준 유전자형 및 대체 유전자형 중 하나를 표시하도록, 컬러 코딩된 시스템.
  56. 제51항에 있어서, 상기 그래픽 표시가, 염색체 맵 및 상기 게놈 내 영역에 의해 둘러싸인 염색체 맵상의 위치를 추가로 포함하는 시스템.
  57. 제51항에 있어서, 상기 그래픽 표시가, 상기 게놈 내 영역에 존재하는 각각의 유전자의 그래픽 표시를 추가로 포함하는 시스템.
  58. 제51항에 있어서, 상기 그래픽 표시가, 상기 게놈 내 영역에 존재하는 각각의 엑손의 그래픽 표시를 추가로 포함하는 시스템.
  59. 제51항에 있어서, 상기 그래픽 표시가 상기 게놈 내 영역의 커버리지 트랙을 추가로 포함하고, 상기 커버리지 트랙이 복수의 수직 바를 포함하고, 상기 복수의 수직 바 중 각각의 개별 수직 바가 상기 바 아래의 게놈의 대응 부분에 대한 제1 데이터 세트의 일반 커버리지-당-염기 (average coverage-per-base)를 지시하는 시스템.
  60. 제51항에 있어서, 상기 그래픽 표시가 상기 게놈 내 영역에 발생하는 하나 이상의 구조 변이에 대한 브레이크포인트 트랙 (breakpoints track)을 추가로 포함하는 시스템.
  61. 제60항에 있어서, 상기 하나 이상의 구조 변이에 대한 브레이크포인트 트랙이 염색체 간 전좌 (inter-chromosomal translocation), 유전자 융합, 역위 또는 결실을 포함하는 시스템.
  62. 제60항에 있어서, 상기 하나 이상의 구조 변이 내의 제1 구조 변이가, 사용자에 의해 선택되는 경우, 구조 변이 줌 어포던스 (zoom affordance)를 제공하고, 선택되는 경우, 제1 구조 변이의 브레이크포인트에 줌 (zoom)된 추가의 하플로타입 트랙을 제공하는 그래픽으로서 포맷화되는 시스템.
  63. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 하나 이상의 핵산 서열 분석 데이터 세트가 단일 핵산 서열 분석 데이터 세트인 시스템.
  64. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 하나 이상의 핵산 서열 분석 데이터 세트가 복수의 핵산 서열 분석 데이터 세트인 시스템.
  65. 제64항에 있어서, 상기 복수의 핵산 서열 분석 데이터 세트가 10개의 핵산 서열 분석 데이터 세트, 100개의 핵산 서열 분석 데이터 세트 또는 1000개의 핵산 서열 분석 데이터 세트를 포함하는 시스템.
  66. 제1항 내지 제65항 중 어느 한 항에 있어서, 상기 요청은 표현 신텍스 (expression syntax)에 따라 포맷화되는 시스템.
  67. 제66항에 있어서, 상기 표현 신텍스이 X1:N1-N2이고,
    X1이 선택된 제1 염색체 또는 선택된 제1 콘틱 서열의 주체이며,
    N1이 제1 염색체 또는 선택된 제1 콘틱 서열 내의 선택된 시작 위치이고,
    N2가 제1 염색체 또는 선택된 제1 콘틱 서열 내의 선택된 종결 위치인 시스템.
  68. 제66항에 있어서, 상기 표현 신텍스이 X1:N1-N2이고,
    X1이 선택된 제1 염색체 또는 선택된 제1 콘틱 서열 내의 주체이며,
    N1이 제1 염색체 또는 선택된 제1 콘틱 서열 내의 선택된 시작 위치이고,
    N2가 제1 염색체 또는 선택된 제1 콘틱 서열 내의 선택된 종결 위치인 시스템.
  69. 제66항에 있어서, 상기 표현 신텍스이 X1:N1이고,
    X1이 선택된 제1 염색체 또는 선택된 제1 콘틱 서열의 주체이며,
    N1이 제1 염색체 또는 선택된 제1 콘틱 서열의 원점에서 시작되는 뉴클레오티드의 수인 시스템.
  70. 제66항에 있어서, 상기 표현 신텍스이 Y1, Y2, …, YN이고,
    Y1, Y2, …, YN에서 각각의 Yi가 선택된 유전자의 영숫자 식별 (alphanumeric identification), 염색체 영역의 선택, 또는 콘틱 서열의 영역의 선택인 시스템.
  71. 제70항에 있어서, Y1, Y2, …, YN에서 첫 번째 Yi가 신텍스 X1:N1-N2를 가지는 제1 염색체 또는 제1 콘틱 서열의 주체이고, X1이 제1 염색체 또는 제1 콘틱 서열의 주체이며, N1이 제1 염색체 또는 제1 콘틱 서열 내의 선택된 시작 위치이고, N2가 제1 염색체 또는 제1 콘틱 서열 내의 선택된 종결 위치이며,
    Y1, Y2, …, YN에서 제2 Yi가 선택된 유전자의 영숫자 식별인 시스템.
  72. 제70항에 있어서, Y1, Y2, …, YN에서 첫 번째 Yi가 신텍스 X1:N1-N2를 가지는 제1 염색체 또는 제1 콘틱 서열의 주체이고, X1이 제1 염색체 또는 제1 콘틱 서열의 주체이며, N1이 제1 염색체 또는 제1 콘틱 서열 내의 선택된 시작 위치이고, N2가 제1 염색체 또는 제1 콘틱 서열 내의 선택된 종결 위치이며,
    Y1, Y2, …, YN에서 제2 Yi가 선택된 유전자의 영숫자 식별인 시스템.
  73. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 요청은, 유전자의 영숫자 엔트리 (alphanumeric entry)를 게놈 좌표와 일치시키는 하나 이상의 조회 표에 대한 상기 요청의 비교에 의해, 인간의 개입 없이, 게놈 좌표로 변환되는 시스템.
  74. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 요청은 하나 이상의 유전자 명칭, 하나 이상의 게놈 좌표, 또는 이들의 조합을 포함하는 시스템.
  75. 제1항 내지 제74항 중 어느 한 항에 있어서, 상기 요청을 얻는 단계는 사용자에 의해 이뤄진 이전의 요청에 디스플레이함으로써 촉진되는 시스템.
  76. 제1항 내지 제74항 중 어느 한 항에 있어서, 상기 요청을 얻는 단계는, 사용자에 의해 제공된 일부 요청과 일치하는 조회 표로부터 얻어진 검색 표현을 사용자에 디스플레이함으로써 촉진되는 시스템.
  77. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 개별 샘플이 복수의 종의 게놈과 관련되고, 제1 종의 게놈의 적어도 일부 및 제2 종의 게놈의 일부를 포함하는 시스템.
  78. 제77항에 있어서, 제1 종의 게놈 일부가 제2 종의 게놈 일부에 통합되는 시스템.
  79. 제78항에 있어서, 제1 종이 레트로바이러스인 시스템.
  80. 제77항에 있어서, 제1 종의 게놈 일부가 제2 종의 게놈 일부에 통합되지 않는 시스템.
  81. 로컬 컴퓨터를 사용하여, 네트워크 연결을 통해 프로그램 출력을 처리하기 위한 시스템으로서, 상기 로컬 컴퓨터가 하나 이상의 마이크로프로세서 및 하나 이상의 프로그램을 저장하는 메모리를 포함하고, 상기 하나 이상의 프로그램이 상기 하나 이상의 마이크로프로세서를 사용하여, 상기 로컬 컴퓨터상에서 실행되는 제1 작동 시스템에 따라 하나의 방법이 실행되도록 하며, 상기 방법이:
    (A) 제1 프로그램의 제1 인스턴스를 인보크하는 단계;
    (B) 사용자로부터의 제1 프로그램의 제1 인스턴스를 통해 원격 컴퓨터상의 사용자 계정에 로그인 및 패스워드를 얻는 단계;
    (C) 상기 로컬 컴퓨터와 상기 원격 컴퓨터 간의 네트워크 연결을 통해 제1 프로그램의 제1 인스턴스에 의해 제공된 로그인과 패스워드를 사용하여, 상기 원격 컴퓨터의 사용자 계정에 사용자를 자동으로 로그인시키는 단계;
    (D) 상기 원격 컴퓨터로의 성공적인 로그인에 반응하여, 상기 원격 컴퓨터로의 전송시 상기 원격 컴퓨터에 자동 설치되도록 구성된 제1 프로그램의 제2 인스턴스를 인간의 개입 없이 자동으로 송신하는 단계;
    (E) 제1 프로그램의 제1 인스턴스 내의 패널을 오픈하라는 요청을 상기 원격 컴퓨터로부터 수신하는 단계로서, 상기 패널이 상기 원격 컴퓨터에서 실행되는 제1 프로그램의 상기 제2 인스턴스에 의해 유도되고, 상기 패널이 제1 프로그램의 제2 인스턴스를 제어하기 위해 사용자로부터 입력을 요청하는 단계;
    (F) 상기 로컬 컴퓨터상의 패널에서 제1 프로그램의 제2 인스턴스를 제어하기 위해, 사용자로부터의 입력을 수신한 것에 반응하여, 상기 원격 컴퓨터상의 제1 프로그램의 제2 인스턴스에 상기 입력을 송신하는 단계; 및
    (G) 상기 입력에 반응하여, 상기 네트워크 연결을 통해 상기 원격 컴퓨터로부터 제1 프로그램의 제2 인스턴스로부터 출력을 수신하고, 상기 로컬 컴퓨터에 상기 출력을 디스플레이하는 단계를 포함하는 시스템.
  82. 제81항에 있어서, 원격 컴퓨터가 서버 컴퓨터이고, 상기 로컬 컴퓨터가 데스크톱 컴퓨터 또는 랩탑 컴퓨터인 시스템.
  83. 제81항에 있어서, 제1 작동 시스템이 상기 제2 작동 시스템 이외의 것인 시스템.
  84. 제81항에 있어서, 상기 수신 단계 (E)가 사용자로부터 암호 키(encryption key)를 추가로 요청하고, 클라이언트 컴퓨터상의 제1 인스턴스와 상기 원격 컴퓨터상의 제2 인스턴스 간의 통신이 암호화되는 시스템.
  85. 제81항에 있어서, 상기 원격 컴퓨터가 영구 메모리 및 비 영구 메모리를 포함하며, 상기 영구 메모리 및 비 영구 메모리가 하나 이상의 핵산 서열 데이터 세트를 집합적으로 저장하고,
    하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트가 복수의 샘플 중 개별 샘플의 적어도 하나의 표적 핵산에 대응하며,
    상기 개별 샘플이 하나의 종의 게놈과 관련되고,
    상기 개별 핵산 서열 분석 데이터 세트가 (i) 헤더, (ii) 시놉시스, 및 (iii) 데이터 섹션을 포함하며,
    상기 데이터 섹션이 복수의 서열 분석 판독을 포함하고,
    복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 개별 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 개별 서열 분석 판독을 위한 개별 식별자를 인코딩하는 제2 부분을 포함하며,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하며,
    복수의 서열 분석 판독이 복수의 식별자를 집합적으로 포함하고,
    제1 프로그램의 제2 인스턴스를 제어하기 위해, 사용자로부터 수신된 입력이, 하나 이상의 데이터 세트 중 제1 데이터 세트를 사용한 구조 변이 또는 위상 조정 정보에 대한 요청이고,
    요청을 얻은 것에 반응하여, 제1 프로그램의 제2 인스턴스가
    (i) 상기 비 영구 메모리에 아직 로딩되지 않은 경우, 상기 영구 메모리에 상기 데이터 섹션을 유지하면서, 제1 데이터 세트의 헤더 및 시놉시스를 상기 비 영구 메모리에 로딩하는 단계,
    (ii) 상기 요청을 제1 데이터 세트의 시놉시스와 비교하여, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별하는 단계,
    (iii) 상기 데이터 섹션의 하나 이상의 식별 부분을 비 영구 메모리에 로딩하는 단계로서,
    (iv) 제1 프로그램의 제1 인스턴스의 패널에 디스플레이하기 위해, 제1 데이터 세트를 사용하여, 구조 변이 또는 위상 조정 정보를 포맷화하는 단계, 및
    (v) 네트워크 연결을 통해, 제1 프로그램의 제2 인스턴스로부터의 출력으로서, 포맷화된 구조 변이 또는 위상 조정 정보를 제1 패널에 디스플레이하기 위해, 로컬 컴퓨터에 전송하는 단계에 의해, 상기 요청을 필터링 (filtering)하는 시스템.
  86. 핵산 서열 분석 데이터를 보기 위한 시스템으로서, 상기 시스템이 하나 이상의 마이크로프로세서 및 메모리를 포함하며, 상기 메모리가, 하나 이상의 마이크로프로세서를 사용하는 하나 이상의 프로그램을 저장하여:
    샘플에서 적어도 하나의 표적 핵산에 대응하는 핵산 서열 분석 데이터 세트를 얻고, 여기서, 상기 핵산 서열 분석 데이터 세트가 상기 샘플로부터의 복수의 서열 분석 판독을 포함하며,
    상기 복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 개별 서열 분석 판독을 위한 개별 식별자를 인코딩하는 제2 부분을 포함하며,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하고,
    상기 복수의 서열 분석 판독이 상기 복수의 식별자를 집합적으로 포함하며,
    시각화 툴을 디스플레이하고,
    상기 시각화 툴을 통해 사용자로부터 상기 핵산 서열 분석 데이터 세트에 의해 표시된 게놈 영역을 지정하는 요청을 얻으며;
    얻어된 요청에 반응하여, 상기 요청을
    (i) 상기 핵산 서열 분석 데이터 세트로부터 상기 게놈 영역 내의 복수의 서열 분석 판독을 얻는 단계,
    (ii) 상기 복수의 서열 분석 판독에 대해 스캔 창을 실행시켜, 복수의 창을 생성하는 단계로서, 상기 복수의 창 중 각각의 개별 창이 상기 게놈 영역 중 상이한 영역에 대응하고, 상기 핵산 서열 분석 데이터 세트에서 게놈 영역 중 상이한 영역의 각각의 서열 분석 판독의 각각의 식별자 중 하나의 식별자를 포함하는 단계, 및
    (iii) 상기 복수의 창 중 가능한 각각의 창 쌍을 표시하는 2차원 히트 맵 (two dimensional heat map)을 디스플레이하는 단계로서, 각각의 개별 창 쌍이, 상기 개별 창 쌍의 공통 식별자의 수에 기초하여, 컬러 도식으로부터 선택된 컬러로서 상기 2차원 히트 맵에 디스플레이되는 단계에 의해 파싱하는 시스템.
  87. 제86항에 있어서, 상기 시각화 툴이 숨겨진 예상 중첩 어포던스를 제공하고,
    사용자가 상기 숨겨진 예상 중첩 어포던스를 끌어오는 경우, 참조 게놈에 따라 서로 인접할 것으로 예상되는 서열 분석 판독의 식별자가 상기 개별 창 쌍의 공통 식별자의 수의 개수에 기여하지 않으며,
    사용자가 상기 숨겨진 예상 중첩 어포던스를 끌어오지 않는 경우, 참조 게놈에 따라 서로 인접할 것으로 예상되는 서열 분석 판독의 식별자가 상기 개별 창 쌍의 공통 식별자의 수의 개수에 기여하는 시스템.
  88. 제86항에 있어서, 상기 시각화 툴이 특질 어포던스를 제공하고,
    사용자가 상기 특질 어포던스를 끌어오는 경우, 참조 게놈 내의 위치에 상기 개별 서열 판독의 할당의 특질을 정량화하는 특질 임계치를 만족시키지 않는 개별 서열 분석 판독의 식별자가 상기 개별 창 쌍의 공통 식별자의 수의 개수에 기여하지 않으며,
    사용자가 상기 특질 어포던스를 끌어오지 않는 경우, 참조 게놈 내의 위치에 상기 개별 서열 판독의 할당의 특질을 정량화하는 특질 임계치를 만족시키지 않는 개별 서열 분석 판독의 식별자가 상기 개별 창 쌍의 공통 식별자의 수의 개수에 기여하는 시스템.
  89. 제86항에 있어서, 상기 시각화 툴이 상기 히트 맵을 줌하기 위한 줌 어포던스를 제공하는 시스템.
  90. 제86항에 있어서, 상기 시각화 툴이 상기 히트 맵을 패닝 (pan)할 수 있는 팬 어포던스 (pan affordance)를 제공하는 시스템.
  91. 네트워크 연결을 통해 구조 변이 또는 위상 조정 정보를 원격 클라이언트 컴퓨터로 제공하기 위한 방법으로서, 상기 방법이
    하나 이상의 마이크로프로세서, 영구 메모리 및 비 영구 메모리를 포함하고, 상기 영구 메모리 및 비 영구 메모리가 하나 이상의 핵산 서열 데이터 세트를 집합적으로 저장하는 시스템으로서,
    하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트가 복수의 샘플 중 각각의 샘플의 적어도 하나의 표적 핵산에 대응하고,
    상기 각각의 샘플이 적어도 하나의 종의 게놈과 관련되며,
    상기 각각의 핵산 서열 분석 데이터 세트가 (i) 헤더, (ii) 시놉시스 및 (iii) 데이터 섹션을 포함하고,
    상기 데이터 섹션이 복수의 서열 분석 판독을 포함하며,
    상기 복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 개별 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 상기 각각의 서열 분석 판독을 위한 각각의 식별자를 인코딩하는 제2 부분을 포함하고,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하며,
    상기 복수의 서열 분석 판독이 상기 복수의 식별자를 집합적으로 포함하는 시스템에서,
    (A) 원격 클라이언트 컴퓨터상에 설치하기 위한 시각화 툴을 제공하는 단계;
    (B) 상기 하나 이상의 데이터 세트 중 제1 데이터 세트를 사용하여, 네트워크 연결을 통해, 사용자로부터 원격 클라이언트 컴퓨터로부터 송신된 구조 변이 또는 위상 조정 정보에 대한 요청을 얻는 단계; 및
    (C) 요청을 얻은 것에 반응하여,
    (i) 상기 비 영구 메모리에 아직 로딩되지 않은 경우, 영구 메모리에 상기 데이터 섹션을 유지하면서, 제1 데이터 세트의 헤더 및 시놉시스를 상기 비 영구 메모리에 로딩하는 단계,
    (ii) 상기 요청을 제1 데이터 세트의 시놉시스와 비교하여, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별하는 단계,
    (iii) 상기 데이터 섹션의 하나 이상의 식별 부분을 비 영구 메모리에 로딩하는 단계로서, 상기 로딩이 상기 데이터 섹션 전체보다 적게 로딩되는 단계,
    (iv) 클라이언트 컴퓨터상에 디스플레이하기 위해, 제1 데이터 세트를 사용하여, 구조 변이 또는 위상 조정 정보를 포맷화하는 단계, 및
    (v) 원격 클라이언트 컴퓨터상에 디스플레이하기 위해, 네트워크 연결을 통해, 원격 클라이언트 컴퓨터로 포맷화된 구조 변이 또는 위상 조정 정보를 전송하는 단계에 의해, 상기 요청을 자동 파싱하는 단계를 포함하는 방법.
  92. 구조 변이 또는 위상 조정 정보를 제공하기 위한 방법으로서, 상기 방법이
    하나 이상의 마이크로프로세서, 영구 메모리 및 비영구 메모리를 포함하고, 상기 영구 메모리 및 비영구 메모리가 하나 이상의 핵산 서열 데이터 세트를 집합적으로 저장하는 시스템으로서,
    하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트가 복수의 샘플 중 각각의 샘플의 적어도 하나의 표적 핵산에 대응하고,
    상기 각각의 샘플이 적어도 하나의 종의 게놈과 관련되며,
    상기 각각의 핵산 서열 분석 데이터 세트가 (i) 헤더, (ii) 시놉시스 및 (iii) 데이터 섹션을 포함하고,
    상기 데이터 섹션이 복수의 서열 분석 판독을 포함하며,
    상기 복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 개별 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 상기 개별 서열 분석 판독을 위한 개별 식별자를 인코딩하는 제2 부분을 포함하고,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하며,
    상기 복수의 서열 분석 판독이 상기 복수의 식별자를 집합적으로 포함하는 시스템에서,
    (A) 시각화 툴을 제공하는 단계;
    (B) 상기 하나 이상의 데이터 세트 중 제1 데이터 세트를 사용하여, 시각화 툴을 통해, 사용자로부터 구조 변이 또는 위상 조정 정보에 대한 요청을 얻는 단계; 및
    (C) 요청을 얻은 것에 반응하여,
    (i) 상기 비 영구 메모리에 아직 로딩되지 않은 경우, 영구 메모리에 상기 데이터 섹션을 유지하면서, 제1 데이터 세트의 헤더 및 시놉시스를 상기 비 영구 메모리에 로딩하는 단계,
    (ii) 서열 정보에 대한 요청을 제1 데이터 세트의 시놉시스와 비교하여, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별하는 단계,
    (iii) 상기 데이터 섹션의 하나 이상의 식별 부분을 비 영구 메모리에 로딩하는 단계로서, 상기 로딩이 상기 데이터 섹션 전체보다 적게 로딩되는 단계,
    (iv) 시각화 툴에 디스플레이하기 위해, 제1 데이터 세트를 사용하여, 구조 변이 또는 위상 조정 정보를 포맷화하는 단계, 및
    (v) 상기 시각화 툴에 포맷화된 구조 변이 또는 위상 조정 정보를 디스플레이하는 단계에 의해, 상기 요청을 자동 파싱하는 단계를 포함하는 방법.
  93. 네트워크 연결을 통해 원격 컴퓨터로부터 구조 변이 또는 위상 조정 정보를 얻기 위한 방법으로서, 상기 방법이,
    하나 이상의 마이크로프로세서 및 하나 이상의 프로그램을 저장하는 메모리를 포함하는 시스템에서,
    (A) 시각화 툴을 인보크하는 단계;
    (B) 상기 시각화 툴을 통해, 상기 원격 컴퓨터에 저장된 하나 이상의 핵산 서열 분석 데이터 세트 중에서 제1 핵산 서열 분석 데이터 세트의 구조 변이 또는 위상 조정 정보에 대한 요청을 사용자로부터 얻는 단계로서, 하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트가 복수의 샘플 중 개별 샘플의 적어도 하나의 표적 핵산에 대응하며,
    상기 각각의 샘플이 적어도 하나의 종의 게놈과 관련되고,
    상기 각각의 핵산 서열 분석 데이터 세트가 (i) 헤더, (ii) 시놉시스, 및 (iii) 데이터 섹션을 포함하며,
    상기 데이터 섹션이 복수의 서열 분석 판독을 포함하고,
    복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 개별 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 각각의 서열 분석 판독을 위한 각각의 식별자를 인코딩하는 제2 부분을 포함하며,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하고,
    상기 각각의 서열 분석 판독이 상기 복수의 식별자를 집합적으로 포함하는 단계,
    (C) 상기 네트워크 연결을 통해 상기 원격 컴퓨터에 상기 요청을 송신하는 단계로서, 상기 원격 컴퓨터가 영구 메모리 및 비 영구 메모리를 갖추어,
    (i) 상기 비 영구 메모리에 아직 로딩되지 않은 경우, 상기 영구 메모리에 상기 데이터 섹션을 유지하면서, 제1 데이터 세트의 헤더 및 시놉시스를 상기 비 영구 메모리에 로딩하는 단계,
    (ii) 서열 정보에 대한 요청을 제1 데이터 세트의 시놉시스와 비교하여, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별하는 단계,
    (iii) 상기 데이터 섹션의 하나 이상의 식별 부분을 비 영구 메모리에 로딩하는 단계로서, 상기 로딩이 상기 데이터 섹션 전체보다 적게 로딩되는 단계, 및
    (iv) 구조 변이 또는 위상 조정 정보를 포맷화하는 단계를 포함하는 방법을 실행하도록 상기 원격 컴퓨터를 유도하는 단계; 및
    (D) 상기 시각화 툴에 디스플레이하기 위해, 네트워크 연결을 통해 상기 원격 컴퓨터로부터 포맷화된 구조 변이 또는 위상 조정 정보를 수신하는 단계를 포함하는 방법.
  94. 구조 변이 또는 위상 조정 정보를 제공하기 위한 방법으로서, 상기 방법이
    하나 이상의 마이크로프로세서 및 메모리를 포함하는 시스템으로서, 상기 시스템이 하나 이상의 핵산 서열 데이터 세트에 대한 엑세스를 가지며,
    상기 하나 이상의 핵산 서열 데이터 세트 중 각각의 개별 핵산 서열 분석 데이터 세트가 복수의 샘플 중 각각의 샘플의 적어도 하나의 표적 핵산에 대응하고,
    상기 각각의 샘플이 적어도 하나의 종의 게놈과 관련되며,
    상기 각각의 핵산 서열 분석 데이터 세트가 (i) 헤더, (ii) 시놉시스, 및 (iii) 데이터 섹션을 포함하고,
    상기 데이터 섹션이 복수의 서열 분석 판독을 포함하며,
    상기 복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 개별 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 각각의 서열 분석 판독을 위한 각각의 식별자를 인코딩하는 제2 부분을 포함하고,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하며,
    상기 복수의 서열 분석 판독이 상기 복수의 식별자를 집합적으로 포함하는 시스템에서,
    (A) 시각화 툴을 제공하는 단계;
    (B) 상기 하나 이상의 데이터 세트 중 제1 데이터 세트를 사용하여, 상기 시각화 툴을 통해, 사용자로부터 구조 변이 또는 위상 조정 정보에 대한 요청을 얻는 단계, 및
    (C) 요청을 얻은 것에 반응하여,
    (i) 제1 데이터 세트의 시놉시스와 서열 정보에 대한 요청을 비교하여, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분을 식별하는 단계,
    (ii) 상기 시각화 툴에 디스플레이하기 위해, 제1 데이터 세트의 데이터 섹션의 식별된 하나 이상의 부분을 사용하여, 구조 변이 또는 위상 조정 정보를 포맷화하는 단계로서, 제1 데이터 세트의 데이터 섹션의 하나 이상의 부분이 제1 데이터 세트의 데이터 섹션 전체보다 적은 단계, 및
    (iii) 상기 시각화 툴에 포맷화된 구조 변이 또는 위상 조정 정보를 디스플레이하는 단계에 의해, 상기 요청을 자동 파싱하는 단계를 포함하는 방법.
  95. 네트워크 연결을 통해 프로그램 출력을 처리하기 위한 방법으로서, 상기 방법이:
    로컬 컴퓨터로서, 상기 로컬 컴퓨터가 하나 이상의 마이크로프로세서 및 하나 이상의 프로그램을 저장하는 메모리를 포함하는 로컬 컴퓨터에서,
    (A) 제1 프로그램의 제1 인스턴스를 인보크하는 단계;
    (B) 사용자로부터의 제1 프로그램의 제1 인스턴스를 통해 원격 컴퓨터상의 사용자 계정에 로그인 및 패스워드를 얻는 단계;
    (C) 상기 로컬 컴퓨터와 상기 원격 컴퓨터 간의 네트워크 연결을 통해 제1 프로그램의 제1 인스턴스에 의해 제공된 로그인과 패스워드를 사용하여, 상기 원격 컴퓨터의 사용자 계정에 사용자를 자동으로 로그인시키는 단계;
    (D) 상기 원격 컴퓨터로의 성공적인 로그인에 반응하여, 상기 원격 컴퓨터로의 전송시 상기 원격 컴퓨터에 자동 설치되도록 구성된 제1 프로그램의 제2 인스턴스를 인간의 개입 없이 자동으로 송신하는 단계;
    (E) 제1 프로그램의 제1 인스턴스 내의 패널을 오픈하라는 요청을 상기 원격 컴퓨터로부터 수신하는 단계로서, 상기 패널이 상기 원격 컴퓨터에서 실행되는 제1 프로그램의 상기 제2 인스턴스에 의해 유도되고, 상기 패널이 제1 프로그램의 제2 인스턴스를 제어하기 위해 사용자로부터 입력을 요청하는 단계;
    (F) 상기 로컬 컴퓨터상의 패널에서 제1 프로그램의 제2 인스턴스를 제어하기 위해, 사용자로부터의 입력을 수신한 것에 반응하여, 상기 원격 컴퓨터상의 제1 프로그램의 제2 인스턴스에 상기 입력을 송신하는 단계; 및
    (G) 상기 입력에 반응하여, 상기 네트워크 연결을 통해 상기 원격 컴퓨터로부터 제1 프로그램의 제2 인스턴스로부터 출력을 수신하고, 상기 로컬 컴퓨터에 상기 출력을 디스플레이하는 단계를 포함하는 방법.
  96. 핵산 서열 분석 데이터를 보기 위한 방법으로서, 상기 방법이:
    하나 이상의 마이크로프로세서 및 메모리를 포함하는 시스템으로서, 상기 메모리가, 하나 이상의 마이크로프로세서를 사용하는 하나 이상의 프로그램을 저장하는 시스템에서:
    샘플에서 적어도 하나의 표적 핵산에 대응하는 핵산 서열 분석 데이터 세트를 얻는 단계로서, 상기 핵산 서열 분석 데이터 세트가 상기 샘플로부터의 복수의 서열 분석 판독을 포함하고,
    상기 복수의 서열 분석 판독 중 각각의 개별 서열 분석 판독이, 상기 샘플의 적어도 하나의 표적 핵산의 서브 세트에 대응하는 제1 부분 및 복수의 식별자 중 개별 서열 분석 판독을 위한 개별 식별자를 인코딩하는 제2 부분을 포함하며,
    각각의 개별 식별자가 적어도 하나의 표적 핵산의 서열과 무관하고,
    상기 복수의 서열 분석 판독이 상기 복수의 식별자를 집합적으로 포함하는 단계,
    시각화 툴을 디스플레이하는 단계,
    상기 시각화 툴을 통해 사용자로부터 상기 핵산 서열 분석 데이터 세트에 의해 표시된 게놈 영역을 지정하는 요청을 얻는 단계; 및
    요청을 얻은 것에 반응하여, 상기 요청을
    (i) 상기 핵산 서열 분석 데이터 세트로부터 상기 게놈 영역 내의 복수의 서열 분석 판독을 얻는 단계,
    (ii) 상기 복수의 서열 분석 판독에 대해 스캔 창을 실행시켜, 복수의 창을 생성하는 단계로서, 상기 복수의 창 중 각각의 개별 창이 상기 게놈 영역 중 상이한 영역에 대응하고, 상기 핵산 서열 분석 데이터 세트에서 게놈 영역 중 상이한 영역의 각각의 서열 분석 판독의 각각의 식별자 중 하나의 식별자를 포함하는 단계, 및
    (iii) 상기 복수의 창 중 가능한 각각의 창 쌍을 표시하는 2차원 히트 맵을 디스플레이하는 단계로서, 각각의 개별 창 쌍이, 상기 개별 창 쌍의 공통 식별자의 수에 기초하여, 컬러 도식으로부터 선택된 컬러로서 상기 2차원 히트 맵에 디스플레이되는 단계에 의해 파싱하는 단계를 포함하는 방법.
  97. 제96항에 있어서, 상기 2차원 히트 맵의 창 쌍이 상기 샘플에 대응하는 표준 게놈에서 100 킬로베이스 이상 서로 분리되어 있는 제1 창 및 제2 창을 표시하는 방법.
  98. 제96항에 있어서, 상기 2차원 히트 맵의 창 쌍이 상기 샘플에 대응하는 표준 게놈에서 1 메가베이스 이상 서로 분리되어 있는 제1 창 및 제2 창을 표시하는 방법.
  99. 제96항에 있어서, 상기 2차원 히트 맵의 창 쌍이 상기 샘플에 대응하는 표준 게놈에서 5 메가베이스 이상 서로 분리되어 있는 제1 창 및 제2 창을 표시하는 방법.
  100. 제96항에 있어서, 상기 개별 창 쌍의 공통 식별자의 수가, 상기 샘플에 대응하는 표준 게놈 서열에 기초하여 서로 근접할 것으로 예상되는 바코드를 제거하기 위해, 다운 웨이팅 (down-weight)되는 방법.
  101. 제96항에 있어서, 상기 복수의 서열 분석 판독이 평균 단편 길이를 특징으로 하고, 상기 개별 창 쌍의 공통 식별자의 수가, 상기 샘플에 대응하는 표준 게놈 서열에 기초하여 서로 평균 단편 길이의 배수 (multiple) 이내일 것으로 예상되는 바코드를 제거하기 위해, 다운 웨이팅되는 방법.
  102. 제101항에 있어서, 상기 배수가 0과 1 사이의 실수인 방법.
  103. 제101항에 있어서, 상기 배수가 1 이상의 실수인 방법.
  104. 제101항에 있어서, 상기 배수가 양의 정수인 방법.
KR1020177021184A 2015-01-13 2016-01-13 구조 변이 및 위상 조정 정보를 시각화하기 위한 시스템 및 방법 KR20170106979A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562102926P 2015-01-13 2015-01-13
US62/102,926 2015-01-13
US201562120873P 2015-02-25 2015-02-25
US62/120,873 2015-02-25
PCT/US2016/013290 WO2016115273A1 (en) 2015-01-13 2016-01-13 Systems and methods for visualizing structural variation and phasing information

Publications (1)

Publication Number Publication Date
KR20170106979A true KR20170106979A (ko) 2017-09-22

Family

ID=56367713

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177021184A KR20170106979A (ko) 2015-01-13 2016-01-13 구조 변이 및 위상 조정 정보를 시각화하기 위한 시스템 및 방법

Country Status (11)

Country Link
US (2) US10650912B2 (ko)
EP (2) EP4092681A1 (ko)
JP (1) JP2018508852A (ko)
KR (1) KR20170106979A (ko)
CN (1) CN107209814B (ko)
AU (2) AU2016206706B2 (ko)
CA (1) CA2968417A1 (ko)
IL (1) IL252415A0 (ko)
MX (1) MX2017008916A (ko)
SG (2) SG10201811337XA (ko)
WO (1) WO2016115273A1 (ko)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396283B2 (en) 2010-10-22 2016-07-19 Daniel Paul Miranker System for accessing a relational database using semantic queries
US9701998B2 (en) 2012-12-14 2017-07-11 10X Genomics, Inc. Methods and systems for processing polynucleotides
US11591637B2 (en) 2012-08-14 2023-02-28 10X Genomics, Inc. Compositions and methods for sample processing
US10323279B2 (en) 2012-08-14 2019-06-18 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10584381B2 (en) 2012-08-14 2020-03-10 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10752949B2 (en) 2012-08-14 2020-08-25 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10533221B2 (en) 2012-12-14 2020-01-14 10X Genomics, Inc. Methods and systems for processing polynucleotides
EP3862435A1 (en) 2013-02-08 2021-08-11 10X Genomics, Inc. Polynucleotide barcode generation
US9824068B2 (en) 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
US11155809B2 (en) 2014-06-24 2021-10-26 Bio-Rad Laboratories, Inc. Digital PCR barcoding
AU2015279548B2 (en) 2014-06-26 2020-02-27 10X Genomics, Inc. Methods of analyzing nucleic acids from individual cells or cell populations
SG11201705615UA (en) 2015-01-12 2017-08-30 10X Genomics Inc Processes and systems for preparing nucleic acid sequencing libraries and libraries prepared using same
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US11371094B2 (en) 2015-11-19 2022-06-28 10X Genomics, Inc. Systems and methods for nucleic acid processing using degenerate nucleotides
SG11201806757XA (en) 2016-02-11 2018-09-27 10X Genomics Inc Systems, methods, and media for de novo assembly of whole genome sequence data
US11086896B2 (en) * 2016-06-19 2021-08-10 Data.World, Inc. Dynamic composite data dictionary to facilitate data operations via computerized tools configured to access collaborative datasets in a networked computing platform
US11042537B2 (en) 2016-06-19 2021-06-22 Data.World, Inc. Link-formative auxiliary queries applied at data ingestion to facilitate data operations in a system of networked collaborative datasets
US11042560B2 (en) 2016-06-19 2021-06-22 data. world, Inc. Extended computerized query language syntax for analyzing multiple tabular data arrangements in data-driven collaborative projects
US10452677B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US10324925B2 (en) 2016-06-19 2019-06-18 Data.World, Inc. Query generation for collaborative datasets
US10853376B2 (en) 2016-06-19 2020-12-01 Data.World, Inc. Collaborative dataset consolidation via distributed computer networks
US11468049B2 (en) 2016-06-19 2022-10-11 Data.World, Inc. Data ingestion to generate layered dataset interrelations to form a system of networked collaborative datasets
US11675808B2 (en) 2016-06-19 2023-06-13 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US11042548B2 (en) 2016-06-19 2021-06-22 Data World, Inc. Aggregation of ancillary data associated with source data in a system of networked collaborative datasets
US11334625B2 (en) 2016-06-19 2022-05-17 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US11755602B2 (en) 2016-06-19 2023-09-12 Data.World, Inc. Correlating parallelized data from disparate data sources to aggregate graph data portions to predictively identify entity data
US11068847B2 (en) 2016-06-19 2021-07-20 Data.World, Inc. Computerized tools to facilitate data project development via data access layering logic in a networked computing platform including collaborative datasets
US10747774B2 (en) 2016-06-19 2020-08-18 Data.World, Inc. Interactive interfaces to present data arrangement overviews and summarized dataset attributes for collaborative datasets
US11036697B2 (en) 2016-06-19 2021-06-15 Data.World, Inc. Transmuting data associations among data arrangements to facilitate data operations in a system of networked collaborative datasets
US10438013B2 (en) 2016-06-19 2019-10-08 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11947554B2 (en) 2016-06-19 2024-04-02 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US10824637B2 (en) 2017-03-09 2020-11-03 Data.World, Inc. Matching subsets of tabular data arrangements to subsets of graphical data arrangements at ingestion into data driven collaborative datasets
US11042556B2 (en) 2016-06-19 2021-06-22 Data.World, Inc. Localized link formation to perform implicitly federated queries using extended computerized query language syntax
US11036716B2 (en) 2016-06-19 2021-06-15 Data World, Inc. Layered data generation and data remediation to facilitate formation of interrelated data in a system of networked collaborative datasets
US10645548B2 (en) 2016-06-19 2020-05-05 Data.World, Inc. Computerized tool implementation of layered data files to discover, form, or analyze dataset interrelations of networked collaborative datasets
US10353911B2 (en) 2016-06-19 2019-07-16 Data.World, Inc. Computerized tools to discover, form, and analyze dataset interrelations among a system of networked collaborative datasets
US10452975B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11023104B2 (en) 2016-06-19 2021-06-01 data.world,Inc. Interactive interfaces as computerized tools to present summarization data of dataset attributes for collaborative datasets
US11941140B2 (en) 2016-06-19 2024-03-26 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
EP3497233B1 (en) * 2016-08-08 2021-11-10 F. Hoffmann-La Roche AG Basecalling for stochastic sequencing processes
CN109804565B (zh) * 2016-09-30 2023-06-13 微软技术许可有限责任公司 有噪声的多核苷酸序列读段的高效聚类
US10815525B2 (en) 2016-12-22 2020-10-27 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10550429B2 (en) 2016-12-22 2020-02-04 10X Genomics, Inc. Methods and systems for processing polynucleotides
CN106685716B (zh) * 2016-12-29 2019-04-26 平安科技(深圳)有限公司 网络拓扑自适应的数据可视化方法及装置
EP3545089B1 (en) 2017-01-30 2022-03-09 10X Genomics, Inc. Methods and systems for droplet-based single cell barcoding
US10995333B2 (en) 2017-02-06 2021-05-04 10X Genomics, Inc. Systems and methods for nucleic acid preparation
US11238109B2 (en) 2017-03-09 2022-02-01 Data.World, Inc. Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
US11068453B2 (en) 2017-03-09 2021-07-20 data.world, Inc Determining a degree of similarity of a subset of tabular data arrangements to subsets of graph data arrangements at ingestion into a data-driven collaborative dataset platform
US10176296B2 (en) * 2017-05-17 2019-01-08 International Business Machines Corporation Algebraic phasing of polyploids
US10544413B2 (en) 2017-05-18 2020-01-28 10X Genomics, Inc. Methods and systems for sorting droplets and beads
CN117143960A (zh) 2017-05-18 2023-12-01 10X基因组学有限公司 用于分选液滴和珠的方法和系统
US20190064173A1 (en) 2017-08-22 2019-02-28 10X Genomics, Inc. Methods of producing droplets including a particle and an analyte
US10590244B2 (en) 2017-10-04 2020-03-17 10X Genomics, Inc. Compositions, methods, and systems for bead formation using improved polymers
US10837047B2 (en) 2017-10-04 2020-11-17 10X Genomics, Inc. Compositions, methods, and systems for bead formation using improved polymers
WO2019084043A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. METHODS AND SYSTEMS FOR NUCLEIC ACID PREPARATION AND CHROMATIN ANALYSIS
WO2019083852A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. MICROFLUIDIC CHANNEL NETWORKS FOR PARTITIONING
EP3700672B1 (en) 2017-10-27 2022-12-28 10X Genomics, Inc. Methods for sample preparation and analysis
WO2019099751A1 (en) 2017-11-15 2019-05-23 10X Genomics, Inc. Functionalized gel beads
US10829815B2 (en) 2017-11-17 2020-11-10 10X Genomics, Inc. Methods and systems for associating physical and genetic properties of biological particles
WO2019108851A1 (en) 2017-11-30 2019-06-06 10X Genomics, Inc. Systems and methods for nucleic acid preparation and analysis
GB2589159B (en) 2017-12-29 2023-04-05 Clear Labs Inc Nucleic acid sequencing apparatus
EP3752832A1 (en) 2018-02-12 2020-12-23 10X Genomics, Inc. Methods characterizing multiple analytes from individual cells or cell populations
US11639928B2 (en) 2018-02-22 2023-05-02 10X Genomics, Inc. Methods and systems for characterizing analytes from individual cells or cell populations
US10922308B2 (en) 2018-03-20 2021-02-16 Data.World, Inc. Predictive determination of constraint data for application with linked data in graph-based datasets associated with a data-driven collaborative dataset platform
US11243960B2 (en) 2018-03-20 2022-02-08 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
EP3775271A1 (en) 2018-04-06 2021-02-17 10X Genomics, Inc. Systems and methods for quality control in single cell processing
USD940732S1 (en) 2018-05-22 2022-01-11 Data.World, Inc. Display screen or portion thereof with a graphical user interface
USD940169S1 (en) 2018-05-22 2022-01-04 Data.World, Inc. Display screen or portion thereof with a graphical user interface
US11947529B2 (en) 2018-05-22 2024-04-02 Data.World, Inc. Generating and analyzing a data model to identify relevant data catalog data derived from graph-based data arrangements to perform an action
US11327991B2 (en) * 2018-05-22 2022-05-10 Data.World, Inc. Auxiliary query commands to deploy predictive data models for queries in a networked computing platform
US11442988B2 (en) 2018-06-07 2022-09-13 Data.World, Inc. Method and system for editing and maintaining a graph schema
US11932899B2 (en) 2018-06-07 2024-03-19 10X Genomics, Inc. Methods and systems for characterizing nucleic acid molecules
US11703427B2 (en) 2018-06-25 2023-07-18 10X Genomics, Inc. Methods and systems for cell and bead processing
US20200032335A1 (en) 2018-07-27 2020-01-30 10X Genomics, Inc. Systems and methods for metabolome analysis
CA3116710A1 (en) * 2018-10-17 2020-04-23 Quest Diagnostics Investments Llc Genomic sequencing selection system
US11459607B1 (en) 2018-12-10 2022-10-04 10X Genomics, Inc. Systems and methods for processing-nucleic acid molecules from a single cell using sequential co-partitioning and composite barcodes
US11845983B1 (en) 2019-01-09 2023-12-19 10X Genomics, Inc. Methods and systems for multiplexing of droplet based assays
US11851683B1 (en) 2019-02-12 2023-12-26 10X Genomics, Inc. Methods and systems for selective analysis of cellular samples
US11467153B2 (en) 2019-02-12 2022-10-11 10X Genomics, Inc. Methods for processing nucleic acid molecules
US11584953B2 (en) 2019-02-12 2023-02-21 10X Genomics, Inc. Methods for processing nucleic acid molecules
US11655499B1 (en) 2019-02-25 2023-05-23 10X Genomics, Inc. Detection of sequence elements in nucleic acid molecules
SG11202111242PA (en) 2019-03-11 2021-11-29 10X Genomics Inc Systems and methods for processing optically tagged beads
CN111370057B (zh) * 2019-07-31 2021-03-30 深圳思勤医疗科技有限公司 确定样本染色体结构变异信号强度以及插入片段长度分布特征的方法及应用
US11269836B2 (en) 2019-12-17 2022-03-08 Cerner Innovation, Inc. System and method for generating multi-category searchable ternary tree data structure
CN113053460A (zh) * 2019-12-27 2021-06-29 分子健康有限责任公司 用于基因组和基因分析的系统和方法
CN113436679A (zh) * 2020-03-23 2021-09-24 北京合生基因科技有限公司 确定待测核酸样本变异率的方法和系统
US11851700B1 (en) 2020-05-13 2023-12-26 10X Genomics, Inc. Methods, kits, and compositions for processing extracellular molecules
WO2021252805A1 (en) * 2020-06-11 2021-12-16 Data.World, Inc. Auxiliary query commands to deploy predictive data models for queries in a networked computing platform
AU2022227563A1 (en) 2021-02-23 2023-08-24 10X Genomics, Inc. Probe-based analysis of nucleic acids and proteins
CN113792008A (zh) * 2021-08-31 2021-12-14 北京百度网讯科技有限公司 网络拓扑结构的获取方法、装置、电子设备及存储介质
US11947600B2 (en) 2021-11-30 2024-04-02 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
CN116246715B (zh) * 2023-04-27 2024-04-16 倍科为(天津)生物技术有限公司 多样本基因突变数据存储方法、装置、设备及介质

Family Cites Families (264)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5949832B2 (ja) 1978-07-18 1984-12-05 ブラザー工業株式会社 電動ミシンにおける主軸定位置停止装置
US4916070A (en) 1986-04-14 1990-04-10 The General Hospital Corporation Fibrin-specific antibodies and method of screening for the antibodies
US5618711A (en) 1986-08-22 1997-04-08 Hoffmann-La Roche Inc. Recombinant expression vectors and purification methods for Thermus thermophilus DNA polymerase
US5202231A (en) 1987-04-01 1993-04-13 Drmanac Radoje T Method of sequencing of genomes by hybridization of oligonucleotide probes
US5525464A (en) 1987-04-01 1996-06-11 Hyseq, Inc. Method of sequencing by hybridization of oligonucleotide probes
US5149625A (en) 1987-08-11 1992-09-22 President And Fellows Of Harvard College Multiplex analysis of DNA
US5994056A (en) 1991-05-02 1999-11-30 Roche Molecular Systems, Inc. Homogeneous methods for nucleic acid amplification and detection
US5413924A (en) 1992-02-13 1995-05-09 Kosak; Kenneth M. Preparation of wax beads containing a reagent for release by heating
AU3816993A (en) 1992-03-19 1993-10-21 Regents Of The University Of California, The Multiple tag labeling method for DNA sequencing
DE69322774T2 (de) 1992-05-01 1999-06-17 Univ Pennsylvania Polynukleotide amplifikationsanalyse mit einer mikrofabrizierten vorrichtung
US5587128A (en) 1992-05-01 1996-12-24 The Trustees Of The University Of Pennsylvania Mesoscale polynucleotide amplification devices
US5512131A (en) 1993-10-04 1996-04-30 President And Fellows Of Harvard College Formation of microstamped patterns on surfaces and derivative articles
US20030044777A1 (en) 1993-10-28 2003-03-06 Kenneth L. Beattie Flowthrough devices for multiple discrete binding reactions
US5605793A (en) 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
JP3339026B2 (ja) 1994-05-11 2002-10-28 ジェネラ テクノロジーズ リミテッド 液体から種を捕獲する方法及び分析手法
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US6406848B1 (en) 1997-05-23 2002-06-18 Lynx Therapeutics, Inc. Planar arrays of microparticle-bound polynucleotides
EP0812434B1 (en) 1995-03-01 2013-09-18 President and Fellows of Harvard College Microcontact printing on surfaces and derivative articles
CA2222581C (en) 1995-06-07 2004-05-11 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
EP0832287B1 (en) 1995-06-07 2007-10-10 Solexa, Inc Oligonucleotide tags for sorting and identification
US5856174A (en) 1995-06-29 1999-01-05 Affymetrix, Inc. Integrated nucleic acid diagnostic device
US5851769A (en) 1995-09-27 1998-12-22 The Regents Of The University Of California Quantitative DNA fiber mapping
US5736330A (en) 1995-10-11 1998-04-07 Luminex Corporation Method and compositions for flow cytometric determination of DNA sequences
US5736332A (en) 1995-11-30 1998-04-07 Mandecki; Wlodek Method of determining the sequence of nucleic acids employing solid-phase particles carrying transponders
US6001571A (en) 1995-11-30 1999-12-14 Mandecki; Wlodek Multiplex assay for nucleic acids employing transponders
US6051377A (en) 1995-11-30 2000-04-18 Pharmaseq, Inc. Multiplex assay for nucleic acids employing transponders
US6355198B1 (en) 1996-03-15 2002-03-12 President And Fellows Of Harvard College Method of forming articles including waveguides via capillary micromolding and microtransfer molding
US5958703A (en) 1996-12-03 1999-09-28 Glaxo Group Limited Use of modified tethers in screening compound libraries
US20050042625A1 (en) 1997-01-15 2005-02-24 Xzillion Gmbh & Co. Mass label linked hybridisation probes
US6297006B1 (en) 1997-01-16 2001-10-02 Hyseq, Inc. Methods for sequencing repetitive sequences and for determining the order of sequence subfragments
US20020034737A1 (en) 1997-03-04 2002-03-21 Hyseq, Inc. Methods and compositions for detection or quantification of nucleic acid species
US7622294B2 (en) 1997-03-14 2009-11-24 Trustees Of Tufts College Methods for detecting target analytes and enzymatic reactions
US6327410B1 (en) 1997-03-14 2001-12-04 The Trustees Of Tufts College Target analyte sensors utilizing Microspheres
US6391622B1 (en) 1997-04-04 2002-05-21 Caliper Technologies Corp. Closed-loop biochemical analyzers
US6143496A (en) 1997-04-17 2000-11-07 Cytonix Corporation Method of sampling, amplifying and quantifying segment of nucleic acid, polymerase chain reaction assembly having nanoliter-sized sample chambers, and method of filling assembly
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US20040241759A1 (en) 1997-06-16 2004-12-02 Eileen Tozer High throughput screening of libraries
EP1019496B1 (en) 1997-07-07 2004-09-29 Medical Research Council In vitro sorting method
GB9714716D0 (en) 1997-07-11 1997-09-17 Brax Genomics Ltd Characterising nucleic acids
US6974669B2 (en) 2000-03-28 2005-12-13 Nanosphere, Inc. Bio-barcodes based on oligonucleotide-modified nanoparticles
AU8908198A (en) 1997-08-15 1999-03-08 Hyseq, Inc. Methods and compositions for detection or quantification of nucleic acid species
WO1999014368A2 (en) 1997-09-15 1999-03-25 Whitehead Institute For Biomedical Research Methods and apparatus for processing a sample of biomolecular analyte using a microfabricated device
US20020092767A1 (en) 1997-09-19 2002-07-18 Aclara Biosciences, Inc. Multiple array microfluidic device units
AU9673198A (en) 1997-10-02 1999-04-27 Aclara Biosciences, Inc. Capillary assays involving separation of free and bound species
WO1999019341A1 (en) 1997-10-10 1999-04-22 President & Fellows Of Harvard College Replica amplification of nucleic acid arrays
US6511803B1 (en) 1997-10-10 2003-01-28 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
US6485944B1 (en) 1997-10-10 2002-11-26 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
KR20010031140A (ko) 1997-10-14 2001-04-16 루미넥스 코포레이션 정밀 형광염료 입자 및 그의 제조방법 그리고 그의 사용
EP1036332B1 (en) 1997-12-04 2005-07-13 Amersham Biosciences UK Limited Multiple assay method
WO1999052708A1 (en) 1998-04-13 1999-10-21 Luminex Corporation Liquid labeling with fluorescent microparticles
US6780591B2 (en) 1998-05-01 2004-08-24 Arizona Board Of Regents Method of determining the nucleotide sequence of oligonucleotides and DNA molecules
JP2002531056A (ja) 1998-08-07 2002-09-24 セレイ, エルエルシー 遺伝子分析におけるゲルマイクロドロップ
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6489096B1 (en) 1998-10-15 2002-12-03 Princeton University Quantitative analysis of hybridization patterns and intensities in oligonucleotide arrays
WO2000026412A1 (en) 1998-11-02 2000-05-11 Kenneth Loren Beattie Nucleic acid analysis using sequence-targeted tandem hybridization
GB9900298D0 (en) 1999-01-07 1999-02-24 Medical Res Council Optical sorting method
US6635419B1 (en) 1999-02-16 2003-10-21 Applera Corporation Polynucleotide sequencing method
EP1163369B1 (en) 1999-02-23 2011-05-04 Caliper Life Sciences, Inc. Sequencing by incorporation
US6908737B2 (en) 1999-04-15 2005-06-21 Vitra Bioscience, Inc. Systems and methods of conducting multiplexed experiments
US6399952B1 (en) 1999-05-12 2002-06-04 Aclara Biosciences, Inc. Multiplexed fluorescent detection in microfluidic devices
US6372813B1 (en) 1999-06-25 2002-04-16 Motorola Methods and compositions for attachment of biomolecules to solid supports, hydrogels, and hydrogel arrays
US6524456B1 (en) 1999-08-12 2003-02-25 Ut-Battelle, Llc Microfluidic devices for the controlled manipulation of small volumes
AU6788100A (en) 1999-08-20 2001-03-19 Luminex Corporation Liquid array technology
US6982146B1 (en) 1999-08-30 2006-01-03 The United States Of America As Represented By The Department Of Health And Human Services High speed parallel molecular nucleic acid sequencing
US6958225B2 (en) 1999-10-27 2005-10-25 Affymetrix, Inc. Complexity management of genomic DNA
US6800298B1 (en) 2000-05-11 2004-10-05 Clemson University Biological lubricant composition and method of applying lubricant composition
US6645432B1 (en) 2000-05-25 2003-11-11 President & Fellows Of Harvard College Microfluidic systems including three-dimensionally arrayed channel networks
US20060263888A1 (en) 2000-06-02 2006-11-23 Honeywell International Inc. Differential white blood count on a disposable card
US6632606B1 (en) 2000-06-12 2003-10-14 Aclara Biosciences, Inc. Methods for single nucleotide polymorphism detection
CA2413978C (en) 2000-06-21 2008-12-16 Bioarray Solutions, Ltd. Multianalyte molecular analysis
EP1334347A1 (en) 2000-09-15 2003-08-13 California Institute Of Technology Microfabricated crossflow devices and methods
JP2005501217A (ja) 2000-10-10 2005-01-13 ディベルサ コーポレーション 生体活性または生体分子のハイスループットスクリーニングまたはキャピラリーに基づくスクリーニング
JP2002155305A (ja) 2000-11-14 2002-05-31 Akira Kawasaki 単分散粒子の製造装置及び単分散粒子の製造方法及びその製造方法で製造された単分散粒子
DE60229454D1 (de) 2001-02-23 2008-11-27 Japan Science & Tech Agency Vorrichtung und Verfahren zum Herstellen von Mikrokapseln
US20030027221A1 (en) 2001-04-06 2003-02-06 Scott Melissa E. High-throughput screening assays by encapsulation
US7572642B2 (en) 2001-04-18 2009-08-11 Ambrigen, Llc Assay based on particles, which specifically bind with targets in spatially distributed characteristic patterns
US6806058B2 (en) 2001-05-26 2004-10-19 One Cell Systems, Inc. Secretions of proteins by encapsulated cells
US6613523B2 (en) 2001-06-29 2003-09-02 Agilent Technologies, Inc. Method of DNA sequencing using cleavable tags
US6767731B2 (en) 2001-08-27 2004-07-27 Intel Corporation Electron induced fluorescent method for nucleic acid sequencing
US20030149307A1 (en) 2001-10-24 2003-08-07 Baxter International Inc. Process for the preparation of polyethylene glycol bis amine
WO2003038558A2 (en) 2001-10-30 2003-05-08 Nanomics Biosystems Pty, Ltd. Device and methods for directed synthesis of chemical libraries
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
AU2003210438A1 (en) 2002-01-04 2003-07-24 Board Of Regents, The University Of Texas System Droplet-based microfluidic oligonucleotide synthesis engine
EP1488006B1 (en) 2002-03-20 2008-05-28 InnovativeBio.Biz Microcapsules with controlable permeability encapsulating a nucleic acid amplification reaction mixture and their use as reaction compartments for parallels reactions
AU2003290508A1 (en) 2002-05-09 2004-05-13 The University Of Chicago Microfluidic device and method for pressure-driven plug transport and reaction
US7901939B2 (en) 2002-05-09 2011-03-08 University Of Chicago Method for performing crystallization and reactions in pressure-driven fluid plugs
JP2006507921A (ja) 2002-06-28 2006-03-09 プレジデント・アンド・フェロウズ・オブ・ハーバード・カレッジ 流体分散のための方法および装置
WO2004010106A2 (en) 2002-07-24 2004-01-29 Ptc Therapeutics, Inc. METHODS FOR IDENTIFYING SMALL MOLEDULES THAT MODULATE PREMATURE TRANSLATION TERMINATION AND NONSENSE MEDIATED mRNA DECAY
IL151660A0 (en) 2002-09-09 2003-04-10 Univ Ben Gurion Method for isolating and culturing unculturable microorganisms
JP2007525151A (ja) 2003-01-29 2007-09-06 454 コーポレーション 一本鎖dnaライブラリーの調製方法
US7041481B2 (en) 2003-03-14 2006-05-09 The Regents Of The University Of California Chemical amplification based on fluid partitioning
US20060078893A1 (en) 2004-10-12 2006-04-13 Medical Research Council Compartmentalised combinatorial chemistry by microfluidic control
GB0307428D0 (en) 2003-03-31 2003-05-07 Medical Res Council Compartmentalised combinatorial chemistry
GB0307403D0 (en) 2003-03-31 2003-05-07 Medical Res Council Selection by compartmentalised screening
CA2521051C (en) 2003-04-04 2012-03-20 Pfizer Products Inc. Microfluidized oil-in-water emulsions and vaccine compositions
EP2127736A1 (en) 2003-04-10 2009-12-02 The President and Fellows of Harvard College Formation and control of fluidic species
WO2004102204A1 (en) 2003-05-16 2004-11-25 Global Technologies (Nz) Ltd Method and apparatus for mixing sample and reagent in a suspension fluid
WO2004103565A2 (de) 2003-05-19 2004-12-02 Hans-Knöll-Institut für Naturstoff-Forschung e.V. Vorrichtung und verfahren zur strukturierung von flüssigkeiten und zum zudosieren von reaktionsflüssigkeiten zu in separationsmedium eingebetteten flüssigkeitskompartimenten
WO2004105734A1 (en) 2003-05-28 2004-12-09 Valorisation Recherche, Societe En Commandite Method of preparing microcapsules
GB0315438D0 (en) 2003-07-02 2003-08-06 Univ Manchester Analysis of mixed cell populations
CA2531105C (en) 2003-07-05 2015-03-17 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
EP2662135A3 (en) 2003-08-27 2013-12-25 President and Fellows of Harvard College Method for mixing droplets in a microchannel
CA2542512A1 (en) 2003-09-04 2005-03-17 Nathan Ravi Hydrogel nanocompsites for ophthalmic applications
US20080014631A1 (en) 2003-09-25 2008-01-17 Sachiko Kondo Microwell Array Chip and Its Manufacturing Method
EP1691792A4 (en) 2003-11-24 2008-05-28 Yeda Res & Dev COMPOSITIONS AND METHODS FOR IN VITRO / I SORTING OF MOLECULAR AND CELLULAR BANKS
US20050181379A1 (en) 2004-02-18 2005-08-18 Intel Corporation Method and device for isolating and positioning single nucleic acid molecules
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
AU2005216549A1 (en) 2004-02-27 2005-09-09 President And Fellows Of Harvard College Polony fluorescent in situ sequencing beads
KR100552706B1 (ko) 2004-03-12 2006-02-20 삼성전자주식회사 핵산 증폭 방법 및 장치
US20050221339A1 (en) 2004-03-31 2005-10-06 Medical Research Council Harvard University Compartmentalised screening by microfluidic control
WO2005099419A2 (en) 2004-04-13 2005-10-27 President And Fellows Of Harvard College Manipulation and/or detection of biological samples or other objects
US7799553B2 (en) 2004-06-01 2010-09-21 The Regents Of The University Of California Microfabricated integrated DNA analysis system
CN1648671B (zh) 2005-02-06 2012-09-26 成都夸常医学工业有限公司 多反应器分析芯片检测方法和分析芯片及检测装置
WO2006030993A1 (en) 2004-09-14 2006-03-23 Jin-Ho Choy Information code system using dna sequences
US7892731B2 (en) 2004-10-01 2011-02-22 Radix Biosolutions, Ltd. System and method for inhibiting the decryption of a nucleic acid probe sequence used for the detection of a specific nucleic acid
US7968287B2 (en) 2004-10-08 2011-06-28 Medical Research Council Harvard University In vitro evolution in microfluidic systems
WO2007001448A2 (en) 2004-11-04 2007-01-04 Massachusetts Institute Of Technology Coated controlled release polymer particles as efficient oral delivery vehicles for biopharmaceuticals
US20080004436A1 (en) 2004-11-15 2008-01-03 Yeda Research And Development Co. Ltd. At The Weizmann Institute Of Science Directed Evolution and Selection Using in Vitro Compartmentalization
WO2006078841A1 (en) 2005-01-21 2006-07-27 President And Fellows Of Harvard College Systems and methods for forming fluidic droplets encapsulated in particles such as colloidal particles
EP1871903B1 (en) 2005-02-18 2011-12-21 Canon U.S. Life Sciences, Inc. Devices and methods for identifying genomic dna of organisms
EP1867702B1 (en) 2005-02-21 2011-09-28 Kagoshima University Method for purifying biodiesel fuel
US9040237B2 (en) 2005-03-04 2015-05-26 Intel Corporation Sensor arrays and nucleic acid sequencing applications
US20070054119A1 (en) 2005-03-04 2007-03-08 Piotr Garstecki Systems and methods of forming particles
AU2006220816A1 (en) 2005-03-04 2006-09-14 President And Fellows Of Harvard College Method and apparatus for forming multiple emulsions
JP2006289250A (ja) 2005-04-08 2006-10-26 Kao Corp マイクロミキサー及びそれを用いた流体混合方法
AU2006259565B2 (en) 2005-06-15 2011-01-06 Complete Genomics, Inc. Single molecule arrays for genetic and chemical analysis
JP2006349060A (ja) 2005-06-16 2006-12-28 Ntn Corp ボールねじ
WO2007002490A2 (en) 2005-06-22 2007-01-04 The Research Foundation Of State University Of New York Massively parallel 2-dimensional capillary electrophoresis
WO2007002567A2 (en) 2005-06-23 2007-01-04 Nanosphere, Inc. Selective isolation and concentration of nucleic acids from complex samples
DK1924704T3 (da) 2005-08-02 2011-09-05 Rubicon Genomics Inc Sammensætninger og fremgangsmåder til bearbejdning og mangfoldiggørelse af DNA, herunder ved anvendelse af flere enzymer i en enkelt reaktion
WO2007024840A2 (en) 2005-08-22 2007-03-01 Critical Therapeutics, Inc. Method of quantitating nucleic acids by flow cytometry microparticle-based array
US7960104B2 (en) 2005-10-07 2011-06-14 Callida Genomics, Inc. Self-assembled single molecule arrays and uses thereof
US20070111241A1 (en) * 2005-10-14 2007-05-17 Nezih Cereb System and method for accessing, tracking, and editing sequence analysis and software to accomplish the same
WO2007120265A2 (en) 2005-11-14 2007-10-25 Applera Corporation Coded molecules for detecting target analytes
US7932037B2 (en) 2007-12-05 2011-04-26 Perkinelmer Health Sciences, Inc. DNA assays using amplicon probes on encoded particles
AU2006335290A1 (en) 2006-01-11 2007-07-19 Raindance Technologies, Inc. Microfluidic devices and methods of use in the formation and control of nanoreactors
US7537897B2 (en) 2006-01-23 2009-05-26 Population Genetics Technologies, Ltd. Molecular counting
CA2640024A1 (en) 2006-01-27 2007-08-09 President And Fellows Of Harvard College Fluidic droplet coalescence
CA2643700A1 (en) 2006-02-24 2007-11-22 Callida Genomics, Inc. High throughput genome sequencing on dna arrays
SG170028A1 (en) 2006-02-24 2011-04-29 Callida Genomics Inc High throughput genome sequencing on dna arrays
JP4921829B2 (ja) 2006-03-30 2012-04-25 株式会社東芝 微粒子の製造装置、乳化剤保持部、微粒子の製造方法および分子膜の製造方法
WO2007114794A1 (en) 2006-03-31 2007-10-11 Nam Trung Nguyen Active control for droplet-based microfluidics
CN101495654A (zh) 2006-04-19 2009-07-29 阿普里拉股份有限公司 无凝胶珠基测序的试剂、方法和文库
US7811603B2 (en) 2006-05-09 2010-10-12 The Regents Of The University Of California Microfluidic device for forming monodisperse lipoplexes
US20080014589A1 (en) 2006-05-11 2008-01-17 Link Darren R Microfluidic devices and methods of use thereof
US7941279B2 (en) 2006-05-22 2011-05-10 Nanostring Technologies, Inc. Systems and methods for analyzing nanoreporters
RU2321638C2 (ru) * 2006-05-23 2008-04-10 Закрытое акционерное общество "Молекулярно-медицинские технологии" Способ изготовления многофункционального мультичипа, мультичип для последовательного или параллельного скрининга биополимеров, способ анализа биополимеров и набор для осуществления способа
EP2636755A1 (en) 2006-05-26 2013-09-11 AltheaDx Incorporated Biochemical analysis of partitioned cells
FR2901717A1 (fr) 2006-05-30 2007-12-07 Centre Nat Rech Scient Procede de traitement de gouttes dans un circuit microfluidique.
AU2007261445B2 (en) 2006-06-19 2013-04-18 The Johns Hopkins University Single-molecule PCR on microparticles in water-in-oil emulsions
EP1878501A1 (en) 2006-07-14 2008-01-16 Roche Diagnostics GmbH Instrument for heating and cooling
WO2008021123A1 (en) 2006-08-07 2008-02-21 President And Fellows Of Harvard College Fluorocarbon emulsion stabilizing surfactants
WO2008052138A2 (en) 2006-10-25 2008-05-02 The Regents Of The University Of California Inline-injection microdevice and microfabricated integrated dna analysis system using same
US7910302B2 (en) 2006-10-27 2011-03-22 Complete Genomics, Inc. Efficient arrays of amplified polynucleotides
DK2518162T3 (en) 2006-11-15 2018-06-18 Biospherex Llc Multi-tag sequencing and ecogenomic analysis
US20080176768A1 (en) 2007-01-23 2008-07-24 Honeywell Honeywell International Hydrogel microarray with embedded metal nanoparticles
US8003312B2 (en) 2007-02-16 2011-08-23 The Board Of Trustees Of The Leland Stanford Junior University Multiplex cellular assays using detectable cell barcodes
FI20075124A0 (fi) 2007-02-21 2007-02-21 Valtion Teknillinen Menetelmä ja testikitti nukleotidivariaatioiden toteamiseksi
WO2008109176A2 (en) 2007-03-07 2008-09-12 President And Fellows Of Harvard College Assays and other reactions involving droplets
WO2008121342A2 (en) 2007-03-28 2008-10-09 President And Fellows Of Harvard College Emulsions and techniques for formation
US20100130369A1 (en) 2007-04-23 2010-05-27 Advanced Liquid Logic, Inc. Bead-Based Multiplexed Analytical Methods and Instrumentation
WO2009005680A1 (en) 2007-06-29 2009-01-08 President And Fellows Of Harvard College Methods and apparatus for manipulation of fluidic species
WO2009011808A1 (en) 2007-07-13 2009-01-22 President And Fellows Of Harvard College Droplet-based selection
CA2696843A1 (en) 2007-08-15 2009-02-19 Opgen, Inc. Method, system and software arrangement for comparative analysis and phylogeny with whole-genome optical maps
US8563527B2 (en) 2007-08-20 2013-10-22 Pharmain Corporation Oligonucleotide core carrier compositions for delivery of nucleic acid-containing therapeutic agents, methods of making and using the same
US8268564B2 (en) 2007-09-26 2012-09-18 President And Fellows Of Harvard College Methods and applications for stitched DNA barcodes
WO2009061372A1 (en) 2007-11-02 2009-05-14 President And Fellows Of Harvard College Systems and methods for creating multi-phase entities, including particles and/or fluids
US8592150B2 (en) 2007-12-05 2013-11-26 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing
JP5738597B2 (ja) 2007-12-21 2015-06-24 プレジデント アンド フェローズ オブ ハーバード カレッジ 核酸の配列決定のためのシステムおよび方法
EP2245191A1 (en) 2008-01-17 2010-11-03 Sequenom, Inc. Single molecule nucleic acid sequence analysis processes and compositions
JP5468271B2 (ja) 2008-02-08 2014-04-09 花王株式会社 微粒子分散液の製造方法
US8034568B2 (en) 2008-02-12 2011-10-11 Nugen Technologies, Inc. Isothermal nucleic acid amplification methods and compositions
AU2009224170B2 (en) 2008-03-11 2012-03-29 National Cancer Center Method for measuring chromosome, gene or specific nucleotide sequence copy numbers using SNP array
US9068181B2 (en) 2008-05-23 2015-06-30 The General Hospital Corporation Microfluidic droplet encapsulation
KR20110042050A (ko) 2008-06-05 2011-04-22 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 폴리머좀, 콜로이드좀, 리포좀 및 유체 액적과 관련된 다른 종
EP2291533B2 (en) 2008-07-02 2020-09-30 Illumina Cambridge Limited Using populations of beads for the fabrication of arrays on surfaces
CA2730292C (en) 2008-07-11 2016-06-14 Eth Zurich Degradable microcapsules
EP4047367A1 (en) 2008-07-18 2022-08-24 Bio-Rad Laboratories, Inc. Method for detecting target analytes with droplet libraries
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
WO2010033200A2 (en) 2008-09-19 2010-03-25 President And Fellows Of Harvard College Creation of libraries of droplets and related species
WO2013016459A1 (en) 2011-07-25 2013-01-31 Bio-Rad Laboratories, Inc. Breakage of an emulsion containing nucleic acid
WO2011120024A1 (en) 2010-03-25 2011-09-29 Quantalife, Inc. Droplet generation for droplet-based assays
US8709762B2 (en) 2010-03-02 2014-04-29 Bio-Rad Laboratories, Inc. System for hot-start amplification via a multiple emulsion
US9156010B2 (en) 2008-09-23 2015-10-13 Bio-Rad Laboratories, Inc. Droplet-based assay system
EP3587594B1 (en) 2008-12-19 2022-04-13 President and Fellows of Harvard College Particle-assisted nucleic acid sequencing
US10839940B2 (en) 2008-12-24 2020-11-17 New York University Method, computer-accessible medium and systems for score-driven whole-genome shotgun sequence assemble
JP5909095B2 (ja) 2009-03-13 2016-04-26 プレジデント アンド フェローズ オブ ハーバード カレッジ マイクロ流体デバイスのスケールアップ
DK2414547T3 (da) 2009-04-02 2014-06-16 Fluidigm Corp Multiprimer-amplifikationsmetode til stregkodning af målnukleinsyrer
JP2012525147A (ja) 2009-04-30 2012-10-22 グッド スタート ジェネティクス, インコーポレイテッド 遺伝マーカーを評価するための方法および組成物
WO2010127304A2 (en) 2009-05-01 2010-11-04 Illumina, Inc. Sequencing methods
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
DK2443236T3 (en) 2009-06-15 2015-08-17 Complete Genomics Inc Methods and compositions for sequencing by long fragment reading
CN102483424B (zh) 2009-06-26 2014-11-05 哈佛学院院长等 用于流体操作的方法以及微流体装置
WO2011028539A1 (en) 2009-09-02 2011-03-10 Quantalife, Inc. System for mixing fluids by coalescence of multiple emulsions
JP5869482B2 (ja) 2009-09-02 2016-02-24 プレジデント アンド フェローズ オブ ハーバード カレッジ ジェッティングおよび他の技術を使用して生成された多重エマルジョン
GB0918564D0 (en) 2009-10-22 2009-12-09 Plasticell Ltd Nested cell encapsulation
AU2010315580B2 (en) 2009-10-27 2014-11-06 President And Fellows Of Harvard College Droplet creation techniques
WO2011056872A2 (en) 2009-11-03 2011-05-12 Gen9, Inc. Methods and microfluidic devices for the manipulation of droplets in high fidelity polynucleotide assembly
CN102985552B (zh) 2009-11-25 2016-02-17 伯乐生命医学产品有限公司 用于检测遗传物质的方法和组合物
WO2011066476A1 (en) 2009-11-25 2011-06-03 Quantalife, Inc. Methods and compositions for detecting genetic material
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US8932812B2 (en) 2009-12-17 2015-01-13 Keygene N.V. Restriction enzyme based whole genome sequencing
US10837883B2 (en) 2009-12-23 2020-11-17 Bio-Rad Laboratories, Inc. Microfluidic systems and methods for reducing the exchange of molecules between droplets
US20110257889A1 (en) 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
US20120000777A1 (en) 2010-06-04 2012-01-05 The Regents Of The University Of California Devices and methods for forming double emulsion droplet compositions and polymer particles
WO2012012037A1 (en) 2010-07-19 2012-01-26 New England Biolabs, Inc. Oligonucleotide adaptors: compositions and methods of use
EP3115468B1 (en) 2010-09-21 2018-07-25 Agilent Technologies, Inc. Increasing confidence of allele calls with molecular counting
US9999886B2 (en) 2010-10-07 2018-06-19 The Regents Of The University Of California Methods and systems for on demand droplet generation and impedance based detection
GB2497912B (en) 2010-10-08 2014-06-04 Harvard College High-throughput single cell barcoding
EP2633069B1 (en) 2010-10-26 2015-07-01 Illumina, Inc. Sequencing methods
EP2635679B1 (en) 2010-11-05 2017-04-19 Illumina, Inc. Linking sequence reads using paired code tags
US20140057799A1 (en) 2010-12-16 2014-02-27 Gigagen System and Methods for Massively Parallel Analysis of Nucleic Acids in Single Cells
CA2822439A1 (en) 2010-12-23 2012-06-28 Sequenom, Inc. Fetal genetic variation detection
WO2012100216A2 (en) 2011-01-20 2012-07-26 Knome, Inc. Methods and apparatus for assigning a meaningful numeric value to genomic variants, and searching and assessing same
US8765455B2 (en) 2011-01-27 2014-07-01 Lawrence Livermore National Security, Llc Chip-based droplet sorting
US10457936B2 (en) 2011-02-02 2019-10-29 University Of Washington Through Its Center For Commercialization Massively parallel contiguity mapping
EP2675819B1 (en) 2011-02-18 2020-04-08 Bio-Rad Laboratories, Inc. Compositions and methods for molecular labeling
EP2678449A4 (en) 2011-02-25 2015-06-24 Illumina Inc METHODS AND SYSTEMS FOR DETERMINING HAPLOTYPE
US20120233201A1 (en) * 2011-03-09 2012-09-13 Annai Systems, Inc. Biological data networks and methods therefor
CN107368705B (zh) * 2011-04-14 2021-07-13 完整基因有限公司 分析生物体的基因组dna的方法和计算机系统
EP3395957B1 (en) 2011-04-25 2020-08-12 Bio-Rad Laboratories, Inc. Methods and compositions for nucleic acid analysis
JP6100685B2 (ja) 2011-05-16 2017-03-22 地方独立行政法人 大阪府立病院機構 血中dnaの定量的検出による悪性新生物の病勢の進行を評価する方法
EP2714254B1 (en) 2011-05-23 2017-09-06 President and Fellows of Harvard College Control of emulsions, including multiple emulsions
US9617598B2 (en) 2011-05-27 2017-04-11 President And Fellows Of Harvard College Methods of amplifying whole genome of a single cell
US8841071B2 (en) 2011-06-02 2014-09-23 Raindance Technologies, Inc. Sample multiplexing
AU2012281152B2 (en) * 2011-07-13 2017-09-07 The Multiple Myeloma Research Foundation, Inc. Methods for data collection and distribution
WO2013035114A1 (en) 2011-09-08 2013-03-14 Decode Genetics Ehf Tp53 genetic variants predictive of cancer
US9725765B2 (en) 2011-09-09 2017-08-08 The Board Of Trustees Of The Leland Stanford Junior University Methods for obtaining a sequence
US9514272B2 (en) 2011-10-12 2016-12-06 Complete Genomics, Inc. Identification of DNA fragments and structural variations
US9469874B2 (en) 2011-10-18 2016-10-18 The Regents Of The University Of California Long-range barcode labeling-sequencing
WO2013123125A1 (en) 2012-02-17 2013-08-22 President And Fellows Of Harvard College Assembly of nucleic acid sequences in emulsions
EP3309262B1 (en) 2012-02-24 2019-09-25 Bio-Rad Laboratories, Inc. Labeling and sample preparation for sequencing
US9552458B2 (en) 2012-03-16 2017-01-24 The Research Institute At Nationwide Children's Hospital Comprehensive analysis pipeline for discovery of human genetic variation
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US20130317755A1 (en) 2012-05-04 2013-11-28 New York University Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly
EP2852687A4 (en) 2012-05-21 2016-10-05 Scripps Research Inst METHODS FOR PREPARING A SAMPLE
US20150005199A1 (en) 2012-08-14 2015-01-01 10X Technologies, Inc. Compositions and methods for sample processing
US10221442B2 (en) 2012-08-14 2019-03-05 10X Genomics, Inc. Compositions and methods for sample processing
US20150005200A1 (en) 2012-08-14 2015-01-01 10X Technologies, Inc. Compositions and methods for sample processing
US20140378345A1 (en) 2012-08-14 2014-12-25 10X Technologies, Inc. Compositions and methods for sample processing
US9567631B2 (en) 2012-12-14 2017-02-14 10X Genomics, Inc. Methods and systems for processing polynucleotides
US20140378322A1 (en) 2012-08-14 2014-12-25 10X Technologies, Inc. Compositions and methods for sample processing
US20140378349A1 (en) 2012-08-14 2014-12-25 10X Technologies, Inc. Compositions and methods for sample processing
CN114891871A (zh) 2012-08-14 2022-08-12 10X基因组学有限公司 微胶囊组合物及方法
CN105026576A (zh) 2012-12-03 2015-11-04 以琳生物药物有限公司 单链多核苷酸扩增方法
WO2014113736A1 (en) 2013-01-17 2014-07-24 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10381106B2 (en) 2013-01-28 2019-08-13 Hasso-Plattner-Institut Fuer Softwaresystemtechnik Gmbh Efficient genomic read alignment in an in-memory database
EP3862435A1 (en) 2013-02-08 2021-08-11 10X Genomics, Inc. Polynucleotide barcode generation
SG11201507087WA (en) 2013-03-08 2015-10-29 Bio Rad Laboratories Compositions, methods and systems for polymerase chain reaction assays
US9328382B2 (en) 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
US10395758B2 (en) 2013-08-30 2019-08-27 10X Genomics, Inc. Sequencing methods
US9824068B2 (en) 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
EP4219010A1 (en) 2014-04-10 2023-08-02 10X Genomics, Inc. Methods for encapsulating and partitioning reagents
US20150298091A1 (en) 2014-04-21 2015-10-22 President And Fellows Of Harvard College Systems and methods for barcoding nucleic acids
JP5949832B2 (ja) 2014-05-30 2016-07-13 ダイキン工業株式会社 空調システム
AU2015279617A1 (en) 2014-06-26 2017-01-12 10X Genomics, Inc. Analysis of nucleic acid sequences
AU2015279548B2 (en) 2014-06-26 2020-02-27 10X Genomics, Inc. Methods of analyzing nucleic acids from individual cells or cell populations
MX2016016713A (es) 2014-06-26 2017-05-23 10X Genomics Inc Procesos y sistemas para el montaje de secuencias de acido nucleico.
JP2017523774A (ja) 2014-06-26 2017-08-24 10エックス ジェノミクス, インコーポレイテッド サンプル分析のための方法及び組成物
DK3656875T3 (da) 2014-07-18 2021-12-13 Illumina Inc Ikke-invasiv prænatal diagnostik
CN104462211B (zh) * 2014-11-04 2018-01-02 北京诺禾致源科技股份有限公司 重测序数据的处理方法和处理装置
CN107208156B (zh) 2015-02-09 2021-10-08 10X基因组学有限公司 用于使用变异识别数据来确定结构变异和定相的系统和方法
WO2016191380A1 (en) 2015-05-26 2016-12-01 Pacific Biosciences Of California, Inc. De novo diploid genome assembly and haplotype sequence reconstruction
SG11201806757XA (en) 2016-02-11 2018-09-27 10X Genomics Inc Systems, methods, and media for de novo assembly of whole genome sequence data

Also Published As

Publication number Publication date
WO2016115273A1 (en) 2016-07-21
AU2016206706A1 (en) 2017-06-01
AU2021286337B2 (en) 2023-12-21
IL252415A0 (en) 2017-07-31
EP4092681A1 (en) 2022-11-23
MX2017008916A (es) 2017-10-19
CA2968417A1 (en) 2016-07-21
US20160203196A1 (en) 2016-07-14
AU2021286337A1 (en) 2022-01-20
CN107209814A (zh) 2017-09-26
EP3245605A1 (en) 2017-11-22
EP3245605A4 (en) 2018-08-29
CN107209814B (zh) 2021-10-15
EP3245605B1 (en) 2022-04-20
AU2016206706B2 (en) 2021-10-07
US20200321078A1 (en) 2020-10-08
US10650912B2 (en) 2020-05-12
JP2018508852A (ja) 2018-03-29
SG10201811337XA (en) 2019-01-30
SG11201705425SA (en) 2017-08-30

Similar Documents

Publication Publication Date Title
AU2021286337B2 (en) Systems and methods for visualizing structural variation and phasing information
US10984887B2 (en) Systems and methods for detecting structural variants
US20210265012A1 (en) Systems and methods for use of known alleles in read mapping
Kidd et al. Mapping and sequencing of structural variation from eight human genomes
Tsai et al. Discovery of rare mutations in populations: TILLING by sequencing
EP2834762B1 (en) Sequence assembly
JP2018508852A5 (ko)
JP2007523600A (ja) 多重配列変異体解析を用いる遺伝子診断
Maier et al. Freely accessible ready to use global infrastructure for SARS-CoV-2 monitoring
US20170132359A1 (en) Systems and methods for identifying somatic mutations
Marri et al. Advances in sequencing and resequencing in crop plants
Cha et al. Brief introduction to current pharmacogenomics research tools
Ismail Bioinformatics: A Practical Guide to Next Generation Sequencing Data Analysis
Ganschow High-resolution forensic DNA typing
Söylev Algorithms for Structural Variation Discovery Using Multiple Sequence Signatures
Goios et al. Identification of mouse inbred strains through mitochondrial DNA single‐nucleotide extension
Hambuch et al. Whole Genome Sequencing in the Clinical Laboratory
Psallidas SNPop, an application package for the collection, visualization and analysis of single nucleotide polymorphism data