KR20190062544A

KR20190062544A - 생물 정보학 정보 표현을 위한 효율적인 데이터 구조

Info

Publication number: KR20190062544A
Application number: KR1020197013464A
Authority: KR
Inventors: 다니엘레 렌지; 기오르기오 조이아
Original assignee: 게놈시스 에스에이
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2019-06-05
Also published as: EP3526709B1; SG11201903175VA; WO2018068827A1; IL265908B1; ZA201902785B; PL3526709T3; CA3039688A1; EP4075438A1; US20210304841A1; BR112019007296A2; EP4075438B1; CN110088839B; AU2016426569A1; PH12019500791A1; CA3039688C; FI4075438T3; MX2019004125A; CL2019000954A1; ES2922420T3; IL265908A

Abstract

구조화된 파일 포맷으로 구성된 게놈 시퀀스 데이터의 표현 방법 및 장치. 데이터 구조는 뉴클레오타이드 시퀀스의 표현을 포함한다: 압축된 형태로, 하나 또는 하나 이상의 레퍼런스 시퀀스에 정렬되고 레퍼런스 되며 상이한 정도의 매칭 정확도에 따라 분류된다. 분류 및 정렬된 판독은 구문 정보 요소의 레이어의 형식으로 코딩 되며, 헤더 정보는 독립 또는 종속 액세스 유닛으로 분할된다.

Description

생물 정보학 정보 표현을 위한 효율적인 데이터 구조

본 발명은 게놈 데이터 프로세스(소위 "게놈 정보 수명주기(genomic information life cycle)"라고 하는)의 상이한 스테이지(stage) 동안, 게놈 시퀀싱, 프로세싱 및 분석과 관련된 장치 및 애플리케이션에 의해 생성된 정보와 연관된 이종 데이터(heterogeneous data)의 수집을 포함하는 게놈 데이터 구조(genomic data structure)를 정의하는 게놈 정보 저장 레이어(genome information storage layer)(게놈 파일 포맷(genome file format))를 개시한다.

데이터 프로세스의 상이한 스테이지(stage) 동안, DNA, RNA 또는 단백질 시퀀싱 장치에 의해 생성된 게놈 또는 프로테오믹스(proteomics) 정보는 변형되어 이종 데이터를 생성한다. 종래 기술의 해결책에서, 이들 데이터는 현재 서로 다르고 관련성이 없는 구조를 갖는 컴퓨터 파일에 저장된다. 따라서 이 정보는 보관, 전송 및 가공(elaborate)하기가 매우 어렵다.

본 발명에서 언급되는 게놈 또는 프로테오믹스 시퀀스는, 예를 들어 뉴클레오타이드(nucleotide) 시퀀스, 데옥시리보 핵산(Deoxyribonucleic acid)(DNA) 시퀀스, 리보 핵산(Ribonucleic acid)(RNA) 및 아미노산(amino acid) 시퀀스를 포함하지만 이에 한정되는 것은 아니다. 본원의 설명은 뉴클레오타이드 시퀀스 형태의 게놈 정보와 관련하여 상당히 상세하게 설명되어 있지만, 저장을 위한 방법 및 시스템은 당업자가 이해할 수 있는 바와 같이, 약간의 변형이 있기는 하지만, 다른 게놈 또는 프로테옴 시퀀스를 위해 구현될 수 있음을 이해할 것이다.

데이터 생성(시퀀싱)에서 분석에 이르는 게놈 또는 프로테오믹 정보 라이프 사이클이 도 1에 도시되어 있으며, 여기에는 게놈 라이프 사이클 및 연관 중간 파일 포맷의 상이한 상태(phases)가 도시되어 있다. 도 1에 도시된 바와 같이, 게놈 정보 수명주기의 통상적인 단계(step)는: 시퀀스 판독 추출(sequence reads extraction), 맵핑 및 정렬(mapping and alignment), 변형 감지(variant detection), 변형 주석(variant annotation) 및 기능 및 구조 분석(functional and structural analysis) 이다.

시퀀스 판독 추출은 인간 조작자 또는 장치에 의해 수행되는 프로세스로 생물학적 샘플을 구성하는 분자(molecule)를 나타내는 심볼(symbol)의 시퀀스(sequence of symbol)의 형태로 유전 정보 조각(fragment of genetic information)을 표현하는 과정이다. 핵산(nucleic acid)의 경우 이러한 분자를 "뉴클레오타이드(nucleotides)"라고 한다. 추출에 의해 생성된 심볼의 시퀀스는 일반적으로 "판독(reads)" 이라고 한다. 이 정보는 통상 텍스트 헤더 및 시퀀싱 된 분자를 나타내는 일련의 심볼을 포함하는 FASTA 파일로서 종래 기술에서 인코딩 된다.

생체 샘플을 시퀀스 분석하여 살아있는 유기체의 DNA를 추출할 때 알파벳은 심볼(A, C, G, T, N)로 구성된다.

생체 샘플이 생물체의 RNA를 추출하기 위해 시퀀싱 될 때 알파벳은 심볼(A, C, G, U, N)로 구성된다.

시퀀싱 장치가 IUPAC 확장된 심볼 집합, 소위 "모호성 코드(ambiguity codes)"도 생성하는 경우, 판독을 구성하는 심볼에 사용된 알파벳은(A, C, G, T, U, W, S, M, K, R, Y, B, D, H, V, N 또는 -) 이다.

IUPAC 모호성 코드가 사용되지 않을 때, 각각의 시퀀스 판독(sequence read)에 품질 스코어의 시퀀스가 연관될 수 있다. 이러한 경우, 종래 기술 솔루션은 결과 정보를 "FASTQ" 파일로 인코딩한다.

시퀀스 정렬(Sequence alignment)은 시퀀스 간의 기능적, 구조적 또는 진화적 관계의 결과일 수 있는 유사성의 영역을 발견함으로써 시퀀스 판독을 배열하는 프로세스를 지칭한다. 정렬(alignment)이 "레퍼런스 게놈(reference genome)"으로 언급되는 이미 존재하는(pre-exiting) 뉴클레오타이드 시퀀스를 참조하여 수행될 때, 이 프로세스를 "맵핑(mapping)"이라 한다. 시퀀스 정렬(sequence alignment)은, 또한 기존의 시퀀스(즉, 레퍼런스 게놈)없이 수행될 수 있는데, 이 경우 상기 프로세스는 종래 기술에서 "드노보(de novo)" 정렬로 알려져 있다. 종래 기술 솔루션은 이 정보를 "SAM", "BAM" 또는 "CRAM" 파일에 저장한다. 시퀀스를 정렬하여 부분 또는 완전한 게놈을 재구축하는 개념은 도 2에 도시되어 있다.

변형 검출(Variant Detection)(a.k.a 변형 호출(variant calling))은 게놈 시퀀싱 장치의 정렬된 출력을, 기존의 다른 시퀀스에서 찾을 수 없거나 또는 몇 개의 미리 존재하는 시퀀스에서만 발견할 수 있는 시퀀스화 중인 생물체(organism)의 고유한 특징에 대한 요약으로 번역하는 프로세스이다. 이러한 특성은 연구중인 유기체의 게놈과 레퍼런스 게놈 사이의 차이로 표현되기 때문에 "변형(variant)"이라고 불린다. 종래 기술 솔루션은 이 정보를 "VCF" 파일이라는 특정 파일 포멧으로 저장한다.

변형 주석(Variant Annotation)은 게놈 변형에 기능 정보를 할당하는 프로세스이다. 이것은 게놈 내의 코딩 시퀀스에 대한 그들의 관계 및 코딩 시퀀스 및 유전자 산물(gene product)에 대한 그들의 영향에 따라 변형(variant)의 분류를 의미한다. 이는 일반적으로 "MAF" 파일에 저장된 종래 기술에 있다.

유전자(genes)(및 단백질)의 기능 및 구조와의 관계를 정의하기 위해 DNA 스트랜드(strand)(변형, CNV = 복제 수 변형, 메틸화(methylation) 등)의 분석은 기능적 또는 구조적 분석이라고 한다. 이 데이터를 저장하기 위한 종래 기술에는 몇 가지 다른 솔루션이 존재한다.

게놈 프로세스 파이프 라인(genome processing pipeline)에 사용되는 파일 포멧(file format)간 관계에 대한 간단한 비전이 도 1에 나와 있다. 이 다이어그램에서 파일 인클루전(file inclusion)은 중첩된(nested) 파일 구조의 존재를 의미하지 않지만 각 포멧(format)(예를 들어, SAM은 FASTQ의 모든 정보를 포함하지만 다른 파일 구조로 구성됨)에 대해 인코딩할 수 있는 정보의 유형(type)과 양을 나타낸다. CRAM은 SAM/BAM과 동일한 게놈 정보를 포함하지만, 사용할 수 있는 압축 유형(compression type)에 있어서 유연성을 제공하므로 SAM/BAM의 수퍼 세트로 표현된다.

게놈 정보를 저장하기 위해 여러 파일 포멧을 사용하는 것은 매우 비효율적이며 비용이 많이 든다. 게놈 정보 라이프 사이클(life cycle)의 다른 스테이지(stage)에서 서로 다른 파일 포멧을 갖는 것은 증분(incremental) 정보가 최소인 경우에도 이용되는 저장 공간의 선형적 증가(linear growth)를 의미한다. 이것은 공간과 발생 비용 측면에서 지속 가능하지 않게 되고, 게놈 응용이 너 많은 인구에 적용되는 것을 방해한다. 종래 기술의 솔루션의 또 다른 단점을 이하에 열거한다.

1. 압축 FastQ 파일 또는 그 조합에 저장된 미가공 데이터(raw data)에 주석(annotation)(메타 데이터)을 액세스, 분석 또는 추가하려면, 컴퓨팅 자원과 시간을 광범위하게 사용하여 전체 파일을 압축 해제하고 다시 압축해야 한다.

2. BAM 파일에 저장된 정렬된 데이터에 포함된 판독 맵핑 위치, 판독 변형 위치 및 유형, 인델(indels) 위치 및 유형(type) 또는 기타 메타 데이터 및 주석과 같은 정보의 특정 하위 집합을 검색하려면, 각 판독과 연관된 전체 데이터 볼륨에 액세스 해야 한다. 종래 기술의 솔루션에서는 단일 클래스의 메타 데이터에 선택적으로 액세스 할 수 없다.

3. 종래 기술의 파일 포맷은 프로세스가 시작되기 전에 최종 사용자가 전체 파일을 수신할 것을 요구한다. 예를 들어, 적절한 데이터 표현에 의존한다면, 시퀀싱 프로세스가 완료되기 전에 판독 정렬이 시작될 수 있다. 시퀀싱, 정렬 및 분석이 진행되고 병행될 수도 있다.

4. 그들의 특정 세대 의미론(예를 들어, 동일한 개체의 라이프의 다른 시간에서 얻어지는 시퀀싱)에 따라 상이한 시퀀싱 프로세스에 의해 얻어진 게놈 데이터를 구조화하고 구별할 수 있는 것은 선행 기술 솔루션에 의존하여 지원될 수 없다. 동일한 개체의 다른 유형의 생물학적 샘플에 의해 얻어진 시퀀싱에 대해서도 동일하게 발생한다.

5. 데이터의 전체 또는 선택된 부분의 암호화는 종래 기술 솔루션에 의해 지원되지 않는다. 예를 들면, 선택된 DNA 영역; 변형을 포함하는 시퀀스 만; 키메라 시퀀스 만; 맵핑 되지 않은 시퀀스 만; 특정 메타 데이터(예를 들어, 시퀀스된 샘플의 근원, 시퀀스 개체의 식별, 샘플의 유형)의 암호화는 가능하지 않다.

6. 주어진 레퍼런스(reference)(즉, SAM/BAM 파일)에 정렬된 시퀀싱 데이터로 부터 새로운 레퍼런스로 트랜스 코딩하는 것은 새로운 레퍼런스가 이전 레퍼런스에서 단 하나의 뉴클레오타이드 위치만 상이할지라도 전체 데이터량을 프로세스 할 것을 요구한다.

7. 게놈 데이터의 전송은 현재 사용되는 데이터 포멧이 최대 수백 기가 바이트 크기의 모놀리식 파일로 구성되어, 수신측에서 이를 프로세스 하기 위해서는 전체를 전송해야 하기 때문에 느리고 비효율적이다. 이것은 데이터의 작은 부분을 분석할 때에도 소비되는 대역폭과 대기 시간적 측면에서 상당한 비용을 들여 전체 파일을 전송해야 한다는 것을 의미한다. 대용량의 데이터가 전송되는 경우, 때때로 온라인 전송이 금지되며, 데이터 전송은 하드 디스크 드라이브 또는 스토리지 서버와 같은 저장 미디어를 한 위치에서 다른 위치로 물리적으로 이동시켜 수행된다.

8. 최첨단 방법을 도입할 때 발생하는 이러한 제한이 본 발명에 의해 극복된다. 사실상 정보가, 일반적으로 사용되는 분석 애플리케이션에서 요구하는 데이터 및 메타 데이터가 서로 다른 클래스의 부분으로 분류되어 전체 데이터를 접속할 필요없이 검색될 수 있는 방식의 구조를 가지고 있지 못하기 때문에, 데이터 프로세싱은 느리고 비 효율적이다. 이 사실은, 특정 분석 목적과 연관된 데이터의 부분이 훨씬 더 작더라도, 공통 분석 파이프 라인이 많은 양의 데이터를 분석, 파싱 및 필터링 하는 각 액세스 스테이지(stage)에서 필요하기 때문에, 중요하고 값 비싼 프로세스 리소스를 낭비하면서 며칠 또는 몇 주 동안 실행해야 한다는 것을 의미한다. 이러한 한계로 인해 의료 전문가가 게놈 분석 보고서를 적시에 수집하지 못하게 되고 질병 발병에 즉각적으로 대응할 수 없게 된다.

데이터 및 메타 데이터의 압축이 최대화되고 선택 액세스 및 증분 업데이트 지원과 같은 몇몇 기능과 게놈 데이터 수명주기의 상이한 단계에서 유용한 기타 데이터 처리 기능이 효율적으로 가능하게 되도록, 데이터를 구성하고 파티셔닝함으로써 적절한 게놈 시퀀싱 데이터 및 메타 데이터 표현 (게놈 파일 형식)을 제공해야 한다는 분명한 요구가 있다.

개시된 솔루션의 주요 측면은 다음과 같다.

1. 정렬 결과와 연관된 기준에 따라 인코딩 된 데이터에 대한 선택적 액세스를 가능하게 하기 위하여, 레퍼런스 시퀀스(reference sequence)에 대한 정렬(alignment) 결과에 따라 상이한 클래스(class)에서 시퀀스 판독의 분류(classification of the sequence). 이것은 압축된 형식의 구조화된 데이터 요소를 "포함(contain)"하는 파일 형식의 지정을 의미한다. 이러한 접근법은 데이터가 비-압축(non-compressed) 형태로 구조화된 다음 전체 파일이 압축되는 종래 기술의 접근법인 SAM 및 BAM와는 반대이다. 이 접근법의 첫번째 명백한 이점은 종래 기술 접근법에서 불가능하거나 매우 어색한 압축 도메인 내의 데이터 요소에 대한 다양한 형태의 선택적 액세스(selective access)를 효율적이고 자연스럽게 제공할 수 있다는 것이다.

2. 정보 엔트로피(information entropy)를 가능한 한 많이 줄이기 위해 동질의(homogeneous) 메타 데이터의 레이어(layer)로 분류된 판독(classified reads)의 분해(decomposition). 게놈 정보를 동질의 데이터 및 메타 데이터의 특정 "레이어(layer)"로 분해하면 낮은 엔트로피가 특징인 다양한 정보 소스 모델을 정의할 수 있다는 상당한 이점이 있다. 이러한 모델은 레이어마다 다를 수도 있지만 각 레이어 내에서 다를 수 있다. 이러한 구조화는 데이터 또는 메타 데이터의 각 클래스 및 그 일부분에 대해 가장 적절한 특정 압축을 사용하여 종래 기술 접근법에 비해 코딩 효율을 현저하게 향상시킬 수 있게 한다.

3. 액세스 유닛(access unit)으로 레이어(layer)의 구조화(structuring), 즉 글로벌적으로 사용할 수 있는 파라미터(예를 들어, 디코더 구성) 만 사용하거나 또는 다른 액세스 유닛에 포함된 정보를 사용하여 독립적으로 디코딩 할 수 있는 게놈 정보. 레이어 내의 압축된 데이터가 액세스 유닛에 포함된 데이터 블록으로 분할될 때 낮은 엔트로피로 특징 지어지는 정보 소스의 서로 다른 모델을 정의할 수 있다.

4. 이 정보는 게놈 분석 응용 분야에서 사용되는 연관된 데이터의 서브 세트(subset)가 적절한 인터페이스를 통해 효율적이고 선택적으로 액세스 할 수 있도록 구조화된다. 이러한 특성(feature)을 통해 데이터에 더 빨리 액세스 하고 보다 효율적인 프로세스를 수행할 수 있다. 마스터 인덱스 테이블(master index table) 및 로컬 인덱스 테이블(local index table)은 압축된 데이터의 전체 볼륨을 디코딩 할 필요 없이 인코딩 된(즉, 압축된) 데이터의 레이어에 의해 전달되는 정보에 선택적으로 액세스 할 수 있게 한다. 더욱이, 다양한 데이터 레이어 사이의 연관 메커니즘은 모든 레이어를 디코딩 할 필요 없이 의미론적(semantically)으로 연관된 데이터 및/또는 메타 데이터 레이어의 서브 세트(subset)의 임의의 가능한 조합의 선택적 액세스를 가능하게 하도록 특정된다.

5. 마스터 인덱스 테이블(Master Index Table)과 액세스 유닛(Access Unit)의 공동 저장(joint storage).

청구항 1항의 특성(feature)은 다음을 제공함으로써 존재하는 선행기술의 솔루션의 문제를 해결한다. 게놈 시퀀스 데이터(genome sequence data)의 표현을 게놈 파일 포맷(genomic file format)으로 저장하는 방법에 있어서, 상기 게놈 시퀀스 데이터는 뉴클레오타이드(nucleotide)의 시퀀스의 판독(read of sequence)을 포함하고, 상기 판독을 하나 또는 하나 이상의 레퍼런스 시퀀스(reference sequence)에 정렬(align)시킴으로써 정렬된 판독(aligned read)을 생성하는(creating) 단계, 상기 하나 또는 하나 이상의 레퍼런스 시퀀스와 상이한 매칭 정확도에 따라 상기 정렬된 판독을 분류함(classifying)으로써 정렬된 판독의 클래스(class of aligned read)를 생성하는 단계; 상기 분류되고 정렬된 판독을 구문 요소(syntax element)의 레이어(layer)로서 인코딩(encoding)하는 단계, 상기 구문 요소의 레이어를 헤더 정보(header information)로 구조화(structuring) 함으로써 연속적인(successive) 액세스 유닛(access unit)을 생성하는 단계, 각각의 데이터 클래스(data class)의 각 액세스 유닛의 제1 판독(first read)의 상기 하나 또는 하나 이상의 레퍼런스 시퀀스상의 맵핑 위치(mapping position)를 포함하는 마스터 인덱스 테이블(master index table) - 정렬된 판독의 각 클래스에 대한 하나의 섹션(section)을 포함하는 - 을 생성하는 단계; 상기 마스터 인덱스 테이블과 상기 액세스 유닛 데이터를 공동(jointly)으로 저장하는 단계를 포함하는 방법이다.

위의 라이프 사이클 설명에서 언급된 게놈 시퀀스 데이터(genome sequence data)의 표현(representation)의 데이터 유형별로 상이한 별개의 파일 대신에, 인덱스 테이블과 게놈 시퀀스 데이터의 표현을 함께 저장함으로써, 많은 장점이 즉시 명백해지는데, 즉:

● 게놈 시퀀스 데이터(genome sequence data) 프로세싱의 중간 스테이지(stage)의 결과는 다른 파일 형식으로 코드 변환할 필요없이 기존 데이터에 증분적으로(incrementally) 추가될 수 있다. 예를 들어, 기존 파일 형식을 변경할 필요없이 정렬 정보(alignment information)를 미가공 데이터(raw data)에 추가할 수 있다. 변형 호출(variant calling) 결과는 증분 업데이트가 있는 기존의 정렬된 시퀀스 데이터에 포함될 수 있다.

● 게놈 시퀀스 데이터는 쿼리의 기준과 일치하지 않는 전체 파일 또는 그 영역에 액세스 할 필요없이 특정 특징(characteristic)에 따라 검색할 수 있다. 예를 들어, 다음과 같이 선택적으로 액세스하기 위해 쿼리를 실행할 수 있다.

o 하나 또는 하나 이상의 레퍼런스 게놈에서 완벽하게 일치하는 시퀀스 판독

o 실제 뉴클레오타이드 또는 아미노산 기호 대신 "N" 기호가 있는 불일치만 포함하는 시퀀스 판독

o 하나 또는 하나 이상의 게놈과 관련하여 기호를 대체하는 형식으로 모든 유형의 불일치를 포함하는 시퀀스 판독

o 불일치와 삽입 또는 삭제가 포함된 시퀀스 판독(인델(indels))

o 하나 또는 하나 이상의 레퍼런스 게놈과 관련하여 불일치, 삽입 또는 인델(indels) 및 소프트 클리핑 된 기호가 포함된 시퀀스 판독

o 고려된 레퍼런스 게놈에 대해 맵핑 할 수 없는 시퀀스 판독

o 특정 깊이의 임계 값 사이에 존재하는 모든 단일 뉴클레오타이드 다형성(Single Nucleotide Polymorphisms)(SNPs)

o 모든 키메라 시퀀스 판독

o 지정된 임계 값을 초과하는 품질 평가 점수로 모든 시퀀스 판독

o 지정된 시퀀스 판독 세트와 관련된 모든 메타 데이터

레퍼런스 시퀀스와 일치하는 신뢰도에 따라 정렬된 판독을 분류함으로써, 정렬 결과와 연관된 기준에 따라 인코딩 된 데이터에 선택적으로 액세스 할 수 있다.

분류되고 정렬된 판독을 구문 요소(syntax element)의 레이어로 인코딩함으로써, 인코딩은 레이어 및 그 통계적 특성에 의해 운반되는 데이터 또는 메타 데이터의 특정 특성(feature)에 따라 적응될 수 있다.

연속되는 액세스 유닛에서 헤더 정보(header information)로 구문 요소의 레이어를 구조화함으로써 인코딩, 저장 및 전송을 데이터의 특성에 따라 조정할 수 있다. 예를 들어, 엔트로피의 최소화 측면에서 각 데이터 레이어에 대해 가장 효율적인 소스 모델을 사용하기 위해 액세스 유닛별로 인코딩을 적용할 수 있다.

하나의 게시된 양태에 따르면, 게놈 파일에 저장된 뉴클레오타이드 시퀀스의 판독을 추출하는 방법에 있어서, 상기 게놈 파일은 본 개시의 원리에 따라 저장된 마스터 인덱스 테이블(master index table) 및 액세스 유닛 데이터(access unit data)를 포함하고, 상기 방법은 추출될 판독 유형을 식별하는 사용자 입력을 수신하는 단계, 상기 게놈 파일로부터 마스터 인덱스 테이블을 검색하는 단계, 추출될 상기 유형의 판독에 대응하는 액세스 유닛을 검색하는 단계, 하나 또는 하나 이상의 레퍼런스 시퀀스상에서 상기 검색된 액세스 유닛을 맵핑하는 뉴클레오타이드의 시퀀스의 상기 판독을 재구축하는 단계를 포함하는 방법이다.

본 발명은 게놈 시퀀싱 장치를 더 개시하고 있으며, 게놈 시퀀싱 장치(Genome Sequencing Machine)에 있어서: 생물학적 샘플로부터 뉴클레오타이드의 시퀀스의 판독을 출력하도록 구성된 게놈 시퀀싱 유닛(genome sequencing unit), 상기 판독을 하나 또는 하나 이상의 레퍼런스 시퀀스에 정렬시켜 정렬된 판독을 생성하도록 구성된 정렬 유닛(alignment unit), 상기 정렬된 판독을 상기 하나 또는 하나 이상의 레퍼런스 시퀀스와 일치 정확도에 따라 분류하여 정렬된 판독의 클래스를 생성하도록 구성된 분류 유닛(classification unit); 상기 분류되고 정렬된 판독을 구문 요소의 레이어로서 인코딩하도록 구성된 인코딩 유닛(encoding unit), 헤더 정보와 함께 구문 요소의 상기 레이어들을 구조화하여 연속적인 액세스 유닛들을 생성하도록 구성된 세분 유닛(subdividing unit), 각각의 데이터 클래스의 각 액세스 유닛의 제1 판독의 레퍼런스 시퀀스상의 맵핑 위치를 포함하는 마스터 인덱스 테이블 - 정렬된 판독의 각 클래스에 대한 하나의 섹션을 포함하는 - 을 생성하도록 구성된 인덱스 테이블 프로세스 유닛(index table processing unit); 상기 마스터 인덱스 테이블과 상기 액세스 유닛 데이터를 공동으로 저장하도록 구성된 저장 유닛을 포함하는 장치이다.

하나의 개시된 양태에 따르면, 게놈 파일에 저장된 뉴클레오타이드 시퀀스의 판독을 추출하는 추출기(extractor)에 있어서, 상기 게놈 파일(genome file)은 본 개시의 원리에 따라 저장된 마스터 인덱스 테이블(master index table) 및 액세스 유닛 데이터(access unit data)를 포함하고, 상기 추출기는, 추출될 판독 유형을 식별하는 입력 파라미터(input parameter)를 수신하도록 구성된 사용자 입력 수단(user input means), 상기 게놈 파일로부터 상기 마스터 인덱스 테이블을 검색하도록 구성된 검색 수단(retrieving means), 추출될 상기 판독의 유형에 대응하는 상기 액세스 유닛(146)을 검색하도록 구성된 검색 수단, 하나 또는 하나 이상의 레퍼런스 시퀀스상에서 상기 검색된 액세스 유닛을 맵핑하는 뉴클레오타이드의 시퀀스의 판독을 재구축하도록(reconstruct) 구성된 재구축 수단(reconstruct means)을 포함한다.

하나의 개시된 양태에 따르면, 디지털 프로세스 장치는 바로 앞 단락에서 설명한 방법을 수행하도록 프로그램 된다. 또 다른 개시된 양태에 따르면, 일시적 저장 매체는 디지털 프로세스 장치에 의해 액세스 되고 이전 단락에서 설명된 방법을 수행하기 위해 디지털 프로세스 장치에 의해 실행 가능한 명령을 저장한다.

또 다른 개시된 양태에 따르면, 일시적 저장 매체(non-transitory storage medium)는 디지털 프로세서에 의해 판독 가능하며 생물 정보학 특성 세트의 캐릭터를 포함하는 게놈 또는 프로테오믹(proteomic) 문자열로 표현되는 게놈 또는 프로테오믹 데이터를 프로세스 하기 위한 소프트웨어를 저장하고, 게놈 또는 프로테오믹 데이터의 특징은 앞 단락에서 설명한 형식으로 표현된다. 일부 구현예에서, 소프트웨어는 디지털 신호 프로세싱 변형을 사용하여 게놈 또는 프로테오믹 데이터를 프로세스 한다.

도 1은 일반적인 게놈 정보 수명주기의 블록 다이어그램이다.
도 2는 부분 또는 완전한 게놈을 재구축하기 위해 시퀀스를 정렬하는 개념을 도시하는 다이어그램이다.
도 3은 게놈 프로세싱 파이프 라인에서 사용되는 파일 포맷 간의 관계에 대한 간략한 비전을 나타내는 개념도이다.
도 4는 레퍼런스 시퀀스에 맵핑 된 판독 페어를 도시한다.
도 5는 본 개시의 원리에 따른 액세스 유닛의 예를 도시한다.
도 6은 데이터 블록으로 구성된 헤더와 레이어를 포함하는 액세스의 예를 도시한다.
도 7은 게놈 "데이터 패킷", "블록", 액세스 유닛, 레이어 및 스트림 판독 클래스 간의 관계를 도시한다.
도 8은 각 액세스 유닛에 포함된 제1 판독의 맵핑 지점(loci)의 벡터를 가진 마스터 인덱스 테이블을 도시한다.
도 9는 메인 헤더의 일반적인 구조와 클래스 P의 각 pos AU에서 제1 판독의 맵핑 위치를 보여주는 MIT의 부분 표현을 도시한다.
도 10은 MIT의 제2 유형의 데이터 저장을 도시한다.
도 11은 T1p 벡터에 포함된 값을 사용하여 위치 150,000에서 250,000 사이의 레퍼런스 시퀀스 번호 2에 맵핑 된 클래스 P의 판독을 포함하는 액세스 유닛을 도시한다.
도 12는 M 판독에서 P 판독을 변환할 수 있는 레퍼런스 시퀀스의 수정을 도시한다.
도 13은 본 발명의 원리에 따른 게놈 정보 수명주기를 도시하는 블록도이다.
도 14는 본 발명의 원리에 따른 시퀀스 판독기를 도시한다.
도 15는 본 발명의 원리에 따른 게놈 인코더(2010)를 도시한다.
도 16은 본 발명의 원리에 따른 게놈 디코더(218)를 도시한다.

시퀀스 판독의 분류(Classification of the sequence reads)

시퀀싱 장치에 의해 생성된 시퀀스 판독은 개시된 발명에 의해 하나 또는 하나 이상의 레퍼런스 시퀀스에 대한 정렬 결과에 따라 5 개의 상이한 "클래스(class)"로 분류된다.

레퍼런스 시퀀스 5와 관련하여 뉴클레오타이드의 DNA 시퀀스를 정렬할 때 가능한 결과는 다음과 같다:

1. 레퍼런스 시퀀스(reference sequences)의 영역은 오류없이 완료된 시퀀스와 일치하는 것으로 확인된다(완벽한 맵핑(perfectly mapping)). 이러한 뉴클레오타이드의 시퀀스는 "완벽하게 일치하는 판독(perfectly matching read)" 또는 "클래스 P"로 표시된다.

2. 레퍼런스 시퀀스 내의 영역은 시퀀싱 장치가 임의의 염기(base)(또는 뉴클레오타이드)를 호출할 수 없었던 다수의 위치에 의해 구성된 다수의 불일치로 판독된 시퀀스를 일치시키는 것으로 밝혀진다. 이러한 불일치는 "N"으로 표시된다. 이러한 시퀀스는 "N 개의 불일치 판독" 또는 "클래스 N"으로 레퍼런스 된다.

3. 레퍼런스 시퀀스 내의 영역은 시퀀싱 장치가 임의의 염기(또는 뉴클레오타이드)를 호출할 수 없었던 다수의 위치 또는 레퍼런스 게놈(reference genome)에서 호출되었던 보고된 것과 상이한 염기로 구성되는 다수의 불일치로 판독된 시퀀스를 일치시키는 것으로 밝혀진다. 이러한 유형의 불일치는 SNV(Single Nucleotide Variation) 또는 SNP(Single Nucleotide Polymorphism)라고 한다. 시퀀스는 "M 개의 불일치 판독" 또는 "클래스 M"으로 레퍼런스 된다.

4. 제4 클래스는 클래스 M의 동일한 불일치와 삽입 또는 삭제(a.k.a. 인델(indels))의 존재를 포함하는 불일치 유형을 나타내는 판독을 시퀀싱 함으로써 구성된다. 삽입은 레퍼런스에 존재하지 않지만 판독 시퀀스에 존재하는 하나 또는 하나 이상의 뉴클레오타이드의 시퀀스로 표시된다. 문헌에서 삽입된 시퀀스가 시퀀스의 가장자리에 있을 때, 이를 "소프트 클리핑(soft clipped)"이라고 한다(즉, 뉴클레오타이드는 레퍼런스와 일치하지 않지만, 폐기되는 "하드 클리핑(hard clipped)" 뉴클레오타이드와는 반대로 정렬된 판독으로 유지된다.). 삭제는 레퍼런스와 관련하여 정렬된 판독에서 "구멍(hole)"(누락된 뉴클레오타이드)이다. 이러한 시퀀스는 "I 불일치 판독(I mismatching reads)" 또는 "클래스 I(Class I)"로 레퍼런스 된다.

5. 제5 클래스는 현재 특정한(specified) 정렬 제약 조건에 따라 레퍼런스 게놈에서 유효한 맵핑을 찾는 모든 판독을 포함한다. 그러한 시퀀스는 맵핑 되어 있지 않고 "클래스 U"에 속한다고 한다.

맵핑 되지 않은 판독은 드노보(de-novo) 어셈블리 알고리즘을 사용하여 단일 시퀀스로 어셈블 할 수 있다. 일단 새로운 시퀀스가 생성되면, 맵핑 되지 않은 판독은 맵핑 된 맵핑 과 관련하여 더 맵핑 될 수 있으며 클래스 P, N, M 및 I의 4 가지 클래스 중 하나로 분류된다.

게놈 정보를 레이어로 분해(Decomposition of the genomic information into layers)

클래스의 정의에 따라 판독의 분류가 완료되면, 추가 프로세싱은 주어진 레퍼런스 시퀀스 상에 맵핑 되는 것으로 표현될 때, DNA 판독 시퀀스의 재구축(reconstruct)을 가능하게 하는 나머지 정보를 나타내는 구별되는 구문 요소(distinct syntax elements)의 세트를 정의하는 것으로 구성된다. 주어진 레퍼런스 시퀀스에 언급된 DNA 세그먼트(segment)은 다음과 같이 전체적으로 표현될 수 있다:

● 레퍼런스 게놈(pos)의 시작 위치(starting position).

● 판독이 레퍼런스(rcomp) 대 역 보완(reverse complement)으로 간주되어야 하는지 여부를 알려주는 플래그 신호(starting position).

● 페어로 된 판독(페어)의 경우 메이트 페어(mate pair)까지의 거리.

● 시퀀싱 기술이 가변 길이 판독을 생성하는 경우, 판독 길이값(value of the read length). 일정(constant) 판독 길이의 경우, 각 판독과 연관된 판독 길이는 분명히 생략될 수 있으며 메인 파일 헤더에 저장할 수 있다.

● 각각의 불일치:

o 불일치 위치(클래스 N에 대한 nmis, 클래스 M에 대한 snpp, 및 클래스 I에 대한 indp)

o 불일치 유형(클래스 N에는 없음. 클래스 M의 snpt, 클래스 I의 indt)

● 나타날 때 선택적으로 소프트 클리핑 뉴클레오타이드 스트링(클래스 I의 indc)

이 분류는 게놈 시퀀스 판독을 일의적으로 표현하는데 사용할 수 있는 디스크립터(descriptor) 그룹(구문 요소(syntax element))을 생성한다. 아래 테이블에는 정렬된 판독의 각 클래스에 필요한 구문 요소가 요약되어 있다.

데이터 클래스 당 정의된 레이어

	P	N	M	I
pos	X	X	X	X
pair	X	X	X	X
rcomp	X	X	X	X
flag	X	X	X	X
rlen	X	X	X	X
nmis		X
snpp			X
snpt			X
indp				X
indt				X
indc				X

클래스 P에 속한 판독은 특징지어지고, 메이트 페어, 일부 플래그 및 판독 길이를 생성하는 시퀀싱 기술에 의하여 얻어지는 경우에, 단지 위치, 역 보완 정보 및 메이트 간의 오프셋에 의하여 완벽하게 재구축될 수 있다.

도 4는(Illumina Inc.의 가장 일반적인 시퀀싱 기술에 따라) 페어로 판독하는 방법을 보여주고 레퍼런스 시퀀스에 맵핑 된다. 레퍼런스 시퀀스에 맵핑 된 판독 페어는 동질의 디스크립터(descriptor)(즉, 위치, 하나의 페어에서 판독 간의 거리, 불일치 등 ...)의 여러 레이어로 인코딩 된다.

레이어는 레퍼런스 시퀀스(layer reference sequence)에 맵핑 된 판독을 고유하게 식별하는데 필요한 요소의 다양성 중 하나와 관련된 디스크립터의 벡터로 정의된다. 다음은 각각의 디스크립터 벡터를 운반하는 레이어의 예이다.

● 위치 레이어 판독(Reads position layer)

● 역 보완 레이어(Reverse complement layer)

● 페어링 정보 레이어(Pairing information layer)

● 불일치 위치 레이어(Mismatch position layer)

● 불일치 유형 레이어(Mismatch type layer)

● 인델 레이어(indel layer)

● 클리핑 된 염기 레이어(Clipped bases layer)

● 길이 레이어 읽기(가변 읽기 길이의 경우에만 표시)(Reads lengths layer)

● BAM 플래그 레이어(BAM flags layer)

데이터 블록, 액세스 유닛 및 게놈 데이터 레이어(Data Blocks, Access units and Genomic Data Layer)

본 발명에 의해 더 개시된 데이터 구조는 다음의 개념에 의존한다:

데이터 블록(data block)은 레이어(layer)을 구성하는 동일한 유형(예를 들어, 위치, 거리, 역 보완 플래그, 불일치의 위치 및 유형)의 디스크립터 벡터 요소(descriptor vector elements)의 세트로 정의된다. 하나의 레이어는 일반적으로 다수의 데이터 블록(data block)으로 구성된다. 데이터 블록은 일반적으로 통신 채널 요건에 따라 특정된 크기를 갖는 전송 유닛(transmission unit)으로 구성되는 게놈 데이터 패킷(Genomic Data Packets)으로 분할될 수 있다. 이러한 분할 특성(feature)은 일반적인 네트워크 통신 프로토콜을 사용하여 전송 효율성을 달성하는데 바람직하다.

액세스 유닛(access unit)은 전체적으로 이용 가능한 데이터(예를 들어, 디코더 구성)만을 사용하거나 다른 액세스 유닛에 포함된 정보를 사용함으로써 다른 액세스 유닛과 독립적으로 완전히 디코딩 될 수 있는 게놈 데이터의 서브 세트(subset)로서 정의된다. 액세스 유닛은 헤더(header) 및 상이한 레이어의 데이터 블록의 멀티플렉싱(multiplexing)의 결과로 구성된다. 동일한 유형의 여러 패킷이 블록에 캡슐화되고 여러 블록이 하나의 액세스 유닛으로 멀티플렉스 된다. 이 개념은 도 5에 도시되어 있다. 도 6은 헤더와 동일한 성질의 데이터 블록들의 하나 또는 하나 이상의 레이어로 구성된 액세스 유닛을 도시한다. 도 6은 도 5에 도시된 일반적인 액세스 유닛 구조(generic access unit structure)의 예를 도시하며,

● 레이어 1의 데이터 블록에는 레퍼런스 시퀀스(reference sequence)의 판독 위치(position of read)와 연관된 정보를 포함한다.

● 레이어 2의 데이터 블록에는 판독의 역 보완성(reverse complementarity)에 대한 정보를 포함한다.

● 레이어 3의 데이터 블록에는 판독 페어링(reads pairing) 정보와 연관된 정보를 포함한다.

● 레이어 4의 데이터 블록에는 판독 길이(reads length)에 대한 정보를 포함한다.

게놈 데이터 레이어(Genomic Data Layer)는 동일한 유형의 데이터를 인코딩하는 게놈 데이터 블록 세트로 정의된다(예를 들어, 레퍼런스 게놈에서 완벽하게 일치하는 판독 위치 블록은 동일한 레이어에 인코딩 됨).

게놈 데이터 스트림(Genomic Data Stream)은 암호화된 게놈 데이터가 헤더에 추가 서비스 데이터를 포함하여 게놈 데이터 패킷의 페이로드(payload)로 운반되는 게놈 데이터 레이어의 패킷화 버전이다. 도 7을 참조하면, 3 개의 게놈 데이터 레이어를 3 개의 게놈 데이터 스트림으로 패킷화 하는 예를 도시한다.

게놈 데이터 멀티플렉스(Genomic Data multiplex)는 게놈 시퀀싱, 분석 또는 프로세싱의 하나 또는 하나 이상의 프로세스와 관련된 게놈 데이터를 전달하는데 사용되는 게놈 액세스 유닛의 시퀀스로 정의된다. 도 7은 액세스 유닛으로 분해된 3 개의 게놈 데이터 스트림을 운반하는 게놈 멀티 플렉스 간의 관계의 개략도를 제공한다. 액세스 유닛은 세 개의 스트림에 속한 데이터 블록을 캡슐화하고 전송 네트워크에서 전송하기 위해 게놈 패킷으로 분할한다.

소스 모델, 엔트로피 코더 및 코딩 모드(Source models, entropy coders and coding modes)

본 발명에 개시된 게놈 데이터 구조의 각 레이어에 대하여, 상이한 코딩 알고리즘이 레이어 및 그 통계적 특성에 의해 운반되는 데이터 또는 메타 데이터의 특정 특성(feature)에 따라 사용될 수 있다. "코딩 알고리즘"은 특정 "엔트로피 코더(entropy coder)"와 디스크립터의 특정 "소스 모델(source model)"을 연관 지어 생각해야 한다. 소스 엔트로피의 최소화 측면에서 데이터의 가장 효율적인 코딩을 얻기 위해 특정 "소스 모델"을 지정하고 선택할 수 있다. 엔트로피 코더의 선택은 코딩 효율 고려 사항 및/또는 확률 분포 특성(feature) 및 관련 구현 문제에 의해 유도될 수 있다. 특정 코딩 알고리즘의 각 선택은 액세스 유닛에 포함된 전체 "레이어(layer)" 또는 모든 "데이터 블록"에 적용되는 "코딩 모드(coding mode)"라고 한다. 코딩 모드와 연관된 각각의 "소스 모델"은 다음과 같은 특징이 있다:

● 각 소스에 의해 방출된 구문 요소의 정의(예를 들어, 위치 판독, 페어링 정보 판독, 레퍼런스 시퀀스와의 불일치 등)

● 연관 확률 모델의 정의.

● 연관 엔트로피 코더의 정의.

각 데이터 레이어에 대해 하나의 액세스 유닛에서 채택된 소스 모델은 동일한 데이터 레이어에 대해 다른 액세스 유닛이 사용하는 소스 모델과는 독립적이다. 이는 각 액세스 유닛이 엔트로피의 최소화 측면에서 각 데이터 레이어에 대해 가장 효율적인 소스 모델을 사용할 수 있게 한다.

테이블(Tables)

마스터 인덱스 테이블(Master Index Table)

정렬된 데이터(aligned data)의 특정 영역에 대한 선택적 액세스(selective access)를 지원하기 위하여, 이 문서에서 설명하는 데이터 구조는 MIT(Master Index Table)라는 인덱싱 도구를 구현한다. 이것은 다음의 두 개의 데이터 클래스를 포함하는 다차원 어레이(multi-dimensional)이다:

1. 사용된 레퍼런스 시퀀스(reference sequence)에서 특정 판독이 맵핑 되는 지점(loci). MIT에 포함된 값은 각 액세스 레이어에 대한 비 순차 액세스(non-sequential access)가 지원되도록, 각 pos 레이어에서 제1 판독의 맵핑 위치이다. MIT는 이들 섹션은 데이터의 각 클래스(P, N, M 및 I) 당 하나의 섹션과 각 레퍼런스 시퀀스마다 하나의 섹션을 포함한다.

2. 포인트 1에 언급된 위치 벡터에 저장된 맵핑 위치에 따라 판독 블록을 재구축하는데 필요한 데이터가 포함된 액세스 유닛에 대한 포인터(pointer). 포인터의 각 벡터를 로컬 인덱스 테이블(local index table)이라고 한다.

액세스 유닛 맵핑 위치(Access Units mapping positions)

도 8은 각 데이터 클래스(data class)의 각 액세스 유닛의 레퍼런스 시퀀스(가능하면 둘 이상)상의 맵핑 위치를 포함하는 네 개의 벡터를 하이라이트 하는 MIT의 개략도를 도시한다.

MIT는 인코딩 된 데이터의 메인 헤더(main header)에 포함된다. 도 9는 메인 헤더의 일반적인 구조와 인코딩 된 판독의 클래스 P에 대한 MIT 벡터의 예를 도시한다.

도 9에 도시된 MIT에 포함된 값은 압축된 도메인(compressed domain)에서 관심 영역(region of interest)(및 해당 액세스 유닛)에 직접 액세스하는데 사용된다.

예를 들어, 도 9를 참조하면 분석자(analyst)가 레퍼런스 번호 2상의 150,000에서 250,000 위치 사이의 영역에 맵핑 된 완벽하게 일치하는 판독에 액세스 해야 하는 경우, 디코딩 어플리케이션(decoding application)은 MIT 내의 클래스 P 위치 벡터(position vector) 및 제2 레퍼런스(reference)로 스킵(skip)하고, k1 < 150,000 및 k2 > 250,000가 되도록 두 개의 값 k1 및 k2를 찾을 것이다. 도 9의 예에서, 이것은 MIT 벡터의 제2 블록(제2 레퍼런스)의 위치 3과 4가 클래스 P의 맵핑 위치를 참조하게 된다. 그런 다음, 반환(returned) 값은 다음 섹션에서 설명하는 것처럼 pos 레이어에서 적절한 액세스 유닛의 위치를 가져오기 위하여 디코딩 애플리케이션에 의해 사용된다.

액세스 유닛 포인터(Access Units Pointers)

MIT(도 8)의 나머지 벡터들에 포함된 제2 유형의 데이터는 인코딩 된 비트 스트림(bit stream) 내의 각 액세스 유닛의 물리적 위치에 대한 포인터의 벡터들로 구성된다. 각 벡터는 범위가 하나의 동질의 클래스(homogeneous class)의 인코딩 된 정보로 제한되기 때문에 로컬 인덱스 테이블(local index table)이라고 한다.

맵핑 된 판독(P, N, M, I)의 네 가지 클래스 각각에 대해 인코딩 된 판독(페어)를 재구축하려면 여러 유형의 액세스 유닛이 필요하다. 데이터의 각 클래스에 관련된 액세스 유닛의 특정 유형은 전술한 바와 같이, 하나 또는 하나 이상의 레퍼런스 시퀀스에 대한 각 클래스의 판독에 적용된 매칭 함수(matching function)의 결과에 의존한다.

도 9의 이전 예에서 레퍼런스 시퀀스 번호 2 상에 정렬된 150,000에서 250,000 개의 판독 영역에 액세스 하려면, 도 2에 도시된 바와 같이, 디코딩 어플리케이션은 MIT 내의 클래스 P의 위치 벡터로부터 위치 3 및 4를 검색한다. 이 값은 MIT의 해당 액세스 유닛 벡터(이 경우에는 제2의)의 제3 및 제4 유닛에 액세스하기 위해 디코딩 프로세스에서 사용된다. 도 11에 도시된 예에서, 메인 헤더(main header)에 포함된 총 액세스 유닛 카운터(total access unit counter)는 레퍼런스 1(이 예에서 4)과 연관된 액세스 유닛의 위치를 스킵 하는데 사용된다. 따라서, 인코딩 된 스트림에서 요청된 액세스 유닛의 물리적 위치를 포함하는 인덱스는 다음과 같이 계산된다:

요청된 AU의 위치 = 스킵될 레퍼런스 1의 AUs + MIT를 이용한 위치 검색

즉,

제1 AU 위치: 4 + 3 = 7

마지막 AU 위치: 4 + 4 = 8

즉, 관심 영역(위치 150,000에서 250,000 사이의 레퍼런스 시퀀스 번호 2상에 맵핑 된 클래스 P 판독)은 마스터 인덱스 테이블의 T1p(유형 1의 액세스 유닛 유형 p) 행의 제7 및 제8 열에 저장된 포인터가 가리키는 액세스 유닛에 포함된다.

도 11은 MIT의 한 벡터의 요소(예를 들어, 클래스 P 위치)가 하나의 LIT(도 11의 예에서는 유형 1 pos 벡터)의 요소를 가리키는 방법을 도시한다.

레퍼런스 시퀀스 적응(Adapting the reference sequence)

"적응된(adapted)" 게놈 R₁과 관련한 p 판독처럼, 클래스 N, M 및 I에 대해 인코딩 된 불일치는 N, M 또는 I 레이어(제1 레퍼런스 게놈, R₀에 대해)에서 판독을 다시 인코딩하는데 사용되는 "수정된 게놈(modified genome)"을 생성하는데 사용될 수 있다.

예를 들어, 레퍼런스 게놈 n에 대한 불일치를 포함하는 클래스 M의 i 번째 판독이

으로 표시된다면, 그 다음 "적응(adaptation)" 이후에 A(Ref_n)=Ref_n+1 인

=

이이 얻어질 수 있다. 여기서 A는 레퍼런스 시퀀스 n에서 레퍼런스 시퀀스 n + 1 로의 변환이다.

도 12는 불일치 위치를 수정함으로써 RSI로부터 얻어진 레퍼런스 시퀀스 2(RS2)에 대해 레퍼런스 시퀀스 1(RS1)에 대한 불일치(M 판독)를 포함하는 판독을 어떻게 완전히 매칭 판독(P 판독)으로 변형시킬 수 있는지를 도시한다. 이 변환은 다음과 같이 표현될 수 있다.

RS2 = A(RS1)

RS1에서 RS2로 진행하는 변환 A의 표현(expression)이 M 판독에 존재하는 불일치 표현의 비트를 덜 요구하는 경우, 이 인코딩 방법은 정보 엔트로피가 작아지고 따라서 압축이 향상된다.

어떤 상황에서는 레퍼런스 게놈에서의 하나 또는 하나 이상의 수정은 N, M 또는 I 판독 세트를 P 판독으로 변환함으로써 전체 정보 엔트로피를 감소시킬 수 있다.

이제, 도 13에 따라 본 발명의 원리에 따른 시스템 아키텍처가 설명된다. 어떤 소스(source)에서, 하나 또는 하나 이상의 게놈 시퀀싱 장치(130) 및/또는 어플리케이션은 다음을 포함하는 포멧에서 게놈 정보(131)를 생성하고 표현한다.

● 핵산(nucleic acids)을 나타내는 하나 또는 하나 이상의 심볼 시퀀스

● 각 게놈 시퀀스 당 고유 식별자(unique identifier)

● 각 심볼 당 선택적 품질값(optional quality value)

● 선택적 메타 데이터(Optional metadata)

● 생성된 게놈 시퀀스(genomic sequences)를 추가로 프로세스 하는데 사용되는 하나 또는 하나 이상의 선택적 레퍼런스 시퀀스(optional reference sequences).

판독 정렬 유닛(reads alignment unit)(132)은 미가공(raw) 시퀀스 데이터를 수신하고 하나 또는 하나 이상의 이용 가능한 레퍼런스 시퀀스상에서 이들을 정렬하거나, "드노보(de-novo)" 어셈블리(assembly)로 알려진 방법을 적용하여 중첩된 접두사 및 접미사를 찾음으로써 더 긴 시퀀스로 어셈블(assemble) 한다.

판독 분류 유닛(reads classification unit)(134)은 정렬된 게놈 시퀀스 데이터(aligned genome sequence data)(133)를 수신하고, 다음과 관련하여 각 시퀀스에 매칭 기능을 적용한다:

● 하나 또는 하나 이상의 사용 가능한 레퍼런스 시퀀스 또는

● 정렬 프로세스 중에 만들어진 내부 레퍼런스("드노보(de-novo)"어셈블리의 경우).

레이어 인코딩 유닛(layers encoding unit)(136)은 분류 유닛(classification unit)(134)에 의해 생성된 판독 클래스(read class)(135)를 수신하고 구문 요소(syntax element)(137)의 레이어를 생성한다.

헤더 및 액세스 유닛 인코딩 유닛(header and Access Units encoding unit)(138)은 액세스 유닛에 구문 요소 레이어(syntax elements layers)(137)을 캡슐화하고 각 액세스 유닛에 헤더를 부가한다.

마스터 인덱스 테이블 인코딩 유닛(Master Index Table encoding unit)(1310)은 수신된 액세스 유닛(access unit)(139)에 대한 포인터의 인덱스(index of pointer)를 생성한다

압축 유닛(compression unit)(1312)은 사용된 저장 공간을 줄이기 위해 보다 축약된(압축된) 포맷(compact(compressed) format)(1315)으로 상기 표현의 출력을 변환한다;

로컬 또는 원격 저장 장치(local or remote storage device)(1316)는 압축된 정보(compressed information)(1315)를 저장한다.

압축 해제 유닛(decompression unit)(1313)은 압축 정보(compressed information)(1315)를 압축 해제하여 게놈 정보(genomic information)(131)에 해당하는 압축 해제된 데이터(decompressed data)(1317)를 검색한다.

분석 유닛(analysis unit)(1314)은 거기에 포함된 메타 데이터를 증분적으로 업데이트함으로써 상기 게놈 정보(genome information)(1317)를 추가로 프로세스 한다.

업데이트된 데이터(1319)를 생성하기 위해서, 하나 또는 하나 이상의 게놈 시퀀싱 장치 또는 애플리케이션(1318)은 기존 게놈 정보를 재 인코딩 할 필요없이 추가 게놈 시퀀싱 프로세스의 결과를 추가함으로써 기존 게놈 데이터에 추가 정보를 추가할 수 있다. 정렬과 압축은 새로 생성된 게놈 데이터를 기존 데이터와 병합하기 전에 적용해야 한다.

상술한 실시예의 몇 가지 이점 중 하나는 데이터에 액세스할 필요가 있는 게놈 분석 장치 및 애플리케이션이 하나 또는 하나 이상의 인덱스 테이블을 사용하여 필요한 정보를 쿼리하고 검색할 수 있다는 것이다.

본 발명의 원리에 따른 시퀀스 판독기(sequence reads extractor)(140)는 도 14에 개시되어 있다.

추출기 디바이스(extractor device)(140)는 본 발명에 따라 마스터 인덱스 테이블을 이용하여 이 개시에 따라 게놈 파일 포맷에 저장된 임의의 시퀀스 판독에 대한 랜덤 액세스를 갖는다.

추출기 디바이스(140)는 검색될 특정 데이터에 대한 사용자 입력 정보(142)를 수신하기 위한 사용자 입력 수단(141)을 포함한다. 예를 들어, 사용자는 다음을 지정할 수 있다.

a. 다음과 같은 게놈 영역:

i. 레퍼런스 게놈의 절대 위치 시작 및 종료

ii. 하나의 전체 레퍼런스 시퀀스(예를 들어, 염색체(chromosome))

b. 다음과 같은 인코딩 된 시퀀스 판독의 단 하나의 특정 유형:

i. 하나 또는 하나 이상의 레퍼런스 시퀀스에 완벽하게 일치하는 시퀀스 판독

ii. 하나 또는 하나 이상의 레퍼런스 시퀀스에 관련된 정확히 N 개의 불일치를 나타내는 시퀀스 판독

iii. 지정된 임계 값 아래 또는 위에 있는 하나 또는 하나 이상의 레퍼런스 시퀀스와 관련된 다수의 불일치를 나타내는 시퀀스 판독

iv. 레퍼런스 시퀀스에 관련된 삽입 및 삭제를 나타내는 시퀀스 판독

도 14의 MIT 추출기(MIT extractor)(143)는 게놈 파일의 메인 헤더를 파싱(parsing)하여, 도 9에 도시된 바와 같이 포함된 정보에 액세스한다:

c. 고유한 식별자

d. 사용된 구문의 버전

e. 메인 헤더의 바이트 단위 크기

f. 시퀀스 판독을 인코딩하는데 사용된 레퍼런스 시퀀스의 수

g. 스트림에 포함된 데이터 블록 수

h. 레퍼런스 식별자

i. 마스터 인덱스 테이블

MIT 파서 및 AU 추출기(MIT parser and AU extractor)(145)는 마스터 인덱스 테이블의 다음 정보를 이용하여 요청된 액세스 유닛을 검색한다:

j. 각 액세스 유닛에서의 제1 판독의 레퍼런스 게놈상의 위치의 벡터. 도 9는 디코딩 장치가 그러한 위치를 판독하고 요청된 영역 내에 맵핑 되고 인코딩 된 판독을 포함하는 액세스 유닛을 어떻게 찾을 수 있는지를 도시하고,

k. 각 인코딩 된 레이어의 로컬 인덱스 테이블이다. 이들 벡터는 사용자에 의해 요구된 게놈 영역 상에 맵핑 된 판독 값을 포함하는 단계 a에서 식별된 액세스 유닛의 물리적 위치를 검색하는데 사용된다

l. 로컬 색인 테이블은 각 데이터 클래스별로 정의되므로 추출기는 사용자가 요청한 시퀀스 판독을 참조하는 클래스 만 추출한다. 예를 들어, 완전히 일치하는 판독 전용 요청의 경우, 추출된 장치는 도 8에 표시된 것처럼 클래스 P와 관련된 LIT에만 액세스한다.

검색된 액세스 유닛에서 발견된 정보 및 게놈 비트 스트림으로 인코딩 되거나 추출 장치에서 이용 가능한 하나 또는 하나 이상의 레퍼런스 시퀀스를 사용하여, 판독 재구축기(reads reconstructor)(147)는 원래의 시퀀스 판독을 재구축할 수 있다.

도 15는 본 발명의 원리에 따른 인코딩 장치(encoding apparatus)(207)를 도시한다. 인코딩 장치는 도 13의 시스템 아키텍처의 압축측면을 더 명확하게 하지만, 도 15의 엔코더 에서는 마스터 인덱스 테이블과 액세스 장치 생성이 생략되어 메타 데이터 및 구조화 정보없이 압축된 스트림이 생성된다. 인코딩 장치(207)는, 예를 들어 게놈 시퀀싱 장치(genome sequencing apparatus)(200)에 의해 생성된 미가공(raw) 시퀀스 데이터(sequence data)(209)를 입력으로 수신한다. 게놈 시퀀싱 장치(200)는 일루미나(Illumina) HiSeq 2500 또는 써모피셔이온 토런트(Thermo-Fisher Ion Torrent) 장치와 같이 당 업계에 공지되어 있다. 미가공 시퀀스 데이터(raw sequence data)(209)는 정렬 유닛(aligner unit)(201)에 공급되고, 정렬 유닛(201)은 판독을 레퍼런스 시퀀스에 정렬시킴으로써 인코딩을 위한 시퀀스를 준비한다. 대안으로, 더 긴 세그먼트("콘티그(contigs)"라고 불리는)가 판독으로부터 어셈블될 수 있도록 오버랩 하는 접두사 또는 접미어를 찾음으로써 이용 가능한 판독으로부터 레퍼런스 시퀀스를 생성하기 위해 드노보 어셈블러(de-novo assembler)(202)가 사용될 수 있다. 드노보(de-novo) 어셈블러(202)에 의해 프로세스된 후에, 판독은 획득된 더 긴 시퀀스에 맵핑 될 수 있다. 정렬된 시퀀스는 데이터 분류 모듈(data classification module)(204)에 의해 분류된다. 데이터 클래스(data class)(208)은 레이어 인코더(layer encoder)(205-207)에 공급된다. 게놈 레이어(genomic layer)(2011)은 그 후 레이어에 의해 운반된 데이터 또는 메타 데이터의 통계적 특성에 따라 레이어를 인코딩하는 산술 인코더(arithmetic encoder)(2012-2014)에 공급된다. 결과는 게놈 스트림(genomic stream)(2015)이다.

도 16은 대응하는 디코딩 장치(decoding apparatus)(218)를 도시한다. 디코딩 장치(218)는 네트워크 또는 저장 요소로부터 멀티플렉스 된 게놈 비트 스트림(genomic bitstream)(2110)을 수신한다. 멀티플렉스 된 게놈 비트 스트림(2110)은 디멀티플렉서(demultiplexer)(210)에 공급되어 분리된 스트림(stream)(211)을 생성한 다음 엔트로피 디코더(entropy decoder)(212-214)에 공급되어 게놈 레이어(215)를 생성한다. 추출된 게놈 레이어는 레이어 디코더(layer decoder)(216-217)에 공급되어 레이어를 데이터 클래스로 더 디코딩한다. 클래스 디코더(class decoder)(219)는 게놈 디스크립터(descriptor)를 더 프로세스하고 그 결과를 병합하여 시퀀스의 비 압축 판독을 생성한 다음, 예를 들어 텍스트 파일 또는 zip 압축 파일, 또는 FASTQ 또는 SAM/BAM 파일과 같은 당 업계에 공지된 포맷으로 더 저장될 수 있다. 클래스 디코더(219)는 하나 또는 하나 이상의 게놈 스트림에 의해 운반되는 원래의 레퍼런스 시퀀스에 대한 정보를 레버리지함으로써 원래의 게놈 시퀀스를 재구축할 수 있다. 레퍼런스 시퀀스가 게놈 스트림에 의해 전송되지 않는 경우, 이들은 디코딩 측에서 이용 가능해야 하고 클래스 디코더에 의해 액세스 가능해야 한다.

하나 또는 하나 이상의 예에서, 여기에 개시된 본 발명의 기술은 하드웨어, 소프트웨어, 펌웨어 또는 임의의 조합으로 구현될 수 있다. 소프트웨어로 구현될 때, 이들은 컴퓨터 매체에 저장되고 하드웨어 프로세스 장치에 의해 실행될 수 있다. 하드웨어 프로세스 유닛은 하나 또는 하나 이상의 프로세서, 디지털 신호 프로세서, 범용 마이크로 프로세서, 주문형 집적 회로 또는 다른 이산 논리 회로를 포함할 수 있다.

본 개시의 기술은 이동 전화, 데스크톱 컴퓨터, 서버, 태블릿 등을 포함하는 다양한 장치 또는 디바이스에서 구현될 수 있다.

많은 다른 이점들이 다음의 청구 범위에 설명된다.

Claims

게놈 시퀀스 데이터의 표현을 게놈 파일 포맷으로 저장하는 방법에 있어서,
상기 게놈 시퀀스 데이터는 뉴클레오타이드의 시퀀스의 판독을 포함하고,
방법은,
상기 판독을 하나 또는 하나 이상의 레퍼런스 시퀀스에 정렬시킴으로써 정렬된 판독을 생성하는 단계,
상기 하나 또는 하나 이상의 레퍼런스 시퀀스와 상이한 매칭 정확도에 따라 상기 정렬된 판독을 분류함으로써 정렬된 판독의 클래스를 생성하는 단계;
상기 분류되고 정렬된 판독을 구문 요소의 레이어로서 인코딩하는 단계,
상기 구문 요소의 레이어를 헤더 정보로 구조화함으로써 연속적인 액세스 유닛을 생성하는 단계,
각각의 데이터 클래스의 각 액세스 유닛의 제1 판독의 상기 하나 또는 하나 이상의 레퍼런스 시퀀스상의 맵핑 위치를 포함하는 마스터 인덱스 테이블 - 정렬된 판독의 각 클래스에 대한 하나의 섹션을 포함하는 - 을 생성하는 단계;
상기 마스터 인덱스 테이블과 상기 액세스 유닛 데이터를 공동으로 저장하는 단계
를 포함하는
방법.
제1항에 있어서,
상기 마스터 인덱스 테이블은,
각 후속 액세스 유닛의 물리적 위치에 대한
포인터 벡터
를 더 포함하는
방법.
제1항에 있어서,
상기 마스터 인덱스 테이블은,
각 레퍼런스 시퀀스에 대해
하나의 섹션
을 더 포함하는
방법.
제1항에 있어서,
상기 분류되고 정렬된 판독을 구문 요소의 레이어로서 인코딩하는 단계는,
레이어에 의해 운반되는 데이터 또는 메타 데이터의
특정 특성에 따라 적응되는
방법.
제4항에 있어서,
상기 분류되고 정렬된 판독을 구문 요소의 레이어로서 인코딩하는 단계는,
레이어에 의해 운반되는 데이터 또는 메타 데이터의
통계적 속성들에 따라
추가로 적응되는
방법.
제5항에 있어서,
상기 분류되고 정렬된 판독을 구문 요소의 레이어로서 인코딩하는 단계는,
디스크립터의 소스 모델을
특정 엔트로피 코더와
연관시키는
방법.
제6항에 있어서,
하나의 액세스 유닛에서 채택된 소스 모델은
동일한 데이터 레이어에 대해
다른 액세스 유닛에 의해 사용되는 소스 모델과
독립적인
방법.
게놈 파일에 저장된 뉴클레오타이드 시퀀스의 판독을 추출하는 방법에 있어서,
상기 게놈 파일은 제1항의 방법에 따라 저장된 마스터 인덱스 테이블 및 액세스 유닛 데이터를 포함하고,
추출될 판독 유형을 식별하는 사용자 입력을 수신하는 단계,
상기 게놈 파일로부터 마스터 인덱스 테이블을 검색하는 단계,
추출될 상기 유형의 판독에 대응하는 상기 액세스 유닛을 검색하는 단계,
하나 또는 하나 이상의 레퍼런스 시퀀스상에서 상기 검색된 액세스 유닛을 맵핑 하는 뉴클레오타이드의 시퀀스의 상기 판독을 재구축하는 단계
를 포함하는
방법.
제8항에 있어서,
상기 게놈 파일은
하나 또는 하나 이상의 레퍼런스 시퀀스
를 더 포함하는
방법.
제9항에 있어서,
상기 하나 또는 하나 이상의 레퍼런스 시퀀스는
대역 외 메커니즘을 통해 제공되는
방법.
게놈 시퀀싱 장치에 있어서,
생물학적 샘플로부터 뉴클레오타이드(131)의 시퀀스의 판독을 출력하도록 구성된 게놈 시퀀싱 유닛(130),
상기 판독을 하나 또는 하나 이상의 레퍼런스 시퀀스에 정렬시켜 정렬된 판독을 생성하도록 구성된 정렬 유닛(132),
상기 정렬된 판독을 상기 하나 또는 하나 이상의 레퍼런스 시퀀스와 일치 정확도에 따라 분류하여 정렬된 판독의 클래스(135)를 생성하도록 구성된 분류 유닛 (134);
상기 분류되고 정렬된 판독을 구문 요소 레이어(137)로서 인코딩하도록 구성된 인코딩 유닛(136),
헤더 정보와 함께 상기 구문 요소 레이어를 구조화하여 연속적인 액세스 유닛들(139)을 생성하도록 구성된 세분 유닛(138),
각각의 데이터 클래스의 각 액세스 유닛의 제1 판독의 레퍼런스 시퀀스상의 맵핑 위치를 포함하는 마스터 인덱스 테이블 - 정렬된 판독의 각 클래스에 대한 하나의 섹션을 포함하는 - 을 생성하도록 구성된 인덱스 테이블 프로세스 유닛(1310);
상기 마스터 인덱스 테이블과 상기 액세스 유닛 데이터(1311)를 공동으로 저장하도록 구성된 저장 유닛(1312-1316),
을 포함하는
장치.
제8항에 있어서,
상기 마스터 인덱스 테이블은,
각각의 후속 액세스 유닛의 물리적 위치에 대한
포인터 벡터
를 더 포함하는
장치.
제8항에 있어서,
상기 분류되고 정렬된 판독을 구문 요소의 레이어로서 인코딩하는 단계는,
레이어에 의해 운반되는 데이터 또는 메타 데이터의
특정 특성에 따라 적응되는
장치.
게놈 파일에 저장된 뉴클레오타이드 시퀀스의 판독을 추출하는 추출기(140)에 있어서,
상기 게놈 파일은 제1항의 방법에 따라 저장된 마스터 인덱스 테이블 및 액세스 유닛 데이터를 포함하고,
상기 추출기(140)는,
추출될 판독 유형을 식별하는 입력 파라미터(142)를 수신하도록 구성된 사용자 입력 수단(141),
상기 게놈 파일로부터 상기 마스터 인덱스 테이블(144)을 검색하도록 구성된 검색 수단(143),
추출될 상기 판독의 유형에 대응하는 상기 액세스 유닛(146)을 검색하도록 구성된 검색 수단(145),
하나 또는 하나 이상의 레퍼런스 시퀀스상에서 상기 검색된 액세스 유닛을 맵핑 하는 뉴클레오타이드의 시퀀스(148)의 판독을 재구축하도록 구성된 재구축 수단(147)을
포함하는
장치.
장치에서 읽을 수 있는 매체로서,
컴퓨팅 디바이스상에서 실행되는 것에 응답하여,
컴퓨팅 디바이스로 하여금 제1항 내지 제10항의 방법을 수행하게 하는 복수의 명령어를 포함하는
장치에서 읽을 수 있는
매체.