KR20190071741A

KR20190071741A - 생물 정보학 데이터의 간략 표현 방법 및 장치

Info

Publication number: KR20190071741A
Application number: KR1020197013465A
Authority: KR
Inventors: 기오르기오 조이아; 다니엘레 렌지
Original assignee: 게놈시스 에스에이
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2019-06-24
Also published as: EP4235680A3; HUE062006T2; EP3526711B1; CL2019000957A1; CO2019003587A2; PH12019500793A1; EP4235680A2; IL265906A; CA3039690A1; CN110168649A; WO2018068829A1; EA201990935A1; AU2016426571A1; JP2020503580A; ZA201902786B; MX2019004124A; ES2947521T3; SG11201903177PA; PL3526711T3; US20200051664A1

Abstract

게놈 시퀀싱 머신에 의해 생성된 게놈 시퀀싱 데이터의 압축을 위한 방법 및 장치. 뉴클레오타이드 시퀀스는 데이터가 분할된 각 계층에 대해 서로 다른 소스 모델 및 엔트로피 코더를 사용하여 일치하는 정확도에 따라 분류되고 구문 요소의 레이어의 다중 레이어로 코딩된 하나 이상의 레퍼런스 시퀀스에 정렬된다.

Description

생물 정보학 데이터의 간략 표현 방법 및 장치

본 개시는 공지된 종래 기술의 표현 방법으로는 가능하지 않은 새로운 기능성을 제공함으로써, 사용되는 저장 공간을 감소시키고 액세스 성능을 향상시키는 게놈 시퀀싱 데이터의 새로운 표현 방법을 제공한다.

게놈 시퀀싱 데이터(genome sequencing data)의 적절한 표현은 게놈 변이 호출 및 시퀀싱 데이터 및 메타 데이터를 처리함으로써 다양한 목적으로 수행되는 모든 다른 분석과 같이 효율적인 게놈 분석 애플리케이션을 가능하게 하는 기본이다.

인간 게놈 시퀀싱은 높은 처리량의 저가 시퀀싱 기술의 출현으로 인해 저렴 해졌다. 이러한 기회는 암의 진단 및 치료에서부터 유전병(genetic illnesses)의 확인, 새로운 백신의 생성, 약물 및 개인화된 치료의 맞춤화에 이르기까지 항체 식별을 위한 병원균 감시(pathogen surveillance)에 이르기까지 여러 분야에서 새로운 시각을 제시한다.

병원, 게놈 분석 공급자, 생물 정보학 및 대형 생물학 데이터 저장소 센터는 저렴하고, 빠르고, 신뢰할 수 있고 상호 연결된, 게놈 의학을 세계 규모로 확장할 수 있는 게놈 정보 처리 솔루션을 찾고 있다. 시퀀싱 프로세스에서 병목 현상 중 하나가 데이터 스토리지가 되었기 때문에 압축된 형태로 게놈 시퀀싱 데이터를 표현하는 방법이 점차 연구되고 있다.

시퀀싱 데이터의 가장 많이 사용되는 게놈 정보 표현(genome information representations)은 FASTQ 및 SAM 포멧의 압축(zipping)을 기반으로 한다. 목적은 전통적으로 사용되는 파일 포멧(비 정렬 및 정렬된 데이터의 경우 각각 FASTQ 및 SAM 각각)을 압축하는 것이다. 이러한 파일은 일반 텍스트 문자로 구성되며 위에서 언급한 것처럼 LZ(Lempel 및 Ziv, 첫 번째 버전을 게시한 저자) 개념(scheme)(잘 알려진 zip, gzip 등)과 같은 범용 접근법을 사용하여 압축된다. gzip과 같은 범용 압축기(compressor)가 사용될 때 압축 결과는 일반적으로 이진 데이터의 단일 블롭(blob)이다. 이러한 단일체(monolithic) 형태(form)의 정보는 데이터 양이 매우 많을 때, 특히 높은 처리량 시퀀싱(high throughput sequencing)의 경우, 보관, 전송 및 가공(elaborate)하기가 매우 어렵다. BAM 포멧은 SAM 파일에 의해 전달되는 실제 게놈 정보를 추출하는 것이 아니라 gzip과 같은 범용 텍스트 압축 알고리즘을 채택하기 때문에 비효율적이고 중복되는 SAM 형식의 압축에 초점을 맞추기 때문에 압축 성능이 좋지 않음을 특징으로 한다. 각 데이터 소스(게놈 데이터 자체)의 특정 성격을 이용한다.

게놈 데이터 압축에 대한 보다 정교한 접근 방식은 덜 사용되지만 BAM보다 더 효율적인 CRAM이다. CRAM은 기존 레퍼런스(데이터 소스 중복성을 부분적으로 활용함(exploit))와 관련하여 차등 인코딩(differential encoding)을 채택하기 때문에 보다 효율적인 압축을 제공하지만, 증분 업데이트, 스트리밍(streaming) 지원 및 압축된 데이터의 특정 클래스에 대한 선택적 액세스와 같은 기능이 여전히 부족하다.

이러한 접근법들은 일단 압축되면 탐색 및 조작하기 어려운 열악한 압축 비율 및 데이터 구조를 생성한다. 간단한 조작을 수행하거나 게놈 데이터 세트의 선택된 영역에 액세스하기 위해 크고 까다로운(rigid) 데이터 구조를 처리할 필요가 있기 때문에 다운 스트림 분석이 매우 느릴 수 있다. CRAM은 CRAM 레코드의 개념에 의존한다. 각 CRAM 레코드는 재구축(reconstruct)하는데 필요한 모든 요소를 인코딩 하여 단일 맵핑 된 또는 맵핑 되지 않은 판독을 인코딩 한다.

CRAM은 다음과 같은 단점이 있다.

1. CRAM의 경우, 데이터 인덱싱은 사양의 범위 밖이고(CRAM 사양서 v 3.0의 12절 참조), 별도의 파일로 구현된다. 반대로 이 문서에서 설명된 본 발명의 접근법은 인코딩 프로세스와 통합되고 인덱스(index)가 인코딩 된 비트 스트림에 임베딩 되는 데이터 인덱싱(data indexing) 방법을 사용한다.

2. CRAM에서 모든 핵심 데이터 블록은 모든 유형의 맵핑 된 판독(완벽하게 일치하는 판독, 치환(substitution)만 있는 판독, 인델(indels)로 판독)을 포함할 수 있다. 레퍼런스 시퀀스에 대한 맵핑 결과에 따르는 클래스에서 판독 및 분류의 개념은 없다.

3. 본 발명에서는. 각각의 판독을 재구축(reconstruct)하는데 필요한 데이터가 "레이어(layer)"이라 불리는 여러 데이터 컨테이너 사이에 분산되어 있기 때문에, 각 판독을 캡슐화(encapsulation)하는 기록(record)의 개념이 없다. 이것은 각 블록의 기능을 검사하기 위하여 각각(블록의)의 판독(들)을 디코딩 할 필요 없이, 특정 생물학적 특성(예를 들어, 삭제(indel) 또는 완전히 맵핑 된 판독 없는 치환을 갖는 판독)을 가지는 판독 세트를 보다 효율적으로 액세스할 수 있게 한다.

4. CRAM 레코드(record)에서 각 유형의 데이터는 특정 플래그로 표시된다. CRAM과는 달리, 본 발명에서는 데이터가 속하는 "레이어(layer)"에 의해 본질적으로 정의되기 때문에, 데이터를 나타내는 플래그의 개념이 없다. 이것은 사용되는 심볼의 수가 상당히 줄어들고 결과적으로 정보 소스 엔트로피가 감소되어 보다 효율적인 압축을 하게 된다. 이것은 서로 다른 "레이어"를 사용하여 인코더가 각 레이어에서 다른 의미로 동일한 심볼을 재사용할 수 있게 하기 때문이다. CRAM에서 각 플래그는 문맥(context)의 개념이 없는 것처럼 항상 동일한 의미를 가져야 하고 CRAM 레코드는 모든 유형의 데이터를 포함할 수 있다.

5. CRAM 치환(substitution)에서, 삽입 및 삭제(insertion and deletion)는 상이한 구문에 따라 표현되는 반면, 본 발명은 치환(substitution), 삽입(insertion) 및 삭제(deletion)에 대해 단일 알파벳 및 인코딩을 사용한다. 이는 인코딩 및 디코딩 프로세스를 보다 간단하게 만들고, 보다 높은 압축 성능을 특징으로 하는 비트 스트림을 생성하는 낮은 엔트로피 소스 모델을 생성한다.

본 발명은 코드화될 중복 정보가 최소화되고 선택적 액세스 및 증분 업데이트에 대한 지원과 같은 특징이 가능하도록 데이터를 조직화 및 분할함으로써 게놈 시퀀스를 압축하는 것을 목적으로 한다.

제시된 접근 방식의 한 측면은, 별도로 인코딩 되고 다른 레이어로 구조화될 데이터 및 메타 데이터 클래스의 정의이다. 기존 방법과 관련하여 이 접근 방식의 가장 중요한 개선 사항은 다음과 같다.

1. 데이터 또는 메타 데이터의 각 클래스에 대한 효율적인 모델을 제공함으로써 구성되는 정보 소스 엔트로피의 감소로 인한 압축 성능의 증가;

2. 임의의 추가 처리 목적을 위해 압축된 데이터 및 메타 데이터의 일부에 대한 선택적인 액세스를 수행할 가능성;

3. 새로운 시퀀싱 데이터 및/또는 메타 데이터 및/또는 새로운 분석 결과로 인코딩 된 데이터 및 메타 데이터를 증분적으로(incrementally)(다시 인코딩 할 필요없이) 업데이트 할 수 있다.

아래 독립항의 특징은 게놈 시퀀스의 분류 방법 및 상기 분류를 이용한 압축 방법을 제공함으로써 기존의 종래 기술의 해결책의 문제점을 해결한다. 일 측면에서, 시퀀싱 장치에 의해 생성된 게놈 시퀀스 데이터(genome sequences data)의 분류 방법에 있어서, 상기 게놈 시퀀스 데이터는 뉴클레오타이드(nucleotide) "염기(bases)"의 시퀀스를 포함하고, 상기 분류는 레퍼런스 시퀀스(reference sequence)에 따라 수행되고, 상기 방법은, 불일치(mismatch) 없이 레퍼런스 시퀀스 내의 매칭 영역(matching region)을 포함하는, 클래스(class) P 시퀀스를 식별(identify)하는 단계; 시퀀싱 장치가 임의의 "염기"를 호출할 수 없었던 위치에 의해 표현된 다수의 불일치를 가지는 레퍼런스 시퀀스의 매칭 영역(matching region)을 포함하는, 클래스 N 시퀀스를 식별하는 단계; 시퀀싱 장치가 임의의 "염기"를 호출할 수 없거나 레퍼런스 시퀀스와는 상이한 염기를 호출한 위치에 의해 표현된 다수의 불일치를 가지는 레퍼런스 시퀀스의 매칭 영역을 포함하는, 클래스 M 시퀀스를 식별하는 단계; 동일한 클래스 M의 불일치와 삽입(insertion) 또는 삭제(deletion)의 존재를 포함하는, 클래스 I 시퀀스를 식별하는 단계; 레퍼런스 시퀀스상에서 어떠한 유효한 맵핑도 찾지 못하는 모든 판독(read)을 포함하는 클래스 U 시퀀스를 식별하는 단계를 포함하는 방법이다.

다른 측면에서, 시퀀싱 장치(sequencing machine)에 의해 생성된 게놈 시퀀스 데이터(genome sequence data)의 압축(compression) 방법에 있어서, 상기 게놈 시퀀스 데이터는 뉴클레오타이드(nucleotides) 시퀀스를 포함하고,

상기 방법은:

상기 판독을 레퍼런스 시퀀스(reference sequence)에 정렬시킴으로써, 정렬된 판독(aligned reads)을 생성하는(creating) 단계;

레퍼런스 시퀀스와의 일치 정확도에 따라 상기 정렬된 판독을 분류함(classifying)으로써 정렬된 판독의 클래스를 생성하는 단계;

상기 판독을 구문 요소 레이어(layers of syntax elements)로 인코딩(encoding)하는 단계;

를 포함하고, 상기 구문 요소는 상기 정렬된 판독의 클래스에 따라 선택되는 방법이다.

다른 측면에서, 압축된 게놈 스트림(compressed genomic stream)의 압축 해제(decompression) 방법에 있어서, 상기 방법은,

상기 압축된 게놈 스트림을 구문 요소(syntax elements)의 게놈 레이러(genomic layer)로 파싱(parsing) 하는 단계,

상기 게놈 레이어를 뉴클레오타이드(nucleotide) 시퀀스(sequence)의 분류된 판독(classified reads)으로 확장시키는(expanding) 단계,

뉴클레오타이드 시퀀스의 압축되지 않은 판독을 생성하기 위하여,

하나 또는 하나 이상의 레퍼런스 시퀀스에 대한 레퍼런스로 상기 뉴클레오타이드 시퀀스의 분류된 판독을 선택적으로(selectively) 디코딩하는 단계를 포함하는 방법이다.

또 다른 측면에서, 게놈 시퀀스 데이터(genome sequence encoder)(209)의 압축(compression)을 위한 게놈 인코더(genomic encoder)(2010)에 있어서,

상기 게놈 시퀀스 데이터(209)는 뉴클레오타이드(nucleotide) 시퀀스 판독(sequence reads)을 포함하며,

상기 게놈 인코더(2010)는,

상기 판독을 하나 또는 하나 이상의 레퍼런스 시퀀스(reference sequence)에 정렬시켜 정렬된 판독(aligned reads)을 생성하도록 구성된 정렬기 유닛(aligner unit)(201),

하나 또는 하나 이상의 레퍼런스 시퀀스와 일치 정확도에 따라 상기 정렬된 판독을 분류하여 정렬된 판독의 클래스(classes of aligned reads)를 생성하도록 구성된 데이터 분류 유닛(data classification unit)(204);

상기 분류된 판독의 클래스에 따라 상기 구문 요소를 선택함으로써 상기 분류되고 정렬된 판독을 구문 요소의 레이어(layer of syntax element)로 인코딩 하도록 구성된 하나 또는 하나 이상의 레이어 인코딩 유닛(layers encoding units)(205-207)을 포함하는 장치이다.

다른 측면에서,

압축된 게놈 스트림(compressed genomic stream)(211)의 압축 해제(decompression)를 위한 게놈 디코더(genomic decoder)(218)에 있어서, 상기 게놈 디코더(218)는;

상기 압축된 게놈 스트림을 구문 요소(syntax element)(215)의 게놈 레이어(genomic layer)로 파싱 하도록 구성된 파싱 수단(parsing means)(210, 212-214),

게놈 레이어를 디코딩하여 뉴클레오타이드 시퀀스(sequences of nucleotides)(2111, 2112)의 분류된 판독(classified reads)으로 구성되는 하나 또는 하나 이상의 레이어 디코더(layer decoders)(216-217),

뉴클레오타이드 시퀀스의 압축되지 않은 판독(uncompressed reads of sequences of nucleotides)을 생성하기 위하여, 하나 또는 하나 이상의 레퍼런스 시퀀스상의 상기 뉴클레오타이드 시퀀스의 분류된 판독을 선택적으로 디코딩(decoding) 하도록 구성된 게놈 데이터 클래스 디코더(genomic data classes decoders)(213)를 포함하는 장치이다.

도 1은 맵핑 된 판독 페어의 위치가 제1 맵핑 된 판독의 절대 위치와의 차이로 pos 레이어에서 인코딩 되는 방법을 도시한다.
도 2는 두 개의 DNA 스트랜드가 어떻게 페어로 판독될 수 있는지 도시한다.
도 3은 스트랜드 1이 레퍼런스로 사용되는 경우 판독 2의 역 보완(reverse complement) 인코딩 되는 방법을 도시한다.
도 4는 판독 페어를 구성하는 네 가지 가능한 조합과 rcomp 레이어의 해당 인코딩을 도시한다.
도 5는 세 개의 판독 페어에 대한 일정 판독 길이의 경우 페어링 거리를 계산하는 방법을 도시한다.
도 6은 페어 레이어에서 인코딩 된 페어링 오류가 인코딩 된 MPPPD를 사용하여 올바른 판독 페어링을 디코더가 재구성할 수 있게 하는 방법을 도시한다.
도 7은 판독이 메이트 보다 차이 레퍼런스(difference reference)에 맵핑 될 때 페어링 거리의 인코딩을 도시한다. 이 경우 페어링 거리에 추가 디스크립터가 추가된다. 하나는 신호 플래그이고, 두 번째는 레퍼런스 식별자며 그 다음이 페어링 거리이다.
도 8은 nmis 레이어에서 N 개의 불일치의 인코딩을 도시한다.
도 9는 레퍼런스 시퀀스에 대한 치환을 나타내는 맵핑 된 판독 페어를 도시한다.
도 10은 치환 위치를 절대 값 또는 차분 값으로 계산하는 방법을 도시한다.
도 11은 IUPAC 코드가 사용되지 않을 때, 치환 유형을 인코딩하는 심볼을 계산하는 방법을 도시한다. 심볼은 판독에서 나타나는 분자와 그 위치에서 레퍼런스 상에 있는 분자 사이의 거리 - 순환 치환 벡터에서 - 를 나타낸다.
도 12는 치환을 snpt 레이어로 인코딩하는 방법을 도시한다.
도 13은 IUPAC 모호성 코드가 사용될 때 치환 코드를 계산하는 방법을 도시한다.
도 14는 IUPAC 코드가 사용될 때 snpt 레이어가 어떻게 인코딩 되는지 도시한다.
도 15는 사용된 치환 벡터가 심볼 A, C, G, T, N의 삽입을 위한 특수 코드가 추가된 클래스 M과 동일한 클래스 I의 판독을 도시한다.
도 16은 IUPAC 모호성 코드의 경우, 불일치 및 인덱스의 인코딩 예를 도시한다. 치환 벡터는 이 경우에 훨씬 길기 때문에 가능한 계산된 심볼은 다섯 개의 심볼보다 더 크다.
도 17은 각 레이어가 단일 유형의 불일치 또는 삽입 위치를 포함하는 불일치 및 인덱스에 대한 다른 소스 모델을 도시한다. 이 경우 불일치 또는 인델(indels) 유형에 대해 심볼이 인코딩 되지 않는다.
도 18은 불일치와 인델(indels) 인코딩의 예를 도시한다. 판독에 대해 주어진 유형의 불일치 또는 인덱스가 없으면 해당 레이어에 0이 인코딩 된다. 0은 각 레이어에서 분리 심볼 및 구분자로 읽는다.
도 19는 레퍼런스 시퀀스의 수정이 어떻게 M 판독에서 P 판독을 변환할 수 있는지 도시한다. 이 연산은 특히 높은 커버리지의 경우에 데이터 구조의 정보 엔트로피를 감소시킬 수 있다.
도 20은 본 발명의 일 실시예에 따른 게놈 인코더(2010)를 도시한다.
도 21은 본 발명의 일 실시예에 따른 게놈 디코더(218)를 도시한다.

본 발명에서 언급되는 게놈 또는 프로테오믹스 시퀀스는, 예를 들어 뉴클레오타이드(nucleotide) 시퀀스, 데옥시리보 핵산(Deoxyribonucleic acid)(DNA) 시퀀스, 리보 핵산(Ribonucleic acid)(RNA) 및 아미노산(amino acid) 시퀀스를 포함하지만 이에 한정되는 것은 아니다. 본원의 설명은 뉴클레오타이드 시퀀스 형태의 게놈 정보와 관련하여 상당히 상세하게 설명되어 있지만, 저장을 위한 방법 및 시스템은 당업자가 이해할 수 있는 바와 같이, 약간의 변형이 있기는 하지만, 다른 게놈 또는 프로테오믹스 시퀀스를 위해 구현될 수 있음을 이해할 것이다.

게놈 시퀀싱 정보(Genome sequencing information)는 정의된 어휘로부터 문자 스트링으로 표현되는 뉴클레오타이드 시퀀스(sequences of nucleotides)(a.k.a. 염기(bases))의 형태로 대 용량 시퀀싱(High Throughput Sequencing: HTS) 장치에 의해 생성된다.

가장 짧은 단어는 5 개의 심볼 {A, C, G, T, N}로 구성되며, 이것은 DNA에 존재하는 4 가지 유형의 뉴클레오타이드, 즉 아데닌(Adenine), 시토신(Cytosine), 구아닌(Guanine) 및 티민(Thymine)이다. RNA에서 티민(Thymine)은 유라실(Uracil)(U)로 치환된다. 심볼 N은 시퀀싱 장치가 충분한 신뢰 수준을 가진 어떠한 염기도 호출할 수 없었음을 나타내기 위해 사용되며, 그리하여 그러한 위치에 있는 염기의 유형은 판독 프로세스에서 미결정인 채로 남는다.

시퀀싱 장치에 의해 IUPAC 모호성 코드(ambiguity codes)가 채용되는 경우, 심볼에 사용된 알파벳은(A, C, G, T, U, W, S, M, K, R, Y, B, D, H, V, N 또는 -) 이다.

시퀀싱 장치에 의해 생성된 뉴클레오타이드 시퀀스를 "판독(read)"이라 한다. 시퀀스 판독은 뉴클레오타이드 길의 수 십에서 수 천 사이가 될 수 있다. 어떤 기술은 하나의 판독이 한 스트랜드에서 나올 수 있고 두번째가 다른 스트랜드에서 올 수 있는 곳의 페어에서 시퀀스 판독을 생성한다. 게놈 시퀀싱에서, 용어 커버리지(coverage)는 레퍼런스 시퀀스(reference sequence)에 관한 시퀀스 데이터의 중복 수준을 표현하는데 사용된다. 예를 들어, 인간 게놈(32 억 염기 길이)에서 30 배의 범위에 도달하기 위해서는 시퀀싱 장치가 평균 약 30 x 32 억 개의 염기를 만들어서 레퍼런스의 각 위치가 평균 30 배의 "커버리지"로 된다.

본 명세서 전반에 걸쳐, 레퍼런스 시퀀스는 시퀀싱 장치에 의해 생성된 뉴클레오타이드 시퀀스가 정렬/맵핑 되는 임의의 시퀀스다. 염기 시퀀스의 한 예는 실제로 레퍼런스 게놈 일 수 있다. 이 게놈은 종의 유전자 세트(species' set of genes)의 대표적인 예로서 과학자들이 조립한 시퀀스다. 예를 들어 GRCh37, 게놈 레퍼런스 컨소시움 인간 게놈(Genome Reference Consortium Human genome)(Build 37)은 뉴욕(New York)의 버팔로(Buffalo) 출신의 13 명의 익명 자원 봉사자로부터 파생된다. 그러나, 레퍼런스 시퀀스는 추가 프로세싱 관점에서 판독의 압축률을 단순히 향상시키기 위해 고안된 합성 시퀀스로 구성될 수도 있다.

시퀀싱 장치(device)는 시퀀스 판독시 다음과 같은 오류를 발생시킬 수 있다.

1. 시퀀싱 된 샘플에 실제로 존재하는 핵산을 나타내는 잘못된 심볼의 사용(use)(즉, 상이한 핵산의 표시); 이것을 일반적으로 "치환 오류(substitution error)"(불일치)라고 한다.

2. 실제 존재하는 핵산을 참조하지 않는 추가 심볼(additional symbol)을 하나의 시퀀스 판독에 삽입; 이것을 일반적으로 "삽입 오류(insertion error)"라고 한다.

3. 시퀀싱 된 샘플에 실제 존재하는 핵산을 나타내는 심볼을 하나의 시퀀스 판독에서 삭제; 이것을 일반적으로 "삭제 오류(deletion error)"라고 한다.

4. 하나 또는 하나 이상의 조각을 원래 시퀀스의 실제를 반영하지 않는 단일 조각(single fragment) - 원래 시퀀스의 실제를 반영하지 않는 - 으로 재조합(recombination).

"커버리지(coverage)"라는 용어는 레퍼런스 게놈(reference genome) 또는 그 일부가 이용 가능한 시퀀스 판독에 의해 적용될 수 있는 범위를 정량화 하기 위해 문헌에서 사용된다. 커버리지는 다음과 같다.

● 레퍼런스 게놈의 일부가 사용 가능한 시퀀스 판독에 의해 맵핑 되지 않은 경우 부분(partial)(1X 미만)

● 레퍼런스 게놈의 모든 뉴클레오타이드가 하나의 심볼로 맵핑 되고 시퀀스 판독에 존재하는 단 하나의 심볼일 때 단일(single)(1X)

● 레퍼런스 게놈의 각 뉴클레오타이드가 여러 번 맵핑 될 때 다중(multiple)(2X, 3X, NX).

본 발명은 관련 정보가 효율적으로 액세스 가능하고 전송 가능하고 중복 정보의 가중치가 감소되는 게놈 정보 표현 포맷(genomic information representation format)을 정의하는 것을 목적으로 한다.

개시된 발명의 주요 측면은 다음과 같다:

1. 정렬 결과 및 일치 정확도와 관련된 기준(criteria)에 따라 인코딩 된 데이터에 선택적으로 액세스 할 수 있도록 하기 위한 레퍼런스 시퀀스와 관련된 정렬 결과에 따라 다른 클래스로 시퀀스 판독의 분류(classification of the sequence reads).

2. 감소된 정보 엔트로피를 갖는 별개의 정보 소스(information source)을 얻기 위한 동질의 레이어로 시퀀스 판독 데이터 및 메타 데이터의 분해(decomposition of the sequence read data and metadata).

3. 각각의 액세스 가능한 데이터 유닛(액세스 유닛)을 위한 레이어 및 각 판독의 클래스 내에서 소스 모델의 변화의 가능성을 포함하는, 각 통계적 특징에 적응된 별개의(distinct) 소스 모델로 각 분리된 소스로 모델링하는 가능성(possibility of modeling). 각 소스 모델의 통계적 특성에 따라 적절한 문맥 적응형 확률 모델 및 연관 엔트로피 코더(entropy coders )의 채택.

4. 모든 정보가 필요하지 않은 경우 모든 계층을 디코딩 할 필요없이, 데이터에 선택적으로 액세스 할 수 있도록 레이어 간의 대응 및 종속성 정의(definition of correspondences and dependencies).

5. 데이터 클래스 및 레이어 정보 소스의 엔트로피(entropy of data classes and layers information sources)를 감소시키기 위하여, 수정될 수 있는 레퍼런스 시퀀스와 관련된 각 시퀀스 데이터 클래스 및 연관 메타 데이터 레이어의 코딩(coding).

레퍼런스에 기초한 제1 인코딩 후에, 검출된 불일치는 전체 정보 엔트로피를 더 감소시키기 위해 레퍼런스 시퀀스를 "적응/수정"하는데 사용될 수 있다. 정보 엔트로피의 결과 감소와 관련하여 이 프로세스는 반복적으로 수행할 수 있다.

다음에, 각각의 위 측면에 대해 더 기술한다.

메인 파일 헤더(main file header)

시퀀스 판독의 분류(classification of the sequence reads)

시퀀싱 머신에 의해 생성된 시퀀스 판독은 개시된 발명에 의해 하나 또는 하나 이상의 주어진 레퍼런스 시퀀스에 대한 정렬의 결과에 따라 다섯 개의 상이한 "등급"으로 분류된다.

레퍼런스 시퀀스 다섯 개와 관련하여 뉴클레오타이드의 DNA 시퀀스를 정렬할 때 가능한 결과는 다음과 같다:

1. 레퍼런스 시퀀스의 영역은 오류없이 완료된 시퀀스와 일치하는 것으로 확인된다(완벽한 맵핑). 이러한 뉴클레오타이드의 시퀀스는 "완벽하게 일치하는 판독" 또는 "클래스 P"로 표시된다.

2. 레퍼런스 시퀀스 내의 영역은 시퀀싱 장치가 임의의 염기(또는 뉴클레오타이드)를 호출할 수 없었던 다수의 위치에 의해 구성된 다수의 불일치로 판독된 시퀀스를 일치시키는 것으로 밝혀진다. 이러한 불일치는 "N"으로 표시된다. 이러한 시퀀스는 "N 개의 불일치 판독" 또는 "클래스 N"으로 레퍼런스된다.

3. 레퍼런스 시퀀스 내의 영역은 시퀀싱 장치가 임의의 염기(또는 뉴클레오타이드)를 호출할 수 없었던 다수의 위치 또는 레퍼런스 시퀀스에서 호출되었던 보고된 것과 상이한 염기로 구성되는 다수의 불일치로 판독된 시퀀스와 일치시키는 것으로 밝혀진다. 이러한 유형의 불일치는 SNV(Single Nucleotide Variation) 또는 SNP(Single Nucleotide Polymorphism)라고 한다. 시퀀스는 "M 개의 불일치 판독" 또는 "클래스 M"으로 레퍼런스 된다.

4. 제 4 클래스는 클래스 M의 동일한 불일치와 삽입 또는 삭제(a.k.a. 인델(indels))의 존재를 포함하는 불일치 유형을 나타내는 판독을 시퀀싱함으로써 구성된다. 삽입은 레퍼런스에 존재하지 않지만 판독 시퀀스에 존재하는 하나 또는 하나 이상의 뉴클레오타이드의 시퀀스로 표시된다. 문헌에서 삽입된 시퀀스가 시퀀스의 가장자리에 있을 때, 이를 "소프트 클리핑(soft clipped)"이라고 한다(즉, 뉴클레오타이드는 레퍼런스와 일치하지 않지만, 폐기되는 "하드 클리핑(hard clipped)" 뉴클레오타이드와는 반대로 정렬된 판독으로 유지된다.). 뉴클레오타이드 유지 또는 폐기는 일반적으로 정렬 도구의 구성으로 구현된 사용자의 결정이다. 삭제는 레퍼런스와 관련하여 정렬된 판독에서 "구멍(hole)"(누락된 뉴클레오타이드)이다. 이러한 시퀀스는 "I 불일치 판독(I mismatching reads)" 또는 "클래스 I(Class I)"로 레퍼런스 된다.

5. 제5 클래스는 현재 특정한(specified) 정렬 제약 조건에 따라 레퍼런스 시퀀스에서 유효한 맵핑을 찾는 모든 판독을 포함한다. 그러한 시퀀스는 맵핑 되어 있지 않고 "클래스 U"에 속한다고 한다

레퍼런스 시퀀스와 관련된 맵핑 되지 않은 판독은 드노보(de-novo) 어셈블리 알고리즘을 사용하여 단일 시퀀스로 어셈블 할 수 있다. 일단 새로운 시퀀스가 생성되면, 맵핑 되지 않은 판독은 맵핑 된 맵핑 과 관련하여 더 맵핑 될 수 있으며 클래스 P, N, M 및 I의 4 가지 클래스 중 하나로 분류된다.

시퀀스 판독을 디스크립터 레이어로 표현하는데 필요한 정보의 분해(Decomposition of the information necessary to represent sequence reads into layers of descriptors)

클래스의 정의에 따라 판독의 분류가 완료되면, 추가 프로세싱은 주어진 레퍼런스 시퀀스 상에 맵핑 되는 것으로 표현될 때, DNA 판독 시퀀스의 재구축(reconstruct)을 가능하게 하는 나머지 정보를 나타내는 구별되는 구문 요소(distinct syntax elements)의 세트를 정의하는 것으로 구성된다. 이들 구문 요소의 데이터 구조는 디코딩 엔진에 의해 사용되는 글로벌 파라미터 및 메타 데이터의 저장을 필요로 한다. 이러한 데이터는 아래 표에 설명된 기본 헤더로 구성된다.

메인 헤더 구조(main header structure)

요소(Element)	유형(Type)	설명(description)
고유 ID(Unique ID)	바이트 어레이(Byte array)	인코딩 컨텐츠를 위한 고유 식별자(Unique identifier)
버전(Version)	바이트 어레이(Byte array)	인코딩 알고리즘의 메이저 + 마이너 버전
헤더 크기(Header Size)	정수(Integer)	전체 인코딩 컨텐츠의 바이트 크기
판독 길이(Reads Length)	정수(Integer)	일정(constant) 판독 길이의 경우 판독 크기. 특수한 값(예, 0)은 변수 판독 길이로 예약된다.
레퍼런스 카운트(Ref count)	정수(Integer)	사용된 레퍼런스 시퀀스의 수
액세스 유닛 카운터(Access Units counters)	바이트 어레이(Byte array) (예, 정수)	인코딩 된 액세스 유닛 총 수
레퍼런스 ids(Ref ids)	바이트 어레이(Byte array)	레퍼런스 시퀀스의 고유 식별자(unique indentifier)
마스터 인덱스 테이블(Master index table)각 블록(액세스 유닛)에서의 제1 판독의 정렬 위치. 즉, 4개의 클래스의 각 블록당 레퍼런스 게놈상의 더 작은 제1 판독 위치 레퍼런스 당 pos 클래스(4)당 1	바이트 어레이(Byte array)(예, 정수)	이것은 액세스 유닛(Access Units)에 대한 무작위 액세스를 지원하는 다차원 배열이다.

주어진 레퍼런스 시퀀스에 언급된 DNA 세그먼트(segment)은 다음과 같이 전체적으로 표현될 수 있다:

● 레퍼런스 시퀀스(pos)의 시작 위치(starting position).

● 판독이 레퍼런스(rcomp) 대 역 보완(reverse complement)으로 간주되어야 하는지 여부를 알려주는 플래그 신호(flag signaling).

● 페어로 된 판독(페어)의 경우 메이트 페어(mate pair)까지의 거리.

● 시퀀싱 기술이 가변 길이 판독을 생성하는 경우, 판독 길이값(value of the read length). 일정(constant) 판독 길이의 경우, 각 판독과 연관된 판독 길이는 분명히 생략될 수 있으며 메인 파일 헤더에 저장할 수 있다.

● 각각의 불일치:

o 불일치 위치(클래스 N에 대한 nmis, 클래스 M에 대한 snpp, 및 클래스 I에 대한 indp)

o 불일치 유형(클래스 N에는 없음. 클래스 M의 snpt, 클래스 I의 indt)

● 나타날 때 선택적으로 소프트 클리핑 뉴클레오타이드 스트링(클래스 I의 indc)

이 분류는 게놈 시퀀스 판독을 일의적으로 표현하는데 사용할 수 있는 디스크립터(descriptor) 그룹(구문 요소(syntax element))을 생성한다. 아래 테이블에는 정렬된 판독의 각 클래스에 필요한 구문 요소가 요약되어 있다.

데이터 클래스 당 정의된 레이어

	P	N	M	I
pos	X	X	X	X
pair	X	X	X	X
rcomp	X	X	X	X
flag	X	X	X	X
rlen	X	X	X	X
nmis		X
snpp			X
snpt			X
indp				X
indt				X
indc				X

클래스 P에 속한 판독은 특징지어지고, 메이트 페어, 일부 플래그 및 판독 길이를 생성하는 시퀀싱 기술에 의하여 얻어지는 경우에, 단지 위치, 역 보완 정보 및 메이트 간의 오프셋에 의하여 완벽하게 재구축될 수 있다.

다음 섹션에서는 이러한 디스크립터가 정의되는 방법에 대해 자세히 설명한다.

위치 디스크립터 레이어(position descriptor layer)

위치(pos) 레이어에서 제1 인코딩 판독의 맵핑 위치 만이 레퍼런스 시퀀스에 절대값(absolute value)으로 저장된다. 다른 모든 위치 디스크립터는 이전 위치와의 차이를 나타내는 값을 취한다. 판독 위치 디스크립터의 시퀀스에 의해 정의된 정보 소스의 그러한 모델링은 일반적으로 높은 커버리지 결과를 생성하는 시퀀싱 프로세스에 대해 감소된 엔트로피를 특징으로 한다.

예를 들어, 도 1은 어떻게 제1 정렬의 시작 위치를 레퍼런스 시퀀스에서 "10000"위치로 기술한 후 위치 10180에서 시작하는 두 번째 판독의 위치를 "180"으로 기술하는지를 도시한다. 높은 커버리지(> 50x)에서, 위치 벡터의 대부분의 디스크립터는 0과 1 및 다른 작은 정수와 같이 낮은 값의 발생 빈도가 매우 높다. 도 9는 pos 레이어에서 세 개의 판독 페어가 어떻게 위치하는지 설명한다.

역 보완 디스크립터 레이어(Reverse Complement Descriptor Layer)

시퀀싱 기술에 의해 생성된 판독 페어(read pair)의 각각의 판독은 시퀀스 된 유기 표본의 게놈 스트랜드(strand)으로부터 유래될 수 있다. 그러나 두 스트랜드(strand) 중 하나만 레퍼런스 시퀀스로 사용된다. 도 2는 판독 페어에서 하나의 판독(판독 1)이 한 스트랜드에서 나올 수 있고 다른 하나(판독 2)가 다른 것에서 올 수 있는 방법을 보여준다.

스트랜드 1이 레퍼런스 시퀀스로 사용될 때, 판독 2는 스트랜드 1상의 상응하는 조각의 역 보완으로서 코딩 될 수 있다. 이는 도 3에 도시된다.

커플링 된 판독의 경우 네 가지가 직접 및 역 보완 메이트 페어의 가능한 조합이다. 이것은 도 4에 도시 된다. rcomp 레이어는 네 가지 가능한 조합을 코딩한다.

P, N, M, I 클래스에 속하는 판독의 역 보완 정보에 대해서도 동일한 코딩이 사용된다. 데이터에 대한 선택적인 액세스를 향상시키기 위해, 네 개의 클래스에 속하는 판독의 역 보완 정보는 표 2에 도시된 바와 같이 상이한 레이어에서 코딩 된다.

페어링 정보 디스크립터 레이어(Pairing information descriptor layer)

페어링 디스크립터(pairing descriptor)는 페어 레이어(pair layer)에 저장된다. 이러한 레이어는 사용된 시퀀싱 기술이 판독 페어를 생성할 때 원본 판독 페어를 재구축하는데 필요한 정보를 인코딩하는 디스크립터를 저장한다. 본 발명의 개시 시점에 대다수의 시퀀싱 데이터는 페어를 이룬 판독을 생성하는 기술을 사용하여 생성되지만, 모든 기술의 경우는 아니다. 이것은 고려된 게놈 데이터의 시퀀싱 기술이 페어를 이룬 판독 정보를 생성하지 않으면 모든 시퀀싱 데이터 정보를 재구축하는데 이 레이어가 필요하지 않은 이유이다.

정의(definition):

● 메이트 페어(Mate pair): 판독 페어(read pair)에서 다른 판독과 연관되는 판독(예를 들어, 판독 2는 앞의 예에서 판독 1의 메이트 페어다.)

● 페어링 거리(paring distance): 제2 판독의 한 위치(예를 들어, 제2 판독의 제1 뉴클레오타이드)로부터 제1 판독에서 하나의 위치(페어링 앵커, 예컨대 제1 판독의 최종 뉴클레오타이드)를 분리하는 레퍼런스 시퀀스상의 뉴클레오타이드 위치의 수.

● 가장 가능성 있는 페어링 거리(most probable pairing distance)(MPPD): 이것은 뉴클레오타이드 위치의 수로 표현된 가장 가능성 있는 페어링 거리이다.

● 위치 페어 거리(position pairing distance)(PPD): PPD는 특정 위치 디스크립터 레이어에 있는 각각의 메이트에서 하나의 판독을 분리하는 판독 수로 페어링 거리를 표현하는 방법이다.

● 가장 가능성있는 위치 페어 거리(most probable position pairing distance)(MPPPD): 특정 위치 디스크립터 레이어에 있는 해당 메이트 페어에서 하나의 판독를 분리하는 가장 많은 수의 판독이다.

● 위치 페어링 오류(position pairing error)(PPE): MPPD 또는 MPPPD와 메이트의 실제 위치 사이의 차이로 정의된다.

● 페어링 앵커(pairing anchor): 판독 위치의 수 또는 뉴클레오타이드의 수의 측면에서 메이트 페어의 거리를 계산하기 위한 레퍼런스로 사용되는 페어에서 최종 뉴클레오타이드의 제1 판독 위치.

도 5는 판독 페어 간의 페어링(paring) 거리를 계산하는 방법을 도시한다.

페어 디스크립터 레이어(pair descriptor layer)는 정의된 디코딩 페어링 거리에 대해 페어의 제1 판독의 메이트 페어에 도달하기 위해 건너 뛸 판독 수로 계산된 페어링 오류 벡터(vector of pairing errors)이다.

도 6은 페어링 오류가 절대값 및 차등 벡터(높은 커버리지에 대한 엔트로피가 더 낮은 것을 특징으로 함)로 계산되는 방법의 예를 도시한다.

클래스 N, M, P, I에 속하는 판독의 페어링 정보에는 동일한 디스크립터가 사용된다. 서로 다른 데이터 클래스에 대한 선택적 액세스를 가능하게 하기 위해, 네 개의 클래스에 속하는 판독의 페어링 정보는 도시된 바와 같이 다른 레이어에서 인코딩 된다.

서로 다른 레퍼런스에 맵핑된 판독의 경우의 페어링 정보(Pairing information in case of reads mapped on different references)

레퍼런스 시퀀스상에 시퀀스 판독을 맵핑 하는 프로세스(process of mapping sequence reads)에서, 어떤 페어의 제1 판독이 하나의 레퍼런스 시퀀스(예를 들어, 염색체 1)에 맵핑 되고 제2는 다른 레퍼런스 시퀀스(예를 들어, 염색체 4)에 맵핑 되는 것은 드문 일이 아니다. 이 경우에, 판독 중 하나를 맵핑 하는데 사용된 레퍼런스 시퀀스와 연관된 추가 정보(additional information)에 의해, 전술한 페이링 정보는 통합되어야 한다. 이것은 코딩(coding)에 의해 달성된다.

1. 페어가 두 개의 다른 시퀀스에 맵핑 됨을 나타내는 예약된 값(reserved value)(플래그)(판독 l 또는 판독 2가 현재 인코딩 되지 않은 시퀀스에 맵핑 되는지 여부를 나타내는 다른 값)

2. 표 1에 설명된 바와 같이 메인 헤더 구조에서 인코딩 된 레퍼런스 식별자를 참조하는 고유 레퍼런스 식별자(unique reference identifier).

3. 제3 요소는 포인트 2에서 식별되고 최종 인코딩 된 위치에 관한 오프셋(offset)으로 표현되는 레퍼런스상의 맵핑 정보를 포함한다.

도 7은 이 시나리오의 예를 제공한다.

도 7에서 판독 4는 현재 인코딩 된 레퍼런스 시퀀스에 맵핑 되어 있지 않으므로 게놈 인코더는 페어 레이어에서 추가 디스크립터를 만들어 이 정보를 알린다.

아래에 도시된 예에서, 페어 2의 판독 4는 레퍼런스 번호 4 에 맵핑 되고, 반면에 현재 인코딩 된 레퍼런스는 번호 1 이다.

이 정보는 다음 세 가지 구성 요소를 사용하여 인코딩 된다.

1) 하나의 특별 예약 값이 페어링 거리로 인코딩 된다(이 경우 0xffffff).

2) 제2 디스크립터는 메인 헤더에 나열된 레퍼런스 ID를 제공한다(이 경우 4)

3) 제3 요소는 해당 레퍼런스(170)에 대한 맵핑 정보를 포함한다.

클래스 N 판독을 위한 불일치 드스크립터(Mismatch descriptors for class N reads)

클래스 N은 A, C, G 또는 T 기본 호출의 장소(place)에 "N"으로 구성된 불일치만 존재하는 모든 판독을 포함한다. 판독의 다른 모든 염기는 레퍼런스 시퀀스와 완벽하게 일치한다.

도 8은 판독 1의 "N"의 위치가 다음과 같이 코딩 된다.

● 판독 1의 절대 위치 또는

● 동일한 판독(이전 엔트로피가 가장 낮은 것)에서 이전 N에 대한 차등 위치(differential position).

판독 2의 Ns 위치는 다음과 같이 인코딩 된다.

● 판독 2 + 판독 1 길이의 절대 위치(absolute position) 또는

● 이전 N에 대한 차등 위치(differential position)(가장 낮은 엔트로피).

nmis 레이어에서 각 판독 페어의 코딩은 특수 "구분자(separator)" 심볼로 끝난다.

도 8은 "N" 불일치(주어진 맵핑 위치에서, "N"이 레퍼런스 시퀀스에서 실제 베이스 대신 판독에 존재하는)가 다음과 관련하여, 어떻게 불일치의 위치로서만 인코딩 되는지를 도시한다.

1. 판독의 시작과 관련하여, 또는

2. 이전 불일치(차동 인코딩)와 관련하여,

치환(불일치 또는 SNPs), 삽입 및 삭제를 코딩하는 디스크립터(Descriptors coding Substitutions(Mismatches or SNPs), Insertions and Deletions)

치환은, 맵핑 된 판독에서, 동일한 위치에 레퍼런스 시퀀스에 존재하는 것과 상이한 뉴클레오타이드의 존재로 정의된다

그림 9는 맵핑 된 판독 페어의 치환 예를 도시한다. 각 치환은 "위치"(snpp 레이어) 및 "유형"(snpt 레이어)으로 인코딩 된다. 치환, 삽입 또는 삭제의 통계적 발생에 따라 연관된 디스크립터의 다른 소스 모델을 정의하고 생성된 심볼을 연관된 레이어에 코딩한다.

소스 모델 1 : 위치 및 유형으로 치환(Substitutions as Positions and Types)

치환 위치 디스크립터(Substitutions Positions Descriptors)

치환 위치는 nmis 레이어의 값 처럼 계산되며, 즉

판독 1에서는 치환이 인코딩 된다.

● 판독 1의 절대 위치로서, 또는

● 동일한 판독에서 이전 치환에 대한 차등 위치(differential position)로서, 판독 2에서 치환이 인코딩 된다.

● 판독 2 + 판독 1 길이에서 절대 위치(absolute position)로서, 또는

● 이전 치환에 대한 차등 위치로서,

도 10은 어떻게 치환(주어진 맴핑 위치에서, 판독내 심볼이 레퍼런스 시퀀스의 심볼과 다른 곳)이 코딩 되는지를 도시한다.

1. 불일치 위치

● 판독의 시작에 대한, 또는

● 판독의 시작에 대한, 또는 이전 불일치(차등 인코딩)에 대한

2. 도 10에 도시된 바와 같이, 코드로 표현된 불일치의 유형이 계산된다.

Snpp 레이어에서 각 판독 페어의 코딩은 특수 "구분자(separator)" 심볼로 끝난다.

치환 유형 디스크립터(Substitutions Types Descriptors)

클래스 M(및 다음 절에서 설명하는 바와 같이)에서 불일치는 레퍼런스에 있는 실제 심볼에서부터 판독 {A, C, G, T, N, Z}에 있는 해당 치환 심볼로의 인덱스(오른쪽에서 왼쪽으로 이동)으로 코드화 된다. 예를 들어, 정렬된 판독 값이 레퍼런스 내의 동일한 위치에 존재하는 T 대신에 C를 나타내는 경우, 불일치 인덱스(mismatch index)는 "4"로 표시될 것이다. 디코딩 프로세스는 인코딩 된 구문 요소인 레퍼런스의 주어진 위치에 있는 뉴클레오타이드를 읽고 왼쪽에서 오른쪽으로 이동하여 디코딩 된 심볼을 검색한다. 예를 들어, 레퍼런스에 G가 있는 위치에 수신된 "2" 는 "N"으로 디코딩 된다. 도 11은 모든 가능한 치환 및 해당 인코딩 심볼을 도시한다. 각 데이터 클래스에 대한 각 치환 유형의 통계적 특성에 따라 각 치환 인덱스에 서로 다른 문맥(context) 적응형 확률 모델을 할당하여 디스크립터의 엔트로피를 최소화 할 수 있다.

IUPAC 모호성 코드가 채택되는 경우, 치환 메커니즘은 동일하지만 치환 벡터는 다음과 같이 확장된다. S = {A, C, G, T, N, Z, M, R, W, S, Y, K, V, H, D, B}.

도 12는 snpt 레이어에서 치환의 인코딩 샘플을 제공한다.

IUPAC 모호성 코드가 채택될 때 어떤 치환 인코딩의 예는 도 13에 제공된다. 치환 인덱스의 추가 예는 도 14에 제공된다.

삽입 및 삭제 코딩(Coding of insertions and deletions)

클래스 I의 경우, 불일치 및 삭제는 레퍼런스에 있는 실제 심볼에서 판독에 있는 해당 치환 심볼 {A, C, G, T, N, Z}에 대한 인덱스로 코딩 된다(오른쪽에서 왼쪽으로 이동). 예를 들어, 정렬된 판독이 레퍼런스에서 같은 위치에 있는 T 대신 C를 나타내는 경우 불일치 인덱스는 "4"가 된다. 판독값에 A가 있는 레퍼런스가 삭제된 경우 코드화된 심볼은 "5"가 된다. 디코딩 프로세스는 코딩 된 구문 요소인 레퍼런스의 주어진 위치에 있는 뉴클레오타이드를 판독하고 디코딩 된 심볼을 왼쪽에서 오른쪽으로 검색한다. 예를 들어, G가 레퍼런스에 존재하는 위치에 대해 수신된 "3"은 판독된 시퀀스에서 삭제의 존재를 나타내는 "Z"로서 디코딩 될 것이다.

삽입은 삽입된 A, C, G, T, N 각각에 대해 6, 7, 8, 9, 10으로 코딩 된다.

도 15는 클래스 I의 판독 페어에서 치환, 삽입 및 삭제를 인코딩하는 방법의 예를 도시한다. IUPAC 모호성 코드의 전체 세트를 지원하려면, 불일치에 대해 이전 단락에서 설명한대로 치환 벡터(substitution vector) S = {A, C, G, T, N, Z }는 S = {A, C, G, T, N, Z, M, R, W, S, Y, K, V, H, D, B}으로 대체되어야 한다.

이 경우 삽입 코드(insertion codes)는 상이한 값들, 치환 벡터가 16개의 요소를 가진 경우, 즉 16, 17, 18, 19, 20의 값을 가질 필요가 있다. 메커니즘은 도 16에 도시된다.

소스 모델 2(Source model 2) : 치환 유형 및 indels 당 하나의 레이어(One layer per substitution type and indels)

일부 데이터 통계의 경우, 치환과 인델을 위하여 더 낮은 엔트로피를 갖는 소스를 생성하는, 이전 섹션에서 설명한 것과 다른 코딩 모델을 개발할 수 있다. 이러한 코딩 모델은 불일치 만 및 불일치와 인델(indels)의 경우 위에서 설명한 기술의 대안이다.

이 경우 하나의 데이터 레이어가 각각의 가능한 치환 심볼(IUPAC 코드가 없는 5 개, IUPAC 코드가 있는 16 개)에 대해 정의되고, 삭제를 위한 하나의 레이어와 삽입을 위한 네 개의 추가 레이어가 정의된다. 설명의 단순화를 위해, 그러나 모델의 응용을 제한하는 것이 아니라, 다음의 설명은 IUPAC 코드가 지원되지 않는 경우에 초점을 맞출 것이다.

도 17은 각 레이어가 단일 유형의 불일치 또는 삽입 위치를 포함하는 방법을 도시한다. 해당 형식에 대한 불일치 또는 삽입이 인코딩 된 판독 펠어가 없으면 0이 해당 계층에 인코딩 된다. 디코더가 이 섹션에서 설명된 레이어에 대한 디코딩 프로세스를 시작할 수 있게 하기 위해 각 액세스 유닛의 헤더에는 디코딩 될 제1 레이어를 알리는 플래그가 포함된다. 도 18의 예에서, 디코딩 될 제1 요소(element)는 C 레이어의 위치 2이다. 판독 페어에 주어진 유형의 불일치 또는 인덱스가 없으면 해당 레이어에 0이 추가된다. 디코딩 측에서, 각 레이어에 대한 디코딩 포인터가 0의 값을 가리킬 때, 디코딩 프로세스는 다음 판독 페어로 이동한다.

추가 신호 플래그 인코딩(Encoding additional signaling flags)

위에 소개된 각 데이터 클래스(P, M, N, I)는 인코딩 된 판독 특성에 대한 추가 정보의 인코딩을 요구할 수 있다. 이 정보는, 예를 들어 시퀀싱 실험(예를 들어, 하나의 판독의 중복 가능성을 나타내는)과 관련될 수 있거나 판독 맵핑(예를 들어, 페어의 제1 또는 제2)의 일부 특성을 나타낼 수 있다. 본 발명과 관련하여, 이 정보는 각각의 데이터 클래스에 대해 개별 레이어로 인코딩 된다. 이러한 접근 방식의 주요 이점은 필요한 경우에만 필요한 레퍼런스 시퀀스 영역에서 만이 정보에 선택적으로 액세스 할 수 있다는 것이다. 그러한 플래그(flag)를 사용하는 다른 예는 다음과 같다.

● 페어로 판독

● 적절한 페어로 맵핑 된 판독

● 맵핑되지 않은 판독 또는 메이트(mate)

● 역 스트랜드(reverse strand)로 부더 판독 또는 메이트

● 제1/제2 페어

● 기본 정렬(primary alignment)이 아님

● 판독은 플랫폼/공급 업체 품질 검사에 실패한다

● 판독은 PCR 또는 광학 복제(duplicate)이다.

● 보조 정렬(supplement alignment)

레퍼런스 시퀀스의 적응(Adaptation of the reference sequences)

클래스 N, M 및 I에 대한 인코딩 된 불일치는, "적응된(adapted)" 게놈에 R1에 관한 p 판독으로서, N, M 또는I 레이어(제1 레퍼런스 시퀀스, R0에 관한)에서 판독을 다시 인코딩하기 위해 사용될 "수정된 레퍼런스(modified reference)"를 생성하는데 사용될 수 있다. 예를 들어, 레퍼런스 게놈 n에 대한 불일치가 포함된 클래스 M의 i 번째 판독을 r_in^∧M으로 나타낼 경우, "적응(adaptation)"후에 A(Refn) = Refn 인, r_in^∧M = r_(i(n+l))^∧P 을 가질 수 있다. 여기서, A는 레퍼런스 시퀀스 n에서 레퍼런스 시퀀스 n + 1 로의 변환이다.

도 19는 불일치 위치를 수정함으로써 RSI로부터 얻어진 레퍼런스 시퀀스 2(RS2)에 대해 레퍼런스 시퀀스 1(RSI)에 대한 불일치(M 판독)를 포함하는 판독을 어떻게 완전히 일치된 판독(P 판독)으로 변환시킬 수 있는지를 도시한다. 이 변환(transformation)은 다음과 같이 표현될 수 있다.

RS2 = A(RS1)

RS1에서 RS2로 진행하는 변환 A의 표현이 M 판독에 존재하는 불일치 표현의 비트를 덜 필요로 하는 경우, 이 인코딩 방법은 정보 엔트로피가 작아지고 따라서 압축이 향상된다.

소스 모델, 엔트로피 코더 및 코딩 모드(Source models, entropy coders and coding modes)

본 발명에 개시된 게놈 데이터 구조의 각 레이어에 대하여, 상이한 코딩 알고리즘이 레이어 및 그 통계적 특성에 의해 운반되는 데이터 또는 메타 데이터의 특정 특성(feature)에 따라 사용될 수 있다. "코딩 알고리즘"은 특정 "엔트로피 코더(entropy coder)"와 디스크립터의 특정 "소스 모델(source model)"을 연관 지어 생각해야 한다. 소스 엔트로피의 최소화 측면에서 데이터의 가장 효율적인 코딩을 얻기 위해 특정 "소스 모델"을 지정하고 선택할 수 있다. 엔트로피 코더의 선택은 코딩 효율 고려 사항 및/또는 확률 분포 특성(feature) 및 관련 구현 문제에 의해 유도될 수 있다. 특정 코딩 알고리즘의 각 선택은 전체 "레이어(layer)"에 적용되는 "코딩 모드(coding mode)"라 지칭할 것이다.

코딩 모드와 연관된 각각의 "소스 모델"은 다음과 같은 특징이 있다:

● 각 소스에 의해 방출된 구문 요소의 정의(예를 들어, 위치 판독, 페어링 정보 판독, 레퍼런스 시퀀스와의 불일치 등)

● 연관 확률 모델의 정의.

● 연관 엔트로피 코더의 정의.

추가 이점(further advantages)

이 분류(classification)는 단일의 분리된 데이터 소스(예를 들어, 거리, 위치 등)에 의해 구문 요소 시퀀스(sequence of syntax element)를 모델링함으로써 낮은 정보 소스 엔트로피 특징을 활용하는 효율적인 코딩 모드의 구현을 허용한다.

본 발명의 또 다른 이점은 관심있는 유형의 데이터의 서브세트(subset)에만 액세스가 가능하다는 것이다. 예를 들어 게놈학에서 가장 중요한 응용 분야 중 하나는 레퍼런스(SNV) 또는 모집단(SNP)에 대한 게놈 샘플의 차이를 찾는 것이다. 오늘날 이러한 유형의 분석은 완전한 시퀀스 판독의 처리를 필요로 하는 반면, 본 발명에 의해 개시된 데이터 표현을 채택함으로써 불일치는 이미 단지 하나 내지 세 개의 데이터 클래스(N 개의 코드 및 인델(indel)을 고려할 때의 관심에 따라) 로 분리(isolate)된다.

다른 이점은, 새로운 "레퍼런스 시퀀스"가 출판되거나 이미 맵핑 된 데이터(예를 들어, 상이한 맵핑 알고리즘을 사용하여)에 대해 다시 맵핑이 수행되는 경우, 특정 "레퍼런스 시퀀스"를 레퍼런스하여 압축된 데이터 및 메타 데이터에서 다른 "레퍼런스 시퀀스"로 효율적인 트랜스 코딩을 수행할 수 있다는 것이다.

도 20는 본 발명의 원리에 따른 인코딩 장치(encoding apparatus)(207)를 도시한다. 인코딩 장치(207)는, 예를 들어 게놈 시퀀싱 장치(genome sequencing apparatus)(200)에 의해 생성된 미가공(raw) 시퀀스 데이터(sequence data)(209)를 입력으로 수신한다. 게놈 시퀀싱 장치(200)는 일루미나(Illumina) HiSeq 2500 또는 써모피셔이온 토런트(Thermo-Fisher Ion Torrent) 장치와 같이 당 업계에 공지되어 있다. 미가공 시퀀스 데이터(raw sequence data)(209)는 정렬 유닛(aligner unit)(201)에 공급되고, 정렬 유닛(201)은 판독을 레퍼런스 시퀀스에 정렬시킴으로써 인코딩을 위한 시퀀스를 준비한다. 대안으로, 더 긴 세그먼트("콘티그(contigs)"라고 불리는)가 판독으로부터 어셈블될 수 있도록 오버랩 하는 접두사 또는 접미어를 찾음으로써 이용 가능한 판독으로부터 레퍼런스 시퀀스를 생성하기 위해 드노보 어셈블러(de-novo assembler)(202)가 사용될 수 있다. 드노보(de-novo) 어셈블러(202)에 의해 프로세스된 후에, 판독은 획득된 더 긴 시퀀스에 맵핑 될 수 있다. 정렬된 시퀀스는 데이터 분류 모듈(data classification module)(204)에 의해 분류된다. 데이터 클래스(data class)(208)은 레이어 인코더(layer encoder)(205-207)에 공급된다. 게놈 레이어(genomic layer)(2011)은 그 후 레이어에 의해 운반된 데이터 또는 메타 데이터의 통계적 특성에 따라 레이어를 인코딩하는 산술 인코더(arithmetic encoder)(2012-2014)에 공급된다. 결과는 게놈 스트림(genomic stream)(2015)이다.

도 21은 본 개시의 원리에 따른 디코딩 장치(decoding apparatus)(218)를 도시한다. 디코딩 장치(218)는 네트워크 또는 저장 요소로부터 멀티플렉스 된 게놈 비트 스트림(genomic bitstream)(2110)을 수신한다. 멀티플렉스 된 게놈 비트 스트림(2110)은 디멀티플렉서(demultiplexer)(210)에 공급되어 분리된(seoarate) 스트림(stream)(211)을 생성한 다음 엔트로피 디코더(entropy decoder)(212-214)에 공급되어 게놈 레이어(215)를 생성한다. 추출된 게놈 레이어는 레이어 디코더(layer decoder)(216-217)에 공급되어 레이어를 데이터 클래스로 더 디코딩한다. 클래스 디코더(class decoder)(219)는 게놈 디스크립터(descriptor)를 더 프로세스하고 그 결과를 병합하여 시퀀스의 비 압축 판독을 생성한 다음, 예를 들어 텍스트 파일 또는 압축 압축 파일, 또는 FASTQ 또는 SAM/BAM 파일과 같은 당 업계에 공지된 포맷으로 더 저장될 수 있다.

클래스 디코더(219)는 하나 또는 하나 이상의 게놈 스트림에 의해 운반되는 원래의 레퍼런스 시퀀스에 대한 정보를 레버리지함으로써 원래의 게놈 시퀀스를 재구축할 수 있다. 레퍼런스 시퀀스가 게놈 스트림에 의해 전송되지 않는 경우, 이들은 디코딩 측에서 이용 가능해야 하고 클래스 디코더에 의해 액세스 가능해야 한다.

본원에서 개시된 본 발명의 기술들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 소프트웨어로 구현될 때, 이들은 컴퓨터 매체에 저장되고 하드웨어 처리 장치에 의해 실행될 수 있다. 하드웨어 처리 유닛은 하나 또는 하나 이상의 프로세서, 디지털 신호 프로세서, 범용 마이크로 프로세서, 주문형 집적 회로 또는 다른 이산 논리 회로를 포함할 수 있다.

본 개시의 기술은 이동 전화, 데스크톱 컴퓨터, 서버, 태블릿 및 유사한 장치를 포함하는 다양한 장치 또는 장치에서 구현될 수 있다.

Claims

시퀀싱 장치에 의해 생성된 게놈 시퀀스 데이터의 압축방법에 있어서,
상기 게놈 시퀀스 데이터는 뉴클레오타이드(nucleotides) 시퀀스의 판독(reads of sequence))을 포함하고,
상기 방법은,
상기 판독을 하나 또는 하나 이상의 레퍼런스 시퀀스(reference sequence)에 정렬시킴으로써, 정렬된 판독(aligned reads)을 생성하는(creating) 단계,
하나 또는 하나 이상의 레퍼런스 시퀀스와의 일치 정확도에 따라 상기 정렬된 판독을 분류함(classifying)으로써 정렬된 판독의 클래스를 생성하는 단계;
상기 분류되고 정렬된 판독을 다수의 구문 요소 레이어(layers of syntax elements)로 인코딩(encoding)하는 단계,
상기 분류되고 정렬된 판독을 다수의 레이어의 구문 요소로서 인코딩하는 단계는 상기 정렬된 판독의 클래스에 따라 상기 구문 요소를 선택하는(selecting) 단계
를 포함하는
방법.
제1항에 있어서,
상기 구문 요소의 레이어는 레퍼런스 시퀀스를 따르는 위치, 레퍼런스 시퀀스상의 두 위치들 사이의 거리 및 시퀀스 판독이 역 보완되는지 여부를 나타내는 정보
를 포함하는
방법.
제2항에 있어서,
상기 구문 요소의 레이어는,
레퍼런스 시퀀스에 대한 변형의 위치, 변형의 유형, 레퍼런스 시퀀스에 대한 삭제 위치, 레퍼런스 시퀀스에 나타나지 않으나 정렬 판독에 나타나는 하나 또는 하나 이상의 심볼의 위치, 주어진 위치에서의 삽입 유형
을 더 포함하는
방법.
제1항에 있어서,
다수의 구문 요소 레이어로서 상기 분류되고 정렬된 판독의 인코딩 하는 단계는,
레이어에 의해 운반되는 데이터 또는 메타 데이터의 특정 특성에 따라 적응되는
방법.
제4항에 있어서,
다수의 구문 요소 레이어로서 상기 분류되고 정렬된 판독의 인코딩 하는 단계는,
레이어에 의해 운반되는 데이터 또는 메타 데이터의 통계적 특성에 따라
더 적응되는
방법.
제5항에 있어서,
다수의 구문 요소 레이어로서 상기 분류되고 정렬된 판독을 인코딩 하는 단계는,
특정 소스 모델 및 특정 엔트로피 코더를 각각의 디스크립터 레이어에 연관시키는,
방법.
제5항에 있어서,
상기 엔트로피 코더는,
문맥 적응형 산술 코더인
방법.
제1항에 있어서,
상기 시퀀스 판독은,
하나 또는 하나 이상의 레퍼런스 시퀀스 상에
완전히 일치하는
방법.
제1항에 있어서,
상기 시퀀스 판독은,
하나 또는 하나 이상의 레퍼런스 시퀀스에 대하여
실제 뉴클레오타이드 또는 아미노산 심볼 대신에
"N" 심볼이 나타나는 불일치만을
포함하는
방법.
제1항에 있어서,
상기 시퀀스 판독은,
하나 또는 하나 이상의 레퍼런스 시퀀스에 대한
심볼의 치환 형태로 임의의 유형의 불일치를
포함하는
방법.
제1항에 있어서,
상기 시퀀스 판독은,
하나 또는 하나 이상의 레퍼런스 시퀀스에 대한
불일치 및 삽입 또는 삭제를
포함하는
방법.
제1항에 있어서,
상기 시퀀스 판독은,
하나 또는 하나 이상의 레퍼런스 시퀀스에 대한
불일치, 삽입 또는 삭제 및 소프트 클리핑 된 심볼을
포함하는
방법.
제1항에 있어서,
상기 시퀀스 판독은,
하나 또는 하나 이상의 레퍼런스 시퀀스에 대하여
맵핑 될 수 없는
장치.
제1항에 있어서,
상기 시퀀스 판독은,
각각의 시퀀스 판독에 포함된 불일치 수에 따라
상이한 등급으로 더 분류되는
방법.
압축된 게놈 스트림의 압축 해제 방법에 있어서,
상기 방법은
상기 압축된 게놈 스트림을 구문 요소의 게놈 레이러로 파싱 하는 단계,
상기 게놈 레이어를 뉴클레오타이드 시퀀스의 분류된 판독으로 확장시키는 단계,
뉴클레오타이드 시퀀스의 압축되지 않은 판독을 생성하기 위하여,
하나 또는 하나 이상의 레퍼런스 시퀀스 상의 상기 뉴클레오타이드 시퀀스의 분류된 판독을 선택적으로 디코딩하는 단계
를 포함하는
방법.
시퀀싱 장치에 의해 생성된 게놈 시퀀스 데이터의 분류 방법에 있어서,
상기 게놈 시퀀스 데이터는 뉴클레오타이드 "염기"의 시퀀스를 포함하고,
상기 분류는 레퍼런스 시퀀스에 따라 수행되고,
상기 방법은,
불일치 없이 레퍼런스 시퀀스 내의 매칭 영역을 포함하는, 클래스 P 시퀀스를 식별하는 단계;
시퀀싱 장치가 임의의 "염기"를 호출할 수 없었던 위치에 의해 표현된 다수의 불일치를 가지는 레퍼런스 시퀀스의 매칭 영역을 포함하는, 클래스 N 시퀀스를 식별하는 단계;
시퀀싱 장치가 임의의 "염기"를 호출할 수 없거나 레퍼런스 시퀀스와는 상이한 염기를 호출한 위치에 의해 표현된 다수의 불일치를 가지는 레퍼런스 시퀀스의 매칭 영역을 포함하는, 클래스 M 시퀀스를 식별하는 단계;
동일한 클래스 M의 불일치와 삽입 또는 삭제의 존재를 포함하는, 클래스 I 시퀀스를 식별하는 단계;
레퍼런스 시퀀스상에서 어떠한 유효한 맵핑도 찾지 못하는 모든 판독을 포함하는 클래스 U 시퀀스를 식별하는 단계
를 포함하는
방법.
게놈 시퀀스 데이터(209)의 압축을 위한 게놈 인코더(2010)에 있어서,
상기 게놈 시퀀스 데이터(209)는 뉴클레오타이드 시퀀스 판독을 포함하며,
상기 게놈 인코더(2010)는,
상기 판독을 하나 또는 하나 이상의 레퍼런스 시퀀스에 정렬시켜 정렬된 판독을 생성하도록 구성된 정렬기 유닛(201)
하나 또는 하나 이상의 레퍼런스 시퀀스와 일치 정확도에 따라 상기 정렬된 판독을 분류하여 정렬된 판독의 클래스를 생성하도록 구성된 데이터 분류 유닛(204);
상기 정렬된 판독의 클래스에 따라 상기 구문 요소를 선택함으로써 상기 분류되고 정렬된 판독을 구문 요소의 레이어로 인코딩 하도록 구성된 하나 또는 하나 이상의 레이어 인코딩 유닛(205-207)을
포함하는
장치.
압축된 게놈 스트림(211)의 압축 해제를 위한 게놈 디코더(218)에 있어서,
상기 게놈 디코더(218)는
상기 압축된 게놈 스트림을 구문 요소(215)의 게놈 레이어로 파싱 하도록 구성된 파싱 수단(210, 212-214)
게놈 레이어를 디코딩하여 뉴클레오타이드 시퀀스(2111, 2112)의 분류된 판독으로 구성되는 하나 또는 하나 이상의 레이어 디코더(216-217)
뉴클레오타이드 시퀀스의 압축되지 않은 판독을 생성하기 위하여, 하나 또는 하나 이상의 레퍼런스 시퀀스상의 상기 뉴클레오타이드 시퀀스의 분류된 판독을 선택적으로 디코딩하도록 구성된 게놈 데이터 클래스 디코더(213)를
포함하는
장치.
제17항에 있어서,
하나 또는 하나 이상의 레퍼런스 시퀀스는,
압축된 게놈 스트림(211)에 저장되는
장치.
제17항에 있어서,
하나 또는 하나 이상의 레퍼런스 시퀀스는,
대역 외 메커니즘을 통해 디코더에 제공되는
장치.
제17항에 있어서,
하나 또는 하나 이상의 레퍼런스 시퀀스는,
디코더에 만들어지는
장치.
실행될 때 적어도 하나의 프로세서가,
제1항 내지 제16항 중 어느 한 항의 방법을 수행하게 하는 명령을 포함하는
컴퓨터 판독 가능 매체.