KR20190069469A

KR20190069469A - 생물정보학 데이터의 인덱싱을 위한 방법 및 시스템

Info

Publication number: KR20190069469A
Application number: KR1020197013419A
Authority: KR
Inventors: 클라우디오 알베르티; 조르조 조이아; 다니엘 렌지; 무하마드 코소 발루치
Original assignee: 게놈시스 에스에이
Priority date: 2016-10-11
Filing date: 2017-07-11
Publication date: 2019-06-19
Also published as: PE20191056A1; JP2020505702A; CL2019000972A1; AU2017341685A1; CO2019003595A2; CO2019009920A2; EP3526707A4; PH12019550059A1; SG11201903272XA; WO2018071080A3; PH12019501881A1; KR20190062541A; CL2019000968A1; EP3526694A1; PE20191227A1; BR112019016232A2; BR112019007360A2; US20190385702A1; IL265928A; PE20191057A1

Abstract

게놈 서열분석기에 의해 생성된 게놈 서열 데이터의 인덱싱을 위한 방법 및 장치. 제안된 방법은 서열분석기에 의해 생성된 미가공 서열 데이터 및 특정 매칭 기준에 따라 임의의 참조 서열 상에 매핑될 수 없는 서열 리드 둘 다에 적용될 수 있다. 본 발명은 브라우징 및 효율적인 선택적 액세스를 가능하게 하기 위해 비정렬된 서열 리드를 분할 및 인덱싱하는 방법을 기술한다.

Description

생물정보학 데이터의 인덱싱을 위한 방법 및 시스템

관련 출원에 대한 상호-참조

본 출원은 특허 출원 제PCT/EP2016/074311호, 제PCT/EP2016/074301호, 제PCT/EP2016/074307호, 제PCT/EP2016/074297호, 제PCT/US2017/17842호, 제PCT/US2017/17841호의 우선권 및 이익을 청구한다.

기술 분야

본 개시내용은 선택적 액세스(selective access) 및 패턴 매칭(pattern matching)을 가능하게 하도록 게놈 서열분석 데이터(genome sequencing data)를 분할 및 인덱싱하는 신규한 방법을 제공한다. 개시된 인덱싱 방법은 비정렬된 서열 리드(unaligned sequence read) 중에서 특정 뉴클레오티드 서열을 검색할 때 요구되는 처리 능력(processing power) 및 데이터 액세스 시간을 감소시킨다. 개시된 방법은 다음에 적용될 수 있다:

· 게놈 서열분석기에 의해 생성된 미가공 서열 데이터,

· 지정된 매칭 기준에 따라 리드 매핑의 프로세스 동안 하나 이상의 참조 서열의 임의의 영역 상에서 매핑하지 못하는 비매핑된 리드,

· 지정된 매칭 기준에 따라 서열 리드 조립(참조 없는 정렬(reference-less alignment)로도 알려짐)의 프로세스 동안 보다 긴 서열("콘틱(contigs)"으로도 알려짐)을 형성하기 위해 임의의 다른 리드와 정렬되지 못하는 비정렬된 리드.

게놈 서열분석 데이터의 적절한 인덱싱은 예를 들면, 제한 없이, 유전자 발견과 같은 효율적인 게놈 분석 응용을 가능하게 하는데 기본적이다. 유전자 발견은 형질이나 표현형의 발달과 관련된 유기체 게놈의 영역을 확인하는 과정이다. 유전자 발견은 연구중인 하나 이상의 게놈 샘플에서 특정 패턴의 뉴클레오티드의 검색을 필요로 한다. 마찬가지로, 다른 게놈 분석 응용은 관심있는 뉴클레오티드의 배열을 확인하기 위해 패턴 매칭 기술의 사용을 필요로 한다. 몇몇 경우에 패턴 매칭이 서열 정렬 기술의 대안으로 간주되어 더 긴 게놈 서열을 구축하기 위해 서열 데이터는 기존의 참조 서열 상에 매핑된다.

서열분석 데이터의 가장 많이 사용되는 게놈 정보 표현은 미가공 리드의 경우 FASTQ 형식 및 정렬된 리드의 경우 SAM 및 CRAM을 기반으로 한다. 이러한 솔루션은 미가공 또는 비매핑된 리드에 대한 임의의 형태의 인덱싱을 지원하지 않으며 이들을 순서가 없는 레코드 서열로서 저장한다. 이것은 특정 패턴에 대한 검색이 전체 데이터세트를 디코딩하고 파싱(parsing)함을 필요로 한다는 것을 의미한다.

본 발명은 다음에 의해 미가공 또는 비매핑된 게놈 서열 리드를 인덱싱함을 목적으로 한다:

· 공유 공통 서브서열에 따라 리드를 클러스터링(clustering)함. 클러스터에 속하는 모든 리드는 정의된 클러스터링 제약에 따라 가능하게는 일부 미스매치를 갖는 뉴클레오티드의 특정 서열을 포함한다. 본 발명의 개시내용 전반에 걸쳐 공통 서열을 클러스터 시그니처(cluster signature)라고 한다.

· 시그니처 뉴클레오티드를 나타내는 하나 이상의 정수의 서열로서 클러스터 시그니처를 인코딩(encoding)함,

· 인코딩된 시그니처를 순서화된 또는 순서가 없는 벡터로 저장함,

· 본 개시내용에 정의된 바와 같은 클래스(Class) U에 속하는 미가공, 비매핑 또는 비정렬된 리드와 함께 인코딩된 시그니처의 벡터를 코딩함.

기존 방법과 관련하여 이러한 접근법의 가장 관련성있는 개선은 다음에 있다:

1. 단일 리드 대신 전체 리드 클러스터에서 패턴 매칭을 수행하는 가능성,

2. 동시에 여러 클러스터에서 병렬 패턴 매칭을 수행하는 가능성,

3. 클러스터 시그니처 특성과 관련된 기준에 따라 미가공 또는 비매핑된 리드를 정렬하는 가능성,

4. 알려진 유전자와 클러스터 시그니처의 비교를 가능하게 함으로써 유전자 발견 성능의 증가.

도 1은 미가공, 비매핑 및 비정렬된 리드가 "시그니처"라고 불리는 뉴클레오티드의 공유된 서브서열(subsequence)에 따라 클러스터링되는 방법을 보여준다.
도 2는 동일한 시그니처를 공유하지만 상이한 정확도를 갖는 4개의 리드의 예를 보여준다. 리드1은 정확한 시그니처를 함유하고; 리드2는 2개의 미스매치를 갖는 시그니처를 함유하고; 리드3은 하나의 염기를 제외하고 시그니처를 함유하고(결실); 리드4는 추가 염기를 갖는 시그니처(삽입)를 함유한다.
도 3은 불변 길이 시그니처의 경우에 길이 8의 시그니처를 부호없는 32-비트(bit) 정수로 인코딩하는 방법을 보여준다.
도 4는 불변 길이 시그니처의 경우에 길이 6의 시그니처를 여러 개의 부호없는 8-비트 정수로 인코딩하는 방법을 보여준다.
도 5는 가변 길이 시그니처의 경우에 길이 8 및 5의 시그니처를 부호없는 32-비트 정수로 인코딩하는 방법을 보여준다.
도 6은 가변 길이 시그니처의 경우에 길이 6 및 5의 시그니처를 여러 개의 부호없는 8-비트 정수로 인코딩하는 방법을 보여준다.
도 7은 미가공, 비매핑 또는 비정렬된 리드를 코딩할 때, 마스터 인덱스 테이블이 인코딩된 시그니처 및 저장 매체 상의 액세스 유닛에 의해 포함된 인코딩된 디스크립터의 해당 블록에 대한 포인터를 함유하는 두 벡터를 포함한다는 것을 보여준다.
도 8은 8개의 뉴클레오티드로 구성되고 32-비트 정수로 인코딩된 불변 길이 시그니처를 디코딩하는 방법의 예를 보여준다.
도 9는 8-비트 정수로 인코딩하여 구성된 가변 길이 시그니처를 디코딩하는 방법의 예를 보여준다.
도 10은 액세스 유닛이 동일한 게놈 데이터 클래스의 리드를 나타내는데 사용되는 엔트로피 코딩된 디스크립터 블록을 어떻게 포함하는지 보여준다. 블록은 네트워크 전송을 위해 패킷으로 분할된다.
도 11은 미가공 게놈 서열 인코더의 아키텍처를 보여준다.
도 12는 정렬된 리드를 인코딩하는 더 큰 아키텍처에 통합된 도 11의 미가공 게놈 서열 인코더를 보여준다.
도 13은 미가공, 비매핑 및 비정렬될 서열 데이터를 포함하는 액세스 유닛의 디코더의 아키텍처를 보여준다. 출력은 디코딩된 서열 리드의 클러스터 및 관련 시그니처로 구성된다.
도 14는 비매핑된 리드(클래스 U 데이터)를 포함하는 액세스 유닛을 디코딩하기 위해 게놈 서열 디코더에서 사용되는 도 12의 디코더를 보여준다.
도 15는 더 긴 서열("콘틱"으로도 알려짐)을 비매핑된 리드와 조합함으로써 참조 서열의 알려지지 않은 영역을 채우는데 절반 매핑된 리드 쌍(클래스 HM)의 사용 방법을 보여준다.

요약

하기 청구 범위의 특징은 게놈 서열 데이터를 인코딩하는 방법을 제공함으로써 기존의 선행 기술의 해결책의 문제점을 해결하며, 상기 게놈 서열 데이터는 뉴클레오티드의 서열의 리드를 포함하며, 상기 방법은 다음의 단계들을 포함한다:

상기 리드를 "클러스터 시그니처"라고 불리는 뉴클레오티드의 공통 서열 또는 서브서열을 공유하는 리드의 클러스터로 분할하는 단계,

상기 클러스터링된 리드를 다수의 신택스 요소의 블록으로서 인코딩하는 단계,

상기 신택스 요소의 블록을 헤더 정보(header information)와 함께 구조화함으로써 연속적인 액세스 유닛을 생성하는 단계.

또 다른 측면에서 상기 인코딩 방법은 다음에 의해 상기 클러스터 시그니처를 인코딩함을 추가로 포함한다:

지원되는 알파벳의 각 뉴클레오티드를 고유한 2진 표현(unique binary representation)과 연관시킴,

인코딩된 시그니처를 나타내는 비트열(bitstring)을 얻기 위해 시그니처 내의 각 뉴클레오티드의 2진 표현을 연결함.

또 다른 측면에서, 상기 인코딩 방법은 인코딩된 서열 리드의 각각의 클러스터가 상기 인코딩된 시그니처에 의해 식별되는 단계를 추가로 포함한다.

또 다른 측면에서, 상기 신택스 요소의 블록은 지원되는 알파벳의 각 뉴클레오티드를 고유한 2진 표현과 연관시키고, 상기 인코딩된 시그니처를 나타내는 비트열을 얻기 위해 시그니처 내의 각 뉴클레오티드의 2진 표현을 연결하여 인코딩된 클러스터 시그니처를 포함하는 마스터 인덱스 테이블을 포함하며, 각 클러스터에 속하는 서열 리드를 나타내는 인코딩된 신택스 요소의 블록의 저장 매체 상의 위치를 나타내는 정수 값의 벡터에 연관된다.

또 다른 측면에서, 상기 신택스 요소의 블록은 다음을 포함하는 게놈 데이터세트 헤더를 포함한다:

각 데이터세트 그룹을 고유하게 식별하는데 사용되는 데이터세트 그룹 식별자,

각 데이터세트를 고유하게 식별하는데 사용되는 게놈 데이터세트 식별자,

데이터세트가 준수하는 데이터 형식 사양을 식별하는데 사용되는 브랜드(brand) 식별자,

데이터세트가 준수하는 데이터 형식 사양을 식별하는데 사용되는 부 버전 번호(minor version number),

불변 길이 리드를 신호전달하는데 사용되는 뉴클레오티드에서의 인코딩된 게놈 리드의 길이,

쌍을 이룬 말단 리드의 존재를 신호전달하는 플래그(flag),

블록 헤더의 존재를 신호전달하는 플래그,

액세스 유닛이 저장 매체에 저장되는 순서를 신호전달하는 플래그,

데이터세트를 코딩하는데 사용되는 참조 서열의 수,

각 참조 서열을 고유하게 식별하는데 사용되는 각 참조 서열 당 숫자 식별자,

각 참조 서열을 고유하게 식별하는데 사용되는 각 참조 서열 당 문자열(string) 식별자,

각 참조 서열과 연관된 액세스 유닛을 계수하는데 사용되는 참조 서열 당 코딩된 액세스 유닛의 수,

정렬된 리드, 비정렬된 리드, 비매핑된 리드 및 참조 서열을 구별하는데 사용되는 코딩된 게놈 데이터의 유형,

데이터세트에 코딩된 데이터 클래스(data class)의 수,

디코딩 프로세스(decoding process) 동안 사용되는 데이터세트에 코딩된 각 데이터 클래스 당 사용된 디스크립터(descriptor)의 수,

인코딩되고 비매핑된 리드를 인덱싱하는데 사용되는 클러스터의 총 수,

인코딩된 클러스터 시그니처를 디코딩하는데 사용되는 클러스터 시그니처를 인코딩하는데 사용되는 정수 값을 표시하는데 사용되는 비트(bit)의 수,

모든 클러스터 시그니처가 뉴클레오티드의 수의 측면에서 동일한 길이를 갖는지를 신호전달하는 플래그,

클러스터 시그니처의 길이.

상기 인코딩 방법의 또 다른 측면에서 상기 게놈 리드는 쌍을 이룬다.

상기 인코딩 방법의 또 다른 측면에서 상기 게놈 데이터는 엔트로피 코딩된다.

인코딩된 게놈 데이터를 디코딩하는 방법은 다음의 단계들을 포함한다:

상기 인코딩된 게놈 데이터를 함유하는 액세스 유닛을 파싱(parsing)하여, 헤더 정보를 이용함으로써 다수의 신택스 요소의 블록을 추출하는 단계,

상기 다수의 신택스 요소의 블록을 디코딩하여, 상기 방법과 같이 인코딩된 미가공, 비매핑 및 비정렬된 리드를 추출하는 단계,

마스터 인덱스 테이블(master index table)을 파싱하여 인코딩된 클러스터 시그니처를 검색하는 단계,

시그니처의 각 2진 표현에 뉴클레오티드의 상응하는 서열을 연관시킴으로써 상기 클러스터 시그니처를 디코딩하는 단계,

각 시그니처와 연관된 정수의 벡터를 파싱하여, 게놈 데이터의 코딩된 표현을 포함하는 액세스 유닛을 저장 매체 상에서 검색하는 단계,

헤더 정보를 이용하여 액세스 유닛으로부터 다수의 신택스 요소의 블록을 추출하는 단계.

또 다른 측면에서 상기 디코딩 방법은 전역 구성 매개변수(global configuration parameter)를 포함하는 게놈 데이터세트 헤더를 디코딩함을 추가로 포함한다.

또 다른 측면에서 상기 디코딩 방법은 코딩된 클러스터 시그니처 및 코딩된 블록 오프셋을 포함하는 마스터 인덱스 테이블을 디코딩함을 추가로 포함한다.

상기 디코딩 방법의 또 다른 측면에서 상기 게놈 리드는 쌍을 이룬다.

상기 디코딩 방법의 또 다른 측면에서 상기 게놈 데이터는 엔트로피 디코딩된다.

미가공, 비매핑 및 비정렬된 게놈 서열 데이터(111)의 압축을 위한 게놈 디코더(1115), 상기 게놈 서열 데이터(111)는 뉴클레오티드의 서열의 리드를 포함하고, 상기 게놈 디코더(1115)는 다음을 포함한다:

클러스터 시그니처로 불리는 뉴클레오티드의 공통 서열 또는 서브서열을 공유하는 리드의 그룹으로 상기 리드를 분할함으로써 리드의 클러스터(113) 및 클러스터 시그니처(114)를 생성하도록 구성된 클러스터링 유닛(112),

상기 클러스터링된 리드를 신택스 요소의 블록으로서 인코딩하도록 구성된, 하나 이상의 디스크립터 인코딩 유닛(115).

상기 신택스 요소의 블록을 이들의 통계적 특성에 따라 압축하여 게놈 액세스 유닛(1111)을 생성하도록 구성된, 하나 이상의 엔트로피 인코딩 유닛(1110),

고유한 2진 표현을 클러스터 시그니처의 각 기호에 연관시킴으로써 클러스터 시그니처(114)를 2진화하도록 구성된 시그니처 인코딩 유닛(116),

게놈 액세스 유닛(1111)에 포함된 엔트로피 코딩된 디스크립터의 저장 매체상의 오프셋을 표현하는 정수의 벡터에 상기 2진화된 클러스터 시그니처(117)를 연관시키도록 구성된 게놈 데이터세트 헤더 및 마스터 인덱스 테이블 생성기(119),

압축된 게놈 데이터 및 메타데이터를 멀티플렉싱하기 위한 멀티플렉서(multiplexer)(1113).

게놈 서열 데이터(121)의 압축을 위한 게놈 엔코더(1210), 상기 게놈 서열 데이터(121)는 뉴클레오티드의 서열의 리드를 포함하고,

상기 게놈 엔코더(1210)는 다음을 포함한다:

상기 리드를 하나 이상의 참조 서열에 정렬시킴으로써 정렬된 리드를 생성하도록 구성된 정렬기 유닛(122),

하나 이상의 기존의 참조 서열 또는 작제된 참조 서열로 명시된 매칭 규칙에 따라 상기 정렬된 리드를 분류하여 정렬된 리드의 클래스(128)를 생성하도록 구성된 데이터 분류 유닛(124);

정렬된 리드의 상기 클래스에 따라 상기 신택스 요소를 선택함으로써 상기 분류되고 정렬된 리드를 신택스 요소의 블록으로서 인코딩하도록 구성된, 하나 이상의 디스크립터 인코딩 유닛(125-127),

상기 신택스 요소의 블록을 이들의 통계적 특성에 따라 압축시켜 게놈 스트림(1215)을 생성하도록 구성된, 하나 이상의 엔트로피 인코딩 유닛(1212-1214),

상기한 바와 같이 구성된 미가공, 비매핑 및 비정렬된 서열 리드 인코딩 유닛(1115),

압축된 게놈 데이터 및 메타데이터를 멀티플렉싱하기 위한 멀티플렉서(1216).

상기 클러스터 시그니처가 지원되는 알파벳의 각 뉴클레오티드를 고유한 2진 표현과 연관시킴으로써 인코딩되고, 각각의 뉴클레오티드의 상기 2진 표현이 인코딩된 시그니처를 나타내는 비트열을 얻기 위해 시그니처 내에서 연결됨을 포함하는 상기 인코딩 방법을 실행할 수 있는 코딩 수단을 포함하는 게놈 인코더.

압축된 게놈 액세스 유닛(134)의 압축해제를 위한 게놈 디코더(1313), 상기 게놈 디코더(1313)는 다음을 포함한다:

압축된 게놈 액세스 유닛(134) 및 게놈 데이터세트 헤더 및 마스터 인덱스 테이블(133)을 디멀티플렉싱(demultiplexing)하기 위한 디멀티플렉서(demultiplexer)(132),

상기 게놈 데이터세트 헤더 및 마스터 인덱스 테이블(133)을 인코딩된 클러스터 시그니처(137)로 파싱하도록 구성된 파싱 수단(135),

상기 인코딩된 클러스터 시그니처(137)를 클러스터 시그니처(1311)로 디코딩하도록 구성된 시그니처 디코더(139),

상기 압축된 게놈 액세스 유닛을 게놈 디스크립터(138)라고 하는 신택스 요소의 블록으로 압축해제하도록 구성된 엔트로피 디코더(136),

게놈 디스크립터를 뉴클레오티드의 서열의 비압축된 리드(1312)로 디코딩하도록 구성된, 하나 이상의 디스크립터 디코더(1310).

압축된 게놈 스트림(1410)의 압축해제를 위한 게놈 디코더(148), 상기 게놈 디코더(148)는 다음을 포함한다:

압축된 게놈 데이터 및 메타데이터를 게놈 비트스트림(bitstream)(141) 및 비매핑된 서열 리드의 비트스트림(145)으로 디멀티플렉싱하기 위한 디멀티플렉서(140),

상기 압축된 게놈 스트림을 게놈 디스크립터(145)라고 하는 신택스 요소의 블럭으로 파싱하도록 구성된 엔트로피 디코더(142-144),

게놈 디스크립터를 뉴클레오티드의 서열의 분류된 리드(1411)로 디코딩하도록 구성된, 하나 이상의 게놈 디스크립터 디코더(146-147),

뉴클레오티드의 서열의 비압축된 리드를 생성하도록 하나 이상의 참조 서열 상에 뉴클레오티드의 서열의 상기 분류된 리드를 선택적으로 디코딩하도록 구성된 게놈 데이터 클래스 디코더(149),

비압축된 미가공, 비매핑 및 비정렬 서열 리드(1414) 및 클러스터 시그니처(1415)를 생성하기 위한 상기한 바와 같이 구성된 비매핑된 서열 리드 디코더(1313).

본 발명은 실행될 때 적어도 하나의 프로세서가 상기 언급된 인코딩 방법들의 모든 양태를 수행하게 하는 명령어를 포함하는 컴퓨터-판독가능 매체를 추가로 제공한다.

본 발명은 실행될 때 적어도 하나의 프로세서가 상기 언급된 코딩 방법들의 모든 양태를 수행하게 하는 명령어를 포함하는 컴퓨터-판독가능 매체를 추가로 제공한다.

본 발명은 실행될 때 적어도 하나의 프로세서가 상기 언급된 디코딩 방법들의 모든 양태를 수행하게 하는 명령어(instruction)를 포함하는 컴퓨터-판독가능 매체를 추가로 제공한다.

본 발명은 상기 언급된 코딩 방법들의 모든 양태를 수행하여 인코딩된 게놈을 저장하는 지원 데이터(support data)를 추가로 제공한다.

상세한 설명

본 발명에서 언급된 게놈 또는 단백체 서열(proteomic sequence)은, 예를 들면, 뉴클레오티드 서열, 데옥시리보핵산 (DNA) 서열, 리보핵산 (RNA) 및 아미노산 서열을 제한 없이 포함한다. 본원의 설명은 뉴클레오티드 서열 형태의 게놈 정보와 관련하여 상당히 상세하게 설명되어 있지만, 압축을 위한 방법 및 시스템은 당업계의 숙련가가 이해할 수 있는 바와 같이 몇 가지 변형이 있긴 하지만 다른 게놈 또는 단백체 서열에 대해서도 구현될 수 있음을 이해할 것이다. 게놈 서열분석 정보는 정의된 어휘의 문자열에 의해 표현되는 뉴클레오티드 ("염기"로도 알려짐)의 서열 형태로 고 처리량 서열분석 (HTS) 기계에 의해 생성된다. 가장 작은 어휘는 DNA에 존재하는 4개 유형의 뉴클레오티드, 즉, 아데닌, 시토신, 구아닌. 및 티민을 나타내는 5개의 기호: {A, C, G, T, N}에 의해 나타내어진다. RNA에서 티민은 우라실(U)로 대체된다. N은 서열분석기가 어떠한 염기도 호출할 수 없었고, 따라서 그 위치에서 뉴클레오티드의 실제 성질이 불확실하다는 것을 나타낸다. IUPAC 모호성 코드가 서열분석기에 의해 어휘로 채택되는 경우에, 기호에 사용되는 알파벳은 다음 기호로 구성된다: {A, C, G, T, U, W, S, M, K, R, Y, B, D, H, V, N 또는 -}. 아미노산의 경우에 지원되는 기호는 {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}이다.

본 발명의 맥락에서 게놈 데이터세트는, 예를 들면, 살아있는 유기체의 게놈 데이터, 살아있는 유기체의 게놈 서열분석에 의해 생성된 하나 이상의 서열 및 메타데이터를 포함하는 게놈 데이터의 임의의 구조화된 세트로서 또는 원래의 서열분석 데이터에 대해 수행된 게놈 데이터 처리의 임의의 다른 단계에 의해 정의된다.

본 발명의 맥락에서 게놈 데이터세트 헤더는 본 발명의 개시내용에 따라 코딩된 데이터를 처리하는 인코딩 및 디코딩 장치에 의해 사용되는 전역 매개변수를 포함하는 데이터 구조로서 정의된다.

서열분석기에 의해 생성되는 뉴클레오티드 서열을 "리드"라고 부른다. 서열 리드는 수십 내지 수천에 이르는 다수의 뉴클레오티드로 구성될 수 있다. 일부 서열분석 기술은 하나의 리드는 DNA 가닥으로부터 기원하고 다른 하나는 다른 가닥으로부터 기원하는 "쌍"으로 이루어진 서열 리드를 생성한다. 쌍을 생성하는 서열분석 프로세스에서 다른 리드와 연관된 하나의 리드를 이의 "메이트(mate)"라고 한다.

본 개시내용 전반에 걸쳐, 참조 서열은 각각의 정수 좌표가 단일 뉴클레오티드에 연관되는 단일-차원 정수 좌표계와 연관된 뉴클레오티드의 서열이다. 좌표 값은 단지 0과 같거나 클 수 있다. 본 발명의 맥락에서 이러한 좌표계는 제로-기반(즉, 제1 뉴클레오티드는 좌표 0을 가지며 위치 0에 있다고 한다)이고 좌측에서 우측으로 선형적으로 증가한다.

서열 리드를 참조 서열 상에 매핑(mapping)하는 경우, 상기 참조 서열이 단일-차원 좌표계의 축으로서 사용되며 여기서 최좌측 위치가 위치 0으로 표시된다. 참조 서열에 매핑된, 서열 리드에서, 가장 작은 좌표 번호에 의해 식별되는 참조 서열 위치에 매핑된 리드를 구성하는 뉴클레오티드는 통상적으로 "최좌측" 뉴클레오티드라고 하는 반면, 가장 큰 좌표 번호에 의해 식별되는 참조 서열 위치에 매핑된 리드를 구성하는 뉴클레오티드는 통상적으로 "최우측" 뉴클레오티드라고 한다. 이것이 도 3에 예시되어 있다. 이러한 개시내용 전반에 걸쳐, 뉴클레오티드를 "염기"라고도 한다.

서열 리드가 참조 서열에 매핑될 경우, 최좌측 매핑된 염기의 좌표가 참조 서열 상의 리드의 매핑 위치를 나타낸다고 한다. 정렬된 리드에 존재하고 참조 서열에는 존재하지 않는 염기(삽입으로도 공지됨) 및 정렬 프로세스에 의해 보존되지만 참조 서열 상에 매핑되지 않은 염기(소프트 클립으로도 공지됨)는 매핑 위치를 갖지 않는다.

서열 리드가 지정된 매칭 규칙에 따라 사용된 참조 서열의 임의의 매핑된 위치에 매핑될 수 없는 경우, 비매핑된다고 한다.

서열 리드 중 중첩 영역을 찾아 더 긴 게놈 서열을 구축하는 프로세스를 조립이라고 부른다. 더 짧은 리드를 조합하여 구축된 더 긴 게놈 서열을 콘틱(contig)이라고 부른다. 조립 프로세스 동안 어떠한 콘틱도 구축하지 못하는 서열 리드를 비정렬된다고 한다.

본 발명의 개시내용 전반에 걸쳐 일부 공유된 특성에 따라 리드를 그룹화하는 프로세스가 클러스터링으로 정의된다. 동일한 특성을 공유하는 리드의 그룹을 클러스터라고 부른다. 이러한 개념의 개략도가 도 1에 제공되어 있다.

본 발명의 개시내용 전반에 걸쳐 동일한 클러스터에 속하는 서열 리드 간에 공유되는 특성을 클러스터 시그니처 또는 시그니처라고 부른다. 상이한 정도의 정확도를 갖는 시그니처를 포함하는 리드의 예가 도 2에 제공되어 있다. 시그니처는 2 내지 수 천 개의 뉴클레오티드 중의 임의의 갯수로 구성될 수 있으며 시그니처는 모든 클러스터에 대해 일정한 길이 또는 가변 길이를 가질 수 있다. 시그니처에 속할 수 있는 기호의 알파벳은 처리되는 서열 리드를 생성하기 위해 서열분석된 특정 게놈 샘플에 따라 좌우된다. 예로서, 제한은 아니지만, 다음의 알파벳이 사용될 수 있다:

· DNA의 경우

o {A, G, C, T, N}

o {A, G, C, T, R, Y, S, W, K, M, B, D, H, V, N, ., - } (IUPAC 표기법)

· RNA의 경우

o {A, G, C, U, N}

o {A, G, C, U, R, Y, S, W, K, M, B, D, H, V, N, ., - } (IUPAC 표기법)

· 아미노산의 경우

o {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}

클러스터 시그니처를 계산하는데 사용되는 알파벳의 타입은 본 개시내용에 기술된 게놈 데이터세트 헤더라고 불리는 데이터 구조에 의해 운반되는 매개변수 Alphabet_ID에 의해 식별된다. 동일한 게놈 데이터세트에 속하는 클러스터의 시그니처는 일정하거나 가변적인 길이일 수 있다. 게놈 데이터세트 헤더에 인코딩된 전역 매개변수는 시그니처 길이가 일정한지 가변적인지를 신호전달하는데 사용된다. 시그니처 길이가 일정하면 제2 전역 매개변수는 클러스터 시그니처의 기호의 길이를 나타낸다. 이 값은 가변 시그니처 길이의 경우 0이다.

참조 게놈은 하나 이상의 참조 서열에 의해 구성되며 종의 유전자 세트의 대표적인 예로서 과학자들에 의해 조립된다. 예를 들면 GRCh37, 게놈 레퍼런스 컨소시엄 인간 게놈(빌드 37)은 뉴욕 버팔로(Buffalo)로부터의 13명의 익명의 자원봉사자로부터 유도된다. 그러나, 참조 서열은 또한 구상된 합성 서열로 이루어질 수 있으며 그저 이들의 추가의 처리 측면에서 리드의 압축성을 향상시키도록 구성된다.

참조 상의 최소 좌표에 대한 염기 매핑을 갖는 리드 쌍을 구성하는 리드를 본 개시내용에서 "리드 1"이라고 하는 반면 이의 메이트를 "리드 2"라고 한다.

오늘날의 기술을 사용하는 서열분석기에 의해 쌍으로 생성된 두 개의 리드를 분리하는, 뉴클레오티드 (또는 염기)의 수로서 표현되는, 거리는 알려져 있지 않으며, 이것은 쌍을 구성하는 리드 둘 다를 참조 서열에 매핑시킴(즉, 적절한 매칭 기능의 최소화)으로써 결정된다.

다음 섹션에서 상세히 설명되는 바와 같이, 본 발명의 개시내용은 하나 이상의 참조 서열에 대한 이들의 매핑의 결과에 따라 서열 리드를 분류하는 방법을 정의한다:

· 미스매칭이 없는 참조 서열 상에 매핑하는 리드는 클래스 P에 속한다

· 미스매치로서 (기호 "N"으로 나타내어지는) 단지 알려지지 않은 염기를 갖는 참조 서열 상에 매핑하는 리드는 클래스 N에 속한다

· 정의된 역치 아래의 참조와 관련하여 다수의 치환을 갖는 참조 서열 상에 매핑하는 리드는 클래스 M에 속한다

· 정의된 역치 아래의 참조와 관련하여 다수의 치환, 결실, 삽입 또는 소프트 클립된 염기를 갖는 참조 서열 상에 매핑하는 리드는 클래스 I에 속한다

· 하나의 매핑된 리드(상기 네 가지 클래스 중의 어느 하나에 속함) 및 비매핑된 메이트를 갖는 리드 쌍은 클래스 HM에 속한다

· 허용되는 미스매치의 최대 수의 측면에서 설정된 제약에 따라 임의의 참조 서열 상에 매핑하지 않는 리드는 클래스 U에 속한다

액세스 유닛 (AU)은 비트 스트림 액세스 및 조작을 용이하게 하기 위해 게놈 정보 또는 관련 메타데이터의 코딩된 표현을 함유하는 논리 데이터 구조로서 정의된다. 이것은 본 개시내용에 기술된 발명을 구현하는 디코딩 장치에 의해 디코딩될 수 있는 가장 작은 데이터 조직이다. 액세스 유닛은 본 개시내용에 정의된 단지 하나의 데이터 클래스에 속하는 리드를 함유할 수 있다.

코딩된 정보의 유형에 따라, AU는 임의의 다른 AU와 관계없이 또는 다른 AU에 함유된 정보를 사용하여 디코딩될 수 있다.

클래스 U에 속하는 비매핑되거나 비정렬된 리드는 특정 유형의 액세스 유닛에 저장된 신택스 요소의 특정 서브-세트를 사용하여 인코딩된다.

액세스 유닛의 예가 도 10에 예시되어 있다. 액세스 유닛은 (다음 섹션에 설명되는) 인코딩된 디스크립터의 블록에 의해 구성된다. 네트워크를 통한 전송을 가능하게 하기 위해, 블록은 패킷으로 더욱 분해된다.

디스크립터는 코딩된 참조 서열, 서열 리드 및 연관된 매핑 정보를 재구성(즉, 디코딩)하는데 필요한 정보의 일부를 나타내는 신택스 요소이다. 여러 유형의 디스크립터가 다음을 표현하도록 정의된다:

· 참조 서열 상의 리드의 매핑 위치,

· 리드와 이의 메이트 간의 거리,

· 서열 리드의 길이,

· 참조 서열과 관련하여 정렬된 리드에서의 미스매치의 위치,

· 관련 위치에서 참조 서열과 관련된 미스매치의 유형,

· 매핑 절차에 의해 참조 서열 상에 매핑될 수 없고 "소프트 클립된" 염기로 분류되는 염기,

· 서열 리드 길이,

· SAM 사양에 의해 지정된 바와 같은 매핑 플래그,

· 매핑 절차에 의해 단일 리드 또는 리드 쌍과 관련된 다중 매핑 위치,

· 스플라이싱된 리드(즉, 덩어리로 분할될 때 참조 서열 상의 단일 위치 상에 매핑되는 단일 접속된 리드로서 매핑될 때보다 더 높은 매칭 정확도로 매핑 위치를 찾아내는 리드)의 존재의 식별,

· 다음과 같이 사용되는 특정 유형의 참조 서열:

° 캘리포니아 산타 크루즈 대학(예를 들어 hg19), 게놈 레퍼런스 컨소시엄(예를 들어 GRCh37)과 같은 컨소시엄에 의해 공개된 것과 같은 참조 게놈,

° 지정된 리드 세트 및 및 지정된 조립 규칙 세트를 사용하여 구축된 참조 서열,

· 이러한 변형된 참조 서열에 매핑된 서열 리드의 미스매치를 나타내는데 사용되는 디스크립터의 엔트로피를 감소시키는 목적으로 참조 서열에 적용되는 변형의 위치 및 유형,

· 지정된 정도의 매칭 정확도로 참조 서열의 임의의 위치에서 매핑될 수 없는 서열 리드의 표시,

· 지정된 정도의 매칭 정확도에 따라 조립 프로세스 동안 임의의 콘틱을 구축하도록 정렬될 수 없는 서열 리드의 표시,

· 전체 참조 서열 또는 이의 일부의 표시.

본 발명에 개시된 방법에 따르면, 참조 서열 또는 이의 일부, 서열 리드 및 연관된 정렬 정보는 위에 열거된 디스크립터의 서브-세트를 사용하여 코딩되며, 이들은 그후 각각의 디스크립터 특정 통계적 특성에 따라 다수의 엔트로피 코더를 사용하여 엔트로피 코딩된다. 동질한 통계적 특성을 갖는 디스크립터의 블록은 본 개시내용에 기술된 발명을 구현하는 장치에 의해 조작될 수 있는 하나 이상의 게놈 서열의 최소 코딩된 표현을 나타내는 액세스 단위로 구조화된다.

본 개시내용에 기술된 발명은 미가공 서열 리드, 비매핑된 서열 리드 및 비정렬된 서열 리드의 코딩된 표현을 함유하는 액세스 유닛을 인덱싱하는 방법을 정의한다.

매칭 규칙에 따른 서열 리드의 분류

서열분석기에 의해 생성된 서열 리드는 개시된 발명에 의해 하나 이상의 "기존의" 참조 서열에 대한 정렬의 매칭 결과에 따라 6개의 상이한 "클래스"로 분류된다.

참조 서열에 대하여 뉴클레오티드의 DNA 서열을 정렬할 때, 다음의 경우가 확인될 수 있다:

1. 참조 서열의 영역은 오류없이 서열 리드와 매칭하는 것으로 발견된다 (즉, 완전한 매핑). 이러한 뉴클레오티드의 서열을 "완전하게 일치하는 리드"라고 하거나 "클래스 P"로 나타낸다.

2. 참조 서열의 영역은 리드를 생성하는 서열분석기가 임의의 염기 (또는 뉴클레오티드)를 호출할 수 없었던 위치의 수에 의해서만 결정되는 미스매치의 유형 및 수를 갖는 서열 리드와 매칭하는 것으로 발견된다. 이러한 유형의 미스매치는 "N"으로 표시되며, 이 문자는 정의되지 않은 뉴클레오티드 염기를 나타내는데 사용된다. 당해 문서에서는 이러한 유형의 미스매치를 "n 유형" 미스매치라고 한다. 이러한 서열이 "클래스 N" 리드에 속한다. 일단 리드가 "클래스 N"에 속하는 것으로 분류되면 매칭 부정확성의 정도를 주어진 상한으로 제한하고 유효한 매칭으로 간주되는 것과 그렇지 않은 것 사이의 경계를 설정하는 것이 유용하다. 따라서, 클래스 N에 할당된 리드는 또한 리드가 포함할 수 있는 정의되지 않은 염기(즉, "N"으로 불리는 염기)의 최대 수를 정의하는 역치(MAXN)을 설정함으로써 제한된다. 이러한 분류는 압축된 데이터에 선택적 데이터 검색을 적용하는데 유용한 기준을 구성하는 상응하는 참조 서열을 참조할 때 클래스 N에 속하는 모든 리드가 공유하는 필요한 최소 매칭 정확도 (또는 최대 미스매치 정도)를 암시적으로 정의한다.

3. 참조 서열의 영역은 리드를 생성하는 서열분석기가 임의의 뉴클레오티드 염기, 존재한다면(즉, "n 유형" 미스매치)를 호출할 수 없었던 위치의 수 + 참조 서열에 존재하는 것과는 상이한 염기가 호출되었던 미스매치의 수에 의해 결정되는 미스매치의 유형 및 수를 갖는 서열 리드와 매칭하는 것으로 발견된다. "치환"으로 표시되는 이러한 유형의 미스매치는 단일 뉴클레오티드 변형(SNV) 또는 단일 뉴클레오티드 다형성(SNP)이라고도 불린다. 당해 문서에서는 이러한 유형의 미스매치를 "s 유형" 미스매치라고도 한다. 이때 서열 리드는 "M 미스매칭 리드"라고 하며 "클래스 M"에 할당된다. "클래스 N"의 경우에서와 같이, 또한 "클래스 M"에 속하는 모든 리드에 대해, 매칭 부정확성의 정도를 주어진 상한으로 제한하고 유효한 매칭으로 간주되는 것과 그렇지 않은 것 사이의 경계를 설정하는 것이 유용하다. 따라서, 클래스 M에 할당된 리드는 하나는, 존재한다면, "n 유형"의 미스매칭의 수 "n"에 대한 역치(MAXN)이고 다른 하나는 치환 "s"의 수에 대한 역치(MAXS)인 역치 세트를 정의함으로써 제한된다. 제3 제약은 숫자 "n" 및 "s" 둘 다의 임의의 함수, f(n,s)에 의해 정의된 역치이다. 이러한 제3 제약은 임의의 의미있는 선택적인 액세스 기준에 따라 매칭 부정확성의 상한을 갖는 클래스를 생성하는 것을 가능하게 한다. 예를 들어, 제한 없이, f(n,s)는 (n+s)1/2 또는 (n+s) 또는 "클래스 M"에 속하는 리드에 대해 허용되는 최대 매칭 부정확 수준으로 경계를 설정하는 임의의 선형 또는 비선형 표현일 수 있다. 이러한 경계는, 하나의 유형 또는 다른 유형에 적용된 단순 역치를 넘어서는 "n 유형" 미스매치와 "s 유형" 미스매치(치환)의 수의 임의의 가능한 조합으로 추가의 경계를 설정할 수 있기 때문에, 다양한 목적으로 서열 리드를 분석할 때 원하는 선택적 데이터 검색을 압축된 데이터에 적용하는데 매우 유용한 기준을 구성한다.

4. 제4 클래스는 "삽입", "결실"(인델로도 알려짐) 및 "클리핑" 중 어느 하나의 유형의 적어도 하나의 미스매치(mismatch), 플러스, 존재한다면, 클래스 N 또는 M에 속하는 임의의 미스매치 유형을 나타내는 서열분석 리드에 의해 구성된다. 이러한 서열을 "I 미스매칭 리드"라고 하며 "클래스 I"에 할당된다. 삽입은 참조 서열에 존재하지 않지만 리드 서열에 존재하는 하나 이상의 뉴클레오티드의 추가의 서열에 의해 구성된다. 당해 문서에서는 이러한 유형의 미스매치를 "i 유형" 미스매치라고 한다. 문헌에서 삽입된 서열이 서열의 에지에 있을 때 이를 "소프트 클립(soft clipped)"되었다고 한다 (즉, 뉴클레오티드는 참조 서열과 매칭하지 않지만 폐기되는 "하드 클립된(hard clipped)" 뉴클레오티드와는 반대로 정렬된 리드에서 유지된다). 당해 문서에서 이러한 유형의 미스매치를 "c 유형" 미스매치라고 한다. 뉴클레오티드를 유지하거나 폐지하는 것은 서열분석기에 의해 또는 다음의 정렬 스테이지에 의해 이들이 결정되기 때문에 리드를 수신하고 처리하는 본 발명에 개시된 리드의 분류기가 아니라 정렬기 스테이지에 의해 취해지는 결정이다. 결실은 참조와 관련하여 리드에 있는 "구멍"(누락된 뉴클레오티드)이다. 당해 문서에서 이러한 유형의 미스매치를 "d 유형" 미스매치라고 한다. 클래스 "N" 및 "M"의 경우에서와 같이 매칭 부정확성에 대한 제한을 정의하는 것이 가능하고 적절하다. "클래스 I"에 대한 제약 세트의 정의는 "클래스 M"에 대해 사용된 동일한 원칙을 기반으로 하며 표 1의 마지막 테이블 행에 보고되어 있다. 클래스 I 데이터에 대해 허용 가능한 각 유형의 미스매치에 대한 역치 이외에, 추가의 제약이 미스매치 "n", "s", "d", "i" 및 "c"의 수의 임의의 함수, w(n,s,d,i,c)에 의해 결정되는 역치에 의해 정의된다. 이러한 추가적인 제약은 의미있는 사용자 정의된 선택적 액세스 기준에 따라 매칭 부정확성의 상한을 갖는 클래스를 생성할 수 있게 한다. 예를 들어, 제한 없이, w(n,s,d,i,c)는 (n+s+d+i+c)1/5 또는 (n+s+d+i+c) 또는 "클래스 I"에 속하는 리드에 대해 허용되는 최대 매칭 부정확 수준으로 경계를 설정하는 임의의 선형 또는 비선형 표현일 수 있다. 이러한 경계는, 각 유형의 허용가능한 미스매치에 적용된 단순 역치를 넘어서는 "클래스 I"에서 허용가능한 미스매치의 수의 임의의 가능한 조합으로 추가의 경계를 설정할 수 있기 때문에, 다양한 목적으로 서열 리드를 분석할 때 원하는 선택적 데이터 검색을 압축된 데이터에 적용하는데 매우 유용한 기준을 구성한다.

5. 제5 클래스는 참조 서열을 참조할 때 각 데이터 클래스에 대해 유효한 것으로 간주되는 매핑을 찾지 못하는(즉, 표 1에 명시된 바와 같은 최대 매칭 부정확도로 상한을 정의하는 매칭 규칙 세트를 만족시키지 못하는) 모든 리드를 포함한다. 이러한 서열은 참조 서열을 참조할 때 "비매핑된(Unmapped)"이라고 하며 "클래스 U"에 속하는 것으로 분류된다.

매칭 규칙에 따른 리드 쌍의 분류

이전 섹션에 명시된 분류는 단일 서열 리드에 관한 것이다. 두 개의 리드가 가변 길이의 알려지지 않은 서열에 의해 분리되어 있는는 것으로 알려진 쌍으로 리드를 생성하는 서열분석 기술(즉, 일루미나 인크 (Illumina Inc.)의 경우에, 전체 쌍의 분류를 단일 데이터 클래스로 간주하는 것이 적절하다. 다른 것과 결합된 리드를 이의 "메이트"라고 한다.

쌍을 이룬 리드 둘 다가 동일한 클래스에 속하면 전체 쌍의 클래스에 대한 할당이 명확하다: 전체 쌍은 임의의 클래스(즉, P, N, M, I, U)에 대해 동일한 클래스에 할당된다. 두 개의 리드가 다른 클래스에 속하지만 둘 중 어느 것도 "클래스 U"에 속하지 않는 경우, 전체 쌍은 다음 표현식에 따라 정의된 가장 높은 우선순위를 가진 클래스에 할당된다:

P < N < M < I

여기서 "클래스 P"는 가장 낮은 우선순위를 갖고 "클래스 I"는 가장 높은 우선순위를 갖는다.

리드 중 하나만 "클래스 U"에 속하고 이의 메이트는 클래스 P, N, M, I 중 하나에 속하는 경우 제6 클래스는 "절반 매핑(Half Mapped)"을 나타내는 "클래스 HM"으로 정의된다.

리드의 이러한 특정 클래스의 정의는 이것이 참조 게놈에 존재하는 갭 또는 알려지지 않은 영역(거의 알려지지 않은 또는 알려지지 않은 영역으로도 공지됨)을 결정하고자 사용된다는 사실에 의해 동기 부여된다. 이러한 영역은 알려진 영역에 매핑될 수 있는 쌍 리드를 사용하여 에지에서 쌍을 매핑함으로써 재구성된다. 그후, 비매핑된 메이트는 도 15에 도시된 바와 같이 알려지지 않은 영역의 소위 "콘틱(contig)"을 구축하는데 사용된다. 따라서 오직 이러한 유형의 리드 쌍에 대한 선택적 액세스를 제공하는 것은 관련 계산 부담을 크게 줄여, 전부 조사하기 위해서는 최첨단 솔루션을 사용하는 것이 필요한 대용량 데이터 세트에서 비롯된 데이터를 훨씬 효율적으로 처리할 수 있게 한다.

아래 표는 각 리드가 속한 데이터의 클래스를 정의하기 위해 리드에 적용되는 매칭 규칙을 요약한다. 규칙은 미스매치 유형의 존재 또는 부재(n, s, d, i 및 c 유형 미스매치) 측면에서 표의 처음 5개 열에 정의된다. 여섯 번째 열은 각 미스매치 유형에 대한 최대 역치 및 가능한 불일치 유형의 함수 f(n,s) 및 w(n,s,d,i,c)의 측면에서 규칙을 제공한다.

게놈 서열 리드 및 참조 서열의 압축된 표현

게놈 서열 리드 압축에 대한 효율적인 접근법의 공통 요소는 참조 서열에 대한 서열 데이타의 상관관계의 이용이다. 인간 개체군의 체세포 분포가 극단적으로 다양하더라도, 사람마다 다른 뉴클레오티드 수의 실제 부분은 전체 게놈을 구성하는 뉴클레오티드의 총 수의 약 0.1%에 불과하다. 따라서, 각 개체를 특성화하는 특정 게놈 정보는 전체 게놈에 의해 운반되는 전체 정보와 관련하여 매우 제한적이다. 기존의 참조 게놈이, 이전의 서열분석을 위해 또는 공개된 "평균" 컨센서스 참조로서, 이용 가능한 경우, 실제 정보를 인코딩하는 가장 효율적인 방법은 참조 게놈과 관련하여 차이점만 식별하고 인코딩하는 것이다.

미가공 서열 리드를 FASTQ 데이터의 형태로 그렇게 하기 위해, 이용 가능한 참조 게놈에 매핑하는 예비 전처리 단계가 수행된다. 참조 게놈이 이용 가능하지 않거나 특정 참조의 사용에 의해 도입된 편향성이 바람직하지 않은 경우, 이용 가능한 서열 리드를 보다 긴 서열로 조립함으로써 새로운 참조 서열을 구축하는 것이 가능한 대안이다.

서열 리드가 기존의 또는 작제된 참조 서열과 관련하여 매핑될 때, 각 서열 리드는 본 개시내용에 "리드 디스크립터" 또는 간단히 "디스크립터"로 표시된 다수의 요소에 의해 충분히 나타내어질 수 있다.

예를 들면, 참조 서열의 세그먼트와 완벽하게 일치하는 서열 리드의 경우, 서열 리드를 나타내는데 필요한 디스크립터의 유일한 서브-세트는 참조 상의 매핑 위치의 좌표(통상적으로 서열 리드의 최좌측 염기의 매핑 위치의 좌표), 서열 리드 자체의 길이 및 리드가 참조 서열 가닥에 대해 직접 또는 역 DNA 가닥 상에 매핑되는지를 나타내는 정보로 구성된다.

서열 리드의 모든 염기가 참조 서열의 모든 염기와 일치하는 임의의 매핑 위치를 찾을 수 없는 경우, 최소한의 수의 미스매치를 갖는 매핑(또는 매핑들)은 유지된다. 이러한 경우에, 디스크립터의 다른 서브-세트가 최소한 또는 거의 최소한에 가까운 수의 미스매치를 갖는 매핑 위치에 대응하여 발생할 수 있는 치환, 삽입, 결실 및 클리핑된 염기를 또한 표현하기 위해 요구된다. 이러한 디스크립터의 서브-세트로 서열 리드는 디스크립터에 의해 운반된 정보와 참조 서열에 의해 운반된 정보를 사용하여 재구성될 수 있다.

매핑 프로세스는 다음과 같은 다른 유형의 정보를 또한 생성할 수 있다: 다수의 가능한 매핑 위치 및 관련 점수, 매핑 품질, 스플라이싱된 리드의 사양, 쌍에 속하는 리드의 두 개의 상이한 참조(일반적으로 염색체) 상의 매핑, 서열분석 프로세스의 특징(예를 들어 PCR 또는 광학 복제). 이러한 모든 정보는 각 서브-세트를 확장하는 특정 추가 디스크립터를 필요로 하며, 각 서브-세트는 디스크립터의 각 서브-세트에 적절한 엔트로피 코딩 알고리즘을 적용함으로써 압축된다.

게놈 서열분석 프로세스는 다음으로 인해 리드 복제물(즉, 동일한 게놈 서열의 둘 이상의 정확한 카피)을 생성할 수 있다:

· 게놈 서열분석 프로세스의 화학적 성질(중합 효소 연쇄 반응 복제물),

· 데이터 획득 프로세스(광학 복제물). 리드의 쌍이 둘 다 동일한 타일에 있고 리드들 사이의 거리가 실험에 따라 주어진 구성 매개변수보다 작은 경우 리드를 광학 복제물이라고 부른다.

따라서 각각의 리드 또는 리드 쌍은 매핑 프로세스의 결과에 따라 디스크립터의 특정 서브-세트에 의해 고유하게 나타내어질 수 있다.

SAM 및 CRAM과 같은 일반적으로 사용되는 접근법은 이들의 매핑 정보를 나타내기 위해 필요한 디스크립터의 특정 서브-세트에 따라 리드 또는 리드 쌍을 인코딩하지 않는다. SAM 및 CRAM은 이들이 매핑되는 참조 서열과 관련하여 이들이 함유하는 미스매치의 수 및 유형에 따라 서열 리드를 데이터 클래스로 분류하지 않는다. 게다가, 이러한 포맷은 서열 리드를 단일 데이터 클래스에 속하는 서열 리드만을 압축된 형태로 함유하는 액세스 유닛으로 별도로 코딩하지 않는다. 쌍으로 생성된 서열 리드의 경우, 최첨단 접근법은 참조 서열과 관련하여 이들의 매핑 정확도에 따라 클래스로 분할되는 단일 요소로서 이들을 코딩하지 않는다. 이러한 최첨단 접근법은 다음과 같은 한계 및 단점을 특징으로 한다:

1. 서열 리드를 참조 서열에 비한 매핑 결과에 따라 별도의 데이터 클래스로 분류하지도 디스크립터의 고유한 수퍼-세트를 사용하지도 않고서 리드 또는 리드 쌍을 코딩하는 것은 불량한 압축 성능을 산출하는 비효율적인 접근법이다.

2. 별도의 서열 리드로서의 리드 쌍의 코딩은 동일한 정보를 운반하는 여러 개의 디스크립터의 복제를 필요로 하며, 따라서 비효율적이며 불량한 압축 성능을 산출한다.

3. 리드 쌍을 재구성하는데 필요한 정보의 검색은, 프로세스는 차세대 서열분석(NGS) 기술의 경우에서와 같이 매우 클 수 있는 가능한 모든 데이터세트에서 억지-기법(brute-force) 순차 탐색을 필요하기 때문에, 복잡하고 비효율적이다.

4. 특정 게놈 영역에 매핑된 리드 또는 리드 쌍에 대한 선택적 액세스는 모든 리드 또는 리드 쌍이 검색되도록 보장하기 위해 전체 데이터세트를 검색하는 것을 필요로 한다.

디스크립터의 단일 서브-세트에 의해 리드 쌍을 코딩할 경우, 다음의 기술적 이점이 당업계의 숙련가에게 명백하다:

1. 명확하게 중복된 리드 둘 다에 공통인 정보는 쌍을 단일 요소로서 코딩함으로써 복제되지 않는다(예를 들어 리드 쌍 식별자, 매핑 거리, 매핑 참조 식별자, SAM 파일 포맷으로 특정 플래그에 의해 현재 인코딩된 다양한 매핑 품질 정보)

2. 상호 쌍 정보(즉, 어떠한 리드가 가까이의 임의의 리드의 메이트인지를 제공하는 정보)의 검색은 직접적이고 임의의 추가의 처리를 필요로 하지 않는다. 반대로, 최첨단 접근법에서는 데이터의 전체 볼륨을 파싱할 필요가 있을 수 있다.

서열분석 데이터의 특정 부분에 대한 효율적인 선택적 액세스를 가능하게 하고 디지털 데이터 네트워크에서 이들을 전송할 수 있도록 하기 위해, 참조에 정렬된 서열 리드를 나타내는데 사용되는 디스크립터의 세트는 액세스 유닛(AU)이라고 불리는 논리적으로 분리된 독립적인 데이터 블록으로 구성된다. 각 액세스 유닛은 단일 데이터 클래스의 압축된 표현만을 포함하며, 다른 액세스 유닛과 관계없이 또는 매핑에 사용되는 참조 서열 영역의 코딩된 표현을 운반하는 액세스 유닛만을 사용하여 디코딩될 수 있다. 이것은 선택적 액세스 및 비순차적 전송 기능을 가능하게 한다.

압축 효율을 증가시키기 위해, 본 발명은 동일한 참조 서열 상에 매핑된 쌍 둘 다를 갖는 각각의 리드 쌍에 대해 "매핑 참조 식별자" 디스크립터를 지정할 필요를 없앤다. 각 액세스 유닛은 동일한 참조에 매핑되는 리드 또는 쌍만 포함할 수 있다. 이러한 솔루션을 사용하면 참조 서열 식별자를 나타내는 디스크립터는 각 액세스 유닛 또는 액세스 유닛의 세트당 한 번만 인코딩될 필요가 있다 (SAM/BAM 포맷에서 현재 수행되는 바와 같이 각 리드에 대해 반복되지 않음).

위에 표현된 규칙의 유일한 예외는 다른 참조 서열(예를 들어 염색체)에 매핑된 두 개의 리드를 갖는 리드 쌍의 경우이다. 이 경우 쌍은 분할되고 두 개의 리드는 두 개의 별도의 게놈 레코드로서 코딩되며 각각의 인코딩된 리드는 이의 메이트가 매핑되는 참조 서열의 식별자를 포함한다.

당업계의 숙련가는 동질의 통계적 특성을 갖는 요소들의 그룹들로 정보를 분류하는 것이 데이터의 이질적 세트에 적용되는 범용 압축기(예를 들어 LZ 타입 알고리즘)의 사용에 대해 보다 우수한 압축 성능을 제공한다는 것을 알고 있다. 결과적으로, 디스크립터의 특정 서브-세트에 의해 쌍으로 게놈 서열 리드를 인코딩할 때, 디스크립터의 각각의 별도의 서브-세트를 특징지우는 보다 낮은 엔트로피 및 리드 쌍을 재구성하고 검색할 때의 보다 높은 가공 효율 덕분에 더 높은 압축이 달성된다.

게놈 서열 리드의 클러스터링

본 개시내용에 기술된 발명은 주어진 매칭 제약 내에서 뉴클레오티드의 공통 서브-서열(시그니처)을 공유하는 리드의 그룹 - 또는 "클러스터" -를 생성하는 단계를 포함한다. 주어진 클러스터에 속하는 리드는 정확하고 완전한 시그니처를 함유하거나 정의된 역치 이하의 다수의 미스매치(치환, 삽입 또는 결실)를 갖는다. 상이한 정도의 정확도로 시그니처를 공유하는 리드의 예가 도 2에 제공되어 있다. 역치의 예는 다음을 포함한다:

· 임의 유형의 미스매치의 총 수,

· 각 미스매치 유형에 상이한 가중치를 할당한 다음 각 리드에서 모든 미스매치의 가중치를 합산함으로써 수득된 총 점수,

· 치환, 삽입, 결실 및 클립된 염기의 발생의 가중 합.

위에 기술된 리드의 각 클러스터는 하나 이상의 액세스 유닛에 코딩된다. 따라서, 각 액세스 유닛은 하나의 클러스터 시그니처와 연관된다.

본 발명의 개시내용 전반에 걸쳐 액세스 유닛에 코딩된 클러스터와 연관된 클러스터 시그니처를 "액세스 유닛 시그니처"라고도 한다.

코딩상의 이유로, 둘 이상의 액세스 유닛은 예를 들어, AU당 코딩된 리드의 최대 수에 대해 제한이 설정된 경우 동일한 시그니처를 공유할 수 있다; 즉, 클러스터는 하나 이상의 액세스 유닛으로 코딩될 수 있다.

시그니처 인코딩

본 발명의 개시내용에 따르면, 일단 모든 게놈 시퀀스가 클러스터에 포함되면, 시그니처는 하나 이상의 N 비트 정수의 서열로서 인코딩된다. 시그니처는 다음 단계에 따라 하나 이상의 N 비트 정수로서 인코딩된다:

· 채택된 특정 클러스터링 알고리즘에 따르면, 클러스터 시그니처는 가변적이거나 일정한 길이일 수 있다. 길이가 일정하면, 일정한 시그니처 길이를 신호전달하는 전역 매개변수가 그에 따라 설정되고 길이는 게놈 데이터세트 헤더에 저장된다. 그렇지 않으면 가변 시그니처 길이를 신호전달하는 전역 매개변수가 그에 따라 설정되고 길이는 게놈 데이터세트 헤더에서 0으로 설정된다.

· 지원되는 알파벳의 각 기호는 다음과 같은 길이의 2진 표현과 고유하게 연관된다.

o 일정한 시그니처 길이의 경우에 M = ceil(log₂(지원되는 알파벳의 기수(cardinality))

o 불변 시그니처 길이의 경우에 M = ceil(log₂(지원되는 알파벳의 기수) + 1)

여기서 ceil은 인수보다 크거나 같은 최소 정수를 반환하는 연산이다.

· 가변 시그니처 길이의 경우, 비트의 하나의 서열은 코딩된 시그니처의 끝을 신호전달하는데 사용되는 종결자(terminator)라고 불리는 특수 기호를 나타내기 위해 예약된다.

· 본 개시내용에서 S_L이라고 하는 일정한 시그니처 길이의 경우

o M x S _L <= N이라면 시그니처에서 연속 기호의 2진 표현은 M x S _L < N인 경우 최상위 비트를 가능하게는 0으로 패딩하는 단일 비트열로 연결된다. N = 32 및 4개의 기호 알파벳에 대해 예가 도 3에 제공되어 있다.

o M x S _L > N이라면 시그니처에서 연속 기호의 2진 표현은 b _s 가 N의 정확한 제수(약수로도 알려짐)가 아닌 경우 각 비트열의 최상위 비트를 가능하게는 0으로 패딩하는 둘 이상의 비트열로 연결된다. N = 8 및 4개의 기호 알파벳에 대해 예가 도 4에 제공되어 있다.

· 본 개시내용에서 i^th 시그니처에 대해 S_Li라고 하는 가변 시그니처 길이의 경우

o M x S _Li <= N이라면 시그니처에서 연속 기호의 2진 표현은 단일 비트열로 연결된다. 모든 코딩된 기호가 연결된 후 비트열은 최상위 비트 위치에 부가된 종결자 기호로 종결되며 필요한 경우 나머지 최상위 비트는 0으로 패딩된다. N = 32 및 4개의 기호 알파벳에 대해 예가 도 5에 제공되어 있다.

o M x S _Li > N이라면 시그니처에서 연속 기호의 2진 표현은 b _s 가 N의 정확한 제수(약수로도 알려짐)가 아닌 경우 각 비트열의 최상위 비트를 가능하게는 0으로 패딩하는 둘 이상의 비트열로 연결된다. 마지막 비트열은 종결자 기호로 종결되며 추가로 최상위 비트 위치에서 0으로 패딩된다. N = 8 및 4개의 기호 알파벳에 대해 예가 도 6에 제공되어 있다.

효율적인 선택적 액세스를 위한 압축된 게놈 데이터 인덱싱

정렬된 데이터의 특정 영역에 대한 선택적 액세스를 지원하기 위해, 본 발명의 개시내용은 두 가지 데이터 구조를 정의한다: 전역 매개변수를 운반하는 게놈 데이터세트 헤더 및 인코딩 및 디코딩 프로세스 동안 사용되는 마스터 인덱스 테이블(MIT)이라고 불리는 인덱싱 도구. 게놈 데이터세트 헤더의 신택스는 표 2에 제공되고 마스터 인덱스 테이블의 신택스는 표 3에 제공된다. 본 발명의 개시내용은 MIT 및 게놈 데이터세트 헤더에 포함된 요소들로의 미가공, 비매핑 및 비정렬된 리드 인덱싱을 지원하는 방법을 정의한다.

게놈 데이터세트 헤더

게놈 데이터세트 헤더는 인코딩된 게놈 정보를 조작하기 위해 인코더 및 디코더에 의해 사용되는 전역 매개변수를 운반하는 데이터 구조이다. 게놈 데이터세트 헤더의 각 요소들의 성분 및 의미가 아래 표 2에 열거되어 있다.

본 발명에 개시된 인덱싱 메카니즘과 관련된 전역 매개변수는 표 2에 보고된 바와 같이 게놈 데이터세트 헤더에서 코딩된다. 이들은 다음을 포함한다:

· 인코딩된 시그니처의 각 정수 값을 나타내는데 사용되는 비트의 수. 이것은 표 2에서 U_signature_size로 나타내어지고;

· 미가공, 비매핑 및 비정렬된 리드가 분할되는 클러스터 및 연관된 시그니처의 수. 이것은 표 2에서 U_clusters_num으로 나타내어지며;

· 시그니처가 뉴클레오티드의 측면에서 일정한 또는 가변적인 길이를 갖는지를 나타내는 플래그. 이것은 표 2에서 U_signature_constant_length로 나타내어지고;

· 일정한 시그니처 길이의 경우에서의 시그니처 길이. 이것은 표 2에서 U_signature_length로 나타내어진다.

마스터 인덱스 테이블

마스터 인덱스 테이블(MIT)이라고 불리는 인덱싱 도구가 본 발명에 개시된다.

마스터 인덱스 테이블(MIT)은 다음을 포함하는 다차원 배열을 기반으로 하는 데이터 구조이다:

· 참조 서열과 관련하여, 상이한 디스크립터 스트림으로부터의 블록의 세트로서의, 액세스 유닛에 포함된 모든 리드 또는 리드 쌍의 일차 정렬 중 최좌측 매칭 염기의, 뉴클레오티드의 수로서의, 위치. 이것은 표 3에 Start_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID]로 나타내어진다.

· 참조 서열과 관련하여, 상이한 디스크립터 스트림으로부터의 블록의 세트로서의, 액세스 유닛에 포함된 모든 리드 또는 리드 쌍의 일차 정렬 중 최우측 매칭 염기의, 뉴클레오티드의 수로서의, 위치. 이것은 표 3에 End_AU_Ref_Position[Sequence_ID][Class_ID][AU_ID]로 나타내어진다.

각 참조 서열에 대해 인코딩된 각 클래스의 각 AU를 구성하는 디스크립터의 각 코딩된 블록의 첫 번째 바이트의 바이트 오프셋. 오프셋은 데이터세트 페이로드(0-기반)의 첫 번째 바이트에 대해 계산된다. 블록이 비어 있고 (1) Block_Header_Flag가 설정되면 이것은 0xFFFFFFFF와 같다. 블록이 비어 있고 (2) Block_Header_Flag가 설정되지 않은 경우, 이것은 디스크립터 스트림의 다음 블록의 Block_Byte_Offset 값 또는, 디스크립터 스트림의 마지막 블록의 경우, 디스크립터 스트림 페이로드와 같다. 이것은 표 3에 Block_Byte_Offset[Sequence_ID][Class_ID][AU_ID][Descriptor_ID]로 나타내어진다.

· 전역 구성 매개변수에 의해 신호전달되는, 사용된 코딩 방법에 따라, 두 개의 다른 정보 블럭:

o 각 액세스 유닛이 데이터의 연속 블록으로서 저장 매체에 저장되는 경우 바이트 단위의 각 액세스 유닛의 크기, 또는

o 동일한 유형의 모든 디스크립터가 인코딩되어 데이터의 연속 블록으로서 저장 매체에 저장된 경우 인코딩된 디스크립터의 각 블록의 크기.

MIT의 마지막 섹션은 디스크립터의 각 코딩된 블록 앞에 추가된 헤더의 존재에 따라 사용되는 두 개의 대체 섹션을 포함한다. 블록 헤더가 존재한다면 (Block_Header_Flag가 설정된 경우) MIT는 각 디스크립터 스트림의 바이트 단위의 크기를 포함한다. 블록 헤더가 존재하지 않으면 (Block_Header_Flag가 설정되지 않은 경우) MIT는 각 액세스 유닛의 바이트 단위의 크기를 포함한다.

두 코딩 방법 간의 대안은 표 3에서 Block_Header_Flag라고 불리는 플래그에 의해 신호전달된다.

미가공, 비매핑 및 비정렬된 리드를 위한 인덱싱 도구

본 발명의 개시내용은 표 3에 보고된 마스터 인덱스 테이블에 포함된 미가공, 비매핑 및 비정렬된 서열 리드(클래스 U)에 대한 인덱싱 메커니즘을 기술한다. 상기 인덱싱 메커니즘은 다음을 포함한다:

· 위에 기술된 바와 같이 N 비트 정수로서 인코딩된 시그니처. 이것은 표 3에서 U_Cluster[Cluster_ID][0]로 나타내어진다.

· 제1 벡터의 각 시그니처에 상응하는 리드의 인코딩된 클러스터의 저장 매체 상의 물리적 위치에 대한 포인터. 이것은 표 3에서 U_Cluster[Cluster_ID][1]로 나타내어진다.

이러한 두 벡터는 도 7에 열거된 MIT의 일부이다.

이 솔루션의 장점은 인코딩된 데이터(액세스 유닛)를 디코딩할 필요없이 신속한 패턴 매칭을 가능하게 하기 때문에 당업계의 숙련가에게 명백하다. 패턴 매칭의 입상도는 클러스터 시그니처의 길이를 수정함으로써 조정할 수 있다. 짧은 시그니처는 더 큰 클러스터를 생성하고 패턴에 대한 대략적인 검색을 가능하게 하는 반면, 더 긴 시그니처는 더 많은 수의 더 작은 클러스터 및 더 정밀한 패턴 검색을 생성할 것이다.

클러스터 시그니처 디코딩

디코딩 장치가 본 발명의 개시내용에 기술된 바와 같이 인코딩된 시그니처를 디코딩해야 하는 경우, 다음 단계들이 필요하다:

· 다음과 관련된 게놈 데이터세트 헤드의 전역 매개변수를 판독한다

o 미가공, 비매핑 및 비정렬된 리드의 클러스터의 수, U_clusters_ num

o 모든 클러스터가 뉴클레오티드에서 동일한 길이를 갖는 시그니처를 갖는지를 나타내는 플래그, U_signature_constant_length

o 인코딩된 시그니처를 나타내는 각 정수마다 사용되는 비트의 수, U_signature_size

o 일정한 길이의 경우, 각 시그니처의 뉴클레오티드의 길이, U_signature_length

o 0 ≤ Cluster_ID < U_clusters_ num인 U_Cluster라고 하는 마스터 인덱스 테이블의 이차원 벡터의 각 U_Cluster[Cluster_ID][0] 요소는 U_signature_size 비트 정수의 서열로서 디코딩된다

· 일정한 시그니처 길이의 경우, 판독되는 정수의 수는 다음으로서 알려져 있다

여기서 ceil 함수는 인수보다 크거나 같은 최소 정수를 반환한다. 일정 길이 시그니처 디코딩은 도 8에 열거되어 있다.

· 가변 시그니처 길이의 경우, 디코더는 주어진 시그니처에 대한 정수 판독을 중지하기 위해 2진 표현으로 종결자 기호를 포함하는 첫 번째 정수를 탐지해야 한다. 예가 도 9에 제공되어 있다.

· 0 ≤ Cluster_ID < U_clusters_num인 U_Cluster라고 하는 마스터 인덱스 테이블의 2차원 벡터의 각 U_Cluster [Cluster_ID][1] 요소는 상응하는 시그니처에 연관된 클러스터에 속하는 서열 리드를 인코딩하는 디스크립터의 각 블록의 액세스 유닛의 첫 번째 바이트의 바이트 오프셋을 나타내는 부호없는 정수의 벡터를 포함한다. 이러한 오프셋은 데이터세트 페이로드(Dataset Payload)(0-기반)의 첫 번째 바이트를 기준으로 표현된다.

인코딩 장치

도 11은 본 발명의 원리에 따른 인코딩 장치(1115)를 도시한다. 인코딩 장치(1115)는 예를 들면 게놈 서열분석 장치(110)에 의해 생성된 미가공 서열 데이터(111)를 입력으로서 수신한다. 게놈 서열분석 장치(110)는 Illumina HiSeq 2500, Thermo-Fisher Ion Torrent 장치 또는 Oxford Nanopore MinION과 같이 당업계에 공지되어 있다. 미가공 서열 데이터(111)는 리드 클러스터링 유닛(112)에 공급되고, 이것은 클러스터 시그니처라고 불리는 뉴클레오티드의 공통 서열 또는 서브서열을 공유하는 리드를 클러스터링함으로써 인코딩을 위한 서열을 준비한다. 클러스터링된 서열 리드는 디스크립터 인코더(115)에 의해 디스크립터라고 하는 신택스 요소의 측면에서 표현된다. 클러스터링 유닛(112)에 의해 생성된 클러스터 시그니처(114)는 시그니처 인코딩 유닛(116)에 의해 인코딩된다. 그후 디스크립터 인코더(115)에 의해 생성된 게놈 디스크립터(118)는 엔트로피 코딩되고 게놈 액세스 유닛(1111)으로서 구조화된다. 2진화된 시그니처(117) 및 전역 매개변수 게놈 데이터세트 헤더 및 마스터 인덱스 테이블(1112)은 게놈 데이터세트 헤더 및 MIT 생성기(119)에 의해 생성된다. 그후 게놈 액세스 유닛(1111), 게놈 데이터세트 헤더 및 마스터 인덱스 테이블은 다중화 비트스트림(1114)에서 멀티플렉싱된다.

인코딩 장치(1115)는 도 12에 도시된 더 큰 인코딩 장치(1210)의 일부일 수 있으며, 여기서는 비매핑된 리드가 인코딩되어 인코딩된 정렬된 리드로 멀티플렉싱된다. 도 12는 본 발명의 원리에 따른 인코딩 장치(1210)를 도시한다. 인코딩 장치(1210)는 예를 들면 게놈 서열분석 장치(120)에 의해 생성된 미가공 서열 데이터(121)를 입력으로서 수신한다. 게놈 서열분석 장치(120)는 Illumina HiSeq 2500, Thermo-Fisher Ion Torrent 장치 또는 Oxford Nanopore MinION과 같이 당업계에 공지되어 있다. 미가공 서열 데이터(121)가 정렬기 유닛(122)에 공급되고, 이것이 리드를 참조 서열(1220)에 정렬시킴으로써 인코딩을 위한 서열을 준비한다. 정렬 유닛(122)에 의해 정렬될 수 없는 서열 리드는 비매핑된 서열 리드(클래스 U 데이터)(1217)로서 분류되어 비매핑된 서열 리드 인코더(1115)에 공급된다. 비매핑된 서열 리드 인코더(1115)의 내부 아키텍처 및 내부 동작은 이전 단락에서 기술되었으며 이것이 도 11에 도시되어 있다. 정렬 유닛(122)에 의해 생성된 정렬된 서열은 그후 데이터 분류 모듈(124)에 의해 분류된다. 데이터 클래스(128)는 그후 디스크립터 인코더(125-127)에 공급된다. 그후, 게놈 디스크립터 스트림(1211)은 디스크립터 스트림에 의해 운반되는 데이터 또는 메타데이터의 통계적 특성에 따라 디스크립터를 인코딩하는 산술 인코더(1212-1214)에 공급된다. 결과는 멀티플렉싱 유닛(1216)에 의해 단일 비트스트림에 멀티플렉싱된 하나 이상의 게놈 스트림(1215)이다.

디코딩 장치

도 13은 본 개시내용의 원리에 따른 디코딩 장치(1313)를 도시한다. 디멀티플렉싱 유닛(132)은 네트워크 또는 저장 소자로부터 멀티플렉싱된 비트스트림(131)을 수신하고 게놈 데이터세트 헤더 및 마스터 인덱스 테이블(133) 및 게놈 액세스 유닛(134)을 추출한다. 디코딩 장치(1313)는 그후에 게놈 데이터 세트 헤더 및 MIT 파서(135) 및 엔트로피 디코더(136)에 각각 공급되는 게놈 데이터세트 헤더 및 마스터 인덱스 테이블(133) 및 게놈 액세스 유닛(134)을 수신한다. 게놈 데이터세트 및 MIT 파서(135)에 의해 추출된 인코딩된 클러스터 시그너처(137)는 그후 시그니처 디코더(139)에 의해 디코딩되어 클러스터 시그니처(1311)를 생성한다. 게놈 디스크립터 스트림(138)은 디스크립터 디코더(1310)에 공급되어 디스크립터를 미가공, 비매핑 및 비정렬된 서열 리드(1312)로 더욱 디코딩한다.

도 14는 위에 기술되고 도 13에 도시된 클래스 U 디코더가 어떻게 게놈 서열 리드의 더 큰 디코더의 일부가 될 수 있는지를 보여준다. 도 14는 본 개시내용의 원리에 따른 디코딩 장치(148)를 도시한다. 스트림 디멀티플렉서(140)는 멀티플렉싱된 게놈 비트스트림(1410)을 네트워크 또는 저장 요소로부터 수신하여 별도의 게놈 비트스트림(141)을 생성하며, 이것은 그후 엔트로피 디코더(142-144)에 공급되어 게놈 디스크립터 스트림(145)을 생성한다. 미가공, 비매핑 및 비정렬된 서열 리드(클래스 U)(1412)을 인코딩하는 액세스 유닛을 포함하는 비트스트림은 상기 기술되고 도 13에 도시된 미가공, 비매핑 및 비정렬된 서열 리드(1313)를 포함하는 액세스 유닛의 디코더에 공급된다. 추출된 게놈 디스크립터 스트림(145)은 디스크립터 디코더(146-147)에 공급되어 디스크립터를 게놈 데이터의 클래스로 더욱 디코딩한다. 클래스 디코더(149)는 게놈 디스크립터(1411)를 추가로 처리하고 결과를 병합하여 비압축 정렬된 서열 리드를 생성한다.

클래스 디코더(149)는 하나 이상의 게놈에 의해 운반되는 원래의 참조 서열에 대한 정보를 이용함으로써 원래의 게놈 서열을 재구성할 수 있다. 참조 서열이 게놈 스트림에 의해 전송되지 않는 경우, 이들은 디코딩 측에서 이용 가능해야 하고 클래스 디코더에 의해 액세스 가능해야 한다.

본원에서 개시된 본 발명의 기술들은 하드웨어, 소프트웨어, 펌웨어(firmware) 또는 이들의 임의의 조합으로 구현될 수 있다. 소프트웨어로 구현되는 경우, 이들은 컴퓨터 매체 상에 저장될 수 있고 하드웨어 처리 유닛에 의해 실행될 수 있다. 하드웨어 처리 유닛은 하나 이상의 프로세서, 디지털 신호 프로세서, 범용 마이크로프로세서, 주문형 집적 회로 또는 다른 이산 논리 회로를 포함할 수 있다.

본 개시내용의 기술은 이동 전화, 데스크톱 컴퓨터, 서버, 태블릿 및 유사한 장치를 포함하는 다양한 장치 또는 장비에서 구현될 수 있다.

Claims

뉴클레오티드의 서열의 리드(read)를 포함하는 게놈 서열 데이터를 인코딩(encoding)하는 방법으로서,
· 상기 리드를 "클러스터 시그니처(cluster signature)"라고 불리는 뉴클레오티드의 공통 서열 또는 서브서열(subsequence)을 공유하는 리드의 클러스터로 분할하는 단계,
· 상기 클러스터링된 리드를 다수의 신택스 요소의 블록으로서 인코딩하는 단계, 및
· 상기 신택스 요소의 블록을 헤더 정보(header information)와 함께 구조화함으로써 연속적인 액세스 유닛을 생성하는 단계를 포함하는 방법.
제1항에 있어서, 상기 클러스터 시그니처가
· 지원되는 알파벳의 각 뉴클레오티드를 고유한 2진 표현(binary representation)과 연관시키고,
· 인코딩된 시그니처를 나타내는 비트열(bitstring)을 얻기 위해 시그니처 내의 각 뉴클레오티드의 2진 표현을 연결함으로써 인코딩되는 방법.
제2항에 있어서, 인코딩된 서열 리드의 각각의 클러스터가 상기 인코딩된 시그니처에 의해 식별되는 방법.
제3항에 있어서, 상기 신택스 요소의 블록이 제2항에 따라 인코딩된 클러스터 시그니처를 포함하는 마스터 인덱스 테이블을 포함하고 각 클러스터에 속하는 서열 리드를 나타내는 인코딩된 신택스 요소의 블록의 저장 매체 상의 위치를 나타내는 정수 값의 벡터에 연관되는 방법.
제4항에 있어서, 상기 신택스 요소의 블록이
· 각 데이터세트 그룹을 고유하게 식별하는데 사용되는 데이터세트 그룹 식별자,
· 각 데이터세트를 고유하게 식별하는데 사용되는 게놈 데이터세트 식별자,
· 데이터세트가 준수하는 데이터 형식 사양을 식별하는데 사용되는 브랜드 식별자,
· 데이터세트가 준수하는 데이터 형식 사양을 식별하는데 사용되는 부 버전 번호(minor version number),
· 불변 길이 리드를 신호전달하는데 사용되는 뉴클레오티드에서의 인코딩된 게놈 리드의 길이,
· 쌍을 이룬 말단 리드의 존재를 신호전달하는 플래그(flag),
· 블록 헤더의 존재를 신호전달하는 플래그,
· 상기 액세스 유닛을 디코딩할 때 데이터 액세스를 용이하게 하기 위해 액세스 유닛이 저장 매체에 저장되는 순서를 신호전달하는 플래그,
· 데이터세트를 코딩하는데 사용되는 참조 서열의 수,
· 각 참조 서열을 고유하게 식별하는데 사용되는 각 참조 서열 당 숫자 식별자,
· 각 참조 서열을 고유하게 식별하는데 사용되는 각 참조 서열 당 문자열(string) 식별자,
· 각 참조 서열과 연관된 액세스 유닛을 계수하는데 사용되는 참조 서열 당 코딩된 액세스 유닛의 수,
· 정렬된 리드, 비정렬된 리드, 비매핑된 리드 및 참조 서열을 구별하는데 사용되는 코딩된 게놈 데이터의 유형,
· 데이터세트에 코딩된 데이터 클래스(data class)의 수,
· 디코딩 프로세스 동안 사용되는 데이터세트에 코딩된 각 데이터 클래스 당 사용된 디스크립터의 수,
· 인코딩되고 비매핑된 리드를 인덱싱하는데 사용되는 클러스터의 총 수,
· 인코딩된 클러스터 시그니처를 디코딩하는데 사용되는 클러스터 시그니처를 인코딩하는데 사용되는 정수 값을 표시하는데 사용되는 비트(bit)의 수,
· 모든 클러스터 시그니처가 뉴클레오티드의 수의 측면에서 동일한 길이를 갖는지를 신호전달하는 플래그, 및
· 클러스터 시그니처의 길이를 포함하는 게놈 데이터세트 헤더를 포함하는 방법.
제5항에 있어서, 상기 게놈 리드가 쌍을 이루는 방법.
제6항에 있어서, 상기 게놈 데이터가 엔트로피 코딩되는 방법.
· 상기 인코딩된 게놈 데이터를 함유하는 액세스 유닛을 파싱(parsing)하여, 헤더 정보를 이용함으로써 다수의 신택스 요소의 블록을 추출하는 단계,
· 상기 다수의 신택스 요소의 블록을 디코딩(decoding)하여, 제1항에 따라 인코딩된 미가공, 비매핑 및 비정렬된 리드를 추출하는 단계,
· 마스터 인덱스 테이블을 파싱하여 인코딩된 클러스터 시그니처를 검색하는 단계,
· 시그니처의 각 2진 표현에 뉴클레오티드의 상응하는 서열을 연관시킴으로써 상기 클러스터 시그니처를 디코딩하는 단계,
· 각 시그니처와 연관된 정수의 벡터를 파싱하여, 게놈 데이터의 코딩된 표현을 포함하는 액세스 유닛을 저장 매체 상에서 검색하는 단계, 및
· 헤더 정보를 이용하여 액세스 유닛으로부터 다수의 신택스 요소의 블록을 추출하는 단계를 포함하여, 인코딩된 게놈 데이터를 디코딩하는 방법.
제8항에 있어서, 전역 구성 매개변수(global configuration parameter)를 포함하는 게놈 데이터세트 헤더를 디코딩함을 추가로 포함하는 디코딩 방법.
제9항에 있어서, 코딩된 클러스터 시그니처 및 코딩된 블록 오프셋을 포함하는 마스터 인덱스 테이블을 디코딩함을 추가로 포함하는 디코딩 방법.
제10항에 있어서, 상기 게놈 리드가 쌍을 이루는 디코딩 방법.
제11항에 있어서, 상기 게놈 데이터가 엔트로피 디코딩되는 디코딩 방법.
미가공, 비매핑 및 비정렬된 게놈 서열 데이터(111)의 압축을 위한 게놈 디코더(1115)로서, 상기 게놈 서열 데이터(111)가 뉴클레오티드의 서열의 리드를 포함하고, 상기 게놈 디코더(1115)가
· 클러스터 시그니처로 불리는 뉴클레오티드의 공통 서열 또는 서브서열을 공유하는 리드의 그룹으로 상기 리드를 분할함으로써 리드의 클러스터(113) 및 클러스터 시그니처(114)를 생성하도록 구성된 클러스터링 유닛(112),
· 상기 클러스터링된 리드를 신택스 요소의 블록으로서 인코딩하도록 구성된, 하나 이상의 디스크립터 인코딩 유닛(115),
· 상기 신택스 요소의 블록을 이들의 통계적 특성에 따라 압축하여 게놈 액세스 유닛(1111)을 생성하도록 구성된, 하나 이상의 엔트로피 인코딩 유닛(1110),
· 고유한 2진 표현을 클러스터 시그니처의 각 기호에 연관시킴으로써 클러스터 시그니처(114)를 2진화하도록 구성된 시그니처 인코딩 유닛(116),
· 게놈 액세스 유닛(1111)에 포함된 엔트로피 코딩된 디스크립터의 저장 매체상의 오프셋을 표현하는 정수의 벡터에 상기 2진화된 클러스터 시그니처(117)를 연관시키도록 구성된 게놈 데이터세트 헤더 및 마스터 인덱스 테이블 생성기(119), 및
· 압축된 게놈 데이터 및 메타데이터를 멀티플렉싱하기 위한 멀티플렉서(1113)를 포함하는 게놈 디코더.
뉴클레오티드의 서열의 리드를 포함하는 게놈 서열 데이터(121)의 압축을 위한 게놈 엔코더(1210)로서,
· 상기 리드를 하나 이상의 참조 서열에 정렬시킴으로써 정렬된 리드를 생성하도록 구성된 정렬기 유닛(122),
· 하나 이상의 기존의 참조 서열 또는 작제된 참조 서열로 명시된 매칭 규칙에 따라 상기 정렬된 리드를 분류하여 정렬된 리드의 클래스(128)를 생성하도록 구성된 데이터 분류 유닛(124);
· 정렬된 리드의 상기 클래스에 따라 상기 신택스 요소를 선택함으로써 상기 분류되고 정렬된 리드를 신택스 요소의 블록으로서 인코딩하도록 구성된, 하나 이상의 디스크립터 인코딩 유닛(125-127),
· 상기 신택스 요소의 블록을 이들의 통계적 특성에 따라 압축시켜 게놈 스트림(1215)을 생성하도록 구성된, 하나 이상의 엔트로피 인코딩 유닛(1212-1214),
· 제12항에 따라 구성된 비매핑된 서열 리드 인코딩 유닛(1115), 및
· 압축된 게놈 데이터 및 메타데이터를 멀티플렉싱하기 위한 멀티플렉서(1216)를 포함하는 게놈 인코더.
제14항에 있어서, 제2항의 코딩 방법을 실행하는데 적합한 코딩 수단을 추가로 포함하는 게놈 인코더.
· 압축된 게놈 액세스 유닛(134) 및 게놈 데이터세트 헤더 및 마스터 인덱스 테이블(133)을 디멀티플렉싱(demultiplexing)하기 위한 디멀티플렉서(demultiplexer)(132),
· 상기 게놈 데이터세트 헤더 및 마스터 인덱스 테이블(133)을 인코딩된 클러스터 시그니처(137)로 파싱하도록 구성된 파싱 수단(135),
· 상기 인코딩된 클러스터 시그니처(137)를 클러스터 시그니처(1311)로 디코딩하도록 구성된 시그니처 디코더(139),
· 상기 압축된 게놈 액세스 유닛을 게놈 디스크립터(138)라고 하는 신택스 요소의 블록으로 압축해제하도록 구성된 엔트로피 디코더(136), 및
· 게놈 디스크립터를 뉴클레오티드의 서열의 비압축된 리드(1312)로 디코딩하도록 구성된 하나 이상의 디스크립터 디코더(1310)를 포함하는, 압축된 게놈 액세스 유닛(134)의 압축해제를 위한 게놈 디코더(1313).
· 압축된 게놈 데이터 및 메타데이터를 게놈 비트스트림(bitstream)(141) 및 비매핑된 서열 리드의 비트스트림(145)으로 디멀티플렉싱하기 위한 디멀티플렉서(140),
· 상기 압축된 게놈 스트림을 게놈 디스크립터(145)라고 하는 신택스 요소의 블럭으로 파싱하도록 구성된 엔트로피 디코더(142-144),
· 게놈 디스크립터를 뉴클레오티드의 서열의 분류된 리드(1411)로 디코딩하도록 구성된 하나 이상의 게놈 디스크립터 디코더(146-147),
· 뉴클레오티드의 서열의 비압축된 리드를 생성하도록 하나 이상의 참조 서열 상에 뉴클레오티드의 서열의 상기 분류된 리드를 선택적으로 디코딩하도록 구성된 게놈 데이터 클래스 디코더(149), 및
· 비압축된 미가공, 비매핑 및 비정렬된 서열 리드(1414) 및 클러스터 시그니처(1415)를 생성하기 위한 제16항에 따라 구성된 비매핑된 서열 리드 디코더(1313)를 포함하는, 압축된 게놈 스트림(1410)의 압축해제를 위한 게놈 디코더(148).
실행될 때 적어도 하나의 프로세서가 제2항의 인코딩 방법을 수행하게 하는 명령어를 포함하는 컴퓨터-판독가능 매체.
실행될 때 적어도 하나의 프로세서가 제2항의 인코딩 방법을 수행하게 하는 명령어를 포함하는 컴퓨터-판독가능 매체.
실행될 때 적어도 하나의 프로세서가 제7항의 디코딩 방법을 수행하게 하는 명령어를 포함하는 컴퓨터-판독가능 매체.
제1항의 방법에 따라 인코딩된 게놈 데이터를 저장하는 지원 데이터(support data).
제2항의 방법에 따라 인코딩된 게놈 데이터를 저장하는 지원 데이터.