KR20160047506A

KR20160047506A - 서열 정렬 방법 및 시스템

Info

Publication number: KR20160047506A
Application number: KR1020167007423A
Authority: KR
Inventors: 데니즈 쿠랄
Original assignee: 세븐 브릿지스 지노믹스 인크.
Priority date: 2013-08-21
Filing date: 2014-08-21
Publication date: 2016-05-02
Also published as: EP3036344B1; JP6586088B2; US11211146B2; EP3702472A1; EP3702472B1; KR102371953B1; CN105637098B; WO2015027050A1; CA2921645C; AU2014308794B2; JP2016536698A; JP6902073B2; CA2921645A1; US9898575B2; US20150057946A1; CN105637098A; EP3036344A1; EP3036344A4; US20180357367A1; SG11201601124YA

Abstract

본 발명은 참조 서열 구성체에 대하여 리드들 (예컨대 핵산 리드, 아미노산 리드)을 정렬하기 위한 방법, 상기 참조 서열 구성체의 구축 방법, 및 서열을 생성시키기 위하여 상기 정렬 방법 및 구성체를 사용하는 시스템을 포함한다. 상기 방법은 규모조정이 가능하며, 수천개 염기 또는 아미노산 길이의 구성체에 대하여 수백만개의 리드들을 정렬하는 데에 사용될 수 있다. 본 발명은 또한 상기 구성체 내 위치에 대한 핵산 리드들의 정렬에 기초하여 질환 또는 유전형의 식별 방법을 포함한다.

Description

서열 정렬 방법 및 시스템{METHODS AND SYSTEMS FOR ALIGNING SEQUENCES}

[관련 출원]

본 출원은 2013년 9월 3일자 U.S. 특허 출원 제14/016,833호 및 2013년 8월 21일자 61/868,249호의 우선권을 주장하며, 모두 그 전체가 본원에 참조로 포함된다.

[기술 분야]

본 발명은 샘플 (예컨대 유전자 샘플, 단백질 샘플)에 대응하는 연속 서열 리드(continuous sequence read)를 생성시키기 위하여 서열들 (예컨대 핵산 서열, 아미노산 서열)을 서로 정렬하는 방법 및 시스템에 관한 것이다. 본 발명은 또한 샘플에서의 변이의 식별 방법에 관한 것이다.

유전학은 분석 과학으로부터 정보 과학으로 발전되어 왔다. 이전에는 과학자들이 핵산을 추출하고 식별하는 방법과 싸워 온 반면, 그와 같은 기술은 현재는 평범하다. 차-세대 서열분석 (예컨대 전-전사체 샷건 서열분석(whole-transcriptome shotgun sequencing), 피로시퀀싱(pyrosequencing), 이온 반도체 서열분석, 합성에 의한 서열분석)은 겨우 수일 이내에 전체 게놈을 포괄하는 수백만개의 리드를 생성시킬 수 있다. 이와 같은 처리량을 달성하기 위하여, NGS 서열분석은 합해지면 더 큰 유전자 정보체 예컨대 염색체 또는 게놈을 형성하는 더 작은 핵산 서열에서의 대규모 병렬화(massive parallelization)를 사용한다. 유전자 샘플에서 시작하여, 핵산 (예컨대 DNA)이 절단되고, 증폭된 후, 극한의 속도로 판독된다. 이러한 능력을 고려하여, 과학자들은 현재 질환 또는 질환의 위험성을 표시하는 서열 중 좌위를 식별하기 위하여 (저렴하게) 리드들을 정렬하는 방법과 싸우고 있다.

현행 기술의 정렬 방법은 중요한 유전자 또는 구조 정보 (예컨대 질환의 바이오마커)로써 탐색될 수 있는 서열을 생성시키기 위하여 참조에 대해 중복 리드들을 정렬하는 데에 대규모 컴퓨팅 능력을 사용한다. 궁극적으로, 서열 정렬의 목표는 서열분석기에 의해 생성되는 핵산 리드들의 세트를 조합함으로써, 대상체로부터의 유전자 샘플에 기초하여 대상체의 더 긴 리드 (즉 콘티그(contig)) 또는 심지어는 전체 게놈을 획득하는 것이다. 차세대 서열분석기로부터의 서열 데이터는 종종 합해지면 표적 서열 전체를 나타내는 더 짧은 서열 수백만개를 포함하기 때문에, 리드들을 정렬하는 것은 복잡하고 컴퓨팅에 있어 고비용이다. 또한, 무작위 서열분석 오차 (즉 올바르지 않은 서열분석 기계 출력)에 의해 야기되는 서열 왜곡을 최소화하기 위하여, 탐색 서열의 각 부분을 다수의 횟수로 (예컨대 2 내지 100회, 또는 그 이상) 서열분석함으로써, 생성되는 최종 정렬 및 출력 서열에 대한 임의 무작위 서열분석 오차의 영향을 최소화한다. 최종적으로, 일단 모든 핵산 리드에 대응하는 모든 데이터가 수집되고 나면, 리드들은 대상체 서열 전체 (또는 그의 일부분)를 결정하기 위하여 단일 참조 서열, 예컨대 GRCh37에 대하여 정렬된다. 많은 경우, 개별 리드들이 실제로 디스플레이되는 것은 아니며, 그 대신 정렬된 서열이 서열로 조립되고, 그 서열이 데이터 파일로 제공된다.

통상적으로, 서열 정렬은 2개의 선형인 서열 정보 스트링들 사이의 쌍형식 정렬들을 모으는 것에 의해 구성된다. 정렬의 예로서, 2개의 스트링 S1 (서열 12: AGCTACGTACACTACC)과 S2 (서열 13: AGCTATCGTACTAGC)가 서로에 대하여 정렬될 수 있다. S1은 통상적으로 리드에 해당하며, S2는 참조 서열의 일부에 해당한다. 서로와 관련하여, S1 및 S2는 치환, 결실 및 삽입으로 이루어질 수 있다. 통상적으로, 상기 용어들은 스트링 S2에 대한 스트링 S1 변환과 관련하여 정의되는 바: 치환은 S2의 문자 또는 서열이 S1에서 동일 길이의 상이한 문자 또는 서열로 대체되는 경우에 이루어지며; 결실은 S2의 문자 또는 서열이 S1의 대응하는 부문에서 "생략되는" 경우에 이루어지고; 삽입은 S2에서는 인접하는 2개 위치 사이에 S1에서는 문자 또는 서열이 출현하는 경우에 이루어진다. 예를 들면, 2개 서열 S1과 S2는 하기와 같이 정렬될 수 있다. 하기의 정렬은 13개의 일치, 길이 1의 결실, 길이 2의 삽입 및 1개의 치환을 나타낸다:

(S1) AGCTA-CGTACACTACC (서열 12)

(S2) AGCTATCGTAC--TAGC (서열 13)

통상의 기술자라면 서열 정렬을 위한 정밀 알고리즘 및 근사 알고리즘이 존재한다는 것을 알고 있을 것이다. 정밀 알고리즘은 최고로 점수화되는 정렬을 찾게 될 것이나, 컴퓨팅에 있어 고비용일 수 있다. 두 가지 가장 잘 알려져 있는 정밀 알고리즘은 니들만-원취(Needleman-Wunsch) (문헌 [J Mol Biol, 48(3):443-453, 1970]) 및 스미스-워터맨(Smith-Waterman) (문헌 [J Mol Biol, 147(1):195-197, 1981]; [Adv . in Math. 20(3), 367-387, 1976])이다. 고토(Gotoh)에 의한 스미스-워터맨의 추가적인 개선 (문헌 [J Mol Biol, 162(3), 705-708, 1982])은 계산 시간을 O (m²n)에서 O (mn)으로 감소시키는데, 여기서 m 및 n은 비교되는 서열 크기이며, 병렬 처리로 더 수정가능하다. 생물정보공학 분야에서, 이는 종종 스미스-워터맨 알고리즘으로 지칭되는 고토의 변형된 알고리즘이다. 스미스-워터맨 접근법은 병렬 컴퓨팅 자원이 더 광범위하고 저렴하게 이용가능하게 되기 때문에, 더 큰 참조 서열에 대하여 더 큰 서열 세트를 정렬하는 데에 사용되고 있다. 예를 들면, http://aws.amazon.com에서 가용한 amazon.com의 클라우드 컴퓨팅 자원을 참조하라. 상기 모든 잡지 논문들은 그 전체가 본원에 참조로 포함된다.

스미스-워터맨 (SW) 알고리즘은 서열 내 염기들 사이의 중복은 보상하고 서열들 사이의 갭(gap)에는 벌점을 부여하는 것에 의해 선형인 서열들을 정렬한다. 스미스-워터맨은 또한 더 짧은 서열이 더 긴 서열을 기술하는 문자의 스트링에 걸쳐있을 것을 필요로 하지 않는다는 점에서 니들만-원취와는 다르다. 즉, SW는 하나의 서열이 다른 서열 전체의 리드라고 가정하지 않는다. 또한, SW는 스트링의 전체 길이에 걸쳐 연장되는 정렬을 발견해야 할 의무가 없기 때문에, 2개 서열들 내의 어느 곳에서나 국소적 정렬이 시작 및 종료될 수 있다.

SW 알고리즘은 길이 n 및 m의 2개 스트링을 나타내는 n×m 행렬 H에 대하여 하기 수학식 1의 관점에서 용이하게 표현된다:

<수학식 1>

상기 수학식에서, s( a _i ,b _j )는 일치 가산점 (a _i =b _j 인 경우) 또는 불일치 벌점 (a _i ≠b _j 인 경우) 중 어느 하나를 나타내며, 삽입 및 결실에는 각각 벌점 W _in 및 W _del 이 주어진다. 대부분의 경우, 생성되는 행렬은 0인 요소를 다수 갖는다. 이와 같은 표시는 행렬의 상위로부터 하위로, 우측으로부터 좌측으로 백트레이스를 용이하게 함으로써, 정렬을 식별하는 것을 용이하게 한다.

일단 행렬이 점수로 완전히 채워지고 나면, SW 알고리즘은 정렬을 결정하기 위한 백트랙을 수행한다. 행렬의 최대값에서 시작하여, 알고리즘은 각 셀(cell)에 대한 최종 최대값을 컴퓨팅하는 데에 3개 값들 (H _i- _1,j _-1 , H _i- _1,j 또는 H _i,j _-1 ) 중 어느 것이 사용되었는지를 기준으로 백트랙을 하게 된다. 0에 도달할 경우, 백트랙킹은 중단된다. 예를 들면, 선행 기술을 나타내는 것이 아니라 그 대신 백트랙의 개념 및 백트랙이 판독될 때의 대응하는 국소적 정렬에 대해 도시하고 있는 도 3의 B를 참조하라. 따라서, 알고리즘에 의해 결정된 바의 "최고 정렬"은 가능한 최소 수를 초과하는 삽입 및 결실을 함유할 수 있기는 하지만, 가능한 최소 수보다 훨씬 더 적은 치환을 함유하게 된다.

SW 또는 SW-고토로서 적용될 때, 상기 기술은 동적 프로그래밍 알고리즘(dynamic programming algorithm)을 사용하여 각각 크기 m 및 n인 2개 스트링 S 및 A의 국소적 서열 정렬을 수행한다. 이와 같은 동적 프로그래밍 기술은 일치 점수를 보존하고 연속되는 셀에 대한 재컴퓨팅을 회피하기 위해 표 또는 행렬을 사용한다. 스트링의 각 요소는 서열 중의 문자와 관련하여 색인화될 수 있는데, 다시 말하자면 S가 스트링 ATCGAA인 경우, S[1] = A이며, S[4] = G인 등이다. H _i,j (상기)로서 최적 정렬을 표시하는 대신, 하기 수학식 2의 B[j,k]로서 최적 정렬이 표시될 수 있다:

<수학식 2>

최대함수의 인수 B[j,k]은 하기 수학식 3-5에서 개괄되며, 여기서 불일치_벌점(MISMATCH_PENALTY), 일치_가산점(MATCH_BONUS), 삽입_벌점(INSERTION_PENALTY), 결실_벌점(DELETION_PENALTY) 및 개방_벌점(OPENING_PENALTY)은 모두 상수이고, 일치_가산점을 제외하고는 모두 음수이다. 일치 인수 p[j,k]는 하기 수학식 3으로 제시되며:

<수학식 3>

삽입 인수 i[j,k]는 하기 수학식 4로 제시되고:

<수학식 4>

결실 인수 d[j,k]는 하기 수학식 5로 제시된다:

<수학식 5>

3개 인수 모두에 있어서, 백트랙이 완료까지 진행되는 것을 보장하기 위하여, [0,0] 요소는 0으로 설정되는데, 다시 말하자면 p[0,0] = i[0,0] = d[0,0] = 0이다.

점수화 파라미터들은 다소 임의적이어서, 연산의 거동을 달성하도록 조정될 수 있다. DNA용 점수화 파라미터 설정의 일 예 (문헌 [Huang, Chapter 3: Bio-Sequence Comparison and Alignment, ser. Curr Top Comp Mol Biol . Cambridge, Mass.: The MIT Press, 2002])는 하기일 수 있다:

일치_가산점: 10

불일치_벌점: -20

삽입_벌점: -40

개방_벌점: -10

결실_벌점: -5

상기 갭 벌점들 (삽입_벌점, 개방_벌점) 사이의 관계는, 갭 개방 대가에 비해 더 높은 갭 삽입 벌점을 설정하는 것에 의해, 갭 개방의 수를 제한하는 것을 돕는데, 다시 말하자면 갭들을 함께 그룹화하는 것을 선호한다. 물론, 불일치_벌점, 일치_가산점, 삽입_벌점, 개방_벌점 및 결실_벌점 사이의 대안적인 관계가 가능하다.

일단 정렬이 완료되고 나면, 정렬된 서열들은 변이를 식별하기 위해 참조 (즉 유전자 표준)와 비교될 수 있는 서열을 생성시키기 위하여 조립될 수 있다. 변이는 질환, 질환의 단계, 재발 등과 관련한 이해를 제공할 수 있다. 아미노산 정렬의 경우, 조립된 아미노산 서열은 단백질에 관한 진화상의 정보, 또는 단백질에 관한 기능상의 정보를 결정하기 위하여 표준과 비교될 수 있다. 그러나, 이와 같은 표준 질환 비교 방법은 시간이 많이 걸리는데, 변이들 중 많은 것이 반드시 질환과 상관되어 있는 것은 아니기 때문이다. 예를 들어, 유전자 표준이 샘플과 다른 혈통을 가지는 군집으로부터 유래하는 경우, 지명되는 변이들 중 많은 것이 모발 색상, 피부 색상 등과 같은 것들의 차이에 기인한다.

[발명의 개요]

본 발명은 예를 들면 스미스-워터맨-고토와 같은 선형의 국소적 서열 정렬 과정을 증가된 병렬화, 증가된 속도, 증가된 정밀성, 및 전체 게놈에 걸쳐 리드들을 정렬하는 능력을 제공하는 다-차원 정렬 알고리즘으로 변환하는 알고리즘 및 그의 실행 방법을 제공한다. 본 발명의 알고리즘이 서열 정보의 "회고(look-back)" 유형 분석 (스미스-워터맨에서와 같음)을 제공하기는 하지만, 공지의 선형 방법들과 달리, 본 발명의 회고는 복잡하고 긴 서열 리드들의 더 정밀한 정렬을 제공하기 위하여 다중 경로 및 다중 노드들을 포함하면서도 더 낮은 전체 불일치, 결실 및 삽입 비율을 달성하는 다-차원 공간(multi-dimensional space)을 통하여 수행된다.

실제로는, 본 발명은 삽입, 결실 및 치환을 비롯한 정렬에서 가능한 서열 변이 전체 또는 거의 전체를 담당하는 분지점(branch point)들을 포괄하는 일련의 방향성인 비순환 서열에 대하여 서열 리드들을 정렬하는 것에 의해 실행된다. 종종 비순환 방향 그래프(directed acyclic graph) (DAG)로 지칭되는 그와 같은 구성체는 "승인된" 참조 서열 및 변이 지명 포맷(variant call format) (VCF) 등재물을 비롯한 가용한 서열 데이터베이스들로부터 용이하게 조립될 수 있다. 따라서, DAG 또는 다른 방향성 구성체와 조합될 때, 개시되는 알고리즘은 정렬 정밀성을 크게 향상시키고 통상적인 알고리즘으로는 가능하지 않은 서열 해상도를 가능케 하는 다-차원 서열 정렬 접근법을 제공한다. 상기 기술은 사실상 어떠한 서열 정보와도 함께 사용될 수 있으나, 본원에서 논의되는 바와 같은 핵산 서열 및 아미노산 서열을 정렬하는 데에 그것이 가장 유용하다.

본 발명은 또한 참조 서열 구성체, 예컨대 게놈의 각 좌위에서 알려져 있는 변이를 나타내는 DAG를 사용하여 특정 좌위에 특정 기본 호칭을 부여하는 방법을 제공한다. 정렬시 서열 리드들이 DAG에 대하여 정렬되기 때문에, 참조 게놈에 대비한 돌연변이를 알려져 있는 돌연변이들의 표에 대해 비교하는 후속 단계가 생략될 수 있다. 개시되는 방법을 사용하면, 그것은 간단히 핵산 리드가 DAG상에 나타나 있는 알려져 있는 돌연변이에 위치되는지를 식별하는 것, 및 그 돌연변이를 지명하는 것의 문제가 된다. 대안적으로, 돌연변이가 알려져 있지 않은 (즉 참조 서열 구성체에 나타나 있지 않은) 경우, 정렬이 이루어질 것이며, 변이는 새로운 돌연변이로 식별된다. 상기 방법은 또한 특정 질환 위험성 또는 질환 진행과 같은 추가적인 정보를 참조 서열 구성체에 통합되어 있는 알려져 있는 돌연변이와 연관시키는 것을 가능케 한다. 또한, 정렬시 모든 유전적으로 관련되어 있는 결과들을 발견할 가능성을 가지는 것 이외에도, 개시되는 방법은 정렬을 실현하는 동시에 다수의 참조 서열에 대한 동시 비교를 가능케 하는 데에 요구되는 컴퓨팅 자원을 감소시킨다.

본 발명은 또한 유기체의 서열 내 위치에서 알려져 있는 변이를 나타내는 비순환 방향 그래프 데이터 구조 (DAG)의 구성 방법을 포함한다. 상기 DAG는 수천개의 위치에 다수의 서열들을 포함할 수 있으며, 각 위치에 결실, 삽입, 번역, 역전 및 단일-뉴클레오티드 다형성 (SNP)을 포함한 다수의 변이를 포함할 수 있다. "유방암"과 같은 상관된 진단 정보를 사용하여 DAG의 각 변이를 태그화함으로써 샘플을 제공하는 환자에 대하여 위험성을 식별시키는 데에 필요한 단계들을 감소시키는 것 역시 가능하다. 일부 실시양태에서, 변이들은 질환의 마커로서의 그 변이의 우세성을 반영하기 위하여 점수화되거나, 가중되거나, 또는 다른 변이와 상관되게 된다.

본 발명은 또한 본 발명 방법의 실행 시스템을 포함한다. 일 실시양태에서, 시스템은 다수의 서열들 (즉 핵산 서열, 아미노산 서열)을 게놈 또는 게놈 일 영역의 관찰된 변이를 나타내는 참조 서열 구성체 (예컨대 DAG)와 비교할 수 있는 분산된 프로세서 및 기억장치 네트워크를 포함한다. 상기 시스템은 또한 효율적인 정렬 알고리즘을 사용하여 핵산 리드들을 정렬함으로써, 연속 서열을 생성시킬 수 있다. 참조 서열 구성체가 대단히 많은 양의 풍부한 정보를 압축하고 있기 때문에, 그리고 정렬 알고리즘이 매우 효율적이기 때문에, 리드들은 시중에서 가용한 자원을 사용하여 전체 게놈상에 태그화 및 조립될 수 있다. 상기 시스템은 다수의 리드들과 참조 서열 구성체 사이의 다수의 비교를 동시에 실행하는 다수의 프로세서를 포함한다. 비교 데이터는 축적되어 건강 관리 제공자에게 제공될 수 있다. 비교가 컴퓨팅에 있어 용이하기 때문에, 서열 리드들을 분석하는 것이 더 이상 NGS 서열분석과 환자의 유전적 위험성에 대한 의미있는 논의 사이의 장애가 되지는 않을 것이다.

도 1은 참조 서열 내의 유전자 변이를 나타내는 비순환 방향 그래프 (DAG)의 구성을 도시한다. 도 1a는 시작 참조 서열 및 결실의 첨가를 나타낸다. 도 1b는 삽입 및 SNP의 첨가를 나타내며, 그에 따라 정렬에 사용되는 최종 DAG로 귀결된다.
도 2는 비순환 방향 그래프로 표시되는 3종의 변이 지명 포맷 (VCF) 등재물을 도시한다;
도 3의 A는 삽입 사례 및 참조 서열을 고려한 구성체에 대하여 핵산 서열 리드를 정렬하는 것에 대한 그림 표시를 나타낸다;
도 3의 B는 핵산 서열 리드 "ATCGAA"의 적정한 위치를 식별하는 데에 사용되는 행렬 및 백트랙을 나타낸다;
도 4는 병렬 프로세싱을 위한 연상 컴퓨팅 모델을 도시한다;
도 5는 병렬 컴퓨팅의 아키텍처를 도시한다.

본 발명은 참조 서열 구성체에 대한 서열 (예컨대 핵산 서열, 아미노산 서열) 정렬 방법, 참조 서열 구성체의 구축 방법, 및 상기 정렬 방법 및 구성체를 사용하여 정렬 및 조립체를 생성시키는 시스템을 포함한다. 상기 참조 서열 구성체는 하기하는 바와 같은 비순환 방향 그래프 (DAG)일 수도 있으나, 참조 서열은 구성체가 정렬용으로 포맷된다는 전제하에, 종 내 다른 유기체의 서열 중 유전적 가변성을 반영하는 임의의 대표물일 수 있다. 상기 유전적 가변성은 유기체 내의 서로 다른 조직 또는 세포들 사이의 것일 수도 있다. 일반적으로, 참조 서열 구성체는 샘플링된 서열들 사이에 동일한 부분 및 가변적인 부분을 포함하게 된다. 따라서, 상기 구성체는 동일한 서열(들)을 포함하는 위치들 (즉 소정의 기준 배열에 따른 것), 및 유전적 가변성을 반영하는 대안적인 서열을 포함하는 일부 위치들을 가지는 것으로 생각될 수 있다. 본 출원은 또한 상기 구성체 내 위치에 대한 핵산 리드의 정렬을 바탕으로 하는 질환 또는 유전형의 식별 방법을 개시한다. 상기 방법들은 유전자 서열분석 및 돌연변이 스크리닝 분야에 광범위하게 적용가능하다.

참조 서열 구성체

핵산 리드들을 정렬하고 제노타이핑하는 데에 단일 참조서열을 사용하는 선행 기술 서열 정렬 방법들과 달리, 본 발명은 종, 군집 내, 또는 심지어는 단일 유기체 내의 서로 다른 세포간의 유전자 서열 가변성을 고려할 수 있는 구성체를 사용한다. 유전자 변이의 대표물은 비순환 방향 그래프 (DAG) (상기에서 논의된 것) 행-컬럼 정렬 행렬, 또는 데브루잉(deBruijn) 그래프로 제시될 수 있으며, 이러한 구성체는 정렬 알고리즘의 파라미터들이 적정하게 설정된다는 전제하에, 본 발명의 정렬 방법과 함께 사용될 수 있다(하기에서 논의됨).

본 발명의 바람직한 실시양태에서, 상기 구성체는 비순환 방향 그래프 (DAG), 즉 방향을 가지며 순환 경로는 가지지 않는 것이다 (다시 말하자면, 서열 경로가 1회를 초과하여 참조 구성체 상의 위치로 통과할 수 없음). DAG에서, 서열의 유전자 변이는 교호 노드로 표시된다. 상기 노드는 보존된 서열, 또는 유전자, 또는 단순히 핵산의 부문일 수 있다. 구성체를 통과하는 서로 다른 가능한 경로들은 알려져 있는 유전자 변이를 나타낸다. DAG는 유기체의 전체 게놈에 대하여 구성될 수 있거나, 또는 DAG는 게놈의 일부, 예컨대 염색체 또는 더 작은 유전자 정보 분절에 대해서만 구성될 수 있다. 일부 실시양태에서, DAG는 1000개를 초과하는 핵산, 예컨대 10,000개를 초과하는 핵산, 예컨대 100,000개를 초과하는 핵산, 예컨대 1,000,000개를 초과하는 핵산을 나타낸다. DAG는 종 (예컨대 호모 사피엔스(homo sapiens)) 또는 선택된 군집 (예컨대 유방암에 걸린 여성), 또는 심지어는 더 작은 하위군집, 예컨대 동일 개체 내에서의 서로 다른 종양 세포들 간의 유전자 변이를 나타낼 수 있다.

DAG 구성체의 간단한 예를 도 1에 나타내었다. 도 1a에 나타낸 바와 같이, DAG는 도 1a에서 서열 1: CATAGTACCTAGGTCTTGGAGCTAGTC로 나타낸 참조 서열을 사용하여 시작한다. 실제로는, 참조 서열은 종종 훨씬 더 길며, 전체 게놈일 수도 있다. 상기 서열은 통상적으로 FASTA 또는 FASTQ 파일로 저장된다 (FASTQ가 차세대 서열분석기로부터 생성되는 서열 데이터용 디폴트 포맷이 되어 있음). 일부 실시양태에서, 참조 서열은 GRCh37과 같은 표준 참조일 수 있다. 통상의 기술자라면 알고 있을 바와 같이, 서열 중 각 문자 (또는 기호)는 실제로는 뉴클레오티드 (예컨대 데옥시리보뉴클레오티드 또는 리보뉴클레오티드) 또는 아미노산 (예컨대 히스티딘, 류신, 리신 등)에 대응한다.

다음 단계에서는, 도 1a의 저부 이미지에 나타낸 바와 같이, 변이가 참조 서열에 첨가된다. 도 1a에 나타낸 바와 같이, 변이는 도면의 선들 사이에서의 참조로부터의 서열 "AG"의 결실, 즉 서열 2이다. 그림으로 볼 때, 이와 같은 결실은 결실 전 및 후에서 참조 서열을 노드로 절단하는 것, 및 노드들 사이에 2개의 스트링을 삽입하는 것으로 표시된다. 노드들 사이의 하나의 경로는 참조 서열을 나타내는 반면, 다른 경로는 결실을 나타낸다.

실제로는, 변이들은 1000 게놈스 프로젝트(Genomes Project) 웹사이트에서 찾을 수 있는 것과 같은 변이 지명 포맷 (VCF) 파일의 등재물을 적용하는 것에 의해 DAG에 지명된다. 각 VCF 파일이 특정 참조 게놈에 대하여 맞추어져 있기 때문에, 스트링이 어디에 위치되어야 하는지를 식별하는 것은 어렵지 않다. 실제로, 도 2에 나타나 있는 바와 같이, VCF 파일의 각 등재물은 참조와 조합되어 별도의 그래프를 생성시키는 것으로 생각될 수 있다. 도 2의 VCF 등재물이 도 1의 VCF 등재물에 대응하는 것은 아님에 유의하라.

도 1b로 가서, 특정 위치에서의 삽입 "GG"에 대응하는 두 번째 VCF 등재물이 첨가되어 확장된 DAG, 즉 서열 3 및 서열 4를 포함하는 것이 생성된다. 다음에, 참조 서열 초기의 SNP를 고려하는 세 번째 VCF 등재물이 확장된 DAG에 첨가될 수 있는데, 다시 말하자면 서열 5-8을 포함할 수 있다. 따라서, 3개의 단계로써, 핵산 리드들이 (하기에서 논의되는 바와 같이) 정렬될 수 있는 DAG가 생성되었다.

실제로는, DAG는 각 노드가 스트링, 일련의 모 노드들(parent nodes) 및 위치에 의해 규정되는 노드들의 세트 S로서 컴퓨터 메모리 (하드 디스크, 플래시, 클라우드 메모리 등)에 표시되어 있다. 상기 스트링은 노드의 "콘텐트", 즉 서열이며; 모 노드는 그래프 내의 다른 노드들과 관련하여 노드의 위치를 규정하고; 노드의 위치는 시스템의 일부 기준 배열, 예컨대 참조 게놈에 대비한 것이다. 참조 서열과 관련하여 그래프를 엄격하게 규정할 필요는 없지만, 그것은 출력 데이터의 조작을 더 간단하게 만든다. 물론, S에 대한 추가적인 제약은 그것이 루프(loop)를 포함할 수 없다는 것이다.

이와 같은 DAG 방법을 더 큰 구조로 외삽하면, 주어진 참조 영역에 있어서 유전자 서열의 알려져 있는 변이를 나타내는 수천개의 VCF 등재물들을 통합하는 DAG들을 구성하는 것이 가능하다. 그럼에도 불구하고, DAG가 더 커지면서 컴퓨팅이 더 오래 걸리기 때문에, 많은 적용분야에서 서열의 일부, 예컨대 염색체만을 나타낼 수 있는 더 작은 DAG가 사용되고 있다. 다른 실시양태에서, DAG는 DAG에 의해 포괄되는 군집의 크기를 감소시키는 것, 예를 들면 유방암의 변이를 나타내는 DAG로부터 삼중 음성 유방암의 변이를 나타내는 DAG로 가는 것에 의해, 더 작아질 수 있다. 대안적으로는, 통상적으로 DAG의 더 큰 부분이 샘플들 사이에서 일치되는 것을 초래하게 되는, 용이하게 식별되는 유전자 마커를 바탕으로 맞춤제작되는 더 긴 DAG가 사용될 수 있다. 예를 들어, 아프리카-혈통 여성으로부터의 일련의 핵산 리드들을 정렬하는 것은 동일 서열에 걸쳐 인간에서 알려져 있는 모든 변이들을 고려하는 DAG에 비해 아프리카 혈통 여성으로부터의 VCF 등재물을 사용하여 생성된 DAG에 대하여 더 빠르게 된다. 본 발명의 DAG는 그것이 새롭게 식별되는 돌연변이들을 통합하도록 오랜 시간 동안 변형될 수 있다는 점에서 동적 구조라는 것을 알아야 한다. 또한, 정렬 결과가 귀납적으로 DAG에 첨가되는 알고리즘 역시 가능하다.

스트링-대-DAG 정렬의 경우, 갭 삽입이 한층 더 많은 대가를 치름으로써 전체 서열에서 새로운 갭을 개방하는 것 보다는 서열에 대한 정렬을 선호하도록, 갭 벌점이 조정될 수 있다. 물론, (상기에서 논의된) DAG의 개선으로써, 갭의 발생은 한층 더 감소되어야 하는데, 돌연변이들이 DAG 내에 고려되어 있기 때문이다.

정렬 알고리즘

일 실시양태에서는, 비순환 방향 그래프 (DAG)에 대하여 서열 리드들을 정렬하기 위한 알고리즘이 사용된다. 배경기술에서 나타낸 알고리즘과 달리, 상기 정렬 알고리즘은 DAG (예컨대 참조 서열 구성체) 상의 위치에 함유되어 있는 각 서열과 관련한 최대 점수를 식별하는 것에 의해 C _ij 의 최대값을 식별한다. 실제로는, 선행 위치에서 "뒤쪽으로" 탐색하는 것에 의해, 다수의 가능한 경로에 걸친 최적의 정렬을 식별하는 것이 가능하다.

본 발명의 알고리즘은 상기에서 논의된 리드 ("스트링"으로도 알려져 있음) 및 비순환 방향 그래프 (DAG)상에서 수행된다. 알고리즘을 정의할 목적으로, S를 정렬되는 스트링이라 하고, D를 S가 정렬되는 비순환 방향 그래프라 한다. 스트링 S의 요소들은 1에서 시작하는 지수로 괄호화된다. 따라서, S가 스트링 ATCGAA인 경우, S[1] = A이며, S[4] = G인 등이다.

DAG의 경우, 노드 서열의 각 문자는 별도의 요소 d로 표시되게 된다. d의 선행자(predecessor)는 하기와 같이 정의된다:

(i) d가 그의 노드 서열의 첫 번째 문자가 아닌 경우, 그의 노드에서 d에 선행하는 문자가 그의 (유일한) 선행자이며;

(ii) d가 그의 노드 서열의 첫 번째 문자인 경우, d의 노드의 모체인 임의 노드 서열의 최종 문자가 d의 선행자임.

모든 선행자들의 세트는 다시 P[d]로 표시된다.

최고의 정렬을 찾아내기 위하여, 알고리즘은 S의 첫 번째 j 요소의 d에 선행하는 (그리고 그것을 포함하는) DAG 부분과의 최적 정렬의 점수인 M[j,d] 값을 탐색한다. 이와 같은 단계는 배경기술 부문의 수학식 1에서 H _i,j 를 탐색하는 것과 유사하다. 구체적으로, M[j,d]를 결정하는 것은 하기에서 정의되는 바와 같이 a, i, e 및 0의 최대값을 탐색하는 것을 포함한다:

<수학식 6>

(식 중,

e = P[d]에서의 p*에 대하여 max{M[j,p *] + 결실_벌점}

i = M[j- 1,d] + 삽입_벌점

a = S[j]=d인 경우, P[d]에서의 p*에 대하여 max{M[j- 1,p *] + 일치_점수}

S[j]≠d인 경우, P[d]에서의 p*에 대하여 max{M[j- 1,p *] + 불일치_벌점}).

상기한 바와 같이, e는 S의 첫 번째 j 문자의 d를 포함하지 않는 d 이전 DAG 부분과의 최고의 정렬 더하기 추가적인 결실_벌점이다. 따라서, d가 노드 서열의 첫 번째 문자가 아닌 경우라면, 하나의 선행자 p만이 존재하며, S의 첫 번째 j 문자의 DAG (p-이전-및-포함)와의 정렬 점수는 M[j,p] + 결실_벌점과 같다. d가 그의 노드 서열의 첫 번째 문자인 경우, 다수의 가능한 선행자들이 존재할 수 있으며, 결실_벌점은 일정하기 때문에, [M[j,p *] + 결실_벌점]을 최대화하는 것은 S의 첫 번째 j 문자와 최고의 정렬 점수를 가지는 선행자를 선택하는 것과 동일하다.

수학식 6에서, i는 스트링 S의 첫 번째 j-1 문자의 d 이전-및-포함 DAG와의 정렬 더하기 삽입_벌점으로써, SW에서의 삽입 인수의 정의와 유사하다 (수학식 1 참조).

또한, a는 S의 첫 번째 j 문자의 d를 포함하지 않는 d 이전 DAG 부분과의 최고의 정렬 더하기 일치_점수 (S의 j번째 문자가 문자 d와 동일한 경우) 또는 불일치_벌점 (S의 j번째 문자가 문자 d와 동일하지 않은 경우) 중 어느 하나이다. e에서처럼, 이는 d가 그의 노드 서열의 첫 번째 문자가 아닌 경우라면 하나의 선행자, 즉 p만이 존재한다는 것을 의미한다. 그것은 a가 S의 첫 번째 j-1 문자의 DAG (p 이전-및-포함)와의 정렬 점수, 즉 M[j- 1,p]이며, S의 d 및 j번째 문자가 일치하는지 여부에 따라 불일치_벌점 또는 일치_점수 중 어느 하나가 첨가된다는 것을 의미한다. d가 그의 노드 서열의 첫 번째 문자인 경우, 다수의 가능한 선행자가 존재할 수 있다. 이와 같은 경우, {M[j,p *] + 불일치_벌점 또는 일치_점수}를 최대화하는 것은 S의 첫 번째 j-1 문자와 최고의 정렬 점수를 가지는 선행자 (즉 M[j-1,p*] 인수 후보 중 최고의 것)를 선택하고, S의 d 및 j번째 문자가 일치하는지 여부에 따라 불일치_벌점 또는 일치_점수 중 어느 하나를 첨가하는 것과 동일하다.

다시, 배경기술에서 논의된 SW 알고리즘에서와 같이, 더 적은 갭들 등을 사용한 정렬을 촉진하기 위하여 벌점들, 예를 들면 결실_벌점, 삽입_벌점, 일치_점수 및 불일치_벌점이 조정될 수 있다.

상기 수학식에서 기술된 바와 같이, 알고리즘은 그 요소에 대한 삽입, 결실 및 일치 점수를 계산하는 것 뿐만 아니라 임의의 DAG상 선행 노드들을 (DAG 방향의 반대로) 뒤쪽으로 탐색함으로써 최대 점수를 탐색하는 것에 의해서도 각 리드에 대한 최대값을 탐색한다. 따라서, 알고리즘은 알려져 있는 돌연변이를 함유하는 DAG를 통한 상이한 경로들을 이동할 수 있다. 그래프가 방향성이기 때문에, 그래프의 방향에 반대로 움직이는 백트랙은 그래프의 기점 쪽으로 바람직한 변이 서열을 쫓으며, 최대 정렬 점수로써 높은 확실도 안에서 가장 가능성 있는 정렬을 식별한다. 상기 수학식이 "최대" 값으로 표시되기는 하였지만, "최대"는 예를 들면 모든 수학식에서 기호를 전환하고 최소값에 대하여 풀이하는 것을 포함한 모든 형태의 최적화를 포괄하고자 하는 것이다.

개시되는 알고리즘의 실행을 도 3에 예시하였는데, 여기에서는 참조 서열인 서열 10: TTGGATATGGG 및 알려져 있는 삽입 사례 서열 11: TTGGATCGAATTATGGG (삽입에 밑줄 침)을 나타내는 DAG에 대하여 서열 "ATCGAA"가 정렬된다. 도 3의 A는 리드가 DAG와 비교되는 것을 그림 표시로 나타낸 반면, 도 3의 B는 비교에 대응하는 실제 행렬을 보여준다. 배경기술에서 논의된 스미스-워터맨 기술과 마찬가지로, 본 발명의 알고리즘은 최고의 점수를 식별하고 백트랙을 수행함으로써, 적정한 리드의 위치를 식별한다. 도 3의 A 및 B는 또한 본 발명이 구성체에 대한 스트링의 실제 일치를 생성시키는 반면, 공지의 방법 (예컨대 SW)은 참조의 잘못된 부분에 스트링을 정렬하거나 충분하게 높은 정렬 점수를 생성시키지 않는다는 이유로 스트링이 정렬에 포함되는 것을 거부하게 될 가능성이 더 커진다는 것을 강조하고 있다. 서열 리드가 DAG에 포함되어 있지 않은 변이를 포함하는 경우, 정렬된 서열은 갭, 삽입 등으로 기록되게 된다.

병렬화 기회

스미스-워터맨-고토 알고리즘의 순차적인 버젼은 대규모 병렬화에 적합화되어 상당히 변형되어 있다. 예를 들면, 연상 대규모 병렬화(Associative Massive Parallelism) (SWAMP)를 사용하는 스미스-워터맨으로 지칭되는 ASC 모델이 그 전체가 본원에 참조로 포함되는 U.S. 특허 공개 제2012/0239706호에 기술되어 있다. SWAMP (및 다른 병렬 프로세싱 시스템)를 위한 병렬화 부분은 임의의 역대각선(anti-diagonal)에 따르는 값들이 서로 독립적이라는 사실에서 유래한다. 따라서, 주어진 역대각선에 따르는 모든 셀들은 컴퓨팅 자원을 분산하도록 병렬로 수행될 수 있다. 상기 귀납적 수학식에서 나타난 데이터 의존성은 달성가능한 병렬화의 수준을 제한하지만, 파면 접근법(wavefront approach)을 사용함으로써, 여전히 이와 같은 유용한 알고리즘의 속도를 증가시키게 된다. 선 울트라 스파크(Sun Ultra SPARC)에서 워즈니악(Wozniak)에 의해 실행된 파면 접근법 (문헌 [Comput Appl in the Biosciences ( CABIOS ), 13(2):145-150, 1997])은 특수 SIMD-유형 비디오 명령어를 사용한다. 워즈니악은 SIMD 레지스터를 사용하여 마이너 대각선(minor diagonal)에 병렬인 값들을 저장함으로써, 동일 기계상에서의 통상적인 실행에 비해 2-배 속도증가를 기록하였다. 워즈니악의 예에 따르면, 코드를 병렬화하는 유사한 방식은 x86 아키텍처(architecture)에 대해 설정되는 스트리밍 SIMD 확장 (SSE)를 사용하는 것이다. 인텔(Intel)에 의해 설계된 벡터-유사 연산이 소수의 값 (보통 4, 8 또는 16개)에서 한번에 단일 연산/명령을 완료한다. 많은 AMD 및 인텔 칩들이 다양한 버젼의 SSE를 지원하는데, 인텔은 그의 현대 칩셋용 고급 벡터 확장(Advanced Vector Extension) (AVX)을 사용하여 이와 같은 기술을 계속 개발하여 왔다.

다른 실행에서, 로그네스(Rognes)와 시베르그(Seeberg) (문헌 [Bioinformatics (Oxford, England), 16(8):699-706, 2000])는 SSE의 선행자, MMX SIMD 명령과 함께 인텔 펜티엄 프로세서를 그의 실행에 사용한다. 파얼라인(ParAlign)을 위한 로그네스와 시베르그의 연구로부터 개발된 접근법 (문헌 [Bioinformatics, 16(8):699-706, 2000])은 파면 접근법을 사용하지 않는다 (문헌 [Rognes, Nuc Acids Res, 29(7):1647-52, 2001]; [Saebo et al., Nuc Acids Res, 33(suppl 2):W535-W539, 2005]). 대신, 그들은 문제 서열에 대하여 병렬로 SIMD 레지스터를 정렬함으로써, 사전-컴퓨팅 문제-특이적 점수 행렬을 사용하여 한번에 8개의 값을 컴퓨팅한다. 이와 같은 방법의 추가적인 세부사항은 본원에 참조로 포함되는 U.S. 7,917,302호에서 찾아볼 수 있다. 로그네스와 시베르그가 SIMD 레지스터를 레이아웃하는 방식에서, 노스 네이버 의존성(north neighbor dependency)은 SSE 병렬 "벡터" 계산으로부터 획득되는 잠재적 속도증가의 3분의 1까지를 제거할 수 있었다. 이를 극복하기 위하여, 그들은 SWAT-유형 최적화를 도입한다. 큰 아핀(affine) 갭 벌점에서는, 노스 네이버가 대부분의 경우 0이 되게 된다. 이러한 경우, 프로그램은 파라(Farrar)에 의해 "느린 F 평가(lazy F evaluation)"로 지칭된 (문헌 [Bioinformatics, 23(2):156-161, 2007]) 노스 네이버의 값을 컴퓨팅하는 것을 생략할 수 있다. 로그네스와 시베르그는 수학식 1의 계산 횟수를, 그것이 소정 임계치 미만인 경우 생략하는 것에 의해 감소시킴으로써, 그의 알고리즘의 속도를 증가시킬 수 있다. 문헌 [Rognes and Seeberg, Bioinformatics, 16(8):699-706, 2000]에서는 MMX/SSE 명령 및 SWAT-유사 확장을 통하여 8-원 벡터를 사용함으로써, 6-배의 속도증가를 기록하였다.

파라에 의해 수행된 SSE 연구 (문헌 [Bioinformatics, 23(2):156-161, 2007])에서는 쿼리 레지스터에 병렬로 SIMD 레지스터를 라인업하는 데에 스트리핑되거나(striped) 스트라이딩된(strided) 패턴의 액세스가 사용된다. 그렇게 하는 것은 어떠한 중복 의존성도 회피한다. 다시 SWAT-유사 최적화를 도입하는 것은 (문헌 [Farrar, Bioinformatics 23(2):156-161, 2007]) 워즈니악 (문헌 [CABIOS 13(2):145-150, 1997]) 및 로그네스와 시베르그 (문헌 [Bioinformatics (Oxford, England), 16(8):699-706, 2000]) SIMD 실행에 비해 2-8배의 속도증가를 달성한다. 블록 치환 행렬, 및 노던 (F) 조건문(conditional)이 해당 내부 루프(inner loop) 밖으로 이동되는 효율적이고 독창적인 내부 루프는 중요한 최적화이다. 프로세싱을 위한 16개 8-비트 요소의 스트라이딩 메모리 패턴 액세스는 메모리 액세스 시간 역시 개선함으로써, 전체 속도증가에 기여한다.

파르 (문헌 [Sequence Analysis, 2008])는 그의 연구를 소니(Sony), 도시바(Toshiba) 및 IBM에 의해 제작된 셀 프로세서로 확장하였다. 이와 같은 셀 프로세서는 하나의 주 코어와 8개의 부 코어를 가진다. 셀 브로드밴드 엔진(Cell Broadband Engine)은 모두 파르의 스트리핑 접근법을 사용하는 스잘코우스키(Szalkowski) 등 (문헌 [BMC Res Notes 1(107), 2008])의 SWPS3 및 위라완(Wirawan) 등 (문헌 [BMC Bioinformatics 9 (377) 2008])의 CBESW를 비롯한 몇 가지 추가적인 스미스-워터맨 실행의 개발 플랫폼이었다. 루드니키(Rudnicki) 등 (문헌 [Fund Inform. 96, 181-194, 2009])은 PS3을 사용하여 다수의 데이터베이스 서열에 걸친 병렬화를 사용하는 방법을 개발하였다.

로그네스 (문헌 [BMC Bioinformatics 12(221), 2011])는 또한 다수의 데이터베이스 서열을 병렬로 프로세싱하는 SWIPE로 지칭되는 다중-연결 접근법(multi-threaded approach)을 개발하였다. 핵심은 "일반 CPU"에서 SIMD 접근법을 사용하는 것이었다. 조립 병렬화 스플릿(coarse-grained parallelism split)을 사용하는 이와 같은 조사에서, 병렬로 다수의 데이터베이스 서열을 사용하는 작업은 류(Liu) 등 (문헌 [BMC Res Notes 2(73), 2009]) 및 리고우스키(Ligowski)와 루드니키(Rudnicki) (문헌 [Eight Annual International Workshop on High Performance Computational Biology, Rome, 2009])의 CUDASW에 기술되어 있는 그래픽 프로세서 장치 (GPU)-기반 툴(tool)과 유사하다. 류 등 (문헌 [BMC Res Notes 3(93), 2010]) 및 리고우스키 등 (문헌 [GPU Computing Gems, Emerald Edition, Morgan Kaufmann, 155-157, 2011])에 의한 CUDASW++2.0을 사용하는 GPU 작업의 다른 실행도 존재한다.

다른 변형에서는, 소규모 벡터 병렬화 (8, 16 또는 32-원 병렬화)가 병렬로 다수의 서열을 정렬하는 GPU 실행을 통하여 액세스가능한 계산을 하는 데에 사용될 수 있다. 이론적인 최고 계산 속도증가는 최적인 m배이다. 96 프로세싱 요소를 사용한 클리어스피드(ClearSpeed) 실행의 96-배 속도증가가 이론적 속도증가를 확인해준다.

병렬 컴퓨팅 모델

스미스-워터맨 서열 정렬을 개발하고 확장하는 데에 사용된 주 병렬 모델은 연상 컴퓨팅(Associative Computing) (ASC) (문헌 [Potter et al., Computer, 27(11):19-25, 1994])이다. 여기에서는 스미스-워터맨 알고리즘의 효율적인 병렬 버젼이 기술된다. 본 부문에서는 이와 같은 모델 및 한 가지 다른 모델이 상세하게 기술된다.

여기에서는, 일부 관련 용어가 정의된다. 컴퓨터 아키텍처의 플린 분류법(Flynn's Taxonomy)에 있는 두 가지 중요 용어는 MIMD 및 SIMD로써, 두 가지의 서로 다른 병렬 컴퓨팅 모델이다. 다중-명령으로 분류되는 컴퓨터 클러스터인 다중-데이터 (MIMD) 모델이 극히 대규모인 정렬에서의 메모리 한계를 극복하는 개념-증명(proof-of-concept)으로 사용된다. 부문 8은 MIMD 모델의 용법에 대해 기술한다. ASC로 알려져 있는 확장된 데이터-병렬의 단일-명령 다중-데이터 (SIMD) 모델 역시 기술된다.

다중 명령, 다중 데이터 ( MIMD )

다중-데이터 다중-명령 모델 또는 MIMD 모델은 현재 가용한 대부분의 병렬 시스템을 기술하고 있으며, 현재 인기 있는 컴퓨터 클러스터를 포함하고 있다. MIMD 프로세서는 완전-독립형(full-fledged) 중앙 프로세싱 장치 (CPU)를 가지고 있으며, 각각 그 자체의 로컬 메모리를 포함한다 (문헌 [Quinn, Parallel Computing: Theory and Practice, 2nd ed., New York: McGraw-Hill, 1994]). SIMD 모델과 달리, 각각의 MIMD 프로세서는 비동기로 그 자체의 프로그램을 저장 및 실행한다. MIMD 프로세서들은 통신을 가능케 하는 네트워크를 통하여 연결되지만, 사용되는 네트워크는 기기들 (클러스터 노드들) 사이의 이더넷(Ethernet), 미리넷(Myrinet) 및 인피니밴드(InfiniBand) 연결에 걸쳐 광범위하게 다양할 수 있다. 통신은 단일 장치의 외부로 나가는 SIMD에 비해 훨씬 더 느슨한 통신 구조를 사용하는 경향이 있다. 데이터는 개별 프로세서에 의해 실행되는 그의 개별 프로그램의 제어하에 비동기로 네트워크를 따라 이동된다. 통상적으로, 통신은 메시지-전달(message-passing)을 지원하는 몇 가지 서로 다른 병렬 언어들 중 하나에 의해 처리된다. 이를 위한 매우 보편적인 라이브러리는 메시지 전달 인터페이스 (MPI)로 알려져 있다. "SIMD-유사" 방식의 통신이 가능하지만, 데이터 이동은 비동기가 되게 된다. MIMD에 의한 병렬 컴퓨팅은 보통 프로세서에 의해 실행되는 다양한 태스크가 고도로 독립적이지 않은 한, 집중적인 통신 및 빈번한 동기화를 필요로 한다 (즉 소위 "당황스럽게도 병렬" 또는 "즐겁게 병렬" 문제). 부문 8에서 제시되는 작업은 인피니밴드를 통하여 연결되는 AMD 오페론 클러스터를 사용한다.

SIMD와 달리, 메시지-전달에 요구되는 최악-사례 시간(worst-case time)은 예측하기가 어렵거나 불가능하다. 통상적으로, MIMD 소프트웨어에 있어서의 메시지-전달 실행 시간은 평균 사례 추정치를 사용하여 측정되는데, 종종 그것은 SIMD에서 통상적인 최악 사례 이론 평가에 의하기보다는 시험에 의해 측정된다. MIMD 소프트웨어에 있어서의 최악 사례가 종종 매우 좋지 않고 드물게 일어나기 때문에, 평균 사례 추정치가 훨씬 더 유용하다. 결과적으로, 특정 문제에 대한 MIMD에 요구되는 통신 시간은 SIMD에 있어서의 것에 비해 상당히 더 높을 수 있으며, 보통 그러하다. 이는 필요한 프로세서간 통신의 수를 최소화하고 프로세서 통신 사이의 시간량을 최대화하려는 MIMD 프로그래밍 (특히 메시지-전달이 사용되는 경우)에서의 중요한 목표로 이어진다. 이는 그래픽 프로세서 또는 GPU를 사용하는 것과 같은 단일 카드 가속 수준에서도 그러하다.

데이터-병렬 프로그래밍은 MIMD 프로그래밍에 중요한 기술이기도 하지만, 본원에서는 모든 태스크가 서로 다른 데이터에서 동일한 연산을 수행하며, 다양한 임계점에서만 동기화된다. 대부분의 MIMD 시스템용 알고리즘은 단일-프로그램 다중-데이터 (SPMD) 프로그래밍 패러다임으로 기록된다. 각 프로세서는 동일 프로그램의 그 자체 사본을 가지고 있어서, 그의 로컬 데이터 상에서 그 프로세서 또는 코어에 고유한 코드 부문을 실행한다. SPMD 패러다임의 인기는 그것이 서로 다른 프로세서들에 걸쳐 동시에 실행되게 될 다수의 서로 다른 프로그램들을 기록하기가 상당히 어려우면서도, 여전히 단일 문제를 해결하는 데에 있어서 협력가능하는 사실에서 유래한다. 메모리-집약적이되 컴퓨팅-집약적은 아닌 문제에 사용되는 또 다른 접근법은 부문 8에 제시되어 있는 작업을 사용하여 점보멤(JumboMem)을 사용하여 수행되는 바와 같이, 가상 메모리 서버를 생성시키는 것이다. 이는 그의 기본적인 실행에 MPI를 사용한다.

단일 명령, 다중 데이터 ( SIMD )

SIMD 모델은 PE로 지칭되는 다수의 단순한 산술 프로세싱 요소로 구성된다. 각 PE는 불러와 저장할 수 있는 그 자체의 로컬 메모리를 가지나, 프로그램을 컴파일하거나 실행하는 능력은 가지고 있지 않다. 본원에서 사용될 때, "병렬 메모리"라는 용어는 집합적으로 컴퓨팅 시스템 중 로컬 메모리를 지칭한다. 예를 들면, 병렬 메모리는 SIMD 컴퓨터 시스템 중 로컬 메모리의 집합 (예컨대 PE의 로컬 메모리), MIMD 컴퓨터 시스템 중 프로세서의 로컬 메모리 집합 (예컨대 중앙 프로세싱 장치의 로컬 메모리) 등일 수 있다. 프로그램의 컴파일링 및 실행은 제어 장치 (또는 프론트 엔드(front end))로 지칭되는 프로세서에 의해 처리된다 (문헌 [Quinn, Parallel Computing: Theory and Practice, 2nd ed., New York: McGraw-Hill, 1994]). 제어 장치는 보통 버스(bus)에 의해 모든 PE에 연결된다.

모든 활성인 PE는 제어 장치로부터 수신된 프로그램 명령어를 락스텝(lockstep)으로 동기 실행한다. "어떠한 시간 단위에서도, 단일 연산은 각각 서로 다른 데이터를 다루는 다중 프로세싱 장치상에서 동일한 실행 상태에 있다" (문헌 [Quinn, Parallel Computing: Theory and Practice, 2nd ed., New York: McGraw-Hill, 1994, at page 79]). 동일한 명령이 모든 활성인 PE에 의해 병렬로 동시에 실행되기는 하지만, 일부 PE는 임의의 특정 명령을 생략하도록 허용될 수도 있다 (문헌 [Baker, SIMD and MASC: Course notes from CS 6/73301: Parallel and Distributed Computing-power point slides, (2004)2004]). 이는 보통 일부 PE가 이프(if) 명령을 실행하며 나머지 PE는 다른 부분을 실행하는 "이프-엘스(if-else)" 분지 구조를 사용하여 수행된다. 이와 같은 모델은 이미지 프로세싱 및 행렬 연산과 같이 기껏해야 적은 수의 동시에 일어날 수 있는 이프-엘스 분지 구조를 가지는 특성상 "데이터-병렬"인 문제에 이상적이다.

데이터는 제어 장치에 의해 모든 활성인 PE로 브로드캐스트될 수 있으며, 제어 장치는 또한 제어 장치와 PE 사이의 연결 (보통 버스)을 사용하여 특정 PE로부터 데이터 값을 입수할 수 있다. 또한, PE 세트는 PE들 사이의 병렬 데이터 이동을 제공하는 선형 어레이, 2-D 메시 또는 하이퍼큐브(hypercube)와 같은 상호연결 네트워크에 의해 연결된다. 데이터는 락스텝으로 데이터 이동을 포함한 명령어를 실행하는 PE에 의해 동기 병렬 방식으로 이와 같은 네트워크를 통하여 이동된다. PE로 명령을 브로드캐스트하는 것은 제어 장치이다. 특히, SIMD 네트워크는 오늘날 대부분의 병렬 컴퓨터에 의해 사용되는 메시지-전달 패러다임을 사용하지 않는다. 이의 중요한 장점은 SIMD 네트워크 통신이 극히 효율적이며, 통신에 요구되는 최대 시간이 그 특정 통신을 제어하는 알고리즘의 최악-사례 시간에 의해 측정될 수 있다는 것이다.

이 부문의 나머지는 확장된 SIMD ASC 모델을 기술하는 데에 할애된다. ASC는 이와 같은 논의를 위한 알고리즘 설계 및 개발의 중심에 있다.

연상 컴퓨팅 모델

연상 컴퓨팅 (ASC) 모델은 굳이어 에어로스페이스(Goodyear Aerospace)에서 닥터 케네스 배처(Kenneth Batcher)에 의해 설계된 STARAN 연상 SIMD 컴퓨터, 및 그의 집중 네이비(Navy)-활용 계승자인 ASPRO를 기반으로 하는 확장된 SIMD이다.

켄트 주립 대학교 컴퓨터 과학부에서 개발된 ASC는 연상 컴퓨팅용 알고리즘이다 (문헌 [Potter et al., Computer, 27(11):19-25, 1994]) (문헌 [Potter, Associative Computing: A Programming Paradigm for Massively Parallel Computers, Plenum Publishing, 1992]). ASC 모델은 굳이어 에어로스페이스에 의해 구축된 연상 프로세서인 STARAN 및 MPP상에서의 작업으로부터 성장하였다. 그것이 현재는 하드웨어에서 지원되지 않고 있지만, 이와 같은 모델을 위한 컴퓨터를 효율적으로 모사하고 또한 설계하기 위한 연구 노력이 현재 이루어지고 있다.

확장된 SIMD 모델처럼, ASC는 동기 데이터-병렬 프로그래밍을 사용함으로써, 다중-태스킹 및 비동기 점-대-점(point-to-point) 통신 루팅 양자를 회피한다. 다중-태스킹은 불필요한데, 어떠한 시간에도 오직 하나의 태스크만이 실행되며, 다수의 이와 같은 태스크의 예들은 모든 활성인 프로세싱 요소 (PE)에서 락스텝으로 실행되기 때문이다. SIMD 프로그래머와 마찬가지로, ASC는 MPI 및 다른 MIMD 클러스터 패러다임에서 명시적으로 처리되어야 하는 문제인 부하 균형화, 동기화 및 동적 태스크 스케줄링과 연관된 문제를 회피한다.

도 4는 ASC 컴퓨터의 개념 모델을 나타낸다. 명령 스트림 (IS)으로도 알려져 있는 단일 제어 장치, 및 각각 그 자체의 로컬 메모리를 가지는 다수의 프로세싱 요소 (PE)들이 존재한다. 제어 장치 및 PE 어레이는 브로드캐스트/리덕션 네트워크(broadcast/reduction network)를 통하여 연결되며, PE는 PE 데이터 상호연결 네트워크를 통하여 서로 연결된다.

도 4에 나타낸 바와 같이, PE는 그 자체의 로컬 메모리에 위치되어 있는 데이터에 대하여 액세스를 갖는다. 데이터는 제자리에서 유지되며, 응답하는 (활성인) PE는 그의 로컬 데이터를 병렬로 프로세싱한다. 연상이라는 용어의 언급은 메모리 주소 이외의 콘텐트에 의해 데이터를 위치지정하기 위한 탐색의 사용과 관련된다. ASC 모델은 연상 메모리를 사용하지 않는데, 대신 일반 사이클이 탐색-프로세싱-추출인 연상 프로세서이다. 이 모델의 개관은 문헌 [Potter et al., Computer, 27(11):19-25, 1994]에서 가용하다.

알고리즘의 표 특성은 그 자체를 ASC 데이터 구조의 자연적인 표 구조로 인하여 ASC를 사용한 컴퓨팅에 적합하게 한다. 노스 및 노스웨스트 네이버의 데이터의 락스텝 이동을 위한 PE 상호연결 네트워크에 걸친 고도로 효율적인 통신, 및 병렬 컴퓨팅에 대한 탐색 및 최대값에 있어서의 빠르고 일정한 시간 연상 함수는 SWAMP에 의해 잘 활용되고 있다.

연상 연산은 ASC 모델에 의해 요구되는 추가적인 하드웨어로 인하여 일정한 시간 이내에 실행된다 (문헌 [Jin et al., 15th International Parallel and Distributed Processing Symposium (IPDPS'01) Workshops, San Francisco, p. 193, 2001]). 이러한 연산은 어떠한 SIMD-유사 기계에 의해서도 효율적으로 (그러나 덜 빠르게) 수행될 수 있으며, 몇 가지 SIMD 하드웨어 플랫폼상에서 효율적으로 실행되도록 성공적으로 적합화되어 있다 (문헌 [Yuan et al., Parallel and Distributed Computing Systems ( PDCS ), Cambridge, M A, 2009]; [Trahan et al., J. of Parallel and Distributed Computing ( JPDC ), 2009]). 따라서, SWAMP 및 다른 ASC 알고리즘은 벡터 기계를 포함한 SIMD와 밀접하게 관련되어 있는 다른 시스템상에서 효율적으로 실행될 수 있는 바, 그것이 이 모델이 패러다임으로 사용되는 이유이다.

제어 장치는 프로그램 명령어를 불러와 디코딩하고, 제어 신호를 PE로 브로드캐스트한다. 제어 장치의 지휘하에, PE는 그 자체의 로컬 데이터를 사용하여 이러한 명령어를 실행한다. 모든 PE는 암묵적으로 명령어들 사이를 동기화하면서 락스텝 방식으로 명령을 실행한다. ASC는 연상 탐색, 최대/최소 탐색 및 응답자 선택/검출의 몇 가지 관련 고속 포괄 연산을 가진다. 이들은 하기 부문에서 기술된다.

연상 함수

SWAMP 알고리즘과 관련된 함수들을 하기에 논의한다.

연상 탐색

ASC 알고리즘의 기본 연산은 연상 탐색이다. 연상 탐색은 로컬 데이터가 주어진 탐색 키와 일치하는 PE들을 동시에 위치지정한다. 일치하는 데이터를 가지는 PE들은 응답자(responder)로 지칭되며, 비-일치 데이터를 가지는 것들은 비-응답자(non-responder)로 지칭된다. 탐색을 수행한 후, 알고리즘은 이어서 비-응답자를 불활성화하는 것에 의해 응답자에만 영향을 주도록 추가적인 프로세싱을 제한할 수 있다 (또는 그 반대도 마찬가지임). 추가적인 탐색을 수행하는 것은 응답자의 세트를 추가적으로 정밀화(refine)할 수 있다. 연상 탐색은 대각선 내 병렬 작용 내에서 어느 PE가 활성인지를 선택함에 있어서 SWAMP+에 의해 집중적으로 활용된다.

최대/최소 탐색

각 PE가 표준 비교 연산자 (동일, 미만 등)를 사용하여 탐색 키에 대해 그의 로컬 데이터를 비교하는 단순 탐색 이외에도, 연상 컴퓨터는 응답자 세트를 결정하기 위하여 전체 PE 어레이로부터의 데이터가 서로 조합되는 포괄 탐색을 수행할 수도 있다. 가장 일반적인 유형의 포괄 탐색은 응답자가 그의 데이터가 전체 PE 어레이에 걸쳐 최대값 또는 최소값인 PE인 최대/최소 탐색이다. 최대값은 지금까지 계산된 최고값을 추적하기 위하여 그것이 프로세싱하는 모든 대각선에서 SWAMP+에 의해 사용된다. 최대 탐색의 사용은 논리 병렬 작용(logical parallel act)에서 1회, 정렬마다 m+n회로 빈번하게 이루어진다.

응답자 선택/검출

연상 탐색은 다수의 응답자로 이어질 수 있으며, 연상 알고리즘은 하기 3종의 서로 다른 모드들 중 하나로 그 응답자들을 프로세싱할 수 있다: 병렬, 순차 또는 단일 선택. 병렬 응답자 프로세싱은 각 응답자에서 동일한 연산 세트를 동시에 수행한다. 순차적 응답자 프로세싱은 각 응답자를 개별적으로 선택함으로써, 각 응답자에 대하여 상이한 연산 세트를 가능케 한다. 단일 응답자 선택 (하나뽑기(pickOne)로도 알려져 있음)은 프로세싱을 적용받기 위한 하나의 임의로 선택되는 응답자를 선택한다. 다수의 응답자 이외에, 연상 탐색이 응답자로 이어지지 않는 것 역시 가능하다. 이와 같은 경우를 처리하기 위하여, ASC 모델은 탐색에 대한 임의의 응답자가 있었는지를 검출하고, 그와 같은 경우 (임의응답자(anyResponder)로 알려져 있음) 별도의 작용 세트를 수행할 수 있다. SWAMP에서는, 정렬될 문자를 함유하는 다수의 응답자들이 선택되어, 상기에서 언급된 연상 탐색에 기초하여 병렬로 프로세싱된다. 단일 응답자 선택은 최대/최소 탐색을 사용하였을 때 정확히 동일한 최대값을 가지는 다수의 값들이 존재하는 경우 및 때에 이루어진다.

PE 상호연결 네트워크

대부분의 연상 프로세서는 어레이 내에서의 병렬 데이터 이동을 가능케 하는 소정 유형의 PE 상호연결 네트워크를 포함한다. ASC 모델 자체는 어떠한 구체적인 상호연결 네트워크도 특정하지 않는데, 사실 많은 유용한 연상 알고리즘은 그것을 필요로 하지 않는다. 통상적으로, 연상 프로세서는 1D 선형 어레이 또는 2D 메시와 같은 단순한 네트워크를 실행한다. 이러한 네트워크들은 실행하기가 단순하며, 데이터가 동기 방식으로 빠르게 전달되는 것을 가능케 한다. 예를 들어 1D 선형 어레이이면, SWAMP 알고리즘 PE들 사이의 명시적인 통신에 충분하다.

병렬 컴퓨팅 시스템

일반화된 병렬 프로세싱 아키텍처를 도 5에 나타내었다. 각 구성요소가 직접 연결을 가지는 것으로 나타나 있기는 하지만, 다양한 요소들이 지리적으로는 분리되어 있되 네트워크, 예컨대 인터넷을 통하여 연결되어 있을 수 있다는 것이 이해되어야 한다. 혼성 배열구조가 가능하기는 하지만, 병렬 컴퓨터의 주 메모리는 통상적으로 단일 어드레스 공간의 모든 프로세싱 요소들 사이에 공유되어 있거나, 또는 분산되어 있는, 즉 각 프로세싱 요소가 그 자체의 로컬 어드레스 공간을 가지고 있다 (분산 메모리는 메모리가 논리적으로 분산되어 있다는 사실을 지칭하지만, 종종 그것이 물리적으로 분산되어 있다는 것을 암시하기도 함). 분산 공유된 메모리 및 메모리 가상화는 프로세싱 요소가 그 자체의 로컬 메모리를 가지고 비-로컬 프로세서상 메모리에 대한 액세스를 가지는 두 가지 접근법을 조합한다. 로컬 메모리에 대한 액세스는 통상적으로 비-로컬 메모리에 대한 액세스에 비해 더 빠르다.

주 메모리의 각 요소가 동일한 대기시간(latency) 및 밴드폭으로 액세스될 수 있는 컴퓨터 아키텍처는 균일 메모리 액세스(Uniform Memory Access) (UMA) 시스템으로 알려져 있다. 통상적으로, 공유 메모리 시스템에 의해서만 달성될 수 있는 것으로 여기서 메모리는 물리적으로 분산되어 있지 않다. 이와 같은 특성을 가지지 않는 시스템은 비-균일 메모리 액세스(Non-Uniform Memory Access) (NUMA) 아키텍처로 알려져 있다. 분산 메모리 시스템은 비-균일 메모리 액세스를 가진다.

프로세서-프로세서 및 프로세서-메모리 통신은 별형, 고리형, 트리, 하이퍼큐브, 팻 하이퍼큐브 (노드에 1개를 초과하는 프로세서를 가지는 하이퍼큐브) 또는 n-차원 메시를 포함한 무수한 위상(topology)의 공유된 (다포트화 또는 다중화) 메모리, 크로스바 스위치, 공유 버스 또는 상호연결 네트워크를 포함하는 몇 가지 방식으로 하드웨어에서 실행될 수 있다.

상호연결된 네트워크를 기반으로 하는 병렬 컴퓨터는 직접 연결되어 있지 않은 노드들 사이의 메시지 전달을 가능케 하는 루팅(routing)을 포함해야 한다. 프로세서들 사이의 통신에 사용되는 매체는 대형 다중프로세서 기계에서 계층형일 가능성이 있다. 그와 같은 자원은 전용 용도로 시중에서 구매가능하거나, 또는 이러한 자원은 "클라우드", 예컨대 아마존 클라우드 컴퓨팅(Amazon Cloud Computing)을 통하여 액세스될 수 있다.

컴퓨터는 일반적으로 버스를 통하여 메모리에 연계되는 프로세서를 포함한다. 메모리는 RAM 또는 ROM을 포함할 수 있으며, 바람직하게는 시스템이 본원에서 기술되는 함수를 수행하도록 실행가능한 명령어를 저장하는 하나 이상의 유형화된 비-일시적인 매체를 포함한다. 통상의 기술자라면 본 발명 방법의 수행에 필요한 것으로, 또는 가장 적합한 것으로 인식하고 있을 바와 같이, 본 발명의 시스템은 버스를 통하여 서로 통신하는 하나 이상의 프로세서 (예컨대 중앙 프로세싱 장치 (CPU), 그래픽 프로세싱 장치 (GPU) 등), 컴퓨터-판독가능 저장 장치 (예컨대 주 메모리, 정적 메모리 등), 또는 이들의 조합을 포함한다.

프로세서는 관련 분야에 알려져 있는 임의의 적합한 프로세서, 예컨대 인텔 (캘리포니아 산타 클라라 소재)에 의해 제온(XEON) E7이라는 상표명으로 판매되고 있는 프로세서, 또는 AMD (캘리포니아 서니베일 소재)에 의해 옵테론(OPTERON) 6200이라는 상표명으로 판매되고 있는 프로세서일 수 있다.

메모리는 컴퓨터-판독가능 저장 장치를 지칭할 수 있으며, 하나 이상의 명령어 (예컨대 본원에서 나타내는 임의의 방법론 또는 함수를 포함하는 소프트웨어), 데이터 (예컨대 임의의 유형화된 물리적 대상 예컨대 환자의 염색체에서 발견되는 유전자 서열을 포함하는 것), 또는 이들 양자의 세트가 저장되는 임의의 기계-판독가능 매체를 포함할 수 있다. 예시적인 실시양태에서는 상기 컴퓨터-판독가능 저장 장치가 단일 매체일 수도 있지만, "컴퓨터-판독가능 저장장치"라는 용어는 하나 이상의 명령어 또는 데이터 세트를 저장하는 단일 매체 또는 다중 매체 (예컨대 중앙화되거나 분산된 데이터베이스, 및/또는 관련 캐시 또는 서버)를 포함하는 것으로 받아들여져야 한다. 따라서, "컴퓨터-판독가능 저장장치"라는 용어는 비제한적으로 고체-상태 메모리 (예컨대 가입자 식별 모듈(subscriber identity module) (SIM) 카드, 보안 디지털 카드(secure digital card) (SD 카드), 마이크로 SD 카드, 또는 고체-상태 드라이브 (SSD)), 광학 및 자기 매체, 그리고 임의의 다른 유형화된 저장 매체를 포함하는 것으로 받아들여질 수 있다. 바람직하게는, 컴퓨터-판독가능 저장 장치는 유형의 비-일시적인 매체를 포함한다. 그와 같은 비-일시적인 매체는 예를 들면 일시적 파장 및 신호는 배제한다. "비-일시적인 메모리"는 신호 자체와 같은 컴퓨터 판독가능 전송 매체는 배제하는 것으로 해석되어야 한다.

본 발명에 따른 입력/출력 장치는 비디오 디스플레이 장치 (예컨대 액정 디스플레이 (LCD) 또는 음극선관 (CRT) 모니터), 문자숫자 입력 장치 (예컨대 키보드), 커서 제어 장치 (예컨대 마우스 또는 트랙패드), 디스크 드라이브 장치, 신호 발생 장치 (예컨대 스피커), 터치스크린, 가속도계, 마이크, 휴대용 무선 주파수 안테나, 그리고 예를 들면 네트워크 인터페이스 카드 (NIC), 와이-파이 카드 또는 휴대용 모뎀일 수 있는 네트워크 인터페이스 장치를 포함할 수 있다.

샘플 획득 및 제조

본 발명은 생물학적 샘플로부터 회수된 핵산에 대응하는 서열 (예컨대 핵산 서열, 아미노산 서열)의 생성 방법을 포함한다. 일부 실시양태에서, 생성되는 정보는 대상체로부터 수득된 핵산 물질에 존재하는 돌연변이를 식별하는 데에 사용될 수 있다. 일부 실시양태에서는, 샘플, 즉 핵산 (예컨대 DNA 또는 RNA)이 대상체로부터 수득되며, 상기 핵산은 처리되고 (용해, 증폭 및/또는 정제됨), 상기 핵산은 하기하는 방법을 사용하여 서열분석된다. 많은 실시양태에서, 서열분석의 결과는 선형 핵산 서열이 아니며, 대신 대상체에 대하여 서열로 재-조립되어야 하는 수천 또는 수백만개의 개별적인 짧은 핵산 리드들의 집합이다. 일단 리드들이 정렬되어 서열을 생성하고 나면, 정렬된 서열은 예를 들면 질환을 표시할 수 있는 돌연변이를 식별하기 위하여 참조 서열과 비교될 수 있다. 다른 실시양태에서, 대상체는 참조 서열 구성체, 즉 상기한 바와 같은 비순환 방향 그래프 ("DAG")에 대한 리드들의 정렬에 기초하여 특정 돌연변이를 가지는 것으로 식별될 수 있다.

상기 목적들 중 어느 것을 위하여, 방법은 생물학적 샘플에 적용될 수 있다. 상기 생물학적 샘플은 예를 들면 환자의 생물학적 물질을 함유하는 혈액, 전혈, 혈장, 눈물, 유두 흡인물, 혈청, 대변, 소변, 타액, 순환 세포, 조직, 생검 샘플, 모낭의 샘플 또는 기타 샘플을 포함할 수 있다. 그와 같은 샘플에 기초하여 시험을 수행함에 있어서의 한 가지 문제는 대부분의 경우에서 미량의 해당 돌연변이를 함유하는 DNA 또는 RNA만이 샘플 중에 존재할 수 있다는 것이다. 이는 돌연변이 핵산이 매우 소량으로 존재하는 비-침습성 샘플, 예컨대 협측 면봉 또는 혈액 샘플에서 특히 그러하다. 일부 실시양태에서는, 핵산 단편이 자연적으로 짧을 수 있는데, 다시 말하자면 샘플 중 관련 핵산의 무작위 전단이 짧은 단편을 생성시킬 수 있다. 다른 실시양태에서, 핵산은 처리의 용이성을 위하여, 또는 서열분석 기술이 1000 염기 미만, 예컨대 500 염기 미만, 예컨대 200 염기 미만, 예컨대 100 염기 미만, 예컨대 50 염기 미만의 서열 리드만을 서열분석할 수 있기 때문에, 고의로 단편화된다. 본원에서 기술되는 방법이 가변적인 길이의 서열들을 정렬하는 데에 사용될 수 있기는 하지만, 일부 실시양태에서, 다수의 핵산 리드들 대부분은 상기 서열분석 방법을 따르게 되며, 1000개 미만의 염기, 예컨대 500개 미만의 염기, 예컨대 200개 미만의 염기, 예컨대 100개 미만의 염기, 예컨대 50개 미만의 염기를 포함한다.

핵산은 관련 분야에 알려져 있는 방법에 의해 수득될 수 있다. 일반적으로, 핵산은 다양한 기술, 예컨대 그의 내용이 전체적으로 본원에 참조로 포함되는 문헌 [Maniatis, et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor, N.Y., pp. 280-281, (1982)]에 기술되어 있는 것들에 의해 생물학적 샘플로부터 추출될 수 있다.

먼저 샘플의 추출물을 제조한 다음, 충분하게 순수한 핵산 조제물을 수득하기 위하여 추가적인 단계 -- 즉 시차 침전, 컬럼 크로마토그래피, 유기 용매를 사용한 추출 등 --을 수행할 필요가 있을 수 있다. 추출물은 관련 분야의 표준 기술을 사용하여, 예를 들면 세포의 화학적 또는 기계적 용해에 의해 제조될 수 있다. 다음에, 임의의 오염성이며 잠재적으로 방해성인 단백질들을 변성시키기 위하여, 추출물은 예를 들면 여과 및/또는 원심분리에 의하거나, 및/또는 카오트로픽 염 예컨대 구아니디늄 이소티오시아네이트 또는 우레아를 사용하여, 또는 유기 용매 예컨대 페놀 및/또는 HCCl₃을 사용하여 추가적으로 처리될 수 있다. 일부 실시양태에서, 샘플은 대상체 샘플, 예컨대 혈액 샘플로부터 수집된 RNA, 예컨대 mRNA를 포함할 수 있다. 일반적인 RNA 추출 방법에 대해서는 관련 분야에 잘 알려져 있는데, 문헌 [Ausubel et al., Current Protocols of Molecular Biology, John Wiley and Sons (1997)]을 포함한 표준 분자 생물학 교재에 개시되어 있다. 파라핀 매립된 조직으로부터의 RNA 추출 방법이 예를 들면 문헌 [Rupp and Locker, Lab Invest. 56:A67 (1987)] 및 [De Andres et al., BioTechniques 18:42044 (1995)]에 개시되어 있다. 이러한 참고문헌들 각각의 내용은 그 전체가 본원에 참조로 포함된다. 특히, RNA 단리는 키아젠(Qiagen)과 같은 시중 제조자로부터의 정제 키트, 완충제 세트 및 프로테아제를 사용하여 제조자의 지침에 따라 수행될 수 있다. 예를 들면, 배양물 중 세포로부터의 전체 RNA가 키아젠 RNeasy 미니-컬럼을 사용하여 단리될 수 있다. 다른 시중에서 가용한 RNA 단리 키트로는 마스터퓨어(MASTERPURE) 완전 DNA 및 RNA 정제 키트 (에피센터(EPICENTRE), 위스콘신 매디슨 소재) 및 파라핀 블록(Paraffin Block) RNA 단리 키트 (암비온(Ambion), Inc.)가 포함된다. 조직 샘플로부터의 전체 RNA는 RNA Stat-60 (Tel-Test)을 사용하여 단리될 수 있다. 종양으로부터 제조되는 RNA는 예를 들면 세슘 클로라이드 밀도 구배 원심분리에 의해 단리될 수 있다.

분석용 서열분석

서열분석은 관련 분야에 알려져 있는 임의의 방법에 의한 것일 수 있다. DNA 서열분석 기술에는 표지된 종결자 또는 프라이머 및 판 또는 모세관에서의 겔 분리를 사용하는 전통적 디데옥시 서열분석 반응 (생거법), 역으로 종결된 표지 뉴클레오티드를 사용하는 합성에 의한 서열분석, 피로시퀀싱, 454 서열분석, 표지된 올리고뉴클레오티드 프로브의 라이브러리에 대한 대립유전자 특이적 혼성화, 표지된 클론의 라이브러리에 대한 대립유전자 특이적 혼성화 후 이어지는 라이게이션을 사용한 합성에 의한 서열분석, 중합 단계 동안의 표지된 뉴클레오티드 도입의 실시간 모니터링, 폴로니(polony) 서열분석 및 솔리드(SOLiD) 서열분석이 포함된다. 분리된 분자의 서열분석은 더 최근에는 폴리머라제 또는 리가제를 사용한 순차적 또는 단일 연장 반응에 의해서는 물론, 프로브의 라이브러리를 사용한 단일 또는 순차적 시차 혼성화에 의해 입증되어 있다. 서열분석 전에는, 샘플 중 핵산의 일부 또는 전체를 증폭시키는 것이 또한 유익할 수 있다. 일부 실시양태에서, 핵산은 관련 분야에 알려져 있는 폴리머라제 연쇄 반응 (PCR) 기술을 사용하여 증폭된다.

본 발명의 방법에서 사용될 수 있는 서열분석 기술의 일 예는 DNA 또는 RNA를 증폭시키는 데에 활용될 수 있는 폴리머라제-기반 합성에-의한-서열인 일루미나(Illumina) 서열분석 (예컨대 MiSeq™ 플랫폼)이다. DNA의 일루미나 서열분석은 폴드-백(fold-back) PCR 및 고착 프라이머를 사용한 고체 표면상에서의 DNA의 증폭을 기반으로 한다. 게놈 DNA는 단편화되며, 단편의 5' 및 3' 말단에는 어댑터가 첨가된다. 유동 세포 채널의 표면에 부착되어 있는 DNA 단편은 연장 및 가교 증폭된다. 단편은 이중 가닥이 되며, 이중 가닥 분자는 변성된다. 다수의 고체-상 증폭 및 변성 주기는 각 유동 세포 채널에서 동일한 주형을 가지는 수백만 클러스터의 대략 1,000개 사본인 단일-가닥 DNA 분자를 생성시킬 수 있다. 순차적 서열분석을 수행하는 데에는 프라이머, DNA 폴리머라제 및 형광단-표지되어 있으며 역으로 종결되는 4종의 뉴클레오티드들이 사용된다. 뉴클레오티드 도입 후에는 레이저를 사용하여 형광단이 여기되고, 이미지가 포착된 후, 첫 번째 염기의 정체성이 기록된다. 도입되는 각 염기로부터의 3' 종결자 및 형광단은 제거되며, 상기 도입, 검출 및 식별 단계가 반복된다. 일루미나 서열분석을 사용하여 RNA를 검출할 때에는, 샘플의 RNA 발현을 측정하기 위하여 RNA 단편이 단리된 후 증폭된다는 것 이외에는 동일한 방법이 적용된다. 서열분석기를 사용하여 서열이 보내진 후, 그것은 생물학적 서열 및 품질 점수를 저장하기 위한 텍스트-기반 포맷인 FASTQ 파일과 같은 데이터 파일로 출력될 수 있다 (상기 논의 참조).

본 발명의 방법에 사용될 수 있는 DNA 서열분석 기술의 또 다른 예는 라이프 테크놀로지스(Life Technologies)에 의해 제공되는 이온 토렌트(Ion Torrent)™ 서열분석이다. 그 각각의 내용이 전체적으로 본원에 참조로 포함되는 U.S. 특허 출원 제2009/0026082호, 2009/0127589호, 2010/0035252호, 2010/0137143호, 2010/0188073호, 2010/0197507호, 2010/0282617호, 2010/0300559호, 2010/0300895호, 2010/0301398호 및 2010/0304982호를 참조하라. 이온 토렌트™ 서열분석에서, DNA는 대략 300-800개 염기쌍의 단편으로 전단되며, 상기 단편은 평활 말단이 된다. 다음에, 올리고뉴클레오티드 어댑터가 단편의 말단에 라이게이션된다. 상기 어댑터는 단편의 증폭 및 서열분석을 위한 프라이머로서 작용한다. 상기 단편은 표면에 부착될 수 있는데, 단편이 개별적으로 해상가능하도록 하는 해상도로 부착된다. 하나 이상 뉴클레오티드의 첨가는 양성자 (H⁺)를 방출하며, 이 신호는 서열분석 기기에서 검출 및 기록된다. 신호 강도는 도입되는 뉴클레오티드의 수에 비례한다. 이온 토렌트 데이터는 FASTQ 파일로 출력될 수도 있다.

본 발명의 방법에 사용될 수 있는 DNA 및 RNA 서열분석 기술의 또 다른 예는 454™ 서열분석 (로체(Roche)) (문헌 [Margulies, M et al. 2005, Nature, 437, 376-380])이다. 454™ 서열분석은 피로시퀀싱도 활용하는 합성에-의한-서열분석 기술이다. DNA의 454™ 서열분석은 2개의 단계를 포함한다. 첫 번째 단계에서는, DNA가 대략 300-800개 염기쌍의 단편으로 전단되며, 상기 단편은 둔단 마감된다. 다음에, 올리고뉴클레오티드 어댑터가 단편의 말단에 라이게이션된다. 상기 어댑터는 단편의 증폭 및 서열분석을 위한 프라이머로서 작용한다. 상기 단편은 예를 들면 5'-바이오틴 태그를 함유하는 어댑터 B를 사용하여 DNA 포획 비드, 예컨대 스트렙타비딘-코팅된 비드에 부착될 수 있다. 비드에 부착된 단편은 유-수 에멀션의 액적 내에서 PCR 증폭된다. 결과는 각 비드 상의 클론 증폭된 DNA 단편의 다수의 사본이다. 두 번째 단계에서, 상기 비드는 웰 (피코-리터 크기)에 포획된다. 각 DNA 단편상에서 병렬로 피로시퀀싱이 수행된다. 하나 이상 뉴클레오티드의 첨가는 서열분석 기기의 CCD 카메라에 의해 기록되는 광 신호를 발생시킨다. 신호 강도는 도입되는 뉴클레오티드의 수에 비례한다. 피로시퀀싱은 뉴클레오티드 첨가시 방출되는 피로포스페이트 (PPi)를 사용한다. PPi는 아데노신 5' 포스포술페이트의 존재하에 ATP 술푸릴라제에 의해 ATP로 전환된다. 루시퍼라제는 ATP를 사용하여 루시페린을 옥시루시페린으로 전환시키는데, 이와 같은 반응은 검출 및 분석되는 광을 발생시킨다. 또 다른 실시양태에서는, 유전자 발현을 측정하는 데에 피로시퀀싱이 사용된다. RNA의 피로시퀀싱은 유사하게 DNA의 피로시퀀싱에 적용되는데, 미세한 비드에 부분적 rRNA 유전자 서열분석을 부착 적용한 다음 부착물을 개별 웰에 위치시키는 것에 의해 수행된다. 다음에, 부착된 부분적 rRNA 서열은 유전자 발현 프로파일을 측정하기 위하여 증폭된다 (문헌 [Sharon Marsh, Pyrosequencing ® Protocols in Methods in Molecular Biology, Vol. 373, 15-23 (2007)]).

본 발명의 방법에 사용될 수 있는 DNA 및 RNA 검출 기술의 또 다른 예는 솔리드™ 기술 (어플라이드 바이오시스템즈(Applied Biosystems))이다. 솔리드™ 기술 시스템은 DNA 및 RNA 모두의 대규모로 병렬인 차세대 서열분석을 실행하는 데에 활용될 수 있는 라이게이션 기반 서열분석 기술이다. DNA 솔리드™ 서열분석에서는, 게놈 DNA가 단편으로 전단된 후, 단편의 5' 및 3' 말단에 어댑터가 결합됨으로써 단편 라이브러리가 생성된다. 대안적으로는, 단편의 5' 및 3' 말단에 어댑터를 라이게이션시키고, 단편을 원형화한 후, 원형화된 단편을 분해하여 내부 어댑터를 생성시키고, 생성되는 단편의 5' 및 3' 말단에 어댑터를 결합시킴으로써 쌍을 이룬(mate-paired) 라이브러리를 생성시키는 것에 의해, 내부 어댑터가 도입될 수 있다. 다음에, 비드, 프라이머, 주형 및 PCR 성분들을 함유하는 미세반응기에서 클론 비드 군집이 제조된다. PCR 후, 주형은 변성되며, 연장된 주형을 가지는 비드를 분리하기 위하여 비드가 보충된다. 선택된 비드 상의 주형은 유리 슬라이드에의 결합을 가능케 하는 3' 변형에 적용된다. 서열은 부분적으로 무작위인 올리고뉴클레오티드의, 특이적 형광단에 의해 식별되는 중앙 측정 염기 (또는 염기의 쌍)와의 순차적 혼성화 및 라이게이션에 의해 측정될 수 있다. 색상이 기록된 후, 라이게이션된 올리고뉴클레오티드가 절단 및 제거된 다음, 과정이 반복된다.

다른 실시양태에서는, 유전자 발현의 솔리드™ 연속 분석 (SAGE)이 유전자 발현을 측정하는 데에 사용된다. 유전자 발현의 연속 분석 (SAGE)은 각 전사체에 대한 개별 혼성화 프로브를 제공할 필요 없이 많은 수의 유전자 전사체의 동시적이며 정량적인 분석을 가능케 하는 방법이다. 먼저, 전사체를 특이적으로 식별하기에 충분한 정보를 함유하는 짧은 서열 태그 (약 10-14 bp)가 생성되는데, 단 상기 태그는 각 전사체 내의 고유 위치로부터 수득된다. 다음에, 많은 전사체가 서로 연결되어 긴 연속 분자를 형성하는데, 그것은 서열분석되어 다수 태그들의 정체성을 동시에 밝힐 수 있다. 임의 전사체 군집의 발현 패턴은 개별 태그의 풍부도를 측정하는 것, 및 각 태그에 대응하는 유전자를 식별하는 것에 의해, 정량 평가될 수 있다. 추가적인 세부사항에 대해서는 예를 들면 문헌 [Velculescu et al., Science 270:484 487 (1995)]; 및 [Velculescu et al., Cell 88:243 51 (1997]을 참조하라 (이들 각각의 내용은 그 전체가 본원에 참조로 포함됨).

본 발명의 방법에 사용될 수 있는 또 다른 서열분석 기술에는 예를 들면 헬리코스(Helicos) 진정 단일 분자 서열분석(Helicos True Single Molecule Sequencing) (tSMS) (문헌 [Harris T.D. et al. (2008) Science 320:106-109])이 포함된다. tSMS 기술에서는, DNA 샘플이 대략 100 내지 200개 뉴클레오티드의 가닥으로 절단된 후, 각 DNA 가닥의 3' 말단에 폴리A 서열이 첨가된다. 각 가닥은 형광 표지된 아데노신 뉴클레오티드의 첨가에 의해 표지된다. 다음에, DNA 가닥은 유동 세포 표면에 고정되어 있는 수백만개의 올리고-T 포획 부위를 함유하는 유동 세포에 혼성화된다. 상기 주형은 약 1억개 주형/cm²의 밀도일 수 있다. 다음에, 유동 세포는 기기, 예컨대 헬리스코프(HeliScope).TM 서열분석기에 적재되며, 유동 세포의 표면에 레이저가 조명됨으로써, 각 주형의 위치를 밝힌다. CCD 카메라가 유동 세포 표면상 주형의 위치를 매핑할 수 있다. 다음에, 주형 형광 표지가 절단된 후, 세척 제거된다. 서열분석 반응은 DNA 폴리머라제 및 형광 표지된 뉴클레오티드를 도입하는 것에 의해 개시된다. 올리고-T 핵산이 프라이머로서 사용된다. 폴리머라제는 주형 유도 방식으로 표지된 뉴클레오티드를 프라이머에 도입한다. 폴리머라제 및 비도입 뉴클레오티드는 제거된다. 형광 표지된 뉴클레오티드의 도입을 유도한 주형은 유동 세포 표면을 이미지화하는 것에 의해 검출된다. 이미지화 후, 절단 단계는 형광 표지를 제거하며, 다른 형광 표지된 뉴클레오티드들을 사용하여 원하는 리드 길이가 달성될 때까지 과정이 반복된다. 각 뉴클레오티드 첨가 단계마다 서열 정보가 수집된다. tSMS에 대한 추가적인 기술은 예를 들면 라피두스(Lapidus) 등 (U.S. 특허 제7,169,560호), 라피두스 등 (U.S. 특허 출원 제2009/0191565호), 퀘이크(Quake) 등 (U.S. 특허 제6,818,395호), 해리스(Harris) (U.S. 특허 제7,282,337호), 퀘이크 등 (U.S. 특허 출원 제2002/0164629호), 및 문헌 [Braslavsky, et al., PNAS (USA), 100:3960-3964 (2003)]에 나타나 있는 바, 이들 참고문헌 각각의 내용은 그 전체가 본원에 참조로 포함된다.

본 발명의 방법에 사용될 수 있는 서열분석 기술의 또 다른 예에는 DNA 및 RNA 모두를 서열분석하는 퍼시픽 바이오사이언시즈(Pacific Biosciences)의 단일 분자 실시간 (SMRT) 기술이 포함된다. SMRT에서는, 4종의 DNA 염기 각각이 4종의 서로 다른 형광 염료들 중 하나에 결합된다. 이들 염료는 포스포연결되어(phospholinked) 있다. 단일 DNA 폴리머라제가 제로-모드(zero-mode) 도파관 (ZMW)의 저부에 주형 단일 가닥 DNA의 단일 분자와 함께 고정된다. ZMW는 ZMW로부터 빠르게 확산되는 (마이크로초 이내) 형광 뉴클레오티드 바탕에 대비하여 DNA 폴리머라제에 의한 단일 뉴클레오티드 도입의 관찰을 가능케 하는 구속 구조이다. 성장하는 가닥에 뉴클레오티드를 도입하는 데에는 몇 밀리초가 걸린다. 이와 같은 시간 동안, 형광 표지가 여기됨으로써 형광 신호를 발생시킨 후, 형광 태그는 절단 제거된다. 대응하는 염료 형광의 검출은 어느 염기가 도입되었는지를 표시해준다. 상기 과정이 반복된다. RNA를 서열분석하기 위해서는, DNA 폴리머라제가 ZMW의 리버스 트랜스크립타제로 대체되고, 그에 따라 과정이 이어진다.

본 발명의 방법에 사용될 수 있는 서열분석 기술의 또 다른 예는 나노포어(nanopore) 서열분석 (문헌 [Soni G V and Meller, AClin Chem 53:1996-2001 (2007)])이다. 나노포어는 직경 1 나노미터 수준의 작은 구멍이다. 전도성 유체 중에의 나노포어의 침지 및 그를 가로지르는 전위의 적용은 나노포어를 통한 이온의 전도로 인한 약간의 전류를 초래한다. 흐르는 전류의 양은 나노포어의 크기에 민감하다. DNA 분자가 나노포어로 통과할 때, DNA 분자상 각 뉴클레오티드는 서로 다른 정도로 나노포어를 가로막는다. 이에 따라, DNA 분자가 나노포어를 통과할 때 나노포어를 통과하는 전류의 변화는 DNA 서열의 판독을 나타낸다.

본 발명의 방법에 사용될 수 있는 서열분석 기술의 또 다른 예는 DNA를 서열분석하는 데에 화학물질-민감성 전계 효과 트랜지스터 (chemFET) 어레이를 사용하는 것을 포함한다 (예컨대 US 특허 출원 공개 제20090026082호에 기술되어 있는 바와 같음). 기술의 일 예에서는, DNA 분자가 반응 챔버에 위치될 수 있으며, 주형 분자가 폴리머라제에 결합된 서열분석 프라이머에 혼성화될 수 있다. 서열분석 프라이머의 3' 말단에서의 새로운 핵산 가닥으로의 하나 이상 트리포스페이트의 도입은 chemFET에 의해 전류의 변화로 검출될 수 있다. 어레이는 다수의 chemFET 센서를 가질 수 있다. 또 다른 예에서는, 단일 핵산이 비드에 결합될 수 있으며, 상기 핵산은 비드상에서 증폭될 수 있고, 개별 비드는 각 챔버가 chemFET 센서를 가지는 chemFET 어레이 상의 개별 반응 챔버들로 전달될 수 있으며, 핵산이 서열분석될 수 있다.

본 발명의 방법에 사용될 수 있는 서열분석 기술의 또 다른 예는 전자 현미경을 사용하는 것을 포함한다 (문헌 [Moudrianakis E.N. and Beer M. Proc Natl Acad Sci USA. 1965 March; 53:564-71]). 기술의 일 예에서는, 전자 현미경을 사용하여 구분가능한 금속계 표지를 사용하여 개별 DNA 분자가 표지된다. 다음에, 서열을 측정하기 위하여, 이러한 분자는 편평한 표면상에서 신장된 후, 전자 현미경을 사용하여 이미지화된다.

추가적인 검출 방법은 차후의 형광 또는 비-형광 검출, 질량 분광측정법을 사용하는 바코드 질량 검출, 방출되는 라디오파의 검출, 정렬된 바코드로부터의 산란광의 검출, 정량 PCR 또는 디지털 PCR법을 사용하는 형광 검출을 위하여 마이크로어레이에 결합하는 것을 활용할 수 있다. 비교 핵산 혼성화 어레이는 환자 샘플 DNA 내에서의 사본 수 변화를 검출하기 위한 기술이다. 샘플 DNA와 참조 DNA는 예를 들면 구별되는 형광단을 사용하여 서로 다르게 표지된 다음, 수많은 프로브들에 대하여 혼성화된다. 다음에, 샘플 및 참조의 형광 강도가 측정되는데, 이후 사본 수 변화를 계산하는 데에는 형광 강도 비가 사용된다. 비교 게놈 혼성화 어레이의 방법에 대해서는 문헌 [Shinawi M, Cheung SW The array CGH and its clinical applications, Drug Discovery Today 13 (17-18):760-70]에 더욱 상세하게 논의되어 있다. 마이크로어레이 검출이 바로 FASTQ 파일을 생성시키지는 않을 수 있기는 하지만, 마이크로어레이 서열분석기에 의해 생성되는 데이터를 FASTQ 또는 유사 포맷으로 전환시키는 프로그램들이 가용하다.

DNA 분자, RNA 분자 및 사본 수를 검출하는 또 다른 방법은 형광 제자리 혼성화 (FISH)이다 (문헌 [In Situ Hybridization Protocols (Ian Darby ed., 2000)]). FISH는 DNA 서열 중 돌연변이와 같은 특정 염색체 재배열 및 사본 수 변화를 검출하는 분자 세포유전학 기술이다. DNA 분자는 화학적으로 변성된 후, 2개 가닥으로 분리된다. 다음에, 단일 가닥 프로브가 변성된 DNA 가닥과 함께 인큐베이팅된다. 표적 서열 부분에 따라 신호 가닥 프로브가 선택되는데, 상보성인 서열 부분에 대해서는 고도의 친화성을 가진다. 프로브에는 반복 서열 프로브, 전염색체 프로브 및 좌위-특이적 프로브가 포함될 수 있다. 인큐베이팅하는 동안, 조합된 프로브와 DNA 가닥이 혼성화된다. 다음에, 임의의 변화를 평가하기 위하여 현미경하에서 결과가 가시화 및 정량된다.

또 다른 실시양태에서는, 매스어레이(MassARRAY)™-기반 유전자 발현 프로파일링법이 유전자 발현을 측정하는 데에 사용된다. RNA의 단리 및 역전사에 이어지는 세퀘놈(Sequenom), Inc. (캘리포니아 샌디에고 소재)에 의해 개발된 매스어레이™-기반 유전자 발현 프로파일링법에서는, 단일 염기를 제외하고는 모든 위치에서 표적 cDNA 영역과 일치하며 내부 표준으로 작용하는 합성 DNA 분자 (경쟁자)가 수득된 cDNA에 첨가된다. cDNA/경쟁자 혼합물은 PCR 증폭된 후, PCR-후 새우 알칼리성 포스파타제 (SAP) 효소 처리에 적용되는데, 이는 나머지 뉴클레오티드들의 탈인산화를 초래한다. 알칼리성 포스파타제의 불활성화 후, 경쟁자 및 cDNA로부터의 PCR 생성물은 프라이머 연장에 적용되는데, 이는 경쟁자- 및 cDNA-유래 PCR 생성물에 대하여 구별되는 질량 신호를 발생시킨다. 정제 후, 이러한 생성물은 매트릭스-보조 레이저 탈착 이온화 비행시간 질량 분광측정법 (MALDI-TOF MS) 분석을 사용한 분석에 필요한 성분들이 사전-적재되어 있는 칩 어레이상에 분배된다. 다음에, 생성되는 질량 스펙트럼에서 피크 면적의 비를 분석하는 것에 의해, 반응에 존재하는 cDNA가 정량된다. 추가적인 세부사항에 대해서는 예를 들면 문헌 [Ding and Cantor, Proc. Natl. Acad. Sci. USA 100:3059 3064 (2003)]을 참조하라.

추가적인 PCR-기반 기술에는 예를 들면 시차 디스플레이 (문헌 [Liang and Pardee, Science 257:967 971 (1992)]); 증폭된 단편 길이 다형 (iAFLP) (문헌 [Kawamoto et al., Genome Res. 12:1305 1312 (1999)]); 비드어레이(BeadArray)™ 기술 (일루미나(Illumina), 캘리포니아 샌디에고 소재; 문헌 [Oliphant et al., Discovery of Markers for Disease (Supplement to Biotechniques), June 2002]; [Ferguson et al., Analytical Chemistry 72:5618 (2000)]); 유전자 발현의 속성 검정에 시중에서 구입가능한 루미넥스(Luminex)100 LabMAP 시스템 및 다중 색상-코딩된 미세구체 (루미넥스 Corp., 텍사스 오스틴 소재)를 사용하는 유전자 발현 검출용 비드 어레이 (BADGE) (문헌 [Yang et al., Genome Res. 11:1888 1898 (2001)]); 및 고도 포괄 발현 프로파일링 (HiCEP) 분석 (문헌 [Fukumura et al., Nucl. Acids. Res. 31(16) e94 (2003)])이 포함된다. 이들 각각의 내용은 그 전체가 본원에 참조로 포함된다.

소정 실시양태에서는, 나일론 멤브레인 어레이, 마이크로칩 어레이 및 유리 슬라이드 어레이, 예컨대 어피메트릭스(Affymetrix) (캘리포니아 산타 클라라 소재)로부터 시중에서 구입가능한 것을 포함한 마이크로어레이 기술을 사용하여 유전자 발현의 변화가 식별 또는 확인될 수도 있다. 일반적으로, RNA 샘플이 단리된 후, 역전사를 통하여 표지된 cDNA로 전환된다. 다음에, 표지된 cDNA는 해당 세포 또는 조직으로부터의 특정 DNA 프로브를 가지는 나일론 멤브레인, 마이크로칩 또는 유리 슬라이드 중 어느 하나상에 혼성화된다. 다음에, 혼성화된 cDNA가 검출 및 정량된 후, 생성된 유전자 발현 데이터는 분석용 대조와 비교될 수 있다. 표지, 혼성화 및 검출 방법은 마이크로어레이 지지체가 나일론 멤브레인인지, 마이크로칩인지 또는 유리 슬라이드인지에 따라 가변적이다. 나일론 멤브레인 어레이는 통상적으로 P-dNTP 표지된 프로브와 혼성화된다. 유리 슬라이드 어레이는 통상적으로 2종의 구별되는 형광 표지된 뉴클레오티드를 사용하여 표지하는 것을 포함한다. 마이크로어레이를 제조하고 유전자 생성물 발현 (예컨대 RNA 또는 단백질)을 측정하는 방법은 그의 내용이 전체적으로 본원에 참조로 포함되는 예트만(Yeatman) 등 (U.S. 특허 출원 제2006/0195269호)에 나타나 있다.

일부 실시양태에서는, 질량 분광측정법 (MS) 분석이 단독으로, 또는 다른 방법 (예컨대 면역검정 또는 RNA 측정 검정)과의 조합으로써 생물학적 샘플 중 본원에서 개시되는 1종 이상 바이오마커의 존재 및/또는 양을 측정하는 데에 사용될 수 있다. 일부 실시양태에서, MS 분석은 예를 들면 직접-점(direct-spot) MALDI-TOF 또는 액체 크로마토그래피 MALDI-TOF 질량 분광측정법 분석과 같은 매트릭스-보조 레이저 탈착/이온화 (MALDI) 비행시간 (TOF) MS 분석을 포함한다. 일부 실시양태에서, MS 분석은 예를 들면 액체 크로마토그래피 (LC) ESI-MS와 같은 전기분무 이온화 (ESI) MS를 포함한다. 질량 분석은 시중에서-구입가능한 분광측정기를 사용하여 수행될 수 있다. 생물학적 샘플 중 바이오마커 펩티드의 존재 및 양을 검출하기 위하여 MALDI-TOF MS 및 ESI-MS를 포함한 MS 분석을 활용하는 방법에 대해서는 관련 분야에 알려져 있다. 추가적인 안내를 위해서는, 예를 들면 그 각각이 전체적으로 본원에 참조로 포함되는 U.S. 특허 제6,925,389호; 6,989,100호; 및 6,890,763호를 참조하라.

본 발명의 방법, 서열 구성체 및 시스템에서 사용하기 위한 단백질 서열은 관련 관련 분야 통상의 기술자에게 알려져 있는 수많은 기술을 사용하여 측정될 수 있다. 예를 들면, 아미노산 서열 및 아미노산 서열 리드들은 질량 분광측정법 또는 에드만(Edman) 분해를 사용하여 단백질 또는 단백질의 일부를 분석하는 것에 의해 생성될 수 있다. 예를 들면, 질량 분광측정법은 예를 들어 직접-점 MALDI-TOF 또는 액체 크로마토그래피 MALDI-TOF 질량 분광측정법 분석과 같은 매트릭스-보조 레이저 탈착/이온화 (MALDI) 비행시간 (TOF) MS 분석, 예를 들어 액체 크로마토그래피 (LC) ESI-MS와 같은 전기분무 이온화 (ESI) MS, 또는 기타 기술 예컨대 MS-MS를 포함할 수 있다. 에드만 분해 분석은 모델 49X 프로사이스(Procise) 단백질/펩티드 서열분석기 (어플라이드 바이오시스템즈/라이프 테크놀로지스)와 같은 시중의 기기를 사용하여 수행될 수 있다. 서열분석된 아미노산 서열, 즉 폴리펩티드, 즉 단백질은 10개 이상 아미노산 길이, 예컨대 20개 이상 아미노산 길이, 예컨대 50개 이상 아미노산 길이일 수 있다.

참조 포함

본 개시 전체에 걸쳐 특허, 특허 출원, 특허 공개, 잡지, 서적, 논문, 웹 콘텐츠와 같은 다른 문헌에 대한 참조 및 언급이 이루어져 있다. 그와 같은 문헌 모두는 모든 목적에 있어서 그 전체가 의거 본원에 참조로 포함된다.

등가물

본원에서 나타내고 기술한 것들 이외에도, 본 발명의 다양한 변형 및 그의 많은 다른 실시양태들이 본원에서 인용되는 과학 및 특허 문헌에 대한 언급을 포함한 본 명세서의 전체 내용으로부터 통상의 기술자에게 드러나게 될 것이다. 본원의 주제는 그의 다양한 실시양태 및 그의 등가물들에서 본 발명의 실시에 적합화될 수 있는 중요한 정보, 예시 및 지침을 포함하고 있다.

SEQUENCE LISTING <110> Seven Bridges Genomics Kural, Deniz <120> METHODS AND SYSTEMS FOR DETECTING SEQUENCE VARIANTS <130> SBG-001/01WO 31079/20 <140> PCT/US14/52065 <141> 2014-08-21 <150> US 61/868,249 <151> 2013-08-21 <150> US 14/016833 <151> 2013-09-03 <160> 13 <170> PatentIn version 3.5 <210> 1 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 1 catagtacct aggtcttgga gctagtc 27 <210> 2 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 2 catagtacct aggtcttggc tagtc 25 <210> 3 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 3 catagtacct aggggtcttg gctagtc 27 <210> 4 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 4 catagtacct aggggtcttg gagctagtc 29 <210> 5 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 5 cataggacct aggtcttggc tagtc 25 <210> 6 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 6 cataggacct aggtcttgga gctagtc 27 <210> 7 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 7 cataggacct aggggtcttg gctagtc 27 <210> 8 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 8 cataggacct aggggtcttg gagctagtc 29 <210> 9 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 9 ggatcgaaat gg 12 <210> 10 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 10 ttggatcgaa ttatggg 17 <210> 11 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 11 ttggatatgg g 11 <210> 12 <211> 16 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 12 agctacgtac actacc 16 <210> 13 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Sequence <400> 13 agctatcgta ctagc 15

Claims

프로세서 및 비-일시적인 메모리를 포함하는, 다수의 서열 리드들을 정렬하기 위한 시스템이며,
상기 메모리는 실행될 때 프로세서로 하여금
기호 스트링으로서 다수의 서열 리드들을 수득하는 것;
서열 리드에 대응하는 각 기호 스트링을 참조 서열 구성체 내 다수의 위치와 비교하는 것-상기 구성체는 구성체 내 다수의 위치에 2개 이상의 서로 다른 기호 스트링을 포함함-;
서열 리드에 대응하는 각 기호 스트링과 참조 서열 구성체 내 다수의 위치 각각 사이의 중복을 점수화하는 것-더 높은 점수는 더 큰 중복량에 대응함-;
각 서열 리드에 대하여 최고 점수에 대응하는 중복을 식별하는 것;
각 서열 리드를 최고 점수에 대응하는 구성체 상의 위치에 할당하는 것; 및
각 정렬된 서열 리드의 위치에 대응하는 메모리에 파일을 기록하는 것
을 수행하도록 하는 명령어를 포함하는, 다수의 서열 리드들을 정렬하기 위한 시스템.
제1항에 있어서, 서열 리드가 핵산 서열 리드인 시스템.
제1항에 있어서, 서열 리드가 아미노산 서열 리드인 시스템.
제1항에 있어서,
메모리가, 실행될 때 프로세서로 하여금
각 서열 리드의 할당된 위치에 기초하여, 다수의 정렬된 서열 리드들을 조립된 서열로 조립하는 것; 및
조립된 서열에 대응하는 메모리에 파일을 기록하는 것
을 수행하도록 하는 명령어를 추가적으로 포함하는 것인 시스템.
제4항에 있어서, 조립된 서열이 유기체의 유전자 서열에 대응하는 것인 시스템.
제5항에 있어서, 유전자 서열이 실질적으로 염색체 또는 게놈을 포괄하는 것인 시스템.
제1항에 있어서, 하나 이상의 정렬된 서열 리드의 위치에 기초하여 유기체에 유전형을 할당하는 것을 추가적으로 포함하는 시스템.
제7항에 있어서, 할당된 유전형을 질환의 위험성과 상관시키는 것을 추가적으로 포함하는 시스템.
제8항에 있어서, 질환이 암인 시스템.
제1항에 있어서, 참조 서열 구성체가 비-일시적인 컴퓨터-판독가능 매체에 저장된 위치 및 기호의 데이터베이스를 포함하는 것인 방법.
제1항에 있어서, 다수의 프로세서들을 포함하며, 각 프로세서는 참조 서열 구성체에 대하여 다수의 서열 리드들 중 일부를 비교하고 점수화하도록 구성되는 것인 시스템.
제1항에 있어서, 메모리가, 제1 프로세서로 하여금 제2 프로세서가 수득, 비교, 점수화, 식별 및 할당한 다음 할당된 위치를 제1 프로세서로 전송하도록 명령하도록 하는 명령어를 추가적으로 포함하는 것인 시스템.
제1항에 있어서, 참조 서열 구성체 상의 각 위치가 참조 서열 내의 핵산에 대응하는 것인 시스템.
제1항에 있어서, 구성체 상의 각 위치가 참조 서열 내의 아미노산에 대응하는 것인 시스템.
제1항에 있어서, 구성체 상의 각 위치가 참조 서열 내의 유전자에 대응하는 것인 시스템.
제1항에 있어서, 참조 서열 구성체가 방향을 가지는 것인 시스템.
제16항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 유기체의 게놈을 표시하는 것인 시스템.
제16항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 유기체의 염색체를 표시하는 것인 시스템.
제16항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 단백질을 표시하는 것인 시스템.
제16항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 비순환인 시스템.
제1항에 있어서, 구성체 내의 2개 이상의 서로 다른 기호 스트링이 그 위치에서의 알려져 있는 서열 변이를 표시하는 것인 시스템.
제1항에 있어서, 2개 이상의 서로 다른 기호 스트링이 염기 삽입 또는 염기 결실에 의해 서로 다른 핵산 서열에 대응하는 것인 시스템.
제1항에 있어서, 2개 이상의 서로 다른 기호 스트링이 아미노산 삽입 또는 아미노산 결실에 의해 서로 다른 폴리펩티드에 대응하는 것인 시스템.
제1항에 있어서, 참조 서열 구성체가 1,000개를 초과하는 기호를 포함하는 것인 시스템.
제24항에 있어서, 참조 서열 구성체가 1,000,000개를 초과하는 기호를 포함하는 것인 시스템.
제1항에 있어서, 다수의 서열 리드들이 1000개를 초과하는 서열 리드를 포함하는 것인 시스템.
제1항에 있어서, 다수의 서열 리드들 중 대부분이 100개를 초과하는 기호의 길이인 시스템.
제1항에 있어서, 다수의 서열 리드들이 차-세대 서열분석 방법의 출력 파일인 시스템.
다수의 서열 리드들을 수득하는 것;
참조 서열 구성체에 대하여 각 서열 리드의 서열 중복을 점수화하는 것-상기 구성체는 구성체 내 다수의 위치에 위치 당 2개 이상의 대안적인 서열을 포함하며, 더 큰 중복이 더 높은 점수로 이어짐-; 및
각 서열 리드의 점수가 최대화되도록 구성체 내 위치에 각 서열 리드를 정렬하는 것
을 포함하는, 다수 서열 리드들의 정렬 방법.
제29항에 있어서, 구성체와 관련한 서열의 정렬에 기초하여 서열 리드들을 서로 조립하는 것을 추가적으로 포함하는 방법.
제29항에 있어서, 서열 리드가 핵산 서열 리드인 방법.
제29항에 있어서, 서열 리드가 아미노산 서열 리드인 방법.
제29항에 있어서, 구성체에서의 각 위치가 참조 서열 내의 염기 또는 아미노산에 대응하는 것인 방법.
제29항에 있어서, 구성체에서의 각 위치가 참조 서열 내의 유전자에 대응하는 것인 방법.
제29항에 있어서, 참조 서열 구성체가 방향을 가지는 것인 방법.
제35항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 유기체의 게놈을 표시하는 것인 방법.
제35항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 유기체의 염색체를 표시하는 것인 방법.
제35항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 단백질을 표시하는 것인 방법.
제35항에 있어서, 참조 서열을 통한 경로가 비순환인 방법.
제29항에 있어서, 구성체 내의 2개 이상의 대안적인 서열이 그 위치에서의 알려져 있는 유전자 변이를 표시하는 것인 방법.
제40항에 있어서, 핵산 리드들의 할당된 위치에 기초하여 유기체에 유전형을 할당하는 것을 추가적으로 포함하는 방법.
제29항에 있어서, 구성체 내의 2개 이상의 대안적인 서열이 그 위치에서의 알려져 있는 구조적 변이를 표시하는 것인 방법.
제29항에 있어서, 2개 이상의 대안적인 서열이 염기 삽입 또는 염기 결실에 의해 서로 다른 것인 방법.
제29항에 있어서, 2개 이상의 대안적인 서열이 아미노산 삽입 또는 아미노산 결실에 의해 서로 다른 것인 방법.
제29항에 있어서, 각 리드가 측정된 핵산 염기 서열을 표시하는 기호 스트링을 포함하는 것인 방법.
제45항에 있어서, 측정된 핵산 염기 서열이 생거 서열분석, 피로시퀀싱, 이온 반도체 서열분석, 합성에 의한 서열분석, 라이게이션에 의한 서열분석, 및 단일-분자 실시간 서열분석에서 선택되는 서열분석 방법을 사용하여 측정되는 것인 방법.
제29항에 있어서, 각 리드가, 측정된 아미노산 서열을 표시하는 기호 스트링을 포함하는 것인 방법.
제47항에 있어서, 측정된 아미노산 서열이 질량 분광측정법을 사용하여 측정되는 것인 방법.
제29항에 있어서, 참조 서열 구성체가 1,000개를 초과하는 염기를 포함하는 것인 방법.
제49항에 있어서, 참조 서열 구성체가 1,000,000개를 초과하는 염기를 포함하는 것인 방법.
제29항에 있어서, 다수의 리드들이 1000개를 초과하는 리드를 포함하는 것인 방법.
제29항에 있어서, 다수의 리드들 중 대부분이 100개를 초과하는 염기쌍의 길이인 방법.
제29항에 있어서, 다수의 리드들 중 대부분이 10개를 초과하는 아미노산의 길이인 방법.
제29항에 있어서, 참조 서열 구성체가 컴퓨터-판독가능 매체에 저장된 위치 및 서열의 데이터베이스를 포함하는 것인 방법.
제54항에 있어서, 리드가 컴퓨터-판독가능 매체에 저장된 기호 스트링을 포함하는 것인 방법.
제29항에 있어서, 샘플로부터의 다수의 핵산을 서열분석하는 것을 추가적으로 포함하는 방법.
제56항에 있어서, 환자로부터 샘플을 수득하는 것을 추가적으로 포함하는 방법.
제56항에 있어서, 샘플이 혈액, 소변, 타액, 가래, 대변, 유두 흡인물, 땀, 모낭, 협측 면봉 또는 조직에서 선택된 것인 방법.
제58항에 있어서, 샘플로부터 다수의 핵산을 단리하는 것을 추가적으로 포함하는 방법.
제59항에 있어서, 단리된 다수의 핵산 중 일부 이상을 증폭시키는 것을 추가적으로 포함하는 방법.
다수의 핵산 리드들을 수득하는 것;
리드 내 염기와 구성체 사이의 중복을 점수화하는 알고리즘을 사용하여 참조 서열 구성체에 대해 핵산 리드를 정렬하는 것-상기 구성체는 구성체 내 다수의 위치에 위치 당 2개 이상의 대안적인 서열을 포함함-
을 포함하는, 다수 핵산 리드들의 정렬 방법.
제61항에 있어서, 알고리즘이 2개 이상의 서열들 사이의 선택에 따라 최대 중복 점수를 계산하는 것인 방법.
제61항에 있어서, 참조 서열 구성체가 비순환 방향 그래프인 방법.
제61항에 있어서, 구성체가 1,000개 이상의 염기를 포함하는 것인 방법.
제64항에 있어서, 구성체가 1,000,000개 이상의 염기를 포함하는 것인 방법.
다수의 아미노산 리드들을 수득하는 것;
리드 내 아미노산과 구성체 사이의 중복을 점수화하는 알고리즘을 사용하여 참조 서열 구성체에 대해 아미노산 리드를 정렬하는 것-상기 구성체는 구성체 내 다수의 위치에 위치 당 2개 이상의 대안적인 서열을 포함함-
을 포함하는, 다수 아미노산 리드들의 정렬 방법.
제66항에 있어서, 알고리즘이 2개 이상의 서열들 사이의 선택에 따라 최대 중복 점수를 계산하는 것인 방법.
제66항에 있어서, 참조 서열 구성체가 비순환 방향 그래프인 방법.
제66항에 있어서, 구성체가 100개 이상의 아미노산을 포함하는 것인 방법.
제69항에 있어서, 구성체가 10,000개 이상의 아미노산을 포함하는 것인 방법.
기호 스트링으로서 다수의 리드들을 수득하는 것;
컴퓨터 프로세서를 사용하여 리드에 대응하는 각 기호 스트링을 참조 서열 구성체 내 다수의 위치와 비교하는 것-상기 구성체는 구성체 내 다수의 위치에 2개 이상의 서로 다른 기호 스트링을 포함함-;
프로세서를 사용하여 기호 스트링과 참조 서열 구성체 내 다수의 위치 각각 사이의 중복을 점수화하는 것-더 높은 점수는 더 큰 중복량에 대응함-;
각 리드에 대하여 최고 점수에 대응하는 중복을 식별하는 것; 및
리드를 최고 점수에 대응하는 구성체 상의 위치에 정렬하는 것
을 포함하는, 다수 리드들의 컴퓨터-실행 정렬 방법.
제71항에 있어서, 구성체 상의 정렬된 위치에 기초하여 리드들을 서로 조립하는 것을 추가적으로 포함하는 방법.
제71항에 있어서, 리드가 핵산 리드인 방법.
제71항에 있어서, 리드가 아미노산 리드인 방법.
제71항에 있어서, 구성체 상의 각 위치가 참조 서열 내의 염기에 대응하는 것인 방법.
제71항에 있어서, 구성체 상의 각 위치가 참조 서열 내의 아미노산에 대응하는 것인 방법.
제71항에 있어서, 구성체 상의 각 위치가 참조 서열 내의 유전자에 대응하는 것인 방법.
제71항에 있어서, 참조 서열 구성체가 방향을 가지는 것인 방법.
제78항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 유기체의 게놈을 표시하는 것인 방법.
제78항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 유기체의 염색체를 표시하는 것인 방법.
제78항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 단백질을 표시하는 것인 방법.
제78항에 있어서, 상기 방향으로의 참조 서열 구성체를 통한 경로가 비순환인 방법.
제71항에 있어서, 구성체 내의 2개 이상의 대안적인 서열이 그 위치에서의 알려져 있는 유전자 변이를 표시하는 것인 방법.
제83항에 있어서, 핵산 리드들의 할당된 위치에 기초하여 유기체에 유전형을 할당하는 것을 추가적으로 포함하는 방법.
제71항에 있어서, 2개 이상의 대안적인 서열이 염기 삽입 또는 염기 결실에 의해 서로 다른 것인 방법.
제71항에 있어서, 각 핵산 리드가, 측정된 핵산 염기 서열을 표시하는 기호 스트링을 포함하는 것인 방법.
제86항에 있어서, 측정된 핵산 염기 서열이 생거 서열분석, 피로시퀀싱, 이온 반도체 서열분석, 합성에 의한 서열분석, 라이게이션에 의한 서열분석, 및 단일-분자 실시간 서열분석에서 선택되는 서열분석 방법을 사용하여 측정되는 것인 방법.
제71항에 있어서, 참조 서열 구성체가 1,000개를 초과하는 염기를 포함하는 것인 방법.
제88항에 있어서, 참조 서열 구성체가 1,000,000개를 초과하는 염기를 포함하는 것인 방법.
제71항에 있어서, 다수의 핵산 리드들이 1000개를 초과하는 리드를 포함하는 것인 방법.
제71항에 있어서, 다수의 핵산 리드들 중 대부분이 100개를 초과하는 염기쌍의 길이인 방법.
기호 스트링으로서 다수의 리드들을 수득하는 것;
리드와 구성체 사이의 중복을 점수화하는 알고리즘을 실행하는 프로세서를 사용하여 참조 서열 구성체에 대해 리드를 정렬하는 것-상기 구성체는 구성체 내 다수의 위치에 위치 당 2개 이상의 대안적인 서열을 포함함-
을 포함하는, 다수 리드들의 컴퓨터 실행 정렬 방법.
제92항에 있어서, 알고리즘이 2개 이상의 대안적인 서열들 사이의 선택에 따라 최대 중복 점수를 계산하는 것인 방법.
제92항에 있어서, 참조 서열 구성체가 비순환 방향 그래프인 방법.
제92항에 있어서, 다수의 핵산 리드들이 컴퓨터-판독가능 매체에 저장되는 것인 방법.
제92항에 있어서, 참조 서열 구성체가 컴퓨터-판독가능 매체에 저장된 데이터베이스를 포함하는 것인 방법.
프로세서 및 메모리를 포함하는, 다수의 리드들을 정렬하기 위한 시스템이며,
상기 메모리는 실행될 때 프로세서로 하여금
기호 스트링으로서 다수의 리드들을 수득하는 것;
리드와 구성체 사이의 중복을 점수화하는 알고리즘을 사용하여 참조 서열 구성체에 대해 리드를 정렬하는 것-상기 구성체는 구성체 내 다수의 위치에 위치 당 2개 이상의 대안적인 서열을 포함함-; 및
정렬된 서열에 대응하는 메모리에 파일을 기록하는 것
을 수행하도록 하는 명령어를 포함하는, 다수의 리드들을 정렬하기 위한 시스템.
제97항에 있어서, 메모리가, 실행될 때 프로세서로 하여금 2개 이상의 대안적인 서열들 사이의 선택에 따라 최대 중복 점수를 계산하도록 하는 명령어를 추가적으로 포함하는 것인 시스템.
제97항에 있어서, 참조 서열 구성체가 비순환 방향 그래프인 시스템.
제97항에 있어서, 다수의 리드들이 컴퓨터-판독가능 매체에 저장되는 것인 시스템.
제97항에 있어서, 참조 서열 구성체가 컴퓨터-판독가능 매체에 저장된 데이터베이스를 포함하는 것인 시스템.
다수의 서열 리드들을 수득하는 것;
참조 서열 구성체에 대하여 각 서열 리드의 서열 중복을 점수화하는 것-상기 구성체는 구성체 내 다수의 위치에 위치 당 2개 이상의 대안적인 서열을 포함하며, 더 큰 중복이 더 낮은 점수로 이어짐-; 및
각 서열 리드의 점수가 최소화되도록 구성체 내 위치에 각 서열 리드를 정렬하는 것
을 포함하는, 다수 서열 리드들의 정렬 방법.
기호 스트링으로서 다수의 리드들을 수득하는 것;
컴퓨터 프로세서를 사용하여 리드에 대응하는 각 기호 스트링을 참조 서열 구성체 내 다수의 위치와 비교하는 것-상기 구성체는 구성체 내 다수의 위치에 2개 이상의 서로 다른 기호 스트링을 포함함-;
프로세서를 사용하여 기호 스트링과 참조 서열 구성체 내 다수의 위치 각각 사이의 중복을 점수화하는 것-더 낮은 점수는 더 큰 중복량에 대응함-;
각 리드에 대하여 최저 점수에 대응하는 중복을 식별하는 것; 및
리드를 최저 점수에 대응하는 구성체 상의 위치에 정렬하는 것
을 포함하는, 다수 리드들의 컴퓨터-실행 정렬 방법.
프로세서 및 메모리를 포함하는, 다수의 리드들을 정렬하기 위한 시스템이며,
상기 메모리는 실행될 때 프로세서로 하여금
기호 스트링으로서 다수의 리드들을 수득하는 것;
리드에 대응하는 각 기호 스트링을 참조 서열 구성체 내 다수의 위치와 비교하는 것-상기 구성체는 구성체 내 다수의 위치에 2개 이상의 서로 다른 기호 스트링 포함함-;
기호 스트링과 참조 서열 구성체 내 다수의 위치 각각 사이의 중복을 점수화하는 것-더 낮은 점수는 더 큰 중복량에 대응함-;
각 핵산 리드에 대하여 최저 점수에 대응하는 중복을 식별하는 것;
핵산 리드를 최저 점수에 대응하는 구성체 상의 위치에 할당하는 것; 및
정렬된 서열에 대응하는 메모리에 파일을 기록하는 것
을 수행하도록 하는 명령어를 포함하는, 다수의 리드들을 정렬하기 위한 시스템.