KR20060103813A

KR20060103813A - 뉴클레오티드 서열의 실질적인 대표체

Info

Publication number: KR20060103813A
Application number: KR1020057022426A
Authority: KR
Inventors: 마이클 에이취 위글러; 존 힐리; 로버트 루시토
Original assignee: 콜드스프링하버러보러토리
Priority date: 2003-05-23
Filing date: 2004-05-21
Publication date: 2006-10-04
Also published as: BRPI0410636A; RU2390561C2; GEP20125384B; AU2004280531B2; RU2005140278A; IL172093A0; US8694263B2; WO2005035792A2; NZ544235A; NO20056160L; US20050032095A1; EP1631690A2; CA2526810A1; JP2006525814A; AU2004280531A1; WO2005035792A3

Abstract

본 발명은 핵산 서열의 대표체와의 혼성화에 사용될 수 있는 올리고뉴클레오티드 프로브를 제공한다. 마이크로어레이와 같은 프로브 함유 조성물도 제공된다. 본 발명은 또한 치료, 진단 및 연구 용도에 있어서 이러한 프로브 및 조성물의 사용 방법을 제공한다. 특정 문자 스트링 (즉, 뉴클레오티드)이 뉴클레오티드 서열 (예를 들어 게놈)에서 출현하는 횟수를 빠르고 정확하게 카운팅할 수 있는 워드 카운팅 알고리즘을 사용하기 위한 시스템 및 방법이 제공된다. 이러한 알고리즘을 사용하여 본 발명의 올리고뉴클레오티드를 동정할 수 있다. 알고리즘에서는 특정 워드가 게놈에서 나타나는 횟수를 카운팅하기 위하여 게놈의 변환 및 보조 데이타 구조가 이용된다.

Description

뉴클레오티드 서열의 실질적인 대표체{VIRTUAL REPRESENTATIONS OF NUCLEOTIDE SEQUENCES}

본 발명은 일반적으로 분자 생물학에 관한 것이다. 더 구체적으로는 본 발명은 주어진 소스 (source) DNA (예를 들어 게놈)의 대표체인 뉴클레오티드 서열을 생성하는 재료 및 방법에 관한 것이다.

유전자 성분을 이용하여 게놈 분석에 있어서의 전세계적인 방법에 의해 암 및 기타 질환 또는 질병의 병리생리학에 대한 유용한 식견이 제공되었다. 이러한 방법은 핵형 결정법 (karyotyping), 배수성 (ploidy) 결정법, 상대적 게놈 혼성화법 (comparative genomic hybridizaton, CGH), 화상적 차이 분석법 (representational difference analysis, RDA) (예를 들어 미국 특허 제5,436,142호 참조), 및 게놈 대표체 분석법 (analysis of genomic representations) (WO 99/23256, 1999년 5월 14일자로 공개)을 포함한다. 일반적으로 상기 방법은 특정 유전자의 발현을 조사 (interrogate)하기 위한 프로브를 사용하거나 게놈 그 자체에 있어서의 변화를 검토 (examining)하는 것을 포함한다.

올리고뉴클레오티드 어레이 (array)를 사용하여, 세포에 있어서의 유전자 변화에 대한 고해상도의 대역적 (global) 이미지의 수득을 위하여 상기 방법을 이용 할 수 있다. 그러나 상기 방법은 특정 프로브의 서열에 대한 지식을 필요로 한다. 이는 cDNA 어레이에 있어서 특히 제한적인데, 이는 상기와 같은 어레이는 단지 제한된 세트의 유전자를 조사하기 때문이다. 이들은 게놈-광범위 스크리닝 (wide screening)에 있어서도 제한적인데 이는 어레이를 위하여 고안된 다수의 올리고뉴클레오티드가 조사되는 집단에서 대표가 될 수 없어 비효율적이거나 효과가 없는 분석으로 이어질 수 있기 때문이다.

발명의 개요

본 발명은 핵산 분자 집단을 조사하는 데에 유용한 조성물 및 방법을 제공한다. 이러한 조성물 및 방법을, 선택적으로 마이크로어레이 기술과 함께 이용하여 복잡한 게놈 (예를 들어 포유류 게놈)을 분석할 수 있다. 본 발명은 복수개의 100개 이상의 핵산 분자 (A) - 여기서, (a) 각각의 핵산 분자가 Z개 이상의 염기쌍의 게놈 중의 서열에 특이적으로 혼성화되고, (b) 상기 복수개의 핵산 분자 중 P% 이상은 (i) K개 이상의 뉴클레오티드의 길이를 가지며; (ii) 상기 게놈으로부터 유래되며 상기 게놈의 R% 이하의 복잡성을 갖는 대표체 (representation)에 존재하거나 상기 대표체에 존재할 것으로 예측되는 하나 이상의 핵산 분자에 특이적으로 혼성화되며; (iii) 상기 게놈에 대한 L₁ 뉴클레오티드의 X개 이하의 정확한 매치 및 상기 게놈에 대한 L₁ 뉴클레오티드의 최소한 Y개의 정확한 매치를 가짐 - ; 및 (B) - 여기서, (a) Z ≥ 1 x 10⁸; (b) 300 ≥ K ≥ 30; (c) 70 ≥ R ≥ 0.001; (d) P ≥ 90-R; (e) (log₄(Z) + 2)에 가장 가까운 정수 ≥ L₁ ≥ log₄(Z)에 가장 가까운 정 수; (f) X는 D1 x (K-L₁+1)에 가장 가까운 정수; (g) Y는 D2 x (K-L₁+1)에 가장 가까운 정수; (h) 1.5 ≥ D₁ ≥ 1; 및 (i) 1 > D₂ ≥ 0.5 - 를 그 특징으로 한다.

추가의 몇몇 실시 형태에 있어서, (1) 복수개의 핵산 분자는 적어도 500; 1,000; 2,500; 5,000; 10,000; 25,000; 50,000; 85,000; 190,000; 350,000; 또는 550,000개의 핵산 분자를 포함하며; (2) Z는 적어도 3 x 10⁸, 1 x 10⁹, 1 x 10¹⁰ 또는 1 x 10¹¹이며; (3) R은 0.001, 1, 2, 4, 10, 15, 20, 30, 40, 50 또는 70이며; (4) P는 R과는 관계가 없고 적어도 70, 80, 90, 95, 97 또는 99이며; (5) D1은 1이며; (6) L1은 15, 16, 17, 18, 19, 20, 21, 22, 23 또는 24이며; (7) P는 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100이며; 및/또는 (8) K는 40, 50, 60, 70, 80, 90, 100, 110, 120, 140, 160, 180, 200 또는 250이다. 몇몇 실시 형태에 있어서, 다른 핵산 분자에 특이적으로 혼성화되는 핵산 분자는 다른 핵산 분자 중의 동일한 길이의 서열에 대한 서열 동일성이 90% 이상이다. 추가의 실시 형태에 있어서, 이것의 서열 동일성은 적어도 91%, 적어도 92%, 적어도 93%, 적어도 94%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 또는 100%이다.

추가의 몇몇 실시 형태에 있어서, 상기 P%의 상기 복수개의 핵산 분자 각각은 상기 게놈에 대한 L2 뉴클레오티드의 A 이하의 정확한 매치 및 상기 게놈에 대한 L2 뉴클레오티드의 최소한 B의 정확한 매치를 더 가지는데, 여기서, (a) L₁ > L₂ ≥ log₄(Z)-3에 가장 가까운 정수, (b) A는 D₃ x ((K-L₂+1) x (Z/4^L ₂))에 가장 가까 운 정수 ; (c) B는 D₄ x ((K-L₂+1) x (Z/4^L ₂))에 가장 가까운 정수; (d) 4 ≥ D₃ ≥ 1; 및 (e) 1 > D₄ ≥ 0. 5이다.

DNA 집단의 대표체는 상기 게놈의 서열 특이적 절단으로 생성될 수 있는데, 예를 들어 제한 엔도뉴클레아제를 이용하여 성취될 수 있다. 이는 또한 다른 대표체로부터 유래될 수 있다. 즉, 생성되는 대표체는 혼합 (compound) 대표체이다.

본 발명의 핵산 분자는 (a) 상기 게놈을 컴퓨터에서 (in silico) 제한 효소로 절단하여 복수개의 예측되는 핵산 분자를 생성하는 단계; (b) 각각이 전체 200-1,200개의 염기쌍의 길이를 가지며, 실질적인 대표체는 상기 게놈의 전체 0.001%-70%의 복잡성을 갖는 예측되는 핵산 분자의 동정에 의해 상기 게놈의 실질적인 대표체를 생성하는 단계; (c) 전체 30-300개의 뉴클레오티드의 길이를 가지며, (b)의 예측되는 핵산 분자에 대하여 90% 이상의 서열 동일성을 갖는 올리고뉴클레오티드를 선발하는 단계; (d) 상기 게놈과 관련된 상기 실질적인 대표체의 복잡성을 계산하는 단계; (e) 상기 올리고뉴클레오티드에 나타나는 L1 뉴클레오티드 스트레치 모두를 동정하는 단계; 및 (f) 상기 스트레치 각각이 상기 게놈에서 나타나는 횟수가 다양한 소정 요건을 충족시키는 것을 확인하는 단계를 포함하는 방법으로 동정할 수 있다.

본 발명의 핵산 분자는 샘플 DNA의 분석을 위한 프로브로 사용될 수 있다. 이러한 프로브는 반고체 표면을 포함하여 고체 상의 표면 상에 고정화할 수 있다. 고체 상은 한정됨이 없이 나일론 막, 니트로셀룰로오스 막, 유리 슬라이드 및 미소 구체 (예를 들어 상자성 마이크로비드)를 포함한다. 몇몇 실시 형태에 있어서, 상기 고체 상 상의 핵산 분자의 위치는 예를 들어 마이크로어레이 포맷에서 사용되는 바와 같이, 공지되어 있다. 본 발명은 또한 핵산 샘플 (예를 들어 게놈 대표체)의 분석 방법을 그 특징으로 하는데, 본 방법은 (a) 샘플을 본 발명의 핵산 프로브에 혼성화하는 단계; 및 (b) 상기 복수개의 핵산 분자에 상기 샘플이 혼성화하는 것을 결정하는 단계를 포함한다.

본 발명은 또한 두 게놈 사이의 게놈 서열의 카피수 (copy number) 변이를 분석하는 방법을 그 특징으로 하는데, 본 방법은 (a) 각각이 하나 이상의 동일한 제한 효소를 이용하여 개개의 게놈으로부터 제조되는 2개의 검출가능하게 표지된 대표체를 제공하는 단계; (b) 상기 2개의 대표체를 본 발명의 핵산 프로브와 접촉시켜 대표체와 프로브 사이에 혼성화가 되게 하는 단계; (c) 프로브 세트에 대한 2종의 대표체의 혼성화 수준을 분석하는 단계 - 여기서, 프로브 세트의 구성원에 대한 상기 수준에 있어서의 차이는 상기 구성원에 의해 표적화되는 게놈 서열과 관련하여 두 게놈 사이에서의 카피수 변이를 나타냄 - 를 포함한다. 몇몇 실시 형태에 있어서, 대표체는 구별가능하게 표지되고/되거나 두 대표체의 접촉은 동시에 일어난다.

본 발명은 또한 두 게놈 사이의 게놈 서열의 메틸화 상태를 비교하는 방법을 그 특징으로 하는데, 본 방법은 개개의 게놈으로부터 유래되는 2개의 검출가능하게 표지된 대표체를 제공하는 단계를 포함하며, 각각의 대표체는 메틸화 민감성 방법으로 제조된다. 예를 들어 제1 게놈의 제1 대표체는 제1 제한 효소를 이용하여 제 조되며, 제2 게놈의 제2 대표체는 제2 제한 효소를 이용하여 제조되는데, 상기 제1 및 제2 제한 효소는 동일한 제한 효소 부위를 인식하지만, 하나는 메틸화 민감성이며 다른 하나는 그렇지 아니하다. 메틸-C를 포함하는 서열은 또한 비-메틸화 민감성 제한 효소를 이용하여 대표 서열을 제조한 후 화학적으로 절단하여, 메틸화 게놈으로부터 유래되는 대표체가 비-메틸화 게놈으로부터 유래되는 대표체와 구별가능하게 할 수도 있다. 이어서 2개의 대표체를 본 발명의 프로브와 접촉시켜 대표체와 프로브 사이의 혼성화를 가능하게 한다. 이어서 프로브에 대한 2개의 대표체의 혼성화를 분석하는데, 여기서 특정 프로브와 관련한 대표체들 사이의 혼성화 수준에 있어서의 차이는 상기 프로브에 의해 표적화되는 게놈 서열과 관련한 2개의 게놈 사이의 메틸화 상태에 있어서의 차이를 나타낸다.

이하에 더 예시되어 있는 바와 같이 유사한 방법을 사용하여 복잡한 게놈의 다형성을 또한 분석할 수 있다.

본 발명의 소정 실시 형태에 따르면, 워드 (word)가 게놈에서 나타나는 횟수를 정확하게, 그리고 효율적으로 탐지 및 카운팅하는 알고리즘이 제공된다. 본 발명에서 때로 검색 엔진 또는 mer-엔진으로 나타내는 이 알고리즘에서는 특정 워드가 게놈에서 나타나는 횟수의 카운팅을 위하여 게놈의 변환 (transform) (예를 들어 Burrows-Wheeler Transform) 및 보조 데이타 구조가 이용된다. "워드"는 규정된 길이의 뉴클레오티드 서열을 나타낸다.

일반적으로 이 엔진은 먼저 워드의 마지막 문자를 찾음으로써 특정 워드를 검색한다. 이어서 이는 마지막 문자의 바로 앞의 문자를 찾기 위하여 진행한다. 첫번째의 바로 앞의 문자가 찾아지면 이것은 워드의 마지막 문자의 두번째의 바로 앞의 문자를 찾는 등, 워드가 찾아질 때까지 그렇게 한다. 추가의 앞의 문자가 찾아지지 않으면, 워드가 게놈 중에 존재하지 않는다는 결론을 내린다. 워드의 첫번째 문자가 찾아지면 이것이 나타나는 횟수가 그 특정 워드의 워드 카운트이다.

하기에 논의되어 있는 바와 같이 이러한 특별한 알고리즘은 이것이 게놈 연구를 포함하는 여러 실용적인 용도의 수행에 이용될 수 있기 때문에 유리하다.

본 발명의 다른 특징 및 이점은 하기의 도면, 발명의 상세한 설명 및 청구의 범위로부터 명백해질 것이다.

도 1A-1D는 10,000개의 올리고뉴클레오티드를 포함하는 마이크로어레이를 사용하여 어레이 측정의 정확도 및 정보과학의 예측가능성을 도시한다. 도 1A는 혼성화되는 샘플이 BglII 대표체와, HindIII 절단 부위를 포함하는 단편이 없는 BglII 대표체인 결과를 도시한다. Y-축 (평균 비)은 로그 규모로 도시되는 정상 대표체에 대한 없는 대표체의 두 혼성화로부터 측정된 평균 비이다. X-축 (인덱스)은 내부 HindIII 부위를 갖는 것으로 정의되는 단편으로부터 유래되는 프로브가 우측에 존재하도록 제작되는 허위 인덱스이다. 도 1B는 도 1A에 있어서 평균 비를 생성하도록 이용되는 이중 실험의 재현 가능성을 도시한다. Y-축 (Ratio Exp1)은 실험 1로부터의 비 측정치이며 X-축 (Ratio Exp2)은 실험 2로부터의 비 측정치이다. 두 축 모두는 로그 규모로 도시된다. 도 1C는 X-축 상에서 없애지 않은 샘플의 강도의 함수로서의 Y-축 상에서의 정상화된 비를 도시한다. 비 및 강도 둘 모 두는 로그 규모로 도시하였다. 도 1D는 시뮬레이션에 의해 생성되는 데이타를 나타낸다. X-축 (인덱스)은 허위 인덱스이다. 600개의 군의 프로브는 좌측으로부터 우측으로 증가하는 카피수를 탐지한다. 600개의 측면에 위치하는 프로브는 정상적인 카피수를 탐지한다. Y-축 (평균 비)은 로그 규모로 도시된 평균 비이다.

도 2A1-2A3, 2B1-2B3, 및 2C1-2C3은, 10K 인쇄된 어레이 (도 2A1, 도 2B1, 도 2C1) 그리고 85K 포토프린트 어레이 (도 2A2, 도 2B2, 도 2C2)를사용하여 염색체 수가 다양한(aneuploid) 핵을 갖는 일차 유방암 샘플 (CHTN159)을, 동일한 환자로부터 유래되는 이배성 핵과 비교하여 도시하며 (도 2A1-2A3), 유방암 세포주를 정상적인 웅성 참조와 비교하여 도시하며 (도 2B1-2B3), 비정상적인 웅성을 정상적인 웅성 참조와 비교하여 도시한다 (도 2C1-2C3). 각각의 경우에 있어서 (도 2A1, 도 2B1, 도 2C1 and 도 2A2, 도 2B2, 도 2C2) Y-축은 평균 비이며, X-축 (Gen 인덱스)은 인덱스인데, 이는 게놈 순서로 프로브를 도시하여, 염색체를 잇고 염색체 1로부터 y까지의 전체 게놈의 가시화를 가능하게 한다. 도 2A3, 도 2B3, 및 도 2C3은 1OK 및 85K 마이크로어레이에 존재하는 "형제" 프로브로부터 측정되는 비의 일치성을 도시한다. Y-축은 10K 마이크로어레이로부터 측정된 비이며 X-축은 85K 마이크로어레이로부터 측정되는 비이다.

도 3A-3D는 정상 대조와 비교하여 종양 세포주 SK-BR-3를 분석한 것으로부터의 다양한 카피수 변동을 갖는 여러 염색체를 도시한다. Y-축 (평균 비)는 로그 규모의 두 혼성화의 평균 비를 나타낸다. X-축 (Gen 인덱스)는 게놈 좌표의 인덱스이다. 도 3A는 5번 염색체에 대하여 확인된 카피수 변동을 나타내며, 도 3B는 8 번 염색체, 도 3C는 17번 염색체, 그리고 도 3D는 X 염색체에 대한 것을 나타낸다.

도 4A-4D는 정상 참조 (도 4A 및 도 4B) 및 CHTN159 (도 4C 및 도 4D)과 비교하여 SK-BR-3을 분석한 것으로부터 계산한 평균 절편률을 도시한다. 도 4A-4D에 있어서, Y-축은 로그 규모의 각각의 프로브에 대한 평균 절편률 값이다. 도 4A 및 도 4C에 있어서, X-축 (평균 절편 인덱스)은 상향의 그의 할당된 평균 절편 값에 각각 열거되어 있다. 도 4B 및 도 4D에 있어서, X-축 (Gen 인덱스)은 기하 인덱스이며, 이는 상기한 바와 같이 전체 게놈을 끝에서 끝까지 배치한다. 평균 절편 데이타의 상부에 도시되어 있는 것은 텍스트 내의 식을 사용하여 어레이 데이타로부터 외삽한 카피수 격자이다 (수평선). 각각의 수평선에 있어서 계산된 카피수는 이 격자의 우측에 대한 것이다.

도 5A-5D는 SK-BR-3의 두 혼성화의 평균 비를 정상 참조와 비교하여 로그 규모로 Y-축 상에 도시한다. X-축 (Gen 인덱스)은 게놈 인덱스이다. 도 5A는 손실된 영역이 있는 X 염색체로부터 유래되는 영역을 도시한다. 측정된 어레이 비 위에 도시되어 있는 것은 계산된 절편화 값이다. 도 5B는 정상 참조와 비교하여 SK-BR-3의 결과로부터의 8번 염색체 (그래프의 중앙의 우측에 위치한 c-myc)의 영역을 도시한다. 데이타의 상부에 도시되어 있는 것은 대각선 해치 (diagonal hatch)를 정상 참조와 비교한 SK-BR-3의 절편화 값이며 일차 종양 CHTN159에 대한 절편화 값은 수직 해치로 도시한다. 도 5C는 5번 염색체 상의 손상을 도시하는데, 이는 10K 어레이와 비교한 85K의 해상력을 입증하는 것이다. 결과는 정상 참조와 비교한 SK-BR-3로부터의 것이다. ○은 10K 인쇄된 마이크로어레이로부터의 것이며 ●는 85K 포토프린트 어레이로부터의 것이다. 수평선은 평균 절편 값으로부터 모델링한 것을 기초로 한 카피수 추정치이다. 도 5D는 SK-BR-3를 정상 참조와 비교한 것을 도시하는데, 이는 19번 염색체 상의 동형접합성 결실 영역을 표시한다. 평균 절편 값은 백색 선으로 도시되어 있으며, 격자는 상기한 바와 같이 카피수 추정치이다.

도 6A-6D는 도 2C2에 나타내어져 있는 것과 동일한, 정상과 비교한 정상의 결과를 나타내되, 단, 단일 프로브가 텍스트에 기술된 바와 같이 필터링되었다. 도 6B는 4번 염색체로부터 유래되는 작은 영역에 대한 실험의 일련의 비교치를 도시한다. Y-축은 로그 규모의 평균 비이다. X-축은 게놈 인덱스이다. ● (85K) 및 ○ (10K)은 SK-BR-3을 정상에 비교한 것으로부터 생성된 것이다. △은 피그미를 정상 참조와 비교한 것이다. 도 6C는 6번 염색체 상에서 정상 집단에서 발견되는 손상을 예시한다. ●는 정상 참조에 대한 피그미의 분석에 있어서의 평균 비로 도시된다. 수직 해치 선은 정상 참조에 대한 피그미의 비교에 있어서의 평균 절편 값이다. 대각선 해치 선은 정상 참조에 대한 SK-BR-3의 비교에 있어서의 펴균 절편 값이다. 교차 해치 TS은 이배체에 대한 일차 종양 (염색체수가 다양한 CHTN159)로부터의 절편 값이다. 도 6D는 2번 염색체 영역을 도시한다. 원으로 나타낸 데이타는 SK-BR-3를 정상 참조와 비교한 것으로부터의 것이다. 이 비교에 있어서의 평균 절편 선은 수직 해치로 나타내어져 있다. 피그미를 정상 참조에 대하여 비교한 것에 있어서의 평균 절편 선은 대각선 해치로 나타내어져 있으며 일차 종양 CHTN159는 교차 해치로 나타내어져 있다. 도 6C 및 도 6D에 있어서, 수평선에 있어서의 카피수 계산치는 패널의 우측에서 발견된다.

도 7은 본 발명의 소정 실시 형태에 따른 예시적 시스템의 블록 다이아그램을 도시한다.

도 8은 본 발명의 소정 실시 형태에 따른 정확한 워드 카운트를 수행하기 위한 예시적인 예비 프로세싱 단계의 흐름도를 도시한다.

도 9A 및 9B는 본 발명의 소정 실시 형태에 따른 예시적 워드 카운팅 알고리즘의 흐름도를 도시한다.

도 10A 및 10B는 본 발명의 소정 실시 형태에 따른 도 9A 및 도 9B의 워드 카운팅 알고리즘의 예시적 예를 도시한다.

도 11은 본 발명의 소정 실시 형태에 따른 게놈 좌표에 상응하는 좌표 위치를 갖는 예시적 부가 어레이를 도시한다.

도 12A는 본 발명의 소정 실시 형태에 따른 알고리즘과 관련되어 사용되는 데이타 구조 및 변수의 대표적인 그래프를 도시한다.

도 12B는 본 발명의 소정 실시 형태에 따른 알고리즘의 대표적인 슈도 코드를 도시한다.

본 발명은 DNA 집단 (예를 들어 게놈, 염색체 또는 DNA의 혼합물)의 대표체를 분석하기 위한 올리고뉴클레오티드 프로브를 그 특징으로 한다. 올리고뉴클레오티드 프로브는 용액으로 사용될 수 있거나, 어레이 도는 마이크로비드와 같은 고체 (반고체 포함) 표면 상에 고정화될 수 있다 (예를 들어 Lechner et al., Curr. Opin. Chem. Biol. 6: 31-38 (2001); Kwok, Annu. Rev. Genomics Human Genet. 2: 235-58 (2001); Aebersold et al., Nature 422: 198-207 (2003); 및 미국 특허 제6,355,431호 및 동 제6,429, 027호). 대표체는 생성되는 DNA가 일반적으로 새로운 포맷을 가지거나 복잡성이 감소되거나 둘 모두인 DNA 집단의 재현가능한 샘플링이다 (Lisitsyn etal., Science 258: 946-51 (1993); Lucito et al., Proc. Natl. Acad. Sci. USA 92: 151-5 (1998)). 예를 들어 게놈의 대표체는 단지 적은 부분의 게놈으로부터 유래되며 반복 서열이 대부분 없는 DNA 서열로 구성될 수 있다. 게놈 대표체의 분석은 돌연변이, 예를 들어 결실, 증폭, 염색체 재배열 및 다형성을 비롯한 게놈에서의 변화를 나타낼 수 있다. 임상 세팅에서 행해질 경우, 이 분석은 질환의 분자적 기초와, 질환의 진단 및 치료의 유용한 지침에 대한 식견을 제공할 수 있다.

본 발명의 올리고뉴클레오티드 조성물을 소스 DNA의 대표체의 혼성화에 사용할 수 있는데, 혼성화 데이타는 소스 DNA의 유전자 프로필의 제공을 위하여 프로세싱된다 (예를 들어 질환 관련 유전자 손상 (lesion) 및 다형성). 조성물 중의 올리고뉴클레오티드 프로브의 적어도 일부 및 대표체 (또는 이하에서 "시험 대표체)은 동일한 종으로부터 유래되는 것이 바람직할 수 있다. 포유류 종 (예를 들어 돼지, 생쥐, 쥐, 영장류 (예를 들어 인간), 개 및 고양이), 어류 종, 파충류 종, 식물 종 및 미생물 종을 비롯한 임의의 종으로부터 유래된 DNA가 이용될 수 있다.

I. 올리고뉴클레오티드 프로브

본 발명의 올리고뉴클레오티드 프로브는 참조용 개체의 게놈 DNA와 같은 소스 DNA의 실질적인 대표체에 의해 고안되는 것이 바람직하다. 게놈의 대표체는 일반적으로, 그러나 반드시 그러하지는 않게, 그의 복잡성의 단순화로 이어진다. 대표체의 복잡성은 거기에서 대표되는 게놈의 일부에 상응한다. 복잡성을 계산하는 한가지 방법은 대표체 중의 뉴클레오티드의 갯수를 게놈 중의 뉴클레오티드의 갯수로 나누는 것이다. 대표체의 게놈 복잡성은 전체 게놈의 1% 미만에서 95%만큼 높은 범위일 수 있다. 비교적 단순한 게놈을 갖는 유기체로부터 유래된 DNA가 사용되는 경우, 대표체는 전체 게놈의 100%의 복잡성을 가지는데, 예를 들어 대표체는 증폭 없이 전체 DNA의 제한 효소 절단에 의해 생성될 수 있다. 본 발명과 결부된 대표체는 일반적으로 0.001% 내지 70% 사이의 복잡성을 가진다. 복잡성의 감소는 원하는 혼성화 상의 동력학적 특성을 가능하게 한다.

DNA의 "실제" 대표체는 대표 DNA를 선발하는 실험 절차를 포함한다 ("습식 연구 (wet work)". 반면, 실질적인 대표체는 완전한 게놈, 예를 들어 인간 게놈을 서열 결정한 사실을 이용한다. 이용가능한 게놈 서열의 컴퓨터 분석을 통하여, 지도화된 게놈 영역에 혼성화되며 나머지 게놈과는 최소의 정도로 서열이 중복되는 다수의 올리고뉴클레오티드를 손쉽게 고안할 수 있다.

예로써, 인간 유전자 분석용 올리고뉴클레오티드 프로브 세트를 고안하기 위하여, 서열 결정되는 게놈에 있어서 선택된 제한 엔도뉴클레아제의 모든 절단 부위를 위치화함으로써 인간 게놈의 컴퓨터 (즉, 실질적인) 절단을 수행할 수 있다. 이어서 예를 들어 들어 PCR로 증폭시킬 수 있는 원하는 범위의 (예를 들어 200-1,200 bp, 100-400 bp 및 400-600 bp) 것을 동정하기 위하여 생성된 단편을 분석할 수 있다. 본 명세서에서 이러한 단편은 대표체에 "존재할 것으로 예측되는" 것으로 정의된다. 제한 엔도뉴클레아제는 원하는 대표체의 복잡성에 기초하여 선택될 수 있다. 예를 들어 드물게 절단하는 제한 엔도뉴클레아제, 예를 들어 6 bp 또는 8 bp의 표적 서열을 인식하는 것은 보다 덜한 복잡성의 대표체를 생성하며, 반면, 자주 절단하는 제한 엔도뉴클레아제, 예를 들어 4 bp의 표적 서열을 인식하는 것은 보다 높은 복잡성의 대표체를 생성한다. 또한 분석되는 게놈의 G/C 함량과 같은 인자는 특정 제한 엔도뉴클레아제의 절단 빈도에 영향을 주며 결과적으로 제한 엔도뉴클레아제의 선택에 영향을 준다. 일반적으로 스타 (star) 활성을 나타내지 않는 활기가 있는 (robust) 제한 엔도뉴클레아제가 사용된다. 대안적으로는 표적 부위의 메틸화 상태에 기초한 절단이, 예를 들어 DNA에 있어서 메틸화 시토신을 인식하는, McrBC와 같은 메틸화-감수성 제한 효소 또는 기타 효소의 사용을 통하여 이용될 수 있다.

원하는 범위 (예를 들어 200-1,200 bp, 100-400 bp 및 400-600 bp)의 모든 절단 단편의 서열을 컴퓨터로 분석하는데, 여기서, 길이가 약 30 bp 이상이며 나머지 게놈에 대한 상동성이 최소인 상기 단편 중 일부의 영역을 인간 게놈에 대한 대표적인 올리고뉴클레오티드 프로브로 선택할 수 있다. 하기의 실시예 1 및 섹션 VI에는 본 발명의 올리고뉴클레오티드를 동정하는 방법이 더 예시되어 있다.

본 발명의 올리고뉴클레오티드는 길이가 약 30개의 뉴클레오티드 내지 약 1,200개의 뉴클레오티드 범위일 수 있다. 선택되는 올리고뉴클레오티드의 정확한 길이는 사용 의도, 예를 들어 대표체가 제조되는 소스 DNA의 크기 및 이들이 어레이의 성분으로 사용되는지에 따라 달라진다. 본 올리곤클레오티드는 일반적으로 길이가 적어도 35개의 뉴클레오티드, 예를 들어 적어도 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 또는 100개의 뉴클레오티드이지만, 보다 짧은, 예를 들어 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 또는 30개의 뉴클레오티드의 길이를 가질 수 있다. 올리고뉴클레오티드는 일반적으로 길이가 600개의 뉴클레오티드 이하, 예를 들어 550, 500, 450, 400, 350, 300, 250, 200 또는 150개의 뉴클레오티드 이하이다. 당업계의 숙련자에 의해 인정되는 바와 같이 올리고뉴클레오티드의 길이는 분석되는 게놈의 특징, 예를 들어 반복 서열의 복잡성 및 양에 따라 달라진다.

II . 올리고뉴클레오티드 어레이

본 발명의 올리고뉴클레오티드 프로브는 어레이 포맷으로 사용될 수 있다. 어레이는 정의된 좌표, 또는 주소에서 핵산 프로브가 부착된 고체 지지체를 포함한다. 각각의 주소는 단일 DNA 프로브의 다수의 카피, 또는 상이한 DNA 프로브의 혼합물 중 어느 하나를 포함한다. "마이크로어레이" 또는 "칩"으로도 칭해지는 핵산 어레이는 일반적으로 당업계에 개시되어 있다. 예를 들어 미국 특허 제6,361,947호 및 상기 미국 특허에 인용된 참고 문헌을 참조. 본 발명자들은 새로운 어레이를 사용한 유전자 분석을 "대표적인 올리고뉴클레오티드 마이크로어레이 분석 ("representational oligonucleotide microarray analysis, ROMA"), 또는 절단이 표적 부위에서의 메틸화에 따라 달라질 경우 "메틸화 탐지 올리고뉴클레오티드 마이크로어레이 분석 ("methylation detection oligonucleotide microarray analysis, "MOMA")으로 칭하였다.

본 발명의 마이크로어레이의 제조를 위하여, 예비 합성된 올리고뉴클레오티드를 고체 지지체에 부착시키는데, 고체 지지체는 유리, 플라스틱 (예를 들어 폴리프로필렌 또는 나일론), 폴리아크릴아미드, 니트로셀룰로오스, 또는 기타 재료로부터 만들어질 수 있으며 다공성 또는 비다공성일 수 있다. 핵산을 표면에 부착시키는 한가지 방법은 일반적으로 Schena et al., Science 270: 467-70 (1995); DeRisi et al., Nature Gen. 14: 457-60 (1996); Shalon et al., Genome Res. 6: 639-45 (1996); 및 Schena et al. , Proc. Natl. Acad. Sci. USA 93: 10539-1286 (1995)에 기술되어 있는 바와 같이 유리 플레이트 상에 인쇄함으로써 하는 것이다. 저밀도 어레이에 있어서, 나일론 혼성화 막 상의 도트 블롯도 사용할 수 있다. 예를 들어 Sambrook et al., Molecular Cloning-A Laboratory Manual (2nd Ed.), Vol. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York, 1989 참조.

마이크로어레이를 제조하는 다른 방법은 포토리소그래픽 (photolithographic) (또는 "포토프린트 (photoprint)") 기술을 사용하여 어레이 기판 상에서 직접, 즉, 원위치에서 올리고뉴클레오티드를 합성하는 것이다. 예를 들어 Fodor et al., Science 251: 767-73 (1991); Pease et al., Proc. Natl. Acad. Sci. USA 91: 5022-6 (1994); Lipschutz et al., Nat. Genet. 21(1 Suppl): 20-46 (1999); Nuwaysir et al., Genome Res. 12 (11): 1749-55 (2002); Albert et al., Nucl. Acids Res. 31 (7): e35 (2003); 미국 특허 제5,578,832호, 동 제5,556,752호, 및 동 제5,510,270호 참조. 정의된 올리고뉴클레오티드의 신속한 합성 및 침착을 위한 다른 방법도 사용될 수 있다. 예를 들어 Blanchard et al., Biosensors & Bioelectronics 11: 687-90 (1996); 및 Maskos and Southern, Nucl. Acids Res. 20: 1679-1684 (1992) 참조.

본 발명의 어레이는 일반적으로 적어도 100개 (예를 들어 적어도 500, 1,000, 5,000 또는 10,000개)의 올리고뉴클레오티드 프로브를 포함하며, 더 많은 프로브, 예를 들어 최대 25,000, 50,000, 75,000, 85,000, 100,000, 200,000, 250,000, 500,000 또는 700,000개의 프로브를 포함할 수도 있다. 본 발명의 어레이는 일반적으로 700,000개보다 많은 프로브는 포함하지 않는다. 그러나 본 어레이는 더 많은, 예를 들어 최대 800,000, 900,000 또는 1,000,000개의 프로브를 포함할 수도 있다. 몇몇 실시 형태에 있어서, 본 어레이는 밀도가 1 cm² 당 약 60개보다 많은 상이한 프로브의 고밀도 어레이이다. 어레이 중의 올리고뉴클레오티드는 단일 가닥 또는 이중 가닥일 수 있다. 어레이의 제조 및 사용을 돕기 위해서 본 발명의 올리고뉴클레오티드 프로브는 예를 들어 펩티딜 구조 및 뉴클레오티드 유사체를 프로브 내로 혼입함으로써 개질시킬 수 있다.

III . 시험 대표체

본 발명의 올리고뉴클레오티드 어레이를 사용하여 선택된 임의의 핵산 샘플을 프로빙할 수 있다. 예를 들어 샘플은 cDNA 라이브러리, 게놈 DNA 라이브러리, 또는 RNA 제제일 수 있다. 다른 실시 형태에 있어서, 본 발명의 어레이를 사용하여 복잡한 DNA 집단, 예를 들어 고등 유기체의 게놈의 대표체 (또는 "시험 대표체")인 DNA 샘플을 프로빙한다.

대표체 및 그의 제조 방법이 예를 들어 Lisitsyn et al., Proc. Natl. Acad. Sci. USA 92: 151 (1995); Lucito et al., Proc. Natl. Acad. Sci. USA 95: 4487-4492 (1998); 및 WO 99/23256에 기술되어 있다. 대표체를 제조하기 위한 한가지 접근법은 DNA 집단을 단편으로 재현가능하게 절단하는 것을 포함한다. 재현가능한 절단은 일반적으로 특정 메틸화 부위 (예를 들어 McrBC)에서 절단하는 하나 이상의 제한 엔도뉴클레아제 (예를 들어 DpnI 또는 BglII) 또는 효소(들)를 이용한 절단에 의해 성취되지만, DNA를 재현가능하게 절단하는 임의의 방법이 사용될 수 있다. 생성되는 DNA 단편은 어댑터 (adaptor) 올리고뉴클레오티드에 결합시킨다. 이어서 이 단편을 예를 들어 폴리머라제 연쇄 반응 ("PCR") 또는 리가제 연쇄 반응으로, 어댑터에 상보성인 프라이머를 사용하여 증폭시킨다. 증폭된 단편은 출발 DNA 집단의 서브세트를 대표한다. 증폭 단계로 인하여, 대표체는 매우 소량의 출발 재료 (예를 들어 5 ng의 DNA)로부터 제조될 수 있다. Lisitsyn et al., Science 258: 946-51 (1993) 및 미국 특허 제5,436,142호와 동 제,501,964호에 기술되어 있는 RDA (representational difference analysis)를 이용하여 반복 서열을 비롯한 임의의 공지된 원하지 않는 서열을 대표체로부터 제거할 수 있다.

출발 DNA 집단은 유기체의 게놈과 같은 큰 DNA 분자, 또는 그의 일부 (예를 들어 염색체 또는 그 영역)일 수 있다. 본 발명자들은 이러한 DNA 집단의 대표체를 염색체 또는 게놈 대표체로 각각 칭한다. 출발 DNA 집단은 예를 들어 질환에 걸린 조직 샘플, 예를 들어 종양 생체 조직 절편 샘플, 정상 조직 샘플, 종양 세포주, 정상 세포주, 고정된 표본으로 보관된 세포, 부검 샘플, 법의학적 샘플, 고-DNA 샘플, 미세 해부된 조직 샘플, 단리된 핵, 단리된 염색체 또는 염색체 영역, 및 분획화된 세포 또는 조직 샘플로부터 수득될 수 있다. 대표체 (또는 "혼합 대표체")의 대표체를 제조할 수도 있다. 혼합 대표체는 다형성의 스크리닝에 유용하다. 예를 들어 WO 99/23256 참조.

2가지 DNA 소스로부터 유래되는 대표체의 비교 분석에 있어서, 예를 들어 정상 세포로부터 유래되는 게놈 대표체와 악성 종양 또는 그렇지 않을 경우 질환에 걸린 세포로부터 유래되는 게놈 대표체를 비교함에 있어서, 두 대표체를 동시에 제조하는 것이 바람직할 수 있는데, 예를 들어 두 세포로부터 출발 DNA를 동시에, 그리고 동일한 방식으로 단리하고, 동일한 양의 출발 DNA로부터 유래되는 대표체를 제조하고, DNA 단편을 동일한 DNA 증폭기 (thermal cycler)에서 동일한 조건 하에 동시에 증폭시킨다. 또한 예를 들어 개체의 부모 둘 모두로부터 유래되는 DNA를 합함으로써 "정상" 게놈 DNA를 수득하는 것이 가능하지만, 정상 세포 및 질환에 걸린 세포를 동일한 개체로부터 취하는 것이 바람직할 수 있다.

대표체의 복잡성은 일반적으로 출발 DNA 집단의 복잡성보다 낮은데, 이는 출발 집단에는 존재하며 대표체에는 존재하지 않는 서열이 있기 때문이다. 대표체의 복잡성은 특정 출발 집단에서의 제한 엔도뉴클레아제의 절단 빈도와 관련된다. 보다 자주 절단되는 것은 보다 복잡한 대표체가 생성되게 한다. 200-1,200개 사이의 염기쌍의 단편은 전형적인 조건 하에 PCR에 의해 우선적으로 증폭되기 때문에, 대부분의 단편이 200-1,200개 사이의 염기쌍이 되도록 출발 DNA의 절단에 의해 매우 복잡한 대표체를 수득할 수 있다. 역으로, 낮은 복잡성의 대표체는 보다 적은 단편이 200-1,200개 사이의 염기쌍이 되도록 DNA 분자를 절단함으로써 수득될 수 있다. 예를 들어 인간 게놈 DNA를 DpnII로 절단하면 전체 인간 게놈의 약 70%의 복잡성을 갖는 대표체가 생성된다. 반면, 덜 자주 절단하는 것, 예를 들어 BamHI 또는 BglII에 의한 절단에 의해 인간 게놈의 단지 약 2%의 복잡성을 갖는 대표체가 생성될 수 있다. 높은 복잡성의 대표체는 예를 들어 유전자 카피수, 결실 지도화, 이형 접합성의 손실의 결정, 비교용 게놈 혼성화, 및 DNA의 아카이브 저장 (archiving)에 유용하다. 일반적으로 낮은 복잡성의 대표체는 동일한 목적에 유용하지만, 높은 복잡성의 대표체보다 우수한 혼성화 상의 동력학적 특성을 준다.

대표체의 복잡성은 하나보다 많은 제한 효소를 사용하여 단편을 생성한 후 어댑터의 라이게이션에 의해, 및/또는 어댑터의 라이게이션 후 하나 이상의 추가의 제한 효소를 사용하여 단편의 서브세트를 절단함으로써 생성된 대표체에서 상기 단편을 고갈시킴으로써 미세하게 조정할 수 있다. 메틸화 민감성 제한 효소를 비롯한 임의의 제한 효소를 사용하여 본 명세서에 기술되어 있는 분석용의 대표체를 생성할 수 있다.

대표체의 복잡성은 증폭에 사용되는 어댑터의 선택으로 구체화할 수 있다. 예를 들어 어느 어댑터를 사용하는지가 대표체의 구성원의 크기에 영향을 줄 수 있다. 동일한 어댑터를 절단 단편의 양 말단에 라이게이션시킬 경우 단일 가닥 내에서의 어댑터 사이의 팬핸들 (panhandle) 형성이 프라이머 어닐링과 경쟁하게 되며, 따라서 PCR에 의한 증폭을 억제한다. Lukyanov et al., Anal. Biochem. 229: 198-202 (1995) 참조. 보다 짧은 단편의 증폭이 억제되길 가능성이 더 큰데, 이는 어댑터가 보다 짧은 단편에서 서로에게 보다 가까워, 라이게이션된 어댑터의 지역적 집중이 보다 크게 효과적이게 되며, 따라서 상호작용이 보다 커진다. 대략 29개의 염개쌍의 팬핸들을 형성하는 어댑터는 200-1,200개의 염기쌍의 크기 범위의 단편의 증폭을 가능하게 한다. 보다 짧은 팬핸들, 예를 들어 24개의 염기쌍을 형성하는 어댑터는 보다 작은 단편의 억제의 일부를 해제하여, 보다 작은 PCR 증폭 산물에 유리하며, 따라서 변경된 복잡성의 대표체를 생성한다.

IV . 핵산 샘플의 어레이로의 혼성화

본 발명의 마이크로어레이는 일반적으로 용액 중의 단일 가닥 핵산 샘플에 혼성화된다. 잠재적인 혼성화 신호는 혼성화 챔버에서 주소마다 달라질 수 있기 때문에 프로브 어레이는 바람직하게는 비교자로 사용되어, 완전히 혼합되며 따라서 동일한 혼성화 조건을 공유하는 2종의 상이하게 표지된 표본 (샘플) 사이의 혼성화의 비를 측정할 수 있다. 일반적으로 2종의 표본은 시험 (예를 들어 질환에 걸린) 및 대조 (예를 들어 질환이 없는) 세포로부터 각각 유래된다.

마이크로어레이에 혼성화시킬 샘플, 예를 들어 상기 대표체는 당업계의 숙련자에게 공지된 임의의 방법으로 검출가능하게 표지할 수 있다. 몇몇 실시 형태에 있어서 샘플은 예를 들어 랜덤 프라이머 표지 또는 닉 번역 (nick translation) 에 의해 형광 부분으로 표지된다. 샘플이 대표체일 경우, 샘플은 반응물에 표지된 뉴클레오티드를 포함시킴으로써 증폭 단계 동안 표지할 수 있다. 형광 표지체는 예를 들어 리사민 (lissamine)-콘쥬게이션 뉴클레오티드 또는 플루오레세인-콘쥬게이션 뉴클레오티드 유사체일 수 있다. 몇몇 실시 형태에 있어서 2종의 차별적으로 표지된 샘플 (예를 들어 하나는 리사민으로 표지되고 다른 하나는 플루오레세인으로 표지됨)이 사용된다. 몇몇 실시 형태에 있어서 샘플은 미표지된다.

혼성화 및 세척 조건은 샘플 중의 핵산 분자가 어레이 상의 상보성 올리고뉴클레오티드에 특이적으로 결합되도록 선택된다. 이중 가닥 올리고뉴클레오티드를 포함하는 어레이는 일반적으로 변성 조건에 처해져 올리고뉴클레오티드가 단일 가닥이 되게 한 후 샘플과 접촉시킨다. 최적의 혼성화 조건은 샘플 핵산 및 올리고뉴클레오티드 프로브의 길이 및 유형 (예를 들어 RNA 또는 DNA)에 따라 달라진다.

본 발명의 어레이로의 혼성화는 당업계의 숙련자에게 공지된 임의의 방법으로 검출할 수 있다. 몇몇 실시 형태에 있어서, 형광 표지된 샘플 뉴클레오티드의 혼성화는 레이저 스캐너로 검출한다. 몇몇 실시 형태에 있어서 표지되거나 미표지된 샘플 뉴클레오티드의 혼성화는 그의 질량을 측정함으로써 검출한다. 2종의 상이한 형관 표지체가 사용될 경우 스캐너는 하나보다 많은 파장의 형광성을 검출할 수 있는 것일 수 잇는데, 이 파장은 각각의 형광 표지체의 파장에 일반적으로 일제히 또는 거의 일제히 상응한다.

V. 올리고뉴클레오티드 프로브의 예시적 용도

본 발명의 올리고뉴클레오티드 프로브를 사용하여 게놈 중의 특정 서열의 메틸화 상태 또는 카피수에 잇어서의 변화를 탐지 및 정량화할 수 있다. 복수개의 DNA 샘플로부터 유래되는 대표체가 동일한 올리고뉴클레오티드 프로브에 혼성화되는 경우, 두 샘플 사이의 특정 프로브에 대한 혼성화의 상대적인 강도는 두 샘플에 있어서 그 프로브에 상응하는 서열의 상대적이 카피수 또는 메틸화 상태를 나타내는 것이다. 예를 들어 게놈은 일반적으로 증폭으로 인한 소정 서열의 여분의 카피를 포함하거나 특정 영역의 결실로 인하여 보다 적거나 전혀 없는 소정 서열을 포함한다. 이러한 방법은 예를 들어 특정 서열의 증폭, 결실 또는 메틸화 상태가 예를 들어 암, 신경계 질환 (예를 들어 자폐증), 당뇨병, 심장 질환 및 염증성 질환 (예를 들어 자가면역 질환)을 비롯한 특징 질환의 소인, 진행 또는 단계화에 관계되는 경우 예를 들어 참조 샘플과 환자 샘플 사이의 서열의 메틸화 상태 또는 카피수에 있어서의 변화를 분석하는 데에 사용될 수 있다.

또한, 게놈에서의 카피수 또는 메틸화 상태의 변경에 대한 위치 상의 정보가 수득될 수 있는데 이는 본 발명의 올리고뉴클레오티드 프로브가 상보성이 되는 게놈 중의 서열이 공지되어 있기 때문이다. 올리고뉴클레오티드 프로브는 게놈 서열에 자주 혼성화되도록 고안되고 샘플이 높은 복잡성의 대표체일 경우, 게놈 증폭, 결실 영역 또는 메틸화 상태를 정확하게 지도화하는 것이 가능해진다. 따라서 본 발명을 이용하여 특정 질환의 소인, 진행 또는 단계화에 관계될 수 있는 개개의 유전자를 동정할 수 있다. 이러한 유전자는 서열이 참조 게놈과 관련하여 암 게놈에서 각각 증폭, 결실 또는 메틸화/비메틸화되는지에 따라 발암 유전자 및 종양 억제 유전자일 수 있다.

본 발명의 올리고뉴클레오티드 프로브는 또한 개체내 및 개체간 둘 모두에 있어서 단일 뉴클레오티드 다형성 (single nucleotide polymorphism, SNP)을 비롯하여 다형성 부위의 동정에 사용될 수 있다. 이러한 다형성은 일반적이며 2-3%만큼 많은 올리고뉴클레오티드 프로브가 심지어 "정상" 개체간에도 다형성 거동을 나타낸다. 탐지가능한 다형성은 예를 들어 이형접합성 다형성을 넘어서 연장되는 점 돌연변이, 결실, 게놈 재배열 또는 유전자 변환으로 인한 제한 엔도뉴클레아제 단편의 손실 또는 수득으로부터 생길 수 있는데, 여기서 이는 대표체에 있어서의 그의 존재 또는 부재에 반영된다. 예를 들어 제한 효소를 이용한 뉴클레오티드 서열의 절단에 의해 제한 효소 부위가 존재하는지에 따라 하나의 큰 (즉, 미절단된) 또는 2개의 작은 단편이 생성될 수 있다. 이러한 다형성 제한 효소 부위는 올리고뉴클레오티드 프로브가 시험 대표체 중의 작은 단편 중 하나 또는 둘 모두를 검출할 경우 시험 게놈 중에 존재하는 것으로 알려져 있다.

이와 유사하게, 전좌, 삽입, 역위 및 결실을 비롯한 게놈 재배열에 의해 재배열체의 적어도 일부에 미치는 새로운 제한 엔도뉴클레아제 단편이 생성될 수 있다. 이러한 새로운 단편 중 일부는 증폭될 수 있으며 따라서 재배열된 게놈의 대표체에는 존재하지만 참조 대표체에는 없을 수 있다. 역으로, 게놈 재배열은 대표체로부터 유래되는 단편의 손실로 이어질 수 있다. 어느 하나의 경우에 있어서, 소정 프로브에 대한 혼성화에 있어서의 시험 및 참조 대표체 사이의 차이는 게놈 재배열이 참조 게놈에 관하여 시험 게놈에서 일어날 수 있음을 암시한다. 참조 게놈에서의 상기 프로브의 위치 및 상기 프로브의 서열의 분석에 의해, 재배열의 유형 및 재배열의 접합부를 비롯한 유전자 재배열에 대한 정보를 수득할 수 있다.

개체내에서의, 그리고 개체간의 특정 서열의 카피수 및 다른 다형성의 분석능은 당업계의 숙련자에게는 명백한 다수의 용도를 가진다. 이는 예를 들어 법의학적 시험 및 부성 시험; 식물 또는 동물의 번식; 정성적인 형질의 분석을 포함하는 유전 형질과 유전적으로 연관된 다형성의 발견; 약물에 대한 유리하거나 불리한 반응의 예측을 포함하는 환자에 있어서의 약물 반응의 결정; 진단; 및 임상 시험에 있어서의 환자 확인 및 층화에 있어서 개체의 확인일 수 있지만 이로 한정되는 것은 아니다.

VI . 예시적 검색 엔진

하기는 상기 올리고뉴클레오티드 프로브를 수득하는 데에 사용될 수 있는 알고리즘을 기술하고 있다. 하기 설명은 이 알고리즘이 단지 그러한 프로브를 수득하기 위한 수단이라는 것을 예시하려는 것이 아님을 이해해야 한다. 또한 이 알고리즘은 본 발명의 올리고뉴클레오티드 프로브의 생성 이외의 용도를 가진다는 것을 알아야 한다. 다른 용도 중 일부가 본 명세서에 기술되어 있다.

본 명세서에서 때로 검색 엔진 또는 mer-엔진으로 칭해지는 본 알고리즘에서는 게놈의 변환 (예를 들어 버로우즈-휠러 변환 (Burrows-Wheeler Transform) 및 보조 데이타 구조를 이용하여 특정 워드가 게놈 중에 나타나는 횟수를 카운팅한다. "워드"는 임의의 길이의 뉴클레오티드 서열을 나타낸다.

일반적으로 먼저 워드의 마지막 문자를 찾음으로써 엔진은 특정 워드를 검색한다. 이어서 엔진은 마지막 문자 바로 앞의 문자를 찾기 위하여 진행한다. 첫번째의 바로 앞의 문자가 찾아지면, 엔진은 워드가 찾아질 때까지 워드의 마지막 문자에 대하여 두번째의 바로 앞의 문자를 찾는 등이다. 추가의 앞의 문자가 찾아지지 않으면, 워드는 게놈 중에 존재하지 않는다는 결론을 내린다.

이러한 특별한 알고리즘은 상기에 논의되어 있는 바와 같이 게놈 연구를 포함하는 여러 실제 용도의 수행에 사용될 수 있기 때문에 유리하다. 검색 엔진의 하나의 용도는 이를 사용하여 게놈과 같은 뉴클레오티드 서열에 주석을 달 수 있다는 것이다. 특별하게는 게놈은 게놈 내에 존재하는 특정 길이의 서브스트링을 사용하여 주석을 달 수 있다. 이어서 검색 엔진은 특정 길이의 서브스트링이 게놈 중에 나타나는 횟수를 카운팅할 수 있다. 이러한 카운트는 특정 서브스트링의 특유함을 나나내는데, 보다 적은 카운트는 보다 높은 카운트보다 특유함의 정도가 더 높다는 것을 나타낸다.

프로브 고안은 검색 엔진의 사용에 의해 유리하게 증강되는 다른 실제 용도이다. 특정 워드가 게놈에서 출현하는 횟수를 신속하게 카운팅하는 엔진의 능력은 특유하며 최소의 교차 혼성화로 DNA의 특정 영역에 혼성화하는 프로브의 고안에 있어서 특히 유용하다. 검색 엔진의 사용에 의해, 특유하며 소정의 엄격성 조건을 충족시키는 구성 절편으로 이루어질 프로브, 예를 들어 전체 게놈 내에서 낮은 워드 카운트를 갖거나 워드 카운트를 전혀 갖지 않는 것을 필요로 함으로써 잠재적인 교차 혼성화를 최소화할 수 있다.

검색 엔진의 또다른 용도는 두 게놈 사이의 차이를 탐지하는 것이다. 예를 들어 인간 게놈 프로젝트 진행에 있어서, 게놈의 새로운 절편이 지도화되고 대중에게 공개된다. 동일한 게놈의 다른 버전 상에서 고안된 프로브 및 검색 엔진을 사용하여, 얼마나 많은 그러한 프로브가 새로운 버전의 게놈에 적용될 수 있는지를 결정할 수 있다.

검색 엔진이 사용될 수 있는 또다른 용도는 특정 워드가 게놈에 존재하는지를 확인하는 것이다. 게놈에서 출현하지 않아 워드가 게놈의 섹션에 혼성화될 기회가 거의 없는 워드를 찾는 것이 바람직할 수 있다. 이러한 워드는 미리 정의된 기준 세트에 따라 랜덤하게 생성될 수 있다. 워드가 찾아질 경우, 또한 그의 상보체가 검색 엔진에 제시되어 이것이 게놈에서 출현하는지를 결정한다. 워드 및 그의 상보체 둘 모두가 게놈에서 출현하지 않을 경우, 이 워드 둘 모두는 서로에게 혼성화되며 게놈에는 혼성화되지 않는다고 알려져 있다.

A. 시스템에 대한 설명

검색 엔진 및 그의 적용은 도 7에 도시되어 있는 예시적 시스템 (700)을 사용하여 본 발명에 따라 수행될 수 있다. 시스템 (700)은 컴퓨터 (710), 사용자 인터페이스 장비 (730), 인터넷 (740), 및 선택적인 실험실 장비 (도시되어 있지 않음)를 포함할 수 있다. 시스템 (700)은 다수의 컴퓨터 (710) 및 사용자 인터페이스 장비 (730)을 포함할 수 있지만 도면의 복잡화의 회피를 위하여 각각의 단지 하나가 도 7에 도시되어 있다. 컴퓨터 (710)는 통신 경로 (790)을 통하여 인터넷 (740), 및 사용자 인터페이스 장비 (730)에 연결되는 것으로 도시되어 있다.

컴퓨터 (710)는 프로세서 (712), 데이타베이스 (714) (예를 들어 하드 드라이브), 기억장치 (716) (예를 들어 임의 접근 기억 장치) 및 제거가능한 매체 드라이브 (718) (예를 들어 플로피 디스크 드라이브, CD-ROM 드라이브, 또는 DVD 드라이브)와 같은 회로를 포함할 수 있다. 이 회로는 데이타를 사용자 인터페이스 장비 (730) 및 인터넷 (740)으로, 이것들로부터, 및/또는 이것들 사이에 데이타를 전송하는 데에 사용될 수 있다. 컴퓨터 (710)는 사용자 인터페이스 장비 (730)으로부터의 사용자 입력에 반응함으로써 본 발명의 기술을 시작할 수 있다. 컴퓨터 (710)는 또한 검색 엔진의 작동으로부터 수득되는 결과에 관하여 사용자 인터페이스 장비 (730)에서 사용자에게 정보를 제공할 수 있다.

데이타베이스 (714)는 검색 엔진에 데이타를 제공하는 정보를 저장한다. 더 특별하게는 데이타베이스 (714)는 게놈의 특정 부분 또는 게놈의 서열을 포함할 수 있다. 본 발명은 데이타베이스 (714)에 저장된 게놈 정보를 이용하여 부가 (suffix) 어레이를 제작하는데, 이는 데이타베이스 (714)에도 저장될 수 있다. 부가 어레이는 게놈 또는 그의 일부의 변환을 제작하기 위한 제조물에서 생성되는 데이타 구조이다. 게놈에 대한 대표적인 데이타는 예를 들어 제거가능한 매체 드라이브 (718)을 통하여 접근할 수 있는 판독형 매체 (예를 들어 플로피 디스켓, CD-Rom 또는 DVD)로부터 수득될 수 있다. 대안적으로는 게놈 데이타는 인터넷 (740)을 통하여 수득될 수 있는데, 여기서 데이타는 예를 들어 연구 기관 (예를 들어 National Institutes of Health 또는 대학교)에 위치한 서버로부터 전송된다. 원할 경우 데이타베이스 (714)는 새로운 게놈 데이타가 이용가능하게 됨에 따라 새로운 게놈 데이타로 업데이트할 수 있다.

일반적으로 부가 어레이를 대표하는 데이타의 양은 게놈을 대표하는 데이타의 양보다 훨씬 더 많다. 따라서 데이타베이스 (714)는 기억장치 (712)보다 부가 어레이를 저장하는 데에 더 적합할 수 있는데, 이는 데이타베이스가 기억장치보다 더 많은 데이타를 기꺼이 저장하기 때문이다.

사용자 인터페이스 장비 (730)는 입력 장치 (732)를 통하여 사용자가 명령을 컴퓨터 (730)에 입력하는 것을 가능하게 한다. 입력 장치 (732)는 임의의 적합한 장치, 예를 들어 통상적인 키보드, 무선 키보드, 마우스, 터치 패드, 트랙볼, 음성 구동형 콘솔, 또는 그러한 장치의 임의의 조합일 수 있다. 입력 장치 (732)는 예를 들어 사용자가 명령을 입력하여 특정 워드의 워드 카운트를 수행하거나 잠재적인 프로브에 대한 통계학적 분석을 수행하는 것을 가능하게 한다. 사용자는 디스플레이 장치 (734) 상에서 시스템 (700) 상에서 작동하는 과정을 모니터링할 수 있다. 디스플레이 장치 (734)는 컴퓨터 모니터, 텔레비전, 평판형 디스플레이, 액정형 디스플레이, 음극선관 (CRT), 또는 임의의 다른 적합한 디스플레이 장치일 수 있다.

통신 경로 (790)는 임의의 적합한 통신 경로, 예를 들어 하드웨어에 내장된 (hard-wired) 링크, 광섬유 링크, 적외선 링크, 리본형 와이어 (ribbon-wire) 링크, 블루 투쓰 (blue-tooth) 링크, 아날로그 통신형 링크, 디지탈 통신형 링크, 또는 이러한 링크의 임의의 조합일 수 있다. 통신 경로 (790)은 컴퓨터 (710), 사용자 인터페이스 장비 (730), 및 인터넷 (740) 사이에서의 데이타 이송을 가능하게 하도록 구성된다.

검색 엔진으로 수득되는 결과가 실험에 직접 적용될 수 있도록 실험실 장비가 시스템 (700)에 제공되어 있을 수 있거나, 그 반대로도 가능하다.

검색 엔진의 이점은 정확한 워드 매치를 카운팅하는 기술이 전적으로 컴퓨터의 기억장치 (예를 들어 기억장치 (716) 내에서 일어날 수 있다는 것이다. 이는 정확한 워드 매치에 있어서 극도로 빠르며 효율적인 게놈의 쿼링 (querying)을 제공한다. 데이타베이스 (예를 들어 하드 드라이브)에 접근할 필요가 전혀 없다. 그러한 필요성은 실질적으로 검색 엔진의 성능을 방해할 수 있다. 정확한 워드 매치의 카운팅에 사용되는 기술은 100% 정확하다.

B. 부가 어레이, 버로우즈 - 휠러 변환 및 알파바운즈 ( alphabounds )

이제 도 8을 참조해 보면, 예시적 흐름도 (800)에는 본 발명의 원리에 따라 검색 엔진에서 사용하기 위한 게놈의 제조에 있어서의 단계들이 도시되어 있다. 흐름도 (800)에서는 특정 게놈의 변환을 생성하는 기반을 제공하는 부가 어레이 데이타 구조를 생성하는 기술이 사용되고 있다. 이러한 변환은 본 발명의 검색 엔진의 기반을 제공하는데, 여기서, 본 검색 엔진은 특정 워드 (예를 들어 15, 21, 70 또는 80개의 문자를 갖는 워드)의 출현 횟수를 신속하게 카운팅할 수 있다. 단계 (810)에서 게놈 또는 게놈의 일부와 같은 뉴클레오티드 서열이 제공된다. 게놈은 N개의 뉴클레오티드의 길이를 갖는 문자 스트링으로 배열될 수 있는데, 여기서 N은 게놈을 대표하는 문자 스트링 중의 뉴클레오티드의 총 갯수를 나타낸다.

단계 (810)에서 제공된 게놈은 임의의 유기체로부터 유래될 수 있거나 랜덤하게 생성될 수 있다. 예를 들어 전체 공지 인간 게놈이 제공될 수 있거나 이 인간 게놈의 일부가 제공될 수 있다 (예를 들어 염색체 또는 염색체 영역을 대표하는 게놈의 일부). 원할 경우 비-인간 게놈 데이타, 예를 들어 바이러스, 박테리아, 단일 세포 및 다중 세포 유기체 - 효모, 식물, 및 동물, 예를 들어 도마뱀, 어류, 및 포유류 (예를 들어 생쥐, 쥐, 및 비인간 영장류)를 포함함 - 의 게놈이 제공될 수 있다.

단계 (820)에서, 게놈은 소정의 사전 편찬 순서에 따라 게놈의 뉴클레오티드 배열을 인식하는 변환 과정에 처해진다. 이 변환은 게놈에 출현하는 동일한 구성 글자 (예를 들어 A, C, G 및 T)를 유지하지만 이 글자들은 상이한 순서로 배열된다. 본 발명의 일 실시 형태에 있어서, 게놈은 버로우즈-휠러 변환이라 불리우는 공지된 변환에 처해진다. 버로우즈-휠러 변환은 부가 어레이로부터 수득될 수 있다. 본 발명에 따르면, 부가 어레이는 게놈의 모든 순환적 치환을 나타내는 N x N 매트릭스인데, 여기서, 치환은 소정의 기준 (예를 들어 알파벳, 숫자 등)에 따라 배열된다. 유리하게는, 버로우즈-휠러 변환은 순환적 치환의 정렬된 N x N 매트릭스를 나타낸다. 따라서, 본 발명의 검색 엔진이 버로우즈-휠러 변환을 통하여 검색한다면, 이는 연장에 의해 부가 어레이를 통하여 검색하며, 이는 추가의 연장에 의해 게놈을 대표하는 원래의 스트링을 통하여 검색하게 된다.

게놈 서열 어셈블리는 A, C, G 및 T 외에도 불명확한 문자를 포함할 수 있으며, 따라서 게놈 알파벳은 5개의 문자로 연장된다. 일반적으로 N으로 칭해지는 이 불명확한 문자는 핵산 서열의 특정 위치의 뉴클레오티드가 공지되어 있지 않을 때 일반적으로 사용된다.

버로우즈-휠러 변환은 정렬된 부가 어레이를 나타내기 때문에 특정 문자 스트링의 검색시 부가 어레이에 접근할 필요가 없다. 바람직하게는 변환은 기억장치에 저장되는데, 여기서, 검색 기능은 변환이 하드 디스크에 저장될 경우 훨씬 더 빨리 실행될 수 있다. 또한, 부가 어레이에 포함된 데이타의 양이 상당할 수 있기 때문에 부가 어레이는 보다 빠른 작동 기억장치 (예를 들어 컴퓨터의 임의 접근 기억장치)와는 반대로 하드 디스크 드라이브에 저장되어야 할 수 있다. 예를 들어 인간 게놈에 있어서의 부가 어레이의 크기는 대략 12 기가바이트 이다. 이러한 어레이를 기억장치에 저장할 경우 기억장치가 12 기가바이트인 기계의 비용은 예를 들어 기억장치가 3 기가바이트인 기계보다 훨신 더 값이 비싸다. 따라서, 본 검색 엔진의 한가지 이점은 본 검색 엔진이 값비싼 기억장치 강화 기계를 필요로 하지 않는다는 것이며 이는 변환이 정렬된 부가 어레이의 압축된 버전을 나타내기 때문이다.

부가 어레이는 본 발명에 따른 워드 검색을 수행할 필요가 없는 반면, 이는 변환과 어레이 사이의 상관 관계를 보여 주기 위하여 어떻게 그러한 어레이가 수득되는지를 설명하는 데에 유용하다. 부가 어레이는 먼저 뉴클레오티드 서열의 순환적 치환을 수득함으로써 제작할 수 있다. 예를 들어 표 1에는 게놈 "AGACAGTCAT$의 순환적 치환이 예시되어 있는데, 여기서, "$"는 게놈 스트링의 말단을 표시하기 위하여 제공된다.

[표 1]

AGACAGTCAT$

GACAGTCAT$A

ACAGTCAT$AG

CAGTCAT$AGA

AGTCAT$AGAC

GTCAT$AGACA

TCAT$AGACAG

CAT$AGACGTC

AT$AGACAGTC

T$AGACAGTCA

$AGACAGTCAT

순환적 치환이 수득된 후 소정의 기준에 따라 열을 정렬하여 특정의 사전 편찬 순서 (예를 들어 알파벳에 의한 사전 편찬 순서)를 수득한다. 예를 들어 표 2에 정렬된 어레이라는 표제 하에 표 1에 예시되어 있는 치환의 알파벳에 의한 배열이 예시되어 있다.

[표 2]

열 정렬된 어레이 변환

0 $AGACAGTCAT - > T

1 ACAGTCAT$AG - > G

2 AGACAGTCAT$ - > $

3 AGTCAT$AGAC - > C

4 AT$AGACAGTC - > C

5 CAGTCAT$AGA - > A

6 CAT$AGACAGT - > T

7 GACAGTCAT$A - > A

8 GTCAT$AGACA - > A

9 T$AGACAGTCA - > A

10 TCAT$AGACAG - > G

일단 순환적 치환이 정렬되면 게놈의 변환은 정렬된 어레이의 각 열의 마지막 글자를 취함으로써 수득될 수 있다. 이 글자들은 "변환"이라는 컬럼 표제 하에 재생되어 있는데, 이는 게놈 "AGACAGTCAT$"의 변환이 "TG$CCATAAAG"임을 나타낸다.

일 실시 형태에 있어서, 인간 게놈과 같은 게놈의 부가 어레이는 16-노드 클러스터를 사용하여 병렬 기수 정렬을 이용하여 만들 수 있다. 이러한 접근법을 이용하여 게놈을 X개 (예를 들어 100개)의 갯수의 동일 크기의 서브스트링으로 나누는데, 각각은 7개의 뉴클레오티드가 중복되며, X는 소정의 수이다. 각각의 서브스트링 내에서의 게놈 내로의 오프셋 (offset) (즉, "게놈" 좌표)을 각각의 오프셋에서 7-mer (7개의 뉴클레오티드)에 따른 5⁷ "접두어"의 저장소 (bin) 중 하나에 할당한다. 각각의 접두어의 저장소 내의 오프셋은 7-mer 접두어에 따른 서열에 기초하여 정렬하고, 그럼으로써 부가 어레이를 생성한다.

단계 (830)에서, 알파바운즈 데이타 구조, K-간격 데이타 구조, 및 사전식 카운트 데이타 구조를 포함할 수 있는 보조 데이타 구조를 생성하기 위하여 다양한 통계 자료를 컴퓨터로 처리한다. 알파바운즈는 변환 중에 얼마나 많은 아데닌, 시토신, 구아닌 및 티민 뉴클레오티드가 존재하는지를 나타낸다. 예를 들어 표 1 및 2의 게놈을 사용하면 A, C, G 및 T의 알파바운즈는 각각 4, 2, 2 및 2이다.

알파바운즈를 사용하여 정렬된 부가 어레이의 각각의 열의 앞에 존재하는 특정 문자에 상응하는 변환의 범위의 한계를 정할 수 있다. 예를 들어 뉴클레오티드 A에 있어서의 한계가 정해진 범위는 A로 시작되는 부가 어레이의 각각의 열을 포함한다. 표 2를 참조하면, 표 2는 정렬된 어레이의 1-4열이 A로 시작됨을 보여준다. 따라서, 4개의 열은 A에 대하여 컴퓨터로 처리된 알파바운즈에 상응한다. 표 2는 5-6열이 C로 시작됨을 보여주는데, 이는 C에 대하여 컴퓨터로 처리된 알파바운즈에 상응한다. 마찬가지로, G 블록은 변환의 7 및 8열에 상응하며, T 블록은 변환의 9 및 10열에 상응한다.

단계 (830)은 또한 변환에 있어서 매 K개의 갯수의 문자에 대하여 K-간격을 생성할 수 있는데, 여기서 K는 소정의 수이다. K-간격은 변환에서 나타나는 각각의 뉴클레오티드의 누계를 유지를 위하여 사용될 수 있다. 이러한 K-간격은 카운팅 과정의 속도를 높이기 위하여 본 발명의 검색 엔진에 의해 사용될 수 있는데, 이는 도 3 및 4와 관련하여 이하에 논의되어 있다. 구체적으로는, 특히 길이가 400만개의 문자보다 큰 뉴클레오티드 서열에 적용시, 종래의 워드 카운팅 기술보다 본 검색 엔진이 성능이 뛰어나며 공간을 덜 사용하게 할 수 있다.

하기의 예는 어떻게 변환이 K-간격을 이용하여 도표화되는지를 더 설명하고 있다. 변환이 10개의 문자 ACGTCAGTCA를 가지고, K-간격은 매 5개의 문자마다 저장된다고 가정한다. 첫번째 간격에서, K-간격은 하나의 A, 2개의 C, 하나의 G, ㅁ및 하나의 T를 포함한다. 두번째 간격 (예를 들어 열번째 문자)에서, K-간격은 지금까지 변환에서 나타난 모든 뉴클레오티드의 도표를 포함한다. 두번째 K-간격은 3개의 A, 3개의 C, 2개의 G, 및 2개의 T를 포함한다.

단계 (840)에서, 버로우즈-휠러 스트링은 소정 압축 비에 따라 압축시킨다. 바람직하게는 스트링은 3 대 1의 압축 비를 사용하여 압축시킨다. 즉, 매 3개의 문자에 대하여 스트링은 하나의 문자로 압축된다 (예를 들어 3000개의 문자는 1000개의 문자로 압축됨). 당업계의 숙련자라면 다른 압축 비가 사용될 수 있음을 알 것이다. 예를 들어 4 대 1 또는 5 대 1의 압축 비가 사용될 수 있다. 스트링은 사전 기반의 압축 체계를 이용하여 압축시킬 수 있는데, 여기서, 125의 특유의 단일 바이트 코드 중 하나는 각각의 5³의 가능한 3-문자 서브스트링 (예를 들어 AAA, AAC,..., TTT) 중 하나를 나타낸다. 더 구체적으로는 변환은 3문자 서브스트링으로 나누어지며 각각의 서브스트링은 사전 기반의 압축 체계에 따라 압축된다. 예를 들어 3문자 서브스트링이 AAA일 경우, 이는 사전식 압축 체계의 0 바이트와 동등할 수 있다. 이와 유사하게, 서브스트링이 TTT일 경우, 이는 사전식 압축 체계의 124 바이트와 동등할 수 있다.

특정 문자가 압축 바이트에 나타나는 횟수를 신속하게 확인하기 위한 신속 접근 조회 표의 제공에 의해 카운팅 과정에서 검색 엔진을 보조하기 위하여 사전식 카운트 데이타 구조를 생성할 수 있다. 이는, 이것이 검색 엔진이 압축 상태로 존재하면서 변환 상에서 카운팅 작업을 수행하는 것을 가능하게 하기 때문에 유리하다. 그러나, 바이트는 검색 엔진이 특정 문자가 검색 영역 내에 나타나는 횟수를 카운팅하는 것을 끝내게 하기 위하여 압축이 해제되어야 할 수도 있다는 것을 알아야 한다. 평균적으로, 압축 변환 바이트는 문자 카운팅 단계가 검색 엔진에 의해 수행되는 동안의 시간의 2/3으로 압축이 해제된다.

일단 변환이 압축되면, 이는 본 발명의 검색 엔진에서 즉시 사용된다. 특히 압축된 버로우즈-휠러 변환은 게놈 내에 포함된 특정 워드의 각각의 출현을 위치화하고 카운팅하기 위하여 쿼리될 수 있다.

C. 워드 카운팅 알고리즘

도 9는 mer 엔진의 원리에 따라 주어진 게놈에 존재하는 특정 워드가 존재하는 횟수를 카운팅하는 예시적 단계의 ksfir화된 흐름도를 도시하고 있다. 단계 (910)에서 시작하여, 게놈의 압축된 변환 및 보조 데이타 구조가 제공되어 있다. 압축된 변환 및 보조 데이타 구조는 예를 들어 도 8에 도시되어 있는 흐름도로부터 수득될 수 있다. 단계 (914)에서, 특정 길이의 쿼리 패턴 (예를 들어 ACG... G)이 제공되어 있다. 이 패턴은 바람직하게는 게놈의 변환에 있어서 검색 엔진이 찾는 뉴클레오티드 스트링이다.

쿼리 패턴이 제공된 후, 검색 엔진은 이 패턴이 존재하는지를 결정하기 위하여 반복 적용식 검색 과정을 시작한다. 이 패턴이 존재할 경우, 검색 엔진은 빠르고 정확하게 패턴이 출현하는 횟수를 출력한다. 단계 (918)에서, 반복 적용 과정은 검색 영역을 정으 (또는 재정의)함으로써 시작하며, 이는 변환 내에서의 일련의 문자 위치의 한계를 정한다. 검색 영역은 압축 변환의 X 위치에서 출발하여 Y 위치에서 끝나는 문자 블록의 한계를 정한다. 이 검색 영역 (또는 블록)은 잠재적으로는 모든 출현하는 쿼리 패턴을 포함한다. 검색 영역은 소정의 기준, 예를 들어 쿼리 패턴의 특정 문자, 알파바운즈, 및 기타 데이타를 사용하여 정의한다. 어떻게 검색 영역을 정의하는지에 대한 보다 상세한 설명은 도 10에 동반되는 설명과 함께 논의된다.

단계 (920)에서, 이 과정은 검색 영역에서 다음의 쿼리 패턴의 앞의 문자가 얼마나 많은 횟수로 출현하는지를 결정한다. 단계 (922)에서, 앞의 문자 카운트가 0일 경우, 쿼리 패턴은 존재하지 않으며 이 과정은 끝난다 (단계 924). 한계가 정해진 범위 내에서 하나 이상의 문자가 찾아지면, 이 과정은 단계 (92)으로 진행한다. 단계 (926)에서 앞의 문자가 쿼리 패턴에서 첫번째 문자인지를 결정한다. 만약 그렇다면 이 과정은 단계 (928)로 진행하며, 여기서 단계 (920)에서 수득되는 카운트가 출력되며 이 과정은 끝난다. 앞의 문자가 쿼리 패턴의 첫번째 문자가 아니라면, 이 과정은 단계 (918)로 되돌아가는데 (loop back) 이는 쿼리 패턴이 게놈 중에 존재하는지 또는 존재하지 않는지가 아직 결정되지 않았기 때문이다. 단계 (918)에서, 검색 영역은 소정 기준을 이용하여 재정의된다.

더 특별하게는 검색 영역은 하기 등식 1 및 2를 이용하여 재정의된다:

출발 위치 = A + Z (1)

마지막 위치 = 출발 위치 + M - 1 (2)

여기서, A는 알파바운즈에 따른 앞의 문자의 출발 위치이며, Z는 현재 정의된 검색 영역 이전의 변환에서 앞의 문자가 나타나는 횟수를 나타내며, M은 현재 정의된 검색 영역에서 앞의 문자가 나타나는 횟수를 나타낸다.

재정의된 검색 영역도 모든 나타나는 쿼리 패턴을 포함하지만, 새롭게 정의되는 검색 영역은 단계 (920)에서 검색될 필요가 있는 문자의 위치를 추가로 한정한다. 새로운 검색 영역의 정의 후, 이 과정은 단계 (920)까지 계속되는데, 여기서, 쿼리 패턴의 다음의 앞의 문자 (즉, 이전 단계 (920)에서 사용된 마지막 문자 앞의 문자)를 새롭게 정의된 검색 영역 내에서 카운팅한다. 이 루프는 쿼리 패턴의 첫번째 문자, 결과적으로 워드 카운트의 갯수를 찾기 이전에 필요한만큼 많은 횟수로 반복될 수 있다. 앞의 문자 중 하나가 검색 영역에서 찾아지지 않으면, 그러한 패턴이 게놈 중에 존재하지 않는다는 결론을 내린다.

도 10A-B는 전술한 워드 카운팅 알고리즘의 예를 도시한다. 이 예에서는 예시적 게놈 (AGACAGTCAT$), 부가 어레이, 버로우즈-휠러 변환 (TG$CCATAAAG), 및 ㅍ표 1 및 2와 관련하여 전술한 알파바운즈가 사용된다. 이 예에 있어서, 사용자는 "CAG"라는 워드가 게놈에서 얼마나 많이 출현하는지를 결정하기를 원하는 것으로 가정한다.

도 10A에 있어서, 이 과정은 G 블록의 한계를 정함으로써 시작되는데, 이는 G가 "CAG"라는 워드에서 마지막 문자이기 때문이다. 도시된 바와 같이 G 블록은 버로우-휠러 변환의 7 위치에서 시작되며 8 위치에서 끝난다. 이 위치는 알파바운즈로부터 수득된다. 일단 G 블록의 한계가 정해지면 본 엔진은 G 블록 내에 존재하는, "CAG"의 다음의 앞의 문자인 A의 갯수를 검색하고 그를 카운팅한다. 도 10A는 2개의 A가 G 블록에 출현하는 것을 도시하는데, 따라서 이는 게놈이 2회 출현하는 "AG"를 포함한다는 것을 나타낸다.

원할 경우, K-간격을 이용하여 특정 문자가 검색 영역 내에 출현하는 횟수를 카운팅하는 단계를 도울 수 있으며 또한 검색 영역 이전에 특정 문자가 나타나는 횟수의 카운팅에도 사용될 수 있다. 이러한 카운팅 단계의 실시를 위해서 특정 문자를, 소정 위치 (즉, 출발 위치)에서 시작하여 다수의 K인 가장 가까운 위치로 진행하면서 카운팅한다. 검색 엔진과 관련하여 K-간격을 사용하는 경우의 한가지 이점은 얼마나 많은 횟수로 특정 워드가 게놈에 출현하는지를 결정하는 시간이 K-간격, 검색되는 워드의 크기, 및 다양한 기억장치 주소에 접근하는 데 필요한 시간에 대하여 선형이라는 것이다. 따라서, 게놈의 크기는, 압축 변환 및 K-간격 데이타 구조의 크기가 너무 커서 기억 장치 (예를 들어 임의 접근 기억 장치)에 맞을 수 없는 경우가 아니라면, 워드 카운트의 결정 요인이 아니다. 일 실시 형태에 잇어서, K는 300개의 문자, 또는 동등하게는 100의 압축 바이트로 설정될 수 있다. 이러한 배열에 있어서, 수행되어야 할 필요가 있는 카운트의 최대 횟수는 K/2를 초과하지 않는다.

원할 경우, 각각의 K-간격 내의 크기 K^의 서브간격을 이용하여 특정 K-간격 이내에 출현하는 각각의 문자의 누계를 유지할 수 있다. 예를 들어 K의 크기가 2⁸ 미만으로 한정된다면, 매 K-간격에서의 각각의 문자에 대한 카운트는 단일 바이트를 이용하여 기록할 수 있다. 이는, 단지 [(K/K^)/4]의 팩터로 K-간격 카운트에 대한 공간 상의 요건을 증가시키면서 K/K^의 팩트로 카운팅 인덱스의 밀도 증가를 제공한다. 이러한 서브간격 및 크기에 대한 제한 사항은 이 알고리즘과 관련되어 사용되는 보조 데이타 구조에 의해 이용되었다. K 및 K^의 선택에 따라, 인간 게놈에 있어서 2 기가바이트 미만의 기억 장치 요건은 유지하면서 쿼리 실행 속도에 있어서 3 내지 5배가 증가되었다.

카운팅 과정을 더 빠르게 하기 위하여, 사전식 카운트 데이타 구조가 이용될 수 Dt다 사용되는 압축 체계는 3:1의 압축 체계라는 것을 알아야 하는데, 여기서, 0 내지 124 바이트는 각각 "AAA" 내지 "TTT"로 압축이 해제된다. 사전식 카운트 구조는 125열과 5 행의 매트릭스로 생각될 수 있는 2차원 어레이이다. 각각의 열은 압축 사전 엔트리 중 하나에 상응하며, 각각의 행은 A 내지 T의 게놈 알파벳의 각각의 문자에 상응한다. 하기는 예로써 어떻게 사전식 카운트 구조 및 K-간격을 이용하여 카운팅 작업을 수행할 수 있는지를 설명한다.

예를 들어, 본 검색 엔진이 검색 영역 이전에 나타나는 A의 갯수를 결정하는 과정 중에 있다고 가정한다. 상기의 K-간격 카운트 구조를 사용하여, 본 엔진은 단일 조회로 50 바이트 이상의 검색 영역의 현재의 출발 위치의 내로 "점프"할 수 있다. 추가로 이 간격의 49^th 바이트인 압축 "ATT" (바이트) 중의 세번째 "T"를 출발 위치로 가리킨다고 KWJD한다. 각각의 48번째의 앞의 바이트에 있어서, 바이트 그 자체는 사전식 카운트 데이타 구조에 있어서 열의 수로 사용될 수 있으며, 목적 문자 'A"는 행의 수를 나타낸다. 이 정보를 사전식 카운트 어레이에 접근하기 위한 좌표로 사용하면, 사전식 카운트 데이타 구조는 "A"가 그 압축 바이트에서 출현하는 횟수를 제공한다. 따라서, 검색 영역의 시작 이전에 얼마나 많은 A가 출현하는지를 결정하기 위해서는 사전식 카운트 구조는 48회 접근될 필요가 있다. 또한, 49^th 바이트는 "ATT" 바이트의 첫번째 두 문자 "AT"의 조사를 위하여 압축을 해제할 필요가 있을 수 있다.

따라서, 사전식 카운트 데이타 구조를 K-간격 데이타 구조와 조합할 경우, 임의의 갯수의 문자의 카운팅 단계에서는 단지 K/6+1 테이블 조회가 필요하며, 이에 더하여 가장 최악의 경우에 있어서는 2개의 문자 비교가 필요하다.

다시 도 10을 참조하면, 그 후 검색 엔진은 변환 내의 AG 블록의 한계를 정하여, 이것이 다음의 이전의 문자를 어디에서 시작해야 하는지를 알게 한다. AG 블록의 경계는 A가 변환 중의 G 블록에 선행하는 횟수를 변환에서 A 블록이 시작되는 첫번째 위치에 더함으로써 찾는다. 이 예에 있어서, 단지 하나의 A가 G 블록 이전에 나타난다. 따라서, A가 1이고 Z가 1인 상기 등식 1을 이용하여 AG 블록에 있어서 2의 출발 위치를 수득한다. AG의 마지막 위치는 M이 2인 (G 블록에서 찾아지는 A의 갯수) 상기 등식 2를 이용하여 수득한다. 도 10B에 도시되어 있는 바와 같이 등식 2에 의하면 AG 블록의 마지막 위치는 3인 것으로 산출된다.

일단 AG 블록이 찾아지면, 검색 엔진은 C가 거기에서 나타나는 횟수를 카운팅한다. 이 카운트는 게놈에서 나타나는 CAG의 갯수를 생성하는데, 이는 C가 "CAG"라는 워드의 첫번째 문자이기 때문이다. 따라서, 본 검색 엔진에 의해 1의 워드 카운트가 생성된다.

도 11은 게놈의 좌표 위치에 상응하는 좌표 위치를 갖는 정렬된 부가 어레이 및 좌표 위치를 갖는 예시적 게놈을 도시한다. 즉, 부가 어레이의 각 열에서의 첫번째 문자는 게놈 중의 문자 중의 하나에 상응한다. 예를 들어 어레이의 두번째 열은 2의 좌표 위치를 가지며, 이는 게놈의 2 위치에 상응한다. 따라서, 부가 어레이의 좌표 위치는 게놈의 좌표 위치와 서로 관련된다.

원할 경우, 부가 어레이는 특정 워드의 좌표 위치를 위치화하는 데에 사용될 수 있다. 예를 들어 "CAG"의 좌표 위치를 찾는다면, 도 11의 부가 어레이에 접근할 수 있으며, 이는 CAG가 3 위치에서 출발한다는 것을 나타낼 것이다. 그러나 상기에 언급한 바와 같이, 부가 어레이에의 접근은 시간이 많이 걸리는 과정인데, 이는 이것이 하드 디스크 드라이브 접근을 필요로 하기 때문이다. 따라서 단지 기억 장치에 접근함으로써 워드 좌표를 수득하는 것이 바람직하다. 이는 미리 선택된 부가 어레이 좌표를 변환에 할당함으로써 성취될 수 있으며, 그럼으로써 특정 워드의 출발 좌표의 위치화를 위하여 좌표 위치 알고리즘에서 변환이 사용되게 한다.

그러한 좌표 위치 알고리즘이 예로서 설명된다. 접미사 배열의 원형 부분이 게놈의 변형체이고, 단지 좌표 3 및 7이 접미사 배열로부터의 변형체로 이월된 것으로 가정한다. 추가로, TC의 좌표를 찾는 것이 바람직한 것으로 가정한다. (변형체가 TC와 합쳐진 G와 연합된 좌표를 가진 경우, TC의 좌표는 좌표 위치 알고리즘을 이용하는 것에 의존해야 할 필요없이 알게 된다.) TC가 변형체에서 마지막 G과 연합됨을 알게 된다. 이 G로부터 출발하여, 알고리즘은 얼마나 많은 선행하는 G들이 있는지를 결정한다. 이 경우에서, 하나의 선행하는 G가 있다.

알파바운드 데이터 구조, 및 선행하는 G의 수를 사용하여, 어떠한 문자가 이 특별한 G에 선행하는지를 결정한다. 알파바운드를 이용하여, G 블록이 위치 7에서 출발함을 알게 된다. 하나의 선행하는 G이 있기 때문에, 알고리즘은 이 수를 7에 더하여, 8을 얻게 된다. 이에 따라, GT로 출발하는 접미사 배열 문자열에 상응하는 A는 상기 G에 선행하는 문자이다. 이는 좌표 위치 알고리즘의 1회 반복을 완성한다. 일반적으로 말해, 변형체에 대한 좌표(예컨대, 3 또는 7)에 도달할 때까지 이 반복을 반복한다. 일단 좌표에 도달되면, 반복수를 좌표에 더하고, 이에 수득된 합은 원하는 단어(예컨대, TC)의 실제 출발 좌표 위치이다.

반복적 공정을 계속하여, 2개의 A가 GT로 시작하는 접미사 배열 문자열과 연합된 A를 선행함이 알게 된다. 알파바운드 및 선행하는 A의 수를 이용하여, 알고리즘은 AGT로 시작하는 접미사 배열과 연합된 C에 착수한다. 이 특별한 C에 선행하는 C가 없기 때문에, 알고리즘은 CAG로 시작하는 접미사 배열 문자열과 연합된 A에 착수한다. 이 A가 좌표 위치(예컨대, 3)를 가지기 때문에, 3(이 A의 좌표 위치)을 반복수(이 예에서는 3임)에 더함으로써 문자 TC의 실제 위치가 결정될 수 있고, 그 결과 6의 좌표 위치가 얻어진다. 이에 따라, TC가 원래의 게놈에서 좌표 위치 6에서 시작한다.

D. 검색 엔진의 용도

검색 엔진의 작용 특성이 기술되었기 때문에, 엔진의 실제적 용도들의 논의될 수 있다. 검색 엔진의 한 용도는, 게놈(또는 임의의 다른 유형의 뉴클레오티드 서열)을 주석을 다는데 사용될 수 있다는 것이다. 특히, 게놈은 게놈 내에 존재하는 특별한 길이의 부문자열을 이용하여 주석달릴 수 있다. 이어서, 검색 엔진은 특별한 길이의 부문자열이 게놈에서 생기는 수를 계수할 수 있다. 이 계수는 특별한 부문자열의 특이성을 가리키고, 여기에서 보다 낮은 계수는 보다 높은 계수보다 높은 특이성 정도를 나타낸다.

원할 경우, 게놈 또는 전체 게놈의 임의의 영역은 그것의 구성요소 "mer" 빈도수를 기초로 하여 주석달릴 수 있다. "mer"는 특별한 길이의 단어 또는 부문자열의 다른 한 용어이다. 이에 따라, 게놈 또는 그것의 일부가 주석달릴 때, 그것은 특별한 길이의 mer(예컨대, 15, 18, 21 및 24의 mer 길이)를 기초로 주석달린다. 주석이 달리는 mer 길이와 무관하게, 게놈 내에 존재하는 그 길이의 모든 mer이 계수된다. 예를 들어, mer 길이가 15일 경우, 검색 엔진은 첫 번째 15-mer 및 그 후 생기는 각 15-mer의 단어 계수를 결정할 것이다. 각 이어지는 15-mer는 한 문자에 의해 이전 15-mer 단어와 중복된다. 즉, 문자 1 내지 15는 15-mer를 구성하고, 문자 2 내지 16는 다른 한 15-mer를 구성하며, 문자 3 내지 17은 다른 한 15-mer를 구성한다. 이는 모든 주석달린 15-mer가 단어 계수로 지정되도록 확실히 하여, 단어 계수가 특별한 15-mer가 전체 게놈 내에 생기는 회수를 나타내도록 한다.

프로브 설계는 검색 엔진을 이용하여 용이해진다. 특별한 단어가 게놈에서 나타나는 회수를 빨리 계수하는 엔진의 능력은, 특이하고 최소의 교차-혼성화로 DNA의 특정 영역에 혼성화는 프로브를 설계하는데 유용하다. 검색 엔진을 이용함으로써, 전체 게놈 내에 단어 계수가 작거나 없는 것과 같은 특정 엄격 조건을 만족하는 보다 작은 mer을 포함하는 후보물질 프로브를 선택함으로써 가능한 교차-혼성화가 최소화될 수 있다. 한 특이한 단어는 소정의 수 미만의 단어 계수(예컨대, 2, 5, 10, 25, 50 또는 100 미만의 단어 계수)를 가지거나, 그것의 부분의 게놈 내에 단어 계수가 없는(예를 들어, 0 단어 계수) 뉴클레오티드의 특별한 문자열일 수 있다.

보다 특히, 후보물질 프로브는 후보물질이 길이, L1을 가질 것을 요하고, 후보물질이 소정의 단어 계수를 가질 것(예컨대, 단어 계수 1의 후보물질 프로브)을 요하는 등의 한 세트의 소정의 기준에 기초하여 수득된다. 부가적으로, 소정의 기준은 또한 후보물질의 역 상보체가 소정의 단어 계수(예컨대, 1)를 가질 것을 요할 수 있다. 일단 후보물질이 수득되면, 그것은 어떠한 후보물질이 프로브로서 사용하기에 적당한지를 결정하는 부가적 소정의 기준에 적용된다. 이 부가적 기준은 그것의 구성요소 부영역(즉, 후보물질 프로브 내에 함유된 일정 길이의 mer)에 기초하여 후보물질을 여과하는데 사용된다. 예를 들어, 여과 기준은 다른 프로브 후보물질에 비해 최소화되는 단어 계수를 가지기 위해 길이 L2(여기에서, L2는 L1보다 작음)의 mer를 요할 수 있다. 이에 따라, "경성" 제한 (예컨대, 각 후보물질이 게놈에 대해 특이함)과 "연성"제한 (예컨대, 구성요소 mer 계수가 최소화됨) 사이의 관계인, 프로브 발견에 사용되는 기준들 간의 관계가 존재한다.

"경성" 제한을 만족시키기 위한 한 방법은, 이전에 수행된 주석다는 것의 결과에 기초하여 후보물질을 수득하는 것이다. 단어 계수 정보를 이용하여, 후보물질이 낮은 농도의 단어 계수를 갖는 게놈의 영역으로부터 선택될 수 있다(예컨대, 소정의 길이의 단어 계수의 최소 평균 값, 소정의 길이의 단어 계수의 기하학적 평균 값, 소정의 길이의 단어 계수의 모드 값, 소정의 길이의 단어 계수의 최소화된 최대 값, 소정의 길이의 단어 계수의 총합 값, 소정의 길이의 단어 계수의 곱 값, 특별한 뉴클레오티드의 최대 길이 문자열, 또는 이들의 조합을 갖는 후보물질을 수득하는 것이 바람직하다).

"연성" 제한을 만족하기 위해, 후보물질은 15-mer 계수, 17-mer 계수 등과 같은 소정의 기준에 따라 주석달릴 수 있다. 주석해로부터 수득된 데이터를 분석하여, 후보물질이 프로브로서 사용되기에 충분히 특이한지를 결정한다. 후보물질은 예를 들어, 그것이 모든 후보물질 등 중 15 mer 계수의 가장 낮은 합을 가질 경우에, 프로브로서 선택될 수 있다. (예컨대, 한 특별한 뉴클레오티드의 긴 문자열) 조성 바이어스의 최소 발생과 같은 다른 기준을 적용하여, 어떠한 프로브가 최적인지 결정할 수 있다. 각 후보물질에 기준을 적용한 후, 하나 이상의 후보물질을 적당한 프로브로서 선택할 수 있다.

검색 엔진의 다른 한 용도는 하나의 게놈에서 다른 한 게놈으로의 변화를 검출하는 것이다. 예를 들어, 인간 게놈 프로젝트가 진행됨에 따라, 게놈의 새 세그먼트를 매핑하여 공공연하게 공개된다. 다른 한 버전의 동일한 게놈에 대해 설계된 프로브 및 검색 엔진을 사용하여, 그 프로브들 중 얼마나 많은 것들이 새 버전의 게놈에 적용될 수 있는지를 결정할 수 있다.

검색 엔진이 사용될 수 있는 다른 한 용도는, 게놈 내에 한 특별한 단어가 존재하는지를 입증하는 것이다. 단어가 게놈의 한 구획에 혼성화할 가능성이 거의 없게 되도록 하는, 게놈에 나타나지 않는 단어를 찾는 것이 바람직할 수 있다. 이 단어는 소정의 기준 세트에 따라 무작위로 발생될 수 있다. 단어가 발견될 때, 그것의 상보체는 또한 검색 엔진에 제출되어, 그것이 게놈 내에 나타나는지의 여부를 결정한다. 단어 및 그것의 상보체 모두가 게놈에 나타나지 않는 경우, 이 단어 및 그것의 상보체가 게놈에 혼성화할 최소의 가능성이 있다. 그러한 비혼성화 프로브는 해독가능한 바코드로서의 혼성화에서, 또한 혼성화 배열 조절에 사용될 수 있고, 네트워크 형성을 통해 혼성화 기호를 증진시키기 위한 목적으로 핵산 프로브에 부가될 수 있다.

혼성화 가능성을 최소화하는 한 방법은 한 특별한 단어의 구성요소 mer의 빈도수를 최소화하는 것이다. 즉, 0 단어 계수를 갖는 많은 구성요소 구성요소 mer 길이를 갖는 프로브를 수득하는 것이 바람직하다. 예를 들어, 수개의 20-mer 올리고뉴클레오티드가 게놈에 혼성화하지 않을 목적으로 발생되는 것으로 가정한다. 이어서, 각 20-mer가 각각의 그 구성요소인 중복 19-mer, 18-mer, 17-mer, 16-mer 이하, 예를 들어 6-mer에 대해 주석달리는 것으로 추가 가정한다. 이론적으로, 가장 바람직한 20-mer는 바람직하게 각 길이 mer에 대한 단어 계수 0을 가진다. 실제로, 혼성화 가능성이 최소인 프로브는 바람직하게 가능한 한, 매우 짧은 mer 길이에서의 많은 0 mer 계수를 가진다(예컨대, 한 바람직한 프로브는 19, 18, 17, 16, 15, 14 및 13의 mer 길이에 대해 0 단어 계수를 가질 수 있다). 이에 따라, 하나의 프로브가 그것의 구성요소 15 및 14-mer의 0 단어 계수를 가지는 경우, 그것의 구성요소인 15-mer의 계수 0을 갖는 프로브보다 게놈에 혼성화하는 경향이 덜하나, 그것의 구성요소 14-mer의 1 이상의 계수를 가진다. 이에 따라, 전자 프로브는 게놈의 구획에 매칭하는 어떠한 14-mer도 가지지 않기 때문에, 후자 프로브보다 혼성화하는 기회가 덜하다.

비혼성화 올리고뉴클레오티드는 0 이하의 단어 계수를 가지는 특별한 mer의 구성요소 mer를 이용하여 구성될 수 있다. 예를 들어, 한 특별한 20-mer이 0 단어 계수를 갖는 13-mer를 가지는 경우, 이 13-mer들 중 2개는 게놈 내에 가능히 존재하지 않는 올리고뉴클레오티드를 구축하는데 사용될 수 있다(예컨대, 이 13-mer의 2는 상호 부착되어, 특이한 26-mer를 생성할 수 있다).

실험실 세팅에서, 예를 들어, 0 계수 단어 및 그것의 0 계수 상보체(비혼성화 올리고뉴클레오티드)는 (혼성화) 프로브 또는 표적 단어에 부착될 수 있다. 추상적 의미로, 단어는 "본체(body)"(즉, 프로브)에 부착되는 "팔"이다. 혼성화가 시작하면 단어("팔")은 단지 서로 혼성화하고, 프로브는 게놈에 혼성화된다. 단어("팔")은 통상적으로 검출가능한 물질(예컨대, 형광 표지)을 담지하기 때문에, 자가 혼성화는 배경 혼성화에 대해 게놈 내에서의 프로브의 위치를 구별하는 것을 돕는다. 이에 따라, 팔의 자가 혼성화는 게놈에 혼성화되는 프로브의 가시성을 증폭시키는 작용을 한다.

비혼성화 올리고뉴클레오티드는 또한 다른 서열들의 광대한 집단 중에서 한 특별한 서열을 특이하게 동정하기 위한 택으로 사용될 수도 있다. 비혼성화 올리고뉴클레오티드는 공지된 서열에 부착됨으로써, 특별한 서열을 택표시 또는 표지화할 수 있다.

다른 한 실시예에서, 수개의 상이한 DNA 서열은 이어져 단일 게놈을 형성할 수 있다(예컨대, 예를 들어, 도 8의 단계 810에서 제공됨). 예를 들어, 인간 혈액 샘플 내의 특별한 병원체(예컨대, 바이러스)의 존재 여부를 검출하는 프로브를 설계하는 것이 요망되는 경우, 그러한 이어진 게놈이 유용하다. 인간 혈액으로부터 추출된 DNA는 단지 인간 DNA뿐만 아니라, 병원체와 같은 다른 출처로부터의 DNA를 함유하기 때문에, 이어진 게놈이 필요하다. 그러므로, 프로브가 인간 혈액 내의 병원체를 효과적으로 검출하도록 하기 위해, 그것은 게놈에 대해 교차 혼성화되어서는 안된다.

병원체 프로브가 조직 샘플 내의 다른 게놈(예컨대, 환자의 게놈, 및 환자에서 발견되는 다른 미생물의 게놈)에 대해 완전히 특이하지 않은 경우, 병원체 게놈 내의 프로브에 대한 단어 계수를 다른 게놈 내의 단어 계수를 비교할 필요가 있을 수 있다. 이 접근법은 2개의 검색 엔진, 즉 문제의 병원체에 대한 한 검색 엔진, 및 다른 게놈의 조합에 대한 다른 검색 엔진을 필요로 할 수 있다. 이 이중 검색 엔진 접근법을 적용할 때, 조직 샘플에서의 다른 게놈 내의 프로브 계수가 반비례하여 낮은 한, 병원체 게놈 내에 큰 mer 계수를 가지는 프로브를 설계하는 것이 유리할 수 있다.

VII . 실시예

하기 실시예는 단지 설명을 위한 목적으로 제공된 것이다. 그것은 본원에 개시된 본 발명의 범주를 제한하는 것으로 의도되지 않는다.

실시예 1 - 표상에 대해 상보적인 올리고뉴클레오티드의 선택

이 실시예는 인간 게놈의 BglII-유래의 표상에 대해 상보적인 올리고뉴클레오티드 프로브의 동정을 입증한다. 유사한 접근법을 사용하여, 공지되어 있거나 예측되는 서열을 갖는 핵산의 임의의 집단에 대해 상보적인 올리고뉴클레오티드를 설계할 수 있다. 인간 게놈 서열의 공개된 드래프트 어셈블리를 사용하여, 본인들은 드래프트 어셈블리 내에 모든 BglII 제한 부위를 위치시킴으로써 인간 게놈의 컴퓨터 이용의 BglII 소화를 수행하였다. 본인들은 200 내지 1,200 염기 쌍의 길이인 BglII 단편의 모든 서열들을 추가로 선택하였다. 이어서, 본인들은 본원에 기재된 알고리즘을 이용하여 이 단편의 서열을 분석하였다. 이 알고리즘(또한, "mer-엔진"으로도 불림)은 임의의 시퀀싱된 게놈에서 임의의 주어진 올리고뉴클레오티드 서열의 복제수를 결정하는데 사용될 수 있다. 이 복제수는 또한 게놈 내의 올리고뉴클레오티드 서열의 "단어 계수"로도 불린다.

본인들은 인간 게놈의 동일한 드래프트 어셈블리로부터 구축된 mer-엔진을 이용하여, 그것의 구성요소인 중복 15- 및 21-mer(즉, 15 또는 21 뉴클레오티드를 갖는 올리고뉴클레오티드)의 단어 계수를 갖는 각 BglII-소화 단편을 주석달았다. 이를 행하기 위해, 본인들은 모든 구성요소인 중복 70-mer 올리고뉴클레오티드를 각 단편에 대해 컴퓨터로 발생시켰다(예컨대, 100 염기 쌍 단편은 31개의 그러한 70-mer를 가지게 됨). 하기와 같은 모든 그러한 70-mer 단편에 대해 하기 속성을 구하였다: 최대 21-mer 계수(또는 최대 18-mer 계수), 15-mer 계수의 산술 평균, G/C 함유율(%), 및 각 염기의 양, 및 임의의 단일 염기의 최장 런(run).

최대 21-mer 계수를 구하기 위해, 본인들은 각 70-mer를 중복 21-mer로 파단시키고, 각각의 이 21-mer를 게놈 내의 모든 21-mer 서열에 대해 비교하였다. 본인들은 최대 21-mer 계수가 1 초과인 모든 70-mer, 즉 게놈 내의 하나 초과의 21-mer 서열에 대해 100% 상보적인 21-mer 서열을 갖는 것들을 폐기하였다. 이는 본인들의 70-mer 프로브의 초기 세트이다.

본인들은 추가로, 30% 미만 또는 70% 초과의 GC 함량, 및 6 염기 초과의 A/T 런 또는 4 염기 초과의 G/C 런을 갖는 것들 제거함으로써, 70-mer 프로브 세트를 최적화하였다. 나머지 70-mer로부터, 본인들은 각 BglII 단편에 대해 전체로서 게놈의 GC/AT 비례성과 가장 근접한 GC/AT 비례성을 갖는 하나 (또는 그 이상의) 70-mer을 선택하였다. 본인들은 추가로, 각각의 70-mer의 구성요소인 중복 15-mer에 대한 게놈 단어 계수를 구함으로써 상기에 따라 선택된 70-mer의 각각을 분석하였다. 본인들은 가장 낮은 평균 15-mer 계수를 갖는 70-mer를 선택하였다.

전체 특이성에 대한 최종 확인으로서, BLAST 소프트웨어 프로그램을 이용하여 각 BglII 단편에 대한 최적의 70-mer 프로브를 전체 게놈과 비교하였다. 수행되지 않은 저 복잡성 서열의 여과를 제외하고는 디폴트 파라미터를 사용하였다. 자체 이외의 임의의 다른 서열에 대해 자체 길이의 50% 이상에 대해 상동성 정도를 갖는 임의의 70-mer 프로브를 제거하였다.

mer-엔진 알고리즘은 프로브 설계 공정에 강성, 탄력성 및 단순성을 제공한다. 모든 크기의 단어에 대한 단어 계수를 빨리 구하는 능력은, 설계 기준이 실제 혼성화 이벤트와 유사한 식으로 정량적으로 프레이밍되도록 한다. 단어 계수는 서열이 2개 이상의 세트의 폴리뉴클레오티드에 속하게 되는 정도의 정략적 측정값으로 간주될 수 있다. 예를 들어, 작은 프로브 "AGT"는 6개의 구별되는 단어, 즉 "A", "G," "T", "AG," "GT" 및 "AGT"를 갖는 한 세트로서 간주될 수 있다. 이 프로브가 모든 크기의 모든 단어에 대한 단어 계수로 주석달린 경우, 프로브 "AGT"인 첫 번째 세트에서 각 단어가 나타나는 회수보다 두 번째 세트, 즉 3십억 뉴클레오티드 게놈에서 나타나는 회수가 크게 웃도는 것이 밝혀질 것이다.

이 관계는 비 X/Y(여기에서, X 는 상기 프로브에 대한 모든 프로브의 구성요소 단어의 계수들의 합이고, Y는 게놈 내의 모든 동일한 단어의 계수들의 합임)으로 표시될 수 있다. 최소의 교차-혼성화로 표적 서열에 혼성화하는 70-mer 프로브를 선택할 때, 비 X/Y를 최대화할 수 있으며, 이 때 게놈 서열에서 유래된 프로브에 대한 X/Y의 최대 값은 1이다. 주석을 다는데 이용되는 단지 2개의 단어 길이를 선택하는 기술은 본질적으로 상기 목표에 대한 많은 가능한 손쉬운 방법들 중 하나이다.

문제의 게놈 영역 내에 특이한 프로브를 발견할 수 없는 경우, 특이하지 않은 프로브를 사용하여, 상대적 복제수 차이 및 간단하게는 물질의 명료한 측정을 제공할 수 있다. 이에 따라 문제는 3개의 세트의 단어들, 즉, 프로브, 문제의 포괄 영역, 및 게놈을 비교하는데까지 확장된다. Z는 포괄 영역들에 대한 모든 프로브 단어 계수들의 합을 나타낸다. X 및 Y는 역시 각기 프로브 및 게놈에 대한 모든 프로브 단어 계수들의 합을 나타낸다. 이에 따라, 목표는 식 (X/Y)/(X/Z), 또는 간단히 Z/Y의 값을 최대화하는 것이다. 다른 단어에서, 전체 복제수와 무관하게 영역-특이적인 프로브를 찾을 수 있다. 이 특정 경우는 혼성화를 통해 많은 것들 중 한 특별한 실체를 인식하는 프로브를 선택하는 임의의 환경을 포함하도록 일반화될 수 있다. 한 추가적 예는, 하나의 유기체의 DNA가 많은 다른 유기체들의 DNA에 노출될 때 인식되는 것이다.

이 전형예의 다른 한 용도는, 세트 멤버쉽을 최소화하는 용도이다. 본인들은 미세배열 실험에서의 혼성화 대조군으로 작용하는 프로브를 설계하였다. 이 프로브는 임의의 다른 프로브가 인식할 수 있는 동일한 가능성을 갖는 DNA의 단편만에만 혼성화하는 것으로 의도된다는 의미에서 대조군이었다. 이 경우에서의 목표는 단순히, Y가 가능한 한 0에 근접한 프로브를 설계하는 것이다. 그러한 프로브는 또한, 예컨대, 혼성화-해독가능한 특이한 동정자로서, 또는 네트워크형성을 통한 혼성화 신호를 증진하기 위한 다른 핵산 서열로의 부가로서 유용할 것이다.

단어 계수의 합 및 산술 평균에 부가하여, 특별한 크기의 단어에 대한 프로브의 단어 계수의 분산을 포함하는 많은 다른 통계들이 사용될 수 있다. 이 분산은 특별한 복제수에 존재해야 하는 프로브의 선택을 위해 급속한 예비선별로 작용할 수 있다. 특별한 단어 크기에 대한 최대 단어 계수는 다른 특이한 프로브에 대한 가장 나쁜 가능한 혼성화 성과를 나타내는 것으로 취해질 수 있다. 이 정량적 측정값은 다른 후보물질에 대한 혼성화 프로브의 적합성을 급속히 결정하기 위해 이상적이다. 본질적인 mer-엔진 알고리즘은 문제의 서열에 대한 단일 통과로 프로브 선택 공정을 감소시킬 수 있다.

본인들은 설계한 프로브 세트들 중 하나는 85,000개 70-mer로 구성되고, 인간 게놈에 대한 평균 18-mer 계수는 1.2이고, 표준편차는 0.8이다. 평균은 조합된 모든 프로브들의 모든 18-mer의 세트에 대해 계산되었다. 종래 기술, 특히 대략 23,000개 70-mer 발현 배열 프로브의 공개된 세트에 비해, 조합된 모든 프로브에 대한 18-mer 계수의 평균은 1.9이었고, 표준편차는 14.8이었다. 그러므로, 이 세트의 프로브는 두 개 중 4 인자만큼 더 큰 것이고, 18 인자만큼 더욱 일관적으로 특이적이었다. 상기 기술된 특이한 21-mer 제한 및 최소화된 응집 15-mer 계수 제한의 조합에 기초하여, 이 실시예에서의 85,000개 프로브의 세트를 선택하였다. 그 이점은, 실험적으로 잘 수행하는 것으로 입증된 프로브가 그것의 신호를 증가시키기 위해 DNA 단편의 큰 이질적 집단에 간단히 혼성화하지 않는다는 신뢰도의 큰 증가를 포함하였다. 이는, 표적 평균 단어 계수에 대한 극히 작은 표준편차와 같은, 엄격히 한정된 기준을 만족하도록 프로브 세트를 설계할 수 있도록 하는 정밀도를 추가로 설명한다.

실시예 2 - 배열의 제조

본인들은 실시예 1에 따라 설계된 올리고뉴클레오티드 프로브를 포함하는 미세배열을 구축하기 위한 2개 포맷을 사용하였다. 이 중 첫 번째, 즉 "인쇄" 포맷에서, 본인들은 약 10,000개 올리고뉴클레오티드를 구매하여, 그것을 유리 표면 상에 퀼(quill)로 인쇄하였다. 구체적으로, 본인들은 4×4 핀 형태를 이용하여 본인들의 프로브 집합을 슬라이드에 배열하기 위해 카르테시안(Cartesian) PixSys 5500(제네틱 마이크로시스템즈(Genetic Microsystems))를 이용하였다. 각 인쇄된 배열의 치수는 대략 2 cm²이었다. 본인들의 배열을 상업적으로 제조된 실란화 슬라이드(코닝(Corning) 울트라GAPS^TM #40015) 상에 인쇄하였다. 배열기에 사용된 핀은 메이저 프리시젼(Majer Precision)의 것이었다.

두 번째 포맷, 즉 "사진인쇄" 포맷에서, 레이저-지정 광화학을 이용하여 실리카 표면 상에 직접 님블겐(NimbleGen)^TM 시스템즈 인코포레이티드에 의해 올리고뉴클레오티드를 합성하였다. 대략 700,000개의 특이한 70-mer 올리고뉴클레오티드를, 먼저 그것을 8개 칩 상에 배열하고 그것을 정상적 남성 J. Doe로부터의 게놈 DNA의 BglII 및 EcoR1-결핍 BglII 표상과 혼성화함으로써 "혼성화"에 대해 선별하였다. 본인들은 가장 강한 신호를 발생시킨 85,000개 올리고뉴클레오티드를 선택하여, 그것을 단일 칩에 배열하였다.

양 포맷에서, 본인들은 배열 혼성화 동안의 기하학적 인공물이 게놈 손상으로 틀리게 해석되게 되는 가능성을 최소화시키기 위해 무작위 순서로 올리고뉴클레오티드를 배열하였다. 이 후속 실시예들에서, 본인들은 10K 인쇄 배열 및 85K 사진인쇄 배열에서의 결과를 기술한다.

실시예 3 - 시험 표상의 제조 및 표지화

본원에 기재된 일부 실험들을 위해, 본인들은 표상을 제조하기 위해 BglII를 선택하였다. BglII은 이 특별한 실험들에 유용한 특징을 가지며, 즉 그것은 강건한 효소이고; 그것의 절단 부위는 CpG 메틸화에 의해 영향을 받지 않으며; 그것은 4개 염기 돌출을 남기고; 그것의 절단 부위는 인간 게놈 내에 적당히 균일한 분포도를 가진다. BglII 표상은 짧은 단편, 일반적으로는 1,200 bps 미만의 단편으로 구성된다. 본인들은 17 kb의 평균 간격으로 인간 게놈의 약 2.5%를 포함하는, 약 200,000의 표상이 있음을 평가하였다.

본원에 기재된 실험들 모두에서, 본인들은 병행 제조된 표상의 비교 혼성화를 이용하였다. 비교되는 2개 샘플로부터의 DNA는 동시에 제조되었고, 표상은 동일한 프로토콜, 시약 및 열 사이클러를 이용하여, 동일 농도의 주형으로부터 제조되었다. 이는 PCR 증폭 시에 가변 수율에 의해 생성되는 가능한 "노이즈"를 감소시킬 것이다.

본인들은 [Lucito 등, 1998, 이하 상기된 바와 동일함]에 의해 상기 기술된 바와 같이 인간 게놈 DNA의 BglII 표상을 제조하였다. 간략히, 본인들은 공급업자에 의해 제시된 조건 하에 BglII으로 3-10 ng의 인간 게놈 DNA를 소화하였다. 본인들은 10 ㎍의 tRNA의 존재 하에 페놀 추출 및 에탄올 석출에 의해 소화물을 정제하였다. 본인들은 펠렛을 444 pmol의 각 어댑터를 갖는 30 ㎕의 1X T4 DNA 리가아제 완충액에 재현탁시켰다(RBg124 및 RBlg12; Lucito, R. 및 M. Wigler. 2003. DNA 복제수의 미세배열-기재의 대표적 분석(D. Bowtell 및 J. Sambrook 편저)에서의 "표적DNA의 제조", pp. 386-393. Cold Spring Harbor Press, 미국 뉴욕주 콜드 스프링 하버 소재). 본인들은 예비가열된 55℃ 히트 블록에 반응 혼합물을 넣고, 온도가 15℃로 급락할 때까지 히트 블록을 대략 1시간 동안 빙상에 두었다. 이어서, 본인들은 400 단위의 T4 DNA 리가아제를 첨가하고, 반응 혼합물을 12 내지 18시간 동안 15℃에서 인큐베이션하였다.

본인들은 250 ㎕ 관에 라이게이션된 물질의 1/40, 20 ㎕의 5X PCR 완충액[335 mM 트리스·HCl, pH 8.8; 20 mM MgCl₂; 80 mM(NH₄)₂SO₄; 50 mM β-메르캅토에탄올 및 0.5 mg/ml BSA], 2'-디데옥시뉴클레오시드 5'-트리포스페이트(첨가 후 최종 농도: 0.32 mM), RBgl24 어댑터(첨가 후 최종 농도: 0.6, μM), 1.25 U의 Taq 폴리머라제 및 물을 첨가하여, 부피가 100 ㎕이 되도록 하였다. 관을 72℃로 예비가열된 MJ 리서치 테라드(TETRAD)^TM 써모사이클러에 두었다. 이어서, 본인들은 하기와 같이 증폭을 수행하였다: 5분 동안 72℃에서의 1 사이클, 및 그에 이어 1분 동안 95℃ 및 3분 동안 72℃에서의 20 사이클, 및 그에 이어 10분 동안 72℃에서의 연장 시간. 본인들은 표상(즉, PCR 생성물)을, TE(pH 8) 내에 재현탁하여 DNA 농도를 결정하기 전에 페놀:클로로포름 추출 및 에탄올 석출로 세정하였다.

일부 실험들을 위해, 본인들은 부가적 제한 엔도뉴클레아제로 소화시켜 그것의 제한 부위를 포함하는 단편을 절단함으로써 결핍 표상을 제조하였다. 이 경우들에서, 본인들은 증폭 단계 직전에 두 번째 제한 엔도뉴클레아제로 라이게이션 혼합물을 소화시켰다. 하기 실험들에서, HindIII를 이용하여 결핍 BglII 표상을 제조하였다.

본인들은 DNA를 0.2 ml PCR 관에 둠으로써 표상 내의 단편을 표지하였다. 본인들은 아머샴-파마시아(Amersham-Pharmacia) 메가프라임(Megaprime)^TM 표지 키트로부터의, 10 ㎕의 프라이머를 첨가하여 그것들을 DNA와 잘 혼합하였다. 본인들은 물을 이용하여 부피를 100 ㎕로 맞추었다. 본인들은 관을 5분 동안 100℃에서 MJ 리서치 테라드^TM 기기 내에 두었고, 5분 동안 빙상에 두었으며, 아머샴-파마시아 메가프라임^TM 표지 키트로부터의 20㎕의 표지 완충액을 첨가하였다. 10 ㎕의 표지(Cy3^M-dCTP 또는 Cy5^M-dCTP) 및 1 ㎕의 뉴 잉글랜드 바이오랩스(New England Biolabs)

클레노우 단편. 본인들은 관을 2시간 동안 37℃에서 인큐베이션시키고, 표지된 샘플(Cy3^M 및 Cy5^M)을 하나의 에펜도르프(Eppendorf)

관에 조합하여 넣은 후, 50 ㎕의 1 g/㎕ 인간 Cot 1 DNA, 10 ㎕의 10 mg/ml 스톡 효모 tRNA, 및 80 ㎕의 저 TE(3 mM 트리스 pH 7.4, 0.2 mM EDTA)를 첨가하였다. 본인들은 샘플을 센트리콘(Centricon)

필터에 놓고 10분 동안 12,600 rcf에서 원심분리하였다. 본인들은 유동을 폐기하고, 필터를 450 ㎕의 저 TE로 세척하였다. 본인들은 원심분리를 반복하고, TE로 2회 세척하였다. 본인들은 센트리콘

칼럼을 새 관에 전화시키고 2분 동안 12,600 rcf에서 원심분리함으로써 표지된 샘플을 수집하였다. 본인들은 표지된 샘플을 200 ㎕ PCR 관에 옮겨, 저 TE로 부피를 10 ㎕로 맞추었다.

부가적으로, 일부 실험들을 위해, 본인들은 난소암 세포 및 McrBC의 정상 기준으로부터 DNA 단리물을 소화시키고, 링커를 라이게이션하여 상기와 같이 증폭시켰다.

실시예 4 - 배열로의 시험 표상의 혼성화

올리고뉴클레오티드 프로브를 300 mJ에 설정된 스트라타겐(Stratagene)

스트라타링커(Stratalinker)

세트를 이용하여 슬라이드에 UV-가교결합시키고, 슬라이드를 180도로 회전시켜, 슬라이드를 가교기 내 동일한 점에 유지시켰으며, 그 처리를 반복하였다. 본인들은 슬라이드를 2분 동안 0.1% SDS에서, 2분 동안 밀리-Q(Milli-Q)

워터에서, 5분 동안 비등 밀리-Q

워터, 또한 마지막으로 빙냉 95% 벤젠 비함유의 에탄올로 세척시켰다. 본인들은 슬라이드를 금속 선반에 둠으로써 건조시키고, 그것을 5분 동안 75 rcf에서 회전시켰다. 본인들은 인쇄된 미세배열을 코플린 자(coplin jar) 또는 다른 슬라이드 처리 체임버에 두고, 예비혼성화 완충액(25 % 탈이온 포름아미드, 5×SSC 및 0.1% SDS)를 첨가하고, 체임버를 2시간 동안 61℃로 예비가열시킴으로써 예비혼성화하였고, 그것을 밀리-Q

워터로 10초 동안 세척하였다. 본인들은 다시 슬라이드를 금속 슬라이드 선반에 두어 5분 동안 75 rcf에서 회전함으로써 슬라이드를 건조시켰다. 님블겐^TM 사진인쇄된 배열은 UV-가교결합 또는 예비혼성화를 필요로 하지 않았다.

25 ㎕의 혼성화 용액을 실시예 3에서 제조된 10 ㎕의 표지화된 샘플에 첨가하고, 혼합하였다. 프린팅된 슬라이드의 경우, 혼성화 용액은 25 % 포름아미드, 5X SSC 및 0.1 % SDS였다. 님블젠(NimbleGen)^™ 포토프린팅된 어레이(photoprinted array)의 경우, 50 % 포름아미드, 5X SSC 및 0.1 % SDS였다. 엠제이 리서치(MJ Research)^™ 테트라드(TETRAD)^™ 중의 샘플을 95 ℃에서 5 분 동안 변성시킨 다음, 37 ℃에서 30 분 동안 인큐베이션하였다. 샘플을 회전시키고, 리프터 슬립(lifter slip)을 사용하여 제조된 슬라이드로 피펫팅하고, 이를 프린팅된 어레이의 경우 58 ℃에서 설정되거나 또는 님블젠^™ 포토프린팅된 어레이의 경우 42 ℃에서 14 내지 16 시간으로 설정된 혼성화(hydridization) 오븐(예를 들면, 보에켈 인슬라이드 아웃(Boekel InSlide Out)^™ 오븐)에서 인큐베이션하였다.

혼성화 후, 상기 슬라이드를 다음과 같이 세척하였다: 0.2 % SDS/0.2X SSC에서 간단히 세척하여 커버슬립(coverslip)을 제거하고, 0.2 % SDS/0.2X SSC에서 1 분, 0.2X SSC에서 30 초 세척하고, 0.05X SSC에서 30 초 세척하였다. 슬라이드를 렉(rack)에 위치시키고 75 rcf에서 5 분 동안 회전시키기 전에 이들을 건조시켰다. 그 다음, 슬라이드를 즉시 스캐닝하였다.

프린팅된 어레이의 경우 10 미크론의 픽셀 크기로 설정되고 포토프린팅된 어레이의 경우 5 미크론의 픽셀 크기로 설정된 엑손 젠픽스(Axon GenePix)^® 4000B 스캐너를 사용하여 상기 슬라이드를 스캐닝하였다. 엑손 젠픽스^™ Pro 4.0 소프트웨어를 사용하여 상기 어레이의 강도를 정량화시키고, 추가의 분석을 위해 데이터를 S-PLUS^®에 이입시켰다. 바탕값 차감(background subtraction)없이 측정된 강도를 사용하는 실험에서 두 신호 사이의 비를 계산하였다. 문헌[Yang et al., Nucl. Acids Res. 30:el5-15 (2002)]에 기재된 것과 유사한 강도 기초 로웨스 곡선 적합 알고리즘(lowess curve fitting algorithm)을 사용하여 데이터를 정상화하였다. 컬러 리버설(color reversal) 실험으로부터 얻은 데이터를 평균내고, 하기 도면에 도시한 바와 같이 나타내었다.

실시예 5- 어레이의 성능 및 검증

앞서 실시예 1에서 논의한 바와 같이, 어떤 올리고뉴클레오티드 프로브가 그의 대표물(representation)과 혼성화할 수 있는지 공개된 인간 게놈 서열을 기초로 예측할 수 있어야 한다. 이를 확인하기 위해, 10K 프린팅된 어레이를 한 형광 염료로 표지화된 정상 인간 게놈 DNA의 BglII 대표물 및 또 다른 형광 염료로 표지화된 동일한 DNA의 HindIII-고갈된 BglII 대표물에 혼성화시킴으로써 이 어레이들을 시험하였다.

도 1은 HindIII에 의해 고갈된 BglII 대표물을 사용하여 얻은 결과를 도시한다. 도 1A에서, Y-축을 따라 각 프로브의 혼성화 강도의 비를 그래프로 나타낸다. 각 실험은 컬러 리버설에서 수행되었고, 상기 별개의 실험으로부터의 비율의 기하 평균을 플로팅한다. 전체 대표물 및 고갈된 대표물 양쪽 모두에서 단편을 검출할 것으로 예상되는 프로브는 양쪽 모두에 혼성화하였다(도 1A; 좌측). 이러한 프로브는 약 8,000 개였다. 고갈된 대표물에서 프로브를 검출하지 않을 것으로 예상되는 프로브는 혼성화하지 않았다(도 1A; 우측). 이러한 프로브는 약 1,800 개였다. 이러한 결과들은 (1) 대표 단편의 제한 프로파일이 정확하게 예측되었고, (2) 올리고뉴클레오티드가 정확하게 어레이되었으며, (3) 올리고뉴클레오티드가 허용가능한 신호 강도를 갖는 예측된 프로브를 검출하였다는 것을 검증한다. 도 1B에서, 컬러 리버설 실험의 비 사이의 합치(agreement)를 그래프로 나타낸다. 이들 데이터는 본 발명의 어레이의 재현성을 확인한다.

예측된 바와 같이 매우 소수의 올리고뉴클레오티드 프로브들이 대표물에서 표적 단편을 혼성화하는 데 실패하였다. 예를 들면, HindIII에 의해 분절되지 않은 단편에 혼성화할 것으로 예측된 8000 개의 프로브 중, 약 16 개가 사실상 분절된 BglII 단편에 혼성화한 것으로 보였다. 이는 다형성 또는 시퀀싱 오류(sequencing error)로부터 기인할 수 있는 본 발명의 샘플과 공개된 인간 서열 사이의 차이로 인한 것일 수 있다. 그러나, 본 데이터는 공개 인간 서열이 대표 올리고뉴클레오티드 마이크로어레이(microarray)에 대한 프로브를 디자인하는 데 충분히 신뢰가능하다는 것을 보여준다.

실시예 6- 종양 게놈의 포괄적인 분석

본 발명의 올리고뉴클레오티드 어레이는 이들이 제거 또는 증폭이든 대규모 게놈 손상(lesion)을 용이하게 검출한다. 도 2A1-A3, 2B1-B3 및 3C1-3C3은 세 게놈 비교에 대한 어레이 혼성화 데이터를 나타낸다: 도 2A1-A3은 이수성 유방암 세포를 동일한 생검(CHTN159)으로부터의 정상 이배체 세포와 비교하고(두 샘플 대표물은 각각 유세포 분석기에 의해 분리된 이수체 및 이배체 분획물로부터의 핵으로부터 단리된 약 100 ng의 DNA로부터 제조하였음), 도 2B1-B3은 미지의 민족의 환자로부터 유래된 유방암 세포주(SK-BR-3)를 관련이 없는 정상 남성 제이. 도(J. Doe)(유럽인 및 아프리카인의 혼합%; 실시예 2 참조)와 비교하고, 도 2C1-C3은 또 다른 정상 남성(아프리카 피그미인(African pygmy)) 대 동일한 제이. 도로부터의 세포를 비교한다. 각각의 경우, 샘플을 컬러 리버설을 사용하여 2 회 혼성화하고, 기하 평균 비(로그 척도)를 올리고뉴클레오티드 프로브의 게놈 순서에 대해 플로팅하였다. 카피수 증가(증폭)는 1을 초과하는 비로 표시되고, 카피수 감소(제거)는 1 미만의 수로 표시된다. 10K 프린트(print) 어레이를 사용하여 도 2A1, 2B1 및 2C1에 도시된 데이터를 얻었다. 85K 포토프린트(photoprint) 어레이를 사용하여 도 2A2, 2B2 및 2C2에 도시된 데이터를 얻었다.

암 게놈에 대한 명확한 프로파일이 존재하였다. 두 유방암 세포주의 프로파일은 뚜렷하였으나, 각각 게놈에서 증폭 및 제거가 이루어진 큰 영역을 나타내었다(도 2A1-A2 및 2B1-B2). 대조적으로, 정상-정상의 프로파일은 본질적으로 편평하였으며, 이는 이들 게놈 사이에 대규모 증폭 또는 제거가 없었음을 나타내는 것이다(도 2C1-C2). 이들 데이터는 본 발명의 올리고뉴클레오티드 어레이가 대규모 게놈 변화를 검출할 수 있음을 확인하는 것이다.

또한, 상기 결과는 세 게놈 모두(두 암 게놈 및 상기 아프리카 남성의 게놈)에서의 소수의 손실 및 이득을 검출하는 많은 올리고뉴클레오티드 프로브가 존재했다는 점을 시사한다. 이들 손실 및 이득은 도 2Al-A2, 2B1-B2 및 3C1-C2에 단독점으로 나타나고, 게놈 전체에 걸쳐 0.5 및 2.0의 비에 접근하는 프로브의 대역 또는 "쉘(shell)"로서 도 2C2(정상-정상 비교)에 명시되어 있다. 이들 손실 및 이득은 샘플링된 개인들 간의 이형접합성(heterozygous) BglII 다형성의 결과일 가능성이 높았다.

또한, 10K 프린트 포맷(format)과 85K 포토프린트 포맷을 비교한 결과, 이들이 상이한 해상도를 갖더라도 양쪽 모두 유사한 시야의 대규모 게놈 외형(feature)을 포획한다는 것을 명확히 입증하고 있다. 프로브들이 동일한 BglII 단편에 대해 상보성을 공유하는 경우 이들을 "브라더스(brothers)"로 칭하였다. 브라더스는 그들의 길이의 반 이하가 중첩될 수도 있거나 그들의 전 길이에 걸쳐 상보적일 수 있지만, 반드시 중첩 서열을 갖는 것은 아니다. 도 2A3, 2B3 및 2C3에서, 10K 포맷(Y-축)으로부터의 브라더 올리고뉴클레오티드의 비를 85K 포맷(X-축)으로부터의 그들의 브라더 올리고뉴클레오티드비에 대해 플로팅하였다. 7,000 개를 초과하는 브라더 프로브가 존재하였다. 포맷 간 프로브 서열이 상이하고, 그들의 어레이화 패턴이 상이하고, 혼성화 조건이 상이하고, 어레이의 표면이 상이하다는 점에도 불구하고 모든 세 실험에 대한 두 포맷에서 브라더 프로브의 비 사이에는 상당한 일치가 존재하였다. 이들 데이터는 본 발명의 올리고뉴클레오티드를 포함하는 어레이를 사용하여 얻은 결과의 재현성을 확인한다.

또한, McrBC를 사용한 분절에 의해 생성된 MOMA 대표물을 분석한 결과, 암 세포와 정상 세포 게놈 사이에서 변화된 메틸화 상태를 갖는 게놈 영역을 발견하였다. BglII 대표물을 사용하여 이들 영역의 카피수 차이에 정상화한 결과, 많은 이러한 부위에서 관찰된 차이가 메틸화 상태에서의 차이로 인한 것이며 카피수 차이로 인한 것이 아님을 확인하였다.

실시예 7- 자동화된 세그먼트화 및 전체 게놈 분석

또한, 게놈의 보다 작은 영역으로부터의 데이터를 분석하여 실시예 6에 나타낸 변이를 맵핑(mapping)하였다. 예를 들면, 분산을 고려한 후 프로브 비 데이터를 유사한 평균의 세그먼트(segment)로 분석하는 통계적 세그먼트화 알고리즘을 사용하여 한번에 한 염색체로부터의 데이터를 분석하였다(원형 이진 세그먼트화(circular binary segmentation; CBS)로 명명됨; 문헌[Olshen and Venkatraman, Change-Point Analysis of Array-Based Comparative Genomic Hybridization Data, Alexandria, VA, American Statistical Association, 2002] 참조). 상기 알고리즘은 우연히 평균차가 발생할 수 있는 확률에 기초하여 각각의 제안된 분할(split)을 거부하거나 받아들이는 각 염색체로부터 가장 우수한 가능한 세그먼트화를 회귀적으로 찾아낸다. 이 확률은 랜덤화(randomization) 방법에 의해 결정된다. 상기 알고리즘은 그의 비모수적 특성으로 인해, 3 개 미만의 프로브에 의해 인식되는 변이(aberration)를 찾아내는 것을 막았다.

도 3A-D는 85K 어레이를 사용하여 암 세포주 SK-BR-3의 4 개의 염색체(도 3A-D에서 각각 염색체 5, 8, 17 및 X)에서 분석한 결과물을 도시한다. 10K 어레이로부터의 데이터를 사용한 경우 유사한 세그먼트화 프로파일 및 세그먼트 평균이 관찰되었다. 데이터의 추가 분석을 하여 세포의 배수량(ploidy level)을 결정할 수 있었다.

세그먼트화 후, 이것이 속하는 세그먼트의 각 올리고뉴클레오티드 평균비(mean-ratio)를 지정하고, 정렬된 순서로 평균비를 플로팅하였다. 이들 데이터를 CHTN159(도 4A) 및 SK-BR-3(도 4C)의 암 게놈에 대해 플로팅한다. 하기 도면은 각 게놈 내에서 세그먼트 평균비가 유사한 값의 다수 정체 상태(major plateau) 및 소수 정체 상태를 사용하여 양자화되었다는 것을 입증한다. CHTN159가 3 이하 배수체(sub-triploid)이고 SK-BR-3이 4배수체인 흐름 분석에 의한 지식 및 카운팅(counting)을 기초로 이들 영역의 카피수를 유추하였다. 각 샘플이 대략 단일 클론이면, CHTN159에서의 두 개의 다수 정체 상태는 세포 당 두 세개의 카피일 것이고, 다수 정체 상태 SK-BR-3은 세포 당 서너개의 카피일 것이다.

다수 정체 상태에 대해 계산된 카피수를 사용하여 각 실험에 대해 배수성 및 SN을 해석하였다. 하기의 등식을 사용하였다:

R_M = (R_T × S_N + 1)/(S_N + 1)

상기 식 중, R_M은 평균 측정비이고, R_T는 참값의 비이고, S_N은 "특이적 내지 비특이적" 노이즈(noise)를 측정하는 실험적으로 유도된 문자였다. 정체 상태에서 세그먼트의 프로브의 평균으로서 R_M을 선택하고, R_T를 C_N/P(여기서, C_N은 정체 상태로부터 알려진 참값의 카피수이고, P는 종양 게놈의 배수성임)로 설정하였다. 상기 조합은 두 등식 및 두 미지값, P 및 S_N을 제공하였다. CHTN159 실험(도 4A)에 대해, 배수성 P는 2.60으로 계산되고, S_N은 1.13으로 계산되었다. SK-BR-3 실험(도 4C)의 경우, P는 3.93으로 계산되고, S_N은 1.21로 계산되었다.

또한, 상기 등식을 사용하여 높은 카피수 및 낮은 카피수에 대해 어떤 평균비가 예측될 것인지 계산하였다. "카피수 격자"를 형성하는 수평선을 사용하여 이러한 예측된 값들을 해당 그래프에 0 내지 12의 카피수로 표시하였다. 도 4B 및 4D에 예상된 카피수 격자로 포함된 프로브에 대한 지정된 평균-세그먼트 값은 게놈 순서로 표시된다. 카피수 격자는 데이터의 소수 정체 상태, 특히 높의 카피수의 경우에 상당히 우수하게 적합된다.

실시예 8- 미세 규모 게놈 손상 분석

또한, 데이터를 분석하여 증폭 또는 제거를 갖는 개개의 염색체에서 정확한 브레이크 포인트(breakpoint)를 결정하였다. 본 발명의 분석은 본 발명의 어레이가 개개의 유전자의 분해시 게놈 손상을 찾아내는 데 사용될 수 있다는 것을 입증하였다. 따라서, 상기 어레이로부터 얻은 데이터는 특정 유전자에서 정상 세포가 암 세포로 전환하는 데 변이가 미치는 영향을 예측하는 데 사용될 수 있다.

먼저, 도 3D에 도시된 바와 같이 X 염색체에서 브레이크(break) 영역을 분석하였다. 여성으로부터 유래한 SK-BR-3 세포를 관련이 없는 남성의 세포와 비교하였다. 본 발명자들은 염색체 X의 프로브가 상승된 비를 가질 것으로 예상하였다. 이는 염색체 X의 많은 긴 아암(arm) 전체에 대한 경우였다. 그러나, Xq13.3 중앙에서, 27kb 범위의 영역에 걸친 카피수에서 날카로운 브레이크가 존재하였고, 염색체의 나머지에 대해서는 1 근처의 비가 관찰되었다(도 5A). 따라서, 세그먼트화에 의한 어레이 데이터로부터 유전자 손상 경계를 그리는 것이 가능하였다. 유전자를 브레이크해야 하는 날카로운 카피수 전이가 이루어지는 많은 다른 경우들이 관찰되었다.

각각 두 개 이하의 유전자를 함유하고 이들 사이에 막통과 수용체가 존재하는 SK-BR-3 게놈에 서너 개의 4 개의 좁은 증폭이 존재하였다.

그 다음, 광역의 뚜렷한 증폭 영역(도 5B)을 비롯한 풍부한 변이를 갖는 염색체 8(도 3B)로부터의 데이터를 분석하였다. 가장 우측의 피크는 37 개의 프로브를 포함하는 대략 1 메가베이스 연장 길이(stretch)였다(프로브는 45099-45138의 배위를 가지며, 준(June) 게놈은 126815070-128207342의 배위를 가짐). 아직 이는 단일의 우수하게 특성화된 유전자, c-myc를 함유하였다.

SK-BR-3에서, c-myc 피크의 좌측으로 올라가 그래프 밖으로 나가는 제 2 광역 피크가 존재하였다(도 5B). 이 광역 피크는 그의 중앙에서 매우 좁은 피크를 가지며 그의 우측에 광역 숄더(shoulder)를 가졌다(프로브는 44994-45051의 배위를 가지며, 준 게놈은 123976563-125564705의 배위를 가짐). c-myc를 포함하는 훨씬 넓은 피크를 갖는 종양 게놈, CHTN159로부터 세그먼트화 데이터 상에 이를 오버레이(overlay)하였다(프로브는 44996-45131의 배위를 가지며, 준 게놈은 124073565-127828283의 배위를 가짐). 또한, CHTN159에서의 피크는 제 2 SK-BR-3 피크의 숄더를 포함하였다(도 5B). 따라서, 숄더는 주목할만한 후보 종양유전자를 함유할 수 있다. 상기 영역 내 좁은 피크에서, 본 발명자들은 유전성 신장 암종에 연관된 전좌의 표적인 TRC8을 발견하였다(문헌[Gemmill et al. Proc. Natl. Acad. Sci. USA 95: 9572-7 (1998)] 참조). 이러한 결과들은 다수의 게놈으로부터 배위 데이터 값을 나타내며, 다수의 데이터 세트(set)를 분석하기 위한 자동화된 방법의 필요성을 시사한다.

또한, 염색체 5 상의 좁은 제거를 분석하였다. 도 5C는 카피수 격자 상에 오버레이된 조합된 10K(빈 원) 및 85K(채워진 원) 분석 결과를 도시한다. 1OK 및 85K 분석 양쪽 모두에서 제거가 분명히 나타났으나(프로브는 29496-29540의 배위를 가지며, 준 게놈은 14231414-15591226의 배위를 가짐), 경계는 85K에서 더욱 분명하게 분석되었다. 이 영역은 GEF 도메인, SH3 도메인, 및 세린 트레오닌 키나아제 도메인을 갖는 단백질인 TRIO(문헌[Lin and Greenberg, Cell 101: 230-42 (2000)] 참조), 막통과 단백질인 ANKH(문헌[Nurnberg et al., Nat. Genet. 28 :37-41 (2001)] 참조), 및 유비퀴틴 리가아제(ligase) 매개 단백질 분해 경로의 성분인 FBXL(문헌[Ilyin et al., Genomics 67: 40-47 (2000)] 참조)을 함유한다.

마지막으로, 징크 핑커(zinc finger) 단백질의 집합체에 영향을 미치는 염색체 19 상의 동형접합성(homozygous) 손실 영역을 분석하였다(도 5D; 프로브는 77142-77198의 배위를 가지며, 준 게놈은 21893948-24955961의 배위를 가짐). 이들 유전자 중 일부는 그 제거가 종양 유전자 생성에 작용할 수 있는 전사 인사를 코딩할 수 있다. 본 발명자들은 풍분한 좁은 반접합성(homozygous) 손상 및 동형접합성 손상의 풍부함을 관찰하였으며, 이들 중 일부는 정상 변이에 기여할 수 있다. 실시예 9를 참고할 수 있다.

실시예 9- "정상" 게놈 변이 조사

또한, 본 발명의 올리고뉴클레오티드 어레이 및 본 발명의 방법을 사용하여 두 정상 게놈 사이의 카피수 변화를 분석하고, 다형성 변이로 인한 차이를 관찰하였다. 이 분석은 예를 들면, 종양 DNA 샘플이 정상 DNA에 매칭(matching)될 수 없는 경우 중요하며, 관찰된 차이가 다형성 변이의 결과일 수 있기 때문에 관련이 없는 정상 DNA를 기준으로 사용한다. 이 변이는 두 부류일 수 있으며, BglII 단편, 예를 들면 SNP를 생성하거나 파괴하는 부류의 점 서열 변이, 또는 인간 유전자 풀(pool)에 존재하는 실제 카피수 변동일 수 있다. 전자는 통계적인 수단에 의해 대부분 여과될 수 있는 산발적인 "노이즈"를 생성할 수 있기 때문에 본 발명의 어레이를 사용한 분석에 제한된 영향을 미친다.

도 6A(10K 및 85K 데이터 세트로부터 조합된 데이터)에서, 본 발명자들은 마일드 여과 알고리즘(mild filtration algorithm)(비가 주변 4 개 중 가장 벗어난 것인 경우, 이를 그의 두 이웃 중 가장 근접한 비로 대체하였음)이 점 서열 변이의 영향을 최소화하고, 실제 카피수 변이가 존재하는 경우를 검출할 수 있다는 것을 입증하였다. 정상 개인들 간의 대규모 게놈 차이를 시사하며 이상 프로브 비의 비랜덤 집합체를 나타내는 이 데이터에서 여과되지 않은 샘플(예를 들면, 도 C2) 중에 존재하는 산발적인 다형성의 구름은 솟아오른다(lift).

또한, 산발적으로 변화하는 다형성 변이를 일련의 비교 실험으로 여과할 수 있다. 예를 들면, 도 6B는 SK-BR-3으로부터, 정상 공여체인 제이. 도, 채워진 원에 나타낸 85K 비 및 빈 원에서의 1OK에 비교한 데이터를 도시한다. 동일한 그래프 상에, 아프리카 피그미인으로부터의 또 다른 정상 DNA에 비교한 제이. 도의 비를 녹색 삼각형으로 나타낸다. 본 발명자들은 정상 개인들 간의 혼성화에 비교함으로써 다형성으로 동정될 수 있는 SK-BR-3-정상 혼성화에서의 극히 큰 비를 갖는 세 개의 프로브를 관측하였다. 이들 데이터의 가장 간단한 해석은 제이. 도가 +/+, 피그미 +/- 및 SK-BR-3-/-(여기서, +는 작은 BglII 단편(BglII 부위에서, SNP일 가능성이 높음)의 존재를 의미함)이라는 것이다. 일반적으로, 세 게놈의 쌍별 비교는 대립 유전자 상태의 해석가능한 판정(call)을 허용한다. 따라서, 이러한 종류의 데이터는 악성 게놈이 매칭된 정상의 것과 쌍을 이루지 못하는 경우 특히 유용하다.

그러나, 카피수의 다형성은 상이한 부류의 문제점을 야기한다. 도 6A는 정상-정상 비교에서의 카피수의 큰 영역 차를 나타낸다. 본 발명자들은 이들 데이터에 세그먼트화 분석을 적용하고, 두 정상 개인들 사이에서 변경된 카피수를 나타내는 다수의 영역을 찾아내었다. 본 발명자들은 임의의 정상-정상 비교에서 약 12 개의 변이체 영역을 관찰하였다. 이들은 길이가 100 킬로베이스 내지 메가베이스 이상 연장되고, 어디에서든 발생할 수 있지만 텔레미어(telemere) 및 센트로미어(centromere)에서 흔히 관찰되고, 종종 공지된 유전자를 포함한다.

상기 두 영역의 세밀한 조사 결과를 도 6C 및 도 6D에 나타내며, 비를 연결된 원으로 세그먼트화 값을 격자로 도시한다. 도 6C에서, 이상 영역은 염색체 6p21 상의 135kb이며(프로브는 32518-32524의 배위를 가지며, 준 게놈은 35669083-35804705의 배위를 가짐), 세 공지된 유전자를 포함한다. 도 6D에서, 영역은 다수의 중쇄 가변 영역을 함유하는 염색체 2p11으로부터의 620kb 영역(프로브는 9927-9952의 배위를 가지며, 준 게놈은 88787694-89385815의 배위를 가짐)이다.

정상-정상 변이의 암-정상 데이터의 해석에 대한 영향을 분석하였다. 도 6C 및 도 6D에서, 각각 대각선 선영 및 수직 선영에서 SK-BR-3의 분석으로부터의 세그먼트화 값을 오버레이하였다. SK-BR-3에 대한 카피수 격자를 격자로 플로팅한다. 도 6C는 정상에 비교하여 제거로 불리는 SK-BR-3에서의 영역을 도시한다. SK-BR-3에서, 플랭킹(flanking) 영역은 카피수를 발생시키고, 본 발명자들은 세포 당 두 카피인 것으로 판단하였으며, 상기 영역 내에서 카피수는 하나로 줄어들었다. 그러나, 정상에 대해 피그미 DNA의 비교시 동일한 영역이 출현하였다. 도 6D에서, 본 발명자들은 염색체 2p 11 상에서 유사한 조건을 관찰하였다. 도 6D에서, 또한, 종양으로부터 세그먼트화 데이터를 플로팅하였다. 이 영역 역시 명백히 비정상적이었다.

실시예 10- 게놈 부분의 주석화( annotation )

하기 실시예는 검색 엔진의 사용을 예시하고자 하는 것이다. 상기 조건의 적합한 변형 및 적합 및 당업자에게 자명한 당업계에서 정상적으로 사용되는 매개변수는 본 발명의 기술사상 및 범위에 속한다.

본 발명의 검색 엔진은 게놈 또는 게놈의 일부분(예를 들면, 염색체)에서 계산(computations)을 수행하는 데 사용될 수 있다. 이러한 계산을 수행하는 데 있어서, 높은 워드(word) 수를 갖는 몇몇 영역이 발견되었으며, 이들은 검색 툴(search tool), 예를 들면 리피트 마스커(Repeat Masker)에 의해 검출되었다. 리피트 마스커에 의해 사용되는 반복 서열(repeat)의 데이터베이스는 영역 특이적 또는 염색체 특이적 반복 서열을 포함하지 않는 것으로 밝혀졌다. 앞서 섹션 VII에 기재된 검색 엔진을 사용하는 경우, 정확한 매치수를 카운팅하는 것이 게놈의 세트 대수(set algebra)에 대한 기초를 형성하기 때문에 이러한 반복 서열이 용이하게 발견된다. 특히, 게놈의 일부분은 변환 문자열(transform string)로 만들어질 수 있고, 이 문자열을 조사하여 염색체 특이적 반복 서열을 찾는다.

염색체 1로부터의 변환 문자열을 그 자체 내 및 전 게놈 내에서 워드 수로 주석화하였다. 검색을 수행하여 길이가 100 bp 이상이고, 수가 18-mer인 염색체 1의 인접 영역을 찾았으며, 여기서 정확한 매치들은 주로 염색체 1로부터 유도되는 것으로 밝혀졌다. 이러한 영역은 용이하게 발견되었으며, 길이가 100 bp 내지 35 kb 범위였다. 한 이러한 영역에 초점을 맞추어, 그의 mer 구역이 각 시그너처 모달 횟수(signature modal frequency) 및 길이를 갖는 짧은 서열로 구성된 거의 계단 함수(step function)라는 것을 발견하였다. 이들 시그너처 영역 중 하나를 함유하는 염색체-특이적 영역을 수집하고, 염색체 1 특이적 서열 족을 신속하게 동정하였다. 그의 염색체 1 수가 그들의 전체 게놈 수의 90 %를 초과하는 18-mer를 동정함으로써 염색체 1 특이적 영역을 선택하였으며, 이들 18-mer를 함께 문자열화하여 염색체 특이적 반복 서열을 생성하였다. 또한, 문자열화된 18-mer 사이의 공간은 100 개의 염기쌍을 초과하지 않도록 하였다. 이 반복 서열이, 미오신에 낮은 상동성을 갖는 큰 예측된 단백질 서열을 함께 코딩하는 많은 엑손을 사용하여 RefSeq 유전자(접속 번호(accession number) NM_015383)를 중합하는 것으로서 주석화되었다는 것이 1 회 이상 발견되었다.

염색체 특이적 반복 서열을 동정하는 동일한 과정을 리피트 마스커 또는 다른 프로그램에 의해 인식되지 않는 것들을 비롯하여, 게놈 전체에 걸쳐 반복 DNA를 찾아내는 데 적용할 수 있다.

실시예 11- mer 엔진을 사용한 프로브 디자인

상기 검색 엔진을 프로브 디자인에 사용할 수 있다. 일반적으로, 프로브는 그들의 상보적 DNA에 특이적으로 혼성화하는 능력에 유용하므로, 프로브 디자인의 주 목적 중 하나는 교잡(cross hybridization)을 최소화하는 것이다. 종래 프로브 디자인 분야는 반복 서열 마스킹(masking)을 사용하여 반복 서열 영역을 제외시켰다. 이 타입의 해법은 염색체 특이적 반복 서열과 같은 반복 영역으로부터의 보호를 제공하지 않고 유니크(unique)한 "반복" 영역을 제외한다는 점에서 문제가 있다.

불완전하게 매칭된 서열들 간의 혼성화 규칙은 잘 이해되어 있지 않지만, 게놈의 다중 영역에 대해 정확한 "작은" 매치를 갖는 프로브를 피하는 것이 바람직하다는 점은 당업계에 공지되어 있다. 종래 프로브 분야에서는 총 정확한 12-mer 매치 수를 최소화하는 프로브를 선택하였으나, 게놈 프로브의 경우 이러한 방법은 적합하지 않다. 우선, 12-mer의 정확한 매치가 정상적으로 엄격한 아닐링(annealing) 조건 하의 혼성화에 영향을 미친다는 점이 불명확하다. 게놈의 유니크성은 말할 것도 없이 12-mer 수는 상동성을 예측할 수 없다. 사실상, 15-mer 수를 그들의 구성 12-mer로부터의 수의 기하 평균에 비교한 결과 본질적으로 유니크한 두 서열 사이의 상관성이 낮았다.

mer-엔진을 사용하는 프로브 디자인에 대한 일반적 프로토콜은 다음과 같이 설명된다. 먼저, 유니크한 충분히 긴 연장 길이가 발견되도록(즉, 후보 프로브)게놈을 특정 길이 mer에 따라 주석화한다. 두번째로, 하나 이상의 미리 정한 길이 mer, 바람직하게는 후보 프로브를 찾는 데 사용되는 mer 길이보다 짧은 길이로 된 것을 사용하여 이들 후보 프로브를 주석화한다. 미리 정한 짧은 길이로 된 최소 총 mer-수를 기초로 후보 프로브들 중 하나를 프로브로 선택한다.

상기 프로토콜에 따라, 21-mer 수로부터 얻어진 유니크성 데이터를 사용하여 소 BglII 단편으로부터 70-mer 후보 프로브를 선택하였다. 이들 후보 프로브 내에서, 15-mer 수의 최저 합계를 갖고 약 900의 컷오프(cut off) 값을 갖는 70-mer를 선택하였다. 또한, 단일 뉴클레오티드의 런(run) 및 심한 염기 조성 바이어스를 제거하는 부가의 기준을 적용하여 어떤 후보 프로브를 선택할 지 결정하는 데 보조하였다. 선택된 프로브를 합성하고 유리에 프린팅하여 마이크로-어레이 혼성화 조건에서 그들의 성능을 시험하였다. 실질적으로 모든 프로브들이 특정된 성능 기준 이상으로 수행된 것으로 밝혀졌다. 더욱 구체적으로, 상기 프로토콜을 사용하여 디자인된 프로브를 사용한 경우 약 70 % 내지 약 98 %의 성공률이 달성되었으며, 여기서 성공은 실질적인(예를 들면, 큰) 신호/노이즈 비를 갖는 것으로 정의하였다.

선택된 프로브가 공개된 특정 게놈 서열에서 유니크한지 시험하는 데 BLAST를 사용하였다. MegaBLAST에 대한 디폴트(default) 매개변수를 사용하여 이러한 30,000 개의 프로브를 시험하였다(단순 서열의 여과는 턴 오프(turn off)됨). 99 %를 초과하는 선택된 프로브가 게놈 내에서 유니크하다는 것이 밝혀졌다.

실시예 12- 알고리즘의 의사 코드( pseudo code ) 대표물

어떻게 알고리즘이 실행되어 워드 카운팅 가능을 수행하는 지 추가로 예시하기 위해, 도 12A 및 12B를 참조할 수 있다. 도 12A는 알고리즘에 사용된 가변성 및 데이터 구조를 그래프화하여 정의하고, 도 12B는 알고리즘의 의사 코드 대표물을 나타낸다. 섹션 VII에서 나타낸 바와 같이, 변환은 "버츄얼(virtual)" 게놈 딕셔너리(Genome Dictionary) 또는 서픽스(suffix) 어레이에 대한 네비게쇼날(navigational) 툴로서 사용될 수 있다. 가장 간단한 경우, 게놈에서 문자열 조각(substring)이 발생하는지, 만약 그렇다면 얼마나 많은 카피에서 발생하는지 결정하는 것이 바람직한 것으로 가정하자. 이 경우, 문자열 조각을 단일 부호 "X"로 가정하자. 모든 X의 발생은 딕셔너리에서 블록(block)(예를 들면, 검색 영역)으로 보일 수 있고, 여기서 F_x 및 L_x는 X의 첫 발생 및 마지막 발생의 지수(index)이다. F_x 및 L_x는 알파바운즈(alphabounds) 데이터 구조로부터 유도될 수 있다. 이 블록(예를 들면, 검색 영역)의 크기는 k_x = L_x - F_x + 1이며, 또한, X 발생수이기도 하다. 이 수는 변환시 X의 발생수를 셈으로써 결정될 수 있다는 것을 주목하라.

보다 난해한 경우에서, 예를 들면, 2 개 이상의 문자 워드를 세어야 하는 경우, 게놈 중에서 각각의 문자 X의 F_x, L_x 및 k_x가 결정되어야 한다. 다시 말해, 각각의 문자 X에 대한 F_x 및 L_x를 알파바운즈로 불리는 데이터 구조에 저장한다. 일단 알파바운즈 데이터 구조를 구성한 후에는, 알고리즘을 수행하여 게놈에서 특정 워드, Z의 발생 횟수를 셀 수 있다. W가 Z의 서픽스인 것으로 가정하면, W는 게놈에 존재하고, W의 알파바운즈(예를 들면, F_w 및 L_w는 도 12A에 도시한 바와 같음)가 알려진다. 다음으로, XW(여기서, X는 Z에서 W를 선행하는 문자임)가 문자열 조각으로 존재하는지 여부가 결정되어야 한다. 또한, XW 블록의 시작 및 끝 지수(예를 들면, F_xw 및 L_xw)가 결정되어야 한다.

X가 F_w와 L_w 사이의 변환에서 발생하거나 또는 이 변환에서만 발생하는 경우, XW는 게놈에서 문자열 조각으로 존재한다. 나아가, k_xw로 표시되는, 변환의 "W 블록"에서 X의 수는 게놈에서 문자열 조각 XW의 워드 수이다. XW의 시작 및 끝 지수는 1) F_xw = F_x + b_xw; 및 2) L_xw = F_xw + k_xw - 1(여기서, b_xw는 XW 전에 발생하는 게놈 딕셔너리에서 X로 시작하는 워드의 수임)을 사용하여 완성될 수 있다. b_xw는 변환의 W 블록 전에 발생하는 X의 수를 셈으로써 결정될 수 있다.

이 절차는 한번에 한 문자의 서픽스를 늘리고, 서픽스가 게놈 딕셔너리에 존재하지 않을 경우 중단되도록 하면서 되풀이된다. 서픽스 W가 전 워드 Z를 포함하는 경우, kw는 게놈 문자열에서 Z의 발생수이다. 도 12B에 도시한 바와 같이, 이 절차의 개요는 의사 코드에서의 개요이다. 도 12B의 경우, Z는 게놈 알파벳으로부터의 문자로 구성된 길이 N의 문자열이고, 알파바운즈 데이터 구조는 게놈 알파벳에서 각 문자에 대한 게놈 딕셔너리에서의 처음 및 마지막 발생의 지수를 함유한다.

달리 정하지 않으면, 본 명세서에 사용된 모든 기술적 용어 및 과학적 용어는 본 발명이 속하는 당업계에 숙련된 자가 널리 이해되는 것과 동일한 의미를 갖는다. 본 명세서에 언급된 모든 공보 및 다른 참조 문헌은 그 전문이 참조 문헌으로 인용된다. 충돌이 있는 경우, 정의를 비롯한 본 명세서에서 이를 통제할 것이다. 본 명세서의 물질, 방법 및 실시예는 오직 예시를 위한 것이며 이에 본 발명을 제한하려는 것이 아니다. 본 명세서 전체에서, 단어 "포함한다(comprise)" 또는 그의 변형, 예를 들면, "포함한다(comprises)" 또는 "포함하는"은 언급된 정수 또는 정수의 군을 포함하며 임의의 다른 정수 또는 정수의 군을 배제하지 않는 의미인 것으로 이해될 것이다.

SEQUENCE LISTING <110> COLD SPRING HARBOR LABORATORY <120> VIRTUAL REPRESENTATIONS OF NUCLEOTIDE SEQUENCES <130> CSHL/001 PCT <140> PCT/US2004/016060 <141> 2004-05-21 <150> 60/472,845 <151> 2003-05-23 <150> 60/472,843 <151> 2003-05-23 <160> 2 <170> PatentIn Ver. 3.3 <210> 1 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Hypothetical polynucleotide sequence <400> 1 agacagtcat 10 <210> 2 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Hypothetical polynucleotide sequence <400> 2 acgtcagtca 10

Claims

복수개의 핵산 분자로서,

(a) 상기 복수개의 핵산 분자는 N개의 핵산 분자로 구성되며;

(b) 상기 복수개의 핵산 분자 각각은 Z개의 염기쌍의 게놈 중의 서열에 특이적으로 혼성화되는 뉴클레오티드 서열을 가지며;

(c) 상기 복수개의 핵산 분자 중 P% 이상은

(i) K개의 뉴클레오티드의 길이를 가지며;

(ii) 상기 게놈으로부터 유래되며 상기 게놈의 R% 이하의 복잡성을 갖는 대표체 (representation)에 존재하거나 상기 대표체에 존재할 것으로 예측되는 하나 이상의 핵산 분자에 특이적으로 혼성화되며;

(iii) 상기 게놈에 대한 L₁ 뉴클레오티드의 X개 이하의 정확한 매치 및 상기 게놈에 대한 L₁ 뉴클레오티드의 최소한 Y개의 정확한 매치를 가지며;

여기서,

(A) N ≥ 500;

(B) Z ≥ 1 x 10⁸;

(C) 300 ≥ K ≥ 30;

(D) 70 ≥ R ≥ 0.001;

(E) P = (N x R + (3 x 시그마))/N;

(F) 시그마는 (N x R x (1-R))의 제곱근

(G) (log₄(Z) + 2)에 가장 가까운 정수 ≥ L₁ ≥ log₄(Z)에 가장 가까운 정수;

(H) X는 D₁ x (K-L₁+1)에 가장 가까운 정수;

(I) Y는 D₂ x (K-L₁+1)에 가장 가까운 정수;

(J) 1.5 ≥ D₁ ≥ 1; 및

(K) 1 > D₂ ≥ 0.5

인 복수개의 핵산 분자.
제1항에 있어서, N이 500개 이상; 1,000개 이상; 2,500개 이상; 5,000개 이상; 10,000개 이상; 25,000개 이상; 50,000개 이상; 85,000개 이상; 190,000개 이상; 350,000개 이상; 및 550,000개 이상의 핵산 분자로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제1항에 있어서, Z가 3 x 10⁸ 이상, 1 x 10⁹ 이상, 1 x 10¹⁰ 이상 또는 1 x 10¹¹ 이상으로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제1항에 있어서, 게놈이 포유류 게놈인 복수개의 핵산 분자.
제4항에 있어서, 게놈이 인간 게놈인 복수개의 핵산 분자.
제1항에 있어서, R이 0.001, 1, 2, 4, 10, 15, 20, 30, 40, 50 및 70으로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제1항에 있어서, P가 70 이상, 80 이상, 90 이상, 95 이상, 97 이상 및 99 이상으로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제1항에 있어서, D₁이 1인 복수개의 핵산 분자.
제1항에 있어서, D₂가 1인 복수개의 핵산 분자.
제1항에 있어서, L₁이 15, 16, 17, 18, 19, 20, 21, 22, 23 및 24로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제1항에 있어서,

상기 P%의 상기 복수개의 핵산 분자 각각이 상기 게놈에 대한 L₂ 뉴클레오티드의 A개 이하의 정확한 매치 및 상기 게놈에 대한 L₂ 뉴클레오티드의 최소한 B개의 정확한 매치를 더 가지며;

여기서,

(a) L₁ > L₂ ≥ log₄(Z)-3에 가장 가까운 정수;

(b) A는 D₃ x ((K-L₂+1) x (Z/4^L ₂))에 가장 가까운 정수;

(c) B는 D₄ x ((K-L₂+1) x (Z/4^L ₂))에 가장 가까운 정수;

(d) 4 ≥ D₃ ≥ 1; 및

(e) 1 > D₄ ≥ 0. 5

인 복수개의 핵산 분자.
제11항에 있어서, D₃ ≤ 3, 2 또는 1.5인 복수개의 핵산 분자.
제1항에 있어서, 상기 P%의 상기 복수개의 핵산 분자가 상기 대표체에 존재하거나 존재할 것으로 예측되는 하나 이상의 핵산 분자에 대한 서열 동일성이 적어도 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100%인 복수개의 핵산 분자.
제1항에 있어서, K가 40, 50, 60, 70, 80, 90, 100, 110, 120, 140, 160, 180, 200 및 250으로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
복수개의 핵산 분자로서,

(a) 상기 복수개의 핵산 분자는 100개 이상의 핵산 분자로 구성되며;

(b) 상기 복수개의 핵산 분자 각각은 Z개 이상의 염기쌍의 게놈 중의 서열에 대하여 90% 이상 동일한 뉴클레오티드 서열을 가지며;

(c) 상기 복수개의 핵산 분자 중 P% 이상은

(i) K개의 뉴클레오티드의 길이를 가지며;

(ii) 상기 게놈으로부터 유래되며 상기 게놈의 R% 이하의 복잡성을 갖는 대표체에 존재하거나 상기 대표체에 존재할 것으로 예측되는 하나 이상의 핵산 분자에 대하여 90% 이상의 서열 동일성을 가지며;

(iii) 상기 대표체에 대한 L₁ 뉴클레오티드의 X개 이하의 정확한 매치 및 상기 대표체에 대한 L₁ 뉴클레오티드의 최소한 Y개의 정확한 매치를 가지며;

여기서,

(A) Z ≥ 1 x 10⁸;

(B) 300 ≥ K ≥ 30;

(C) 70 ≥ R ≥ 0.001;

(D) P ≥ 90 - R;

(E) (log₄((Z x R)/100) + 2)에 가장 가까운 정수 ≥ L₁ ≥ (log₄((Z x R)/100)에 가장 가까운 정수;

(F) X는 D₁ x (K-L₁+1)에 가장 가까운 정수;

(G) Y는 D₂ x (K-L₁+1)에 가장 가까운 정수;

(H) 1.5 ≥ D₁ ≥ 1; 및

(I) 1 > D₂ ≥ 0.5

인 복수개의 핵산 분자.
제15항에 있어서, 500개 이상; 1,000개 이상; 2,500개 이상; 5,000개 이상; 10,000개 이상; 25,000개 이상; 50,000개 이상; 85,000개 이상; 190,000개 이상; 350,000개 이상; 또는 550,000개 이상의 핵산 분자를 포함하는 복수개의 핵산 분자.
제15항에 있어서, Z가 3 x 10⁸ 이상, 1 x 10⁹ 이상, 1 x 10¹⁰ 이상 및 1 x 10¹¹ 이상으로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제15항에 있어서, 게놈이 포유류 게놈인 복수개의 핵산 분자.
제18항에 있어서, 게놈이 인간 게놈인 복수개의 핵산 분자.
제15항에 있어서, R이 0.001, 1, 2, 4, 10, 15, 20, 30, 40, 50 및 70으로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제15항에 있어서, P가 70 이상, 80 이상, 90 이상, 95 이상, 97 이상 및 99 이상으로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제15항에 있어서, D₁이 1인 복수개의 핵산 분자.
제15항에 있어서, D₂가 1인 복수개의 핵산 분자.
제15항에 있어서, L₁이 15, 16, 17, 18, 19, 20, 21, 22, 23 및 24로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제15항에 있어서,

상기 P%의 상기 복수개의 핵산 분자 각각이 상기 게놈에 대한 L₂ 뉴클레오티드의 A개 이하의 정확한 매치 및 상기 게놈에 대한 L₂ 뉴클레오티드의 최소한 B개의 정확한 매치를 더 가지며;

여기서,

(a) L₁ > L₂ ≥ log₄(Z)-3에 가장 가까운 정수;

(b) A는 D₃ x ((K-L₂+1) x (Z/4^L ₂))에 가장 가까운 정수;

(c) B는 D₄ x ((K-L₂+1) x (Z/4^L ₂))에 가장 가까운 정수;

(d) 4 ≥ D₃ ≥ 1; 및

(e) 1 > D₄ ≥ 0. 5

인 복수개의 핵산 분자.
제15항에 있어서, 상기 P%의 상기 복수개의 핵산 분자가 상기 대표체에 존재하거나 존재할 것으로 예측되는 하나 이상의 핵산 분자에 대한 서열 동일성이 적어도 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100%인 복수개의 핵산 분자.
제15항에 있어서, K가 40, 50, 60, 70, 80, 90, 100, 110, 120, 140, 160, 180, 200 및 250으로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제1항에 있어서, 상기 대표체가 상기 게놈의 서열 특이적 절단에 의해 생성되는 복수개의 핵산 분자.
제28항에 있어서, 서열 특이적 절단이 제한 엔도뉴클레아제로 성취되는 복수 개의 핵산 분자.
제1항에 있어서, 상기 대표체가 혼합(compound) 대표체인 복수개의 핵산 분자.
제1항에 있어서, 고체 상 (solid phase)의 표면 상에 고정화된 복수개의 핵산 분자.
제31항에 있어서, 상기 고체 상이 나일론 막, 니트로셀룰로오스 막, 슬라이드 유리 및 미소구체로 구성된 군으로부터 선택되는 복수개의 핵산 분자.
제31항에 있어서, 상기 고체 상에서의 위치가 공지된 복수개의 핵산 분자.
제33항에 있어서, 마이크로어레이 상에 존재하는 복수개의 핵산 분자.
제33항에 있어서, 미소구체 상에 고정화된 복수개의 핵산 분자.
핵산 샘플을 분석하는 방법으로서,

(a) 이 샘플을 제1항의 복수개의 핵산 분자에 혼성화시키는 단계; 및

(b) 상기 복수개의 핵산 분자에 상기 샘플이 혼성화하는 것을 측정하는 단계

를 포함하는 방법.
제36항에 있어서, 상기 샘플이 대표체인 방법.
제36항에 있어서, 상기 복수개의 핵산 분자가 고체 상의 표면 상에 고정화된 방법.
제38항에 있어서, 상기 고체 상이 나일론 막, 니트로셀룰로오스 막, 슬라이드 유리 및 미소구체로 구성된 군으로부터 선택되는 방법.
제38항에 있어서, 상기 고체 상에서의 상기 복수개의 핵산 분자의 위치가 공지된 방법.
제40항에 있어서, 상기 복수개의 핵산 분자가 마이크로어레이 상에 존재하는 방법.
제38항에 있어서, 상기 복수개의 핵산 분자가 미소구체 상에 고정화된 방법.
두 게놈 사이의 게놈 서열의 카피수 (copy number) 변이를 분석하는 방법으로서,

(a) 제1 게놈 및 제2 게놈을 제공하는 단계;

(b) 하나 이상의 동일한 제한 효소를 사용하여 각각의 게놈의 검출가능하게 표지된 대표체를 제조하는 단계;

(c) 상기 대표체를 제1항 또는 제31항의 복수개의 핵산 분자와 접촉시켜 대표체와 상기 복수개의 핵산 분자 사이에 혼성화가 되게 하는 단계; 및

(d) 상기 대표체의 혼성화 수준을 비교하는 단계

를 포함하며, 여기서, 상기 수준에 있어서의 차이는 상기 구성원에 의해 표적화되는 게놈 서열과 관련하여 두 게놈 사이의 카피수 변이를 나타내는 방법.
제43항에 있어서, 2개의 대표체를 구별가능하게 표지하는 방법.
제44항에 있어서, 상기 대표체를 상기 복수개의 핵산 분자와 동시에 접촉시키는 방법.
두 게놈 사이의 게놈 서열의 메틸화 상태를 비교하는 방법으로서,

(a) 제1 게놈 및 제2 게놈을 제공하는 단계;

(b) 하나 이상의 동일한 효소를 사용하여 각각의 게놈의 검출가능하게 표지된 대표체를 제조하는 단계 - 여기서, 상기 대표체는 메틸화 민감성 방법으로 제조함 - ;

(c) 상기 대표체를 제1항 또는 제31항의 복수개의 핵산 분자와 접촉시켜 대 표체와 상기 복수개의 핵산 분자 사이에 혼성화가 되게 하는 단계; 및

(d) 상기 대표체의 혼성화 수준을 비교하는 단계

를 포함하며, 여기서, 상기 수준에 있어서의 차이는 상기 구성원에 의해 표적화되는 게놈 서열과 관련하여 두 게놈 사이의 메틸화 상태에 있어서의 차이를 나타내는 방법.
제46항에 있어서, 상기 메틸화 민감성 방법이 제1 제한 효소를 사용하여 제1 대표체를 제조하고 제2 제한 효소를 사용하여 제2 대표체를 제조하는 단계를 포함하며, 상기 제1 및 제2 제한 효소는 동일한 제한 효소 부위를 인식하지만 하나는 메틸화 민감성이고 다른 하나는 그러하지 아니한 방법.
제46항에 있어서, 상기 메틸화 민감성 방법이 비-메틸화 민감성 제한 효소를 이용하여 대표체를 제조한 후 메틸-C 서열을 화학적으로 절단하여, 메틸화 게놈으로부터 유래되는 대표체가 비-메틸화 게놈으로부터 유래되는 대표체와 구별될 수 있게 하는 단계를 포함하는 방법.
(a) K개의 뉴클레오티드의 길이;

(b) Z개 이상의 염기쌍의 게놈으로부터 유래되는 대표체에 존재하거나 상기 대표체에 존재할 것으로 예측되는 하나 이상의 핵산 분자에 대하여 90% 이상의 서열 동일성; 및

(c) 상기 게놈에 대한 L₁ 뉴클레오티드의 X개 이하의 정확한 매치 및 상기 게놈에 대한 L₁ 뉴클레오티드의 최소한 Y개의 정확한 매치

를 가지며;

여기서,

(i) Z ≥ 1 x 10⁸;

(ii) 300 ≥ K ≥ 30;

(iii) (log₄(Z) + 2)에 가장 가까운 정수 ≥ L₁ ≥ log₄(Z)에 가장 가까운 정수;

(iv) X는 D₁ x (K-L₁+1)에 가장 가까운 정수;

(v) Y는 D₂ x (K-L₁+1)에 가장 가까운 정수;

(vi) 1.5 ≥ D₁ ≥ 1; 및

(vii) 1 > D₂ ≥ 0.5

인 올리고뉴클레오티드를 동정하는 방법으로서,

(A) 상기 게놈을 컴퓨터에서 (in silico) 제한 효소로 절단하여 복수개의 예측되는 핵산 분자를 생성하는 단계;

(B) 각각이 전체 200-1,200개의 염기쌍의 길이를 갖는 예측되는 핵산 분자의 동정에 의해 상기 게놈의 실질적인 대표체를 생성하는 단계;

(C) 전체 30-300개의 뉴클레오티드의 길이를 가지며, (B)에서 예측되는 핵산 분자에 대하여 90% 이상의 서열 동일성을 갖는 올리고뉴클레오티드를 선발하는 단계;

(D) 상기 올리고뉴클레오티드에 나타나는 L₁ 뉴클레오티드 스트레치 모두를 동정하는 단계; 및

(E) 상기 스트레치 각각이 상기 게놈에서 나타나는 횟수가 (c)의 요건을 충족시키는 것을 확인하는 단계

를 포함하는 방법.
제49항에 있어서, 단계 (E)가

상기 게놈의 압축 변환을 제공하는 단계;

상기 게놈과 관련된 정보를 포함하는 보조 데이타 구조를 제공하는 단계; 및

압축 변환 및 보조 데이타 구조를 사용하여 L₁ 뉴클레오티드에 있어서의 워드 카운트를 결정하는 단계

를 포함하는 방법.
제49항에 있어서, 단계 (E)가

상기 게놈의 압축 변환을 제공하는 단계;

마지막 뉴클레오티드로 시작하여 첫번째 뉴클레오티드로 전진하면서 반복 적용 당 하나의 문자씩, 상기 L₁ 뉴클레오티드 스트레치의 각각의 뉴클레오티드를 끝 에서 끝까지 반복 적용하는 단계 - 여기서, 특정 반복 적용에 상응하는 뉴클레오티드는 인덱스 뉴클레오티드로 저장되며, 상기 반복 적용은

상기 변환 내에서 인접 범위의 뉴클레오티드를 기술하는 검색 영역을 정의하는 단계;

상기 인덱스 뉴클레오티드 앞의 뉴클레오티드가 상기 검색 범위에서 나타나는 횟수를 카운팅하는 단계;

- 여기서, 상기 인덱스 뉴클레오티드 앞의 뉴클레오티드가 상기 검색 범위에서 전혀 나타나지 않을 경우에는 상기 반복 적용을 중지함 -

를 더 포함함 - ; 및

상기 L₁ 뉴클레오티드 스트레치의 첫번째 뉴클레오티드가 카운팅되는 횟수 - 이 횟수는 상기 L₁ 뉴클레오티드 스트레치가 상기 게놈에서 출현하는 횟수와 동등함 - 를 출력하는 단계

를 포함하는 방법.
제51항에 있어서,

상기 압축 변환에 있어서 특정의 소정의 위치까지, 그리고 이 위치를 포함하여, 상기 변환에서 출현한 각각의 뉴클레오티드의 누계를 유지하는 K-간격 데이타 구조; 및

압축 변환에 대한 빠른 조회 접근을 제공하는 사전-카운트 데이타 구 조

를 포함하는 보조 데이타 구조를 제공하는 단계

를 포함하며,

상기 카운팅 및 상기 정의는 상기 보조 데이타 구조 및 상기 압축 변환을 사용하여 수행하는 방법.
제52항에 있어서, 상기 카운팅을 수행하는 동안 상기 변환을 압축한 채 유지하는 방법.
제52항에 있어서, 상기 압축 변환을 압축 해제 변환에서의 매 3개의 문자를 압축하여 바이트를 형성하도록 압축하고, 상기 카운팅은 상기 반복 적용 중 하나 동안 고작 1의 그러한 바이트를 압축 해제시키는 방법.
제51항에 있어서, 상기 게놈이 30억개 이상의 문자를 포함하는 방법.
제51항에 있어서, 상기 압축 변환이 게놈의 버로우즈-휠러 (Burrows-Wheeler) 변환인 방법.
제51항에 있어서, 상기 변환을 기반으로 하는 데이타를 제공하는 단계를 더 포함하며, 상기 정의는 상기 검색 영역을 정의하기 위하여 상기 데이타 및 상기 인 덱스 뉴클레오티드를 사용하는 단계를 포함하는 방법.
제51항에 있어서,

상기 변환을 기반으로 하는 데이타를 제공하는 단계; 및

인덱스 뉴클레오티드 앞의 뉴클레오티드가 상기 검색 영역의 시작 이전에 상기 변환에서 나타나는 횟수인 이전 (prior) 뉴클레오티드 카운트를 결정하는 단계

를 포함하며,

상기 정의는 상기 검색 영역의 정의를 위하여 상기 데이타, 상기 인덱스 뉴클레오티드, 및 상기 이전 뉴클레오티드 카운트를 사용하는 단계를 포함하는 방법.
제58항에 있어서, 상기 이전 뉴클레오티드 카운트는 K-간격을 사용하여 수득하며, 상기 K-간격은 상기 변환에 따라 소정의 위치에 저장되며 특정의 소정 위치까지, 그리고 이 위치를 포함하여 상기 변환에 출현한 각각의 뉴클레오티드의 누계를 유지하는 방법.
각각이 제49항의 방법으로 생성되며, 500개 이상의 올리고뉴클레오티드를 포함하는 복수개의 올리고뉴클레오티드.
각각이 제49항의 방법으로 생성되며, 1,000개 이상; 2,500개 이상; 5,000개 이상; 10,000개 이상; 25,000개 이상; 50,000개 이상; 85,000개 이상; 190,000개 이상; 350,000개 이상; 또는 550,000개 이상의 올리고뉴클레오티드를 포함하는 복수개의 올리고뉴클레오티드.
뉴클레오티드 서열에 주석을 다는 방법으로서, 상기 뉴클레오티드 서열은 문자 스트링을 포함하며, 이 방법은

상기 뉴클레오티드 서열을 소정의 길이의 복수개의 워드로 분배하는 단계 - 각각의 워드는 상기의 소정 길이를 갖는 상기 뉴클레오티드 서열의 소영역 (subregion)임 - ; 및

각각의 워드가 상기 뉴클레오티드 서열에서 출현하는 횟수를 카운팅함으로써 각각의 워드에 있어서의 워드 카운트를 결정하는 단계

를 포함하는 방법.
제62항에 있어서, 상기 워드가 중복되는 방법.
제62항에 있어서, 상기 결정 단계가, 얼마나 많은 횟수로 각각의 워드가 상기 뉴클레오티드 서열에서 나타나는지를 카운팅하기 위하여 상기 뉴클레오티드 서열의 압축 변환을 이용하는 워드 카운팅 알고리즘을 이용하는 단계를 포함하는 방법.
제64항에 있어서, 상기 워드 카운팅 알고리즘이

마지막 문자로 시작하여 첫번째 문자로 전진하면서 반복 적용 당 하나의 문자씩, 상기 워드 중 하나의 각각의 문자를 끝에서 끝까지 반복 적용하는 단계 - 여기서, 특정 반복 적용에 상응하는 문자는 인덱스 문자로 저장되며, 상기 반복 적용은

상기 변환 내에서 인접 범위의 문자를 기술하는 검색 영역을 정의하는 단계;

상기 인덱스 문자 앞의 문자가 상기 검색 범위에서 나타나는 횟수를 카운팅하는 단계;

- 여기서, 상기 인덱스 문자 앞의 문자가 상기 검색 범위에서 전혀 나타나지 않을 경우에는 상기 반복 적용을 중지함 -

를 더 포함함 - ; 및

첫번째 문자가 카운팅되는 횟수 - 이 횟수는 특정 워드가 상기 뉴클레오티드 서열에서 출현하는 횟수와 동등함 - 를 출력하는 단계

를 포함하는 방법.
제62항에 있어서, 각각의 워드에 대하여 수득된 워드 카운트에 대한 통계학적 분석을 수행하는 단계를 더 포함하는 방법.
제62항에 있어서,

상기 뉴클레오티드 서열을 제2의 소정의 길이의 제2의 복수개의 워드로 분배 하는 단계 - 상기 제2의 복수개의 워드 각각은 상기 제2의 소정 길이를 갖는 상기 뉴클레오티드 서열의 소영역임 - ; 및

상기 제2의 복수개의 워드 각각이 상기 뉴클레오티드 서열에서 출현하는 횟수를 카운팅함으로써 상기 제2의 복수개의 워드 각각에 있어서의 워드 카운트를 결정하는 단계

를 더 포함하는 방법.
제62항에 있어서, 상기 뉴클레오티드 서열이 게놈인 방법.
문자 스트링을 포함하는 뉴클레오티드 서열에 주석을 달기 위한 시스템으로서,

상기 뉴클레오티드 서열을 소정의 길이의 복수개의 워드로 분배하며 - 각각의 워드는 상기의 소정 길이를 갖는 상기 뉴클레오티드 서열의 소영역임 - ;

각각의 워드가 상기 뉴클레오티드 서열에서 출현하는 횟수를 카운팅함으로써 각각의 워드에 있어서의 워드 카운트를 결정하도록 구성된 사용자 장비 (equipment)를 포함하는 시스템.
제69항에 있어서, 상기 워드가 중복되는 시스템.
제69항에 있어서, 상기 사용자 장비가, 각각의 워드가 상기 뉴클레오티드 서 열에서 얼마나 많은 횟수로 나타나는지를 카운팅하기 위하여 상기 뉴클레오티드 서열의 압축 변환을 이용하는 워드 카운팅 알고리즘을 사용하도록 구성된 방법.
제71항에 있어서, 상기 사용자 장비가 추가로

마지막 문자로 시작하여 첫번째 문자로 전진하면서 반복 적용 당 하나의 문자씩, 상기 워드 중 하나의 각각의 문자를 끝에서 끝까지 반복 적용하며 - 여기서, 특정 반복 적용에 상응하는 문자는 인덱스 문자로 저장되고, 상기 사용자 장비는 추가로

상기 변환 내에서 인접 범위의 문자를 기술하는 검색 영역을 정의하고;

상기 인덱스 문자 앞의 문자가 상기 검색 범위에서 나타나는 횟수를 카운팅하고; 그리고

상기 인덱스 문자 앞의 문자가 상기 검색 범위에서 전혀 나타나지 않을 경우에는 상기 반복 적용을 중지하는 단계를 반복하고 ; 그리고

첫번째 문자가 카운팅되는 횟수 - 이 횟수는 특정 워드가 상기 뉴클레오티드 서열에 출현하는 횟수와 동등함 - 를 출력함으로써 반복 적용되도록

구성된 시스템.
제69항에 있어서, 상기 사용자 장비가 각각의 워드에 대하여 수득되는 워드 카운트에 대한 통계학적 분석을 수행하도록 구성된 시스템.
제69항에 있어서, 상기 사용자 장비가

상기 뉴클레오티드 서열을 제2의 소정의 길이의 제2의 복수개의 워드로 분배하며 - 상기 제2의 복수개의 워드 각각은 상기 제2의 소정 길이를 갖는 상기 뉴클레오티드 서열의 소영역임 - ;

상기 제2의 복수개의 워드 각각이 상기 뉴클레오티드 서열에서 출현하는 횟수를 카운팅함으로써 상기 제2의 복수개의 워드 각각에 있어서의 워드 카운트를 결정하도록

구성된 시스템.
제69항에 있어서, 상기 뉴클레오티드 서열이 게놈인 시스템.
뉴클레오티드 서열의 원하지 않는 영역에 교차 혼성화되는 포텐셜이 최소인 폴리뉴클레오티드를 선발하는 방법으로서,

상기 뉴클레오티드 서열 내에 존재하는 소정 길이의 복수개의 폴리뉴클레오티드를 선발하는 단계;

각각의 폴리뉴클레오티드에 대한 통계학적 데이타를 생성하는 단계; 및

상기 폴리뉴클레오티드 중 어느 것이 소정의 기준을 가장 우수하게 충족시키는 통계학적 데이타를 갖는지를 결정하는 단계

를 포함하는 방법.
제76항에 있어서,상기 생성 단계가

각각의 폴리뉴클레오티드를 소정 길이의 복수개의 워드로 분배하는 단계 - 각각의 워드는 상기의 소정 길이를 갖는 폴리뉴클레오티드의 소영역임 - ; 및

각각의 워드가 상기 뉴클레오티드 서열에서 출현하는 횟수를 카운팅함으로써 각각의 워드에 있어서의 워드 카운트를 결정하는 단계

를 포함하는 방법.
76항에 있어서, 상기 통계학적 데이타는 각각의 폴리뉴클레오티드의 구성 워드가 상기 뉴클레오티드 서열에서 출현하는 횟수를 나타내는 방법.
제76항에 있어서, 상기 소정의 기준이 소정 길이의 워드 카운트의 최소 평균 값, 소정 길이의 워드 카운트의 기하 평균 값, 소정 길이의 워드 카운트의 모드 값, 소정 길이의 워드 카운트의 최소화된 최대 값, 소정 길이의 워드 카운트의 총계 값, 소정 길이의 워드 카운트의 생성 값, 특정 뉴클레오티드 스트링의 최대 길이, 또는 그의 조합을 포함하는 방법.
제76항에 있어서, 상기 선발 단계가

상기 뉴클레오티드 서열에서 나타나며 특정 길이를 갖는 특정 워드의 워드 카운트를 생성하는 단계; 및

상기 뉴클레오티드 서열 영역 내의 서브스트링의 워드 카운트가 소정의 워드 카운트를 초과하지 않도록 상기 뉴클레오티드 서열의 영역으로부터 폴리뉴클레오티드를 수득하는 단계

를 포함하는 방법.
뉴클레오티드 서열의 원하지 않는 영역에 교차 혼성화되는 포텐셜이 최소인 폴리뉴클레오티드를 선발하기 위한 시스템으로서, 상기 방법은

상기 뉴클레오티드 서열 내에 존재하는 소정 길이의 복수개의 폴리뉴클레오티드를 선발하며;

각각의 폴리뉴클레오티드에 대한 통계학적 데이타를 생성하며;

상기 폴리뉴클레오티드 중 어느 것이 소정의 기준을 가장 우수하게 충족시키는 통계학적 데이타를 갖는지를 결정하도록

구성된 사용자 장비를 포함하는 시스템.
제81항에 있어서, 상기 사용자 장비가

각각의 폴리뉴클레오티드를 소정 길이의 복수개의 워드로 분배하며 - 각각의 워드는 상기의 소정 길이를 갖는 폴리뉴클레오티드의 소영역임 - ;

각각의 워드가 상기 뉴클레오티드 서열에서 출현하는 횟수를 카운팅함으로써 각각의 워드에 있어서의 워드 카운트를 결정하도록

구성된 시스템.
제81항에 있어서, 상기 통계학적 데이타는 각각의 폴리뉴클레오티드의 구성 워드가 상기 뉴클레오티드 서열에서 출현하는 횟수를 나타내는 시스템.
제81항에 있어서, 상기 소정의 기준이 소정 길이의 워드 카운트의 최소 평균 값, 소정 길이의 워드 카운트의 기하 평균 값, 소정 길이의 워드 카운트의 모드 값, 소정 길이의 워드 카운트의 최소화된 최대 값, 소정 길이의 워드 카운트의 총계 값, 소정 길이의 워드 카운트의 생성 값, 특정 뉴클레오티드 스트링의 최대 길이, 또는 그의 조합을 포함하는 시스템.
제81항에 있어서, 상기 사용자 장비가

상기 뉴클레오티드 서열에서 나타나며 특정 길이를 갖는 특정 워드의 워드 카운트를 생성하며;

상기 뉴클레오티드 서열 영역 내의 서브스트링의 워드 카운트가 소정의 워드 카운트를 초과하지 않도록 상기 뉴클레오티드 서열의 영역으로부터 폴리뉴클레오티드를 수득하도록

구성된 시스템.
워드가 게놈에서 나타나는 횟수를 카운팅하는 방법으로서, 상기 워드는 문자 스트링을 포함하며, 이 방법은

상기 게놈의 압축 변환을 제공하는 단계;

마지막 문자로 시작하여 첫번째 문자로 전진하면서 반복 적용 당 하나의 문자씩, 상기 워드의 각각의 문자를 끝에서 끝까지 반복 적용하는 단계 - 여기서, 특정 반복 적용에 상응하는 문자는 인덱스 문자로 저장되며, 상기 반복 적용은

상기 변환 내에서 인접 범위의 문자를 기술하는 검색 영역을 정의하는 단계;

상기 인덱스 문자 앞의 문자가 상기 검색 범위에서 나타나는 횟수를 카운팅하는 단계;

- 여기서, 상기 인덱스 문자 앞의 문자가 상기 검색 범위에서 전혀 나타나지 않을 경우에는 상기 반복 적용을 중지함 -

를 더 포함함 - ; 및

상기 워드의 첫번째 문자가 카운팅되는 횟수 - 이 횟수는 상기 워드가 상기 게놈에서 출현하는 횟수와 동등함 - 를 출력하는 단계

를 포함하는 방법.
제86항에 있어서,

상기 압축 변환에 있어서 특정의 소정의 위치까지, 그리고 이 위치를 포함하여, 상기 변환에서 출현한 각각의 문자의 누계를 유지하는 K-간격 데이타 구조; 및

압축 변환에 대한 빠른 조회 접근을 제공하는 사전-카운트 데이타 구 조

를 포함하는 보조 데이타 구조를 제공하는 단계

를 포함하며,

상기 카운팅은 적어도 상기 K-간격 데이타 구조 및 상기 사전-카운트 데이타 구조를 사용하여 수행하는 방법.
제87항에 있어서, 상기 카운팅을 수행하는 동안 상기 변환을 압축한 채 유지하는 방법.
제87항에 있어서, 상기 압축 변환을 압축 해제 변환에서의 매 3개의 문자를 압축하여 바이트를 형성하도록 압축하고, 상기 카운팅은 상기 반복 적용 중 하나 동안 고작 1의 그러한 바이트를 압축 해제시키는 방법.
제86항에 있어서, 상기 게놈의 상기 압축 변환을 3 대 1의 압축 비를 이용하여 유도하는 방법.
제86항에 있어서, 상기 게놈이 100만개 이상의 문자를 포함하는 방법.
제86항에 있어서, 상기 게놈이 400만개 이상의 문자를 포함하는 방법.
제86항에 있어서, 상기 게놈이 1억개 이상의 문자를 포함하는 방법.
제86항에 있어서, 상기 게놈이 30억개 이상의 문자를 포함하는 방법.
제86항에 있어서, 상기 워드가 15개 이상의 문자를 포함하는 방법.
제86항에 있어서, 상기 압축 변환이 게놈의 버로우즈-휠러 변환인 방법.
제86항에 있어서, 상기 변환을 기반으로 하는 데이타를 제공하는 단계를 더 포함하며, 상기 정의는 상기 검색 영역을 정의하기 위하여 상기 데이타 및 상기 인덱스 문자의 사용을 포함하는 방법.
제86항에 있어서,

상기 변환을 기반으로 하는 데이타를 제공하는 단계; 및

인덱스 문자 앞의 문자가 상기 검색 영역의 시작 이전에 상기 변환에서 나타나는 횟수인 이전 문자 카운트를 결정하는 단계

를 포함하며,

상기 정의는 상기 검색 영역의 정의를 위하여 상기 데이타, 상기 인덱스 문자, 및 상기 이전 문자 카운트의 사용을 포함하는 방법.
제98항에 있어서, 상기 이전 문자 카운트는 K-간격을 사용하여 수득하며, 상기 K-간격은 상기 변환에 따라 소정의 위치에 저장되며 특정의 소정 위치까지, 그리고 이 위치를 포함하여, 상기 변환에서 출현한 각각의 문자의 누계를 유지하는 방법.
제86항 내지 제99항 중 어느 한 항의 방법을 수행하도록 구성된 사용자 장비를 포함하는 시스템.