KR101205619B1

KR101205619B1 - 서열 분석된 유기체의 검출 및 동정을 위한 유전자 표적의 디자인 및 선별

Info

Publication number: KR101205619B1
Application number: KR1020097005815A
Authority: KR
Inventors: 안토니 피 말라노스키; 젱 왕; 바오추안 린; 데이비드 에이 스텐거; 조엘 엠 슈너
Original assignee: 미합중국 (관리부서 : 미합중국 해군성)
Priority date: 2006-08-22
Filing date: 2007-08-22
Publication date: 2012-11-27
Also published as: WO2008024827A2; CN101535802B; CA2657448A1; AU2007286734B2; EP2054719A2; AU2007286734A1; CN101535802A; NO20091192L; EP2054719B1; WO2008024827A3; JP5112435B2; EP2054719A4; JP2010509904A; NZ574942A; KR20090060303A

Abstract

다음과 같은 단계를 포함하는 컴퓨터 실행 방법을 제공한다: 유기체 목록에 하나 이상의 유기체와 관련된 표적 서열 목록을 제공하는 단계; 표적 서열 중 하나 이상과 혼성화하는 것으로 의심되는 후보 프로토타입 서열 목록을 제공하는 단계; 각각의 후보 프로토타입 서열에 상응하는 프로브의 수집물을 생성하는 단계로서, 프로브의 각 수집물은 상응하는 후보 프로토타입 서열의 사전결정되고, 고정된 서브서열 길이를 갖는 모든 서브서열에 대한 프로브 세트를 갖고, 여기서 상기 세트는 상응하는 서브서열 및 상응하는 서브서열의 중심 뉴클레오티드를 변이시켜 형성된 상응하는 서브서열의 모든 변이로 구성되는 것인 단계; 각 표적 서열에 상응하는 단편 세트를 생성하는 단계로서, 단편의 각 세트는 상응하는 표적 서열의 사전결정되고, 고정된 단편 길이를 갖는 모든 단편을 갖는 것인 단계; 단편의 완벽하게 상보성인 서열과 각 단편의 결합 자유 에너지를 산출하는 단계로서, 임의 결합 자유 에너지가 사전결정된, 고정 한계치보다 높으면 결합 자유 에너지가 한계치 이하가 되거나 단편이 프로브와 동일 길이가 될 때까지 단편에 한번에 하나의 뉴클레오티드를 연장시켜서 연장 단편 세트를 생성하는 것인 단계; 어떠한 연장 단편이 임의 프로브에 완벽하게 일치하는가 확인하는 단계; 각 후보 프로토타입 서열에 상응하는 염기 호출 서열을 어셈블링하는 단계로서, 상기 염기 호출 서열은 임의의 연장 단편에 완벽하게 일치하지만, 완벽한 일치 프로브를 포함하는 프로브 세트의 다른 성분은 임의 연장 단편에 완벽하게 일치하지 않는 상응하는 프로토타입 서열의 각 프로브의 중심 뉴클레오티드에 상응하는 염기 호출 및 모든 다른 상황에서의 비 염기 호출을 갖는다.

Description

서열 분석된 유기체의 검출 및 동정을 위한 유전자 표적의 디자인 및 선별{DESIGN AND SELECTION OF GENETIC TARGETS FOR SEQUENCE RESOLVED ORGANISM DETECTION AND IDENTIFICATION}

본 출원은 2006년 8월 22일에 가출원된 미국 가출원 제60/823,101호 및 2006년 8월 25일에 가출원된 미국 가출원 제60/823,510호를 우선권으로 주장한다. 본 출원은 2005년 7월 3일 출원된 미국 출원 제11/177,646호, 2005년 7월 2일 출원된 미국 출원 제11/177,647호, 2005년 11월 7일 출원된 미국 출원 제11/268,373호, 2006년 6월 6일 출원된 미국 출원 제11/422,425호, 2006년 6월 6일 출원된 미국 출원 제11/422,431호 및 2006년 11월 14일 출원된 미국 출원 제11/559,513호의 일부 계속 출원이다. 이들 출원들은 2004년 7월 2일 가출원된 미국 가출원 제60/590,931호, 2004년 9월 15일 가출원된 미국 가출원 제60/609,918호, 2004년 11월 5일 가출원된 미국 가출원 제60/626,500호, 2004년 11월 29일에 가출원된 미국 가출원 제60/631,437호, 2004년 11월 29일 가출원된 미국 가출원 제60/631,460호, 2005년 11월 14일 가출원된 미국 가출원 제60/735,824호, 2005년 11월 14일에 가출원된 미국 가출원 제60/735,876호, 2006년 3월 22일 가출원된 미국 가출원 제60/743,639호 및 2005년 6월 16일 가출원된 미국 가출원 제60/691,768호를 우선권으로 주장한다.

본 발명은 대체로 재서열화 마이크로어레이 디자인에 관한 것이다.

DNA 기반 검출 방법의 보급이 증가함에 따라서, 어세이 분석을 디자인, 시험 및 개선하기 위한 인 실리코(in silico) 방법을 갖는것이 더욱 중요해졌다. 특히, 고도의 다중 복합적인 병원체 검출에 대한 요구가 증가하고 있고, 이는 가능하게는 비용, 필요한 샘플 부피, 시약 및 분석 시간 등에서 다중 개별 시험에 비해 보다 효과적이다. 그러나, 초기 개발, 디자인 및 검증은 상당히 복잡하고, 비용과 시간 소모적일 수 있다. 미생물에 대해 새롭게 이용가능한 유전자 서열 정보를 이용하는 정확한 모의실험 모델은 가능하게 이러한 고도의 다중복합적인 분석법을 개발하는 비용과 시간을 최소화시킬 수 있다.

모든 핵산 기반 분석법에 대한 디자인 기준은 유사한 포괄적인 제약을 갖는다. 표적 유기체를 선택한 후, 표적 유기체종만을 매우 특이적으로 인지하고 이러한 종 내에서 모든 유전자 변이(즉, 균주(strain) 또는 아형)를 설명하는 프로브를 선택하기 위한 방법들을 사용해야만 한다. 인 실리코 디자인 방법은 PCR 및 점적(spotted) 올리고뉴클레오티드 마이크로어레이(Cleland 외 (2004) Development of rationally designed nucleic acid signatures for microbial pathogens. Expert Rev MoI Diagn, 4. 303-315; Gardner 외 (2005) Draft versus finished sequence data for DNA and protein diagnostic signature development. Nucleic Acids Res, 33, 5838-5850; Rychlik 외 (1989) A computer program for choosing optimal oligonucleotides for filter hybridization, sequencing and in vitro amplification of DNA. Nucleic Acids Res, 17, 8543-8551 ; Fitch 외 (2002) Rapid development of nucleic acid diagnostics. Proceedings of the IEEE, 90, 1708-1721) 분석 및 올리고뉴클레오티드 마이크로어레이(Herold 외 (2003) Oligo Design: a computer program for development of probes for oligonucleotide microarrays. Biotechniques, 35, 1216-1221; Mehlmann 외 (2006) Robust sequence selection method used to develop the FluChip diagnostic microarray for influenza virus. J Clin Microbiol, 44, 2857-2862)에 대해 개발되었는데, 각각에 대한 모델은 유사한 요구사항을 갖는다. 가능한 프로브, 표적 및 간섭 단편의 풀이 매우 거대하기 때문에 최소의 컴퓨터 사용으로 최대의 표적 특이성을 생성하는 모델이 바람직하다. 대표적인 PCR 프라이머 또는 올리고뉴클레오티드 마이크로어레이 디자인 알고리즘에 있어서, 염기 일치수는 프로브와 표적 또는 배경 유기체 서열간에 계측한다. 일치의 한계 수치를 초과하면 혼성화로 가정한다(Herold 외 (2003) Oligo Design: a computer program for development of probes for oligonucleotide microarrays. Biotechniques, 35, 1216-1221; Mehlmann 외 (2006) Robust sequence selection method used to develop the FluChip diagnostic microarray for influenza virus. J Clin Microbiol, 44, 2857-2862). 이러한 모델링의 수준은 불완전한데 프로브-표적 혼성화의 궁극적인 검출이 예측되는 것과 상호관련되지 않을 수 있는 단일 신호 강도(일반적으로 형광도)에 따라 좌우되기 때문이다. 그 결과 선별물을 검증하고 혼성화 사건에 대한 강도 컷오프를 수립하기위한 실험 작업을 수행하기까지 선택된 프로브가 얼마나 효과적인지에 대한 불확실성이 존재한다.

일치-비일치 및 단일 일치 마이크로어레이를 보다 잘 이해하고 강도의 예측을 가능하도록 보다 구체적인 열역학적 모델링 및 산출법이 사용되어왔다(Matveeva 외 (2003) Thermodynamic calculations and statistical correlations for oligo-probes design. Nucleic Acids Res, 31, 4211-4217; Held 외 (2003) Modeling of DNA microarray data by using physical properties of hybridization. Proc Natl Acad Sci USA, 100, 7575-7580; Naef 외 (2003) Solving the riddle of the bright mismatches: Labeling and effective binding in oligonucleotide arrays. Physical Review E, 68, 01 1906; Zhang 외 (2003) A model of molecular interactions on short oligonucleotide microarrays. Nat Biotechnol, 21, 818-821; Wu 외 (2005) Sequence dependence of cross-hybridization on short oligo microarrays. Nucleic Acids Res, 33, e84). 모델링 접근법은 표면에 대한 프로브 부착, 및 단편의 염기 함량에 따른 단편의 이량체 형성 또는 루프 형성 영향 등의 몇몇 중요한 문제점을 밝혀준다. 하나 또는 두개의 프로프만이 표적과 혼성화할 경우 이러한 문제에 대한 설명은 비교적 분명하다. 하지만, 이 모델에서 증가된 상세 사항은 또한 컴퓨터적인 요구사항이 증가한다는 점에서 비용이 든다.

단순한 올리고뉴클레오티드 마이크로어레이와 대조적으로, 재서열화 마이크로어레이를 이용한 최근의 작업은 공감염을 포함하는 다중 병원체에 대해 시험하고, 밀접하게 관련된 병원체의 상세한 판별을 수행하고/하거나 병원체 돌연변이를 추적하기 위한 실용적인 대안법이라는 것이 증명되었다(Wang 외 (2006) Identifying Influenza Viruses with Resequencing Micro arrays. Emerg Infect Dis, 12, 638-646; Lin 외 (2006) Broad-spectrum respiratory tract pathogen identification using resequencing DNA microarrays. Genome Res, 16, 527-535). 각각의 세트가 목적하는 서열의 일부 및 중심 뉴클레오티드 위치의 모든 변이를 나타내는 4(또는 안티센스가 포함되면 8) 단길이 프로브 세트이기 때문에, 단일 프로브로부터 신호의 절대 강도는 완전한 프로브 세트에 걸친 차등적인 결합/강도에 비해 덜 중요해진다. 센스 및 안티센스 양 방향에서 확인된 이러한 정보는 특정 염기가 높은 신뢰도로 존재한다는 것을 확인하는데만 사용된다. 이러한 중첩 프로브 세트의 사용은 추정상 특이적인 프로브의 단일 형광 신호 강도에 기초하여 표적 유기체의 뉴클레오티드 서열을 추론적으로 결정하는데 필요한 것이 아니라 직접적으로 결정하는데 필요하다(Malanoski 외 (2006) Automated identification of multiple microorganisms from resequencing DNA microarrays. Nucleic Acids Res, 34, 5300-5311).

다양한 수준의 유기체 판별의 광범위한 스펙트럼 검출을 위한 재서열화 마이크로어레이의 효율은 마이크로어레이 상에 위치하는 기준 또는 표적 서열을 선택하기 위해 사용된 방법에 따라 좌우된다. 가능한 판별 수준에 대한 유기체에 주어진 공간 양의 트레이드오프(tradeoff)는 고려하는 모든 유기체에 대해 균형을 맞추어야 한다. 또한, 특이적 또는 반특이적 프라이머를 유기체 농축물에 대해 사용하는 경우 이러한 프라이머의 선택은 가능한 기준 서열의 선택에 영향을 줄 수 있다.

전체적인 디자인 방법은 일련의 단계로서 특징될 수 있다. 제1 단계, 유기체 및 각 유기체에 대한 목적하는 판별 수준 및 특정 핵산 마커의 시험 유무 선택 단 계. 제2 단계, 서열 영역의 기지 서열 데이타로부터 기준 서열을 선택하기 위한 결정 단계. 제3 단계, 기준 서열의 선택 및 가능한 콘플릭트(conflict) 검토 단계. 제4 단계, 프라이머 선택 단계. 제5 단계, 서열 선택의 정밀화 단계. 이러한 몇몇 단계의 순서는 상호교환할 수 있고 정밀화는 교환 후 이들 몇몇 단계를 반복하는 것으로 구성된다. 제1 단계는 항상 유기체 및 디자인 상에서의 제한성을 나타내는 각 유기체의 목적하는 판독 수준의 선택이다. 사용되는 마이크로어레이의 크기는 디자인 문제 상에 놓여진 다른 제한성을 특정한다. 하나 이상의 이러한 제한성을 변화시키지 않고 어떠한 해결법도 가능하지 않은 듯하다. 그러나, 모든 후속 단계는 이러한 요구사항을 만족시키는 것을 목적으로 한다.

본 발명은 컴퓨터 실행 방법을 포함하고, 이 방법은 유기체 목록의 하나 이상의 유기체와 관련된 표적 서열의 목록을 제공하는 단계; 하나 이상의 표적 서열에 혼성화하는 것으로 의심되는 후보 프로토타입(prototype) 서열의 목록을 제공하는 단계; 각 후보 프로토타입 서열에 상응하는 프로브의 수집물을 생성하는 단계로서, 각 프로브의 수집물은 상응하는 후보 포로토타입 서열의 사전결정되고, 고정된 서브서열 길이를 갖는 모든 서브서열에 대한 프로브 세트를 포함하고, 이 세트는 상응하는 서브서열 및 상응하는 서브서열의 중심 뉴클레오티드를 변이시켜 형성된 상응하는 서브서열의 모든 변이체로 구성되는 것인 단계; 각 표적 서열에 상응하는 단편 세트를 생성하는 단계로서, 각각의 단편 세트는 상응하는 표적 서열의 사전결정되고, 고정된 단편 길이를 갖는 모든 단편을 포함하는 것인 단계; 단편의 완벽한 상보성 서열과 각 단편의 결합 자유 에너지를 산출하고, 임의 결합 자유 에너지가 사전결정된, 고정 한계치를 넘으면, 이 단편을 결합 자유 에너지가 한계치 이하가 되거나 단편이 프로브와 동일한 길이가 될때까지 한번에 하나의 뉴클레오티드를 연장시켜, 연장된 단편 세트를 생성하는 단계; 및 어떤 연장된 단편이 임의 프로브에 완벽하게 일치하는지 결정하는 단계; 및 임의의 연장된 단편에 완벽하게 일치하지만, 완벽한 일치 프로브를 함유하는 프로브 세트의 다른 성분은 임의의 연장된 단편에 완벽하게 일치하지 않는 상응하는 프로토타입 서열의 각 프로브의 중심 뉴클레오티드에 상응하는 염기 호출, 및 다른 모든 상황의 비염기 호출을 포함하는 각각의 후보 프로토타입 서열에 상응하는 염기 호출 서열을 어셈블링하는 단계를 포함한다.

본 발명의 보다 구체적인 설명은 이하의 구체적인 설명 및 첨부된 도면을 참조하여 쉽게 얻을 수 있을 것이다.

도 1은 23 내지 13의 상이한 m의 값을 이용한 모델의 예시적인 결과를 나타낸다. 프로토타입 서열(프로브 세트 제작용) 및 샘플 서열은 두 서열에 일치하는 염기 위에 별표시로 나타내었다. 또한 상이한 m 값에 대해 각 프로브 세트에 대한 재어셈블링된 모델 염기 호출 결과를 도시하였다. 영역 A는 20 인접 염기를 가지고 있어서 20보다 큰 m에 대해 이 영역에서 어떠한 프로브 세트도 일치하지 않았다. 보다 긴 영역 B는 m=23에서 염기 호출을 만드는 프로브 세트를 갖는다. 각 영역에서, m의 1 또는 2 증가는 염기 호출의 작성을 멈추도록 각 엣지에 1 또는 2 염기 호출을 생성시켰다. 이러한 염기 호출은 다른 것에 비해 프로프의 절반 상에 보다 많은 일치부를 갖는 단편에 의존적이다. 영역 C는 사이에 SNP를 갖는 9 염기 및 12 염기의 두 인접 영역을 갖는다. SNP 세트의 한 프로브는 샘플 중에 일치하는 22 염기를 갖지만 이 영역의 임의 프로브 세트의 어떠한 다른 프로브도 일치도가 12 이상이 아니고 따라서 모두는 N에 대한 모든 값에서 N 호출이다.

도 2는 프라이머 내 위치 함수에 따른 프라이머로부터 분석된 염기 호출의 빈도를 나타낸다: ●-전체, GC 함량; ▲-50% 이하; ▼-50% 이상.

도 3은 프라이머 내 위치 함수에 따른 프라이머로부터 분석된 염기 호출의 빈도를 나타낸다. ΔG(오픈 심볼은 12000 데이타점보다 적은 빈(bin)을 나타냄): *>-13, -13>■□>-16, -16>◆◇>-19, -19>▲△>-22, -22>▼▽>-25, -25>●○

도 4는 FluBHA의 프로토타입 서열 및 통상의 서열화, RPMv.1 마이크로어레이, 및 모델 예측으로부터의 인플루엔자 B 빅토리아 계통 샘플의 결과를 나타내는 도면이다. 영역 A는 SNP가 매우 떨어져있거나 서로 근접한 섹션 서열을 나타내고 상기 모델 및 마이크로어레이 데이타와 잘 일치한다. 영역 B 서열은 중간 빈도를 갖는 SNP를 갖고 모델과 실험간의 일치도는 감소하였다. 샘플과 프로토타입 서열간의 편차 비율로서 관찰되는 이러한 거동은 4% 이상으로 상승하였다. 영역 C는 관찰되는 염기 호출의 수가 보다 높더라도 유사하고 이들 경우는 단지 10%에서 관찰되었다.

도 5는 가설적인 명목 표적, 표적 목록 및 프로토타입 서열의 목록을 도시한 도면이다.

도 6은 가설적인 프로브 수집물을 도시한 도면이다.

도 7은 가설적인 단편 및 연장 단편의 목록을 도시한 도면이다.

도 8은 프로브와 연장 단편간의 완벽한 일치를 나타내는 도면이다.

도 9는 가설적인 염기 호출 서열을 나타내는 도면이다.

도 10은 각각의 후보 프로토타입에 대해 일치하는 유기체 및 최종 표적 목록의 형성을 나타내는 도면이다.

하기의 상세한 설명은 설명을 위한 것이고 이에 제한하려는 목적이 아니며, 특정한 설명은 본 발명의 전반적인 이해를 돕기 위해 제공되는 것이다. 그러나, 본 발명은 이들 특정한 설명을 벗어나는 다른 구체예로 실시할 수 있다는 것을 당분야의 당업자는 이해할 것이다. 다른 예에서, 공지의 방법 및 장치에 대한 구체적인 설명은 생략하였는데 불필요한 상세 설명으로 본 발명의 설명을 불명료하게 하지 않기 위해서이다.

특히 다중 병원체 검출에 대한 DNA 기반 검출 방법의 보급은 다량의 최근 공개된 문헌들에서 분명하게 나타난다. 따라서, 이들의 개발이 보다 복잡하고, 비용과 시험 소모적이 되어 가기 때문에 이들 방법의 디자인, 초기 시험 및 개선을 보조하기 위한 인 실리코 방법을 갖는 것이 중요해지고 있다. 재서열화 마이크로어레이를 이용한 최근 작업은 밀접하게 관련된 병원체의 상세한 판별 및/또는 병원체 유전자 변이의 추적을 수행하는 것을 비롯하여, 공감염을 포함하는 다중 병원체에 대한 시험을 위해 유용한 대체법이란 것을 증명하였다. 그러나, 재서열화 어레이의 품질은 개별 프로브 수준에서 이들 성능을 모델링하기 위한 상이한 기준을 필요로한다는 것을 요구한다. 또한, 가능한 수백의 프로토타입 표적을 이용한 이들 어레이의 디자인을 최적화하는 것은 현재 방법으로 가능한 것을 넘어선다. 이러한 문제점을 해결하기 위해, 혼성화를 예측하기 위한 단순 가정으로 시작하고 이후 필요에 따라 복합성만을 부가하는, 재서열화 마이크로어레이에 대한 염기 호출을 예측하기 위한 컴퓨터적으로 효율적인 모델이 성공적으로 개발되었다. 유기체 및 단길이 올리고뉴클레오티드 혼성화에 대한 다량의 데이타 세트 및 Affymetrix CustomSeq 마이크로어레이를 이용한 염기 호출은 이 모델의 시험 및 검증을 가능하게 하였다.

마이크로어레이의 특정 프로토타입 서열 상에서 샘플 서열에 대해 일어날 수 있는 염기 호출을 예측하는 재서열화 마이크로어레이에 대해 적용가능한 모델을 개시하였다. "프로토타입(prototype)" 서열은 병원체 표적 서열의 선택된 범위의 적어도 부분적인 혼성화를 가능하게 하는 재서열화 어레이 상에 위치시킨 프로브 세트를 생성시키기 위해 사용되는 게놈 서열을 의미하는 것이다. 다른 어레이에 대한 디자인에서 사용되는 것에 대한 유사한 규칙이 빠른 산출을 가능하게하는 출발점이지만, 보다 상세한 열역학적 정보가 도입된다. 모델 개발은 유기체 및 단길이 올리고뉴클레오티드 혼성화 및 Affymetrix 재서열화 마이크로어레이 상의 염기 호출에 대한 방대한 데이타 세트에 대한 시험을 통해 촉진된다. 이 모델은 매우 다양한 표적 유기체 서열의 혼성화로부터 염기 호출을 예측하는데 성공적이다. 또한, 마이크로어레이 상에 나타낸 프로토타입 서열이 다양한 병원체 표적 세트에 대해 얼마나 잘 수행되는지 예측하는데 사용할 수도 있다. 이는 재서열화 마이크로어레이의 디 자인을 단순화하는데 도움을 주게되고 특정 용도를 위해 이를 개발하는데 요구되는 시간과 비용을 절감시키게 된다.

모델 개념-실험적으로, 프로브 세트는 단편이 세트의 한 프로브에 보다 잘 결합하면 특정 염기가 존재한다는 것만을 의미하게 된다. 이러한 거동을 모델링하기 위해, 핵심 가정은 프로브 및 샘플 서열이 상보적인 m 인접 염기를 갖는 경우, 관찰가능한 혼성화 신호가 발생한다는 것이다. 이는 프로브에 대한 상이한 서열의 결합 강도의 편차를 나타내고 가장 단순한 모델을 나타내기 위한 가장 개략적인 개산법이다. 모델링의 나머지는 프로토타입 서열로부터 프로브, 그리고 샘플로부터 가능한 결합 단편을 생성하고, 이어서 핵심 가정을 이용하여 세트를 상호 비교하는 것으로 구성된다.

제1 단계는 프로브 세트와 샘플 단편을 생성하는 것이다. 프로토타입 서열로서 선택한 서열은 중첩되는 4 프로브 세트로 나뉘는데, 여기서 세트의 프로브는 각각 예를 들어, 25 염기 길이이고 중심 염기가 상이하다(즉, L 염기의 서열에 대해, L-24 프로브 세트를 생성함). 이는 마이크로어레이 상에 실제로 무엇이 위치하게되는지를 나타내는 것이다. 샘플 서열에 대해, m 염기 길이인 모든 고유한 단편을 생성한다(즉, K 염기의 서열에 대해 최대로 K-m+1의 고유한 단편을 생성할 수 있음). 실험에서의 단편은 이보다 더 길수도 있다(평균 100 염기). 이 모델은 단편에 m 염기의 최소 요구사항이 존재하는 것만을 요구한다.

마이크로어레이 프로브 및 샘플 단편이 생성되면, 모든 프로브 세트의 각 프로브를 샘플 서열로부터의 모든 단편에 대해 시험하여 완벽한 상보성 일치가 일어 나는지 확인한다. 일치가 있는 프로브를 표시한다. 염기 호출을 생성하는 프로브 세트의 능력은 이 프로브의 결과를 고려하여 평가한다. 세트의 단지 한 프로브가 샘플 서열에서 일치성을 가지면, 이것이 프로브 세트에 대해 지정된 염기 호출이고 다음 프로브 세트를 실험한다. 모호한 염기 정체성을 나타내는 N은 어떠한 샘플 단편도 프로브 세트의 임의 성분에 일치하지 않는 경우 지정한다. 세트의 하나 이상의 프로브가 일치하는 경우, 보다 긴 단편을 샘플 서열로부터 생성하고 비교한다. 샘플 서열로부터 5'-3' 방향의 각 단편의 이웃 염기를 적절한 프로브와 불일치가 일어날 때까지 한번에 하나씩 부가한다. 이제, 이러한 단편 중 하나가 다른 것들에 비해 길어지면, 그 염기를 지정하고, 그렇지 않으면 N을 지정한다.

모든 프로브 세트를 시험한 후, 각 프로브 세트로부터 염기 호출(A, C, T, G 또는 N)을 서열로 재어셈블링한다. 도 1은 23-13의 상이한 m 값(13보다 짧은 길이는, 이것을 이용하는 것이 가능하더라도, 비특이적으로 결합할 수 있기 때문에 사용하지 않았음)을 이용한 모델의 예시적인 결과를 나타내며 다양한 조건하에서 만들어진 일부 염기 호출을 나타내었다. 실험적인 결과가 분명하게 지시하고 있지만 특이적인 염기 호출을 생성하기 위하여 단편이 프로브의 모든 25 염기 또는 21 염기에 상보적일 필요가 없다. 추가의 실험적인 입력없이, m에 대해 어떠한 길이가 가장 적합한지 결정하는 것은 어렵다.

단길이 올리고머- 단길이 올리고뉴클레오티드의 혼성화에 대한 다량의 데이타는 샘플 증폭에 대해 다중복합적인 특이적 프라이머를 이용하는 Respiratory Pathogen Microarray v.l(RPMv.1)(Lin 외 (2006) Broad-spectrum respiratory tract pathogen identification using resequencing DNA microarrays. Genome Res, 16, 527-535) 실험을 통해 이용가능하다. 미사용된 프라이머는 혼성화전에 샘플로부터 제거되지 않고 이들 프라이머의 대부분은 프로토타입 서열에 존재하기 때문에, 재서열화 마이크로어레이에 길이가 16 내지 27인 다수의 단길이 올리고머의 결합을 연구하는 것이 가능하다. 이 데이타 세트는 2종의 다중복합적인 혼합물에 대한 것으로서, 하나는 117 프라이머(777실험)을 함유하고 다른 것(906 실험)은 117 프라이머 혼합물의 서브세트인 66 프라이머로 구성된다. 동일한 프라이머와 혼성화하지만 혼성화를 위하여 사용가능한 정확하게 일치하는 상이한 수의 염기를 갖는 프로토타입 서열로부터 이용가능한 다수의 프로브 세트가 존재한다(13 염기부터 프라이머 길이 또는 프로브 길이, 25 염기). 예를 들어, 프라이머 올리고머의 양 말단에 염기는 염기의 정체성을 결정할 수 있지만 13 염기의 혼성화에만 기초하는 프로브 세트를 갖는다. 그 전체 서열에 대해 50% 혼성화 보다 양호하게 나타나는 임의 프로토타입 서열의 프라이머는 분석에 포함되지 않는데, 이들은 표적의 앰플리콘에 도입된 프라이머 및 미사용된 프라이머의 혼성화를 나타내기 때문이다. 이용가능한 프라이머 올리고머의 수집물로부터, 각각 13 내지 21 길이에 대해 ～3×10⁵ 데이타점, 22에 대해 ～2×10⁵,23에 대해 ～1.5×10⁵그리고 24 및 25의 각 길이에 대해 ～7.5×10⁴의 데이타점이 존재한다. 염기 호출은 이전 작업에서 사용한 GDAS 프로그램 셋팅을 통해 수행하였다(Lin 외 (2006) Broad-spectrum respiratory tract pathogen identification using resequencing DNA microarrays. Genome Res, 16, 527-535).

도 2는 GC 함량을 기초로하는 두 그룹의 프라이머 및 모든 프라이머에 대한 프로브에 혼성화할 수 있는 프라이머의 양에 대한 분명한 염기 호출의 빈도를 나타낸다. 제1 위치는 33%의 빈도를 갖는데 이는 프로브의 25 염기 중 13 염기만이 일치하는 DNA 단편 1/3이 고유한 염기 호출을 생성하기에 충분하게 특이적이고 강하게 결합할 수 있다는 것을 의미한다. 혼성화하는 것이 가능한 염기의 길이가 증가하면, 염기 호출의 빈도가 증가하는 것이 관찰되고 16 길이에 의해 50% 이상에 도달한다. 결합 빈도를 더욱 이해하기 위하여, 다중복합적 프라이머 혼성화의 결과를 GC 함량을 기초로 2 그룹으로 나누었다. 프라이머에 대한 평균은 50% 미만 및 50% 이상의 GC 함량으로 그룹화한 것을 보여준다. 이러한 분류는 최대 22 길이에 대해 상부 그룹에 비하여 하부 그룹에 샘플 수의 대략 2배를 둔다. 염기 호출 빈도의 편차는 최대 13 내지 14이다. 50% 이상의 GC 함량에 대하여 23 내지 25의 비율 및 경향은, 이들 그룹에 상당히 적은 프로브 샘플이 존재하기 때문에, 상당히 불확실하다.

프라이머 조성의 영향에 대하여 보다 잘 이해하기 위해, 도 3은 nn 모델에 의해 산출한 ΔG를 기초로하는 개별 그룹의 각 길이의 프라이머를 보여주고 있다(SantaLucia (1998) A unified view of polymer, dumbbell, and oligonucleotide DNA nearest-neighbor thermodynamics. Proc. Natl. Acad. Sci. USA, 95, 1460-1465; SantaLucia 외 (2004) The thermodynamics of DNA structural motifs. Annu. Rev. Biophys. Biomol. Struct., 33, 415-440). 이러한 빈의 일부는 매우 적은 샘 플을 가지며, 이들 결과는 상당히 불확실성을 나타낸다. 그럼에도, 전체적으로 ΔG가 감소함에 따라, 빈도는 길이에 상관없이 증가하는 경향을 관찰할 수 있다. 흥미로운 점은 하나의 완벽한 일치와 3 불일치 프로브를 이용하여 프로브의 길이(25 염기)에 비하여 상당히 짧은 올리고머에 대해 높은 염기 호출 빈도가 가능하다는 점이다. 어레이 상에서 염기 호출 생성의 낮은 빈도를 분명하게 갖는 프로브만이 -13 kcal/mol에 비하여 높은 ΔG, 및 13 및 14 길이를 가졌다. 평균 -16 kcal/mol보다 낮은 ΔG를 갖는 프라이머는 혼성화하고 염기 호출을 생성하는 기회를 50% 이상으로 갖는다.

교정된 모델 개념-결합 빈도에 대한 경향으로부터의 실험 증거는 16보다 긴 길이가 대체로 임의 다른 인자를 고려하지 않고 분석된 염기 호출을 생성한다는 것을 의미한다. 보다 짧은 길이에 대해, 프로브의 ΔG는 염기 호출을 분석하는 상당한 기회가 존재한다면 결정하는 것이 중요하다. 이 모델은 m=13인 샘플로부터 생성된 단편의 ΔG를 결정하기 위해 변형하였다. 단편의 자유 에너지 편차가 컷오프, -14.5 kcal/mol보다 낮으면, 수용가능하다. 컷오프보다 높은 경우, 단편의 길이는 이의 에너지가 컷오프보다 낮아지거나 프로브의 길이, 25에 도달할때까지 증가시킨다. 이후 단편의 최종 목록을 이미 언급한 모든 프로브 세트에 대해 비교한다.

증폭, 혼성화 및 서열 결정-Respiratory Pathogen Microarray v.1(RPM v.l) 디자인 및 실험 방법의 구체적인 설명은 이전 작업에서 설명되어 있다(Wang 외 (2006) Identifying Influenza Viruses with Resequencing Microarrays. Emerg Infect Dis, 12, 638-646; Lin 외 (2006) Broad-spectrum respiratory tract pathogen identification using resequencing DNA microarrays. Genome Res, 16, 527-535; Davignon 외 (2005) Use of resequencing oligonucleotide microarrays for identification of Streptococcus pyogenes and associated antibiotic resistance determinants. JCHn Microbiol, 43, 5690-5695; Lin 외 (2007) Using a Resequencing Microarray as a Multiple Respiratory Pathogen Detection Assay. J Clin Microbiol., 45(2), 443-452). 진단 영역을 함유하는 유전자로부터의 부분 서열을 이들 병원체의 검출을 위해 타일링(tile)하였다. 초기 프라이머 분석을 위해 사용하는 실험적 마이크로어레이 데이타는 다중복합적인 RT-PCR 증폭 법을 이용하여 임상 샘플로부터 얻었다. 프라이머 결과의 시험에 대한 결과 및 캘리포니아 계통 샘플을 상이한 복합 프로토호출에 사용하였다(Lin 외 (2007) J Clin Microbiol., 45(2), 443-452). 나머지 인플루엔자 샘플은 무작위 프로토콜을 사용하였다(Wang 외 (2006) Emerg Infect Dis, 12, 638-646). GCOS™ 소프트웨어 vI.3(Affymetrix Inc., Santa Clara, CA)를 사용하여 프로브의 강도를 확인하였고 GDAS V3.0.2.8 소프트웨어(Affymetrix Inc., Santa Clara, CA)를 이용하여 염기 호출을 만들었다.

사례 1: 프라이머 간섭 예측- 모델 알고리즘을 이용하는 첫번째 시험은 프로토타입 서열과 프라이머의 상호작용을 최소화시키고자 하는 신규한 프라이머 세트를 이용하여 블랭크 샘플(핵산을 첨가하지 않음)을 이용하는 42 마이크로어레이 실험에서 발생한 염기 호출을 이해하는 것이었다. 프라이머가 여전히 존재하기 때문에, 이들을 샘플 서열의 수집물로서 처리하고 칩 상의 모든 프로토타입 서열에 대 한 모델을 이용하여 시험하였다. 이 모델은 프로토타입 서열 상에 여전히 위치하는 프라이머로부터 실험에서 발생한 염기 호출을 정확하게 예측하였다. 프로토타입 서열의 중심 위치에 대한 추가 결합이 또한 보였고 실험 결과와 일치하였다. 밀접하게 관련된 유기체의 프로토타입 서열에 대해 디자인한 프라이머가 이러한 염기 호출을 일으켰다. 예를 들어, 아데노바이러스 4 ElA 유전자 프로토타입 서열은 서열의 시작부로부터 393 염기에 위치하는, 시점의 97%에 호출된 20 예측 염기중 19 염기를 가졌다. 영역의 엣지에서 단일 뉴클레오티드 다형태(SNP)인 하나의 염기가 호출될 것으로 예상되었지만 실험에서 시점의 12%만이 호출된 것으로 관찰되었다. 다른 프로토타입 서열과 비교시 이 영역은 아데노바이러스 7 ElA 프로토타입 영역에 대해 선택된 프라이머 영역에 대해 일치하였다. 이 모델에 의해 예측한 다른 47 영역에 대해 유사한 일치성을 확인하였다.

사례 2: 장길이 서열에 대한 모델 예측- 보다 짧은 단편에 대한 모델의 정확성의 성공적인 검증 이후, 전체 프로토타입 서열에 대한 예측을 시험하였다. 인플루엔자 A/H3N2 후지안 유사 계통, 인플루엔자 A/H3N2 캘리포니아 유사 계통, 인플루엔자 B 야마가타/16/88 계통 및 인플루엔자 B 빅토리아/2/87의 4 데이타 세트에 대해 실험적 마이크로어레이 결과와 비교한 상기 모델에서 통상의 서열화 샘플을 이용한 결과를 표 1에 나타내었다. 그 결과는 예컨대 인플루엔자 A/H3N2 후지안 유사 샘플 등에 대해 상당한 유사성을 갖는 샘플에 대해 평균으로 기록하였고, 실험에 대한 평균 염기 호출 비율은 85%였으며 반면 모델 예측값은 평균 97%였다. SNP의 평균 수는 프로토타입과 통상의 서열간에 9.8(1%)이었다. 모델 예측된 9.2 SNP 가 분석된 반면, 실험에서는 6.3 SNP만이 관찰되었다. 상기 모델은 실험이 특정 염기 호출을 갖는다는 8.8 N 호출을 예측하였고, 마이크로어레이는 상기 모델이 특정 염기 호출이어야만하는 94.9 N 호출을 가졌다. 따라서, 평균 14.3 N 호출이 모델과 마이크로어레이 결과 간에 일치하였다.

계통을 기초로 개별 그룹에 존재할 수 있는 인플루엔자 헤마글루티닌 유전자에 대한 평균 모델 및 실험적 마이크로어레이 결과의 요약
샘플 세트	타일 (tile)	분석된 염기 호출		프로토타입에 대한 SNP 수			N 호출 수
인플루엔자		어레이	모델	통상적	모델	어레이	모델 단독	어레이 단독	모델 및 어레이
후지안 유사 계통(12)	770	85.4±3.6	96.7±0.012	9.8	9.2	9.2(0)*	8.8	94.9	14.6
캘리포니아 유사 계통(12)	770	92.2±7.8	95.3±0.013	11.9	11.6	10.7(1)*	15.3	38.7	21.5
B 야마가타 계통(8)	660	77.5±3.7	86.8±0.011	24.5	17.6	12.2(1)*	26.4	87.2	61
B 빅토리아 계통(4)	660	47.7±3.9	51.4±0.007	65.2	39.2	31.2(4)*	70.2	94.2	251
* 괄호안의 수치는 통상적 결과에 대한 비일치 수치이다.

표 2는 후지안 유사 계통 샘플(A/Nepal/1727/2004로서 동정)로부터의 특이적 단리물에 대해서 각각의 6 SNP의 위치가 마이크로어레이 상에서 분석되었고 25 염기 길이 윈도우에서 N으로 호출된 추가의 염기 수가 SNP 중심에 위치한다는 것을 보여준다. 전체 염기 호출 비율은 모델에 대해 97.4%였고, 마이크로어레이에 대해 88.4%였다. N 호출을 그룹화하기 위하여 이러한 정보를 이용한 경우, 46 N 호출이 SNP와 밀접하게 관련되었고 29 N 호출은 마이크로어레이에 걸쳐 균일하게 분산되었으며 대개는 분석된 염기에 둘러쌓인 단일 N 호출 또는 3 염기 그룹 중 2개의 연속된 N 호출 또는 2개 호출의 소수 이벤트로 구성되었다. 샘플은 통상의 서열 및 프로토타입 서열과 비교시 총 8 SNP를 가졌고 마이크로어레이 상에서 동정되지 않은 2 SNP는 둘다 동정된 다른 SNP 근처에 위치하였다. 모델 및 마이크로어레이는 7개의 상이한 SNP 근처에 위치한 12 N 호출 상에서 일치하였지만 SNP 근처에 모델에서 예측된 6개의 추가 N 호출은 실험에서 분석되었으며 이는 모델과의 불일치를 의미하는 것이다.

FluAHA3 프로토타입 서열과 비교한 인플루엔자 A 바이러스주에 대한 SNP 위치
위치	표적 염기	실제 염기	국소 영역의 N 호출(칩)	국소 영역의 N 호출(모델)
299	G	A	10	1
313	G	A	8	1
352	A	C	10	8
393	A	T	2	3
483	G	A	5	0
593	G	A	8	3
596	T	C	8	3
698	C	A	3	4

프로토타입 서열은 인플루엔자 A/H3N2 캘리포니아 유사 계통 샘플에 대해서 1.5%, 인플루엔자 B 야마가타/16/88 계통 샘플에 대해 3.7%, 인플루엔자 B 빅토리아/2/87 계통 샘플에 대해 9.8% 만큼 샘플 서열과 상이하였다. 이러한 결과는 N 호출 이외에 통상의 서열화 및 마이크로어레이 염기 호출 간에 불일치가 존재한다는 점에서도 샘플의 제1 그룹과 상이하였다. 인플루엔자 A/H3N2 후지안 유사 계통과 동일한 프로토콜 하에서 작업한 인플루엔자 B 샘플은 1(야마가타 계통) 및 4(빅토리아 계통) 염기 호출 편차를 나타냈다. 이러한 염기 호출은 모두 영역에서 발생하였고 적어도 3 N 호출은 많은 분석된 염기 호출의 임의 영역으로부터의 것이며, 모델은 이 위치에서 N 염기 호출을 예측하였다. 인플루엔자 A/H3N2 캘리포니아 유사 샘플은 상이한 프로토콜을 사용하였고 불일치가 이들 근처에서 많은 N 호출을 가지지만, 많은 분석된 염기의 영역으로부터 분리된 적어도 3 N 호출을 일관되게 갖지는 않았다. 염기 호출 상의 99.87%의 정확도는 단일 마이크로어레이 실험으로부터 염기 호출을 결정시 예상되는 타당한 오류 비율이다.

상기 모델은 프로토타입 서열과 1% 내지 4% 상이하고 편차가 ～10% 까지 증가시 약간 더욱 양호한 일치성을 갖는 것으로 나타나는 샘플에 대해 예측되는 염기 호출의 비율에 대해 유사한 효율을 가졌다. 그러나, 전체적인 염기 호출 비율은 모델 효율에 대해 잘못된 표지일 수 있다. N 호출은 3 그룹으로 나뉠 수 있는데, 즉, 모델에서는 예측되지만 관찰되지 않는 N 호출, 관찰되지만 예측되지 않는 N 호출 및 예측되고 관찰도 되는 N 호출이다. 변이량이 1%에서 10%로 증가함에 따라 동일한 프로토콜을 수행한 3종의 샘플 세트에 대해 확인할 수 있는 경향을 조사한 경우, 관찰된 N 호출과 일치하는 예측 N 호출은 모델이 정확하다는 것을 반영하는 최대량까지 증가하였다. 관찰되었지만 예측되지 않은 N 호출은 대략 일정하게 남아 있었다. 모델에서 생성되었지만 칩상에서 분석된 염기 호출인 N 호출도 증가하였다. 10%에서 확인된 염기 호출의 비율에 대한 개선된 일치성은 전체 염기 호출을 증가시켜서 일어났다. 전체적으로 다른 인플루엔자 A/H3N2 샘플은 다른 데이타 세트와 유사한 방식으로 반응을 나타내었고 일부 상세 사항에서의 편차는 가능하게는 사용된 프로토콜에서의 편차를 반영하는 것이다. SNP가 보다 빈번하게 발생시 모델이 정확하지 않더라도, 낮은 빈도를 갖는 영역이 정확하게 동정되었고 이는 우리의 현행 병원체 동정 분석법에서 사용하는 영역이다. 도 4는 10% 정도 상이한 인플루엔자 B 샘플로부터의 섹션을 보여주는 것이다. N 호출 또는 분석된 호출의 거대한 스트렛치와 같은 일부 특징이 모든 샘플 세트에 존재하였다. 이들 영역으로부터의 염기 호출의 스트렛치는 분석 프로그램, CIBSI v.2에서 가장 자주 사용하는 것이다. 도 4의 B 영역은 예측된 N 호출의 영역내 분산된 염기 호출을 나타내고 4% 이상의 편차를 갖는 샘플 세트에서 확인되었다. 도 4의 C 영역은 B 영역과 유사하였는데 단 이 영역에 많은 보다 실험적으로 분석된 염기 호출이 N으로서 예측되었다는 점은 다르다. 이러한 유형의 거동은 10% 편차의 샘플에서만 관찰되었다.

상기 모델은 통상적인 샘플의 서열화보다는 게놈 서열 데이타베이스로부터의 대표적인 서열을 이용하는 경우 유기체의 거동을 이해하는데 사용할 수 있다. 예로는 인플루엔자 A/푸에르토리코/8/34 바이러스주를 마이크로어레이 상의 시험에서 스파이크로서 사용하는 실험은 단지 뉴라미니다제 및 매트릭스 프로토타입 서열에 대해 유의한 염기 호출 비율을 가졌다. 이는 인플루엔자 A/푸에르토리코/8/34 바이러스주와 프로토타입 서열간에 편차로 인하여 유의하지 않은 염기 호출 수가 헤마글루티닌 프로토타입 서열에서 발생한다는 것을 예측하고 유의한 염기 호출을 생성하는 두 프로토타입 서열의 영역을 정확하게 동정한 모델의 모의 실험과 일치하는 것이다.

잘 정의된 단길이 올리고머 프로브를 이용한 재서열화 마이크로어레이 프로브 세트의 거대 수집물의 실험은 단지 16의 연속적인 상보성 염기를 갖는 단길이 단편이 유의한 시간 분획에서 정확한 염기 판별을 이룰 수 있다는 것을 명확하게 검증하였다. 혼성화는 GC 함량 또는 산출된 ΔG에 비의존적이고, 13 염기정도로 짧은 절편은 GC 함량 또는 ΔG가 바람직할 때 호출을 생성하게 된다. 이러한 실험으로 개발된 혼성화 패턴을 예측하기 위한 단순 모델은 단지 13 인접 염기의 일치가 특이적 결합을 위해 완벽하게 필요한 것으로 가정했을 경우 관찰된 실험 결과와 우수하게 일치하였다. 결합 단편의 ΔG의 예측 크기가 최소 크기 요구사항을 충족하는 것을 요구하여서도 보다 양호한 일치도에 도달하였다. 재서열화 마이크로어레이에 대한 관련성은 프로브와 25 이하의 완벽한 염기 일치를 갖는 단편에 대해 최종 뉴클레오티드 염기 호출과 함께, 상당한 양의 특이적 혼성화가 일어난다는 것이다. 프라이머의 시험은 고도로 다중복합적인 시스템에서 프로토타입 서열과 함께 프라이머의 모든 가능한 교차 혼성화를 제거하는 것의 어려움을 증명하였다. 그러나, 마이크로어레이 상의 프로브-표적 혼성화를 예측할 수 있기 때문에, 결과를 분석시 교차 혼성화 효과를 설명하는 것이 수월하고 물리적으로 제거할 필요가 없다.상기 모델은 이를 개발시키는 용도에 대해 특히, 타당하게 잘 수행되고 복합 혼합물에서 왜 이러한 검출 방법이 작동하는지에 대한 통찰력을 제공한다. 예컨대 Affymetrix Mapping Array 및 Genotyping Array 등의, 프로브 세트를 선택하기 위해 상이한 기준으로 완벽한 일치-불일치 프로브 세트를 이용하는 다른 마이크로어레이의 거동을 예측하기 위해 적용가능해야 한다.

인플루엔자 B 샘플을 고려하는 경우, 프로브에 가능하게 결합할 수 있는 일부 단편은 혼성화에 13 연속적인 상보성 염기를 요구하는 경우에 놓칠 수 있다는 것은 분명하다. 또한 입증 결과는 충분하게 강한 결합 에너지를 가지고 하나의 불일치를 포함하는 단편은 염기 호출을 일으킬 수 있다는 것을 시사한다. 불행하게도, 현재 이용가능한 소수의 인플루엔자 B 샘플은 불일치를 함유하는 경우 어떠한 에너지를 단편이 가져야만 하는지 확립하기 위해 시도하는 것을 비현실적으로 만든다. 상기 모델의 다른 결점은 SNP와 밀접하게 관련되지 않은 N 호출을 예측하는 것을 실패한는 경우와 관련있다. 실험적인 마이크로어레이 결과는 샘플 당 단지 하나의 마이크로어레이 결과를 제공한다. 따라서, 분산된 N 호출은 많은 인자들이 거동에 영향을 주기 때문에 무작위적이거나 재생가능하게 나타나는지에 대해 확인할 수 없다. 자체 루프 구조의 형성은, 이의 도입이 일치 예측 및 관찰 실험 패턴을 생성하지 않기 때문에 모델에서 우세한 인자로서 제거하였다.

현행 모델은 분석 프로그램, CIBSI V2.0(Malanoski 외 (2006) Automated identification of multiple microorganisms from resequencing DNA microarrays. Nucleic Acids Res., 34, 5300-531 1)을 이용하여 동정하려는 선택된 프로토타입 서열 내 목적 병원체에 대해 충분한 염기 호출이 일어나게되는지 예측하는데 사용할 수 있다. 프로브 서열과 80% 이상 상이한 서열은 충분한 일치한 염기가 인접하여 유의한 양의 염기 호출을 가능하게하고 우리 방법에 의해 유기체 동정을 가져오지 않게되는 경우가 거의 없다는 단순한 경험 법칙을 세울 수 있다. 이는 프로브 서열을 검출할 수 있는 최대수의 기준종에 대한 상한값의 빠른 평가에 유용하다. 어떠한 유기체를 검출할 수 있는가와 프로토 서열의 효율을 보다 정확하게 예측하기 위해 이 범위에 속하는 서열에 대해 개발한 모델을 적용할 수 있다.

모델링 결과는 마이크로어레이 상의 도입물에 대한 프로토타입의 선택을 위해 사용할 수 있다. 전반적인 디자인 과정은 생물 위협 제제 및 지역적(예를 들어, 아프리카) 유기체 특이적 마이크로어레이를 위한 이후의 마이크로어레이 디자인에 제공할 수 있다. 유기체로부터 영역의 동정은 문헌 검색을 단독으로 하거나 그렇지 않을 수 있다. 이는 보다 많은 게놈 표적에 대해 중요한 수단으로 남을 수 있지만 보다 작은 게놈을 갖는 바이러스 유기체에 대해서는 불필요할 수 있다. 임의 디자안에 적용가능할 수 있는 유기체 검출을 위한 방법론은 일련의 단계로서 특징규명할 수 있다. 제1 단계는, 서열 목록이 표적 서열 및 인접 유전자 이웃으로부터의 임의 서열을 포함하도록 하여 기준 서열에 대한 혼성화 영향을 확인할 수 있다. 혼성화의 철저한 예측치는 정렬 과정(BLAST)과 일치하는 염기의 비율로부터 얻을 수 있다. 최소 이용가능한 혼성화 프로그램을 통상적으로 제공하는 비율 이하의 컷오프 기준을 이용하여, 상이한 영역에서 가능하게 혼성화할 수 있는 서열 목록을 제작하는 것이 BLAST 조회로부터 가능하다. 이러한 서열 목록은 표적 서열 및 인접 유전자 이웃으로부터의 임의 서열을 포함하도록 하여 기준 서열에 대한 혼성화 영향을 확인할 수 있다. 제2 단계에서, 각 영역의 분류학적 정보를 이용한 커플링 서열 선택은 목적하는 수준의 판별 결과를 제공할 수 있는지 그리고 목적 표적에 대한 검출을 제한하는지에 대해 평가할 수 있다. 이는 기준 서열을 유용하게 검출할 수 있는 유기체의 가능한 수에 대한 중간 상한치를 제공하게 된다. 제3 단계는, 이후 상기 방법을 이용하여 최고의 후보 영역을 결정하는 것이다. 제4 단계는, 각 균주를 검출할 수 있는 균주 수의 목록을 만들고 기준 균주를 선택하기 위한 기준으로서 사용한다. 제5 단계에서, 대부분의 다른 균주를 검출한 균주를 목록에서 제거하고 제1 기준 균주로서 사용한다. 검출할 수 있는 모든 균주를 또한 목록에서 제거한다. 남아있는 균주중에서, 대부분의 균주를 검출한 균주를 다음 기준 균주로서 선택한다. 단지 표적과의 서열에 대한 제한 비교보다는 일반적인 공식에서, 검출할 필요가 있는 각각의 서열을 가능한 기준 서열로서 시험한다. 가능하게 동정할 수 있는 다른 유기체 서열은 어떠한 서열 서브셋이 혼성화 기회를 갖는지 결정하기 위해 BLAST를 이용한 조회를 통해 얻는다. 이러한 서브셋은 혼성화를 예측하기 위해 보다 상세한 모델을 이용하여 모의 실험한다. 최종 혼성화는 이전에 사용된 보다 단순한 기준보다는 리얼 칩 상에서 혼성화를 분류하기 위해 개발된 검출 알고리즘을 이용해 평가한다. 각각의 가능한 기준 서열에 대해, 각각 검출할 수 있는 표적 및 비표적 서열의 수에 대한 엄밀한 상한치를 확립할 수 있다. 사용된 기준 서열의 선택은 요구되는 판별 수준을 제공하도록 최소 공간을 이용하는 방식으로 진행하게 된다. 프라이머 선택은 서열을 선택한 후에 수행한다.

상기 방법은 다음의 특징을 갖는다. 상기 방법은 기준 서열 선택을 결정하기 위해 공개된 문헌에만 의존하지 않는데 이러한 문헌들은 공개이후로 신규한 유기체 서열의 부가가 갱신되지 않기 때문이다. 디자인 계획안은 제작을 수행하기 전에 선택된 기준 서열의 타당성에 대해 독립적인 점검법을 제공한다. 이전의 칩 디자인의 효율을 기초로 마이크로어레이 디자인간에서만 가능했던 선택된 기준 서열에 대한 개선안일 수 있다. 상기 방법은 사전 검증없이 특정화된 판별 수준을 제공할 수 있는 기준 서열의 보다 작은 세트를 결정할 수 있다. 상기 방법은 표적 유전자 선택에 대한 자동화 과정을 가능하게 하고 칩 디자인에 대한 소요 시간을 단축시킬 수 있다. 본 발명을 기술하였지만, 하기 실시예를 본 발명의 특정 용도를 설명하기 위해 제공한다. 이러한 특정 실시예는 본 출원에서 기술한 본 발명의 범주를 제한하려는 의도가 아니다.

실시예 1

단길이 서열을 이용한 가설예- 이하는 임의 특정한 실제 종에 부합시키고자 하는 의도가 아닌 인공적인, 단길이 서열을 이용하여 개시된 방법을 설명한다. A, B, C, D 및 E 종의 검출을 위한 재서열화 마이크로어레이를 제작하는 것이 바람직하다. 여기서 사용되는 용어 "종"은 상이한 유형 또는 균주의 단일종, 및 이의 조합을 비롯한 분류학적 종을 의미한다. 명목 표적 1(도 5)은 하나 이상의 이들 종의 게놈에서 확인된 것으로 알려졌다. 유사 서열에 대한 조사를 BLAST 등의 데이타베이스를 이용하여 수행해서 표적 목록을 생성하였다. 최소 비율 유사성, 예를 들어 70%를 이용하여 결과를 걸러낼 수 있다. 너무 많은 종으로부터, 예컨대 유전적으로 먼 종으로부터 너무 많은 표적 또는 표적들이 기록되면, 목록의 크기를 줄이도록 비율을 증가시킬 수 있다. 또한, 특이적이고, 목적하지 않은 표적을 제거하기 위해 목록을 수동적으로 검토할 수 있다.

도 5는 표적 10-40의 가설적인 목록을 나타낸 도면이다(기준 수치 범위 예컨대 "10-40"은 10 내지 40의 모든 수치보다는 그 형태의 수치만을 포함함). 표적 목록을 컴퓨터 시스템에 제공하는데, 이 컴퓨터 시스템은 목록을 생성시키는데 사용한 것과 동일한 컴퓨터일 수 있다. 이 실시예에서 기술한 목록 및 모든 후술하는 데이타는 적어도 염기 호출 서열을 어셈블링하기까지 컴퓨터 메모리 또는 매체에 저장한다. 이 실시예에서 후보 프로토타입 서열 목록 100-400은 필요하지 않더라도 표적 목록 10-40과 동일하다.

도 6은 후보 프로토타입 서열 100-400에서 유래하는 프로브의 가설 수집물 111-434을 도시한 도면이다. 프로브의 서브서열 길이는 다른 값을 사용할 수 있지만, 7이도록 선택하였다. 프로브 111-134는 후보 프로토타입 100 등에서 유래된 것이다. 프로브 111은 후보 프로토타입 100의 처음 7 염기이다. 프로브 112-114는 중심 위치에 프로브 111의 단일 뉴클레오티드 다형태이다. 프로브 111-114는 프로브 한 세트를 구성한다. 프로브 121 및 131은 또한 후보 프로토타입 100의 7 염기 서브서열이고, 각각이 오른쪽으로 한 염기가 이동한 것이다. 따라서, 후보 프로토타입 100의 모든 3종의 가능한 7 염기 서브서열이 프로브 수집물에 존재한다. 프로브 122-124 및 132-134는 각각 프로브 121 및 131의 단일 뉴클레오티드 다형태이다.

도 7은 표적 10-40으로부터 유래한 단편 11-46의 가설적인 목록을 도시한 도면이다. 단편 길이는 다른 값을 사용할 수 있지만 4이도록 선택하였다. 따라서 9의 길이를 갖는 표적은 6개의 가능한 단편을 갖는다. 또한 표적으로부터 추가 염기를 더하여 만들어진 일부 단편 및 일부 원형 단편을 함유하는 연장 단편 11'-46'의 목록도 도시하였다. 연장 단편은 단편의 완벽한 상보성 서열을 갖는 각 단편의 결합 자유 에너지를 산출하여 만들었다. 단편에 대한 결합 자유 에너지가 사전 결정한, 고정된 한계치보다 높으면, 단편은 결합 자유 에너지가 한계치 이하가 될때까지 또는 단편이 프로브와 동일할 길이가 될 때까지 한번에 한 뉴클레오티드를 연장한다. 결합 자유 에너지를 산출하는 적절한 방법은 다른 방법을 사용할 수 있지만, 올리고뉴클레오티드 최인접 이웃 모델이다. Affymetrix 재서열화 어레이와 함께 사용하기 위해 적절한 결합 자유 에너지 한계치는 다른 값을 사용할 수 있지만, 약 -14.5 kcal/mol이다(예시적이기 때문에, 이 실시예에 대해 실제 산출을 수행하지 않았음).

도 8은 프로브와 연장 단편간의 모든 완벽한 일치를 보여준다. 111, 131, 211, 221, 231, 321, 411 및 421로 출발한 프로브 세트는 임의 연장 단편과 일치하는 하나의 프로브만을 함유한다. 염기 호출 서열을 어셈블링하는 경우, 이들 세트는 세트의 제1(비다형) 프로브의 중심 염기와 동일한 염기 호출을 생성한다. 121, 311, 331 및 431을 이용해 출발한 프로브 세트는 임의 연장 단편과 일치하는 하나 이상의 프로브를 함유한다. 비-염기 호출("N")을 이들 프로브 세트에 대해 지정하였다. 일치하는 것이 없는 임의 프로브 세트가 존재하면, 이를 또한 비-염기 호출로 지정하였다. 각 후보 프로토타입 서열에 대한 염기 호출 서열 및 이들이 유래된 프로브 세트를 도 9에 도시하였다.

도 10은 각 후보 프로토타입에 대해 일치하는 유기체의 목록을 도시한 도면이다. 검토한 유기체는 상응하는 후보 프로토타입을 함유한다. 이는 외부 데이타베이스에 대한 기준물을 통해 결정할 수 있다. 염기 호출의 최소 수치는 보다 큰 수치, 예컨대 50을 사용할 수 있지만, 2로 선택하였다. 이와 같이, 염기 호출 서열(NGN)이 단지 하나의 염기 호출을 포함하기 때문에, 후보 프로토타입 300에 대해 어떠한 일치하는 유기체 목록도 만들 필요가 없다. 이는 대부분의 유기체가 일치하더라도 그러한 경우이다. 후보 프로토타입 400은 대부분의 유기체(A, B 및 E)에 일치한다. 이는 최종 프로토타입 목록에 첨가하고 후보 프로토타입 목록에서 제거하였다. A, B 및 E는 유기체 목록에서 제거하였다. 이 시점에서, 후보 프로토타입 100은 단지 하나의 (C)가 일치하였다. 후보 프로토타입 100을 최종 프로토타입 목록에 첨가하고 후보 프로토타입 목록에서 제거하였다. C 및 D는 유기체 목록에서 제거하였다. 유기체 목록이 현재 비어있기 때문에, 더이상의 프로토타입을 최종 프로토타입으로 이동시키지 않는다.

재서열화 마이크로어레이는 각각의 최종 프로토타입 서열에 상응하는 프로브의 각 세트를 포함시켜 제작할 수 있다. 여기서 마이크로어레이는 프로브 111, 112, 113, 114, 121, 122, 123, 124, 131, 132, 133, 134, 411, 412, 413, 414, 421, 422, 423, 424, 431, 432, 433 및 434를 포함한다. 이러한 프로브 세트는 모든 표적을 검출하지 않더라고 각 유기체를 검출하게 된다. 이 마이크로어레이는 또한 이들 프로브 각각에 상보적인 서열을 포함할 수 있다.

이 실시예는 단일 명목 표적을 기초로 한 것이지만, 하나 이상의 명목 표적을 사용할 수도 있다. 표적 서열은 유기체의 서브세트에 공통적인 단일 유전자에 상응할 수 있고, 유기체 목록은 다수의 단일 종의 균주를 포함할 수 있다. 얻어진 최종 프로토타입 목록이 모든 유기체를 검출할 수 없지만, 이의 방법 또는 일부는 다양한 매개변호, 예컨대 표적, 후보 프로토타입, 프로브 길이, 단편 길이 및 염기 호출의 최소 수 등을 이용하여 반복할 수 있다.

실시예 2

엔테로바이러스 및 아데노바이러스- 이 방법은 유기체 목록으로서 엔테로바이러스 및 아데노바이러스를 이용하여 수행하였다. 최종 프로토타입 서열은 서열 번호 14-51과 동일하다. 이 프로토타입으로부터 생성한 프로브 세트를 포함하는 재서열화 마이크로어레이는 RPMv.3으로 명명하였다.

분명하게, 본 발명의 다양한 변형 및 변화가 상기 교시한 바에서 가능하다. 따라서, 청구한 본 발명은 특별하게 기술한 것 이외에도 실시할 수 있다는 것을 이해할 것이다. 예를 들어, 단수 관사를 이용하여 성분들을 청구한 것은 이 성분을 단수로 제한하려는 것이 아니다.

SEQUENCE LISTING <110> Malanoski, Anthony P Lin, Baochuan Stenger, David A Joel, Schnur M Wang, Zheng <120> DESIGN AND SELECTION OF GENETIC TARGETS FOR SEQUENCE RESOLVED ORGANISM DETECTION AND IDENTIFICATION <130> 98325-US2 <150> 60/823,101 <151> 2006-08-22 <150> 60/823,510 <151> 2006-08-25 <150> 11/177,646 <151> 2005-07-02 <150> 11/177,647 <151> 2005-07-02 <160> 51 <170> PatentIn version 3.4 <210> 1 <211> 101 <212> DNA <213> Artificial <220> <223> Constructed from Human adenovirus type 4 AF542122 with modifications. Final section (actcgccct cacttttaaa c) is artificial <400> 1 ctacacgctg gccgtgggcg acaaccgtgt gctggacatg gccagcacct attttgacat 60 ccgcggcgtg ctggaccggg gactcgccct cacttttaaa c 101 <210> 2 <211> 101 <212> DNA <213> Artificial <220> <223> Constructed from Human adenovirus type 5 AF542130.1 with modifications. Final section (actcggcct cacttttaag c) is artificial <400> 2 gttcacccta gctgtgggtg ataaccgtgt gctggacatg gcttccacgt cctttgacat 60 ccgcggcgtg ctggacaggg gactcggcct cacttttaag c 101 <210> 3 <211> 101 <212> DNA <213> Artificial <220> <223> Constructed by model <220> <221> misc_feature <222> (1)..(101) <223> n is a, t, c, or g <400> 3 nnnnnnnnnn nnnnnnnnnn ntaaccgtgt gctggacatg gctnnnnnnn nctttgacat 60 ccgcggcgtg ctggacannn nnnnnngnnn nnnnnnnnng n 101 <210> 4 <211> 101 <212> DNA <213> Artificial <220> <223> Constructed by model <220> <221> misc_feature <222> (1)..(101) <223> n is a, t, c, or g <400> 4 nnnnnnnnnn nnnnnnnnnn ntnaccgtgt gctggacatg gnnnnnnnnn nnnttgacat 60 ccgcggcgtg ctgganannn nnnnnngnnn nnnnnnnnng n 101 <210> 5 <211> 101 <212> DNA <213> Artificial <220> <223> Constructed by model <220> <221> misc_feature <222> (1)..(101) <223> n is a, t, c, or g <400> 5 nnnnnnnnnn nnnnnnnnnn ntnnccgtgt gctggacatg nnnnnnnnnn nnnntgacat 60 ccgcggcgtg ctggnnannn nnnnnngnnn nnnnnnnnnn n 101 <210> 6 <211> 101 <212> DNA <213> Artificial <220> <223> Constructed by model <220> <221> misc_feature <222> (1)..(101) <223> n is a, t, c, or g <400> 6 nnnnnnnnnn nnnnnnnnnn nnnnnngtgt gctggacann nnnnnnnnnn nnnnnnacat 60 ccgcggcgtg ctnnnnannn nnnnnngnnn nnnnnnnnnn n 101 <210> 7 <211> 101 <212> DNA <213> Artificial <220> <223> Constructed by model <220> <221> misc_feature <222> (1)..(101) <223> n is a, t, c, or g <400> 7 nnnnnnnnnn nnnnnnnnnn nnnnnnnngt gctggannnn nnnnnnnnnn nnnnnnnnat 60 ccgcggcgtg nnnnnnannn nnnnnngnnn nnnnnnnnnn n 101 <210> 8 <211> 101 <212> DNA <213> Artificial <220> <223> Constructed by model <220> <221> misc_feature <222> (1)..(101) <223> n is a, t, c, or g <400> 8 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60 ccgcggcgnn nnnnnnannn nnnnnngnnn nnnnnnnnnn n 101 <210> 9 <211> 101 <212> DNA <213> Artificial <220> <223> Constructed by model <220> <221> misc_feature <222> (1)..(101) <223> n is a, t, c, or g <400> 9 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60 nngcggnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn n 101 <210> 10 <211> 112 <212> DNA <213> Artificial <220> <223> Readout from chip <220> <221> misc_feature <222> (1)..(112) <223> n is a, t, c, or g <400> 10 accnnnnnnn nntngnnntg ntgntgnttn catggtgcaa aantctgggn nnacaggnnc 60 annnnnnnnn nnnnnnggna tttnnnngnc tnananantg tggtgcgnan gt 112 <210> 11 <211> 112 <212> DNA <213> Artificial <220> <223> Constructed by model <220> <221> misc_feature <222> (1)..(112) <223> n is a, t, c, or g <400> 11 nnnnnnnnnt nntnnaattg ttgttgatta catggtgcaa aantctggga aaacaggaac 60 aannnnnnnn caaagaggta tnnnannnnn nnnnnnannn nnnnnnnnaa gt 112 <210> 12 <211> 112 <212> DNA <213> Influenza B virus (B/Parma/4/04) <400> 12 accacaaagt ggtagaattg ttgttgatta catggtgcaa aaatctggga aaacaggaac 60 aattacttat caaagaggta ttttattgcc tcaaaaagtg tggtgcgcaa gt 112 <210> 13 <211> 112 <212> DNA <213> Influenza B virus (B/Canberra/5/97) <400> 13 accacaaagc ggcagaattg ttgttgatta catggtgcaa aaacctggga aaacaggaac 60 aattgtctat caaagaggta ttttgttgcc tcaaaaggtg tggtgcgcga gt 112 <210> 14 <211> 500 <212> DNA <213> Adenovirus 7 <400> 14 ttcctgccac aggagattat ctccagtgag accgggatcg aaatactgga gtttgtggta 60 aataccctaa tgggagacga cccggaaccg ccagtgcagc ctttcgatcc acctacgctg 120 cacgatctgt atgatttaga ggtagacggg cctgaggatc ccaatgagga agctgtgaat 180 gggtttttta ctgattctat gctgctagct gccgatgaag gattggacat aaaccctcct 240 cctgagaccc ttgttacccc aggggtggtt gtggaaagcg gcagaggtgg gaaaaaattg 300 cctgatctgg gagcagctga aatggacttg cgttgttatg aagagggttt tcctccgagt 360 gatgatgaag atggggaaac tgagcagtcc atccataccg cagtgaatga gggagtaaaa 420 gctgccagcg atgtttttaa gttggactgt ccggagctgc ctggacatgg ctgtaagtct 480 tgtgaatttc acaggaataa 500 <210> 15 <211> 700 <212> DNA <213> Adenovirus 7 <400> 15 ccagcacatt ctttgacatt aggggggtgc ttgatagagg tcctagcttc aagccatatt 60 ccggcacagc ttacaattca ctggctccta agggcgcgcc taacacatct cagtggatag 120 ttacaacggg agaagacaat gccaccacat acacatttgg cattgcttcc acgaagggag 180 acaatattac taaggaaggt ttagaaattg ggaaagacat tactgcagac aacaagccca 240 tttatgccga taaaacatat cagccagagc ctcaagttgg agaagaatca tggactgata 300 ttgatggaac aaatgaaaaa tttggaggta gagctcttaa accagctact aaaatgaagc 360 catgctacgg gtcttttgca agacctacaa acataaaagg gggccaagct aaaaacagaa 420 aagtaacacc aaccgaagga gatgttgaag ctgaggagcc agatattgat atggaatttt 480 tcgatggtag agaagctgct gacgcttttt cgcctgaaat tgtgctttac acggaaaatg 540 tcaatttgga aactccagac agccatgtgg tatacaagcc aggaacttct gatggtaact 600 ctcatgcaaa tttgggtcaa caagccatgc ctaacagacc caattacatt ggcttcaggg 660 ataactttgt aggtcttatg tactacaaca gtactggaaa 700 <210> 16 <211> 500 <212> DNA <213> Adenovirus 7 <400> 16 atggctttac acaaagccca gacggagttc ttactttaaa atgtttaacc ccactaacaa 60 ccacaggcgg gtctctacag ttaaaagtgg gagggggtct tacaatagat gacaccgacg 120 gttttttgaa agaaaacata agtgccacca caccactcgt taagactggt cactctatag 180 gtttgtcgct aggacccgga ttaggaacaa atgaaaacaa actttgtgcc aaattgggag 240 aaggacttac attcaattcc aacaacattt gcattaatga caatattaac accctatgga 300 caggagttaa ccccaccaga gccaactgtc aaataatggc ctccagtgaa tctaatgatt 360 gcaaattaat tctaacacta gttaaaactg gagccctcgt cactgcattt gtttatgtta 420 taggagtatc taacgatttt aatatgctaa ctacacataa aaatataaat ttcactgcag 480 agctgttttt tgattctact 500 <210> 17 <211> 579 <212> DNA <213> Adenovirus 17 <400> 17 atgagacacc tgcgcctcct gcctggaact gtgcccttgg acatggccgc attattgctg 60 gatgactttg tgagtacagt attggaggat gaactgcaac caactccgtt cgagctggga 120 cccacacttc aggacctcta tgatttggag gtagatgccc aggaggacga cccgaacgaa 180 gatgctgtga atttaatatt tccagaatct ctgattcttc aggctgacat agccagcgaa 240 gctctaccta ctccacttca tactccaact ctgtcaccca tacctgaatt ggaagaggag 300 gacgagttag acctccggtg ttatgaggaa ggttttcctc ccagcgattc agaggacgaa 360 cagggtgagc agagcatggc tctaatctca gactatgctt gtgtggttgt ggaagagcat 420 tttgtgttgg acaatcctga ggtgcccggg caaggctgta aatcctgcca gtaccaccgg 480 gataagaccg gagacacgaa cgcctcctgt gctctgtgtt acatgaaaaa gaacttcagc 540 tttatttaca gtaagtggag tgaatgtgag agaggctga 579 <210> 18 <211> 692 <212> DNA <213> Adenovirus 17 <400> 18 cttcagcctg ggcaacaagt ttaggaaccc cacggtggcc ccgacccacg atgtgaccac 60 ggaccggtcc cagcgtctga cgctgcgctt tgtgcccgtg gatcgcgagg acaccagtac 120 tcgtacaagg cgcgcttcac tctggccgtg ggcgacaacc gggtgctaga catggccagc 180 acgtactttg acatccgcgg cgtcctggac cgcggtccca gtttcaaacc ctactcgggc 240 acggcttaca acagccttgc ccccaagggc gctcccaatc ccagtcagtg ggttgccaaa 300 gaaaatggtc agggaactga taagacacat acttatggct cagctgccat gggaggaagc 360 aacatcacca ttgaaggttt agtaattgga actgatgaaa aagctgagga tggcaaaaaa 420 gatatttttg caaataaact ttatcagcca gaacctcaag taggtgaaga aaactggcaa 480 gagtctgaag ccttctatgg aggcagagct cttaagaaag acacaaaaat gaagccctgc 540 tatggctcat ttgcaagacc taccaatgaa aaaggcggac aagctaaatt taagccagtg 600 gaagaggggc agcaacctaa agattatgac atagatttgg ctttctttga cacacctgga 660 ggcaccatca caggaggcac agacgaagaa ta 692 <210> 19 <211> 529 <212> DNA <213> Adenovirus 17 <400> 19 tcctgtcact caaactggct gacccaatca ccatagccaa tggtgatgtc tcactcaagg 60 tgggaggggg acttactttg caagaaggaa gtatgactgt agaccctaag gctcccttgc 120 aacttgcaaa caataaaaaa cttgagcttg tttatgttga tccatttgag gttagtgcca 180 ataaacttag tttaaaagta ggacatggat taaaaatatt agatgacaaa agtgctggag 240 ggttgaaaga tttaattggc aaacttgtgg ttttaacagg gaaaggaata ggcactgaaa 300 atttgcaaaa tacagatggt agcagcagag gaattggtat aagtgtaaga gcaagagaag 360 ggttaacatt tgacaatgat ggatacttgg tagcatggaa cccaaagtat gacacgcgca 420 cactttggac aacaccagac acatctccta attgcaggat tgataaggag aaggattcaa 480 aactcacttt ggtacttaca aagtgtggaa gtcaaatatt agctaatgt 529 <210> 20 <211> 609 <212> DNA <213> Adenovirus 2 <400> 20 gatttagacg tgacggcccc cgaagatccc aacgaggagg cggtttcgca gatttttccc 60 gagtctgtaa tgttggcggt gcaggaaggg attgacttat tcacttttcc gccggcgccc 120 ggttctccgg agccgcctca cctttcccgg cagcccgagc agccggagca gagagccttg 180 ggtccggttt ctatgccaaa ccttgtgccg gaggtgatcg atcttacctg ccacgaggct 240 ggctttccac ccagtgacga cgaggatgaa gagggtgagg agtttgtgtt agattatgtg 300 gagcaccccg ggcacggttg caggtcttgt cattatcacc ggaggaatac gggggaccca 360 gatattatgt gttcgctttg ctatatgagg acctgtggca tgtttgtcta cagtaagtga 420 aaattatggg cagtcggtga tagagtggtg ggtttggtgt ggtaattttt ttttaatttt 480 tacagttttg tggtttaaag aattttgtat tgtgattttt taaaaggtcc tgtgtctgaa 540 cctgagcctg agcccgagcc agaaccggag cctgcaagac ctacccggcg tcctaaattg 600 gtgcctgct 609 <210> 21 <211> 700 <212> DNA <213> Adenovirus 2 <400> 21 agtggtctta catgcacatc tcgggccagg acgcctcgga gtacctgagc cccgggctgg 60 tgcagtttgc ccgcgccacc gagacgtact tcagcctgaa taacaagttt agaaacccca 120 cggtggcacc tacgcacgac gtaaccacag accggtccca gcgtttgacg ctgcggttca 180 tccctgtgga ccgcgaggat accgcgtact cgtacaaagc gcggttcacc ctggctgtgg 240 gtgacaaccg tgtgcttgat atggcttcca cgtactttga catccgcggc gtgctggaca 300 gggggcctac ttttaagccc tactccggca ctgcctacaa cgctctagct cccaagggcg 360 ctcctaactc ctgtgagtgg gaacaaaccg aagatagcgg ccgggcagtt gccgaggatg 420 aagaagagga agatgaagat gaagaagagg aagaagaaga gcaaaacgct cgagatcagg 480 ctactaagaa aacacatgtc tatgcccagg ctcctttgtc tggagaaaca attacaaaaa 540 gcgggctaca aataggatca gacaatgcag aaacacaagc taaacctgta tacgcagatc 600 cttcctatca accagaacct caaattggcg aatctcagtg gaacgaagct gatgctaatg 660 cggcaggagg gagagtgctt aaaaaaacaa ctcccatgaa 700 <210> 22 <211> 500 <212> DNA <213> Adenovirus 2 <400> 22 atagctataa atgcaggaaa gggtctggag tttgatacaa acacatctga gtctccagat 60 atcaacccaa taaaaactaa aattggctct ggcattgatt acaatgaaaa cggtgccatg 120 attactaaac ttggagcggg tttaagcttt gacaactcag gggccattac aataggaaac 180 aaaaatgatg acaaacttac cctgtggaca accccagacc catctcctaa ctgcagaatt 240 cattcagata atgactgcaa atttactttg gttcttacaa aatgtgggag tcaagtacta 300 gctactgtag ctgctttggc tgtatctgga gatctttcat ccatgacagg caccgttgca 360 agtgttagta tattccttag atttgaccaa aacggtgttc taatggagaa ctcctcactt 420 aaaaaacatt actggaactt tagaaatggg aactcaacta atgcaaatcc atacacaaat 480 gcagttggat ttatgcctaa 500 <210> 23 <211> 500 <212> DNA <213> Adenovirus 4 <400> 23 atgaggcacc tgagagacct gcccgatgag aaaattatta tcgcttccgg gagcgagatt 60 ctggaactgg tggtaaatgc tataatgggc gacgaccatc cggaaccccc caccccattt 120 gagacacctt cgctgcacga tttgtatgat ctggaggtgg atgtgcccga ggacgacccc 180 aacgaggagg cggtaaatga tttatttagc gatgccgcgc tgctagctgc cgaggaggct 240 ttaagcccta gacacggcag aggtgataaa aagatcccct ggcttaaagg ggaagagatg 300 gacttgcatt gctatgagga atgcttgccc ccgagcgatg atgagtacga gcaggcgatc 360 cagaacgcag cgagccaggg agtgcaagcc gccagcgaga gctttgcact ggactgccca 420 cctttgcccg gacacggctg taagtcttgt gaatttcatc gtatgaatac tggagataaa 480 gctgtgttat gtgcactttg 500 <210> 24 <211> 722 <212> DNA <213> Adenovirus 4 <400> 24 atggccaccc catcgatgct gccccagtgg gcgtacatgc acatcgccgg acaggacgct 60 tcggagtacc tcagtccggg tctggtgcag ttcgcccgcg ccacagacac ctacttcagt 120 ctggggaaca agtttagaaa ccccacggtg gcgcctaccc acgatgtgac caccgaccgc 180 agccagcggc tgacgctgcg cttcgtgccc gtggaccggg aggacaacac ctactcgtac 240 aaagtgcgct acacgctggc cgtgggcgac aaccgtgtgc tggacatggc cagcacctac 300 tttgacatcc gcggcgtgct ggaccggggc cctagcttta aaccctactc cggcactgcc 360 tacaacagtc tggctcccaa gggagcgccc aatacctgcc agtggaagga tgctaacagc 420 aaaatgcata cctttggggt agctgccatg ccaggtgtta ctgggaaaaa gatagaagct 480 gatgggctgc ctattagaat agattcaact tctggaactg acacagtaat ttatgctgat 540 aaaactttcc aaccagaacc acaagttgga aatgacagtt gggttgacac caatgatgca 600 gaggaaaaat atggaggcag agctctaaag gacactacaa atatgaaacc ctgctatggt 660 tcattcgcca agcctaccaa caaagaaggt gggcaggcta acttaaaaga ttcagaaacc 720 gc 722 <210> 25 <211> 500 <212> DNA <213> Adenovirus 4 <400> 25 acgcaccgac catgcccttc atcaaccctc ccttcgtctc ttcagatgga ttccaagaaa 60 agcccctggg ggtgttgtcc cttaggctgg ccgaccctgt caccaccaag aatggggaaa 120 tcaccctcaa tctgggggag ggggtggacc ttgacgactc gggaaaactc attgcaaaca 180 cagtcaacaa ggccattgcc cctcttagtt tttccaacaa caccatttcc cttaacatgg 240 ataccccttt atacaccaaa gatggaaaac tatccttaca agtttctcca ccattaagta 300 tattaagatc aacaattcta aatacattag ctctagcttt tggctcaggt ttaggactgc 360 gtggcagcgc tctggcagta cagttagcct ctccacttac atttgatgat aaagggaata 420 taaagattac cctaaatagg ggattgcatg ttacaacagg aaatgcaatt gaaagcaaca 480 ttagttgggc taaaggtata 500 <210> 26 <211> 720 <212> DNA <213> Coxsackievirus A8 <400> 26 cagggcccaa tgggcgtcag cactctggta ccgaggtacc tttgtgcgcc tgttttattt 60 ccccttcccc tgatgcaact tagaagctcc gaactaatga tcaatagtag gtgtggcacg 120 ccagccacat cttgatcaag cacttctgtt tacccggacc gagtatcaat aagctgcgca 180 agcggctgaa ggagaaagcg ttcgttatcc ggccaactac ttcgagaagc ttagtaccac 240 catgaacgtt gcagagtgtt tcgttcagca caaccccggt gtagatcagg ccgatgagtc 300 accgcgttcc ccatgggcga ccatggcggt ggctgcgttg gcggcctgcc catggagcaa 360 tccatgggac gctctaatac tgacatggtg cgaagagcct attgagctag ttggtgatcc 420 tccggcccct gaatgcggct aatcctaact gcggagcatg cgcccacaag ccagtgggtg 480 gtgtgtcgta acgggtaact ctgcagcgga accgactact ttgggtgtcc gtgtttcctt 540 ttatctttac attggctgct tatggtgaca attgaagaat tgttaccata tagctattgg 600 attggccatc cggtgtgcaa tagagcgatt atatacctat ttgttggatt tgttccattg 660 acatatagat ctcttaacac tctacaacac atcttgatct tgaacacgag aaaatggggg 720 <210> 27 <211> 500 <212> DNA <213> Coxsackievirus A8 <400> 27 agaagagaga catcttggac ccaacaactc gtgatgttag caagatgaag ttttacatgg 60 acaagtacgg gctagaccta ccatactcta cttatgtcaa agatgaactc agggccatag 120 acaagatcaa gaaagggaag tctcgcctca tagaggcaag tagcctaaat gactcagtat 180 acttgaggat gacatttggg cacctttatg aagctttcca tgctaatcca ggtacaatca 240 ccggttcagc tgtcggatgc aacccagatg tgttctggag caagcttcca attctgctcc 300 cgggatcgct ttttgcattt gactactcag ggtatgatgc tagtctcagt cctgtatggt 360 ttagggcact agaaatagtc ctgcgggaaa ttggctactc agaggaagca gtgtctctta 420 tagaagggat caaccacact caccacgtgt accgcaataa aacctattgt gtactcggag 480 ggatgccctc aggctgctca 500 <210> 28 <211> 720 <212> DNA <213> Coxsackievirus B4 <400> 28 cagggcccaa tgggcgctag cacactggta ttccggtacc tttgtgcgcc tgttttataa 60 ccccccccca gttcgcaact tagaagcaaa gaaacaatgg tcaattactg acgcagcaac 120 ccagctgtgt tttggccaag tacttctgtg tccccggact gagtatcaat aagctgcttg 180 cgcggctgaa ggagaaaccg ttcgttaccc ggccaactac ttcgagaagc ctagtaacgc 240 catgaacgtt gaggagtgtt tcgctcagca cttcccccgt gtagttcagg tcgatgagtc 300 accgcgttcc ccacgggtga ccgtggcggt ggctgcgttg gcggcctgcc tgtggggcaa 360 cccgcaggac gctctgatac agacatggtg tgaagagcct attgagctag ttggtagtcc 420 tccggcccct gaatgcggct aatcctaact gcggagcaca cgttcgcaag ccagcgagtg 480 gtgtgtcgta acgggcaact ctgcagcgga accgagtact ttgggtgtcc gtgtttcctt 540 ttattcttac cttggctgct tatggtgaca attgaaagat tgttaccata tagctattgg 600 attggccatc cagtgtcaaa tagagcaatc atatatctgt ttgttggttt cgttcccttg 660 gactacagaa atcttaaaac tctttatttc atattgagac tcaatacgat aaaatgggag 720 <210> 29 <211> 500 <212> DNA <213> Coxsackievirus B4 <400> 29 ccaaaaagac caaagacctg accaaattga aggaatgtat ggacaagtac ggattaaact 60 tgccgatggt gacatacgtg aaggatgagc ttagatcagc agagaaggtg gccaaaggga 120 aatctagact cattgaagca tccagcttga acgactctgt tgcgatgagg caaacatttg 180 gtaatttgta caaggcattc cacttaaacc cggggattgt aacgggcagt gcagtcgggt 240 gcgatccaga cgttttctgg agtaaaatac ctgtgatgct agacggacac cttatagcct 300 tcgactactc cggttatgac gccagtctga gccccgtgtg gtttgcttgt ctaaagttgc 360 tgcttgaaaa actcgggtac acacataaag agacaaacta cattgactac ttatgcaact 420 cccaccacct atacagagac aaacactact ttgtacgtgg cggtatgccc tcagggtgct 480 ctggtaccag catcttcaac 500 <210> 30 <211> 720 <212> DNA <213> Coxsackievirus B5 <400> 30 cagggcccac tgggcgccag cactctggta tcacggtacc tttgtgcgcc tgttttaaaa 60 ccctctcccc aatttgaaac ttagaagcaa tacacctcga tcaatagtag gcatgacacg 120 ccagccatgt cttgatcaag cacttctgtt tccccggact gagtatcaat aaactgcttg 180 cgcggtcgaa ggagaaaacg tccgttaccc gactaactac ttcgagaaac ccagtaacac 240 catggaaatt gcggagtgtt tcactcagca cattcccagt gtagatcagg tcgatgagtc 300 accgcattcc ccacgggtga ccgtggcggt ggctgcgctg gcggcctgcc catggggcaa 360 cccatgggac gcttcaatat ggacatggtg tgaagagtct attgagctag ttagtagtcc 420 tccggcccct gaatgcggct aatcctaact gcggagcacg tgcctccatt ccagggggtg 480 gcgtgtcgta acgggcaact ctgcagcgga accgactact ttgggtgtcc gtgtttcttt 540 taattttata ctggctgctt atggtgacaa ttgaaagatt gttgccatat agctattgga 600 ttggccatcc ggtatccaac agagcaattg tgtacctttt tgttggattt gtaccactta 660 ccagaacaag ttttcataca ctgtgttaca ttattagact aaacacagaa aaatgggagc 720 <210> 31 <211> 500 <212> DNA <213> Coxsackievirus B5 <400> 31 tctttccaaa aagaccaagg atttaaccaa gttaaaggaa tgcatggata aatatggctt 60 gaacttgcca atggtaactt atgttaaaga cgagctcagg tctgcagaga aggtagcaaa 120 agggaaatcc agattgatag aagcatccag cttgaatgac tccgtggcaa tgagacaaac 180 attcggcaac ctatacaaaa cttttcatct aaatccaggg attgtgactg gcagtgctgt 240 tgggtgtgac ccagacctct tttggagtaa aataccggtg atgttagatg gtcaccttat 300 agcctttgat tactctggat acgatgctag cttgagcccc gtctggtttg cctgcctaaa 360 actattactt gagaaacttg gatactcgca caaggagacc aattatattg attacctgtg 420 caactcccat cacctgtaca gggacaaaca ctattttgtg cggggtggca tgccttcagg 480 atgttctggc acaagtatct 500 <210> 32 <211> 720 <212> DNA <213> Echovirus 4 <400> 32 cagggcccat tgggcgctag caccctggta ttacggtacc tttgtgcgcc tgttttatac 60 ccccatcccc aatcgaaact tagaagcatt acacactgat caataggagg cgcggcacgc 120 cagccatgcc aagatcaagc acttctgtct ccccggaccg agtatcaata gactgcttgc 180 gcggttgaag gagaaaacgt tcgttacccg gccaactact tcgagaaacc tagtaccacc 240 atgaaagttg cggagtgttt cgctcagcac taccccagtg tagatcaggc cgatgagtca 300 ccgcgttccc cacgggtgac cgtggcggtg gctgcgctgg cggcctgcct atggggcaac 360 ccataggacg ctctaataca gacatggtgt gaagagtcta ttgagctagt tggtgatcct 420 ccggcccctg aatgcggcta atcctaactg cggagcacac gctcacaagc cagtgagtgg 480 tgtgtcgtaa tgggtaactc cgcagcggaa ccgactactt tgggtgtccg tgtttccttt 540 taacttcatt ttggctgctt atggtgacaa ttaagaaatt gttaccatat agctattgga 600 ttggccatcc ggtgactagt agagctatta tatacttgtt tgttggcttt gtaccactaa 660 actataaagt ccttagaact cttgatttta tactaatttt gaataaggca aaatgggagc 720 <210> 33 <211> 500 <212> DNA <213> Echovirus 4 <400> 33 aaagaagacc agggacctga ccaagctgaa ggagtgcatg gacaagtatg gcctgaacct 60 gccaatggta acctatgtga aagatgaact cagatccgca gaaaaggtgg cgaagggaaa 120 atctaggctc atcgaggcgt ccagtttgaa tgactccgtg gcaatgagac aaacattcgg 180 caacctatac aaaacttttc atctaaaccc agggattgtg actggcagtg ccgtcgggtg 240 tgatccggat cttttttgga gtaaaatacc agtaatgttg gacggtcatc tcatagcctt 300 tgattattct ggatatgatg ctagcttgag tcccgtatgg tttgcttgtc taaaactact 360 acttgagaaa cttggttact cgcacaaaga gaccaattac attgactacc tgtgcaactc 420 ccatcacctg tacagggata agcattactt tgtgcggggt ggcatgccat caggatgttc 480 tggcacaagc atcttcaatt 500 <210> 34 <211> 720 <212> DNA <213> Echovirus 11 <400> 34 cagggcccac tgggcgctag cacactggta tcacggtacc tttgtgcgcc tgttttatac 60 ccccttcccg caaccgcaaa tttagaagca aagctaaccc gatcgatagc ggatgcgcat 120 gccagccgca ttttgatcaa gtacttctgt ttccccggac cgagtatcaa tagactgctc 180 acgcggttga aggagaaaac gtccgttacc cgaccaacta cttcgagaaa cctagtaaca 240 tcatgaatgt tgcagggcgt ttcgatcagc acgaccctgg tgtagatcag gctgatgagt 300 caccgcattc cccacgggtg accgtggcgg tggctgcgtt ggcggcctgc ctatggggtg 360 acccatagga cgctctaata cggacatggt gcgaagagtc tattgagcta gttggtagtc 420 ctccggcccc tgaatgcggt taatcctaac tgcggacgac atacccctaa tccaaggggc 480 agtgtgtcgt aacgggcaac tctgcagcgg aaccgactac tttgggtgtc cgtgtttcct 540 tttattttta tactggctgc ttatggtgac aatctcagag ttgttaccat atagctattg 600 gattggccat ccggtgagca acagagctgt catttatcag tttgttggct ttatacctct 660 aaatcacacg gttttttttt tttggaacgc ttgtattcat cttaaccctc aataaggcaa 720 <210> 35 <211> 500 <212> DNA <213> Echovirus 11 <400> 35 ctacccttat gttgcactag gcatcaagaa gagagacatc ctttcaagga ggaccaggga 60 tctaaccaag ttgaaggaat gtatggataa atacggtttg aacttaccga tggtgactta 120 tgtgaaagat gaacttaggt ctgcagacaa agtagcaaaa gggaagtcta ggttgattga 180 agcatccagt ttgaatgact ctgtagcaat gagacaaaca tttggcaacc tgtacagaac 240 cttccatcta aacccaggga tcgtgactgg tagcgctgtc gggtgcgacc cggacctctt 300 ttggagtaaa attccagtga tgttggatgg tcacctcata gcctttgact actctggata 360 tgatgctagc ttgagccccg tgtggtttgc ctgcctaaaa ctattacttg agaaattagg 420 ctacacacac aaggaaacaa attacattga ctacctgtgt aattcccacc acctgtacag 480 agacaaacac tactttgagc 500 <210> 36 <211> 720 <212> DNA <213> Echovirus 20 <400> 36 cagggcccat tgggcgctag cactctggta ttacggtacc tttgtgcgcc tgttttatgt 60 cccctccccc aatcgcaact tagaagcaac acacactgat caacagtaag cgtggcatac 120 cagccacgtt ttgatcaagc acttctgtta ccccggactg agtatcaata gactgctcac 180 gcggttgaag gagaaagcgt tcgttatccg gccaactact tcgagaaacc tagtaacacc 240 gtgaaagttg cagagtgttt cgctcagcac taccccagtg tagatcaggt cgatgagtca 300 ccgcattccc cacgggcgac cgtggcggtg gctgcgctgg cggcctgcct acggggaaac 360 ccgtaggacg ctctaataca gacatggtgc gaagagtcta ttgagctagt tggtagtcct 420 ccggcccctg aatgcggcta atcctaactg cggagcacac acccccaagc cagggggcag 480 tgtgtcgtaa cgggtaactc tgcagcggaa ccgactactt tgggtgtccg tgtttcattt 540 tattcctatg ctggctgctt atggtgacaa ttgacagatt gttaccatat agctattgga 600 ttggccatcc ggtgactaat agagccatta tataccactt tgttgggttt ataccactca 660 acttgaaaga ggtcaaaaca ctacagctca tcattaaatt gaacacaaca aaatgggagc 720 <210> 37 <211> 500 <212> DNA <213> Echovirus 20 <400> 37 aaagaagacc aaggacttga ctaagctaaa agagtgtatg gacaagtacg gtctcaacct 60 accaatggtg acttatgtga aagacgaact cagatctgca gagaaggtag caaagggaaa 120 atctaggctg attgaagcat ccagtttgaa tgattcagtg gctatgagac agacatttgg 180 caacctgtac aaagctttcc acctgaaccc agggattgtg actggtagtg cagttgggtg 240 cgacccagac ctcttttgga gcaaaatacc agtgatgttg gatggacatc tcatagcatt 300 tgactattct gggtatgatg ctagcttaag tcctgtctgg tttgcatgtt taaaaatgct 360 acttgagaag cttggataca cacataaaga gacaaactac attgactact tgtgcaactc 420 ccatcacctg tacagggata agcattactt tgtgaggggt ggcatgccct cagggtgttc 480 tggcaccagt atctttaact 500 <210> 38 <211> 720 <212> DNA <213> Echovirus 21 <400> 38 cagggcccac cgggcgctag cacactggta tcgcggtacc tttgtgcgcc tgttttattt 60 accctgccct gatgtaactt agaagcatga caccaacgat caatagcagg ctcaatgcac 120 caattgggtc aagatcaagc acttctgtta ccccggactg agtatcaata agctgctagc 180 gcggctgaag gagaaaaagt tcgttacccg gccagctact tcgagaaacc tagtatcacc 240 atgaaagttg cgtggcgttt cgctccgcac aaccccagtg tagatcaggt cgatgagtca 300 ccgcattccc cacgggcgac cgtggcggtg gctgcgttgg cggcctgccc gtggagcaat 360 ccatgggacg ctataataca gacatggtgt gaagagtcta ttgagctagc tggtagtcct 420 ccggcccctg aatgcggcta atcctaactg cggagcaggt acccacgaac cagtgggcag 480 tctgtcgtaa tgggcaactc cgcagcggaa ccgactactt tgggtgtccg tgtttccttt 540 tatttcaact tggctgctta tggtgacaat tgagagattg ttaccatata gctattggat 600 tggccatccg gtgactaaca gagctatcat ataccttttt attggctttg tgccacttac 660 tctgaaagag gtcaagactc tgcattatat catactattg aatgctataa aatgggagcg 720 <210> 39 <211> 500 <212> DNA <213> Echovirus 21 <400> 39 gctctgggta tcaagaagag agacatcctc tcaaagaaga ccagggacct gactaagctg 60 aaagagtgca tggacaagta cggcctaaac ctaccaatgg taacctacgt gaaagatgaa 120 ctcagatctg cagagaaggt ggcaaaggga aagtccaggc tcattgaggc gtccagtttg 180 aatgactccg tggcaatgag acagacattc ggcaacctat ataaaacctt tcacctaaac 240 ccagggattg tgactggcag cgccgtcggg tgtgacccgg atctcttttg gagtaaaata 300 ccagtgatgt tggacggtca cctcatagcc tttgattatt ctggatatga tgctagcttg 360 agtcccgtat ggtttgcttg tctaaaacta ctacttgaga aacttggtta ttcgcacaaa 420 gagaccaatt acattgatta cctgtgcaac tcccatcact tgtacaggga caagcattat 480 tttgtgcggg gtggcatgcc 500 <210> 40 <211> 720 <212> DNA <213> Echovirus 24 <400> 40 cagggcccac agggcgctag cactctggta tcacggtacc tttgtgcgcc tgttttatta 60 ccccttcccc aattgaaaat tagaagcaat gcacaccgat caacagcagg cgtggcgcac 120 cagtcacgtc tcgatcaagc acttctgttt ccccggaccg agtatcaata gactgctcac 180 gcggttgaag gagaaagtgt tcgttatccg gctaaccact tcgagaaacc cagtaacacc 240 atgaaagttg cagggtgttt cgctcagcac ttccccagtg tagatcaggt cgatgagtca 300 ccgcgttccc cacgggcgac cgtggcggtg gctgcgttgg cggcctgcct atgggttaac 360 ccataggacg ctctaataca gacatggtgc gaagagttta ttgagctggt tagtatccct 420 ccggcccctg aatgcggcta atcctaactg cggagcacgt gcctccaatc cagggggttg 480 catgtcgtaa cgggtaactc tgcagcggaa ccgactactt tgggtgtccg tgtttccttt 540 tattcttata ctggctgctt atggtgacaa tcgaggaatt gttaccatat agctattgga 600 ttggccatcc ggtgtctaac agagcgatta tatacctctt tgttggattt atgcagctca 660 ataccaccaa ctttaacaca ttgaaatata tcttaaagtt aaacacagca aaatgggagc 720 <210> 41 <211> 500 <212> DNA <213> Echovirus 24 <400> 41 ctatgtcgca ctgggtataa agaagagaga catcctctca aagaagacca aggacctgac 60 taagctaaaa gagtgcatgg ataagtatgg tttgaacctg ccgatggtga cttatgtgaa 120 agatgaactc aggtccgcag agaaggtagc aaaaggcaag tctaggctga tcgaagcatc 180 cagtttgaat gattcagtgg caatgagaca gacatttggt aatctgtaca agaccttcca 240 cctgaaccca gggattgtga ctggtagtgc agttgggtgt gacccagaca tcttttggag 300 taaaataccg gtgatgttgg atggacatct catagctttt gattactctg ggtatgatgc 360 tagcttaagt cctgtctggt ttgcttgctt aaaaatgcta cttgagaagc ttggatatac 420 acacaaagag acaaactata ttgattactt gtgcaactcc catcacctgt acagagacaa 480 gcattacttt gtgaggggtg 500 <210> 42 <211> 720 <212> DNA <213> Echovirus 25 <400> 42 cagggcccac tgggcgctag cactctggta ctacggtacc tttgtgtgcc tgttttatac 60 ccctccccct actgaaactt agaagcaatt cataccgatc aatagtgggc gtggcacacc 120 agccgtgtct agatcaagca ctcctgtttc cccggaccga gtatcaatag actgctcacg 180 cggttgaagg agaaaacgtt cgttatccgg ctaactactt cgaaaaacct agtaacacca 240 tgaaagttgc ggagtgtttc actcagcact tccccagtgt agatcaggtc gatgagtcac 300 cgcattcctc acgggcgacc gtggcggtgg ctgcgctggc ggcctgccta tggggtgacc 360 cataggacgc tctaatacag acatggtgcg aagagtctat tgagctagtt agtagtcctc 420 cggcccctga atgcggataa tcctaactgt ggagcagata cccacgaacc agtgggcagt 480 ctgtcgtaac gggcaactcc gcagcggaac cgactacttt gggtgtccgt gtttcctttt 540 attccaaatc tggctgctta tggtgacaat tgagagattg ttgccatata gctattggat 600 tggccatccg gtgaataata gagcgataat atatttgttt gttggattcg tgccacttag 660 tctgaaagtt ttgagaacac tcaactacgt tttattgctg aatagtgcaa gatgggagct 720 <210> 43 <211> 500 <212> DNA <213> Echovirus 25 <400> 43 gcgctaggca tcaagaagag agacatccta tccaagaaga ctaaagattt gaccaaactt 60 aaagaatgta tggataagta tggcttgaat ctgccaatgg taacctatgt gaaagatgag 120 ctcaggtcag ttgaaaaagt ggcgaaggga aagtccagac taattgaagc atctagtttg 180 aatgactccg tggcgatgag gcaaacattt ggcaacttgt acaaaacctt ccacttaaac 240 ccggggattg tgacaggcag tgcagttgga tgcgacccag acctcttttg gagcaaaata 300 cccgtgatgc tagatggaca cctcatagct tttgactact ccggctacga tgccagtttg 360 agccctgtat ggtttgcttg tctgaagctg ctgctcgaga agctcgggta cacacacaag 420 gagacaaact acattgacta cctatgcaat tcccaccacc tgtatagaga taaacactac 480 ttcgtacgcg gtggtatgcc 500 <210> 44 <211> 720 <212> DNA <213> Coxsackievirus A18 <400> 44 agaggcccac gtggcggcca gtactccggt attgcggtac ccttgtacgc ctgttttaca 60 ctcccttccc cgtaacttag acgcaataaa ccaagttcac taggaggggt gcaaaccagc 120 accaccacga acaagcactt ctgtttcccc ggtgacattg tatagactgt atccacggtt 180 gaaaacgatt gatccgttat ccgctcttgt acttcgagaa gcctagtatc atcttggaat 240 cttcgacgcg ttgcgctcag cattcaaccc cagaatgtag cttaggtcga tgagtctgga 300 cattcctcac cggtgacggt ggtccaggct gcgttggcgg cctacctgtg acccaaagtc 360 acaggacgct agttgtgaac aaggtgtgaa gagcctattg agctacaaga gagtcctccg 420 gcccctgaat gcggctaatc ctaaccacgg agcaagtgct cacgaaccag tgagtggctt 480 gtcgtaacga gcaattctgt ggcggaaccg actactttgg gtgtccgtgt ttccttttta 540 actttaaatg gctgcttatg gtgacaatca ttgattgtta tcataagccg aattggattg 600 gccatccggt gaaaatcaag ttgatcattt atttgtttgt tggattcact ccattaactc 660 atttttcaat tgacctaata cgtattgtat tattagttag aaacatacat cacaatgggt 720 <210> 45 <211> 500 <212> DNA <213> Coxsackievirus A18 <400> 45 gccatgtatg gcactgatgg tcttgaggca ttggacctca gtactagtgc agggtaccca 60 tatgttgcta tgggaaaaaa gaaaagggat atcctcaaca aacaaaccag agataccaag 120 gagatgcaaa ggctactaga tacttatggc ataaacttac cattggtcac atatgtgaag 180 gatgagctca gatcaaaaac aaaagtagaa caaggcaaat ccaggttgat tgaagcctca 240 agtctcaatg attcagttgc catgagaatg gcatttggta atctgtatgc agcttttcat 300 aaaaacccag gagtagtcac aggctcggca gttggttgtg acccagattt gttttggagc 360 aagataccag tgttaatgga ggarrractc tttgctttcg actatacagg atatgatgct 420 tcactcagtc ctgcttggtt tgaggctctc aaaatggttc ttgagaaaat tggatttgga 480 gatagggtag attacattga 500 <210> 46 <211> 720 <212> DNA <213> Coxsackievirus A22 <400> 46 gaggcccacg tggcggccag tactctggta ttacggtacc tttgtacgcc tgttttatat 60 cccctcccct gagtaacttt agaagcaatt caaaaggttc aatagagggg gtacaatcca 120 gtaccaccat gaacaagcac ttctgtttcc ccggtgaggc tacataaact gtacccacgg 180 ttgaaagtgg ctaatccgtt atccgctcaa gtacttcgag aagcctagta ataccttgga 240 atcttcgacg cgttgcgctc agcactctaa cccgggtgta gcttaggtcg atgagtctgg 300 gcatacccca ccggtgacgg tggcccaggc tgcgttggcg gcctacccat ggctaacgcc 360 atgggacgct agttgtgaac aaggtgtgaa gagcctattg agctacttga gagtcctccg 420 gcccctgaat gcggctaatc ctaaccacgg agcaagtgct ctcaaaccag agagtggctt 480 gtcgtaacgc gtaagtctgt ggcggaaccg actactttgg gtgtccgtgt ttccttttat 540 ttttatcatg gctgcttatg gtgacaatct aagattgtta tcatatagct tttggattgg 600 ccatccggtt gttgtttaga gcgtttcatc tgtgctttgt ttgtttgacc agatcaatat 660 aaacactaca tcctatttgt tcataatggg agctcaagtt tctactcaga aatctgggtc 720 <210> 47 <211> 500 <212> DNA <213> Coxsackievirus A22 <400> 47 ttatccttat gtagctatag ggaaaaagaa aagggatatt ctcaataaac aaacaagaga 60 caccaaagaa atgcagaaaa tgctagacaa atatgggata aacctaccat tggtaaccta 120 tgttaaggat gaacttagat cgaaaacaaa ggtagaacaa ggcaaatcta ggttgattga 180 agcaagttcc ctaaatgatt cagtcgccat gaggcaggct tttggtcact tgtatgctaa 240 gttccaccaa aacccaggaa taataacagg ttcagcagta ggatgtgacc cagatgtgtt 300 ttggagcaaa gtaccagtga tgttggatgg agaactcttt gcttttgact acacaggcta 360 tgatgcttca ctctccccag cctggtttga ggccttgaaa atggtgcttg agaaaattgg 420 atttggtgac agagttgatt ttatagacta cttaaaccac tcacaccact tatacaggaa 480 taaattatat tgtgtcaagg 500 <210> 48 <211> 720 <212> DNA <213> Echovirus 70 <400> 48 agaggcccac gtggcggcta gtactccggt accccggtac ccttgtacgc ctgttttata 60 ctccctttcc caagtaactt tagaagaaat aaactaatgt tcaacaggag ggggtacaaa 120 ccagtaccac cacgaacaca cacttctgtt tccccggtga agttgcatag actgtaccca 180 cggttgaaag cgatgaatcc gttacccgct taggtacttc gagaagccta gtatcatctt 240 ggaatcttcg atgcgttgcg atcagcactc taccccgagt gtagcttggg tcgatgagtc 300 tggacacccc acaccggcga cgtggtccag gctgcgttgg cggcctaccc atggctagca 360 ccatgggacg ctagttgtga acaaggtgcg aagagcctat tgagctacct gagagtcctc 420 cggcccctga atgcggctaa tcccaaccac ggagcaaatg ctcacaatcc agtgagtggt 480 ttgtcgtaat gcgcaagtct gtggcggaac cgactacttt gggtgtccgt gtttcctttt 540 atttttatta tggctgctta tggtgacaat ctgagattgt tatcatatag ctattggatt 600 agccatccgg tgatatcttg aaattttgcc ataacttttt cacaaatcct acaacattac 660 actacacttt ctcttgaata attgagacaa ctcataatgg gagcacaagt ttctagacaa 720 <210> 49 <211> 500 <212> DNA <213> Echovirus 70 <400> 49 aagaaaagag acatcttcaa cagacaaact agagatacaa cagagatgac caaaatgttg 60 gacaaatatg gtgtggattt gccctttgtc acatttgtca aagatgaact cagaagcaga 120 gagaaagtag agaagggcaa gtctagattg attgaagcta gttctttaaa tgattcagtt 180 gccatgcgag tggcatttgg aaacctttat gcaacattcc acaaaaatcc aggagtcgcc 240 actgggagcg ctgttggatg tgatccagat ttgttttggt ccaaaatccc agttatstta 300 gatggaaaaa tttttgcatt tgactacaca ggttatgatg ccagtctctc accagtctgg 360 tttgcatgcc taaagaaaac tctggtaaaa ttaggttata ctcatcaaac agcatttgtt 420 gattacttgt gtcactcggt tcacttgtac aaagacagaa aatacatagt gaacggtgga 480 atgccatcag gctcatctgg 500 <210> 50 <211> 720 <212> DNA <213> Echovirus 68 <400> 50 agggcccacg tggcggctag tactctggta tctcggtacc tttgtacgcc tgttttaatt 60 ccctccccaa cgtaacttag aagcttttaa accaaagctc aataggtgga gcgcaaacca 120 gcgctcttat gagcaagcac ttctgtctcc ccggtgtggt tgtatagact gtccccacgg 180 ttgaaaacaa cttatccgtt aaccgctata gtacttcgag aaacctagta ttgccttcgg 240 agtgttgatg cgttgcgctc agcacactaa cccgtgtgta gcttgggtcg atgagtctgg 300 acgtacccca ctggcgacag tggtccaggc tgcgttggcg gcctactcat ggtgaaaacc 360 atgagacgct agacatgaac aaggtgtgaa gagtctattg agctgctata gagtcctccg 420 gcccctgaat gcggctaatc ctaaccatgg agcaagtgct cacaaaccag tgagttactt 480 gtcgtaacgc gcaagtccgt ggcggaaccg actactttgg gtgtccgtgt ttcacttttt 540 acttttatga ctgctaatgg tgacaattta atattgttac catttggctt gtcgaattga 600 tcacataaga tctatagttt tgttcactga tttgctttga aataatctca cctcaaaacc 660 tccagtacat aacatttaaa gagtttaaac ttatttataa caatgggagc tcaagttact 720 <210> 51 <211> 500 <212> DNA <213> Echovirus 68 <400> 51 atattcaaca gacaaaccag agatactagt gagatgacaa agatgttgga aaaatacgga 60 gttgacctac ctttcgtgac tttcgtgaaa gacgagctta gatcaagaga gaaagtcgaa 120 aaggggaagt cacgcctgat tgaagccagt tccttgaacg actcagttgc catgagggtt 180 gcctttggaa atctctacgc tacatttcat aacaatccag gcacagcaac tggtagtgca 240 gttggttgtg atccagatat attctggtca aaaatcccta ttttgttaga tggagagatt 300 tttgcttttg attacactgg ttatgacgct agtttatcac cagtgtggtt tgcctgtttg 360 aaaaaggttc tgattaaatt aggttacacc caccaaacat cttttataga ttatctatgc 420 cactcagtgc atttgtacaa ggatagaaaa tatgtaatta atggtggaat gccctctggt 480 tcttcaggta ctagtatatt 500

Claims

재서열화 마이크로어레이를 위한 프로브를 선택하는 방법으로서,

유기체 목록의 하나 이상의 유기체와 관련된 표적 서열의 목록을 제공하는 단계;

하나 이상의 표적 서열에 혼성화하는 것으로 의심되는 후보 프로토타입 서열의 목록을 제공하는 단계;

각 후보 프로토타입 서열에 상응하는 프로브의 수집물을 생성하는 단계로서,

프로브의 각 수집물은 상응하는 후보 프로토타입 서열의 사전결정되고, 고정된 서브서열 길이를 갖는 모든 서브서열에 대한 프로브 세트를 포함하고, 이 세트는 상응하는 서브서열 및 상응하는 서브서열의 중심 뉴클레오티드를 변이시켜 형성된 상응하는 서브서열의 모든 변이로 이루어진 것인 단계;

각 표적 서열에 상응하는 단편의 세트를 생성하는 단계로서, 각 단편의 세트는 상응하는 표적 서열의 사전결정되고, 고정된 단편 길이를 갖는 모든 단편을 포함하는 것인 단계;

단편의 완벽한 상보성 서열과 각 단편의 결합 자유 에너지를 산출하고, 결합 자유 에너지가 사전결정된, 고정 한계치를 넘으면, 단편은 결합 자유 에너지가 한계치 이하가 되거나 단편이 프로브와 동일한 길이가 될때까지 한번에 하나의 뉴클레오티드를 연장시켜 연장된 단편 세트를 생성하는 단계; 및

어떤 연장된 단편이 하나 이상의 프로브에 완벽하게 일치하는지 확인하는 단계;

하나 이상의 연장된 단편에 완벽하게 일치하지만, 완벽하게 일치하는 프로브를 함유하는 프로브 세트의 다른 성분은 하나 이상의 연장된 단편에 완벽하게 일치하지 않는 것인 상응하는 프로토타입 서열의 각 프로브의 중심 뉴클레오티드에 상응하는 염기 호출(call), 및 다른 모든 상황의 비 염기 호출을 포함하는 각 후보 프로토타입 서열에 상응하는 염기 호출 서열을 어셈블링하는 단계;

후보 프로토타입 서열을 함유하는 일치하는 유기체의 목록을 각각의 후보 프로토타입 서열에 대해 생성하는 단계로서, 후보 프로토타입 서열에 상응하는 염기 호출 서열이 고정된 최소 수치의 염기 호출을 포함하는 것인 단계;

일치하는 유기체의 최장 목록에 상응하는 후보 프로토타입 서열을 최종 프로토타입 서열의 목록으로 이동시키는 단계;

이동시킨 프로토타입 서열에 상응하는 일치하는 유기체를 유기체의 목록으로부터 제거하는 단계;

유기체의 목록이 비워질 때까지 이동 및 제거를 반복하는 단계; 및

각 최종 프로토타입 서열에 상응하는 프로브의 각 세트를 재서열화 마이크로어레이를 위하여 선택된 프로브의 목록에 위치시키는 단계

를 포함하는 방법.
삭제
제1항에 있어서, 유기체의 목록은 다수의 단일 종의 균주(strain)를 포함하는 방법.
삭제
제1항에 있어서, 서브서열 길이는 25인 방법.
제1항에 있어서, 단편 길이는 13인 방법.
제1항에 있어서, 결합 자유 에너지는 올리고뉴클레오티드 최근접 이웃 모델에 따라 산출되는 방법.
제1항에 있어서, 결합 자유 에너지 한계치는 -14.5 Kcal/mol인 방법.
삭제
제1항에 있어서, 염기 호출의 최소 수치는 50인 방법.
제1항에 있어서, 각각의 최종 프로토타입 서열에 상응하는 각각의 프로브 세트를 함유하는 재서열화 마이크로어레이를 제작하는 단계를 더 포함하는 방법.
삭제
제11항에 있어서, 마이크로어레이는 마이크로어레이 상의 각 프로브에 상보적인 서열을 더 포함하는 방법.