KR101182505B1

KR101182505B1 - 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법

Info

Publication number: KR101182505B1
Application number: KR1020107004052A
Authority: KR
Inventors: 안토니 피. 말라노스키; 바오쿠안 린; 조엘 엠. 슈너; 데이비드 에이. 스텐저
Original assignee: 미합중국 (관리부서 : 미합중국 해군성)
Priority date: 2005-06-16
Filing date: 2006-06-09
Publication date: 2012-09-12
Also published as: KR20100122124A; KR20100028132A; KR101023163B1; KR20080057218A; NZ585369A; NZ564992A

Abstract

본 발명은 기준 서열을 분류학적 데이타에 전송하여 분류학적 결과를 산출하는 단계; 및 분류학적 결과를 기초로 분류학적 동정을 기록하는 단계를 포함하는 방법에 관한 것이다. 기준 서열은 각각의 기준 서열에 대한 스코어를 반송하는 유전적 데이타베이스 질의의 출력이다. 본 발명은 생물학적 서열 내 소정의 위치 목록에 자리잡고 있는 염기 콜을 N으로 전환하는 단계; 및 기준 서열에 상대적인 생물학적 서열 중 단일 염기 다형의 비율을 결정하는 단계에 의한 분석으로부터 얻어진 생물학적 서열을 프로세싱하는 방법에 관한 것이다. 소정의 위치 목록의 각각의 엔트리는 생물학적 서열을 생성하기 위해서 사용된 마이크로어레이에 하이브리드화하는 물질의 성능을 나타낸다. 상기 물질은 표적 병원체의 핵산이 아니다.

Description

컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법{COMPUTER-IMPLEMENTED BIOLOGICAL SEQUENCE IDENTIFIER SYSTEM AND METHOD}

관련 출원

본 출원은 2005년 6월 16일에 출원된 미국 가특허 출원 제60/691,768호; 2005년 11월 14일에 출원된 미국 가특허 출원 제60/735,876호; 2005년 11월 14일에 출원된 미국 가특허 출원 제60/735,824호; 2006년 5월 22일에 출원된 미국 가특허 출원 제60/743,639호; 2006년 6월 6일에 출원된 미국 가특허 출원 제11/422,425호; 및 2006년 6월 6일에 출원된 미국 가특허 출원 제11/422,431호를 기초로 우선권을 주장한다. 본 출원은 2005년 7월 2일에 출원된 미국 특허 출원 제11/177,647호; 2005년 7월 2일에 출원된 미국 특허 출원 제11/177,646호; 및 2005년 11월 7일에 출원된 미국 특허 출원 제11/268,373호의 일부 계속 출원이다. 이들 정규 출원은 2004년 7월 2일에 출원된 미국 가특허 출원 제60/590,931호; 2004년 9월 15일에 출원된 미국 가특허 출원 제60/609,918호; 2004년 11월 5일에 출원된 미국 가특허 출원 제60/626,500호; 2004년 11월 29일에 출원된 미국 가특허 출원 제60/631,437호; 및 2004년 11월 29일에 출원된 미국 가특허 출원 제60/631,460호를 기초로 우선권을 주장한다.

기술 분야

본 발명은 일반적으로 생물학적 서열의 처리 방법에 관한 것이다.

감시 분야 및 진단 분야 둘 다를 위해서는, 미세 규모 병원체 동정 및 인접자(near neighbor) 식별이 중요하므로, 이러한 매우 특이적 수준에서 모니터링하는 분석은 임상 환경에서 바람직하다(1-3). DNA 또는 RNA 검출을 기초로 한 임의의 방법을 성공적으로 사용하기 위해서, 상기 분석들은, 원하는 정보 제공을 확보하기 위한 분석 설계 및 원자료의 해석을 위한 핵산 서열 정보로 이루어진 다수의 데이터베이스와 연결해야 한다. 실시간 PCR과 같은 잘 확립된 몇몇 기법들은 우수한 특이성을 제공하기 위해 서열화된 게놈의 짧고, 특유한 스트렛치를 사용한다(4). 이들 기법은 충분한 수의 단편을 선정하여 유전적으로 밀접한 몇몇 유기체의 미세 규모 동정을 제공할 수 있다. 그러나, 최초 선정 공정에서 특이적인 이러한 선정 단편들은 더 많은 유기체가 서열화됨에 따라 추후 종종 특이성이 떨어지는 것으로 확인된다. 이는 돌연변이율이 높은 과에 속하는 병원체 및 동정된 비교적 인접하지 않는 병원체를 갖는 병원체에 있어서 특히 문제가 된다. 또한, 실시간 PCR은 신규 중요한 돌연변이의 존재를 검출할 수 없거나 또는 염기 서열 세목을 분석할 수 없다. 유사하게도, 다른 검출 기법에서 병원체 동정을 얻는 방법이 개선되었으나 PCR을 사용하는 몇몇 또는 모든 문제들을 겪고 있다(5-6).

고밀도 재배열 마이크로어레이는 직접 서열 정보로 된 10²-10⁵ 염기쌍(bp)의 가변 길이 단편을 제조할 수 있다. 이들은 바이러스, 박테리아, 및 진핵 게놈으로부터 단일 뉴클레오티드 다형(SNP) 및 유전적 변이를 검출하기 위해 성공적으로 사용하였다(9-16). SNP 검출에의 이들의 사용은 신뢰할 수 있는 품질 서열 정보를 제공하는 그 능력을 명확히 확립하였다. 대부분의 경우, 마이크로어레이는 제한된 수의 유전적 유사 표적 병원체를 연구하기 위해 디자인하며, 다수의 경우에 있어서, 검출 방법은 단지 동정을 위해 하이브리드화 패턴을 인지하는 것에 의존하였다(12, 14, 15, 17, 18). SNP 검출에 요구되는 재배열 마이크로어레이의 순차적 염기 분석력을 이용하여, 재배열은 다른 접근법을 사용함으로써 다수의 박테리아성 및 바이러스성 병원체의 병원체 동정을 위해 최근 성공적으로 개조된 한편, 밀접하게 관련된 병원체의 미세한 식별 및 표적화된 병원체 내 돌연변이의 추적을 가능케 하였다(19-21). 신규 방법론은 관찰된 하이브리드화으로부터의 염기 콜(base call)과 가장 일치할 종 및 변이체를 동정하기 위해 DNA 데이타베이스 유사성 조사의 질의로서 분석된 염기를 사용함으로써 이전 연구와 달랐다. 시스템은 26종의 병원체를 동시에 테스트할 수 있었고 다수 병원체의 존재를 검출할 수 있었다. 소프트웨어 프로그램, 재배열 병원체 동정자(REPI; REsequencing Pathogen Identifier)는 유전자 위치 정보 검색(BLAST; Basic Local Alignment Search Tool)을 이용하여 유전적 데이타베이스의 유사성 조사를 수행함으로써 데이타 분석을 단순화하기 위해 사용하였다(22). REPI 프로그램은 BLAST 기본 설정을 사용하였고, 기대치, 즉 확인된 서열 일치가 데이타베이스에서 무작위적 우연에 의해 발생할 가능성을 나타내는 BLAST 프로그램에 의해 계산된 양이 10^-9 미만일 때에만, 하이브리드화를 의미하는 서열을 반송하게 된다. 이는 불충분한 신호 전달을 가진 모든 경우를 스크리닝하였지만, 어떤 병원체가 검출되는지 및 어느 정도의 식별이 가능한지에 대한 최종 결정은 반송된 결과의 수동 조사를 필요로 하였다. 이러한 방법은 종래의 샘플링 결과와 일치하게 Flu A 및 B 샘플의 균주 동정과 다양한 아데노바이러스의 미세 식별을 성공적으로 가능케 하였다(19, 20). 이러한 연구 방법의 2가지 중요한 이점은 정보가 항상 가능한 가장 상세한 수준에서 회수된다는 점과 정보가 최신 돌연변이를 갖는 유기체를 여전히 인지할 수 있다는 점이었다. 또한 상기 연구 방법은, 이것이 더 많은 유기체가 서열화되는 경우 지속적으로 잠식되는 짧은 서열의 특유성에 의존하지 않으므로, 특이성을 잘 유지하였다.

상기 분석 방법은 유용성이 있지만, 몇몇 결점도 있는데, 즉, 시간 소모적이고, 민감도를 극대화하기에 적절하지 않으며, 복잡한 결과를 나타내고, 전문가용으로서만 적합하며, 잉여 또는 중복 정보를 포함한다. 상기 공정은, 최초 스크리닝만이 자동적으로 취급되며, 반면에 나머지 단계들이 검출 분석을 종결하기 전 수동 해석을 필요로 하기 때문에 시간 소모적이었다. 단순한 기준(기대치 확정 범위 10^-9) 및 최적화되지 않은 BLAST 파라미터가 검출된 병원체를 고려하기 위해 사용되므로, REPI 알고리즘은 후보 유기체 목록을 제공하지만, 최종적인 단순 결론을 맺지 못하거나 하나의 원형 서열의 결과를 또 다른 것과 연계시킬 수 없었다. 대신, 최종 결정을 위하여 수동적 방법이 사용되었으나, REPI 프로그램은 모두 유사한 결과 및 잉여 엔트리를 포함하는 공공 핵산 데이타베이스의 이용을 제공하였으므로, 사용자에게 쓸모 없는 다량의 데이타가 제공되었다. 또한, 수동적 방법으로는, 개발된 알고리즘을 일반적으로 핵산 염기가 결정된 서열 정보가 제공된 임의의 유기체에 적용 가능하도록 확립하는 것은 불가능하였다.

발명의 개시

본 발명의 일 방법은, 다수의 기준 서열들을 질의(query)로 분류학적 데이타베이스에 전송하여 다수의 분류학적 결과를 산출하는 단계, 및 상기 분류학적 결과를 기초로 한 분류학적 동정을 기록하는 단계를 포함한다. 상기 기준 서열들은 각각의 기준 서열에 대한 스코어(Score)를 반송하는 유전적 데이타베이스 질의의 출력이다.

분석으로부터 얻어진 생물학적 서열을 처리하는 본 발명의 또 다른 방법은, 생물학적 서열 내 소정의 위치 목록에 자리하고 있는 염기 콜을 N으로 전환하는 단계, 및 기준 서열에 상대적인 생물학적 서열 내 단일 뉴클레오티드 다형의 비율을 결정하는 단계를 포함한다. 소정의 위치 목록 내 각각의 엔트리는 생물학적 서열을 생성시키는 데 사용되는 마이크로어레이에 하이브리드화하는 물질의 성능을 나타낸다. 상기 물질은 표적 병원체의 핵산이 아니다.

도 1은 3가지 메인 태스크의 관계 및 태스크와 관련된 서브 태스크의 로직을 나타내는 알고리즘의 개략도이다. 태스크 I은 필터링 및 부분 서열 선정을 수행한 후, 원형 서열이 어느 데이타베이스 기록과 가장 유사한지를 결정한다. 태스크 II는 원형 서열 동정이 공통적인 유기체 동정을 지지하는지를 판단한다. 태스크 III은 마이크로어레이 데이타로부터 검출된 유기체의 최종 조사 및 결정을 행한다. ProSeq: 원형 서열; SubSeq: 부분 서열; HybSeq: 하이브리드화 서열.
도 2는 태스크 I의 필터링 서브 태스크의 상세한 개략도이다. 각각의 ProSeq에 대해, 프라이머 영역을 N(모호한) 콜로서 차폐한 후, UniRate를 HybSeq로부터 계산하였다. UniRate 요건을 통과한 ProSeq의 경우에는, 개정된 슬라이딩 윈도우 알고리즘(revised sliding window algorithm)을 시도하여 BLAST에 대한 질의로서 사용될 수 있는 SubSeq를 증가시켰다. 성공적으로 증가된 SubSeq의 실체(ProSeq 내 개시 위치 및 길이)는 BLAST를 통한 배치 질의(batch query)를 위해 파일에 배치하였다.
도 3은 개개의 SubSeq에 대한 유기체 동정에 관여하는 태스크 I의 서브 태스크의 상세한 개략도이다. BLAST에 전송되는 각각의 SubSeq는 최상의 비트 스코어/기대치 쌍(MaxScore)을 찾기 위해 검색된 Return 어레이에 포함된 가능한 일치 목록을 반송하였다. MaxScore가 MIN(10^-6)보다 큰 경우, 상기 최상의 스코어를 갖는 모든 반송들(returns)을 신규 어레이 Rank1 내로 분류하였다. 상세한 결정 과정을 본원의 방법 섹션에 기술하였고 그 후 SubSeq의 유기체를 동정하였다.
도 4는 SubSeq에 대하여 확인된 결과를 기초로 하여 ProSeq에 대하여 결정된 유기체를 결정하는 태스크 I의 서브 태스크의 개략도이다. 특정 ProSeq의 모든 SubSeq를 서로 비교하여 2개의 최상의 스코어를 갖는 SubSeq를 결정한다. 단일 SubSeq가 있거나 다른 것보다 훨씬 더 우수한 스코어를 갖는 것이 존재하는 경우, 그 ProSeq는 상기 SubSeq의 특성을 물려받았다. 그렇지 않은 경우 공통적인 분류학적 부류는 특허 명세서에서 기술된 바와 같이 결정하였다.
도 5는 인플루엔자 A NA1 ProSeq 및 A/Weiss/43, A/푸에르토리코/8/34 균주의 정렬도이다. 또한 A/푸에르토리코/8/34의 미정제 및 필터링된 하이브리드화 칩 결과를 도시하였다. ^*는 완벽하게 일치된 서열을 나타낸다.

삭제

본 발명의 더욱 완전한 이해는 하기 실시예 실시양태의 설명 및 첨부 도면을 참조함으로써 용이하게 얻어진다.
하기 설명에서, 한정함이 없이 설명할 목적으로, 본 발명의 완전한 이해를 제공하기 위해 구체적인 상세한 설명을 서술한다. 그러나, 본 발명이 이들 구체적인 상세한 설명으로부터 벗어난 다른 실시형태로 실시될 수 있음은 당업자에게 자명하다. 다른 예에서, 잘 알려진 방법 및 장치의 상세한 설명은 생략하여 불필요한 상세한 설명으로 본 발명의 기술 내용을 모호하게 하지 않도록 하였다.

본원에서 사용된 바와 같이, 용어 "서열"은 핵산 서열, 예컨대 DNA 또는 RNA, 또는 단백질 서열을 의미한다. 본원에서 사용된 바와 같이, "염기" 및 "염기 콜"은 뉴클레오티드 염기 또는 아미노산을 의미할 수 있다. 본원에서 사용된 바와 같이, 용어 "분류학상"은 속, 종, 균주, 및 아균주를 포함하나, 이들에 한정되지 않는, 병원체의 동정에 대한 임의의 수준 또는 부류를 의미할 수 있다. 본원에서 사용된 바와 같이, 용어 "기록"은 한 시스템에서 다른 시스템으로의 신호를 전송하는 것 및 인간이 판독가능한 임의 형태의 보고서를 생성하는 것을 포함할 수 있다. 개시된 모든 방법은 본 방법을 수행하기 위한 수단을 갖는 장치에서 컴퓨터로 구현될 수 있다.

검출된 유기체의 단순 목록을 제공하기 위해 디자인된 애피메트릭스 재배열 마이크로어레이로부터 결정된 염기 서열 정보를 성공적으로 사용할 수 있는 신규 소프트웨어 전문 시스템, 컴퓨터로 구현된 생물학적 서열 동정자 시스템 (Computer-Implemented Biological Sequence Identifier system) 2.0 (CIBSI 2.0)이 개시된다. 이 알고리즘은 병원체 동정을 완전히 자동화하기 위해 새로운 특성을 통합시킴으로써 선행 방법의 결점을 처리한다. 이 단일 프로그램은, 개선된 민감도와 함께, 단독으로 검출되는지 또는 조합하여 검출되는지와 관계없이, RPM v1 마이크로어레이에 포함된 모든 26종의 병원체에 대하여 정확한 결정을 할 수 있다(19, 20, 23). 이 프로그램은 현재 재배열 마이크로어레이에 적용하고 있지만, 알고리즘의 제1 부분만이 마이크로어레이에 특이한 문제를 처리하는 한편 나머지 부분은 BLAST 알고리즘에 의해 질의로서 사용하기에 적절한 서열을 처리하기 때문에 개발된 방법론은 일반적으로 적용 가능하게 된다. 일반적인 동정 알고리즘을 개발하는 데 있어서, 그 이용을 복잡하게 하는 재배열 마이크로어레이에 특이한 문제를 확인하고 분석하였다. 검출되는 것에 대한 전체적인 결정 방법을 자동화하였으므로, 동정하기 위해 사용된 규칙이 임의의 병원체에 정확하고 적용 가능한지를 테스트하기가 수월하다. 이 효율적인 프로그램을 사용하여, 재배열에 기초한 분석은, 비전문가에 의해 해석될 수 있는 출력을 제공하면서, 다수의 가능한 병원체를 동시에 테스트하기 위한 경쟁력 있는 방법을 제공할 수 있다.

증폭, 하이브리드화, 및 서열 결정

RPM v1 마이크로어레이 디자인의 상세한 설명 및 실험적 방법은 선행 문헌(19, 20, 23)에서 논의하였다. 본 발명의 분석에 사용되는 실험적 마이크로어레이 데이타는 다양한 정제 주형 및 임의의 다양한 증폭 기구를 사용한 임상 샘플을 사용하여 획득되었다. GCOS 소프트웨어 v1.3(미국 캘리포니아주 산타 클라라 소재의 애피메트릭스사 제조)을, 하이브리드화된 마이크로어레이를 정렬하고 스캔하기 위해 사용하여 모든 프로브 세트 내 각각의 프로브의 강도를 결정하였다. 염기 콜은, ABACUS 알고리즘을 구현하는 GDAS v3.0.2.8 소프트웨어(미국 캘리포니아주 산타 클라라 소재의 애니메트릭스사 제조)를 사용하여, 각각의 프로브 세트의 강도 데이타를 기초로 구성하였다(11). 상기 서열은 추후 분석 단계를 위해 FASTA 포맷으로 나타냈다.

재배열 마이크로어레이(RPM v1)는 소정의 하이브리드화 패턴에 의지하지 않고 ProSeq를 기초로 하여, 열성 호흡기 질환을 야기하는 것으로 알려진 20가지 일반적인 호흡기 병원체 및 6 CDC 카테고리 A 생체 위협(biothreat) 병원체의 서열 부류 및 검출을 위해 미리 설계되었다. 다양한 증폭 기법, 단일 및 다수 병원체 표적, 정제 핵산 및 임상 샘플을 사용하여 수행된 대략 4000개의 RPM v1 실험을, 병원체 동정 알고리즘을 개발하기 위하여 조사하였다. 이 알고리즘을 임상 샘플, 동정 병원체 및 정제 핵산에 대해 사용한 결과는 다른 연구에서 상세하게 논의하였다(19, 20, 23). 모든 경우에서, 알고리즘은 RPM v1에 나타낸 ProSeq의 길이에 따라, 종 또는 균주 수준에서 유기체를 정확하게 동정하였다. 다양한 조건 하에 알고리즘이 어떻게 수행되는지를 설명하기 위해 몇몇 구체적인 예가 논의될 것이다.

CIBSI 2.0 프로그램은 3가지 태스크의 계층을 처리하였다(도 1): (I) 검출된 유기체가 어느 데이타베이스 기록과 가장 유사한지를 결정하고, (II) 별개의 표적으로부터의 동정이 공통적인 유기체 동정을 지지하는지를 결정하며, (III) 검출된 유기체가 분석이 검출하도록 구체적으로 설계된 표적 세트에 속하는지 또는 밀접한 유전적 인접자와 관련되는지를 결정한다. 표적 병원체는 분석이 검출하도록 구체적으로 설계된 유기체이다. 본원에서 사용되는 바와 같이, 표적 병원체 게놈으로부터 선정된 기준 서열을 나타내는 프로브 세트를 원형 서열 또는 간략히 "ProSeq"으로 지칭한다. 게놈 물질의 ProSeq로의 혼성화에 기인하는 결정된 염기 세트를 혼성화 서열 또는 "HybSeq"로 지칭한다. HybSeq는 가능한 부분 서열 또는 "SubSeq"로 나뉘어진다. 알고리즘의 일 부분은 ProSeq에 기초한 유기체 동정을 처리하며 3 단계, 즉, 서열 유사성 비교에 적합한 SubSeq로 개개의 HybSeq를 최초 필터링하는 단계, 개개의 SubSeq를 데이터베이스 질의하는 단계, 및 각각의 SubSeq에 대한 BLAST 반송들(return)의 분류학적 비교 단계로 처리된다. 다음 단계에서, ProSeq들을 비교하여 이들이 같은 동정 유기체를 지지하는지를 결정하였다. 최종 단계에서, 임의의 유기체가 양성으로 검출되었는지를 확인하기 위해, 검출된 유기체를 분석이 설계된 표적 병원체의 목록과 비교하였다. 특정 샘플이 지지하는 식별 수준은 자동적으로 결정되었다.

필터링

최초 필터링 알고리즘, 즉, 재배열 병원체 동정자(REsequencing Pathogen Identifier; REPI)가 먼저 개발되었고(20), 개정을 포함하는 일반적인 개념을 CIBSI 2.0 프로그램에 사용된 현재의 (자동화 검출) 알고리즘 내로 통합하였다. 필터링 및 부분 서열 선정법을 사용하여, 기준 서열 선택에 의해 그리고 다른 소스(프라이머)에 의해 발생하는 잠재적 편향(biasing)을 제거할 뿐만 아니라 HybSeq를 더 신속한 탐색에 유의한 단편으로 분리하였다. 이는 도 1에서 태스크 I의 제1 서브 태스크였고, 도 2에서 개략적으로 상세하게 도시하였다. PCR 증폭을 사용한 경우, 마이크로어레이를 단지 프라이머의 존재 하에 하이브리드화하여 프라이머가 하이브리드화를 초래한 위치를 결정하였다. 프라이머를 사용하여 하이브리드화된 ProSeq의 모든 부분을 N 콜로서 차폐하여 HybSeq가 편향된 정보를 포함하지 않게 하였다. 각각의 ProSeq에 대해, 특유 염기 콜의 총 수에 대한 SNP의 비, UniRate를 HybSeq로부터 산출하였다. UniRate가 ≥ 20%(SNP 분계점)인 경우 불충분한 하이브리드화를 갖는 HybSeq를 제거하기 위하여, 그 ProSeq는 표적 유기체 검출에 대해 음성으로 고려된다. UniRate 20%는 평균적으로 25 bp당 5 SNP임을 나타내었다. 표적 병원체와 유사한 유기체와 ProSeq가 기초로 하는 기준 서열 간의 이러한 빈도의 차이의 경우 25 bp 프로브의 유의한 특이적 하이브리드화를 예상하는 것은 비현실적이다. 이는 필터링 서브 태스크를 종결하고 태스크 I 루프로 돌아가며, 다음 ProSeq를 조사할 것이다. < 20%의 비율을 갖는 ProSeq의 경우에는, 더 상세한 조사를 수행하였다. HybSeq의 각각의 위치에서, 개정된 슬라이딩 윈도우 알고리즘(20)을 시도하여 BLAST에 대한 질의로서 사용될 수 있는 SubSeq를 증가시켰다. 처음에, 일정 위치 다음의 처음 20 염기(최초 길이)를 잠재적 부분 서열로서 조사하였다. 이 염기의 60% 미만이 모호한 경우(N), SubSeq는 연장 단계에 진입하였다. SubSeq는, 특유 염기 콜의 총 함량이 40% 이하(특유 염기 콜 분계점)로 감소될 때까지 또는 최종 21 염기를 포함하는 슬라이딩 윈도우가 4 미만의 특유 염기 콜을 갖는 경우, 한 번에 1 염기가 연장되었다. 이는 단지 20 염기의 슬라이딩 윈도우가 사용되며, 윈도우 함량의 40% 미만이 특유 염기 콜인 경우 SubSeq의 증가가 중단되는 REPI 알고리즘과는 다르다. 이 시점에서, SubSeq를 조사하고 추적하는(trailing) N 콜을 제거하였다. BLAST의 단어 크기 파라미터를 충족시키고 추가 분석을 위한 SubSeq를 유지하기 위하여 7개의 연속적인 특유 염기 콜을 갖는 적어도 1개의 위치가 필요하였다. 100 염기 초과의 SubSeq를 수용하였다. 수용에 있어서, ≤ 30 염기의 SubSeq는 적어도 95% 특유 염기 콜("N"이 아님)을 필요로 하였다. 30 ~ 100 염기를 갖는 SubSeq의 경우에는, 부분 서열 수용은 적어도 VARI(("SubSeq 길이"-30)*0.2857+70)% 특유 염기를 필요로 한다. ≥ 80 염기의 SubSeq의 경우에는, BLAST 단어 크기 파라미터는 이것이 적어도 11개의 연속적인 염기를 포함하는 경우 11로 수정하였다. 성공적으로 증가된 SubSeq의 실체(ProSeq 내 개시 위치 및 길이)를, 각각의 SubSeq와 관련된 정보를 보유하는 SubSeq 어레이 내 엔트리에 배치하였다. 이러한 실체 및 SubSeq를 BLAST를 통한 배치 질의(batch query)를 위해 파일에 배치하였다. 이 절차를 이전의 성공적인 SubSeq의 말단으로부터 지속시킴으로써, 또는 실패한 경우, 윈도우가 최초 증가된 지점으로부터 HybSeq의 말단까지 지속시킴으로써 반복하였다. 종료시, 알고리즘은 태스크 I 루프로 돌아갔고 BLAST 서브 태스크를 수행하였다.

데이타베이스 질의

BLAST 서브 태스크는 질의로서 SubSeq를 사용한 데이타베이스의 배치 유사성 조사를 수행하였다. 사용된 BLAST 프로그램은 한정된 세트의 파라미터를 갖는 NCBI Blastall -p blastn version 2.12였다. 시딩(seeding) 단계에 대해서는 질의 속도를 높이도록 저복합 영역의 차폐를 수행하였지만, 실제 스코어링에는 저복합성 반복을 포함하였다. 2006년 2월 7일자로 획득한 NCBI로부터의 전체 뉴클레오티드 데이타베이스를 참조 데이타베이스로서 사용하였다. (개발 중에는 데이타베이스 초기 이미지를 사용하였지만 모든 실험을 이 일자에 얻은 데이타베이스의 이미지로 기술된 알고리즘으로 재실행하였음을 주목할 것). 디폴트 갭 패널티(gap penalty) 및 뉴클레오티드 일치 스코어를 사용하였다. 뉴클레오티드 불일치 페널티, -q, 파라미터는 디폴트와 다르게 -1로 설정하였다. < 0.0001의 기대치를 갖는 임의의 BLAST 질의의 결과를 blastall 프로그램으로부터 태뷸러 포맷(tabular format)으로 반송하였다. 각각의 반송(return)에 대한 정보(비트 스코어, 기대치, 불일치, 일치 길이)를 추가 분석을 위한 해시 키(hash key)로서 SubSeq 실체를 사용한 Return{hash key}{info}에 배치하였다.

SubSeq로부터 ProSeq에 대한 분류학 기반 병원체 동정

수행되는 태스크 I의 다음 서브 태스크는 SubSeq() 상태의 결정이며 도 3에 도시하였다. 단순 데이타를 제시하고 결정 과정을 용이하게 하기 위하여, 모든 SubSeq에 대한 정보를 2가지 파라미터에 의해 요약하였다. "동정 유기체"는 유기체의 분류학적 부류를 나타내고 "유기체 특유성"은 유기체 동정의 질을 나타내었다. Return 해시 내 구성 요소를 조사하고 ProSeq의 각각의 별개 SubSeq()에 대한 스코어 어레이에 의해 랭크하였다. 스코어 어레이는, 소정의 데이타베이스에 대한 고정 관계를 갖는 한 쌍의 파라미터, 즉 비트 스코어 및 기대치를 포함하였다. 때로는 데이타베이스의 크기(기대치)를 설명하거나 또는 (비트 스코어)를 설명하는 랭킹 스코어를 사용하는 것이 적절하였다. Return 해시 내 구성 요소는 같은 스코어를 가질 수 있었으며, 최고 비트 스코어/최저 기대치(MaxScore)를 갖는 모든 구성 요소를 별개의 어레이 Rank1에 보유하였다. Rank1 내 모든 구성 요소의 전체 분류학적 분류를 2006년 2월 7일자로 역시 획득한 NCBI 분류학 데이타베이스로부터 회수하였다(전술한 주목 참조). MaxScore 기대치가 MAX(현재 10^-6)보다 더 큰 경우, SubSeq()는 무효값(null)으로 갱신된 이의 동정 유기체와 유기체 특유성 정보 모두를 보유하였다. MaxScore가 충분히 작은 경우, Rank1에 배치된 반송들을 조사하였다. Rank1이 단일 구성 요소를 포함하는 경우, SubSeq에 SeqUniqu의 유기체 특유성을 할당하였다. Rank1이 다수 구성 요소를 포함하는 경우, SubSeq에, 모든 반송들이 같은 분류학적 부류에 속하는 경우, TaxUnique의 유기체 특유성을 할당하였다. 그렇지 않은 경우, SubSeq의 유기체 상태를 TaxAmbig로 설정하였다. 도 3에 개괄한 태스크를 ProSeq의 각각의 SubSeq()에 적용하였다. 모든 경우에서, 동정 유기체를 Rank1 내 모든 구성 요소의 공통적인 모형(parent)인 분류학적 부류를 나타내는 각각의 SubSeq()에 할당하였다.

각각의 SubSeq를 조사한 후, 알고리즘은, SubSeq로부터 ProSeq의 동정 유기체를 결정할, 다음 태스크로 이동하였다(도 4). SubSeq의 모든 구성 요소가 Null인 동정 유기체 값을 갖는 경우, 그 ProSeq는 음성이며 다음 ProSeq를 조사하였다. ProSeq에 대해 SubSeq 내 단일 구성 요소만이 있거나 또는 SubSeq 내 모든 구성 요소가 같은 동정 유기체를 갖는 경우, Result1 엔트리가 동정 유기체에 대하여 형성되며, 그 유기체 특유성은 다수의 SubSeq 엔트리인 경우 TaxUnique이거나 또는 단일 SubSeq 엔트리의 상태를 물려받았다. 다른 동정 유기체를 갖는 SubSeq 내 다수 엔트리가 있는 경우, 추가 분석을 수행하였다. 그러면 가장 높은 2개의 최상의 스코어를 갖는 구성 요소가 SubSeq(1) 및 SubSeq(2)가 되도록 SubSeq를 MaxScore(비트 스코어)로 재정렬하였다. SubSeq(1)이 SubSeq(2)의 스코어보다 ≥ 30%(스코어 비 분계점)인 스코어를 갖는 경우, 그 ProSeq는 SubSeq(1)의 유기체 특유성 및 동정 유기체를 물려받았다. 그렇지 않은 경우, ProSeq의 유기체 상태는 TaxAmbig이고 동정 유기체는 모든 부분 서열의 공통적인 모형인 분류학적 부류였다. 모든 부분 서열이 직접적인 자형 부류 및 모형 부류인 단지 2개의 분류학적 부류 내에 포함되는 경우, 동정 유기체는 자형 부류 내 부분 서열의 유기체였다. 도 4에 포함된 서브 태스크를 종결하고 태스크 I 루프를 지속하였다. 검출된 유기체를 갖는 ProSeq의 목록을 Result1 어레이에 형성시켰다.

전체 병원체 동정 및 양성의 콜

태스크 I을 종결한 후, 태스크 II(도 1 참조)를 사용하여 Result1에 등재된 동정 유기체 값을 조사하고, 상기 값이 동일한 분류학적 부류를 동정하는 경우 함께 그룹화하였다. Result1 내 각각의 엔트리를 조사하고, 동정 유기체가 상기 목록에 나타나지 않는 경우 Result2에 신규 엔트리를 형성시켰다. 대부분의 경우에, Result2의 엔트리는 검출된 개개의 유기체를 나타내지만, 여전히 잉여 정보를 포함할 수 있었다. 하나가 다른 하나의 분류학적 모형인 동정 유기체를 갖는 Result2의 엔트리는 사실상 동일한 병원체를 나타낼 수 있었다. 동일한 동정은 일어날 수 없을 수 있었는데, 그 이유는 게놈 표적이 가능성 있는 다양한 이유로 ProSeq 모두에 하이브리드화가 잘 되지 않았기 때문이다. 대안으로, 2개의 상이한, 그러나 밀접하게 관련된 유기체는 둘 다 마이크로어레이에 하이브리드화할 수 있었다.

별개의 ProSeq로부터의 결과를 서로 연관시키는 것은 어려웠지만, 태스크 III은 현재 구현된 바와 같은 최종 조사 및 결정을 처리하였다. 이전 태스크들을 구체적으로 구현하여 그 결과 ProSeq가 검출하고자 했던 것에 관한 정보는 고려하지 않았다. 이는 이 아래쪽의 경우가 양성 및 음성뿐만 아니라 불확정된 경우도 인지할 수 있도록 하였다. 최종 태스크에서, 알고리즘은 ProSeq가 검출하도록 설계된 유기체를 동정하는지를 고려하였다. 명백한 음성의 ProSeq와 불확정된 ProSeq는 표적 병원체에 대해 음성으로 고려하였다. 이에 대한 ProSeq의 그룹화는 태스크 II에서 이미 수행된 그룹화를 기초로 하였다. Result2의 엔트리를 루핑(looping)하였다. 엔트리의 ProSeq를 사용하여 표적화된 표 내 병원체를 조사하였다. Result2 엔트리의 동정 유기체가 표적 병원체의 분류학적 부류와 동일하거나 또는 자형인 경우, Pathogen() 어레이를 그 표적화된 병원체에 대한 양성의 엔트리로 갱신하였다. Pathogen() 어레이가 상기 병원체에 대해 무효인 경우, 동정 유기체의 병원체 수준은 Result2() 엔트리의 수준이었다. 엔트리가 이미 병원체에 배치된 경우, 그 후 추가 비교를 필요로 하였다. Result2() 및 Pathogen 엔트리를 비교하였다. 이들이 직접적인 자형 모형 관계인 경우, 상기 Pathogen의 동정 유기체는 자형의 분류학적 부류였다. 그렇지 않은 경우, 공통적인 모형 분류학적 부류를 양성의 동정 유기체로서 기록하였다. 병원체에 대한 모든 ProSeq가 잘 하이브리드화된 대부분의 경우, 세련된 수준의 식별이 기록되었다. 그러나, 하나 이상의 ProSeq가 잘 하이브리드화되지 않은 경우, 기록된 양성의 표적 병원체는 단지 속 또는 종 수준에서만 동정되었다. 수동적인 재조사가 가능하도록 3가지 모든 태스크의 결과를 기록하였다. 표적 병원체에 속하지 않은 태스크 II에서 동정한 유기체는 비표적 양성의 반송으로서 기록되었음을 주목해야 한다. 이러한 경우에 동정된 것에 대한 세부 사항은 태스크 II 수준 결과의 조사를 필요로 하였다.

병원체 동정

10 ~ 1000 게놈 카피(참조 문헌 21 방법)를 갖는 클라미디아 뉴모니아에(Chlamydia pneumoniae) 샘플을 선정하여 다수의 ProSeq를 동일한 병원체에 대해 표적화한 경우 어떻게 병원체 검출 및 동정을 수행할 것인지를 설명하였다(21). RPM v1은 주요 외막 단백질 VD2 및 VD4, 및 DNA 의존성 RNA 폴리머라제 (rpoB) 유전자를 암호화하는 유전자로부터 선정되는 고도로 보존된 3가지 ProSeq를 보유한다. 상이한 샘플 유래의 HybSeq는 단지 하기 표 1에 나타낸 바와 같은 단지 특유 염기 콜이 얼마나 많은 지에 따라 달랐다. 콜링(calling)된 ProSeq의 백분율은, 분석 검출 한계치에 도달하였음을 나타내는 특유 콜이 이러한 농도 이상을 생성시키는 단지 11%의 rpoB ProSeq를 갖는 농도 10인 한 가지 경우를 제외하고는, 80 ~ 100%로 다양하였다. 다양한 샘플에 대한 각각의 태스크의 말단에서 SubSeq에 대해 수행된 결정값을 하기 표 1에 기재하였다. 상이한 경우로부터의 ProSeq는 같은 수의 SubSeq를 생성하였다. 상이한 샘플 유래의 이러한 SubSeq는 BLAST로부터 동일한 탑 랭킹된 리턴에 대해 다른 비트 스코어를 기록하였다. 사실상 VD2 및 VD4는 정확하게 동일한 결과를 생성하였다. NCBI 분류학 데이타베이스는 상기 리턴을 C. 뉴모니아에 분류학적 그룹 및 3가지 자형 균주 그룹을 나타내는 4가지의 명확한 그룹으로 분류하였다. AE001652, AE002167, AE017159, 및 BA000008은 각각의 샘플에 대해 모든 ProSeq의 리턴을 나타내었는데, 그 이유는 이들이 완전히 서열화된 게놈의 데이타베이스 엔트리를 나타내었기 때문이다. 하나의 rpoB SubSeq는 그 유기체 특유성, SeqUniqu를 생성하였다. 다른 모든 SubSeq는, 상이한 분류학적 부류로부터 다수의 리턴이 반송되었으므로, TaxAmbig였다. VD2 및 VD4 ProSeq 각각이 단일 SubSeq를 보유하므로, 태스크 I은 ProSeq에 SubSeq의 상태를 할당하였다. rpoB ProSeq의 경우, 하나의 SubSeq의 비트 스코어는 충분히 커서 알고리즘이 ProSeq에 그 SubSeq의 동정을 할당하였다. 알고리즘의 태스크 II는 모든 3가지 ProSeq를 함께 그룹화하였는데, 그 이유는 이들 모두가 동일한 동정 유기체를 보유하고 TaxAmbig를 할당하기 때문이었다. 태스크 III의 결과는 표적 병원체 C. 뉴모니아에에 대해 양의 값이었으며, 이러한 결정은 모든 ProSeq가 서로 일치하고 동일한 표적 병원체의 분류학적 부류에 속하였기 때문에 수월했다. rpoB ProSeq가 SeqUniqu였지만, 이는 SeqUniqu인 ProSeq가 자형 분류학적 그룹이 아니고 다른 ProSeq가 TaxAmbig였기 때문에 태스크 II에 대한 최종 결정이 아니었다. 인지된 3가지 아균주를 동일하게 스코어링하였으며, ProSeq에 대해 선정된 서열은 매우 보존적이었고 이러한 균주들 간의 차이를 허용하지 않음을 나타내었다.

SubSeq, 태스크 I, II, 및 III에 있어서 몇몇 농도에서 C. 뉴모니아에에 대한 알고리즘 결정
게놈 카피	ProSeq	특유 콜	#SubSeq	SubSeq 유기체 동정 및 특유성, 비트 스코어	태스크 I	태스크 II	태스크 III
1000	VD2	89%	1	(G1)C.pne, TA, 145	C.pne TA	C.pne TA	양의 값의 C.pne
	VD4	91%	1	(G1)C.pne, TA, 145	C.pne TA
	rpoB	80%	2	(G2)C.pne, SU, 307 (G3)C.pne, TA, 73	C.pne TA
100	VD2	100%	1	(G1)C.pne, TA, 164	C.pne TA	C.pne TA
	VD4	97%	1	(G1)C.pne, TA, 156	C.pne TA
	rpoB	80%	2	(G2)C.pne, SU, 343 (G3)C.pne, TA, 87	C.pne TA
100	VD2	83%	1	(G1)C.pne, TA, 136	C.pne TA	C.pne TA
	VD4	91%	1	(G1)C.pne, TA, 145	C.pne TA
	rpoB	84%	2	(G2)C.pne, SU, 318 (G3)C.pne, TA, 82	C.pne TA
10	VD2	100%	1	(G1)C.pne, TA, 164	C.pne TA	C.pne TA
	VD4	97%	1	(G1)C.pne, TA, 156	C.pne TA
	rpoB	90%	2	(G2)C.pne, SU, 340 (G3)C.pne, TA, 89	C.pne TA
10	VD2	100%	1	(G1)C.pne, TA, 164	C.pne TA	C.pne TA
	VD4	93%	1	(G1)C.pne, TA, 148	C.pne TA
	rpoB	11%	0	Null, Null	Null, Null
(G1) J138 (BA000008), AR39 (AE002167), Tw-183 (AE017159), Cpne (M69230,AF131889,AY555078,M64064,AF131229,AF131230) (G2) Cpne (S83995) (G3) J138 (BA00008), AR39 (AE002167), Tw-183 (AE017159) SU : SeqUniqu의 약어 TA : TaxAmbig의 약어

인플루엔자 및 인간 아데노바이러스(HAdV)는 이전 연구에서 논의된 바와 같은 상세한 균주 수준 차이를 용인하는 선정된 ProSeq를 보유하는 유일한 병원체였다(19, 20, 21). 수동적 분석법을 사용한 이러한 이전 연구에서 마이크로어레이 결과가 임상 샘플에 대한 종래의 서열화 결과와 아주 우수하게 일치함을 발견하였다. 원(raw) 마이크로어레이 결과에 대한 갱신된 NCBI 데이타베이스를 사용한 CIBSI 2.0 프로그램을 실행한 결과를 이전 결과와 비교하였다(표 2). 동정된 유기체는 사용된 데이타베이스 내 차이로 인해 원래의 결과와 동일하지 않았다. 사실, 상기 문헌으로부터 NCBI로 전송된 종래의 서열화 결과는 최상 스코어를 갖는 리턴 중에 존재하는 모든 샘플에 대해 발견하였다. 13종의 인플루엔자 A 중 8종 및 12종의 인플루엔자 B 중 3종의 경우, 태스크 I 및 II의 결과는 종래의 서열화가 단일 최상 리턴이고, 따라서 동정 유기체였음을 확인하였다. 헤마글루티닌(hemagglutinin) 유전자에 대한 데이타베이스 내 다수의 분리 서열로 인하여, 몇몇 경우에서 단일 특유 엔트리가 발견되지 않음은 놀라운 사실이 아니었다. 나머지 5종의 인플루엔자 A 샘플 각각의 경우, 반송된 다른 서열은 종래의 서열과 0.2% 미만까지 달랐다. 인플루엔자 B에 대해 특유 분리 동정을 이용하는 샘플이 더 적은 것은, 하이브리드화가 덜 발생하도록 하는, ProSeq에 대해 더 오래된 기준 서열을 사용하기 때문이었다(19). 또한 이는, 다수 서열이 샘플에 대해 반송되는 경우, 이들이 더 큰 유전적 변이를 최대 2%까지 나타냄을 의미하였다. 이러한 비교는, 단지 종래의 서열화된 영역이었던 헤마글루티닌(HA) ProSeq에 대한 태스크 I 수준에서의 알고리즘 분석만을 나타내었다. 이전 연구는 다수 ProSeq로부터의 일치(consensus)를 얻고자 하지 않았으므로, 태스크 III 결과에 대한 어떠한 비교도 있을 수 없었다. 태스크 III 수준 동정을 차폐하는 현 방법의 결과로서, 이러한 수준에서 기록된 유기체는 모든 샘플에 대해 덜 특이적(H3N2 또는 Flu B)이었다(부록 표 1A 및 1B). HAdV 샘플의 경우, 알고리즘은 또한 이전에 수동적 방법에 의해 수행되었던 더 미세한 규모의 차이를 재생하였다(나타내지 않음).

인플루엔자 A 및 B 임상 샘플의 HA ProSeqs로부터 동정된 병원체
샘플명	선행 문헌에 의한 균주 동정	GenBank 등록번호	CIBSI 2.0에 의한 HA3 ProSeq 동정	GenBank 등록번호
A/콜로라도/360/05	A/네팔/1679/2004 (H3N2)	AY945284	A/콜로라도/3 60/05^*	DQ265717
A/카타르/2039/05	A/네팔/1727/2004 (H3N2)	AY945272	A/카타르/203 9/05	DQ265707
A/괌/362/05	A/네팔/1679/2004 (H3N2)	AY945264	A/괌/362/05	DQ265715
A/이탈리아/384/05	A/네팔/1727/2004 (H3N2)	AY945272	A/이탈리아/3 84/05	DQ265713
A/터키/2108/05	A/네팔/1664/2004 (H3N2)	AY945265	A/터키/2108/ 05	DQ265718
A/한국/298/05	A/네팔/1727/2004 (H3N2)	AY945273	A/한국/298/0 5	DQ265710
A/일본/1337/05	A/말레이시아/2256/2004 (H3N2)	ISDN110616	A/일본/1337/ 05^*	DQ265712
A/일본/1383/05	A/말레이시아/2256/2004 (H3N2)	ISDN110616	A/일본/1383/ 05	DQ265711
A/에콰도르/1968/04	A/뉴욕/17/2003 (H3N2)	CY001053	A/에콰도르/1 968/04^*	DQ265716
A/이라크/34/05	A/크라이스트처치/178/2004 (H3N2)	ISDN110530	A/이라크/34/ 05	DQ265714
A/페루/166/05	A/마카우/103/2004 (H3N2)	ISDN64772	A/페루/166/0 5	DQ265708
A/뉴욕/2782/04	A/뉴욕/391/2005 (H3N2)	CY002056	A/뉴욕/2782/ 04^S*	DQ265709
A/영국/400/05	A/뉴욕/227/2003 (H1N1)	CY002536	A/영국/2005^*	DQ265706
(계속)
(계속)
샘플명	선행 문헌에 의한 균주 동정	GenBank 등록번호	CIBSI 2.0에 의한 HA3 ProSeq 동정	GenBank 등록번호
B/페루/1324/ 04	B/밀라노/66/04	AJ842082	B/페루/1324/ 04S*	DQ265728
B/페루/1364/ 04	B/밀라노/66/04	AJ842082	B/페루/1364/ 04S*	DQ265726
B/콜로라도/2 597/04	B/텍사스/3/2002	AY139049	B/콜로라도/2 597/04S*	DQ265724
B/일본/1905/ 05	B/텍사스/3/2002	AY139049	B/일본/1905/ 05S*	DQ265727
B/일본/1224/ 05	B/텍사스/3/2002	AY139049	B/일본/1224/ 05S*	DQ265719
B/알래스카/1 777/05	B/텍사스/3/2002	AY139049	B/알래스카/1 777/05S	DQ265730
B/영국/1716/ 05	B/텍사스/3/2002	AY139049	B/영국/1716/ 05S	DQ265723
B/영국/2054/ 05	B/텍사스/3/2002	AY139049	B/영국/2054/ 05*	DQ265722
B/하와이/199 0/04	B/테헤란/80/02	AJ784042	B/하와이/199 0/04	DQ265721
B/하와이/199 3/04	B/테헤란/80/02	AJ784042	B/하와이/199 3/04S*	DQ265720
B/애리조나/1 48/04	B/테헤란/80/02	AJ784042	B/애리조나/1 48/04*	DQ265725
B/애리조나/1 46/04	B/테헤란/80/02	AJ784042	B/애리조나/1 46/04*	DQ265729
^* 다수 리턴이 이러한 리턴으로 고정됨. ^S HybSeq가 다수 SubSeq로 분할됨.

미코플라즈마 뉴모니아에(Mycoplasma pneumoniae) 병원체에 대한 다음 검출 실시예는 표적 병원체에 대해 단지 단일 ProSeq였던 경우를 설명하며, 이는 알고리즘의 태스크 I에 대한 동정 유기체가 자동적으로 태스크 II의 결과이고 이러한 표적화된 병원체에 대한 태스크 III에서 고려된 유일한 ProSeq였음을 의미하였다. 이러한 ProSeq는 또한 미세 식별에 적절하지 않은데, 그 이유는 이것이 시타드헤신(cytadhesin) P1 유전자의 고도로 보존된 영역(345 bp)으로부터 선정되었기 때문이다. 40 마이크로어레이를 동일한 정제 핵산 스톡으로 테스트하였고 모든 경우에서 M. 뉴모니아에 또는 이의 아균주 분류학적 데이타베이스 엔트리를 인지한 것은 MaxScore에 고정시켰다. 이러한 리턴을 더욱 이해하기 위해, 테이타베이스 서열을 조사하였고, 데이타베이스 서열이 ProSeq를 생성하기 위해 사용된 기준 서열과 얼마나 잘 일치하는 지를 기초로 하여 서열을 A, B, C의 3 그룹으로 부분 분할하였다. 상기 3 그룹 내 데이타베이스 엔트리의 배치는 이 유전자 서열의 CLUSTAL 정렬로부터 결정하였다. 이 정렬은, 데이타베이스 엔트리가 ProSeq로 나타내지 않고, 더 미세한 차이를 가능하게 하는 충분한 변이 가능성을 포함하는 영역에서 서로 더욱 유의하게 다름을 확인하였다. 그룹 A의 구성원은 ProSeq와 정확히 일치하였고 마이크로어레이 상에서 서로 구별할 수 없었다. 유사하게도, 그룹 B의 구성원은 콜링된 염기가 T가 아니라 C인 199번째 위치를 제외하고는 ProSeq와 일치하였다. 그룹 C 서열은 더욱 가변적이고 ProSeq 내 다른 엔트리와는 구별될 수 있는 약간의 데이타베이스 엔트리를 포함하였다. ProSeq 중 95%가 하이브리드화된 M. 뉴모니아에의 40 실험 테스트의 경우에는, 그 결과의 65%만이 199번째 위치에서 명확한 염기 콜을 보유하였다. 염기 콜이 명확한 경우, 이는 항상 그룹 B 서열과 일치하였다. N 염기 콜이 199번째 위치에서 생성된 경우, 그룹 A 및 B 서열은 둘 다 동일한 스코어로 반송하였다. 이와 무관하게, 양의 값으로 동정된 표적 병원체는 테스트된 모든 샘플에 대해 M. 뉴모니아에였다.

이러한 예들은 단일 또는 다수 ProSeq가 표적 병원체에 적용되는 지의 여부와는 상관없이 결정이 어떻게 행해지는 지를 나타내었다. 이러한 예들은 또한 가능한 수준 차이가 선정된 ProSeq의 질에 의해 강력히 결정됨을 설명하였다. 몇몇 병원체의 경우 미세한 수준 차이가 요구되지 않을 수 있으며, RPM v1 상에서 현재 테스트된 선정은 만족스러운 정보를 제공할 것이다. CIBSI 2.0 알고리즘은 HybSeq 정보에 의해 지지될 수 있는 최대 수준 차이를 자동적으로 기록하는 그 성능을 증명하였다.

유전적 인접자(Genetic Near Neighbors)

알고리즘이 어떻게 밀접하게 관련된 유전적 종을 처리하는 지를 설명하기 위해, 비표적화된 병원체 샘플을 고려하였다. RPM v1 상에서 생체 위협 병원체 중 하나인 대두창 바이러스의 경우, 타당성 실시는 대두창 바이러스 DNA 주형이 검출되는 경우 항상 양의 값으로 동정함을 증명하였다. 어레이는 대두창 바이러스 검출을 위한 사이토카인 반응 개질자 B(VMVcrmB, ~ 300 bp) 및 헤마글루티닌(VMVHA, ~ 500 bp)으로부터 유래한 2가지 ProSeq를 보유한다. 하기 표 3은 밀접한 인접자인 우두 바이러스를 다양한 농도에서 비강 세척으로 스파이킹(spiking)한 각각의 ProSeq의 18회 실시에 대한 결과를 나타내었다. 하이브리드화한 ProSeq의 백분율은, 하이브리드화 패턴만이 단지 고려되는 경우 이러한 타일(tile)이 그 표적의 존재를 동정한다는 점을 추측할 수 있다는 점에서 충분하다. 이는 선정된 기준 서열이 최상의 선택이 아니었음을 나타내었다. 그러나, 알고리즘을 적용한 경우, 샘플 중 어떤 것도 사실상 대두창 또는 소두창 바이러스로서 동정되지 않았다. 우두 바이러스는 항상 VMVcrmB ProSeq에 대한 최고 스코어를 갖는 기재된 오르토폭스바이러스 종 중 하나였지만, 이는 단지 7가지 경우에서 가능한 종으로서 유일하게 검출하였다. VMVcrmB 하이브리드화의 최저 농도 및 단편을 갖는 3가지 샘플에서, 이 ProSeq는 하이브리드화의 원인일 수 있는 다수의 오르토폭스바이러스 종 중의 하나로서 대두창 바이러스를 동정하였다. 사용된 증폭 방법에 대한 검출 하한치는 이러한 농도 및 그 이상의 농도 사이에 존재하였다. VMVHA ProSeq는 오직 2개의 실험에서 오르토폭스바이러스 종을 동정하였고 대두창 바이러스를 고정된 최상의 스코어를 갖는 리턴 중 하나로서 기재하였다. 양쪽 모두의 경우, VMVcrmB ProSeq는 최상의 일치로서 우두 바이러스를 구체적으로 동정하였다. 하이브리드화된 ProSeq의 백분율은 샘플의 농도와 서로 관련되었다.

대두창 바이러스 ProSeq 상의 우두 샘플로부터 유기체 동정
CFU	ProSeq
	VMVCRMB		VMVHA
	%	동정체	%	동정체
5*10⁷	77.9	우두 바이러스	29.4	오르토폭스바이러스
5*10⁷	79.8	우두 바이러스	25.7	오르토폭스바이러스
1.6*10⁷	79.4	우두 바이러스	14.8	-
1.6*10⁷	77.5	오르토폭스바이러스^*	24.5	-
1.6*10⁷	76.8	우두 바이러스	21.6	-
1.6*10⁷	74.5	오르토폭스바이러스^*	17.3	-
5*10⁶	77.9	우두 바이러스	25.7	-
5*10⁶	78.3	오르토폭스바이러스^*	22.0	-
5*10⁶	73.0	우두 바이러스	13.0	-
5*10⁶	73.4	오르토폭스바이러스^*	7.8	-
1.6*10⁶	75.3	오르토폭스바이러스^*	8.6	-
1.6*10⁶	49.8	우두 바이러스	6.6	-
1.6*10⁶	65.5	오르토폭스바이러스^*	10.0	-
1.6*10⁶	62.9	오르토폭스바이러스^*	8.2	-
5*10⁵	58.4	오르토폭스바이러스^*	9.0	-
5*10⁵	56.2	오르토폭스바이러스	8.0	-
5*10⁵	49.0	오르토폭스바이러스	9.3	-
5*10⁵	44.6	오르토폭스바이러스	7.8	-
^* - 대두창 또는 소두창 바이러스가 아닌 오르토폭스바이러스 내 인접자 종만의 CFU - 군체 형성 단위

필터링

상기 예는 인간 인플루엔자 A/푸에르토리코/8/34 (H1N1) 균주 유래의 H1N1 뉴라미니다제 (NA1) 및 매트릭스 유전자에 대한 ProSeq의 HybSeq를 고려하여 알고리즘의 필터링 부분의 중요성을 설명하였다. 필터링이 요구되는 이유는, ProSeq의 HybSeq를 단일 질의의 BLAST로 전송하는 것이, 특히 염기 콜의 이용을 최대화한 BLAST 파라미터를 사용하는 경우, ProSeq에 상대적인 삽입 또는 결손을 갖는 균주에 대하여 스코어를 바이어싱할 수 있기 때문이다. 슬라이딩 윈도우 테스트는 필터링을 제어한 알고리즘의 일부였다. 필터링을 중단한 경우, 전체 HybSeq는 유의한 하이브리드화를 나타내는 2개의 인플루엔자 ProSeq에 대한 단일 부분 서열에 사용하였다. A/Weiss/43 (H1N1) 균주는 NA1 ProSeq의 HybSeq로부터 유래한 가장 가능한 균주로서 동정되었고, 반면에 매트릭스 ProSeq의 HybSeq가 정확히 A/푸에르토리코/8/34를 동정되었다. 바이어싱의 소스를 더욱 이해하기 위해, ProSeq를 생성하기 위해 사용된 기준 서열 및 균주 2종의 NA1 유전자의 CLUSTAL 정렬을 도 5에 도시하였다. 상기 2종의 균주는 95% 동일성(정렬된 1362개의 염기 중 67개 불일치)을 나타내었으나, A/푸에르토리코/8/34(서열 번호 3)와 비교하여 A/Weiss/43(서열 번호 2) 및 NA1 ProSeq(서열 번호 1) 모두에 삽입된 45 염기의 스트렛치가 있었다. 디폴트를 필터링하면서, NA1 ProSeq는, 알고리즘이 어떤 콜도 없는 큰 스트렛치를 마주치므로, 5개의 SubSeq로 분리하였다. 태스크 I에서, 알고리즘은, 더 짧은 3개의 SubSeq가 최상의 스코어로 고정된 A/푸에르토리코/8/34 균주를 비롯한 몇몇 분리균(isolates)으로서 H1N1의 동정 유기체를 가지는 한편, 다른 2개의 SubSeq가 가장 근접하게 일치되는 A/푸에르토리코/8/34 균주만의 동정 유기체를 갖는 점을 결정하였다. NA1 ProSeq에 의해 동정된 유기체는 A/푸에르토리코/8/34였는데, 그 이유는 SubSeq 중 하나가 훨씬 높은 스코어를 가졌기 때문이었다. 상기 ProSeq는 매트릭스 ProSeq에서 행해진 동일한 균주 동정을 지지하였다. 동정된 유기체는 A/푸에르토리코/8/34였는데, 그 이유는 2개의 ProSeq가 상기 유기체만을 검출하였기 때문이었다. 정확한 표적 병원체를 필터링으로 검출되었고 반면에 필터링이 없는 경우 표적 병원체의 동정 수준은 인플루엔자 A(H1N1 아형)였는데, 그 이유는 2종의 유기체, A/푸에르토리코/8/34 및 A/Weiss/43이 검출되었기 때문이었다. 바이어싱을 제거하기 위해 HybSeq를 SubSeq로 분리하는 것은 이러한 경우에 5개의 SubSeq 중 3개의 SubSeq에 대해 일어나는 바와 같이 동정 수준을 감소시킬 수 있다. 우두에 대한 선행 예는, 필터링을 사용하지 않은 경우 잘못된 종(카멜 폭스(Camel Pox) 또는 칼리트릭스 야쿠스(Callithrix jacchus) 동정이 일어날 수 있는 또 다른 예였다. 표 2의 임상 샘플은 다수의 SubSeq로 분리된 HybSeq가 매우 특이적 동정을 할 수 있음을 나타내었다.

부차적인 점으로서, 증폭을 위해 일반적인 것와 다르게 다양한 전략을 사용하는 경우, 본 방법에 기술된 바와 같이 추가적인 필터링을 수행하여 특이적 프라이머로부터 잠재적 바이어싱을 제거하는 것이 필요하였다. 도 5는 이러한 간섭의 예를 보여주기 위해 A/푸에르토리코/8/34의 하이브리드화에 대한 원(서열 번호 4) 결과 및 차폐 필터링된(서열 번호 5) 결과를 갖는다. 전술한 이유로 인한 바이어스를 갖는 문제점 이외에도 프라이머와 상호 작용하는 위치에 있기 때문에 필터링 후에 N이 형성되는 원 결과에 존재하는 18 염기의 서열이 있다. 이러한 염기 콜이 구성된 부분 서열에 포함되는 경우, ProSeq에 대한 질의는 부정확한 균주를 선호할 것이다.

알고리즘은 각각의 ProSeq의 질에 따라 최대 수준의 상세한 가능성 있는 (종 또는 균주)에 대한 병원체 동정을 성공적으로 제공하였다. 이 동정 성능은 비전문가 용도로 가능한 병원체의 동일성에 대한 최소 입력을 필요로 한다. 중요한 특성은, 잉여분의 제거, 상이한 관련 원형 서열의 비교, 및 데이타 제시의 단순화를 가능하게 하면서, 배열된(ordered) 그룹으로 유기체를 분류하고 유기체 엔트리 간의 관계를 제공하는 분류학적 데이타베이스의 이용을 완전히 자동화하게 한다는 것을 구체화하였다. 이는 데이타베이스, 즉 NCBI가 잉여적이고 최소 큐레이션(curation)에 적용하지만, 가장 성공적으로 사용되도록 갱신된 신규 서열을 지속적으로 수용하는 것을 가능하게 한다. 이는 단지 NCBI 데이타베이스만을 사용하는 것으로 설명하였지만, 다른 데이타베이스 또는 통상의 것도 용이하게 사용될 수 있고, 성능이 개선될 수 있었다. 알고리즘은 덜 가변적이거나 또는 고도로 보존된 ProSeq로 나타내는 병원체에 대한 모든 분석 수준에서 정확한 동정을 제공할 수 있었다. 더 가변적이거나 또는 신속하게 돌연변이화하는 병원체, 예를 들어 인플루엔자 A 바이러스, 태스크 I 및 II의 경우, 여전히 정확한 상세한 동정을 제공하지만, 태스크 III은 미세 규모 차이를 기록할 수 없었다. 종래의 서열화된 인플루엔자 바이러스 유전자 서열의 비교는 알고리즘이 데이타베이스에서 갱신을 위해 자동적으로 조절될 수 있음을 설명하였다. 알고리즘은 유전적으로 밀접한 (인접자) 균주에 의해 야기되는 것으로부터 특이적인 병원체에 의해 야기되는 ProSeq 상의 하이브리드화를 적절하게 구별하기 위한 그 성능을 증명하였고, 양성 오류의 일 잠재적 원인을 제거하면서 부정확한 동정을 하지 않았다. 원 하이브리드화 결과를 필터링하는 것은 잠재적 프라이머 간섭, 및 더 중요하게는 감소된 잠재적 바이어싱을 설명하는 연산 시간을 줄이기 위해 제공하였다. 이 간단한 통합 알고리즘은 충분하고 정확한 동정을 제공하여 RPM v1 또는 유사한 재배열 어레이 및 분석의 즉시 사용이 가능하다.

CIBSI 2.0 프로그램의 성공을 설명하는 이외에, 알고리즘을 개발하는데 포함된 작업은 적절한 ProSeq 선정의 중요성을 통찰하도록 하였다. RPM v1은 데이타베이스 유사성 검색을 사용한 다수 병원체 검출을 위해 구체적으로 디자인한 제1 재배열 어레이고, 본 출원에 대한 원형(prototype)으로서 제공하였다. 정확하게 디자인한 경우, 100 bp만큼 작은 단일 ProSeq는 명확하게 유기체를 동정하기에 충분할 수 있음을 설명하였다. 그러나, 몇몇 더 긴 ProSeq는 더 우수한 확증 및 병원체의 더 상세한 정보를 제공함을 분명히 나타낸다. 이 점에 대한 디자인의 강조는 일반적으로 임의의 병원체에 적용 가능한 성능에 대한 것이었다. 태스크 III의 성능에 대한 개선은 개개의 병원체에 대한 더 많은 정보를 요구할 수 있고 각각의 특이적 병원체 또는 병원체의 부류에 대해 개발되도록 해야할 수 있다. 또한 이러한 정보는 샘플과 데이타베이스 엔트리 간의 차이점이 유의한 돌연변이를 나타낸다는 점을 동정하기 위해 알고리즘을 필요로 할 수 있다. 데이타 분석의 계층적 디자인은 이미 수행된 분석에 따라 형성되는 분석을 통합하기가 용이할 수 있다. 적절하게 디자인된 재배열 마이크로어레이 및 이 자동화된 검출 알고리즘의 이용은, 상세한 균주 인지, 항생 내성 마커 및 병원성에 대한 정보에 접근하면서 미세 균주 수준 차이를 제공하는 동안, 다수의 유기체에 대해 동시에 테스트할 수 있는 분석을 개발하기 위해 나아갈 방향을 제공할 수 있다. 이는, 다수의 잠재적 원인(즉, 열성 호흡기 질환)을 갖는 병에 대한 차별적 진단, 신생 병원체의 추적, 감시 분야에서 무해한 유전적 인근자로부터 생물학적 위협의 구별, 및 공동 감염 또는 중복 감염의 영향 추적과 같은 분야에 대하여 다수 유기체로부터 부분 서열 정보의 분석을 가능하게 할 것이다. 표적 서열 세트 및 샘플의 질에 따라 동정의 상이한 정도를 기록하고 범주화하는 개념은 재배열 마이크로어레이에 한정되지 않으며, 기준 DNA 데이타베이스를 질의하기 위해 사용될 수 있는 서열 수준 콜을 방송할 수 있는 임의의 플랫폼에 일반적으로 더 적용가능하다. 다수 병원체에 대한 테스트를 하는 분석에 대한 경향이 증가함에 따라, 자동화 분석 툴, 예컨대 이와 같은 것은 그날 그날 바로 처리하는 비전문가에게 유용한 단순한 포맷에서 신속한 동정을 위해 더욱 중요해졌다.

소스 코드

하기에는 개시된 방법의 실시형태의 PERL 소스 코드 목록이 있다. "overclinical" 프로그램은 다른 프로그램을 실행하는 최고 수준의 프로그램이다. "fstorepi"는 필터링, 서열 생성, 및 질의 파일 생성을 수행한다. 이 프로그램은 N으로 변화되는 소정의 목록의 위치를 포함하는 입력 파일 "primerhyb.dat"에 사용한다. "runblast"는 BLAST 질의를 수행한다. "dbparse"는 분류학적 분석을 수행한다. 이 프로그램은 각각의 ProSeq에 대한 표적 병원체의 목록을 포함하는 입력 파일 "chip1pathogengroups"를 사용한다.

명백하게도, 본 발명의 다수 변경예와 변형예는 상기 교시에 비추어 가능하다. 그러므로, 청구된 발명이 구체적으로 기재된 바와 같은 것 외에도 실시할 수 있음을 이해할 수 있을 것이다. 단수, 예를 들어 항목 "a," "an," "the," 또는 "said"를 사용하는 구성 요소를 청구하는 임의의 기준은 단수인 구성 요소로 제한하는 것으로 해석되지 않는다.

서열목록 전자파일 첨부

Claims

분석으로부터 얻어진 생물학적 서열을, 프로그램을 구비한 컴퓨터에 의해 처리하는 방법으로서,
생물학적 서열 내 소정의 위치 목록에 자리하고 있는 염기 콜을 모호한 (N) 염기 콜로서 차폐하는 단계로서, 생물학적 서열 내 특유 염기 콜은 모호한 (N) 염기 콜이 아니고, 상기 소정의 위치 목록 내 각각의 엔트리는 생물학적 서열을 생성시키는 데 사용되는 마이크로어레이에 하이브리드화하는 물질의 성능을 나타내고, 상기 물질은 표적 병원체의 핵산이 아닌 것인 단계; 및
특유 염기 콜의 총 수에 대한, 기준 서열에 상대적인 생물학적 서열 내 단일 뉴클레오티드 다형의 비율을 결정하는 단계를 포함하고,
상기 단계들은 상기 프로그램을 구비한 컴퓨터에 의해 수행하는 방법.
제1항에 있어서, 상기 물질은 PCR 프라이머인 방법.
제1항에 있어서, 상기 단일 뉴클레오티드 다형의 비율이 SNP (단일 뉴클레오티드 다형) 분계점 미만인 경우, 상기 생물학적 서열로부터 최초 길이의 잠재적 부분 서열을 선정하는 단계; 및
상기 잠재적 부분 서열 내 특유 염기 콜의 총 함량을 계산하는 단계
를 더 포함하는 방법.
제3항에 있어서, 상기 SNP 분계점은 약 20%인 방법.
제3항에 있어서,
상기 특유 염기 콜의 총 함량이 특유 염기 콜 분계점 초과인 경우, 하나의 염기만큼 잠재적 부분 서열을 연장하는 단계;
상기 연장된 잠재적 부분 서열 내 특유 염기 콜의 총 함량을 재계산하는 단계;
상기 특유 염기 콜의 총 함량이 특유 염기 콜 분계점 미만이 될 때까지 연장 및 재계산을 반복하는 단계;
상기 연장된 잠재적 부분 서열로부터 추적하는(trailing) 모호한 (N) 염기 콜을 제거하여 질의 부분 서열을 형성시키는 단계; 및
상기 질의 부분 서열 내 특유 염기 콜의 총 함량을 계산하는 단계
를 더 포함하는 방법.
제5항에 있어서, 상기 특유 염기 콜 분계점은 약 40%인 방법.
제5항에 있어서, 상기 연장 및 재계산 단계를 반복하는 단계는, 상기 연장된 잠재적 부분 서열의 최종 21개 위치가 4 미만의 특유 염기 콜을 갖는 경우, 중단하는 것인 방법.
제5항에 있어서, 상기 질의 부분 서열의 길이 및 상기 질의 부분 서열 내 특유 염기 콜의 총 함량이 소정의 요건을 충족하는 경우, 상기 질의 부분 서열을 질의로 유전적 데이타베이스에 전송하여 생물학적 서열을 동정하는 단계를 더 포함하는 방법.
제8항에 있어서, 상기 요건은,
상기 질의 부분 서열이 적어도 7개의 연속적인 특유 염기 콜을 포함하는 것; 및
상기 질의 부분 서열의 길이가 100 염기 초과이거나, 상기 질의 부분 서열의 길이가 30 ~ 100 염기이고 상기 질의 부분 서열 내 특유 염기 콜의 총 함량이 적어도 약 ((상기 질의 부분 서열의 길이-30)*0.2857+70)%이거나, 또는 상기 질의 부분 서열의 길이가 30 염기 미만이고 상기 질의 부분 서열 내 특유 염기 콜의 총 함량이 적어도 약 95%인 것
을 포함하는 것인 방법.
삭제
삭제