KR101023163B1 - 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법 - Google Patents

컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법 Download PDF

Info

Publication number
KR101023163B1
KR101023163B1 KR1020087001309A KR20087001309A KR101023163B1 KR 101023163 B1 KR101023163 B1 KR 101023163B1 KR 1020087001309 A KR1020087001309 A KR 1020087001309A KR 20087001309 A KR20087001309 A KR 20087001309A KR 101023163 B1 KR101023163 B1 KR 101023163B1
Authority
KR
South Korea
Prior art keywords
taxonomic
proseq
class
sequence
identification
Prior art date
Application number
KR1020087001309A
Other languages
English (en)
Other versions
KR20080057218A (ko
Inventor
안토니 피. 말라노스키
바오쿠안 린
조엘 엠. 슈너
데이비드 에이. 스텐저
Original Assignee
미합중국 (관리부서 : 미합중국 해군성)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/177,646 external-priority patent/US20060210967A1/en
Priority claimed from US11/268,373 external-priority patent/US20080020379A1/en
Priority claimed from US11/422,431 external-priority patent/US7623997B2/en
Application filed by 미합중국 (관리부서 : 미합중국 해군성) filed Critical 미합중국 (관리부서 : 미합중국 해군성)
Publication of KR20080057218A publication Critical patent/KR20080057218A/ko
Application granted granted Critical
Publication of KR101023163B1 publication Critical patent/KR101023163B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 발명은 기준 서열을 분류학적 데이타에 전송하여 분류학적 결과를 산출하는 단계; 및 분류학적 결과를 기초로 분류학적 동정을 기록하는 단계를 포함하는 방법에 관한 것이다. 기준 서열은 각각의 기준 서열에 대한 스코어를 반송하는 유전적 데이타베이스 질의의 출력이다. 본 발명은 생물학적 서열 내 선결정된 위치 목록에 자리잡고 있는 염기 콜을 N으로 전환하는 단계; 및 기준 서열에 상대적인 생물학적 서열 중 단일 염기 다형의 비율을 결정하는 단계에 의한 분석으로부터 얻어진 생물학적 서열을 프로세싱하는 방법에 관한 것이다. 선결정된 위치 목록의 각각의 엔트리는 생물학적 서열을 생성하기 위해서 사용된 마이크로어레이에 하이브리드화하는 물질의 성능을 나타낸다. 상기 물질은 표적 병원체의 핵산이 아니다.

Description

컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법{COMPUTER-IMPLEMENTED BIOLOGICAL SEQUENCE IDENTIFIER SYSTEM AND METHOD}
관련 출원
본 출원은 2005년 6월 16일에 출원된 미국 가특허 출원 제60/691,768호; 2005년 11월 14일에 출원된 미국 가특허 출원 제60/735,876호; 2005년 11월 14일에 출원된 미국 가특허 출원 제60/735,824호; 2006년 5월 22일에 출원된 미국 가특허 출원 제60/743,639호; 2006년 6월 6일에 출원된 미국 가특허 출원 제11/422,425호; 및 2006년 6월 6일에 출원된 미국 가특허 출원 제11/422,431호를 기초로 우선권을 주장한다. 본 출원은 2005년 7월 2일에 출원된 미국 특허 출원 제11/177,647호; 2005년 7월 2일에 출원된 미국 특허 출원 제11/177,646호; 및 2005년 11월 7일에 출원된 미국 특허 출원 제11/268,373호의 일부 계속 출원이다. 이들 정규 출원은 2004년 7월 2일에 출원된 미국 가특허 출원 제60/590,931호; 2004년 9월 15일에 출원된 미국 가특허 출원 제60/609,918호; 2004년 11월 5일에 출원된 미국 가특허 출원 제60/626,500호; 2004년 11월 29일에 출원된 미국 가특허 출원 제60/631,437호; 및 2004년 11월 29일에 출원된 미국 가특허 출원 제60/631,460호를 기초로 우선권을 주장한다.
기술 분야
본 발명은 일반적으로 생물학적 서열의 처리 방법에 관한 것이다.
감시 분야 및 진단 분야 둘 다를 위해서는, 미세 규모 병원체 동정 및 인접자(near neighbor) 식별이 중요하므로, 이러한 매우 특이적 수준에서 모니터링하는 분석은 임상 환경에서 바람직하다(1-3). DNA 또는 RNA 검출을 기초로 한 임의의 방법을 성공적으로 사용하기 위해서, 상기 분석들은, 원하는 정보 제공을 확보하기 위한 분석 설계 및 원자료의 해석을 위한 핵산 서열 정보로 이루어진 다수의 데이터베이스와 연결해야 한다. 실시간 PCR과 같은 잘 확립된 몇몇 기법들은 우수한 특이성을 제공하기 위해 서열화된 게놈의 짧고, 특유한 스트렛치를 사용한다(4). 이들 기법은 충분한 수의 단편을 선정하여 유전적으로 밀접한 몇몇 유기체의 미세 규모 동정을 제공할 수 있다. 그러나, 최초 선정 공정에서 특이적인 이러한 선정 단편들은 더 많은 유기체가 서열화됨에 따라 추후 종종 특이성이 떨어지는 것으로 확인된다. 이는 돌연변이율이 높은 과에 속하는 병원체 및 동정된 비교적 인접하지 않는 병원체를 갖는 병원체에 있어서 특히 문제가 된다. 또한, 실시간 PCR은 신규 중요한 돌연변이의 존재를 검출할 수 없거나 또는 염기 서열 세목을 분석할 수 없다. 유사하게도, 다른 검출 기법에서 병원체 동정을 얻는 방법이 개선되었으나 PCR을 사용하는 몇몇 또는 모든 문제들을 겪고 있다(5-6).
고밀도 재배열 마이크로어레이는 직접 서열 정보로 된 102-105 염기쌍(bp)의 가변 길이 단편을 제조할 수 있다. 이들은 바이러스, 박테리아, 및 진핵 게놈으로 부터 단일 염기 다형(SNP) 및 유전적 변이를 검출하기 위해 성공적으로 사용하였다(9-16). SNP 검출에의 이들의 사용은 신뢰할 수 있는 품질 서열 정보를 제공하는 그 능력을 명확히 확립하였다. 대부분의 경우, 마이크로어레이는 제한된 수의 유전적 유사 표적 병원체를 연구하기 위해 디자인하며, 다수의 경우에 있어서, 검출 방법은 단지 동정을 위해 하이브리드화 패턴을 인지하는 것에 의존하였다(12, 14, 15, 17, 18). SNP 검출에 요구되는 재배열 마이크로어레이의 순차적 염기 분석력을 이용할 때, 재배열은, 밀접하게 관련된 병원체의 미세한 식별을 가능하게 하고 표적화된 병원체 내 돌연변이를 추적하면서, 다수 박테리아성 및 바이러스성 병원체의 병원체 동정을 위한 다른 접근법을 사용함으로써 최근 성공적으로 개조되었다(19-21). 신규 방법론은 관찰된 하이브리드화으로부터 염기 콜(base call)과 일치하는 가장 유사한 종 및 변이체를 동정하기 위해 DNA 데이타베이스 유사성 조사의 질의로서 분석된 염기를 사용함으로써 이전 연구와 달랐다. 시스템은 26종의 병원체를 동시에 테스트할 수 있었고 다수 병원체의 존재를 검출할 수 있었다. 소프트웨어 프로그램, 재배열 병원체 동정자(REPI; REsequencing Pathogen Identifier)는 유전자 위치 정보 검색(BLAST; Basic Local Alignment Search Tool)을 이용하여 유전적 데이타베이스의 유사성 조사를 수행함으로써 데이타 분석을 단순화하기 위해 사용하였다(22). REPI 프로그램은 BLAST 기본 설정을 사용하였고, 기대치, 즉 확인된 서열 일치가 데이타베이스에서 무작위적 우연에 의해 발생할 가능성을 나타내는 BLAST 프로그램에 의해 계산된 양이 10-9 미만이라면, 하이브리드화를 나타내 는 서열을 단지 반송할 것이다. 이는 불충분한 신호 전달을 가진 모든 경우를 스크리닝하였지만, 어떤 병원체가 검출되는 지 및 어느 정도의 식별이 가능한 지에 대한 최종 결정은 반송된 결과의 수동 조사를 필요로 하였다. 이러한 방법은 종래의 샘플 결과에 따라 Flu A 및 B 샘플의 균주 동정과 다양한 아데노바이러스의 미세 식별을 성공적으로 가능하게 하였다(19, 20). 이러한 연구 방법의 2가지 중요한 이점은 정보가 항상 가능한 가장 상세한 수준에서 회수된다는 점과 정보가 최신 돌연변이를 갖는 유기체를 여전히 인지할 수 있다는 점이었다. 또한 상기 연구 방법은, 이것이 더 많은 유기체가 서열화되는 경우 일정하게 잠식되는 짧은 서열의 특유성에 의존하지 않으므로, 특이성을 잘 유지하였다.
상기 분석 방법은 유용성이 있지만, 몇몇 결점도 있는데, 즉, 시간 소모적이고, 민감도를 극대화하기에 적절하지 않으며, 복잡한 결과를 나타내고, 전문가용으로서만 적합하며, 잉여 또는 중복 정보를 포함한다. 상기 공정은, 최초 스크리닝만이 자동적으로 취급되며, 반면에 나머지 단계들이 검출 분석을 종결하기 전 수동 해석을 필요로 하기 때문에 시간 소모적이었다. 단순한 기준(기대치 확정 범위 10-9) 및 최적화되지 않은 BLAST 파라미터는 검출된 병원체를 고려하기 위해 사용되므로, REPI 알고리즘은 후보 유기체 목록을 제공하지만, 최종적인 단순 결론을 맺지 못하거나 하나의 원형 서열의 결과를 또 다른 것과 연계시킬 수 없었다. 대신, 최종 결정을 위하여 수동적 방법이 사용되었으나, REPI 프로그램이 모든 유사한 결과 및 잉여 엔트리를 포함하는 공공 핵산 데이타베이스의 이용을 제공하므로, 사용자 에게 쓸모 없는 다량의 데이타가 제공되었다. 또한, 수동적 방법을 사용하여, 개발된 알고리즘을 일반적으로 핵산 염기가 결정된 서열 정보가 제공된 임의의 유기체에 적용 가능하도록 확립하는 것은 불가능하였다.
발명의 개시
본 발명의 일 방법은, 다수의 기준 서열을 질의(query)로 분류학적 데이타베이스에 전송하여 다수의 분류학적 결과를 산출하는 단계, 및 상기 분류학적 결과를 기초로 한 분류학적 동정을 기록하는 단계를 포함한다. 기준 서열은 각각의 기준 서열에 대한 스코어(Score)를 반송하는 유전적 데이타베이스 질의의 출력이다.
분석으로부터 얻어진 생물학적 서열을 처리하는 본 발명의 또 다른 방법은, 생물학적 서열 내 선결정된 위치 목록에 자리하고 있는 염기 콜을 N으로 전환하는 단계, 및 기준 서열에 상대적인 생물학적 서열 중 단일 염기 다형의 비율을 결정하는 단계를 포함한다. 선결정된 위치 목록 중 각각의 엔트리는 생물학적 서열을 생성시키는 데 사용되는 마이크로어레이와 하이브리드화하는 물질의 성능을 나타낸다. 상기 물질은 표적 병원체의 핵산이 아니다.
본 발명의 더욱 완전한 이해는 하기 실시예 실시양태의 설명 및 첨부 도면을 참조함으로써 용이하게 얻어진다.
도 1은 3가지 메인 태스크와 태스크와 관련된 서브 태스크의 로직과의 관련성을 나타내는 알고리즘의 개략도이다. 태스크 I은 필터링 및 부분 서열 선정을 수행한 후, 원형 서열이 어느 데이타베이스 기록과 가장 유사한 지를 결정한다. 태스 크 II는 원형 서열 동정이 공통적인 유기체 동정을 지지하는 지를 계산한다. 태스크 III은 마이크로어레이 데이타로부터 검출된 유기체의 최종 조사 및 결정을 행한다. ProSeq: 원형 서열; SubSeq: 부분 서열; HybSeq: 하이브리드화 서열.
도 2는 태스크 I의 필터링 서브 태스크의 상세한 개략도이다. 각각의 ProSe의 경우에는, 프라이머 영역을 N(모호한) 콜로서 차폐한 후, UniRate를 HybSeq로부터 계산하였다. UniRate 요건을 통과한 ProSeq의 경우에는, 변경된 슬라이딩 윈도우 알고리즘(revised sliding window algorithm)을 시도하여 BLAST에 대한 질의로서 사용될 수 있는 SubSeq를 증가시켰다. 성공적으로 증가된 SubSeq의 동일성(ProSeq 중 개시 위치 및 길이)은 BLAST를 매개로 하여 질의하는 배치 파일에 배치하였다.
도 3은 개개의 SubSeq에 대한 유기체 동정에 관여하는 태스크 I의 서브 태스크의 상세한 개략도이다. BLAST에 전송된 각각의 SubSeq는 최상의 비트 스코어/기대치 쌍(MaxScore)을 찾기 위해 자세히 살펴보게 되는 Return 어레이에 포함된 가능한 일치 목록을 반송하였다. MaxScore가 MIN(10-6)보다 더 큰 경우, 상기 최상의 스코어를 갖는 모든 Return을 신규 어레이 Rank1 내로 분류하였다. 상세한 결정 과정을 본원의 방법 섹션에 기술하였고 그 후 SubSeq의 유기체를 동정하였다.
도 4는 SubSeq에 대하여 확인된 결과를 기초로 하여 ProSeq에 대하여 결정된 유기체를 결정하는 태스크 I의 서브 태스크의 개략도이다. 특정 ProSeq의 모든 SubSeq는 서로 비교하여 2개의 최상의 스코어를 갖는 SubSeq를 결정한다. 단일 SubSeq 또는 다른 것보다 훨씬 더 우수한 스코어를 갖는 것이 존재하는 경우, ProSeq는 상기 SubSeq의 특성을 유전하였다. 그렇지 않은 경우 공통적인 분류학적 부류는 특허 명세서에서 기술된 바와 같이 결정하였다.
도 5는 인플루엔자 A NA1 ProSeq 및 A/Weiss/43, A/푸에르토리코/8/34 균주의 정렬도이다. 또한 A/푸에르토리코/8/34의 미정제 및 필터링된 하이브리드화 칩 결과를 도시하였다. *는 완벽하게 일치된 서열을 나타낸다.
하기 설명에서, 한정함이 없이 설명할 목적으로, 본 발명의 완전한 이해를 제공하기 위해 구체적인 상세한 설명을 서술한다. 그러나, 본 발명이 이들 구체적인 상세한 설명으로부터 벗어난 다른 실시형태로 실시될 수 있음은 당업자에게 자명하다. 다른 예에서, 잘 알려진 방법 및 장치의 상세한 설명은 생략하여 불필요한 상세한 설명으로 본 발명의 기술 내용을 모호하게 하지 않도록 하였다.
본원에서 사용된 바와 같이, 용어 "서열"은 핵산 서열, 예컨대 DNA 또는 RNA, 또는 단백질 서열를 의미한다. 본원에서 사용된 바와 같이, "염기" 및 "염기 콜"은 뉴클레오티드 염기 또는 아미노산을 의미할 수 있다. 본원에서 사용된 바와 같이, 용어 "분류학상"은 속, 종, 균주, 및 아균주를 포함하나, 이들에 한정되지 않는, 병원체의 동정에 대한 임의의 수준 또는 부류를 의미할 수 있다. 본원에서 사용된 바와 같이, 용어 "기록"은 한 시스템에서 다른 시스템으로의 신호를 전송하는 것 및 인간이 판독가능한 임의 형태의 보고서를 생성하는 것을 포함할 수 있다. 개시된 모든 방법은 본 방법을 수행하기 위한 수단을 갖는 장치에서 컴퓨터로 구현될 수 있다.
검출된 유기체의 단순 목록을 제공하기 위해 통상 디자인된 애피메트릭스 재배열 마이크로어레이로부터 결정된 염기 서열 정보를 성공적으로 사용할 수 있는 신규 소프트웨어 전문 시스템, 컴퓨터로 구현된 생물학적 서열 동정자 시스템 2.0(Computer-Implemented Biological Sequence Identifier system 2.0)이 개시된다. 이 알고리즘은 병원체 동정을 완전히 자동화하기 위해 새로운 특성을 통합시킴으로써 선행 방법의 결점을 처리한다. 단일 프로그램은, 개선된 민감도와 함께, 단독으로 검출되는 지 또는 조합하여 검출되는 지에 있어, 검출 RPM v1 마이크로어레이에 포함된 모든 26종의 병원체에 대하여 정확한 결정을 할 수 있다(19, 20, 23). 상기 프로그램은 현재 재배열 마이크로어레이에 적용하고 있지만, 알고리즘의 제1 부분만이 마이크로어레이에 특이한 문제를 처리하는 한편 나머지 부분은 BLAST 알고리즘에 의해 질의로서 사용하기에 적절한 서열을 처리하기 때문에 개발된 방법론은 일반적으로 적용 가능하게 된다. 일반적인 동정 알고리즘을 개발하는 데 있어서, 그 이용을 복잡하게 하는 재배열 마이크로어레이에 특이한 문제를 확인하고 분석하였다. 검출되는 것에 대한 전체적인 결정 방법을 자동화하였으므로, 동정하기 위해 사용된 규칙이 임의의 병원체에 정확하고 적용 가능한 지를 테스트하기가 수월하다. 이러한 효율적인 프로그램을 사용하여, 재배열 기초 분석은, 비전문가에 의해 해석될 수 있는 출력을 제공하면서, 다수의 가능한 병원체를 동시에 테스트하기 위한 경쟁력 있는 방법을 제공할 수 있다.
증폭, 하이브리드화, 및 서열 결정
RPM v1 마이크로어레이 디자인의 상세한 설명 및 실험적 방법은 선행 문헌(19, 20, 23)에서 논의하였다. 본 발명의 분석에 사용된 실험적 마이크로어레이 데이타는 다양한 정제 주형 및 임의의 다양한 증폭 기구를 사용한 임상 샘플을 사용하여 획득되었다. GCOS 소프트웨어 v1.3(미국 캘리포니아주 산타 클라라 소재의 애피메트릭스사 제조)은 하이브리드화된 마이크로어레이를 정렬하고 스캔하기 위해 사용하여 모든 프로브 세트 중 각각의 프로브의 강도를 결정하였다. 염기 콜은, ABACUS 알고리즘의 구현에 사용되는 GDAS v3.0.2.8 소프트웨어(미국 캘리포니아주 산타 클라라 소재의 애니메트릭스사 제조)를 사용하여, 각각의 프로브 세트의 강도 데이타를 기초로 구성하였다(11). 상기 서열은 추후 분석 단계를 위해 FASTA 포맷으로 나타냈다.
재배열 마이크로어레이(RPM v1)는 선결정된 하이브리드화 패턴에 의지하지 않고 ProSeq를 기초로 한 열성 호흡기 질환을 야기하는 것으로 알려진 20가지 일반적인 호흡기 병원체 및 6 CDC 카테고리 A 생체 위협(biothreat) 병원체의 서열 부류 및 검출을 위해 먼저 디자인하였다. 다른 증폭 기구, 단일 및 다수 병원체 표적, 정제 핵산 및 임상 샘플을 사용하여 수행되는 대략 4000 RPM v1 실험이 병원체 동정 알고리즘을 개발하기 위하여 조사하였다. 임상 샘플, 동정 병원체 및 정제 핵산을 사용하는 이러한 알고리즘을 사용한 결과는 다른 연구에서 상세하게 논의하였다(19, 20, 23). 모든 경우에서, 알고리즘은 RPM v1에 나타낸 ProSeq의 길이에 따라, 종 또는 균주 수준에서 유기체를 정확하게 동정하였다. 다양한 조건 하에 알고리즘이 어떻게 수행되는 지를 설명하기 위해 몇몇 구체적인 예가 논의될 것이다.
CIBSI 2.0 프로그램은 3가지 태스크의 분류 체계를 처리하였다(도 1): (I) 검출된 유기체가 어느 데이타베이스 기록과 가장 유사한 지를 결정하고, (II) 별개의 표적으로부터의 동정이 공통적인 유기체 동정을 지지하는 지를 결정하며, (III) 검출된 유기체가 분석을 디자인하여 검출하는 표적 세트에 속하는 지 또는 밀접한 유전적 인근자와 관련되는 지를 결정한다. 표적 병원체는 분석을 구체적으로 디자인하여 검출한 유기체이다. 본원에서 사용되는 바와 같이, 표적 병원체 게놈으로부터 선정되는 기준 서열을 나타내는 프로브 세트는 간략히 원형 서열 또는 "ProSeq"으로서 언급한다. ProSeq에 대한 게놈 물질의 혼성화로부터 기인되는 결정된 염기 세트는 혼성화 서열 또는 "HybSeq"로 나타낸다. HybSeq는 가능한 하위 서열 또는 "SubSeq"로 나뉘어진다. 알고리즘의 일 부분은 ProSeq계 유기체 동정을 처리하며 3 단계, 즉, 서열 유사성 비교에 적합한 SubSeq로 개개의 HybSeq를 최초 필터링하는 단계, 개개의 SubSeq를 데이터베이스 질의하는 단계, 및 각각의 SubSeq에 대한 BLAST 리턴(return)의 분류학적 비교 단계로 처리된다. 다음 단계에서, ProSeq는 이들이 같은 동정 유기체를 지지하는 지를 확인하기 위해 비교하였다. 최종 단계에서, 검출된 유기체는 임의의 유기체가 양의 값으로 검출되는 지를 확인하기 위해 분석법을 디자인한 표적 병원체의 리스트와 비교하였다. 특정 샘플이 지지되는 식별 수준은 자동적으로 결정되었다.
필터링
최초 필터링 알고리즘, 즉, 재배열 병원체 동정자(REsequencing Pathogen Identifier; REPI)가 먼저 개발되었고(20), 변경을 포함하는 일반적인 개념이 CIBSI 2.0 프로그램에 사용된 현 (자동화 검출) 알고리즘 내로 통합하였다. 필터링 및 부분 서열 선정법을 사용하여 기준 서열 선정에 의해, 그리고 다른 소스(프라이머)에 의해 발생하는 잠재적 바이어싱(biasing)을 제거할 뿐만 아니라 HybSeq를 더 신속한 탐색에 유의한 단편으로 분리하였다. 이는 도 1에서 태스크 I의 제1 서브 태스크였고, 도 2에서 개략적으로 상세하게 도시하였다. PCR 증폭을 사용한 경우, 마이크로어레이를 단지 프라이머의 존재 하에 하이브리드화하여 마이크로어레이가 하이브리드화를 초래한 위치를 결정하였다. 프라이머를 사용하여 하이브리드화된 ProSeq의 임의의 부분을 N 콜로서 차폐하여 HybSeq는 바이어싱된 정보를 포함하지 않았다. 각각의 ProSeq의 경우에는, 특유한 염기 콜의 총수에 대한 SNP의 비, UniRate는 HybSeq로부터 산출하였다. UniRate가 ≥ 20%(SNP 분계점)인 경우 불충분한 하이브리드화를 갖는 HybSeq를 제거하기 위하여, ProSeq는 표적 유기체 검출에 대해 음의 값인 것으로 고려된다. UniRate 20%는 평균적으로 25 bp당 5 SNP임을 나타내었다. 표적 병원체와 유사한 유기체와 ProSeq를 기초로 한 기준 서열 간의 이러한 빈도 차이를 사용하여 25 bp 프로브의 유의한 특이 하이브리드화를 예상하는 것은 비현실적이다. 이는 필터링 서브 태스크를 종결하고 태스크 I 루프로 반송하며, 다음 ProSeq를 조사할 것이다. < 20%의 비율을 갖는 ProSeq의 경우에는, 더 상세한 조사를 수행하였다. HybSeq의 각각의 위치에서, 변경된 슬라이딩 윈도우 알고리즘(20)을 시도하여 BLAST에 대한 질의로서 사용될 수 있는 SubSeq를 증가시켰다. 처음에, 일 위치 다음의 제1 20 염기(최초 길이)를 조사하였다. 이 염기의 60% 미만이 모호한 경우(N), SubSeq는 연장 단계에 진입하였다. SubSeq는, 특유 염기 콜의 총 함량이 40% 이하(특유 염기 분계점)로 감소될 때까지 또는 최종 21 염기를 포함하는 슬라이딩 윈도우가 4 미만의 특유 염기 콜을 갖는 경우, 1회 1 염기를 연장하였다. 이는 단지 20 염기의 슬라이딩 윈도우가 사용되는 REPI 알고리즘과는 다르며, 윈도우 함량의 40% 미만이 특유 염기 콜인 경우 SubSeq의 증가는 중단하였다. 이러한 점에서, SubSeq가 조사되고 추적(trailing) N 콜을 제거하였다. BLAST의 단어 크기 파라미터를 충족시키고 추가 분석을 위한 SubSeq를 유지하기 위하여 7개의 연속적인 특유 염기 콜을 갖는 적어도 1개의 위치가 필요하였다. 100 염기 초과의 SubSeq를 수용하였다. 수용에 있어서, ≤ 30 염기의 SubSeq는 적어도 95% 특유 염기 콜("N"이 아님)을 필요로 하였다. 30 ~ 100 염기를 갖는 SubSeq의 경우에는, 부분 서열 수용은 적어도 VARI(("SubSeq 길이"-30)*0.2857+70)% 특유 염기를 필요로 한다. ≥ 80 염기의 SubSeq의 경우에는, BLAST 단어 크기 파라미터는 이것이 적어도 11개의 연속적인 염기를 포함하는 경우 11로 수정하였다. 성공적으로 증가된 SubSeq의 동일성(ProSeq 중 개시 위치 및 길이)은 각각의 SubSeq와 관련된 정보를 보유하는 SubSeq 어레이 내 엔트리에 배치하였다. 이러한 동일성 및 SubSeq를 BLAST를 매개로 하여 질의하는 배치 파일에 배치하였다. 이 절차를 이전의 성공적인 SubSeq의 말단으로부터 지속시킴으로써, 또는 실패한 경우, HybSeq의 말단까지로부터 윈도우가 최초 증가된 지점으로부터 지속시킴으로써 반복하였다. 종료시, 알고리즘은 태스크 I 루프로 반송하였고 BLAST 서브 태스크를 수행하였다.
데이타베이스 질의
BLAST 서브 태스크는 질의로서 SubSeq를 사용한 데이타베이스의 배치 유사성 조사를 수행하였다. 사용된 BLAST 프로그램은 한정된 세트의 파라미터를 갖는 NCBI Blastall -p blastn version 2.12였다. 시딩(seeding) 구간이 질의 속도를 높이도록 저복합 영역의 차폐를 수행하였지만, 사실상 스코어링에 저복합성 반복을 포함하였다. 2006년 2월 7일자로 획득한 NCBI로부터의 전체 뉴클레오티드 데이타베이스는 참조 데이타베이스로서 사용하였다. (개발 중에 데이타베이스 초기 이미지를 사용하였고 거의 모든 실험을 이 시기에 얻은 데이타베이스의 이미지로 기술된 알고리즘으로 재실행하였음을 유념할 것). 디폴트 갭 패널티(gap penalty) 및 뉴클레오티드 일치 스코어를 사용하였다. 뉴클레오티드 불일치 페널티, -q, 파라미터는 디폴트와 다르게 -1로 설정하였다. < 0.0001의 기대치를 갖는 임의의 BLAST 질의의 결과는 blastall 프로그램으로부터 태뷸러 포맷(tabular format)으로 반송하였다. 각각의 리턴(return)에 대한 정보(비트 스코어, 기대치, 불일치, 일치 길이)는 추가 분석을 위한 해시 키(hash key)로서 SubSeq 동일성을 사용한 Return{hash key}{info}에 배치하였다.
SubSeq 로부터 ProSeq 에 대한 분류학계 병원체 동정
수행되는 태스크 I의 다음 서브 태스크는 SubSeq() 상태의 결정이며 도 3에 도시하였다. 단순 데이타를 제시하고 결정 과정을 용이하게 하기 위하여, 모든 SubSeq에 대한 정보를 2가지 파라미터에 의해 요약하였다. "동정 유기체"는 유기체의 분류학적 부류를 나타내고 "유기체 특유성"은 유기체 동정의 질을 나타내었다. Return 해시에서 구성 요소를 조사하고 ProSeq 중 각각의 별개 SubSeq()에 대한 스코어 어레이에 의해 랭크하였다. 스코어 어레이는, 소정의 데이타베이스에 대한 고정 관계를 갖는 한 쌍의 파라미터, 즉 비트 스코어 및 기대치를 포함하였다. 때로는 데이타베이스의 크기(기대치)를 설명하거나 또는 (비트 스코어)를 설명하는 랭킹 스코어를 사용하는 것이 적절하였다. Return 해시에서 구성 요소는 같은 스코어를 가질 수 있었으며, 최고 비트 스코어/최저 기대치(MaxScore)를 갖는 모든 구성 요소를 별개의 어레이 Rank1에 보유하였다. Rank1에서 모든 구성 요소의 전체 분류학적 분류를 2006년 2월 7일자로 역시 획득한 NCBI 분류학 데이타베이스로부터 회수하였다(전술한 언급 참조). MaxScore 기대치가 MAX(현 10-6)보다 더 큰 경우, SubSeq()는 무효값(null)으로 갱신된 이의 동정 유기체와 유기체 특유성 정보 모두를 보유하였다. MaxScore가 충분히 작은 경우, Rank1에 배치된 리턴을 조사하였다. Rank1이 단일 구성 요소를 포함하는 경우, SubSeq를 유기체 특유성의 SeqUniqu에 할당하였다. Rank1이 다수 구성 요소를 포함하는 경우, SubSeq는, 모든 리턴이 같은 분류학적 부류에 속하는 경우, 유기체 특유성의 TaxUnique에 할당하였다. 그렇지 않은 경우, SubSeq의 유기체 상태를 TaxAmbig로 설정하였다. 도 3에 개괄한 태스크를 ProSeq 중 각각의 SubSeq()에 적용하였다. 모든 경우에서, 동정 유기체를 Rank1 내 모든 구성 요소의 공통적인 모형(parent)인 분류학적 부류를 나타내는 각각의 SubSeq()로 할당하였다.
각각의 SubSeq를 조사한 후, 알고리즘은, SubSeq로부터 ProSeq의 동정 유기체를 결정할, 다음 태스크로 이동하였다(도 4). SubSeq의 모든 구성 요소가 Null인 동정 유기체 값을 갖는 경우, 이어서 ProSeq는 음의 값이며 다음 ProSeq를 조사하였다. ProSeq에 대한 SubSeq의 단일 구성 요소만이 있거나 또는 SubSeq의 모든 구성 요소가 같은 동정 유기체를 갖는 경우, 이어서 Result1 엔트리가 동정 유기체에 대하여 형성되며, 그 유기체 특유성은 다수의 SubSeq 엔트리인 경우 TaxUnique이거나 또는 단일 SubSeq 엔트리의 상태를 유전하였다. 다른 동정 유기체를 갖는 SubSeq 중 다수 엔트리가 있는 경우, 추가 분석을 수행하였다. 그 후 최고 2개의 최상의 스코어를 갖는 구성 요소가 SubSeq(1) 및 SubSeq(2)가 되도록 SubSeq를 MaxScore(비트 스코어)로 재정렬하였다. SubSeq(1)이 SubSeq(2)의 스코어보다 ≥ 30%(스코어 비 분계점)인 스코어를 갖는 경우, 그 후 ProSeq는 SubSeq(1)의 유기체 특유성 및 동정 유기체를 유전하였다. 그렇지 않은 경우, ProSeq의 유기체 상태는 TaxAmbig이고 동정 유기체는 모든 부분 서열의 공통적인 모형인 분류학적 부류였다. 모든 부분 서열이 직접적인 자형 부류 및 모형 부류인 단지 2개의 분류학적 부류 내에 포함되는 경우, 동정 유기체는 자형 부류 내 부분 서열의 유기체였다. 도 4에 포함된 서브 태스크를 종결하고 태스크 I 루프를 지속하였다. 검출된 유기체를 갖는 ProSeq의 목록을 Result1 어레이에 형성시켰다.
전체 병원체 동정 및 양의 값의 콜
태스크 I을 종결한 후, 태스크 II(도 1 참조)를 사용하여 Result1에 기재된 동정 유기체 값을 조사하고, 상기 값이 동일한 분류학적 부류를 동정하는 경우 함께 그룹화하였다. Result1에서 각각의 엔트리를 조사하고, 동정 유기체가 상기 목록에 나타나지 않는 경우 Result2에 신규 엔트리를 형성시켰다. 대부분의 경우에, Result2의 엔트리는 검출되었던 개개의 유기체를 나타내지만, 여전히 과잉 정보를 포함할 수 있었다. 하나가 다른 하나의 분류학적 모형인 동정 유기체를 갖는 Result2의 엔트리는 사실상 동일한 병원체를 나타낼 수 있었다. 동일한 동정은 일어날 수 없었는데, 그 이유는 게놈 표적이 가능성 있는 다양한 이유로 ProSeq 사이에서 하이브리드화가 잘 되지 않았기 때문이다. 대안으로, 2개의 상이한, 그러나 밀접하게 관련된 유기체는 둘 다 마이크로어레이에 하이브리드화할 수 있었다.
별개의 ProSeq로부터의 결과를 서로 연관시키는 것은 어렵지만, 태스크 III은 현재 실행된 바와 같은 최종 조사 및 결정을 처리하였다. 이전 태스크를 구체적으로 실행하여 그 결과 ProSeq가 검출하고자 했던 것에 관한 정보는 고려하지 않았다. 이는 더 낮은 경우가 양의 값 및 음의 값 뿐만 아니라 불확정된 경우를 인지할 수 있도록 하였다. 최종 태스크에서, 알고리즘은 ProSeq가 이것이 디자인하여 검출한 유기체를 동정하는 지를 고려하였다. 명백한 음의 값의 ProSeq와 불확정된 ProSeq는 표적 병원체에 대해 음의 값으로 고려하였다. 이에 대한 ProSeq의 그룹화는 태스크 II에서 이미 수행된 그룹화를 기초로 하였다. Result2의 엔트리를 루핑(looping)하였다. 엔트리의 ProSeq를 사용하여 표적화된 표 내 병원체를 조사하였다. Result2 엔트리의 동정 유기체가 표적 병원체의 분류학적 부류와 동일하거나 또는 자형인 경우, 그 후 Pathogen() 어레이는 상기 표적화된 병원체에 대한 양의 값의 엔트리로 갱신하였다. Pathogen() 어레이가 상기 병원체에 대해 무효인 경우, 동정 유기체의 병원체 수준은 Result2() 엔트리의 수준이었다. 엔트리가 이미 병원체에 배치된 경우, 그 후 추가 비교를 필요로 하였다. Result2() 및 Pathogen 엔트리를 비교하였다. 이들이 직접적인 자형 모형 관계인 경우, 상기 Pathogen의 동정 유기체는 자형의 분류학적 부류였다. 그렇지 않은 경우, 공통적인 모형 분류학적 부류는 양의 값의 동정 유기체로서 기록하였다. 병원체에 대한 모든 ProSeq가 잘 하이브리드화된 대부분의 경우, 미세한 수준의 차이를 기록하였다. 그러나, 하나 이상의 ProSeq가 잘 하이브리드화되지 않은 경우, 기록된 양의 값의 표적 병원체는 단지 속 또는 종 수준에서만 동정하였다. 수동적인 재조사가 가능하도록 3가지 모든 태스크의 결과를 기록하였다. 표적 병원체에 속하지 않은 태스크 II에서 동정한 유기체는 비표적 양의 값의 리턴으로서 기록하였음을 유념해야 한다. 이러한 경우에 동정된 것에 대한 세부 사항은 태스크 II 수준 결과의 조사를 필요로 하였다.
병원체 동정
10 ~ 1000 게놈 카피(참조 문헌 21 방법)를 갖는 클라미디아 뉴모니아에(Chlamydia pneumoniae) 샘플을 선정하여 다수의 ProSeq를 동일한 병원체에 대해 표적화한 경우 어떻게 병원체 검출 및 동정을 수행할 것인지를 설명하였다(21). RPM v1은 주요 외막 단백질 VD2 및 VD4, 및 DNA 의존성 RNA 폴리머라제 (rpoB) 유전자를 암호화하는 유전자로부터 선정되는 고도로 보존된 3가지 ProSeq를 보유한다. 상이한 샘플 유래의 HybSeq는 단지 하기 표 1에 나타낸 바와 같은 단지 특유 염기 콜이 얼마나 많은 지에 따라 달랐다. 콜링(calling)된 ProSeq의 백분율은, 분석 검출 한계치에 도달하였음을 나타내는 특유 콜이 이러한 농도 이상을 생성시키는 단지 11%의 rpoB ProSeq를 갖는 농도 10인 한 가지 경우를 제외하고는, 80 ~ 100%로 다양하였다. 다양한 샘플에 대한 각각의 태스크의 말단에서 SubSeq에 대해 수행된 결정값을 하기 표 1에 기재하였다. 상이한 경우로부터의 ProSeq는 같은 수의 SubSeq를 생성하였다. 상이한 샘플 유래의 이러한 SubSeq는 BLAST로부터 동일한 탑 랭킹된 리턴에 대해 다른 비트 스코어를 기록하였다. 사실상 VD2 및 VD4는 정확하게 동일한 결과를 생성하였다. NCBI 분류학 데이타베이스는 상기 리턴을 C. 뉴모니아에 분류학적 그룹 및 3가지 자형 균주 그룹을 나타내는 4가지의 명확한 그룹으로 분류하였다. AE001652, AE002167, AE017159, 및 BA000008은 각각의 샘플에 대해 모든 ProSeq의 리턴을 나타내었는데, 그 이유는 이들이 완전히 서열화된 게놈의 데이타베이스 엔트리를 나타내었기 때문이다. 하나의 rpoB SubSeq는 그 유기체 특유성, SeqUniqu를 생성하였다. 다른 모든 SubSeq는, 상이한 분류학적 부류로부터 다수의 리턴이 반송되었으므로, TaxAmbig였다. VD2 및 VD4 ProSeq 각각이 단일 SubSeq를 보유하므로, 태스크 I은 ProSeq에 SubSeq의 상태를 할당하였다. rpoB ProSeq의 경우, 하나의 SubSeq의 비트 스코어는 충분히 커서 알고리즘이 ProSeq에 그 SubSeq의 동정을 할당하였다. 알고리즘의 태스크 II는 모든 3가지 ProSeq를 함께 그룹화하였는데, 그 이유는 이들 모두가 동일한 동정 유기체를 보유하고 TaxAmbig를 할당하기 때문이었다. 태스크 III의 결과는 표적 병원체 C. 뉴모니아에에 대해 양의 값이었으며, 이러한 결정은 모든 ProSeq가 서로 일치하고 동일한 표적 병원체의 분류학적 부류에 속하였기 때문에 수월했다. rpoB ProSeq가 SeqUniqu였지만, 이는 SeqUniqu인 ProSeq가 자형 분류학적 그룹이 아니고 다른 ProSeq가 TaxAmbig였기 때문에 태스크 II에 대한 최종 결정이 아니었다. 인지된 3가지 아균주를 동일하게 스코어링하였으며, ProSeq에 대해 선정된 서열은 매우 보존적이었고 이러한 균주들 간의 차이를 허용하지 않음을 나타내었다.
SubSeq, 태스크 I, II, 및 III에 있어서 몇몇 농도에서 C. 뉴모니아에에 대한 알고리즘 결정
게놈
카피
ProSeq 특유 콜 #SubSeq SubSeq 유기체 동정 및 특유성,
비트 스코어
태스크 I 태스크 II 태스크
III
1000 VD2 89% 1 (G1)C.pne, TA, 145 C.pne TA C.pne TA

양의 값의 C.pne

VD4 91% 1 (G1)C.pne, TA, 145 C.pne TA
rpoB 80% 2 (G2)C.pne, SU, 307
(G3)C.pne, TA, 73
C.pne TA
100 VD2 100% 1 (G1)C.pne, TA, 164 C.pne TA C.pne TA



VD4 97% 1 (G1)C.pne, TA, 156 C.pne TA
rpoB 80% 2 (G2)C.pne, SU, 343
(G3)C.pne, TA, 87
C.pne TA
100 VD2 83% 1 (G1)C.pne, TA, 136 C.pne TA C.pne TA



VD4 91% 1 (G1)C.pne, TA, 145 C.pne TA
rpoB 84% 2 (G2)C.pne, SU, 318
(G3)C.pne, TA, 82
C.pne TA
10 VD2 100% 1 (G1)C.pne, TA, 164 C.pne TA C.pne TA



VD4 97% 1 (G1)C.pne, TA, 156 C.pne TA
rpoB 90% 2 (G2)C.pne, SU, 340
(G3)C.pne, TA, 89
C.pne TA
10 VD2 100% 1 (G1)C.pne, TA, 164 C.pne TA C.pne TA



VD4 93% 1 (G1)C.pne, TA, 148 C.pne TA
rpoB 11% 0 Null, Null Null, Null
(G1) J138 (BA000008), AR39 (AE002167), Tw-183 (AE017159), Cpne
(M69230,AF131889,AY555078,M64064,AF131229,AF131230)
(G2) Cpne (S83995)
(G3) J138 (BA00008), AR39 (AE002167), Tw-183 (AE017159)
SU : SeqUniqu의 약어
TA : TaxAmbig의 약어
인플루엔자 및 인간 아데노바이러스(HAdV)는 이전 연구에서 논의된 바와 같은 상세한 균주 수준 차이를 용인하는 선정된 ProSeq를 보유하는 유일한 병원체였다(19, 20, 21). 수동적 분석법을 사용한 이러한 이전 연구에서 마이크로어레이 결과가 임상 샘플에 대한 종래의 서열화 결과와 아주 우수하게 일치함을 발견하였다. 원(raw) 마이크로어레이 결과에 대한 갱신된 NCBI 데이타베이스를 사용한 CIBSI 2.0 프로그램을 실행한 결과를 이전 결과와 비교하였다(표 2). 동정된 유기체는 사용된 데이타베이스 내 차이로 인해 원래의 결과와 동일하지 않았다. 사실, 상기 문헌으로부터 NCBI로 전송된 종래의 서열화 결과는 최상 스코어를 갖는 리턴 중에 존재하는 모든 샘플에 대해 발견하였다. 13종의 인플루엔자 A 중 8종 및 12종의 인플루엔자 B 중 3종의 경우, 태스크 I 및 II의 결과는 종래의 서열화가 단일 최상 리턴이고, 따라서 동정 유기체였음을 확인하였다. 헤마글루티닌(hemagglutinin) 유전자에 대한 데이타베이스 내 다수의 분리 서열로 인하여, 몇몇 경우에서 단일 특유 엔트리가 발견되지 않음은 놀라운 사실이 아니었다. 나머지 5종의 인플루엔자 A 샘플 각각의 경우, 반송된 다른 서열은 종래의 서열과 0.2% 미만까지 달랐다. 인플루엔자 B에 대해 특유 분리 동정을 이용하는 샘플이 더 적은 것은, 하이브리드화가 덜 발생하도록 하는, ProSeq에 대해 더 오래된 기준 서열을 사용하기 때문이었다(19). 또한 이는, 다수 서열이 샘플에 대해 반송되는 경우, 이들이 더 큰 유전적 변이를 최대 2%까지 나타냄을 의미하였다. 이러한 비교는, 단지 종래의 서열화된 영역이었던 헤마글루티닌(HA) ProSeq에 대한 태스크 I 수준에서의 알고리즘 분석만을 나타내었다. 이전 연구는 다수 ProSeq로부터의 일치(consensus)를 얻고자 하지 않았으므로, 태스크 III 결과에 대한 어떠한 비교도 있을 수 없었다. 태스크 III 수준 동정을 차폐하는 현 방법의 결과로서, 이러한 수준에서 기록된 유기체는 모든 샘플에 대해 덜 특이적(H3N2 또는 Flu B)이었다(부록 표 1A 및 1B). HAdV 샘플의 경우, 알고리즘은 또한 이전에 수동적 방법에 의해 수행되었던 더 미세한 규모의 차이를 재생하였다(나타내지 않음).
인플루엔자 A 및 B 임상 샘플의 HA ProSeqs로부터 동정된 병원체
샘플명 선행 문헌에 의한
균주 동정
GenBank
등록번호
CIBSI 2.0에 의한 HA3 ProSeq 동정 GenBank
등록번호
A/콜로라도/360/05 A/네팔/1679/2004 (H3N2) AY945284 A/콜로라도/3
60/05*
DQ265717
A/카타르/2039/05 A/네팔/1727/2004 (H3N2) AY945272 A/카타르/203
9/05
DQ265707
A/괌/362/05 A/네팔/1679/2004 (H3N2) AY945264 A/괌/362/05 DQ265715
A/이탈리아/384/05 A/네팔/1727/2004 (H3N2) AY945272 A/이탈리아/3
84/05
DQ265713
A/터키/2108/05 A/네팔/1664/2004 (H3N2) AY945265 A/터키/2108/
05
DQ265718
A/한국/298/05 A/네팔/1727/2004 (H3N2) AY945273 A/한국/298/0
5
DQ265710
A/일본/1337/05 A/말레이시아/2256/2004 (H3N2) ISDN110616 A/일본/1337/
05*
DQ265712
A/일본/1383/05 A/말레이시아/2256/2004 (H3N2) ISDN110616 A/일본/1383/
05
DQ265711
A/에콰도르/1968/04 A/뉴욕/17/2003 (H3N2) CY001053 A/에콰도르/1
968/04*
DQ265716
A/이라크/34/05 A/크라이스트처치/178/2004 (H3N2) ISDN110530 A/이라크/34/
05
DQ265714
A/페루/166/05 A/마카우/103/2004 (H3N2) ISDN64772 A/페루/166/0
5
DQ265708
A/뉴욕/2782/04 A/뉴욕/391/2005 (H3N2) CY002056 A/뉴욕/2782/
04S*
DQ265709
A/영국/400/05 A/뉴욕/227/2003 (H1N1) CY002536 A/영국/2005* DQ265706
(계속)
(계속)
샘플명 선행 문헌에 의한
균주 동정
GenBank
등록번호
CIBSI 2.0에
의한 HA3
ProSeq 동정
GenBank
등록번호
B/페루/1324/
04
B/밀라노/66/04 AJ842082 B/페루/1324/
04S*
DQ265728
B/페루/1364/
04
B/밀라노/66/04 AJ842082 B/페루/1364/
04S*
DQ265726
B/콜로라도/2
597/04
B/텍사스/3/2002 AY139049 B/콜로라도/2
597/04S*
DQ265724
B/일본/1905/
05
B/텍사스/3/2002 AY139049 B/일본/1905/
05S*
DQ265727
B/일본/1224/
05
B/텍사스/3/2002 AY139049 B/일본/1224/
05S*
DQ265719
B/알래스카/1
777/05
B/텍사스/3/2002 AY139049 B/알래스카/1
777/05S
DQ265730
B/영국/1716/
05
B/텍사스/3/2002 AY139049 B/영국/1716/
05S
DQ265723
B/영국/2054/
05
B/텍사스/3/2002 AY139049 B/영국/2054/
05*
DQ265722
B/하와이/199
0/04
B/테헤란/80/02 AJ784042 B/하와이/199
0/04
DQ265721
B/하와이/199
3/04
B/테헤란/80/02 AJ784042 B/하와이/199
3/04S*
DQ265720
B/애리조나/1
48/04
B/테헤란/80/02 AJ784042 B/애리조나/1
48/04*
DQ265725
B/애리조나/1
46/04
B/테헤란/80/02 AJ784042 B/애리조나/1
46/04*
DQ265729
* 다수 리턴이 이러한 리턴으로 고정됨.
S HybSeq가 다수 SubSeq로 분할됨.
미코플라즈마 뉴모니아에(Mycoplasma pneumoniae) 병원체에 대한 다음 검출 실시예는 표적 병원체에 대해 단지 단일 ProSeq였던 경우를 설명하며, 이는 알고리즘의 태스크 I에 대한 동정 유기체가 자동적으로 태스크 II의 결과이고 이러한 표적화된 병원체에 대한 태스크 III에서 고려된 유일한 ProSeq였음을 의미하였다. 이러한 ProSeq는 또한 미세 식별에 적절하지 않은데, 그 이유는 이것이 시타드헤신(cytadhesin) P1 유전자의 고도로 보존된 영역(345 bp)으로부터 선정되었기 때문이다. 40 마이크로어레이를 동일한 정제 핵산 스톡으로 테스트하였고 모든 경우에서 M. 뉴모니아에 또는 이의 아균주 분류학적 데이타베이스 엔트리를 인지한 것은 MaxScore에 고정시켰다. 이러한 리턴을 더욱 이해하기 위해, 테이타베이스 서열을 조사하였고, 데이타베이스 서열이 ProSeq를 생성하기 위해 사용된 기준 서열과 얼마나 잘 일치하는 지를 기초로 하여 서열을 A, B, C의 3 그룹으로 부분 분할하였다. 상기 3 그룹 내 데이타베이스 엔트리의 배치는 이 유전자 서열의 CLUSTAL 정렬로부터 결정하였다. 이 정렬은, 데이타베이스 엔트리가 ProSeq로 나타내지 않고, 더 미세한 차이를 가능하게 하는 충분한 변이 가능성을 포함하는 영역에서 서로 더욱 유의하게 다름을 확인하였다. 그룹 A의 구성원은 ProSeq와 정확히 일치하였고 마이크로어레이 상에서 서로 구별할 수 없었다. 유사하게도, 그룹 B의 구성원은 콜링된 염기가 T가 아니라 C인 199번째 위치를 제외하고는 ProSeq와 일치하였다. 그룹 C 서열은 더욱 가변적이고 ProSeq 내 다른 엔트리와는 구별될 수 있는 약간의 데이타베이스 엔트리를 포함하였다. ProSeq 중 95%가 하이브리드화된 M. 뉴모니아에의 40 실험 테스트의 경우에는, 그 결과의 65%만이 199번째 위치에서 명확한 염기 콜을 보유하였다. 염기 콜이 명확한 경우, 이는 항상 그룹 B 서열과 일치하였다. N 염기 콜이 199번째 위치에서 생성된 경우, 그룹 A 및 B 서열은 둘 다 동일한 스코어로 반송하였다. 이와 무관하게, 양의 값으로 동정된 표적 병원체는 테스트된 모든 샘플에 대해 M. 뉴모니아에였다.
이러한 예들은 단일 또는 다수 ProSeq가 표적 병원체에 적용되는 지의 여부와는 상관없이 결정이 어떻게 행해지는 지를 나타내었다. 이러한 예들은 또한 가능한 수준 차이가 선정된 ProSeq의 질에 의해 강력히 결정됨을 설명하였다. 몇몇 병원체의 경우 미세한 수준 차이가 요구되지 않을 수 있으며, RPM v1 상에서 현재 테스트된 선정은 만족스러운 정보를 제공할 것이다. CIBSI 2.0 알고리즘은 HybSeq 정보에 의해 지지될 수 있는 최대 수준 차이를 자동적으로 기록하는 그 성능을 증명하였다.
유전적 인접자( Genetic Near Neighbors )
알고리즘이 어떻게 밀접하게 관련된 유전적 종을 처리하는 지를 설명하기 위해, 비표적화된 병원체 샘플을 고려하였다. RPM v1 상에서 생체 위협 병원체 중 하나인 대두창 바이러스의 경우, 타당성 실시는 대두창 바이러스 DNA 주형이 검출되는 경우 항상 양의 값으로 동정함을 증명하였다. 어레이는 대두창 바이러스 검출을 위한 사이토카인 반응 개질자 B(VMVcrmB, ~ 300 bp) 및 헤마글루티닌(VMVHA, ~ 500 bp)으로부터 유래한 2가지 ProSeq를 보유한다. 하기 표 3은 밀접한 인접자인 우두 바이러스를 다양한 농도에서 비강 세척으로 스파이킹(spiking)한 각각의 ProSeq의 18회 실시에 대한 결과를 나타내었다. 하이브리드화한 ProSeq의 백분율은, 하이브리드화 패턴만이 단지 고려되는 경우 이러한 타일(tile)이 그 표적의 존재를 동정한다는 점을 추측할 수 있다는 점에서 충분하다. 이는 선정된 기준 서열이 최상의 선택이 아니었음을 나타내었다. 그러나, 알고리즘을 적용한 경우, 샘플 중 어떤 것도 사실상 대두창 또는 소두창 바이러스로서 동정되지 않았다. 우두 바이러스는 항상 VMVcrmB ProSeq에 대한 최고 스코어를 갖는 기재된 오르토폭스바이러스 종 중 하나였지만, 이는 단지 7가지 경우에서 가능한 종으로서 유일하게 검출하였다. VMVcrmB 하이브리드화의 최저 농도 및 단편을 갖는 3가지 샘플에서, 이 ProSeq는 하이브리드화의 원인일 수 있는 다수의 오르토폭스바이러스 종 중의 하나로서 대두창 바이러스를 동정하였다. 사용된 증폭 방법에 대한 검출 하한치는 이러한 농도 및 그 이상의 농도 사이에 존재하였다. VMVHA ProSeq는 오직 2개의 실험에서 오르토폭스바이러스 종을 동정하였고 대두창 바이러스를 고정된 최상의 스코어를 갖는 리턴 중 하나로서 기재하였다. 양쪽 모두의 경우, VMVcrmB ProSeq는 최상의 일치로서 우두 바이러스를 구체적으로 동정하였다. 하이브리드화된 ProSeq의 백분율은 샘플의 농도와 서로 관련되었다.
대두창 바이러스 ProSeq 상의 우두 샘플로부터 유기체 동정
CFU ProSeq
VMVCRMB VMVHA
% 동정체 % 동정체
5*107 77.9 우두 바이러스 29.4 오르토폭스바이러스
5*107 79.8 우두 바이러스 25.7 오르토폭스바이러스
1.6*107 79.4 우두 바이러스 14.8 -
1.6*107 77.5 오르토폭스바이러스* 24.5 -
1.6*107 76.8 우두 바이러스 21.6 -
1.6*107 74.5 오르토폭스바이러스* 17.3 -
5*106 77.9 우두 바이러스 25.7 -
5*106 78.3 오르토폭스바이러스* 22.0 -
5*106 73.0 우두 바이러스 13.0 -
5*106 73.4 오르토폭스바이러스* 7.8 -
1.6*106 75.3 오르토폭스바이러스* 8.6 -
1.6*106 49.8 우두 바이러스 6.6 -
1.6*106 65.5 오르토폭스바이러스* 10.0 -
1.6*106 62.9 오르토폭스바이러스* 8.2 -
5*105 58.4 오르토폭스바이러스* 9.0 -
5*105 56.2 오르토폭스바이러스 8.0 -
5*105 49.0 오르토폭스바이러스 9.3 -
5*105 44.6 오르토폭스바이러스 7.8 -
* - 대두창 또는 소두창 바이러스가 아닌 오르토폭스바이러스 내 인접자 종만의 CFU - 군체 형성 단위
필터링
상기 예는 인간 인플루엔자 A/푸에르토리코/8/34 (H1N1) 균주 유래의 H1N1 뉴라미니다제 (NA1) 및 매트릭스 유전자에 대한 ProSeq의 HybSeq를 고려하여 알고리즘의 필터링 부분의 중요성을 설명하였다. 필터링이 요구되는 이유는, ProSeq의 HybSeq를 단일 질의의 BLAST로 전송하는 것이, 특히 염기 콜의 이용을 최대화한 BLAST 파라미터를 사용하는 경우, ProSeq에 상대적인 삽입 또는 결손을 갖는 균주에 대하여 스코어를 바이어싱할 수 있기 때문이다. 슬라이딩 윈도우 테스트는 필터링을 제어한 알고리즘의 일부였다. 필터링을 중단한 경우, 전체 HybSeq는 유의한 하이브리드화를 나타내는 2개의 인플루엔자 ProSeq에 대한 단일 부분 서열에 사용하였다. A/Weiss/43 (H1N1) 균주는 NA1 ProSeq의 HybSeq로부터 유래한 가장 가능한 균주로서 동정되었고, 반면에 매트릭스 ProSeq의 HybSeq가 정확히 A/푸에르토리코/8/34를 동정되었다. 바이어싱의 소스를 더욱 이해하기 위해, ProSeq를 생성하기 위해 사용된 기준 서열 및 균주 2종의 NA1 유전자의 CLUSTAL 정렬을 도 5에 도시하였다. 상기 2종의 균주는 95% 동일성(정렬된 1362개의 염기 중 67개 불일치)을 나타내었으나, A/푸에르토리코/8/34(서열 번호 3)와 비교하여 A/Weiss/43(서열 번호 2) 및 NA1 ProSeq(서열 번호 1) 모두에 삽입된 45 염기의 스트렛치가 있었다. 디폴트를 필터링하면서, NA1 ProSeq는, 알고리즘이 어떤 콜도 없는 큰 스트렛치를 마주치므로, 5개의 SubSeq로 분리하였다. 태스크 I에서, 알고리즘은, 더 짧은 3개의 SubSeq가 최상의 스코어로 고정된 A/푸에르토리코/8/34 균주를 비롯한 몇몇 분리균(isolates)으로서 H1N1의 동정 유기체를 가지는 한편, 다른 2개의 SubSeq가 가장 근접하게 일치되는 A/푸에르토리코/8/34 균주만의 동정 유기체를 갖는 점을 결정하였다. NA1 ProSeq에 의해 동정된 유기체는 A/푸에르토리코/8/34였는데, 그 이유는 SubSeq 중 하나가 훨씬 높은 스코어를 가졌기 때문이었다. 상기 ProSeq는 매트릭스 ProSeq에서 행해진 동일한 균주 동정을 지지하였다. 동정된 유기체는 A/푸에르토리코/8/34였는데, 그 이유는 2개의 ProSeq가 상기 유기체만을 검출하였기 때문이었다. 정확한 표적 병원체를 필터링으로 검출되었고 반면에 필터링이 없는 경우 표적 병원체의 동정 수준은 인플루엔자 A(H1N1 아형)였는데, 그 이유는 2종의 유기체, A/푸에르토리코/8/34 및 A/Weiss/43이 검출되었기 때문이었다. 바이어싱을 제거하기 위해 HybSeq를 SubSeq로 분리하는 것은 이러한 경우에 5개의 SubSeq 중 3개의 SubSeq에 대해 일어나는 바와 같이 동정 수준을 감소시킬 수 있다. 우두에 대한 선행 예는, 필터링을 사용하지 않은 경우 잘못된 종(카멜 폭스(Camel Pox) 또는 칼리트릭스 야쿠스(Callithrix jacchus) 동정이 일어날 수 있는 또 다른 예였다. 표 2의 임상 샘플은 다수의 SubSeq로 분리된 HybSeq가 매우 특이적 동정을 할 수 있음을 나타내었다.
부차적인 점으로서, 증폭을 위해 일반적인 것와 다르게 다양한 전략을 사용하는 경우, 본 방법에 기술된 바와 같이 추가적인 필터링을 수행하여 특이적 프라이머로부터 잠재적 바이어싱을 제거하는 것이 필요하였다. 도 5는 이러한 간섭의 예를 보여주기 위해 A/푸에르토리코/8/34의 하이브리드화에 대한 원(서열 번호 4) 결과 및 차폐 필터링된(서열 번호 5) 결과를 갖는다. 전술한 이유로 인한 바이어스를 갖는 문제점 이외에도 프라이머와 상호 작용하는 위치에 있기 때문에 필터링 후에 N이 형성되는 원 결과에 존재하는 18 염기의 서열이 있다. 이러한 염기 콜이 구성된 부분 서열에 포함되는 경우, ProSeq에 대한 질의는 부정확한 균주를 선호할 것이다.
알고리즘은 각각의 ProSeq의 질에 따라 최대 수준의 상세한 가능성 있는 (종 또는 균주)에 대한 병원체 동정을 성공적으로 제공하였다. 이 동정 성능은 비전문가 용도로 가능한 병원체의 동일성에 대한 최소 입력을 필요로 한다. 중요한 특성은, 잉여분의 제거, 상이한 관련 원형 서열의 비교, 및 데이타 제시의 단순화를 가능하게 하면서, 배열된(ordered) 그룹으로 유기체를 분류하고 유기체 엔트리 간의 관계를 제공하는 분류학적 데이타베이스의 이용을 완전히 자동화하게 한다는 것을 구체화하였다. 이는 데이타베이스, 즉 NCBI가 잉여적이고 최소 큐레이션(curation)에 적용하지만, 가장 성공적으로 사용되도록 갱신된 신규 서열을 지속적으로 수용하는 것을 가능하게 한다. 이는 단지 NCBI 데이타베이스만을 사용하는 것으로 설명하였지만, 다른 데이타베이스 또는 통상의 것도 용이하게 사용될 수 있고, 성능이 개선될 수 있었다. 알고리즘은 덜 가변적이거나 또는 고도로 보존된 ProSeq로 나타내는 병원체에 대한 모든 분석 수준에서 정확한 동정을 제공할 수 있었다. 더 가변적이거나 또는 신속하게 돌연변이화하는 병원체, 예를 들어 인플루엔자 A 바이러스, 태스크 I 및 II의 경우, 여전히 정확한 상세한 동정을 제공하지만, 태스크 III은 미세 규모 차이를 기록할 수 없었다. 종래의 서열화된 인플루엔자 바이러스 유전자 서열의 비교는 알고리즘이 데이타베이스에서 갱신을 위해 자동적으로 조절될 수 있음을 설명하였다. 알고리즘은 유전적으로 밀접한 (인접자) 균주에 의해 야기되는 것으로부터 특이적인 병원체에 의해 야기되는 ProSeq 상의 하이브리드화를 적절하게 구별하기 위한 그 성능을 증명하였고, 양성 오류의 일 잠재적 원인을 제거하면서 부정확한 동정을 하지 않았다. 원 하이브리드화 결과를 필터링하는 것은 잠재적 프라이머 간섭, 및 더 중요하게는 감소된 잠재적 바이어싱을 설명하는 연산 시간을 줄이기 위해 제공하였다. 이 간단한 통합 알고리즘은 충분하고 정확한 동정을 제공하여 RPM v1 또는 유사한 재배열 어레이 및 분석의 즉시 사용이 가능하다.
CIBSI 2.0 프로그램의 성공을 설명하는 이외에, 알고리즘을 개발하는데 포함된 작업은 적절한 ProSeq 선정의 중요성을 통찰하도록 하였다. RPM v1은 데이타베이스 유사성 검색을 사용한 다수 병원체 검출을 위해 구체적으로 디자인한 제1 재배열 어레이고, 본 출원에 대한 원형(prototype)으로서 제공하였다. 정확하게 디자인한 경우, 100 bp만큼 작은 단일 ProSeq는 명확하게 유기체를 동정하기에 충분할 수 있음을 설명하였다. 그러나, 몇몇 더 긴 ProSeq는 더 우수한 확증 및 병원체의 더 상세한 정보를 제공함을 분명히 나타낸다. 이 점에 대한 디자인의 강조는 일반적으로 임의의 병원체에 적용 가능한 성능에 대한 것이었다. 태스크 III의 성능에 대한 개선은 개개의 병원체에 대한 더 많은 정보를 요구할 수 있고 각각의 특이적 병원체 또는 병원체의 부류에 대해 개발되도록 해야할 수 있다. 또한 이러한 정보는 샘플과 데이타베이스 엔트리 간의 차이점이 유의한 돌연변이를 나타낸다는 점을 동정하기 위해 알고리즘을 필요로 할 수 있다. 데이타 분석의 계층적 디자인은 이미 수행된 분석에 따라 형성되는 분석을 통합하기가 용이할 수 있다. 적절하게 디자인된 재배열 마이크로어레이 및 이 자동화된 검출 알고리즘의 이용은, 상세한 균주 인지, 항생 내성 마커 및 병원성에 대한 정보에 접근하면서 미세 균주 수준 차이를 제공하는 동안, 다수의 유기체에 대해 동시에 테스트할 수 있는 분석을 개발하기 위해 나아갈 방향을 제공할 수 있다. 이는, 다수의 잠재적 원인(즉, 열성 호흡기 질환)을 갖는 병에 대한 차별적 진단, 신생 병원체의 추적, 감시 분야에서 무해한 유전적 인근자로부터 생물학적 위협의 구별, 및 공동 감염 또는 중복 감염의 영향 추적과 같은 분야에 대하여 다수 유기체로부터 부분 서열 정보의 분석을 가능하게 할 것이다. 표적 서열 세트 및 샘플의 질에 따라 동정의 상이한 정도를 기록하고 범주화하는 개념은 재배열 마이크로어레이에 한정되지 않으며, 기준 DNA 데이타베이스를 질의하기 위해 사용될 수 있는 서열 수준 콜을 방송할 수 있는 임의의 플랫폼에 일반적으로 더 적용가능하다. 다수 병원체에 대한 테스트를 하는 분석에 대한 경향이 증가함에 따라, 자동화 분석 툴, 예컨대 이와 같은 것은 그날 그날 바로 처리하는 비전문가에게 유용한 단순한 포맷에서 신속한 동정을 위해 더욱 중요해졌다.
소스 코드
하기에는 개시된 방법의 실시형태의 PERL 소스 코드 목록이 있다. "overclinical" 프로그램은 다른 프로그램을 실행하는 최고 수준의 프로그램이다. "fstorepi"는 필터링, 서열 생성, 및 질의 파일 생성을 수행한다. 이 프로그램은 N으로 변화되는 선결정된 목록의 위치를 포함하는 입력 파일 "primerhyb.dat"에 사용한다. "runblast"는 BLAST 질의를 수행한다. "dbparse"는 분류학적 분석을 수행한다. 이 프로그램은 각각의 ProSeq에 대한 표적 병원체의 목록을 포함하는 입력 파일 "chip1pathogengroups"를 사용한다.
Figure 112008003819979-pct00001
Figure 112008003819979-pct00002
Figure 112008003819979-pct00003
Figure 112008003819979-pct00004
Figure 112008003819979-pct00005
Figure 112008003819979-pct00006
Figure 112008003819979-pct00007
Figure 112008003819979-pct00008
Figure 112008003819979-pct00009
Figure 112008003819979-pct00010
Figure 112008003819979-pct00011
Figure 112008003819979-pct00012
Figure 112008003819979-pct00013
Figure 112008003819979-pct00014
Figure 112008003819979-pct00015
Figure 112008003819979-pct00016
Figure 112008003819979-pct00017
Figure 112008003819979-pct00018
Figure 112008003819979-pct00019
명백하게도, 본 발명의 다수 변경예와 변형예는 상기 교시에 비추어 가능하다. 그러므로, 청구된 발명이 구체적으로 기재된 바와 같은 것 외에도 실시할 수 있음을 이해할 수 있을 것이다. 단수, 예를 들어 항목 "a," "an," "the," 또는 "said"를 사용하는 구성 요소를 청구하는 임의의 기준은 단수인 구성 요소로 제한하는 것으로 해석되지 않는다.
Figure 112008003819979-pct00020
Figure 112008003819979-pct00021
SEQUENCE LISTING <110> Malanoski, Anthony P Lin, Baochuan Schnur, Joel M Stenger, David A <120> COMPUTER-IMPLEMENTED BIOLOGICAL SEQUENCE IDENTIFIER SYSTEM AND METHOD <130> 97748US2 <150> 60/691,768 <151> 2005-06-16 <150> 60/735,876 <151> 2005-11-14 <150> 60/735,824 <151> 2005-11-14 <150> 60/743,977 <151> 2006-03-30 <150> 11/177,647 <151> 2005-07-02 <150> 11/177,646 <151> 2005-07-02 <150> 11/268,373 <151> 2005-11-07 <150> 11/422,425 <151> 2006-06-06 <150> 11/422,431 <151> 2006-06-06 <160> 5 <170> PatentIn version 3.3 <210> 1 <211> 61 <212> DNA <213> Human Influenza A <220> <221> gene <222> (1)..(61) <223> NA1 <400> 1 ctgggtaaat caaacatatg tcaatattaa caacactaac gttgttgctg gaaaggacac 60 a 61 <210> 2 <211> 61 <212> DNA <213> Human Influenza A <220> <221> gene <222> (1)..(61) <223> NA1 <400> 2 ctgggtaaat caaacatatg ttaatattag caacactaac gttgttgctg gaaaaggcac 60 a 61 <210> 3 <211> 16 <212> DNA <213> Human Influenza A <220> <221> gene <222> (1)..(16) <223> NA1 <400> 3 ctgggtaaag gacaca 16 <210> 4 <211> 61 <212> DNA <213> Unknown <220> <223> Raw data <220> <221> misc_feature <222> (1)..(61) <223> n is a, c, g, or t <400> 4 ctgggnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnngnc gttgttgctg gaaaggncac 60 a 61 <210> 5 <211> 61 <212> DNA <213> Unknown <220> <223> Filtered data <220> <221> misc_feature <222> (1)..(61) <223> n is a, c, g, or t <400> 5 ctgggnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnac 60 a 61

Claims (19)

  1. 다수의 기준 서열들을 질의로 분류학적 데이타베이스에 전송하여 다수의 분류학적 결과를 산출하는 단계로서, 상기 기준 서열들은 각각의 기준 서열에 대한 스코어를 반송하는 유전적 데이타베이스 질의의 출력이며, 각각의 유전적 데이타베이스 질의는 입력 서열의 유사성 검색을 수행하고, 상기 스코어는 비트 스코어 및 기대치 중 하나 이상을 포함하며, 상기 기대치는 상기 확인된 서열 일치가 데이타베이스에서 무작위적 우연에 의해 발생하였을 가능성을 나타내고, 상기 비트 스코어는 유전적 데이타베이스의 크기와 무관한 랭킹 스코어인 단계; 및
    상기 분류학적 결과를 기초로 분류학적 동정을 기록하는 단계
    를 포함하는 분류학적 동정을 산출하는 방법.
  2. 제1항에 있어서, 상기 분류학적 동정을 기록하는 단계는 하기의 기준-기초된 단계들:
    i) 상기 분류학적 결과가 단일 부류만을 포함하는 경우, 단일 부류를 기록하는 단계;
    ii) 최고 스코어가 제2 최고 스코어를 갖는 기준 서열의 스코어를 30%로 초과하는 경우, 다수의 기준 서열들 중 최고 스코어를 갖는 기준 서열의 분류학적 결과를 기록하는 단계;
    iii) 상기 모든 분류학적 결과가 단지 자형 부류(child class) 및 자형 부류에 대한 직접적인 모형 부류(parent class)를 포함하는 경우 자형 부류를 기록하는 단계; 및
    iv) 다른 모든 경우 공통적인 모형 부류를 기록하는 단계
    중 하나를 이용하고,
    단계의 선정은 단계 i) 내지 iv) 중 상기 기준이 가장 먼저 충족되는 경우의 단계로 하는 것(단계 i)의 기준이 충족되면 단계 i)을 선정하고, 단계 i)의 기준이 충족되지 않는 경우에는 단계 ii)의 기준이 충족되면 단계 ii)를 선정하고, 단계 ii)의 기준이 충족되지 않는 경우에는 단계 iii)의 기준이 충족되면 단계 iii)을 선정하고, 단계 iii)의 기준이 충족되지 않는 경우에는 단계 iv)를 선정하는 것을 의미함)인 방법.
  3. 삭제
  4. 제1항의 방법을 상이한 다수의 기준 서열들로 2회 이상 수행하여 다수의 분류학적 동정을 산출하는 단계로서, 유전적 데이타베이스 질의에 대한 입력 서열은 표적 병원체로부터 유래하는 선결정된 원형 서열에 대한 혼성화로부터 기인되는 결정된 염기의 부분 서열인 것인 단계; 및
    동일한 분류학적 동정을 대응하는 원형 서열로 그룹화하는 단계
    를 포함하는 분류학적 동정을 산출하는 방법.
  5. 제4항에 있어서, 상기 표적 병원체의 원형 서열 중 하나에 대응하는 분류학적 동정 중 하나가 표적 병원체와 동일하거나 또는 그 표적 병원체의 자형(child)인 표적 병원체 각각에 대한 양(positive)의 결과를 기록하는 단계를 더 포함하는 방법.
  6. 제5항에 있어서,
    상기 양의 결과가 단일 부류만을 포함하는 경우 단일 부류;
    모든 상기 양의 결과가 단지 자형 부류 및 자형 부류에 대한 직접적인 모형 부류를 포함하는 경우 자형 부류; 또는
    다른 모든 경우 공통적인 모형 부류
    의 최종 분류학적 동정을 기록하는 단계를 더 포함하는 방법.
  7. 제1항에 있어서, 상기 방법은 컴퓨터로 구현하는 것인 방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
KR1020087001309A 2005-06-16 2006-06-09 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법 KR101023163B1 (ko)

Applications Claiming Priority (16)

Application Number Priority Date Filing Date Title
US69176805P 2005-06-16 2005-06-16
US60/691,768 2005-06-16
US11/177,646 US20060210967A1 (en) 2004-07-02 2005-07-02 Re-sequencing pathogen microarray
US11/177,647 2005-07-02
US11/177,647 US8032310B2 (en) 2004-07-02 2005-07-02 Computer-implemented method, computer readable storage medium, and apparatus for identification of a biological sequence
US11/177,646 2005-07-02
US11/268,373 2005-11-07
US11/268,373 US20080020379A1 (en) 2004-11-05 2005-11-07 Diagnosis and prognosis of infectious diseases clinical phenotypes and other physiologic states using host gene expression biomarkers in blood
US73582405P 2005-11-14 2005-11-14
US73587605P 2005-11-14 2005-11-14
US60/735,876 2005-11-14
US60/735,824 2005-11-14
US74363906P 2006-03-22 2006-03-22
US60/743,639 2006-03-22
US11/422,431 2006-06-06
US11/422,431 US7623997B2 (en) 2004-07-02 2006-06-06 Computer-implemented biological sequence identifier system and method

Related Child Applications (2)

Application Number Title Priority Date Filing Date
KR1020107004052A Division KR101182505B1 (ko) 2005-06-16 2006-06-09 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법
KR1020107023975A Division KR20100122124A (ko) 2005-06-16 2006-06-09 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20080057218A KR20080057218A (ko) 2008-06-24
KR101023163B1 true KR101023163B1 (ko) 2011-03-21

Family

ID=39803131

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020087001309A KR101023163B1 (ko) 2005-06-16 2006-06-09 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법
KR1020107004052A KR101182505B1 (ko) 2005-06-16 2006-06-09 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법
KR1020107023975A KR20100122124A (ko) 2005-06-16 2006-06-09 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020107004052A KR101182505B1 (ko) 2005-06-16 2006-06-09 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법
KR1020107023975A KR20100122124A (ko) 2005-06-16 2006-06-09 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법

Country Status (2)

Country Link
KR (3) KR101023163B1 (ko)
NZ (2) NZ585369A (ko)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nucleic Acids Res Vol. 33 (Database issue), ppD39-D45

Also Published As

Publication number Publication date
KR101182505B1 (ko) 2012-09-12
KR20100122124A (ko) 2010-11-19
NZ564992A (en) 2010-07-30
KR20080057218A (ko) 2008-06-24
KR20100028132A (ko) 2010-03-11
NZ585369A (en) 2011-12-22

Similar Documents

Publication Publication Date Title
JP7302081B2 (ja) 深層ニューラルネットワークに基づくバリアント分類器
US7970553B2 (en) Concurrent optimization in selection of primer and capture probe sets for nucleic acid analysis
WO2020014280A1 (en) DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs)
WO2019200338A1 (en) Variant classifier based on deep neural networks
AU2019272065B2 (en) Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs)
US7979446B2 (en) Computer-implemented biological sequence identifier system and method
US20030138778A1 (en) Prediction of disease-causing alleles from sequence context
KR101023163B1 (ko) 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법
KR20120083521A (ko) 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법
Montiel A multiple-filter-GA-SVM method for dimension reduction and classification of DNA-microarray data
KR20090060303A (ko) 서열 분석된 유기체의 검출 및 동정을 위한 유전자 표적의 디자인 및 선별
Shaik Population Structure of Leishmania using POPSICLE reveals extensive dichotomy in zygosity and discloses the role of sex in diversity of the parasite
WO1999014369A1 (en) Techniques for identifying, confirming, mapping and categorizing polymers

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
AMND Amendment
E601 Decision to refuse application
A107 Divisional application of patent
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140225

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee