KR20140087044A

KR20140087044A - 유기체 검출을 위한 방법 및 시스템

Info

Publication number: KR20140087044A
Application number: KR1020147014558A
Authority: KR
Inventors: 필립 알렉산더 롤프
Original assignee: 패소제니카 아이엔씨.
Priority date: 2011-11-01
Filing date: 2012-11-01
Publication date: 2014-07-08
Also published as: US20150344977A1; EP2788506A2; WO2013067167A3; WO2013067167A2

Abstract

세균, 미생물 또는 병원체와 같은 유기체를 검출하는 방법 및 시스템이 본원에 제공된다. 시스템은 높은 민감도로 균주를 검출하기 위한 하나 이상의 프로비(probi)를 포함할 수 있다. 또한, 시스템은 짧은 시간 프레임 내에서 균주를 검출할 수 있다.

Description

유기체 검출을 위한 방법 및 시스템{Method and system for detection of an organism}

관련 출원

본 출원은 2011년 11월 1일에 출원된 미국 가출원 제61/554,129호 및 2012년 3월 8일에 출원된 미국 가출원 제61/608,558호의 이익을 청구한다.

위 출원의 전체 교시는 본원에 참조로서 포함된다.

본 발명은 유기체 검출을 위한 방법 및 시스템에 관한 것이다

상이한 유기체의 검출은 많은 응용예, 예를 들면 임상 진단(예를 들어, 바이러스, 기생충, 박테리아, 진균류의 검출), 임상 모니터링(예를 들어, 바이러스/박테리아 로드, 병원체 바이오마커, 숙주 또는 대상체의 바이오마커), 환경 생체관측(예를 들어, 원내 감염, 생물학적 제제, 조절되는 유전적으로 변형된 유기체), 및 생물학적 안전성(혈액 공급에서의 오염원 또는 외부 유기체의 검출, 생물학적 제제, 식품/물 농업, 가축 병원체 감시 및 번식, 유전적으로 변형된 곡물 병원체 및 번식, 큰 부피의 공기/물 공급과 같은 생물방어, 표면 면봉 채취물 및 혈액 시료로부터의 급속한 동정)에서 중요하다. 많은 경우에서, 다수의 유기체를 검출할 수 있는 단일 시험이 유리하다. 예를 들어, 염증 시험 또는 호흡기 패널은 단일 시험에서 완전한 진단을 제공하기 위해 수십 또는 심지어 수백의 상이한 종을 검출할 수 있다. 감시 응용예에서, 종 또는 속에 추가하여 균주 또는 아주를 결정하는 것이 종종 유용하며, 이러한 상세한 정보는 역학자 또는 감염 제어 관리자가 지리학적 영역 또는 건강관리 시설 전체에서 유기체의 확산을 추적할 수 있게 한다.

Ion Torrent PGM 및 Proton, Illumina MiSeq 및 HiSeq, 454's GS 및 GSJr, 및 PacBio RS와 같은 서열분석(sequencing) 플랫폼은 동시에 수천 내지 수백만의 DNA 분자를 서열분석할 수 있다. 병원체의 게놈으로부터의 DNA 서열분석은 속 또는 종 수준에서 병원체를 동정하고, 균주 또는 아주를 밝힐 수 있으며, 또한 병독성 인자(virulence factor) 또는 약물 저항성에 관한 정보도 제공할 수 있다. 따라서, 서열분석은 배양 및 qPCR과 같은 검출 또는 약물 저항성 시험을 위한 현재의 기술과 펄스 장 겔 전기영동(PFGE) 및 다수좌 서열분석 분류(multilocus sequencing typing, MLST)와 같은 균주 분류(strain typing)를 위한 기술을 단일 시험으로 조합하는 능력을 제공한다.

유기체 검출을 위한 서열분석의 단순 응용예는 비강 면봉 채취물, 상처 면봉 채취물, 혈액 시료, 흡인물, 소변, 가래, 환경적 표면 면봉 채취물 등과 같은 시료로부터의 모든 DNA 또는 RNA를 서열분석한다. 그러나, 단순한 접근은 숙주로부터 많은 DNA가 유래할 수 있기 때문에 높은 서열분석 비용을 초래한다. 숙주 게놈과 비교하여 낮은 수준에서 신뢰할만한 병원체의 동정을 보장하기 위해, 사용자는 수천만 또는 수억의 DNA 단편을 서열분석해야 한다.

전 시료 서열분석은 또한 컴퓨터의 시간의 측면에서 높은 분석 비용을 초래하고 해석을 위해 상당한 기술자 시간 및 전문가를 요구한다. 공지된 게놈의 큰 데이터베이스에 대한 서열분석 리드(sequencing read)의 맵핑 또는 정렬은 드 노보(de-novo) 게놈 조립으로서 컴퓨터 면에서 집중적이다. 더욱이, 공정 내(서열분석 리드카운트(read count), 서열분석 리드 품질), 분석 내(알고리즘, 파라미터, 게놈 데이터베이스 내용), 및 시료 내 (존재하는 유기체의 수, 존재하는 균주, 상대량, DNA의 총량) 다수의 변수 때문에, 두 공정은 상대적으로 오차가 생기기 쉽다. 정제된 단리체로부터의 서열분석은 숙주 게놈 오염을 피하는 반면, 단리체를 획득하기 위한 배양과 같은 추가적인 시간 및 실험 단계를 요구하고, 여전히 비싸고 어려운 분석 단계를 동일하게 요구한다. 예를 들어, 새롭게 서열분석된 게놈에서 유전자의 기능적 의미 주석달기(annotating)는 어렵다(대략적인 단백질 상동성에 기반하여 유전자 패밀리가 동정될 수 있더라도, SNP 또는 DNA 서열 내의 다른 변화가 결과적인 단백질의 활성을 실질적으로 증가시키거나 감소시킬 수 있다). 다른 경우에서, 조절 영역의 돌연변이가 유기체의 표현형을 변화시킬 수 있다. 게놈 서열의 조립, 주석달기 및 기능 분석을 돕기 위한 많은 도구들이 존재하지만, 이러한 과제는 일상적인 임상 도구로서 전체 게놈 또는 전체 시료 서열분석의 채택에 대한 남아있는 중대한 장애물을 자동화하지 못하고 있다.

유기체를 동정하고, 균주를 결정하고, 임상적으로 관련된 표현형을 검출하는 더 나은 방법은 병원체의 게놈에서 주요한 지문 또는 서명 영역에서만 정보를 얻기 위해 DNA 서열분석을 사용한다. 이러한 기술은 유기체 게놈의 일정 영역을 풍부하게 하거나 선택하기 위한 몇몇 방법 중 하나를 사용하고 이러한 영역만을 서열분석한다. 선택 또는 풍부하게 하는 것은 숙주 DNA를 대량으로 서열분석하는 것을 피하고, 또한 서열분석될 병원체 DNA의 양을 1,000 이상으로 낮출 수도 있다. 더욱이, 선택된 영역만을 서열분석함으로써, 얻어진 서열분석 리드의 분석은 훨씬 간단해진다. 유기체의 적은 게놈 영역만 맵핑하거나 조립하는 것은 요구되는 컴퓨터 시간을 100 내지 1,000으로 낮출 수 있다. 마찬가지로, DNA 서열 및 결과 사이에 공지된 관계를 가짐으로써 각 영역이 시험 내에 포함되었기 때문에, 이러한 데이터의 분석은 더욱 용이하게 자동화될 수 있다. 예를 들어, 하나의 영역은 두 종간을 구별하는 것으로 알려질 수 있는 반면, 다른 영역은 항생제 저항 유전자의 촉매 도메인일 수 있다.

선택적인 서열분석 접근법이 비용 및 단순성에서 많은 장점을 제공하지만, 지문 영역 내의 중대한 뉴클레오티드가 부정확하게 서열분석되거나, 시료 내 단리체에서 이러한 영역이 참조 서열에 대하여 돌연변이화된 경우, 이들은 잘못된 결과를 생성할 수 있다. 따라서, 시료 내 유기체를 동정하기 위한 선택적인 서열분석 시험의 설계의 중대한 양태는 결과에서 원하는 수준의 신뢰도를 달성하기 위해 서열분석되어야 하는 유전자좌(locus)의 수 또는 정보제공성 뉴클레오티드의 수를 결정하는 것이다.

본 발명은 유기체의 본질(identity)을 결정하기 위해 유기체의 게놈의 3개 이상의 영역의 서열을 결정하기 위한 DNA 서열분석(sequencing)을 이용한다. 본 발명의 방법은 서열분석 오차 및 자연적인 유전적 가변성에 직면하여도 높은 특이성으로 본질이 결정될 수 있도록 한다. 일부 구현예에서, 임의의 몇몇 기술은 서열분석을 위해 하나 이상의 게놈의 영역을 선택하기 위해 사용될 수 있고, 그 후, 몇몇 기술 중 하나는 오직 또는 주로 게놈 또는 게놈들의 이러한 선택된 영역만을 서열분석하기 위해 사용될 수 있다. 다른 구현예에서, 완전한 게놈이 서열분석되고, 선택된 영역만이 분석될 수 있다. 바람직한 구현예에서, 서열분석 또는 분석을 위해 선택된 영역은 임의의 다른 유기체로부터 표적 세트 내 임의의 유기체를 구별하는 데 적어도 99%의 특이성을 달성하기 위해 선택된다. 다른 바람직한 구현예에서, 서열분석 또는 분석을 위해 선택된 영역은 유기체의 공지된 균주를 서로 구별하는 데 적어도 99%의 특이성을 달성하기 위해 선택된다.

유기체는 바이러스, 박테리아, 또는 진균류와 같은 세균, 미생물, 또는 병원체일 수 있다. 일 구현예에서, 유기체는 다른 유기체로부터 구별된다. 다른 구현예에서, 유기체의 균주, 변이체, 또는 아형이 동일한 유기체의 다른 균주, 변이체, 또는 아형으로부터 구별된다. 다른 구현예에서, 본 발명은 시료 내 유기체(들)의 종 및 균주 또는 아형을 동시에 결정한다. 예를 들어, 바이러스의 균주, 변이체, 또는 아형이 동일한 바이러스의 다른 균주, 변이체, 또는 아형으로부터 구별될 수 있다.

임상 세팅에서 사용하기 위해서, 실제적인 단계의 수, 실제적인 시간의 양 및 요구되는 정제 단계의 수가 실질적으로 방법의 활용을 결정한다; 더 적은 단계, 더 적은 시간, 및 더 적은 정제 또는 시약 전달이 일반적으로 더 넓은 범위의 시설에서 채택될 수 있고 덜 훈련된 기술자에 의해 사용될 수 있는 더 간단한 방법을 산출한다. 더욱이, 더 적은 단계 및 더 적은 전달은 액체 처리 로봇 또는 미세유체 디바이스에 사용하기 위한 프로토콜의 용이한 채택을 가능하게 한다. 따라서, 본 발명은 동시에 처리되는 시료의 전체 세트에 대한 단일 정제가 후속되며 키트에 의해 제공된 시약의 계대 첨가만을 사용한 단일 에펜도르프 튜브(Eppendorf tube) 또는 다른 용기 내에서 수행될 수 있는 프로토콜을 제공한다.

또한, 본원은 숙주를 치료군으로 층화하는 방법을 제공한다. 일 구현예에서, 방법은 서열분석으로부터 비숙주 유기체 또는 병원체 균주, 변이체, 또는 아형의 본질을 결정하는 단계 및 숙주를 비숙주 유기체 또는 병원체 균주, 변이체, 또는 아형의 본질에 기반하여 치료군으로 층화하는 단계를 포함한다. 다른 구현예에서, 방법은 숙주(예를 들면, 동일하거나 상이한 시료로부터 유래함)의 유전형을 결정하는 단계를 더 포함한다. 방법은 또한 하나 이상의 추가적인 유기체 또는 병원체, 또는 동일한 병원체의 추가적인 균주, 변이체, 또는 아형을 검출하는 단계를 더 포함할 수 있다. 일 구현예에서, 2종의 병원체 또는 비숙주 유기체의 동정은 숙주를 단지 하나의 비숙주 유기체 또는 병원체만이 동정된 숙주의 치료군과 상이한 치료군에 위치시킨다. 여전히 다른 구현예에서, 2종의 병원체 균주, 변이체 또는 아형의 동정은 숙주를 단지 하나의 병원체 균주, 변이체, 또는 아형만이 동정된 숙주의 치료군과 상이한 치료군에 위치시킨다.

서열분석 기반 시험의 평가에서, 특이성 및 민감성이라는 용어는 qPCR, ELISA 등과 같은 이진 시험과는 약간 다르게 사용된다. 서열분석 기반 시험에서, 존재하는 유기체가 없는 경우 회답되는 서열분석 리드(sequencing read)는 드믈며, 따라서, 통상적인 위양성이 드물다. 대신, 오차는 통상적으로 (1) 시료 내에 유기체가 존재하였지만 유기체가 검출되지 않는 위음성 또는 (2) 시험이 시료 내에 존재하는 유기체를 부정확하게 표지하는 잘못된 동정이다. 서열분석 기반 시험을 기술하기 위해, 본 발명자들은 특이성을 시험이 유기체를 검출할 때 유기체가 정확하게 동정된 경우의 백분율 또는 분율을 의미하는 것으로 사용하고, 민감성을 시료 내 유기체가 존재할 때 시험이 "존재하는 유기체가 없음”으로 회답하는 경우의 분율을 1에서 뺀 것(또는 100 빼기 백분율)을 의미하는 것으로 사용한다.

도 1: 가장 유용한 정보제공성 게놈 영역만을 선택하는 것은 분석 시간을 실질적으로 감소시킨다. 전체 박테리아 게놈은 통상적으로 크기가 1 MB 내지 5 MB 이다; 수천 개의 서열분석된 박테리아 게놈의 데이터베이스는 수 기가베이스의 서열을 포함할 수 있다. 정보제공성 영역의 서열만을 함유하는 훨씬 작은 데이터베이스를 생성하기 위해 프로브세트가 전체 게놈 데이터베이스에 인실리코(in-silico)로 적용될 수 있다. 프로브 세트가 각각의 전체 게놈으로부터 1 kb 내지 10 kb의 서열을 선택할 수 있다는 것을 고려하면, 얻어진 서명 영역 데이터베이스는 전체 게놈 데이터베이스보다 대략 1,000배가 작아질 것이며, 유사한 인자에 의한 분석 속도를 잠재적으로 증가시킨다. 모든 프로브가 모든 게놈에 대해서 작용하지 않으며 일정 프로브는 단일 게놈 내에서 다수 영역을 표적화할 수 있다는 것을 주지한다. 게놈 데이터베이스에 대한 프로브의 인실리코 적용은 Blast, Blat, Bowtie, SOAP 등과 같은 표준 서열 정렬 도구를 사용하여 수행될 수 있다.
도 2: 서열분석 리드(sequencing read)는 두 단계 공정으로 분석된다. 제1 단계에서, 프로브 또는 프라이머로부터 온 서열분석 리드의 부분은 프로브 또는 프라이머 서열의 목록에 대해 정렬된다; 목록은 통상적으로 수백 또는 수천 개의 상대적으로 짧은 서열(아마도 각각 20 내지 40 bp)을 함유한다. 제2 단계에서, 서열분석 리드의 나머지는 전체 게놈의 세트로부터 프로브가 생성되었을 것으로 예측된 서열의 세트에 대하여 비교한다; 이러한 세트는 다양한 길이, 그러나 통상적으로 100 내지 300 bp인 수백 또는 아마도 수천개의 서열을 함유할 수 있다. 두 가지 비교는 Needleman-Wunsch 또는 해싱(hashing)을 사용하는 Needleman-Wunsch와 같은 잘 알려진 알고리즘을 사용하여 빠르게 수행될 수 있다.
도 3: 3종의 박테리아 시료로부터 단리된 DNA를 분석하기 위해, 13개의 공통된 박테리아성 병원체 및 15개의 공통된 약물 저항성 유전자를 검출하도록 설계된 분자 역위 프로브세트(molecular inversion probeset)가 사용되었다. 얻어진 서열분석 라이브러리는 Ion Torrent PGM에서 서열분석되었다. 결과 분석은 종 및 균주 본질(identity)을 보고하는 플러그인 분석 파이프라인을 사용하여 자동적으로 생성되었고, 추가로 저항성 유전자 서열들도 검출되었다. 도면은 3종의 시료에 대한 저항성 유전자 프로파일 및 각 시료 내 각 저항성 유전자에 맵핑하는 서열의 리드카운트(readcount)를 도시한다. 이러한 보고는 그들이 함유하고 있는 저항성 유전자 서열, 예를 들면, 시료 A 내의 아미노글리코사이드, 4차 암모늄 화합물 및 blaVIM-4형 메탈로-β-락타메이즈 저항성 유전자의 공동 존재, 또는 시료 B 및 C 내의 에리스로마이신 및 메티실린 저항성 및 잠재적인 β-락타메이즈 저항성의 공동 존재에 의해 시료를 층화하는 능력을 보여준다.
도 4는 DNA 추출에서부터 서열분석 데이터로부터 처리된 병원체 동정의 산출까지의 작업흐름을 보여준다. 여기서 기술된 시료 포획 방법은 시료가 14.5 시간 내에 얻어지는 작업흐름을 초래하도록 할 수 있다(Ion Torrent PGM 서열분석 플랫폼 상에서 운용되는 200 베이스 서열분석을 가능하게 함).
도 5는 크기가 250 nt 미만인 환형화 핵산의 21개의 시료가 활동성 B형 간염 감염 환자로부터 수득된 인간 혈액 시료로부터 추출된 실험의 결과를 요약한 것이다. 추가적인 대조군 시료는 HBV 게놈이 클로닝된 영역을 함유하는 플라스미드를 사용하여 다양한 DNA 농도에서 생성되었다. 핵산 시료는 HBV 바이러스 게놈 내 유전자좌(locus)를 표적화하는 분자 역위 프로브와 접촉하였고, 생성된 환형화 산물은 Ion Torrent PGM sequencer 상에서 2회 서열분석되었다. 시료 당 리드카운트는 HBV 게놈의 불변 영역에 대한 PCR 프라이머 및 Sybr green을 사용한 qPCR 카피 수 결정과 함께 기록되었다. 데이터는 시료 당 약 10^5 카피의 표적에 대한 혈액으로부터 환형화 HBV 단편의 검출 및 10배 희석 플라스미드 대조 시료와 대체로 선형 상관관계를 가지는 리드카운트를 보여준다.
도 6은 혈액으로부터 추출된 환형화 HBV DNA의 시료의 서열분석 및 분석으로부터 생성된 리드카운트를 기록한 표를 보여준다. 변이체 검출은 바이러스 단백질 내 암호화된 아미노산에 변화를 야기하는 아미노산 코돈 변이체의 검출을 나타낸다. % 변이체는 구체화된 바이러스 변이체를 함유하는 개별 환자 시료 내 총 환형화 핵산의 분율을 나타낸다.
도 7은 9개의 Thinprep 자궁경부 솔 시료로부터의 DNA가 30개의 고위험 HPV 변이체 및 인간 TP53 유전자 좌위를 표적화하는 프로브를 함유하는 분자 역위 프로브세트를 사용하여 분석된 것을 보여준다. 조합된 프로브세트 분석법은 단일 튜브 및 Ion Torrent PGM sequencer 상에서 서열분석되고 제조된 각 시료에 대한 서열분석 라이브러리 내에서 수행되었다. 표는 각 시료 내에 존재하는 HPV 바이러스 아형의 동정 및 자궁경부 솔 시료가 취득된 개체로부터의 TP53 유전자 내 약 12개의 SNP의 뉴클레오티드 서열을 기록하고 있다.
도 8. 9개의 Thinprep 자궁경부 솔 시료로부터의 DNA는 3가지 기술을 사용하여 분석되었다: Roche HPV 선형 어레이 키트, Cervista 인간 유두종바이러스 검사(Invader technology), 및 30개의 고위험 HPV 변이체를 표적화하는 프로브를 함유하는 분자 역위 프로브세트(Dx-seq). Roche 및 Cervista 분석법은 제조자의 지침에 따라 수행되었고, 분자 역위 프로브세트는 Ion Torrent PGM 플랫폼 상에서 서열분석되었다. HPV 아형 동정에 대한 결과가 기록되고 기술 간에서 비교된다. 결과는 Roche 및/또는 Cervista 기술이 시료와 함께 존재하는 HPV 아형을 결정할 수 없지만 Dx-seq는 존재하는 HPV 아형을 동정하는 경우 및 또한 Roche 및 Cervista 시험 간 불일치가 시료 내 존재하는 아형을 확인하는 Dx-seq 시험에 의해 해결되는 경우도 보여준다. 또한, 경쟁하는 기술 중 어떤 것도 시료 내 두 개의 아형이 존재하는 것을 정확하게 결정하지 못하는 경우에, Dx-seq 시험이 시료 내 존재하는 다수의 HPV 균주를 검출하는 예를 보여준다. 표의 마지막 열은 이전에 산정된 위험 기준, 예컨대 확립된 병리학적 표준 시행에 의해 특정한 HPV 유형을 층화하는 능력을 보여준다. 감염은 가장 많이 연관된 병태의 유형(예컨대, 생식기 혹) 또는 계산된 자궁경부 암으로의 발달 위험에 의해 분류된다.
도 9. Thinprep 자궁경부 솔 시료 YP1, YP10, YP 26, YP26, YP28로부터의 DNA가 30개의 고위험 HPV 변이체를 표적화하는 프로브를 함유하는 분자 역위 프로브세트를 사용하여 분석되었다. 또한, 프로브세트는 락토바실러스 및 칸디다 게놈 DNA를 환형화할 수 있는 프로브를 포함하였다. 시료 YP1은 하위 분취(sub-aliquote)되었고,"스파이크된 시료”를 제작하기 위해 칸디다 알비칸스로부터의 게놈 DNA가 첨가되었다. 서열분석 라이브러리가 제조되었고, Ion Torrent PGM에서 서열분석되었다. 표는 각 시료로부터 검출된 HPV 아형 및 각 시료로부터 검출된 추가적인 락토바실러스 또는 칸디다 게놈 DNA를 나타내며(괄호 안의 상대적 비율), Thinprep 시료로부터의 HPV 바이러스 및 박테리아 또는 진균류 DNA 모두의 정확한 검출을 보여준다. 막대 그래프는 YP1 시료의 복제체 간의 재현가능한 정량적인 검출을 추가로 나타낸다.
도 10. HPV 16으로부터의 바이러스 게놈 DNA가 정량되고, 1000 내지 10000000의 카피 수로 인간 게놈 DNA 시료에 첨가되었다. 이들 시료는 30개의 고위험성 HPV 변이체를 표적화하는 프로브 및 내부 교정 대조 서열을 함유하는 분자 역위 프로브세트를 사용하여 분석되었다. 라이브러리가 제조되었고, Ion Torrent PGM에서 서열분석되었다. HPV 16 게놈 서열에 대해 정렬된 리드카운가 정량되고 내부 교정 대조군을 사용하여 정규화되었다. 투입 카피 수 및 서열분석 리드 정량값 사이의 밀접한 선형 상관관계가 나타난다.
도 11. HIV CN009로부터의 바이러스 게놈 cDNA가 정량되고, 10 내지 100000000의 카피 수로 인간 게놈 DNA 시료에 첨가되었다. 이들 시료는 HIV 게놈 내 저항 유전자 영역을 표적화하는 프로브를 함유하는 분자 역위 프로브세트를 사용하여 분석되었다. 라이브러리가 제조되었고, Ion Torrent PGM에서 서열분석되었다. HIV 게놈 서열에 대해 정렬된 리드카운트가 정량되었다. 투입 카피 수 및 서열분석 리드 정량값 사이의 밀접한 선형 상관관계가 6자리 수에 걸쳐 나타난다.
도 12. 장구균 박테리아로부터의 4개의 게놈 DNA 시료가 12개를 초과하는 공통적인 박테리아성 병원체를 포획하기 위해 설계된 400 분자 역위 프로브를 초과하는 복합적인 프로브세트를 사용하여 서열분석되었다. 라이브러리가 Ion Torrent PGM에서 서열분석되었다. 이들 프로브의 하위세트로부터의 서열 리드가 장구균 게놈으로부터 예상되는 리드에 대하여 정렬되었고 이러한 프로브 세트에 대한 장구균 유전형을 나타내는 콘티그(contig)로 이어졌다. 4개의 시료 간 상이한 이러한 콘티그의 분획의 정렬이 보여지며, 이는 99%를 초과하는 특이성으로 4개의 시료를 서로 구별할 수 있게 하는 30개를 초과하는 뉴클레오티드 차이를 보여준다(이러한 서열분석 플랫폼, 이들 특이적 프로브 및 장구균 게놈 내의 편차의 오차 특징을 고려함).
도 13. 5개의 합성 100 베이스 DNA 컨스트럭트가 합성되었고, 각각은 공통적인 "5 ' 합성 유전자 영역” 및 "3 ' 합성 유전자 영역”을 함유하나, 중앙의 6개의 뉴클레오티드의 "합성 유전자 가변 영역”에 의해 구분된다. WT 대조군, 1 및 2를 나타내는 합성 서열이 시료에 혼합되었고, 5' 3' 합성 유전자 영역의 약 25개의 뉴클레오티드 영역에 결합하도록 설계된 분자 역위 프로브세트에 의해 접촉되었다. 라이브러리는 Ion Torrent PGM상에서 서열분석되었고, WT 대조군, 및 합성 서열 1 및 2의 높은 리드카운트 검출을 밝히는 각 합성 컨스트럭트에 대한 리드카운트가 정량되었다. 서열 3은 정확하게 부재하는 반면, 서열 4 및 5는 배경 오염 및 서열 오차에 기인하여 낮은 리드카운트로 생성되었다.
도 14. 분자 역위 프로브세트는 대조 표적 서열과 접촉하였고, 증폭 프라이머 함량, 라이브러리 희석 및 증폭 단계 사이클 횟수의 측면에서 상이한 Dx-seq 분석법 조건의 대상이 되었다. 생성된 DNA 산물은 Sybr Safe 염색을 사용하여 1% 아가로스 겔 상에서 시각화되었다. 얻어진 증폭 산물은 생어(Sanger) 서열분석에 의해 추가로 확인된 정의된 단위 길이의 연쇄체(concatemer) 서열 및 Ion Torrent PGM 라이브러리 서열분석으로부터 생성된 긴 단위 폭 리드의 조절된 생성을 보여준다.
도 15. 비오틴화된 합성 dsDNA 서열이 제조되었다. DNA는 가변적인 바코드 서열 측면의 공지된 서열을 포함한다(?FP-WT" 및 "GFP-A"로 표지됨). 합성 DNA 서열은 그들의 비오틴 모이어티를 통해 높은 친화도로 녹색 형광 단백질(GFP)에 대한 스트렙트아비딘 항체 접합체에 별개로 결합하였다. 이것은 부착된 DNA 서열에 의해 구분되는 항체-DNA 융합을 생성하였다. 각 항체-DNA 융합은 GFP-HisTag 단백질과 함께 별개로 항온배양되고, 결합 완충액으로 세척되고, GFP 단백질의 HisTag 부분에 결합하는 자성 비드에 접합된 항체를 사용하여 침전되었다. 침전된 항체-단백질-DNA 혼합물은 합성 DNA의 공지된 측면 서열에 특이적인 분자 역위 프로브 분석법을 거쳤다. PCR 증폭 후, 산물은 Sybr Safe 염색을 사용하여 1% 아가로스 겔 상에서 시각화되었고, HisTag 자성 비드에 의한 항체-DNA 서열의 침전물을 나타낸다(레인 5, 6, 7). 소량의 합성 DNA가 침전 비드를 사용하지 않은 시료 내에서 검출되었으나(레인 3), 이는 시료 튜브의 불충분한 세척에 기인한 것일 수 있으며, 침전은 합성 DNA의 5 내지 10 배 더 큰 회수를 초래한다. 이러한 결과는, DNA-항체 접합체가 표적 단백질에 결합하고 다음 세대의 서열분석을 대비하여 분자 역위 프로브 분석법에 의해 검출되는 능력을 보여주는 것으로 여겨진다.
도 16. 13개의 공통적인 박테리아성 병원체를 검출하기 위해 설계된 분자 역위 프로브세트가 13개의 병원체 각각으로부터 단리된 순수한 게놈 DNA를 분석하기 위해 사용되었고, 얻어진 서열분석 라이브러리는 Ion Torrent PGM 상에서 서열분석되었다. 각각의 게놈 DNA 시료는 분자 역위 프로브 분석법에서 3가지 상이한 카피 수량에서 3회 분석되었다. 결과는 이러한 프로브세트에 특이적인 30분의 자동화된 생물정보학 플러그인을 사용하여 분석되었다. 통과 기준은 순수한 gDNA 시료로부터 100리드 미만의 예상되지 않은 병원체를 가지며, 표적 병원체의 1000 리드를 초과하는 검출을 나타냈다. 수동 오차 또는 시료 혼동의 경우 사용자 오차가 식별되거나, 시료가 통과 기준을 만족하지 못했다면 실패가 표시되었다. 표는 시험된 139 시료 중, 9개의 사용자 오차의 경우 및 단지 하나의 분석법 실패의 경우가 있었던 것을 나타낸다. 시료 병원체가 다른 종으로 잘못 동정된 경우는 없었다. 이는 분석법에 대한 99%를 초과하는 민감성 및 특이성을 나타낸다.
도 17. 유전자 증폭장치(thermal cycler) 내 2시간 35분 프로토콜 동안에 단일 에펜도르프 튜브에의 구성요소의 계대 첨가에 의해 분자 역위 프로브 분석법이 수행되는 프로토콜이 기술된다. 프로토콜은 시료 내 표적 핵산의 검출 및 Ion Torrent PGM 상에서의 서열분석을 위한 DNA 라이브러리의 제조를 가능하게 하지만, 다른 다음 세대 서열분석 기술과도 양립될 수 있다.

정의

“포획 프라이머”는 관심있는 영역의 중합효소 및/또는 리가아제 매개 포획 방법에 적합한 선형 올리고뉴클레오티드이다. 포획 프라이머는 그 쌍에 의해 결합된 영역 사이의 중간 영역("관심있는 영역”)의 중합효소 연쇄 반응 증폭에 적합한 서로를 향해 배향된 3' 말단을 가지는 선형 올리고뉴클레오티드 프라이머의 "통상적인" 쌍 또는 관심있는 영역에 인접한 핵산 영역에 혼성화되고 관심있는 영역의 중합효소 및/또는 리가아제 매개 환형화 포획에 적합한 두 개의 상동성 프로브 영역을 포함하는 단일 선형 올리고뉴클레오티드인 분자 역위 프로브(molecular inversion probe, MIP)로도 알려져 있는 "환형화(circularizing) 포획 프라이머” 중 하나일 수 있다.

포획 프라이머의 하나 이상의 소정의 관심있는 유기체로 유도되는 "패널(panel)"은 복수의 포획 프라이머, 예컨대, "통상적인" 프라이머의 두 개 이상의 쌍 또는 두 개 이상의 "환형화 포획 프라이머”이다.

“높은 특이성”은 적어도 80%의 특이성, 예컨대, 적어도 80, 85, 86, 86, 88, 89, 90, 91, 92, 93, 94, 95, 95,5, 96, 96.5, 97, 97.5, 98, 98.5, 99, 99.1, 99.2, 99.3, 99.4, 99.5, 99.6, 99.7, 99.8, 99.9, 99.95, 99.99, 99.995, 99.999% 이상의 특이성을 지칭한다.

본 출원에서 사용되는 바와 같은 "특이성"은 시험이 유기체를 검출할 때 유기체가 정확하게 동정되는 경우의 분율 또는 백분율이다.

“민감성”은 시료 내 유기체가 존재할 때 시험이 "존재하는 유기체 없음”으로 회답하는 경우의 분율을 일에서 뺀 것(또는 100에서 백분율을 뺀 것)이다. 본 발명에 의해 제공되는 방법은 적어도 80, 85, 86, 86, 88, 89, 90, 91, 92, 93, 94, 95, 95,5, 96, 96.5, 97, 97.5, 98, 98.5, 99, 99.1, 99.2, 99.3, 99.4, 99.5, 99.6, 99.7, 99.8, 99.9, 99.95, 99.99, 99.995, 99.999% 이상의 민감성을 달성하는 포획 프라이머의 패널을 제공한다.

“핵산 서열분석(sequencing)의 오차 확률”은 핵산 서열 양상 및 서열분석될 유기체(들)를 설명하는 서열분석 결과에 대한 오차 함수이다.

“복합적인 유기체 검출”은 시료 내에 존재할 수 있는 2종 이상의 유기체의 존재를 동시에 검출하고 분류하는 방법을 지칭한다.

“서열분석 라이브러리”는 추가의 증폭이 없는 직접적인 서열분석 및/또는 특정 서열분석 양상을 위한 아답터와 같은 추가적인 핵산 서열을 첨부함으로써 추가적인 증폭을 사용하는 서열분석에 적합한 핵산의 수집물을 지칭한다. 일정 구현예에서, 서열분석 라이브러리는 추가적인 핵산 증폭의 부재 시 핵산 서열분석에 적합하다. 다른 구현예에서, 서열분석 라이브러리는 추가적인 증폭을 거칠 수 있다. 추가적인 증폭을 수반하거나 하지 않는 방법들의 더욱 상세한 구현예에서, 추가적인 서열은 서열이 될 핵산의 말단, 예컨대 특정 서열분석 양상에서 사용하기에 적합한 아답터 서열에 첨부될 수 있다. 일정 구현예에서, 아답터 서열은 증폭 단계에서 서열분석 라이브러리에 첨부된다.

“환형화 포획”은 관심있는 영역에 상보적인 서열이 삽입됨으로써 환형화되는 환형화 포획 프라이머를 지칭한다. 단순한 분자 역위 프로브(MIP)뿐 아니라 관련된 포획 프로브와 같은 환형화 포획 프라이머에 대한 기본적인 설계 원리는 당해 분야에 공지되어 있으며, 예를 들어 Nilsson 등(Science, 265:2085-88 (1994)), Hardenbol 등 (Genome Res., 15:269-75 (2005)), Akharas 등(PLOS One, 9:e915 (2007)), Porecca 등(Nature Methods, 4:931-36 (2007)); Deng 등(Nat. Biotechnol., 27(4):353-60 (2009)), U.S. 특허 제7,700,323호 및 제6,858,412호, 및 국제 공개 WO 2011/156795, WO/1999/049079 및 WO/1995/022623에 기술되어 있다.

본 발명의 일정 양태는 다음 식의 핵산 서열을 포함하는 환형화 포획 프라이머를 포함한다:

5'-A-B-C-3'

여기서,

A는 표 1 또는 3의 1열에 목록화된 프로브 암(arm) 서열이고;

C는 표 1 또는 3의 2열에 목록화된 프로브 암 서열에 해당하며

B는 백본 서열이다.

환형화 포획 프라이머는 상동 프로브 서열 사이에서 프라이머 결합 자리를 함유하는 백본 서열을 더 포함할 수 있다. 통상적으로, 환형화 포획 프라이머의 3 말단의 상동성 프로브 서열(프로브 구획 C)은 확장 암으로 일컫어지며, 환형화 포획 프라이머의 5' 말단의 상동성 프로브 서열(프로브 구획 A)은 라이게이션 또는 앵커 암으로 일컫어진다. 관심있는 게놈에서 표적 자리에 대한 혼성화 시, 환형화 포획 프라이머/표적 이중체는 (확장 암 상의) 프로브에 대한 적어도 2개의 뉴클레오티드의 중합효소 의존성 삽입 및/또는 환형화 포획 프라이머의 (중합효소로 연장된 환형화 포획 프라이머의 환형화 또는 관심있는 영역에 걸친 연결 폴리뉴클레오티드의 서열 의존성 라이게이션에 의한) 리가아제 의존성 환형화를 위한 적합한 기질이다.

“포획 반응”은 관심있는 영역의 환형화 포획을 거칠 수 있는 시험 시료와 하나 이상의 환형화 포획 프라이머가 이어지는 공정을 지칭하며, 여기서 환형화 포획 프라이머 내의 제1 및 제2 상동성 프로브 서열은 환형화 포획 프라이머의 제1 및 제2 표적 서열의 관심있는 영역을 포획하기 위해 시험 시료 내에서 그들의 각각의 표적 서열에 특이적으로 혼성화된다. 포획 반응은 시료 내에 존재하는 어떠한 유기체도 환형화 포획 프라이머에 의해 표적화되지 않는다면 관심있는 영역을 함유하는 환형화된 산물을 생성하지 않을 수 있다. "포획 반응 산물”은 시험 시료와의 포획 반응을 완료함으로써 생성되는 핵산의 혼합물을 지칭한다. "증폭 반응”은 포획 반응 산물을 증폭하는 공정을 지칭한다. "증폭 반응 산물”은 포획 반응 산물과의 증폭 반응을 완료함으로써 생성되는 핵산의 혼합물을 지칭한다.

“상동성 프로브 서열”은 본 발명에 의해 제공되는 환형화 포획 프라이머의 부분으로 표적 유기체의 게놈에 존재하는 표적 서열에 특이적으로 혼성화된다."상동성 프로브 서열”, "프로브 암”, "상동성 프로브 암”, "호머(homer)", 및 "프로브 상동 영역”이라는 용어 각각은 표적 게놈 서열에 특이적으로 혼성화할 수 있는 상동성 프로브 서열을 지칭하며 본원에서 상호교환적으로 사용된다. "표적 서열”은 관심있는 유기체의 게놈 내 핵산의 단일 가닥 상의 핵산 서열을 지칭한다. 일부 구현예에서, 환형화 포획 프라이머 내 상동성 프로브 서열은 표 1 또는 3에 목록화되거나 그들의 역 상보 서열이다. "혼성화" 라는 용어는 왓슨 크릭 염기 쌍(Watson-Crick base-pairing)에 의한 핵산 간의 서열 특이적 (A는 T 또는 U와 그리고 G는 C와) 상호작용을 지칭한다. "특이적으로 혼성화된다”는 핵산이 표적 서열에 완전히 상보적인 Tm 미만인 14℃를 넘지 않는 Tm으로 표적 서열에 혼성화된다는 것을 의미한다.

“유기체”는 게놈을 가지는 임의의 생물체이며, 바이러스, 박테리아, 고세균(archaea), 및 식물계, 진균류, 원생생물 및 동물을 포함하는 진핵생물을 포함한다.

“관심있는 영역”은 포획 프라이머(즉, 통상적인 프라이머 쌍 또는 환형화 포획 프라이머) 내 상동성 프로브 서열의 2개의 표적 서열의 가장 가까운 말단 사이의 서열을 지칭한다.

본 발명에 의해 제공되는 포획 프라이머는 자연적으로 발생하는 통상적인 뉴클레오티드 A, C, G, T 및 U(데옥시리보스 및/또는 리보스 형태임)뿐만 아니라 변형된 뉴클레오티드, 예를 들면 2'0-메틸-변형된 뉴클레오티드(Dunlap et al, Biochemistry. 10(13):2581-7 (1971)), IsodC 또는 IsodG, 또는 (dSpacer와 같은) 무염기 퓨란(Chakravorty, et al. Methods Mol Biol. 634: 175-85 (2010))(정석적인 왓슨 크릿 수소 결합을 형성하지 않음), 비오틴화된 뉴클레오티드, 아데닐화된 뉴클레오티드, 차단기를 포함하는 뉴클레오티드(광분해성 차단기를 포함함), 및 잠금 핵산(locked nucleic acid, LNA; 다중 핵산 내에서 증진된 염기 쌓임(stacking) 상호작용을 제공하는 변형된 리보뉴클레오티드; 예컨대, Levin et al. Nucleic Acid Res. 34(20): 142 (2006)참조)과 같은 인공 염기 쌍뿐만 아니라 펩티드 핵산 백본을 포함할 수 있다. 특정 구현예에서, 본 발명에 의해 제공되는 포획 프라이머의 5' 또는 3' 상동성 프로브 서열은, 그들의 각각의 말단에서, PC-비오틴과 같은 광분해성 차단기를 포함한다. 더욱 상세한 구현예에서, 본 발명에 의해 제공되는 포획 프라이머는 광활성화될때까지 라이게이션을 차단하기 위해 그의 5' 말단에 광분해성 차단기를 포함한다. 다른 특정 구현예에서, 본 발명에 의해 제공되는 포획 프라이머는 광활성화될때까지 중합효소 의존성 연장 또는 n-머(mer)의 올리고뉴클레오티드의 라이게이션을 차단하기 위해 그의 3' 말단에 광분해성 차단기를 포함한다.

다른 구현예에서, 본 발명에 의해 제공되는 포획 프라이머의 가장 끝 5'-뉴클레오티드는 라이게이션 및/또는 혼성화 효율을 향상시키기 위해 아데닐화된 뉴클레오티드를 포함한다. 예컨대, Hogrefe 등(J Biol. Chem. 265 (10): 5561-5566, (1990))을 참조한다. 더욱 상세한 구현예에서, 5' 상동성 프로브 영역(예컨대, 라이게이션 암)의 5' 말단은 적어도 하나의 LNA를 포함하고, 더욱 더 상세한 구현예에서, 5' 말단 뉴클레오티드는 LNA이다.

특정 구현예에서, 포획 프라이머는 라이게이션 효율을 향상시키기 위해 5 말단에서 인산기로 캡핑된다.

“바코드”라는 용어는 분자 또는 관련된 분자의 클래스를 고유하게 동정하는 핵산 서열을 지칭하기 위해 사용된다. 본 발명의 포획 프라이머에서 사용될 수 있는 적합한 바코드 서열은, 예를 들어, Fodor 등에 의한 미국 특허 제5,445,934호 및 Brenner에 의한 미국 특허 제5,635,400호에 기술된 n-머 어레이와 같은 개별맞춤되거나 사전 제작된 핵산 어레이에 해당하는 서열을 포함할 수 있다. 일정 구현예에서, n-머 바코드는 적어도 3, 4, 5, 6, 7, 8, 9, 10, 12, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400 또는 500개의 뉴클레오티드, 예컨대 18로부터 20, 21, 22, 23, 24, 또는 25개의 뉴클레오티드일 수 있다. 특정 구현예에서, n-머 바코드는 6 내지 8 뉴클레오티드이다. 추가의 구현예에서, n-머 바코드는 10 내지 12 뉴클레오티드이다. 특정 구현예에서, 바코드는 오차로 이 바코드가 부주의하게 다른 것으로 판독될 수 있기 위해서 1, 2, 3, 4 또는 5를 초과하는 서열분석 오차를 요구하도록 설계되는 서열을 포함한다. 일부 구현예에서, 포획 프라이머는 바코드를 함유하지 않는 반면, 환형화된 포획 프라이머를 증폭하기 위해 사용되는 프라이머는 바코드를 포함한다.

환자로부터의 시료를 시험하기 위해 사용되는 포획 프라이머의 패널에서 활용될 수 있는 바코드의 선택은 군집 내의 바코드 서열의 각 자리에서 5%를 초과하지만 50%를 넘지 않는 특정 뉴클레오티드의 대표를 제공할 바코드의 조합을 선택하는 단계를 수반할 수 있다. 이것은 Perl script를 사용하여 명시된 조건이 만족될 때까지 통합된 세트에 대한 바코드의 무작위 첨가 및 제거에 의해 달성된다. 바코드 군집 내에 바코드의 역 상보 서열도 또한 존재하는 바코드도 또한 제거될 수 있다.

일정 구현예에서, 바코드는 시료 특이적이고, 예컨대 하나 이상의 환자 특이적인 바코드를 포함한다. 특정 구현예에서, 환자 시료 당 하나 이상의 바코드가 할당될 것이고, 각 환자에 대한 복제 시료가 동일한 서열분석 반응을 수행할 수 있다. 시료 핵산 특이적 바코드를 사용함으로써, 본 출원에 기술된 바와 같은 복합적 반응들뿐 아니라 특이적 바코드의 정의된 레퍼토아를 사용하지 않는 시험 시료 간의 교차 오염을 검출할 수 있다. 일정 구현예에서, 바코드는 일시적, 예컨대, 특정한 기간을 명시하는 바코드일 수 있다. 일시적인 바코드를 사용함으로써, 상이한 날에 운용된 분석 기기, 예를 들면 서열분석 기기 상의 잔재 또는 오염을 검출할 수 있다. 더욱 구체적인 구현예에서, 시료 및/또는 일시적인 바코드는 시료들 및/또는 날짜들 간의 교차 오염을 자동적으로 검출하고, 예를 들어 기기 작동자에게 서열분석 기기와 같은 시료 처리 시스템을 청소하고/하거나 오염물질을 제거하도록 지시하기 위해 사용될 수 있다.

일정 구현예에서, 본 발명의 혼합물은 시료 내부 교정 핵산(sample internal calibration nucleic acids, SIC)을 함유한다. 특정 구현예에서, 공지된 양의 하나 이상의 SIC는 본 발명에 의해 제공되는 혼합물에 포함된다. 특정 구현예에서, 적어도 1, 2, 3, 4, 5, 6, 7, 8, 10, 15, 20, 25, 또는 30종의 상이한 SIC가 혼합물 내에 포함된다. 특정 구현예에서, 약 4종의 상이한 SIC가 혼합물 내에 있다. 일부 구현예에서, SIC는 병원성 DNA 표적의 뉴클레오티드 조성물 특성을 가지며, 예컨대, 각각의 개별 시험 시료에 대한 처리 및 서열분석 단계를 위한 품질 조절을 위해 교정 곡선을 재구성할 수 있는 특이적인 몰 양으로 존재한다. 일정 구현예에서, SIC는 혼합물 내 핵산의 대략 10%(몰 양), 예를 들어 혼합물 내 핵산의 2, 4, 6, 8, 10, 12, 14, 16, 18, 또는 20%(몰)을 구성한다. 특정 구현예에서, 상이한 SIC는 상이한 농도, 예를 들어, 계대 희석에서, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 또는 50단계에서 가장 희석된 SIC로부터 가장 농축된 SIC까지 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 200, 500, 1000, 5000, 10000, 50000, 또는 100000배 농도 범위로 걸쳐 존재한다. 특정 구현예에서, SIC는 5, 25, 100, 및 250 카피/ml의 농도로 시료(예컨대, 포획 프라이머 및 시험 시료의 혼합물, 포획 반응, 포획 반응 산물, 증폭 반응, 또는 증폭 반응 산물) 내에 존재한다. 예를 들어, SIC로 유도되는 포획 프라이머를 사용하여 소정의 농도의 SIC를 검출함으로써, 당업자는 시험 시료 내 바이러스와 같은 관심있는 유기체의 농도를 추정할 수 있다. 일정 구현예에서, 이것은 포획된 서열이 검출된 빈도와 핵산이 수득되는 시료의 부피를 상호연관함으로써 달성된다. 따라서, 단위 부피 당 유기체 카운트(count)(예컨대, 혈액 또는 소변과 같은 액체 시료에 대해서는 카피/ml)가 검출된 각 유기체에 대해 추정될 수 있다.

특정 구현예에서, SIC 및 SIC로 유도되는 포획 프라이머의 농도는 실험적으로 조정되어 포획 반응 산물 및/또는 증폭 반응 산물 내에서 검출된 SIC의 서열은 혼합물 내 서열의 약 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 25, 또는 30%를 구성한다. 특정 구현예에서, SIC는 서열 리드(read)의 10 내지 20%를 구성한다. 일정 구현예에서, 시료 처리가 소정의 파라미터 내에서 일어났음을 보장하기 위해 서열분석 반응 내 SIC 서열 리드의 수가 정량적으로 평가된다. 특정 구현예에서, 소정의 파라미터는 다음 중 하나 이상을 포함한다: 특정 운용 동안 서열분석된 모든 시료에 대한 2개의 표준 편차 내의 재현성, 신뢰할 수 있는 서열분석 데이터에 대한 실험적으로 결정된 범주(예컨대, 염기 콜링 신뢰도, 오차 점수, 표적 유기체 당 각각의 포획 프라이머에 대한 총 서열분석 리드의 백분율 조성), 서열분석 운용 내에서 GC 또는 AU 풍부 SIC의 약 15% 이하의 편차. 환자 시료가 복합적인 서열분석을 위해 통합될 수 있도록 바코드된 구현예에서, 시료 내 SIC DNA는 또한 고유의 시료, 예컨대, 특정 환자 시료에 해당하는 동일한 바코드(들)를 포함할 것이다.

시험 시료는 임의의 공급원으로부터 유래할 수 있으며, 임의의 표면의 면봉 채취물 또는 추출물, 또는 환자 시료와 같은 생물학적 시료를 포함한다.

환자는 성인, 청소년, 및 소아를 포함하는 임의의 연령일 수 있다.

대상체 또는 환자로부터의 생물학적 시료는 혈액, 전세포, 조직, 또는 기관, 또는 3개의 원생 배엽(외배엽, 중배엽, 또는 내배엽) 중 임의의 것으로부터 기원한 조직을 포함하는 생검물을 포함할 수 있다. 예시적인 세포 또는 조직 공급원은 피부, 심장, 골격근, 평활근, 신장, 간, 폐, 뼈, 췌장, 중추 신경 조직, 말초 신경 조직, 순환 조직, 림프 조직, 장, 비장, 갑상선, 결합 조직, 또는 생식샘을 포함한다. 시험 시료는 수득되고 즉시 분석될 수 있거나, 대안적으로, 혼합, 화학적 처리, 고정/보존, 동결, 또는 배양에 의해 처리될 수 있다. 대상체로부터의 생물학적 시료는 혈액, 흉수, 유즙, 초유, 림프, 헐청, 혈장, 소변, 뇌척수액, 관절 낭액, 침, 정액, 눈물, 및 대변을 포함한다. 특정 구현예에서, 생물학적 시료는 혈액이다. 다른 시료는 면봉 채취물, 세정물, 세척물, 배출물, 또는 흡인물 (예를 들면, 비강, 경구, 비인두, 구강인두, 식도, 위장관, 직장, 또는 질의 면봉 채취물, 세정물, 세척물, 파괴물, 배출물, 또는 흡인물) 및 전술한 생검 재료 중 임의의 것과의 조합을 포함하는 이들의 조합을 포함한다.

본 발명에 의해 제공되는 방법에서 사용하기 위한 포획 프라이머

본 발명에 의해 제공되는 방법은 본원에 정의되고, 그 전체가 참조로서 포함된 (통상적인 프라이머 쌍 및 분자 역위 프로브(MIP) 모두를 포함하는) 국제 공개 WO 2011/156795에 더욱 완전하게 기술된 포획 프라이머를 사용한다.

특이성을 달성하기 위해 서열분석하는 영역의 선택

다수의 발명은 DNA 분자의 복합 시료로부터의 DNA의 세트를 선택적으로 서열분석하거나 풍부화할 수 있는 프라이머 및 프로브를 설계할 수 있게 한다. 예를 들어, Life Technologies는 다중 PCR 반응에서 사용하기 위한 프라이머 쌍을 설계하기 위한 Ion AmpliSeq™ Designer를 제공한다. 유사하게, Agilent는 소비자가 포획될 서열을 제출할 수 있는 그들의 SureSelect 및 HaloPlex 산물에 대한 맞춤 패널을 제공한다. 종 또는 균주를 동정하기 위한 프라이머 또는 프로브를 설계하기 위한 이러한 기술들을 사용할 때, 설계자는 중복의 수준(얼마나 많은 SNP 또는 다른 차이점들이 종 또는 균주의 모든 쌍을 구별할 수 있는가?)을 선택해야 한다. 더 적은 프로브 또는 프라이머는 분석의 비용을 낮추지만 잘못된 결과를 얻기가 더 쉬울 수 있다.

본 발명은 당업자가 실험에서 잠재적인 오차의 공급에 직면하여서도 원하는 특이성을 달성하기 위해 게놈 간의 차이를 밝히는 프라이머 또는 프로브를 선택하는 임의의 방법을 사용할 수 있게 한다.

1. 서열분석 오차. 모든 DNA 서열분석 기술은 일정 빈도로 오류를 만든다. 서열분석 장비 및 동반되는 데이터 분석 소프트웨어는 통상적으로 약 1%의 오차율을 가진다.

2. 자연적인 게놈 가변성. 단일 뉴클레오티드를 기초로 2종을 구분하는 방법은 종의 단리체 내에서 달라진 뉴클레오티드의 자연적인 빈도에 의존한 빈도로 부정확한 결과를 보고할 것이다.

이러한 문제에 대한 단순한 해결책은 더욱 많은 뉴클레오티드를 서열분석하는 것이다.

그러나, 더욱 많은 게놈을 서열분석하는 것은 프로브 세트에 의해 서열분석되는 영역의 수가 증가함에 따라 더 높은 비용을 초래한다. 따라서, 원하는 특이성을 달성하는 가장 적은 수의 영역, 또는 이의 근사치를 서열분석하는 것이 유리하다. 본 발명의 기술에서 "프로브"의 사용은 임의의 특정한 유형의 프로브에 제한되는 것이 아님을 주지한다; 분자 역위 프로브, 마이크로어레이 포획 프로브, 비드 기반 포획 프로브 또는 프라이머 쌍을 포함하는 혼합물로부터 특정 DNA 분자를 선택할 수 있는 임의의 발명이 사용될 수 있다.

본 발명은 원하는 특이성을 얻기 위해 프로브 선택기 또는 프로브 세트 설계기를 사용하기 위한 방법을 제공한다. 본 발명은 프로브 세트가 서열분석할 차이점의 수를 결정하기 위해 두 가지 오차율(p_오차_seq 및 p_오차_게놈)의 추정값을 사용한다. 이러한 오차율은 서열분석된 영역 내 임의의 뉴클레오티드에서 신뢰할 수 없거나 부정확한 관찰의 확률을 나타내는 단일 p_오차로 합산될 수 있다. 서열분석은 제2 세대 또는 제3 세대 서열분석 방법, 예를 들면, Illumina, 454, Solid, Ion Torrent, PacBio, Oxford, Life Technologies QDot 또는 임의의 다른 입수가능한 서열분석 플랫폼과 같은 상업적인 플랫폼을 이용하여 이루어질 수 있다.

임의의 균주의 쌍 또는 임의의 종의 쌍 사이에서 적어도 N개의 차이점을 나타낼 것으로 예상되는 게놈 영역의 수의 일부를 서열분석할 수 있는 프로브 세트를 고려한다. 데이터 분석 시, 소프트웨어 도구 또는 인간은 적어도 N개의 정보제공성 뉴클레오티드의 세트(유기체의 상이한 쌍에 대해서 정보제공성 뉴클레오티드는 다를 수 있다)에 기반하여 시료에 함유된 유기체 A 또는 유기체 B를 결정할 것이다. 서열분석 데이터는 오차를 함유할 수 있거나 단리체는 A 또는 B에 대한 완벽한 동질유전자계가 아닐 수 있음을 이해함으로써, 데이터 해석자는 A 또는 B 중 어느 것이든 서열분석된 영역 내 시료에 가장 유사한 것을 시료에 할당할 것이다. 따라서, 시료가 A를 함유하는 경우, N개 이상의 정보제공성 뉴클레오티드 중 다수에서 서열분석 데이터가 A에 매치된다면, 해석자는 시료에 A를 할당할 것이다. 마찬가지로, N개 이상의 정보제공성 뉴클레오티드 중 다수에서 서열분석 데이터가 B에 매치된다면, 해석자는 시료에 B를 할당할 것이다. 따라서, 주어진 N개의 정보제공성 뉴클레오티드에서, 적어도 뉴클레오티드의 플로어((N/2)+1)에서 "정확한" 경우, 즉 그들이 정확하게 서열분석되고 시료 내 단리체에서 정확한 참조 균주에 대하여 돌연변이를 가지는 않는 경우, 해석자는 정확한 결정을 내릴 것이다.

해석자가 적어도 99%의 시기에서 A와 B를 정확하게 할당하게 만들도록 (즉, B로부터 A를 구분하는 99%의 특이성) 프로브 세트를 설계하기 위해, 정보제공성 뉴클레오티드의 수(N)는 충분히 커서 대다수가 틀리는 확률이 주어진 오차의 공급원의 99% 미만이어야 한다. 이러한 공정은 이항 분포로 모델링될 수 있다. 더욱 구체적으로, 부정확한 할당의 확률은 이항 분포의 누적 분포 함수인 하기의 식(1)에 기술되는데, 여기서 N은 정보제공성 유전자좌(locus)의 수이고 p는 부정확한 뉴클레오티드 관찰 확률(p = p_오차_seq + p_오차_게놈)이다.

예를 들어, 10개의 정보제공성 유전자좌 및 .1의 오차 확률이 주어지면, 해석자가 부정확한 할당을 만들 확률은 1.5x10^-4이다. 동일한 10개의 유전자좌의 사용에서, 오차 확률은 99% 미만으로의 특이성의 감소 없이 0.22까지 높아질 수 있다. 하기의 표는 다양한 N 값(정보제공성 유전자좌의 수)에 대한 오차의 확률 및 오차 확률을 제공한다.

조합된 오차 확률 및 원하는 특이성의 추정값이 주어지면, N에 대한 값이 예를 들어 다음과 같은 다양한 방법에 의해 결정될 수 있다:

1. 세트 N = l

2. 식(1)을 사용한 부정확한 할당의 확률의 계산

3. 만일 원하는 특이성이 부정확한 할당의 확률을 1에서 뺀 값을 초과한다면, N을 증가하고 2단계로 돌아간다. 그렇지 않으면 중지한다.

절차는 많은 흔한 과학적 또는 통계적 도구(예를 들면, R, Matlab, Octave등)에서 실행될 수 있다.

정보제공성 유전자좌의 수를 결정하기 위한 위의 방법은 정보제공성 유전자좌가 부정확학 결과를 서로 독립적으로 보고한다는 가정에 의존하여 원하는 특이성을 달성하기 위해 필요하였다. 그러나, 그들이 단일 프로브 또는 프라이머 쌍에 의해 포획되고 단일 서열분석 리드에 의해 관찰되는 경우와 같이 몇몇 정보제공성 유전자좌가 게놈 내에서 가깝다면 이는 사실이 아닐 수 있다. 이러한 경우, 유전자좌의 세트는 단일 단위로서 작용할 수 있다. 예를 들어, 유전자의 원래 카피가 다른 균주 또는 종으로부터 전달된 플라스미드 상의 외래 버전으로 교체될 수 있고, 따라서, 동시에 참조 게놈으로부터 다수의 차이점을 생성할 수 있다. 따라서, 정보제공성 유전자좌를 선택하기 위한 더욱 견고한 방법은 근접한 유전자좌의 세트를 단일 단위로서 처리한다. N를 정보제공성 뉴클레오티드의 수를 나타내는 것으로 도안화하기보다는, 이러한 보다 보수적인 접근에서는 N이 정보제공성 프로브의 수를 나타내도록 한다.

2종의 오차 확률을 결정하거나 추정하는 것은 적합한 N를 선택하는 데 중요하다. 일반적으로, 비록 그들이 서열분석 리드에 걸쳐서 변할 수 있지만, 서열분석 장비의 오차 특성은 잘 정의되어 있다. FastQC, PIQA, 및 Reptile과 같은 다수의 소프트웨어 패키지는 서열분석 장비에 의해 보고된 품질 점수(Q 점수로 나타나며, 여기서 q= -10*logl0 서열분석 오차의 확률)를 도표화할 수 있다. 품질 점수는 통상적으로 서열분석 리드의 길이에 걸쳐서 낮아지며, 사용자는 주어진 리드 길이에 대한 최소값을 결정할 수 있다. 예를 들어, Ion Torrent PGM으로부터의 품질 점수는 일반적으로 리드에 200 뉴클레오티드에서 Q20(p_오차_seq < = .010)을 초과한다. 낮은 품질의 서열분석 운용은 Q15로 감소된 점수를 산출할 수 있는데, p_오차_seq <= .031를 나타낸다. 따라서, Ion Torrent PGM 서열분석 장비 및 200bp 리드로 사용될 프로브세트를 위한 단순한 접근법은 p_오차_seq = .01을 사용한다.

주어진 단리체 및 공지된 게놈간의 돌연변이의 확률을 추정하는 것은 더 큰 도전과제를 제시한다. 단순한 접근법은 종 간 또는 균주 간의 차이점의 공지된 값을 사용한다. 예를 들어, Konstantinidis 등(Phil. Trans. R. Soc. B. 361: 1929-40(2006))은 박테리아 종간의 뉴클레오티드 변이가 95%임을 제안하여 p_오차_게놈 = .05을 제안한다.

분기 또는 변이의 수준은 또한 유기체에 대해 서열분석된 게놈의 세트로부터 계산될 수도 있다. 예를 들어, 게놈은 Muscle, Clustalw, 또는 Mummer과 같은 프로그램 및 게놈의 각 쌍 사이에서 계산된 분기율의 수를 사용하여 정렬될 수 있다. 그 후, 평균 또는 최대 분기율은 p_오차_게놈에 대한 추정값으로서 사용될 수 있다.

보다 복잡한 접근법은 p_오차_게놈에 대한 다양한 값을 사용한다. 값은 다중 서열 정렬, 암호화 및 비 암호화 영역 사이의 경계, 코돈 내 뉴클레오티드의 위치, 단백질 패밀리 내 아미노산 보존의 정도 등을 고려하여 염기 마다 계산될 수 있다. 식(1)의 p의 값이 더 이상 모든 N개의 뉴클레오티드 또는 프로브에 걸쳐 일정하기 않게 되면서, 다양한 p_오차_게놈의 사용은 원하는 특이성을 달성하기 위해 필요한 정보제공성 뉴클레오티드 또는 프로브의 수를 결정하는 업무를 복잡하게 한다. 사실 p에 대한 값은 프로브 세트 내에서 어떤 프로브가 사용하기 위해 선택되었는지에 따라 달라진다. 따라서, N에 대한 값은 프로브 세트가 선택되기 전에 계산될 수 없다. 대신, 프로브 세트에 각 프로브가 첨가될 때마다 부정확한 결과의 확률이 계산된다. 부정확한 결과의 확률은 X(부정확한 뉴클레오티드에 대한 X=(floor(N/2)+l)의 확률과 N을 합산함으로써 계산될 수 있다. 만일, p_오차_i가 뉴클레오티드 1에서의p_ 오차 _seq 및 p_ 오차 _게놈의 합산이라면, 부정확한 뉴클레오티드 X의 확률은 N개의 뉴클레오티드의 모든 형태에 걸친 합산으로, 남아있는 뉴클레오티드에 대하여 X (X 부정확한 뉴클레오티드 내 I에 대한 p_오차_i 의 산물) * ((1 - p_ 오차_i)의 산물)의 부정확성이다.

선택된 영역의 세트에 대한 서열분석 리드를 고려하면, 리드는 그들을 도 1 및 2에 도시된 바와 같은 공지된 전체 또는 부분적인 게놈의 큰 수집물에 적용되는 프로브 세트에 의해서 생성될 수 있는 리드의 세트를 함유하는 데이터베이스에 비교하거나 정렬함으로써 빠르게 분석될 수 있다. 당업자는 게놈의 데이터베이스 대해 프로브 서열을 정렬하고, 정렬을 예상되는 서열분석 리드를 생성하기 위해 사용함으로써 이러한 데이터베이스를 생성할 수 있다. 분자 역위 프로브 또는 프라이머 쌍을 사용할 때, 프로브의 2개의 말단 또는 2개의 프로브는 정확한 배향으로 근접한 게놈 위치에 맵핑되어야 하고 두 말단 사이의 게놈 서열인 예상되는 리드를 생성할 것이다.

Agilent's SureSelect과 같은 혼성화 프로브를 사용할 때, 단일 프로브 서열은 게놈의 데이터베이스에 정렬되고, 매칭 영역은 서열분석 플랫폼으로부터 가능한 가장 긴 리드에 해당하는 길이에 의해 확장되어 서열분석된 DNA 단편이 잘 정의된 경계를 가지지 않을 것이라는 사실을 설명한다. 프로브 세트로부터 가능한 리드의 세트는, 그 후, 시료로부터 서열분석 리드를 맵핑하는데 사용될 얼라이너에 따라 사전 처리된다. 예를 들어, Blast, Blat, Bowtie, 또는 SOAP와 같은 통상적인 정렬 프로그램은 모두 얼라이너를 위한 데이터베이스 형식으로 (예컨대, FASTA 파일로) 서열을 처리하기 위한 프로그램이 딸려 있다.

이러한 데이터베이스는 빠른 분석을 가능하게 하는데 이는 프로브에 의해 선택된 임의의 게놈의 분획이 게놈의 크기에 비해 상대적으로 작기 때문이다. 예를 들어, 프로브 세트는 스타필로코커스 아우레우스 게놈의 5 kb의 또는 약 .1%를 서열분석할 수 있다. 따라서, 수천개의 게놈에 적용된 프로브 세트의 잠재적인 결과를 함유하는 정렬 데이터베이스는 단지 소수의 전체 게놈 서열을 함유하는 데이터베이스 정도만큼만 클 것이다. 예를 들어, 표 4의 프로브가 수백개의 박테리아 및 진균류 게놈 및 수 개의 포유동물 게놈의 데이터베이스에 적용되면, 얻어진 정렬 데이터베이스는 단지 약 3 MB의 서열만을 함유한다. 따라서, 수백의 박테리아 게놈에 대한 선택된 게놈 영역으로부터의 서열분석 리드의 분석은 단일 전체 게놈 서열에 대한 이러한 서열분석 리드의 분석만큼만 길어진다.

분석 영역을 선택함으로써 특이성의 달성

다른 구현예에서, 본 발명은 게놈의 가장 유용한 정보제공성 영역을 분석하기 위해 물리적 선택보다 가상적 선택을 사용할 수 있다. 본 구현예에서, 유기체 또는 시료 내 유기체의 전체 게놈으로부터의 서열분석 리드를 생성하기 위해 표준 시약이 사용될 수 있다. 그러나, 표준 방법으로 이러한 데이터를 분석하는 것은 매우 어렵고 상당한 컴퓨터 사용 자원들을 요구한다. 예를 들어, 각 서열분석 리드는 게놈 서열의 큰 수집물에 대하여 정렬될 수 있다. 이러한 데이터베이스는 Genbank와 같은 공개적으로 입수가능한 공급원으로부터 생성될 때 수십 또는 수백 기가베이스일 수 있다. 리드를 정렬하기 위해 요구되는 시간은 일반적으로 데이터베이스 크기와 함께 선형으로 증가하기 때문에, 큰 데이터베이스는 비실용적일 수 있다. 예를 들어, (Illumina MiSeq 장비에 의해 생성된) 천만개의 리드를 인간 게놈에 대하여 정렬하기 위해 정렬하는 것은 반 시간이 걸릴 수 있다; 그러나, 이러한 리드를 공지된 박테리아, 진균류, 및 바이러스 및 포유동물 게놈의 데이터베이스에 대하여 정렬하는 것은 16시간 이상이 걸릴 수 있다.

본 개시로부터의 프로브 선택 방법을 사용하여, 당업자는 유기체의 세트를 동정하는 데 가장 유용한 적은 세트의 서명 또는 지문 영역을 생성할 수 있다. 통상적인 용도에서, 이러한 영역의 총 크기는 투입된 게놈 서열의 1/1000 크기일 수 있고, 따라서 리드 정렬 시간을 1000만큼 낮춘다.

이러한 서열분석 리드를 데이터베이스에 비교할 때, 리드는, 도 2에 나타낸 바와 같이, "프로브" 및 "게놈" 부분으로 나눠지지 않는다. 대신, 전체 리드는 "게놈"이고, 단일 단계로 게놈 영역의 데이터베이스에 비교된다. 이러한 비교는 Blast, Blat, Bowtie, Bowtie2, MAQ 등과 같은 표준 프로그램을 사용하여 수행될 수 있다.

합성 핵산 및 단백질 검출

유기체로부터 핵산을 검출하는 것에 추가하여, 예를 들면 내부 교정 표준, 또는 외인성으로 합성된 유전자 플라스미드 또는 산물로부터, 합성 핵산 서열을 검출하는 것이 종종 바람직하다. 일부 구현예에서, 합성 핵산은 비핵산 생물분자 또는 작은 분자, 예를 들어, 비오틴 또는 단백질, 예를 들어 항체와 결합되거나 접합된다. 항체에 접합된 핵산은 항체에 대한 친화도를 가지는 2차 분자, 또는 항체가 높은 친화도로 결합하는 분자, 예를 들면 표적 에피토프를 사용하여 풍부화될 수 있다. 풍부화된 항체 분자의 수의 결정은 합성 항체에 결합된 핵산 서열을 서열분석함으로써 달성될 수 있다. 일부 구현예에서, 이러한 서열분석은 다음 세대 서열분석이다. 추가의 구현예에서, 핵산 시료는 상이한 본질(identity)의 고유한 항체에 부착된 고유의 합성 핵산 서열의 혼합을 함유할 수 있다. 이러한 구현예에서, 합성 핵산의 라이브러리의 서열분석은 혼합물 내에 존재하는 각 항체의 상대적인 양을 정량할 수 있게 한다. 일부 구현예에서, 서열분석 라이브러리는 합성 DNA 표적 및 선택된 서열분석 플랫폼과 상호작용 하는 영역에 결합하는 서열을 함유하는 PCR 프라이머에 의해 제조된다. 다른 구현예에서, 분자 역위 프로브세트는 합성 핵산 표적과 접촉할 수 있고, 다음 세대 서열분석을 위한 서열 정보를 포획할 수 있다.

예시된 실시예와 같이, 튜브 내 10종의 항체의 혼합물에서, 별개의 항체에 접합된 올리고뉴클레오티드를 가지는 각각의 항체를 제조한 후, 10종을 함께 혼합한 다음 상이한 서열의 존재도(abundance)를 서열분석함으로써, 당업자는 얼마나 많은 양의 각각의 항체가 튜브 내에 존재하는지를 결정할 수 있다. 이러한 방법은 다양한 맥락에서 유용한데, 예를 들어, 항체가 고정된 세트의 표적, 예컨대 조직 시료와 접촉하고 조직 시료가 보유하고 있는 항체의 양이 서열분석에 의해 순차적으로 결정될 수 있기 때문이다.

검출 방법은 부착된 고유한 서열에 의해 개별 분자를 검출할 수 있기 때문에, 이러한 방법은 PCR 또는 생어(Sanger) 서열분석에 의해 부착된 서열을 검출하는 것과 같은 종래의 방법보다 우수하다. 단일 튜브/시료에서 10 또는 100 또는 1000개의 표지된 생물분자, 예를 들면 항체를 정량하는 것은 본 발명의 양태를 사용함으로써 가능해진다.

단일 튜브에서 민감하고 특이적인 선택의 수행

단순한 프로토콜을 사용하는 기술은 상대적으로 훈련되지 않은 기술자들이 작업을 수행하게 할 수 있기 때문에 유리하다. 단순한 프로토콜의 주요한 특징은 필요한 시약의 수, 정화 단계의 수 및 하나의 튜브 또는 용기로부터 다른 것으로의 전달 횟수이다. 많은 경우에서, 이러한 특성은 또한 미세유체 디바이스 또는 액체 처리 로봇을 통한 프로토콜의 용이한 자동화를 가능하게 한다.

몇몇 기술들은 복합 시료로부터 많은 DNA 표적을 동시에 포획할 수 있게 한다: 다중 PCR, 분자 역위 프로브, 표면 상의 혼성화, 또는 비드 상의 혼성화. 그러나, 이러한 기술들 중 다수는 복잡한 프로토콜을 요구한다. 예를 들어, Ampliseq 다중 PCR 프로토콜은 3개의 정화/정제 단계를 요구하며, DNA는 5개의 별개의 튜브에 걸쳐 전달된다. Nextera 라이브러리 제조 시스템은 2개의 정제 및 3개의 별개의 튜브를 요구한다.

본 발명은 숙련되지 않은 기술자가 복합 시료로부터 수백 또는 수천개의 게놈 영역을 포획하고 서열분석을 하기 위해 시료 당 단일 튜브 및 시료의 전체 배치에 대하여 단일 정화만을 사용하여 게놈영역을 제조할 수 있는 방법을 제공한다. 본 발명은 예를 들어, Nilsson 등(Science, 265:2085-88 (1994)), Hardenbol 등(Genome Res., 15:269-75 (2005)), Akharas 등(PLOS One, 9:e915 (2007)), Porecca 등(Nature Methods, 4:931-36 (2007)); Deng 등(Nat. Biotechnol, 27(4):353-60 (2009)), 미국 특허 제7,700,323호 및 제6,858,412호, 및 국제 공개 WO 2011/156795, WO/1999/049079 및 WO/1995/022623에 기술된 분자 역위 프로브를 사용한다.

효소적인 핵산 증폭의 공통적인 제한점은 반응 내 구성요소의 혼합이 상호작용할 수 있어서 의도치 않은 산물을 생성한다는 것이다. 겔 전기영동에 의한 검출의 경우, 정의된 길이의 핵산 산물은 시료 내에서 우세한 종으로 나타날 수 있지만, 다양한 크기의 의도치 않는 핵산 산물의 희미한 자국이 반응 내 총 핵산 산물 중 현저한 양을 포함할 수 있다. 서열분석에 의한 검출의 경우, 의도된 산물 및 의도치 않은 산물 모두는 서열분석될 수 있고, 후자는 유용하게 해석될 수 있는 서열분석 반응의 비율을 낮춘다.

다음 세대의 서열분석을 위한 라이브러리의 제조를 위한 통상적인 프로토콜은 반응 내 의도치 않은 산물의 양을 낮추기 위한 크기 분리 또는 풍부화 단계 또는 서로의 효율을 방해할 수 있는 효소적 단계를 분리하기 위한 다수의 에펜도르프 튜브간의 구성요소의 전달을 포함한다. 이러한 단계는 운영자에게 작업흐름의 복잡성을 증가시키고, 실제 시간을 연장하고, 액체 처리 로봇 또는 미세유체 디바이스 상의 이러한 반응의 채용을 방해할 수 있다. 본 발명은 표적 핵산 시료를 접촉시키는 단계부터 라이브러리 증폭의 완료에 걸쳐서 반응 구성요소가 계대 첨가로 동일한 튜브 내 동일한 부피의 시료에 첨가되는 서열분석 라이브러리 생성의 최적화된 방법을 기술한다.

기술된 구현예에서, 핵산 표적은 분자 역위 프로브 세트와 혼합되고 항온배양된다. 그 후, 이러한 반응을 위해, 높은 정확도(fidelity)의 전진 중합효소 및 열안정성 리가아제가 첨가, 혼합 및 항온배양된다. 또한, 시료 내 선형 핵산을 고갈시키기 위해 혼합물에 엑소뉴클라제 활성이 첨가되고 항온배양된다. 최종적으로, 혼합에 DNA 중합효소의 존재 하에 올리고뉴클레오티드가 첨가되고 시료 내 핵산 라이브러리를 증폭하기 위해 PCR 반응이 수행된다.

본 발명에 의해 제공되는 전술된 유리한 방법은 원치않는 산물의 생성 및 라이브러리 증폭 이전의 크기 선택 비드의 겔 전기영동에 대한 요구를 극복한다. 이는, 적어도 부분적으로 최소 범위로 원치않는 산물을 생성하도록 상호작용하는 올리고뉴클레오티드 구성요소를 주의깊게 선택하고, 라이브러리 제조의 PCR 단계에서 원치않는 산물을 생성할 가능성이 있는 핵산을 제거하는 엑소뉴클라제 효소를 사용함으로써 달성되었다. 예시적인 프로토콜은 하기에 제공된다.

프로토콜 1: 14개 시료에 대한 MIP 포획

● 혼성화 용액의 제조:

● 22.5 μＬ의 lOx Ampligase 완충액

● 15 μＬ 프로브 혼합물(3 nM의 각각의 프로브를 가짐)

● 37.5 μＬ의 뉴클라제 무함유 물

● 5 μＬ의 혼성화 혼합물 및 10 ?의 DNA를 각 튜브에 첨가한다. 200 ?의 웰을 가지는 플레이트 또는 스트립 튜브가 이상적이다.

● 유전자 증폭기(thermocycler) 상에서 MIP 프로그램을 시작한다.

● 94°, lO 분

● 0.1°/초로 60°까지 램프

● 60°, lO 분

● 60° 홀드

● 60°, lO 분

● 2분간 94°

● 37° 홀드

● 30 분간 37°

● 15분간 94°

● 4° 홀드

● 혼성화가 진행되는 동안, 얼음 위에서 연장 및 라이게이션 혼합물을 제조한다:

● 5μＬ의 2X Phusion High Fidelity PCR Master Mix

● 5μＬ 1OX Ampligase 완충액

● 5UI/μＬ의 Ampligase 20 ?

● 1mM의 dNTP 12.5 ?

● 7.5 μＬ 뉴클라제 무함유 물

● 유전자 증폭기가 60°에 도달하면 홀드한다(대략 26분), 각 시료에 2?의 효소 혼합물을 첨가한 후 유전자 증폭기를 다음 단계로 진행한다(10분간 60°).

● 엑소뉴클라제 혼합을 제조한다:

● 200,000 U/mL의 Exo I 10 μＬ

● 200,000 U/mL의 Exo III 10 μＬ

● 유전자 증폭기가 37°에 도달하면 홀드하고 엑소뉴클라제 혼합물 1 ?를 각 시료에 첨가한 후 유전자 증폭기를 다음 단계로 진행한다(30분간 37℃).

● 유전자 증폭기가 4°에 도달하면 홀드하고, Phusion Master 혼합 25 μＬ및 3.5 μＬ의 각 프라이머 혼합을 프라이머가 7 益인 모든 시료에 첨가한다. 프라이머는 다음과 같다:

5'CCATCTCATCCCTGCGTGTCTCCGACTCAGBBBBBB GGAACGATGAGCCTCC AAC-3' 여기서 BBBBBB는 개별 시료를 동정하기 위한 바코드 서열이다. 5'- CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGAT CAGATGTTATGCTCGCAGGTC-3'

● 유전자 증폭기 상에서 MIP 프로그램을 시작한다

● 3분간 94°

● 다음과 같은 20 사이클:

● 15초간 94°

● 15초간 60°

● 30초간 72°

● 4분간 72°

● 증폭 후, 산물을 통합하고 정제한다. 겔 메트릭스 정제 또는 Ampure enrichment는 180 내지 250 베이스 크기의 산물을 풍부화시킬 것이며, 양 프라이머 이량체(약 70 내지 90 베이스) 및 자가 라이게이션된 프로브(약 160베이스)는 배제된다.

Ampure 정제는 하기와 같이 수행된다:

● 전술된 바코드화 반응을 깨끗한 1.7 mL 시험 튜브에서 조합한다. 혼합물은 "통합된 PCR 산물" 로 지칭된다.

● 80μＬ의 통합된 PCR 산물을 깨끗한 1.7 mL 시험 튜브에 첨가한다.

Agencourt® AMPure® XP 시약(Beckman Coulter, P/N A63880)의 병을 혼합하기 위해 수회 되집는다.

●통합된 PCR 산물에 64 μL(0.8x) AMPure XP를 첨가한다.

● 혼합하기 위해 10회 파이펫팅한다.

● 상온에서 5분간 반응이 일어나도록 한다.

DynaMag™ 자석(Life Technologies)과 같은 자석 상에 2분 간 튜브를 위치시키다.

● 상층액을 제거하고 폐기한다.

● 튜브가 여전히 자석위에 있는 동안, 200 ㎕의 70% 에탄올을 첨가한다.

● 30초간 용액을 자석 상에 놓아둔다.

● 상층액을 제거한다.

● 9단계부터 11단계까지를 한 번 반복한다.

● 5분 이하로 펠렛을 건조되도록 한다.

● 자석으로부터 튜브를 제거하고 40 μL의 뉴클라제 무함유 물을 첨가한다.

● 1분 간 튜브를 자석 상에 위치시킨다.

● 정제된 DNA는 상층액에 위치한다. 30 μL를 제거하여 이를 깨끗한 1.7 mL 튜브 내로 위치시킨다. AMPure 수지가 하류의 공정을 방해하지는 않을 것이지만, 정량화를 방해할 수 있다. 튜브 내 남아있는 10 μL는 수지가 보유하는 최소량을 보장한다.

● Ion Torrent 주형 제조 작업흐름으로 진행하였다. 통상적으로 12 내지 24종의 시료가 Ion Torrent PGM 상에서 316 칩을 사용하여 동시에 서열분석된다.

이 프로토콜은 Ion Torrent PGM 플랫폼에 대한 서열분석-래디 라이브러리를 생성한다. 프로토콜은 IonAmpF의 5' 말단을 교체하고 프라이머를 플랫폼에 대한 아답터 서열로 바코딩함으로써 다른 서열분석 플랫폼에도 용이하게 채택될 수 있다. 예를 들어, Illumina MiSeq, GAII, 또는 HiSeq platforms 상에서 서열분석하기 위한 재료를 제조하기 위해, 다음의 프라이머가 사용될 수 있을 것이다:

5'-

CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGAT CTC AG ATGTT ATGCTCGC AGGTxC-3'

5'-

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTBB BBBBGGAACGATGAGCCTCCAAxC-3'

Ion Torrent PGM 장비를 사용하는 프로토콜의 사용은 다음과 같이 임상 또는 다른 시료가 14.5 시간 내에 분석된 결과로 완전히 처리될 수 있게 한다:

● 시료로부터 DNA 추출 30분

● 프로토콜 1 및 Qubit 상에서 얻어진 재료를 정량하기 위해 2.5 시간

● OneTouch emulsion PCR 장비를 설정하기 위해 30 분

● OneneTouch 상에서 처리 4 시간

● OneneTouch ES 장비를 설정하기 위해 30 분

● OneneTouch ES 상에서 45 분

● PGM 개시 및 칩 로딩 60 분

● PGM 상에서 서열분석 3.5 시간

● 베이스콜링(basecalling) 30 분

● 데이터 분석 30 분

실시예

실시예 1: HPV 선별

HPV의 검출 및 정확한 균주 분류(strain typing)은 자궁경부암의 위험의 산정뿐 아니라 다양한 두경부 암의 치료요법을 선택하기 위해서도 중요하다. 따라서, 우리는 다음의 HPV 유형을 검출하고 구분하기 위한 프로브의 세트를 설계하기 위해 본 발명의 방법을 사용하였다: 6, 11, 16, 18, 26, 30, 31, 33, 35, 39, 40, 42, 43, 44, 45, 51, 52, 53, 56, 58, 59, 62, 66, 67, 68, 70, 71, 73, 82, 및 84. 우리는 모든 쌍의 HPV유형에 대해 적어도 4개의 프로브에 걸쳐 적어도 20개의 변이 뉴클레오티드를 밝힐 수 있는 프로브세트를 찾았다. HPV는 DNA 바이러스이기 때문에, HPV의 돌연변이율은 상대적으로 낮다. 예를 들어, 15개 유형의 16개 게놈의 다중 서열 정렬은 2%의 뉴클레오티드 분기를 나타낸다. 16개 유형의 18개 게놈의 다중 서열 정렬은 2%의 비율로 약 7850 뉴클레오티드 중 167개의 최대 뉴클레오티드 분기를 나타낸다. 2% 게놈 분기 및 1% 서열분석 오차율을 고려하면, 20개의 정보제공성 뉴클레오티드는 99.99%를 초과하는 특이성을 제공한다. 프로브를 관찰의 단위로 처리하는 더욱 보존적인 계산을 사용하면, 4개의 프로브는 99.5%의 특이성을 생성한다.

얻어진 프로브세트는 83개의 분자 역위 프로브를 함유한다. 프로브 암(arm)(5' 암 및 3' 암)은 하기 표 1에 목록화되어 있다. 완전한 프로브는 5' 암을 백본 서열 GTTGGAGGCTCATCGTTCCTATATTCCACACCACTTATTGATGATTACAG ATGTTATGCTCGCAGGTC에, 백본 서열을 3' 암에 첨부하고, 분자에 5' 포스페이트를 첨가함으로써 형성된다.

77개의 유형을 나타내는 211 HPV 게놈 서열의 세트에 대하여 얻어진 프로브는 프로브 세트가 32개의 표적 HPV 유형의 임의의 쌍으로부터 취해진 게놈의 모든 쌍 사이에서 적어도 20 SNP 또는 5개의 유형 특이적인 프로브를 밝힌다는 것을 나타낸다.

이러한 프로브는 ThinPrep 및 FFPE 시료의 세트에 적용되었다.

표 2: Thinprep 자궁경부 솔 시료로부터의 DNA는 3가지 기술을 사용하여 분석되었다: Roche HPV 선형 어레이 키트, Cervista/Third Wave 인간 유두종 바이러스 검사 기술(invader technology), 및 32개의 HPV 변이체를 표적화하는 프로브를 함유하는 분자 역위 프로브세트(표 1 또는 이의 하위세트). Roche 및 Cervista 분석법은 제조자의 지침에 따라 수행되었고, 분자 역위 프로브세트는 프로토콜 1로 사용되고, Ion Torrent PGM 플랫폼 상에서 316개 칩에 대하여 서열분석 운용 당 12 내지 16개의 시료가 서열분석되었다. HPV 아형 동정에 대한 결과가 기록되고 기술 간에서 비교된다. 표에서, 유형 이름 앞의 "~" 는 명명된 균주를 포함하는 TWI 또는 LA 그릅화의 절단을 나타낸다.

결과는 Roche 및 또는 Cervista 기술이 시료와 함께 존재하는 HPV 아형을 결정하는 것이 불가능하지만 본 발명에 의해 생성된 프로브세트가 존재하는 HPV 아형을 동정하는 경우 및 Roche 및 Cervista 시험 간 불일치가 시료 내 존재하는 아형을 확인하는 본 출원인의 시험에 의해 해결되는 경우를 또한 보여준다. 또한, 경쟁하는 기술 중 어떤 것도 시료 내 두 개의 아형이 존재하는 것을 정확하게 결정하지 못하는 경우에, 본 출원인의 시험이 시료 내 존재하는 다수의 HPV 균주를 검출하는 예를 보여준다. 또한, 데이터는 넓은 패널의 활용을 나타내는데, 즉, Cervista 및 선형 어레이 시험은 유형 44를 검출하지 못한다.

표의 마지막 칼럼은 미리 산정된 위험 기준, 예컨대 확립된 병리학적 표준 시행에 의해 구체적인 HPV 유형을 층화하는 능력을 보여준다. 감염은 가장 많이 연관된 병태의 유형(예컨대, 생식기 혹) 또는 계산된 자궁경부 암으로의 발달 위험에 의해 분류된다.

실시예 2: 박테리아 검출

진단적 또는 역학적 세팅에서, 많은 종의 박테리아를 동시에 검출할 수 있는 것이 유리하다. 예를 들어, 표 3의 종은 미국 내 90%를 초과하는 건강보건 관련 감염을 설명한다. 따라서, 한 번에 이들 종 모두를 검출할 수 있는 키트는 개별 시험을 사용하는 것보다 상당한 장점을 제공한다. 더욱이, 수 시간 내에 결과를 제공할 수 있는 시험은 2 내지 4일이 요구되는 통상적인 배양 기술에 의한 것보다 보건의료 시설에서 병원체 전염의 더 초기의 치료 또는 더 초기의 검출 가능성을 제공한다.

스타필로코커스 아우레우스

스타필로코커스 에피더미스

스타필로코커스 사프로파이티커스

아시네토박터 바우마니

엔테로박터 클로아케

엔테로박터 아이로게네스

엔테로코커스 패시움

크렙시엘라 뉴모니애

에스체리키아 콜라이

클로스트리디움 디피실

프로테우스 미라빌리스

슈도모나스 에루지노사

유기체들을 검출하고 구별하기 위해, 본원에 개시된 본 발명을 이용하여 분자 역위 프로브의 세트가 설계되었다. 프로브세트는 적어도 3종의 프로브로부터 적어도 21개의 뉴클레오티드에 의해 모든 쌍의 종의 구분되도록 게놈 영역을 서열분석한다. 더욱이, 3종의 프로브 각각은 적어도 4개의 정보제공성 뉴클레오티드를 밝힌다. 따라서, 독립적인 뉴클레오티드 돌연변이 모델 및 .15의 합산된 오차율 하에서, 프로브 세트는 .9999의 특이성을 제공하는 것으로 예상된다. 프로브 내 모든 뉴클레오티드가 결합된 가장 나쁜 경우의 가정 하에서, 프로브 세트는 .94의 특이성을 제공한다. 유기체를 추가로 구분하기 위해, 각 유기체의 다양한 균주를 구분하기 위한 추가적인 프로브가 설계되었다. 얻어진 조합된 프로브 세트는 Genbank로부터 입수가능한 표적 종에 대한 모든 완료된 게놈을 비교함으로써 결정된 바와 같이, 종의 모든 쌍에 대하여 적어도 20개의 차이점 또는 적어도 5개의 종 고유 프로브를 제공한다.

프로브 암은 하기 표 4에 목록화되어 있다. 완전한 프로브는 5' 암을 백본 서열 GTTGGAGGCTCATCGTTCCTATATTCCACACCACTTATTGATGATTACAG ATGTTATGCTCGCAGGTC에, 백본 서열을 3' 암에 첨부하고, 분자에 5' 포스페이트를 첨가함으로써 형성된다.

사용자 = 사용자 오차

실패 = 검출되지 않음

표 5: 12개의 공통적인 박테리아성 병원체를 검출하기 위해 설계된 분자 역위 프로브세트(표 4)가 프로토콜 1을 사용하여 12개의 병원체 각각으로부터 단리된 순수한 게놈 DNA를 분석하기 위해 사용되었고, 얻어진 서열분석 라이브러리는 Ion Torrent PGM 상에서 서열분석되었다. 각각의 게놈 DNA 시료는 분자 역위 프로브 분석법에서 3가지 상이한 카피 수량에서 3회 분석되었다. 결과는 본 개시에 기술된 방법을 실행하는 소프트웨어를 사용하여 분석되었다 - 즉, 서열분석 리드를 Genbank로부터 가장 잘 매칭되는 게놈에 할당하였다. 통과 기준은 순수한 gDNA 시료로부터 100리드 미만의 예상되지 않은 병원체를 가지며, 1000 리드를 초과하는 표적 병원체의 검출을 나타냈다. 수동 오차 또는 시료 혼동의 경우는 사용자 오차로 식별되거나, 시료가 통과 기준을 만족하지 못했다면 실패가 표시되었다. 표는 시험된 139 시료 중, 9개의 사용자 오차의 경우 및 단지 하나의 분석법 실패의 경우가 있었던 것을 나타낸다. 시료 병원체가 다른 종으로 잘못 동정된 경우는 없었다. 이는 분석법에 대한 99%를 초과하는 민감성 및 특이성을 나타낸다.

또한, 프로브는 대부분의 베타-락타마제 효소, mecA, erm, vanA, 및 mex를 포함하는 많은 약물 저항성 유전자를 검출한다. 따라서, 프로브는 다양한 목적에 대하여 환자를 층화하기 위해 사용될 수 있다:

● 단리 또는 격리 군. 동일한 약물 저항성 유전자를 보유하는 환자는 의료 시설에서 가깝게 배치되어 사전에 민감한 유기체에 대한 특정 약물 저항성 유전자의 확산을 최소화할 수 있다.

● 단리 또는 격리 절차. 일정 유기체 또는 그들의 약물 저항성 유전형의 존재는 흔히 의료 시설 내 다른 환자들로의 유기체의 전염을 방지하기 위해 접촉-단리 절차가 취해져야 한다는 것을 나타낸다.

● 치료 층화. 환자의 시료가 유사한 종 또는 균주 또는 유사한 약물 저항성 유전형을 생성하는 환자는 유사하게 치료되어야 한다. 의사는 동일하거나 유사한 병원체를 가진 예전의 환자에게 어떤 치료요법이 가장 효과적이었는지에 관한 정보를 이용할 수 있을 것이다

● 치료 선택. 일정 항생제 저항성 유전자의 존재는 일정한 항생제 약물의 사용을 반대하도록 권고한다. 유사하게, 일정 종 또는 균주는 약물 저항성 유전자를 지니는 것으로 알려져 있어서 심지어 약물 저항성 유전자가 명백하게 검출되지 않은 경우에도 종 또는 균주의 동정이 일정 약물의 사용을 반대하도록 권고한다.

도 3은 임상적 단리체로부터의 약물 저항성의 검출의 3개의 예시이다.

“하나의("a" 또는 "an")" 라는 단어의 사용은 "포함하는"이라는 용어와 함께 사용될 때 청구범위 및/또는 명세서에서 "하나"를 의미할 수 있지만, 또한 "하나 이상”, "적어도 하나” 및 "하나 또는 하나 이상”의 의미와 일치할 수도 있다. 청구범위에서 "또는"이라는 용어의 사용은, 비록 본 개시가 단지 대안적인 것만을 지칭하고 "및/또는”을 지칭하는 정의를 뒷받침하지 않더라도, 명확하게 단지 대안적인 것만을 지칭하는 것으로 지시되거나 대안적인 것이 상호간에 배타적이지 않다면 "및/또는”을 의미하기 위해 사용된다.

본 출원에서 일부 파라미터를 기술하는 모든 수치적인 경계(예를 들면, "약", "적어도", "미만" 및 "초과")에 대해서, 본 기술은 인용된 값에 의해 경계지어지는 임의의 범위를 필수적으로 포함하는 것으로 또한 이해되어야 한다. 따라서, 예를 들어, 적어도 1, 2, 3, 4, 또는 5라는 기술은 또한, 그 중에서도, 1 내지 2, 1 내지 3, 1 내지 4, 1 내지 5, 2 내지 3, 2 내지 4, 2 내지 5, 3 내지 4, 3 내지 5, 및 4 내지 5 기타 등의 범위도 기술하는 것이다.

다르게 정의되지 않는다면, 본원에 사용된 모든 기술이고 과학적인 용어는 본 발명이 속하는 분야의 보통의 기술자에 의해 일반적으로 이해되는 바와 동일한 의미를 가진다. 본원에 기술된 바와 유사하거나 동등한 임의의 방법 및 재료는 본 발명의 시행이나 시험에서 사용될 수 있다.

모든 특허, 출원, 또는 본원에 인용된 다른 참조 문헌, 예를 들면 비특허 문헌 및 참조 서열 정보에 대해서, 인용되는 진술에 대해서뿐만 아니라 모든 목적에 대해서 그 전체가 본원에 참조로서 포함되는 것으로 이해되어야 한다. 참조로서 본원에 포함된 문헌과 본 출원 사이에 임의의 상충이 존재할 때, 본 출원이 지배할 것이다. 예를 들어, 게놈 유전자좌, 게놈 서열, 기능적 주석달기, 대립형질 변이체 및 참조 mRNA(예컨대, 엑손 경계를 포함함) 포함하는 유전자 ID 또는 수탁 번호와 같은 본 출원에 개시된 참조 유전자 서열과 관련된 모든 정보 및 단백질 서열(예를 들면 불변 도메인 구조)는 여기에서 그 전체가 참조로서 본원에 포함된다.

본원에서 논의된 간행물은 본 출원의 출원일 이전의 개시물에 대해서만 제공된다. 본원의 어떤 것도 본 발명이 선행 발명에 의한 이러한 간행물에 선행할 자격이 없다는 것을 인정하는 것으로 이해되지 않는다. 또한 제공된 공개일은 실제 공개일과 다를 수 있으며, 이는 독립적으로 확인될 필요성이 있다.

본 출원에 사용된 제목들은 단지 편의를 위한 것으로 본 출원의 해석에 영향을 미치지 않는다.

본 발명에 의해 제공된 각각의 양태의 바람직한 특징들은 필요한 부분들만 수정하여 본 발명의 다른 모든 양태들에 적용될 수 있으며, 제한 없이, 종속 청구항에 의해 예시되고, 또한 작용예를 포함하는 본 발명의 특정 구현예 및 양태의 개별 특징(예컨대, 수치 범위 및 예시적인 구현예를 포함하는 요소)들의 조합 및 순열을 포함한다. 예를 들어, 작용예에서 예시된 특정 실험적 파라미터는 청구된 발명에 사용하기 위해 본 발명으로부터 벗어나지 않으면서 조금씩 개작될 수 있다. 예를 들어, 개시된 재료에 대해서, 각각의 다양한 개별적 및 집합적인 조합 및 이들 화합물의 순열에 대한 구체적인 참조가 명확하게 개시되지 않을 수 있지만, 각각은 본원에서 구체적으로 고려되고 기술된다. 따라서, 구성요소 A, B, 및 C의 클래스뿐 아니라 구성요소 D, E, 및 F 에 대한 클래스가 개시되고, 구성요소의 조합의 예 A-D가 개시되면, 각각이 개별적으로 인용되지 않더라도, 각각은 개별적이고 집합적으로 고려된다. 따라서, 이 예에서, A-E, A-F, B-D, B-E, B-F, C-D, C-E, 및 C-F 각각의 조합이 구체적으로 고려되고. A, B, 및 C; D, E, 및 F; 및 예시적 조합 A-D의 개시로부터 개시되는 것으로 간주된다. 마찬가지로, 이들의 임의의 하위 세트 또는 조합도 또한 구체적으로 포함되고 개시된다. 따라서, 예를 들어, A-E, B-F, 및 C-E의 하위군이 구체적으로 고려되고. A, B, 및 C; D, E, 및 F; 및 예시적 조합 A-D의 개시로부터 개시되는 것으로 간주된다. 이러한 개념은 물질의 조성물의 구성요소 및 조성물을 제조 또는 사용하는 방법의 단계를 포함하는 본 출원의 모든 양태들에 적용된다.

본 명세서의 교시를 따르는 당업자에 의해 인식되는 바와 같이, 본 발명의 전술된 양태들은 선행 기술에 비해 신규하고 비자명한 정도까지-이에 따라 구성요소가 당업자에게 공지된 하나 이상의 참조문헌에 기술되는 정도까지 임의의 조합이나 순열로 청구될 수 있으며, 이러한 양태들은 청구된 발명, 그 중에서도, 부정적인 단서 또는 특징 또는 특징들의 조합의 부인에 의해 배제될 수 있다.

기술된 컴퓨터 판독가능한 실현예는 소프트웨어, 하드웨어, 또는 하드웨어 및 소프트웨어의 조합에서 실행될 수 있다. 하드웨어의 예는 개인용 컴퓨터, 서버, 노트북, 메인프레임 및 마이크로 프로세서와 같은 컴퓨터 또는 처리 시스템을 포함한다. 또한, 당업자는 도면에서 보여지는 기록 및 필드가 추가적이거나 더 적은 필드를 가질 수 있고, 필드를 도면에 예시된 바와는 다르게 배열할 수 있다는 것을 이해할 것이다. 본 발명에 의해 제공된 임의의 컴퓨터 판독가능한 실현예는, 선택적으로는, 예를 들어, 서열분석 결과의 시각적 표시와 같은 시각적인 결과(선택적으로는 적합한 진단적 요약 및/또는 치료 옵션 또는 권고를 포함함)를 사용자에게, 예컨대, 의사에게 제공하는 단계를 더 포함한다.

본 발명은 특히 이의 예시적인 구현예와 관련하여 보여지고 기술되지만, 당업자는 첨부된 청구범위에 의해 포함되는 발명의 범주로부터 벗어나지 않으면서 형태 및 세부사항에서 다양한 변형이 그 안에 만들어질 수 있다는 것을 이해할 것이다.

Claims

핵산 서열분석(sequencing)에 의한 높은 특이성의 복합적인 유기체 검출을 위한 포획 프라이머의 패널을 조립하기 위한 방법으로서,
핵산 서열분석의 오차 확률의 추정값을 제공하는 단계;
원하는 수준의 최소의 높은 특이성을 제공하는 단계;
상기 오차 확률의 추정값을 사용하여 누적 분포 함수를 계산함으로써 상기 원하는 수준의 최소의 높은 특이성을 달성하기 위해 요구되는 다형성 유전자좌(locus)의 수를 결정하는 단계; 및
상기 원하는 수준의 최소의 높은 특이성을 달성하기 위해 요구되는 상기 수의 다형성 유전자좌를 포함하는 관심있는 영역을 각각 포획하는 복수의 포획 프라이머를 제공하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 핵산 서열분석은 선택적인 서열분석이고, 상기 서열분석된 유전자좌는 시료 내에서 검출되는 유기체의 2개 이상의 게놈의 5, 4, 3, 2, 1, 0.5, 0.4, 0.3, 0.2, 0.1, 0.05, 0.001% 이하인 게놈으로 나타나는 것인, 방법.
제1항 또는 제2항에 있어서,
상기 복수의 포획 프라이머는 잠재적인 포획 프라이머의 수집물로부터 제공되는 것인, 방법.
컴퓨터에 의해 실행되면 상기 컴퓨터가 제1항 내지 제3항 중 어느 한 항의 방법의 단계를 포함하는 작동을 수행하도록 할 명령을 제공하는 비 일시적 컴퓨터 판독가능한 저장 매체.
제4항의 상기 저장 매체 및 상기 명령을 실행하기 위한 프로세서를 포함하는 컴퓨터.
제1항 내지 제3항 중 어느 한 항의 방법에 의해 설계된 핵산 서열분석에 의한 높은 특이성의 복합적인 유기체 검출을 위한 포획 프라이머의 패널.
관심있는 유기체를 함유하는 것으로 의심되는 시험 시료와 제6항의 패널을 접촉시키는 단계;
포획 반응을 수행하는 단계; 및
상기 관심있는 유기체를 검출하기 위해 상기 포획 반응의 결과 상에서 핵산 서열분석을 수행하고 상기 서열분석 결과를 분석하는 단계
를 포함하는 관심있는 유기체를 검출하는 방법.
제7항에 있어서,
상기 서열분석 결과는 패널에 대한 하나 이상의 공지된 게놈으로부터 예상되는 관심있는 영역의 데이터베이스에 쿼리되는 것인, 방법.
표 1의 하나 이상의 서열 또는 그들의 역 상보 서열을 포함하는 핵산 서열분석에 의한 높은 특이성의 인간 유두종 바이러스(HPV)의 복합적인 검출을 위한 포획 프라이머의 패널.
제9항에 있어서,
표 1의 서열 또는 그들의 역 상보 서열 중 적어도 2, 3, 4, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160 또는 166개 모두를 포함하는, 패널.
제6항, 제9항 또는 제10항에 있어서,
상기 포획 프라이머는 환형화 포획 프라이머인, 패널.
제11항에 있어서,
각 환형화 포획 프라이머는 표 1의 행에 목록화된 암(arm)의 쌍을 포함하는 것인, 패널.
제6항, 제9항 또는 제10항에 있어서,
상기 포획 프라이머는 통상적인 프라이머 쌍인, 패널.
제13항에 있어서,
각 포획 프라이머 쌍은 표 1의 행에 목록화된 암의 쌍을 포함하고, 제1 암은 표 1의 제1 열에 목록화된 서열의 역 상보인 것인, 패널.
인간 유두종 바이러스(HPV)를 함유하는 것으로 의심되는 시험 시료와 제9항 내지 제14항 중 어느 한 항의 패널을 접촉시키는 단계;
포획 반응을 수행하는 단계;
상기 포획 반응의 산물을 서열분석하는 단계; 및
HPV의 존재를 결정하기 위해 상기 서열분석 결과를 분석하고, 선택적으로는, HPV의 균주를 결정하는 단계
를 포함하는 핵산 서열분석에 의한 높은 특이성의 HPV의 복합적인 검출 방법.
제15항에 있어서,
검출된 HPV를 기초로 적합한 치료를 식별하고, 선택적으로는 상기 시험 시료를 수득했던 대상체에 상기 치료를 제공하는 단계를 더 포함하는, 방법.
표 4의 하나 이상의 서열을 포함하는 핵산 서열분석에 의한 복수의 박테리아 종의 높은 특이성의 복합적인 검출을 위한 포획 프라이머의 패널.
제17항에 있어서,
표 4의 서열 또는 그들의 역 상보 서열 중 적어도 2, 3, 4, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 또는 610개 모두를 포함하는 것인, 패널.
제17항 또는 제18항에 있어서,
상기 포획 프라이머는 환형화 포획 프라이머인, 패널.
제19항에 있어서,
각 환형화 포획 프라이머는 표 4의 행에 목록화된 암의 쌍을 포함하는 것인, 패널.
제17항 또는 제18항에 있어서,
상기 포획 프라이머는 통상적인 프라이머 쌍인, 패널.
제21항에 있어서,
각 포획 프라이머 쌍은 표 4의 행에 목록화된 암의 쌍을 포함하고, 제1 암은 표 4의 제1 열에 목록화된 서열의 역 상보인 것인, 패널.
하나 이상을 함유하는 것으로 의심되는 시험 시료와 제17항 내지 제22항 중 어느 한 항의 패널을 접촉시키는 단계;
포획 반응을 수행하는 단계;
상기 포획 반응의 산물을 서열분석하는 단계; 및
상기 박테리아의 존재를 결정하기 위해 상기 서열분석 결과를 분석하고 선택적으로는 상기 박테리아의 균주를 결정하는 단계를 포함하는
핵산 서열분석에 의한 표 3의 박테리아 중 하나 이상(예컨대, 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 또는 12개 모두)의 높은 특이성의 복합적인 검출 방법.
제23항에 있어서,
상기 검출된 박테리아를 기초로 적합한 치료를 식별하고 선택적으로는 상기 시험 시료가 수득된 대상체에 상기 치료를 제공하는 단계를 더 포함하는, 방법.
핵산 서열분석에 의한 높은 특이성의 복합적인 유기체 검출에 적합한 서열분석 라이브러리를 생성하는 방법으로서,
핵산 함유 시료를 환형화 포획 프라이머의 패널과 접촉시키고, 중합효소 및 리가아제의 존재 중에 상기 환형화 포획 프라이머의 패널의 관심 있는 영역의 포획에 충분한 기간 동안 혼합물을 항온배양하는 단계;
상기 혼합물에 하나 이상의 엑소뉴클라제 효소를 첨가하고, 상기 혼합물 내 선형 핵산을 분해하기에 적합한 조건 하에 상기 혼합물을 항온배양한 후, 상기 하나 이상의 엑소뉴클라제 효소를 불활성화시키는 단계; 및
증폭 프라이머 및 선택적으로는 추가적인 중합효소를 첨가하고, 상기 환형화 포획 프라이머의 패널에 의해 포획된 상기 관심있는 영역을 중합효소 연쇄 반응에 의해 증폭하기에 충분한 조건 하에 상기 혼합물을 항온배양함으로써 높은 특이성의 복합적인 유기체 검출에 적합한 핵산 서열분석 라이브러리를 생성하는 단계를 포함하되,
상기 전술된 단계들은 단일 반응 용기 내에서 중간 정제 단계 없이 수행되는 것인, 방법.
제25항에 있어서,
환형화 포획 프라이머의 패널은 제1항 내지 제3항 중 어느 한 항의 방법에 의해 조립되는 것인, 방법.
제25항 또는 제26항에 있어서,
상기 방법은 5, 4, 3.5, 3.4, 3.3, 3.2, 3.1, 3.0, 2.9, 2.8, 2.7, 2.6, 2.5, 2.4, 2.3, 2.2, 2.1, 또는 2.0 시간 미만 내에 수행될 수 있는 것인, 방법.
제25항 내지 제27항 중 어느 한 항에 있어서,
상기 핵산 서열분석 라이브러리를 정제하는 단계 및 상기 라이브러리의 핵산 서열분석을 수행하는 단계를 더 포함하는, 방법.
제28항에 있어서,
상기 라이브러리의 상기 핵산 서열분석 결과를 분석하여 상기 시료 내 유기체의 존재를 결정하고, 선택적으로는 상기 시료 내에 존재하는 것으로 결정된 상기 유기체에 기초하여 치료 권고를 제공하는 단계를 더 포함하는, 방법.
제25항 내지 제29항 중 어느 한 항에 있어서,
상기 서열분석 라이브러리는 적어도 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 600, 700, 800, 900, 또는 1000개의 관심있는 영역을 포함하는 것인, 방법.
제25항 내지 제30항 중 어느 한 항에 있어서,
상기 관심있는 영역은 적어도 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 또는 100개의 상이한 유기체 또는 유기체의 균주로부터 유래한 것인, 방법.
제25항 내지 제31항 중 어느 한 항에 있어서,
상기 관심있는 영역은 적어도 대략 20, 30, 40, 50, 60, 70, 80, 90, 100, 150, 200, 250, 300, 350, 또는 400개의 뉴클레오티드인, 방법.
제28항 내지 제32항 중 어느 한 항에 있어서,
상기 방법은 대략 평균 200개의 뉴클레오티드의 관심있는 영역에 대한 시료 심문 개시로부터 24, 22, 20, 18, 16, 15, 14.5, 또는 14 시간 미만 내에 수행될 수 있는 것인, 방법.
결합된 소정의 핵산 서열을 포함하는 비 핵산 생물분자를 하나 이상의 서열분석 프라이머 또는 포획 프라이머와 접촉시키는 단계;
핵산 서열분석을 수행하는 단계; 및
상기 서열분석 결과에서 상기 소정의 핵산 서열을 검출함으로써 핵산 서열분석에 의해 상기 비 핵산 생물분자를 검출하는 단계를 포함하는 핵산 서열분석에 의한 비 핵산 생물분자의 검출 방법.
제34항에 있어서,
상기 비 핵산 생물분자는 항체 또는 이의 항원 결합 단편인, 방법.
제34항 또는 제35항에 있어서,
상기 소정의 핵산 서열 및 비 핵산 생물분자는 비오틴-아비딘 결합에 의해 결합되는 것인, 방법.
제34항 내지 제36항 중 어느 한 항에 있어서,
하나 이상의 포획 프라이머가 사용되는 것인, 방법.
제37항에 있어서,
상기 포획 프라이머는 환형화 포획 프라이머인, 방법.
선택적으로는, 임의의 상기 전술된 방법과 함께, 전체 게놈 또는 전체 시료 서열분석으로부터의 데이터를 사용하여, 가상적으로 선택된 시료에서 분석을 수행하는 방법으로서,
10개 이상의 완전하거나 부분적인 게놈 서열을 가지는 정보제공성 영역의 세트를 선택하는 단계;
시료 내 DNA의 전부 또는 분획을 임의의 특이적인 풍부화 또는 선택 없이 서열분석하는 단계;
상기 얻어진 서열분석 리드(sequencing read)를 상기 정보제공성 영역의 데이터베이스에 정렬, 맵핑, 또는 비교하는 단계;
상기 관심있는 영역에 맵핑되거나 정렬된 상기 리드의 가장 가능성 있는 기원에 기반하여 상기 시료 내에 존재하는 유기체를 결정하는 단계를 포함하는, 방법.
제39항에 있어서,
상기 서열분석은 상기 정보제공성 영역의 선택적인 서열분석인, 방법.