KR20080052585A

KR20080052585A - 올리고뉴클레오티드 디자인 및/또는 핵산 탐지 방법및/또는 장치

Info

Publication number: KR20080052585A
Application number: KR1020087006089A
Authority: KR
Inventors: 크리스토퍼 윙 청 웡; 윙 킨 성; 찰리 리; 랜스 데이비드 밀러
Original assignee: 에이전시 포 사이언스, 테크놀로지 앤드 리서치
Priority date: 2005-08-12
Filing date: 2006-08-08
Publication date: 2008-06-11
Also published as: AU2006280489A1; US20120309643A1; JP2009504153A; US20070042388A1; EP1922418A4; AU2006280489B2; CN101292044A; WO2007021250A2; WO2007021250A3; EP1922418A2; US8234079B2; US20090053708A1; CN101292044B

Abstract

본 발명은 임의의 순서로 다음 단계를 포함하는 핵산 탐지를 위한 적어도 하나의 올리고뉴클레오티드를 디자인하는 방법을 제공한다: (I) 증폭될 적어도 하나의 표적 핵산의 적어도 한 영역을 동정 및/또는 선택하는 단계, 상기 영역(들)은 평균 AE보다 더 높은 증폭(AE) 효과를 가진다; 및 (II) 선택된 영역(들)에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드를 디자인하는 단계. 또한 본 발명은 다음 단계를 포함하는 적어도 하나의 표적 핵산을 탐지하는 방법을 제공한다: (i) 적어도 하나의 생물학적 샘플을 제공하는 단계; (ii) 생물학적 샘플에 포함된 핵산(들)을 증폭하는 단계; (iii) 만일 존재하면, 생물학적 샘플 속의 적어도 하나의 표적 핵산에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드를 제공하는 단계; 및 (iv) 상기 올리고뉴클레오티드(들)을 증폭된 핵산에 접촉하는 단계 및/또는 상기 표적 핵산(들)에 혼성화된 올리고뉴클레오티드(들)를 탐지하는 단계. 특히, 본 발명은 적어도 하나의 병원체, 예를 들어, 적어도 하나의 인간 생물학적 샘플 속의 바이러스의 존재를 탐지하기 위한 것이다. 상기 프로브들은 지지체, 예를 들어, 마이크로어레이 상에 위치될 수 있다.

핵산 탐지, 올리고뉴클레오티드 디자인, 프로브, 표적 핵산

Description

올리고뉴클레오티드 디자인 및/또는 핵산 탐지 방법 및/또는 장치{Method and/or apparatus of oligonucleotide design and/or nucleic acid detection}

본 발명은 올리고뉴클레오티드 디자인 및/또는 핵산 탐지 분야에 관한 것이다. 본 발명에 따른 방법, 장치 및/또는 제품은 병원균의 탐지, 예를 들어 바이러스의 탐지에 사용될 수 있다.

인간 환자 및 집단의 바이러스성 및 박테리아성 병원균의 정확하고 빠른 탐지는 의학적 및 임상적으로 매우 중요하다. 역사적으로, 진단 기술들은 세포 배양 통과 및 다양한 면역 분석법 또는 염색 공정에 의존해오고 있다. 감염성 병원체의 정확하고 민감한 탐지는 이 분야에서 오랜 기간의 성장에도 불구하고 여전히 어렵다. 배양 및 항체-기초 탐지의 전통적인 방법은 질환 발현과 진단 사이의 지연 문제 및 이런 방법들에 의해 탐지될 수 있는 제한된 수의 유기체들에도 불구하고 미생물 실험실에서 여전히 중요한 역할을 한다. 감염의 더 빠른 진단은, 예를 들어, 적절한 항균 치료의 더 빠른 실시를 통해 질병 발생률과 사망률을 감소시킬 것이다. 지난 수십 년 동안, 가장 전망이 있어 보이는 PCR 및 마이크로어레이-기초 기술을 포함하는 핵산 탐지를 기초로 한 것으로 감염의 빠른 진단을 성취하기 위해 다양한 방법들이 제안되었다. 특히, PCR-기초 측정법은 실행되어서, 더 높은 민감 도의 탐지로 수상한 병원체들의 더욱 빠른 진단을 가능하게 하였다. 그러나, 임상적 실시에서, 원인체는 주로 확인되지 않으며, 무수한 방식의 탐지를 회피해 간다. 다른 경우에, 환자의 샘플은 통상적인 기술에 의한 병원체 탐지를 위해 품질이 너무 나쁘거나 농도가 불충분할 수 있다. 또한, PCR- 및 항체-기초 방법들은 단순히 자연적인 유전자 변환에 의해 수상한 병원체들을 인식하는 것을 실패할 수 있어서 PCR 프라이머 결합 부위의 변환 및 항원 소변이(antigenic drift)를 일으킨다.

유사한 여러 병원체를 탐지할 수 있는 능력을 가진 DNA 및 올리고뉴클레오티드 마이크로어레이는 개시되었다(왕 등. 2002; 우리스만 등. 2005). 그러나, 미해결된 기술적 문제들은 임상적 환경에서 일상적으로 사용할 수 없게 한다. 예를 들어, 어떻게 증폭과 교차-혼성화 인공물의 면에서 병원체 "지표(signature)"를 포함하는 가장 정보량이 많은 프로브를 선택할 수 있는가? 어떤 레벨의 형광 신호 및 지표 프로브 관여가 탐지된 병원체를 구성하는가? 최적화된 탐지 알고리즘의 정확성과 민감성은 무엇인가? (스트레이벨 등. 2003; 보드로시 및 세시트쉬, 2004; 보라 등. 2004)

따라서, 핵산 탐지의 대안적이고 향상된 방법을 위한 기술 분야에서 필요가 있다. 특히, 병원체들의 탐지를 위한 대안적이고 향상된 진단 방법에 대한 요구가 있다.

본 발명은 상기한 문제들을 개시하고 특히 올리고뉴클레오티드 디자인 방법, 장치 및/또는 제품을 제공한다. 특히, 올리고뉴클레오티드 프로브 및/또는 프라이머 디자인 방법, 장치 및/또는 제품이 제공된다. 또한 핵산 탐지 방법, 장치 및/또는 제품이 제공된다.

제 1 태양에 따라, 본 발명은 임의의 순서로 다음 단계를 포함하는 핵산 탐지를 위한 적어도 하나의 올리고뉴클레오티드를 디자인하는 방법을 제공한다:

(I) 증폭될 적어도 하나의 표적 핵산의 적어도 한 영역을 동정 및/또는 선택하는 단계, 상기 영역(들)은 평균 AE보다 더 높은 증폭(AE) 효과를 가진다; 및

(II) 선택된 영역(들)에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드를 디자인하는 단계.

적어도 하나의 올리고뉴클레오티드는 적어도 하나의 프로브 및/또는 프라이머일 수 있다. 특히, 단계 (I)에서 AE의 점수는 표적 핵산(들) 또는 이의 적어도 하나의 영역의 길이 상의 각 위치(i)에 대해 측정되고 그 후에, 평균 AE 점수가 얻어진다. 평균 AE보다 높은 AE 점수를 나타내는 영역들은 증폭될 표적 핵산의 영역(들)으로 선택될 수 있다. 특히, 선택된 영역(들)의 AE는 증폭 효율 점수(AES)로 계산될 수 있는데, 증폭 효율 점수는 포워드 프라이머(r_i)가 위치(i)에 결합할 수 있고 리버스 프라이머(r_j)가 표적 핵산의 위치(j)에서 결합할 수 있고 ｜i-j｜는 증폭되기 원하는 표적 핵산의 영역이라는 확률이다. 특히, 영역 ｜i-j｜은 ≤ 1000bp, 더욱 구체적으로 ≤ 5000bp 또는 ≤ 1000bp, 예를 들어 ≤ 500bp일 수 있다. 특히, 포워드 및 리버스 프라이머는 랜덤 프라이머일 수 있다.

다른 태양에 따라, 단계 (I)은 표적 핵산의 각 위치에 대한 기하학적 증폭 바이어스의 효과를 측정하는 단계, 평균보다 더 높은 증폭 효과(AE)를 가진 영역(들)으로 증폭될 적어도 하나의 영역(들)을 선택하는 단계를 포함한다. 예를 들어, 기하학적 증폭 바이어스는 PCR 바이어스이다.

단계 (I)에서 선택된 영역(들)에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드를 디자인하는 단계 (II)는 당업자에게 공지된 임의의 올리고뉴클레오티드 디자인 기술에 따라 수행될 수 있다. 특히, 선택된 영역(들)에 혼성화할 수 있는 올리고뉴클레오티드(들)는 다음 기준 중 적어도 하나에 따라 선택되고 디자인될 수 있다:

(a) 상기 선택된 올리고뉴클레오티드(들)는 40% 내지 60%의 CG-함량을 가진다;

(b) 상기 올리고뉴클레오티드(들)는 최근접-이웃 모델을 기초로 계산된 최고 자유 에너지를 가짐으로써 선택된다;

(c) 표적 핵산(v_a 및 v_b)의 올리고뉴클레오티드(s_a 및 s_b) 서브스트링을 고려하면, s_a는 s_a 및 임의의 길이-m 서브스트링 s_b 사이의 해밍 거리(hamming distance) 및/또는 s_a 및 올리고뉴클레오티드 s_b의 최장 공통 서브스트링(longest common substring)을 기초로 선택된다;

(d) 표적 핵산(v_a)에 특이적인 길이-m의 임의의 올리고뉴클레오티드(s_a)의 경우에, 올리고뉴클레오티드(s_a)는 표적 핵산과 다른 핵산의 임의의 영역과 어떠한 일치점도 갖지 않는 경우 선택되며 만일 올리고뉴클레오티드(s_a) 길이-m이 표적 핵산과 다른 핵산과 일치점을 갖는 경우, 최소의 최대 정렬 길이 및/또는 최소수의 일치점을 가진 올리고뉴클레오티드(s_a) 길이-m가 선택된다; 및

(e) 표적 핵산의 위치(i)에서 올리고뉴클레오티드(p_i)는 증폭된 표적 핵산의 위치(i)에 혼성화하는 것으로 예상된다면 선택된다.

특히, 상기 올리고뉴클레오티드는 프로브 및/또는 프라이머일 수 있다.

따라서, 상기한 둘 이상의 기준은 상기 올리고뉴클레오티드(들)를 디자인하는데 사용될 수 있다. 예를 들어, 상기 올리고뉴클레오티드(들)는 모든 기준 (a) 내지 (e)를 사용함으로써 디자인될 수 있다. 본 명세서에서 명확하게 언급되지 않으나 당업자의 지식 범위 내에 있는 다른 기준들이 사용될 수 있다.

특히, 기준 (e)하에서, 표적 핵산(v_a)의 위치(i)에 있는 올리고뉴클레오티드(p _i )는 P(p _i ｜v _a )> λ인 경우 선택되며, 여기서 λ는 0.5이고 P(p _i ｜v _a )는 p _i 가 표적 핵산(v_a)의 위치(i)에 혼성화하는 확률이다. 더욱 구체적으로, λ는 0.8이다.

특히, P(p _i ｜v _a )

P(X≤x _i ) =

, 여기서 X는 v_a의 모든 올리고뉴클레오티드의 증폭 효율 점수(AES) 값을 나타내는 랜덤 변수이고, k는 v_a에 있는 올리고뉴클레오티드의 수이고 c _i 는 AES 값이 ≤ x _i 인 올리고뉴클레오티드의 수이다.

본 발명의 다른 태양에 따라, 상기한 대로 올리고뉴클레오티드(들)를 디자인하는 방법은 선택되고 디자인된 올리고뉴클레오티드(들)를 제조하는 단계를 더 포함한다. 적어도 하나의 프로브 및/또는 프라이머일 수 있는 올리고뉴클레오티드는 당업계에 공지된 임의의 표준 방법에 따라 제조될 수 있다. 예를 들어, 표준 방법은 화학적 합성 또는 포토리소그래피이다.

다른 태양에 따라, 본 발명은 본 발명은 다음 단계를 포함하는 적어도 하나의 표적 핵산을 탐지하는 방법을 제공한다:

(i) 적어도 하나의 생물학적 샘플을 제공하는 단계;

(ii) 생물학적 샘플에 포함된 핵산(들)을 증폭하는 단계;

(iii) 만일 존재하면, 생물학적 샘플 속의 적어도 하나의 표적 핵산에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드를 제공하는 단계, 여기서 상기 올리고뉴클레오티드(들)는 개시된 본 발명의 임의의 태양에 따른 방법을 사용하여 디자인 및/또는 제조된다; 및

(iv) 상기 올리고뉴클레오티드(들)을 증폭된 핵산에 접촉하는 단계 및/또는 상기 표적 핵산(들)에 혼성화된 올리고뉴클레오티드(들)를 탐지하는 단계.

특히, 상기 올리고뉴클레오티드는 프로브이다.

상기 증폭 단계 (ii)는 랜덤 프라이머의 존재하에서 수행될 수 있다. 예를 들어, 상기 증폭 단계 (ii)는 적어도 하나의 랜덤 포워드 프라이머, 적어도 하나의 랜덤 리버스 프라이머 및/또는 2 이상의 랜덤 프라이머의 존재하에서 수행될 수 있다. 당업계에 공지된 임의의 증폭 방법이 사용될 수 있다. 예를 들어, 상기 증폭 방법은 RT-PCR이다.

특히, 표적 핵산(v_a)의 위치(i)에 결합하는 포워드 프라이머 및/또는 위치(j)에 결합하는 랜덤 프라이머는 표적 핵산(v_a)의 각 위치(i)에 대한 증폭 효율 점수(AES _i )를 가진 프라이머들 중에서 선택된다:

여기서

P ^f (i) 및 P ^r (i)는 랜덤 프라이머(r _i )가 각각 포워드 프라이머와 리버스 프라이머로 v_a의 위치(i)에 결합할 수 있고, Z≤10000 bp는 증폭되기 원하는 v_a의 영역이다. 더욱 구체적으로, Z는 ≤5000 bp, ≤1000 bp, 또는 ≤500 bp일 수 있다.

상기 증폭 단계는 포워드 및 리버스 프라이머를 포함할 수 있고 포워드 및 리버스 프라이머의 각각은 5'-3' 방향으로 고정된 프라이머 헤더와 가변성 프라이머 테일은 포함할 수 있고 적어도 가변성 테일은 상기 표적 핵산(v_a)의 일부에 혼성화된다. 특히, 상기 증폭 단계는 SEQ ID NO:1의 뉴클레오티드 서열을 가진 포워드 및/또는 리버스 랜덤 프라이머 또는 이의 변형체 또는 유도체를 포함할 수 있다.

생물학적 샘플은 포유류, 예를 들어, 인간으로부터 얻은 임의의 샘플일 수 있다. 생물학적 샘플은 조직, 혈청, 비인두 세척액, 타액, 임의의 다른 액체, 혈액, 소변, 대변 등일 수 있다. 상기 생물학적 샘플은 증폭 단계를 수행하기 전에 생물학적 샘플에 포함된 핵산을 제거하기 위해 처리될 수 있다. 상기 표적 핵산은 탐지하려는 임의의 핵산일 수 있다. 탐지될 표적 핵산은 생물학적 샘플의 핵산에 외인성인 적어도 하나의 핵산일 수 있다. 따라서, 만일 생물학적 샘플이 인간의 것이면, 탐지된 외인성 표적 핵산(만일 생물학적 샘플에 존재하는 경우)은 인간의 것이 아닌 핵산이다. 본 발명의 태양에 따라, 탐지될 표적 핵산은 적어도 하나의 병원체 게놈 또는 이의 절편이다. 상기 병원체 핵산은 적어도 하나의 바이러스, 기생충 또는 박테리아의 핵산 또는 이의 절편일 수 있다.

따라서, 본 발명은 만일 존재하면, 생물학적 샘플 속의 적어도 하나의 표적 핵산의 탐지 방법을 제공한다. 상기 방법은 생물학적 샘플 속의 병원체의 존재를 탐지하는 진단 방법일 수 있다. 예를 들어, 만일 생물학적 샘플을 인간으로부터 얻을 때, 만일 존재하면, 생물학적 샘플 속의 표적 핵산은 인간으로부터 얻은 것이 아니다.

본 발명에 따른 임의의 방법에 따라 디자인 및/또는 제조된 올리고뉴클레오티드(들)는 용액에서 사용될 수 있거나 불용성 지지체 상에 위치될 수 있다. 예를 들어, 올리고뉴클레오티드 프로브(들)는 당업계 공지된 임의의 기술에 따라 불용성 지지체 상에 도포되고, 얼룩지거나 인쇄될 수 있다. 상기 지지체들은 마이크로어레이, 바이오칩, 막/합성 표면, 고체 지지체 또는 겔일 수 있다.

그런 후에 프로브들은 생물학적 샘플의 핵산(들)과 접촉하며, 만일 존재하면, 표적 핵산(들) 및 프로브(들)는 혼성화되고 표적 핵산의 존재는 탐지된다. 특히, 탐지 단계 (iv)에서, v_a에 혼성화되는 프로브들의 신호 강도의 평균은 프로브(

v_a)의 평균보다 통계적으로 높아서, 생물학적 샘플 속의 v_a의 존재를 나타낸다.

더욱 구체적으로, 탐지 단계(iv)에서, v_a에 혼성화되는 프로브들의 신호 강도의 평균은 프로브(

v_a)의 평균보다 통계적으로 높고 상기 방법은 높은 신호 강도를 가진 탐지 방법에 사용된 프로브의 비율과 높은 신호 강도를 가진 프로브(

v_a)의 비율의 상대적 차이를 계산하는 단계를 더 포함하고, 프로브(v_a)의 신호 강도의 밀도 분포는 프로브(

v_a)의 신호 강도보다 더욱 양으로 비대칭이어서, 생물학적 샘플 속의 v_a의 존재를 나타낸다.

예를 들어, 탐지 단계(iv)에서, 생물학적 샘플 속의 적어도 하나의 표적 핵산은 이의 프로브 신호 강도의 밀도 분포가 비정상인 경우, 즉, 더욱 양으로 비대칭인 경우 탐지되며, 앤더슨-달링에 의해 주어진 검정 값은 ≤0.05 및/또는 t-검정의 값은 ≤ 1.0 및/또는 ≥ 1.0, 바람직하게는 ≥ 5.0의 가중 쿨백-레이블러 발산 점수, 특히, t-검정 값은 ≤ 0.05이다.

더욱 구체적으로, 탐지 단계(iv)는 가중 쿨백-레이블러(WKL) 발산 점수의 분포를 계산함으로써 표적 핵산(들)(v_a)에 대한 각 병원체 특이적 지표 프로브 세트(SPS)에서 프로브(들)의 프로브 신호 강도를 평가하는 단계를 더 포함한다:

Q _a (j)는 bin b _j 에서 발견된 P _a 에서 프로브들의 신호 강도의 누적 분포 함수이고; Q _a -(j)는 bin b _j 에서 발견된

에서 프로브들의 신호 강도의 누적 분포 함수이다. P _a 는 바이러스(v_a)의 프로브들의 세트이고

= P-P _a 이다.

예를 들어, 표적 핵산들(v_a)의 부존재를 나타내는 각 지표 프로브 세트(SPS)는 정상적으로 분포된 신호 강도(앤더슨-달링 검정 값 ≤0.05) 및/또는 WKL<5의 가중 쿨백-레이블러(WKL) 발산 점수를 가진다. 적어도 하나의 표적 핵산들(v_a)의 존재를 나타내는 각 지표 프로브 세트(SPS)는 양으로 비대칭된 신호 강도 분포 및/또는 WKL>5의 가중 쿨백-레이블러(WKL) 발산 점수를 가진다.

상기 방법은 WKL 점수(들)의 분포에 대한 앤더슨-달링 검정을 수행하는 단계를 더 포함하고, P>0.05의 결과는 표적 핵산(들)(v_a)의 부존재를 나타내거나 P<0.05의 결과는 표적 핵산(들)(v_a)의 존재를 나타낸다. 또한, 추가의 앤더슨-달링 검정이 수행되어 추가의 공동-감염된 표적 핵산(들)의 존재를 나타낸다. 다른 태양에 따라, 본 발명은 적어도 하나의 표적 핵산(v_a)에 적어도 하나의 올리고뉴클레오티드 프로브(프로브는 당업계에서 공지되고 본 발명에 따른 방법에 한정될 필요가 없는 임의의 방법에 따라 선택되고 디자인된다)의 혼성화를 탐지하는 단계를 포함하여 표적 핵산(v_a)의 존재를 측정하는 방법을 제공하며 v_a에 혼성화되는 프로브의 신호 강도의 평균은 프로브(

v_a)의 평균보다 통계적으로 높아서, v_a의 존재를 나타낸다. 특히, v_a에 혼성화하는 프로브들의 신호 강도들의 평균은 프로브(

v_a)의 신호 강도보다 더욱 양으로 비대칭이어서, v_a의 존재를 나타낸다. 더욱 구체적으로, 생물학적 샘플 속의 적어도 하나의 표적 핵산의 존재는 t-검정 ≤ 0.1의 값 및/또는 앤더슨-달링 검정 값 ≤0.05 및/또는 ≥ 1.0, 바람직하게는 ≥ 5.0의 가중 쿨백-레이블러 발산 점수에 의해 주어진다. 예를 들어, t-검정 값은 ≤ 0.05일 수 있다.

다른 태양에 있어서, 본 발명은 다음 단계를 포함하며, 적어도 하나의 핵산을 탐지하는 방법을 제공한다:

(i) 적어도 하나의 생물학적 샘플을 제공하는 단계;

(ii) 생물학적 샘플에 포함된 핵산(들)을 증폭하는 단계;

(iv) 상기 올리고뉴클레오티드(들)을 증폭된 핵산에 접촉하는 단계 및 표적 핵산에 혼성화된 올리고뉴클레오티드(들)을 탐지하는 단계, 여기서 v_a에 혼성화된 올리고뉴클레오티드(들)의 신호 강도의 평균은 프로브(

특히, 상기 올리고뉴클레오티드는 올리고뉴클레오티드 프로브이다.

단계 (iv)에서, v_a에 혼성화되는 프로브들의 신호 강도의 평균은 프로브(

v_a)의 신호 강도보다 더욱 양으로 비대칭이어서, 생물학적 샘플 속의 v_a의 존재를 나타낸다. 특히, 단계 (iv)에서, 생물학적 샘플 속의 적어도 하나의 표적 핵산의 존재는 t-검정 ≤ 0.1의 값 및/또는 앤더슨-달링 검정 값 ≤0.05 및/또는 ≥ 1.0, 바람직하게는 ≥ 5.0의 가중 쿨백-레이블러 발산 점수에 의해 주어진다. t-검정 값은 ≤ 0.05일 수 있다. 탐지될 핵산은 생물학적 샘플의 핵산에 외인성인 핵산이다. 탐지될 표적 핵산은 적어도 하나의 병원체 게놈 또는 이의 절편일 수 있다. 병원체 핵산은 적어도 하나의 바이러스, 기생충 또는 박테리아의 적어도 하나의 핵산 또는 이의 절편일 수 있다. 특히, 만일 생물학적 샘플을 인간으로부터 얻으면, 만일 존재하면 생물학적 샘플에 포함된 표적 핵산은 인간으로부터 얻은 것이 아니다. 상기 프로브들은 불용성 지지체 위에 놓일 수 있다. 상기 지지체는 마이크로어레이, 바이오칩 또는 막/합성 표면일 수 있다.

본 발명은 본 발명에 따른 방법을 수행하기 위한 장치를 포함하는 본 발명의 장치를 제공한다. 특히, 상기 장치는 핵산 탐지 및/또는 증폭을 위해 올리고뉴클레오티드(들)를 디자인할 수 있고, 상기 장치는 증폭되는 적어도 하나의 표적 핵산의 적어도 하나의 영역(들)을 동정 및/또는 선택하도록 구성되고, 상기 영역(들)은 평균 AE보다 높은 증폭의 효과(AE)를 가지며 상기 동정 및/또는 선택된 영역(들)에 혼성화될 수 있는 적어도 하나의 올리고뉴클레오티드(들)를 디자인한다. 더욱 구체적으로 상기 장치는 다음 단계들의 임의의 하나를 포함하여 적어도 하나의 표적 핵산을 탐지하도록 구성될 수 있다: 적어도 하나의 생물학적 샘플을 제공하는 단계; 생물학적 샘플에 포함된 핵산(들)을 증폭하는 단계; 만일 존재하면, 생물학적 샘플 속의 적어도 하나의 표적 핵산에 혼성화될 수 있는 적어도 하나의 올리고뉴클레오티드를 제공하는 단계, 여기서 상기 올리고뉴클레오티드(들)은 본 발명에 따라 구성된 장치에 따라 디자인 및/또는 제조된다; 및 상기 올리고뉴클레오티드(들)을 증폭된 핵산에 접촉하는 단계 및/또는 표적 핵산에 혼성화된 올리고뉴클레오티드(들)을 탐지하는 단계.

또한 본 발명은 본 발명에 따른 방법을 수행하기 위해 구성된 적어도 하나의 컴퓨터 프로그램 제품을 제공한다. 본 발명에 따른 장치의 구성을 저장하는 적어도 하나의 전자적 저장 매체가 제공된다. 한 태양에 따라, 본 발명은 본 발명에 따른 방법(들)을 수행하도록 구성된 소프트웨어를 포함하는 제거가능한 전자적 저장 매체를 제공한다. 특히, 상기 제거가능한 전자적 저장 매체는 적어도 하나의 올리고뉴클레오티드 프로브 및/또는 프라이머를 디자인 및/또는 적어도 하나의 표적 핵산을 탐지하기 위한 WKL 발산 점수 및/또는 앤더슨-달링 검정을 측정하도록 구성된 소프트웨어를 포함할 수 있다. 더욱 구체적으로, 소프트웨어 구성을 포함하는 제거가능한 전자적 저장은 WKL, 앤더슨-달링 검정, 본 발명에 따라 정의된 프로브(들)의 디자인 및/또는 표적 핵산(들)의 탐지를 포함할 수 있다. 따라서, 상기한 대로 구성된 소프트웨어가 제공된다.

본 명세서에서 언급한 서지적 참고문헌은, 편의를 위해, 참고문헌의 목록 형태로 나열되며 실시예들의 마지막에 첨가된다. 이런 서지적 참고문헌의 전체 내용은 본 명세서에 참조로 포함된다.

본 발명은 종래의 문제들을 다루며, 특히 올리고뉴클레오티드 디자인의 적어도 하나의 방법, 장치 및/또는 생성물을 제공한다. 특히, 프로브 및/또는 프라이머 디자인의 방법, 장치 및/또는 생성물이 제공된다. 또한, 핵산(들) 탐지의 방법, 장치 및/또는 생성물이 제공된다.

병원체들의 존재를 측정하기 위한 도구로서 올리고뉴클레오티드 혼성 마이크로어레이를 사용하는 개념이 제안되었으나, 현저한 장애가 있어서 이런 마이크로어레이를 일상적으로 사용하지 못하게 한다(스트리벨, 에이치.엠., 2003; 보드로씨, 엘. & 쎄시트쉬, 에이., 2004; 보라, 쥐. 제이., 등., 2004). 본 발명자들은 파일럿 마이크로어레이에서 주의 깊은 프로브 선택에도 불구하고, 최적의 인 실리코(in silico)로 디자인된 프로브들은 환자 샘플들에 반드시 필수적으로 혼성화하지 않는다는 것을 발견하였다. 본 발명자들은 환자 물질과 잘 일치되게 혼성화할 수 있는 프로브들을 발생하기 위해서, 최적의 디자인 예언자를 결정하기 위해서 프로브 디자인의 새롭고 및/또는 향상된 방법을 개발하는 것이 필수적이었다. 특히, 실시예에 기술된 대로, 본 발명자들은 35개 바이러스 게놈을 가로질러 덮은, 겹쳐진 40-mer 프로브를 포함하는 마이크로어레이를 만들었다. 그러나, 본 발명은 이런 특정 용도, 프로브 길이 및 표적 핵산의 형태에 한정되지 않는다.

본 발명의 특정 태양에 따라, 본 발명자들은 어떻게 지지체, 특히 마이크로어레이 플랫폼이 표적 핵산 탐지, 특히 병원체 탐지에 실행가능한 도구가 되도록 최적화되는 가를 개시한다. 또한 본 발명자들은 용융 온도, 프로브의 GC-함량, 제 2 구조, 해밍 거리, 인간 게놈과의 유사성, 랜덤 PCR 증폭 효율에서 PCR 프라이머 태그의 효과 및/또는 서열 다형성의 효과를 포함하는 동정된 프로브 디자인 예언자를 확인하였다. 이런 결과들은 프로브 및/또는 프라이머 디자인에 대한 방법 및 기준의 개발을 고려하고 개발로 구체화하였다. 더욱 구체적인 태양에 따라, 발명자들은 병원체일 수 있거나 아닐 수도 있는 표적 핵산의 존재를 정확하게 예상할 수 있는 데이터 분석 알고리즘을 개발하였다. 예를 들어, 상기 병원체는 바이러스, 박테리아 및/또는 기생충(들)일 수 있으나 이에 한정되지 않는다. 상기 알고리즘은 프로브들이 이상적으로 디자인되지 않아도 사용될 수 있다. 프로브 디자인 방법론과 결합된 이런 탐지 알고리즘은 예상의 신뢰 수준을 현저하게 향상시킨다(표 6 및 7 참조).

특정 태양에 따라, 본 발명의 방법은 적당한 병원체의 예상을 필요로 하지 않을 수 있으나, 비편향된 방식으로 대부분 공지된 인간 바이러스, 박테리아 및/또는 기생충(들) 뿐만 아니라 일부 새로운 종들을 탐지할 수 있다. 게놈 또는 이의 절편은 유기체의 염색체에서 모든 유전 물질로 정의된다. 특정 유기체의 염색체들에서 유전 물질로부터 유도된 DNA는 게놈 DNA이다. 게놈 라이브러리는 유기체의 전체 게놈을 나타내는 무작위로 발생된 겹쳐진 DNA 절편의 세트로부터 제조된 클론의 집합이다. 본 발명에 따른 탐지 플랫폼 이면의 근본적 이유는 바이러스, 박테리아 및/또는 기생충(들)의 각 종들은 이들의 게놈의 주요 서열 내의 독특한 분자 지표를 함유하는 것이다. 이런 구별된 영역의 확인은 개별 종들 및 일부 경우에 개별 균주의 특이적 탐지를 위한 합리적인 올리고뉴클레오티드 프로브 디자인을 가능하게 한다. 과 및 종 멤버들 중 가장 높게 보존된 영역을 나타내는 올리고뉴클레오티드 (올리고) 프로브의 공존하는 디자인 및/또는 제조는 일부 새로운 병원체들의 탐지와 부분적 묘사를 가능하게 한다. 게다가, 단일 지지체에 이런 모든 프로브들을 삽입하면 임상 샘플을 동시에 공동 감염시키는 여러 바이러스, 박테리아 및/또는 기생충(들)을 탐지할 수 있게 한다. 상기 지지체는 불용성 지지체, 특히 고체 지지체일 수 있다. 예를 들어, 마이크로어레이 또는 바이오칩 분석법이다.

특정 태양에 따라, 본 발명은 올리고뉴클레오티드가 디자인되는 방식 및/또는 마이크로어레이에 의해 발생된 데이터가 어떻게 번역되고 분석되는 지에 따라 진단 도구로 사용될 수 있다.

증폭의 효율의 측정

제 1 태양에 따라, 본 발명은 임의의 순서로 다음 단계를 포함하는 핵산 탐지를 위한 올리고뉴클레오티드 프로브(들)를 디자인하는 방법을 제안한다:

특히, 단계 (i)에서 AE의 점수는 표적 핵산(들) 또는 이의 적어도 하나의 영역의 길이 상의 각 위치(i)에 대해 측정되고 그 후에, 평균 AE 점수가 얻어진다. 평균보다 높은 AE 점수를 나타내는 영역들은 증폭될 표적 핵산의 영역(들)으로 선택될 수 있다. 특히, 선택된 영역(들)의 AE는 증폭 효율 점수(AES)로 계산될 수 있는데, 증폭 효율 점수는 포워드 프라이머(r_i)가 위치(i)에 결합할 수 있고 리버스 프라이머(r_j)가 표적 핵산의 위치(j)에서 결합할 수 있고 ｜i-j｜는 증폭되기 원하는 표적 핵산의 영역이라는 확률이다. 특히, 영역 ｜i-j｜은 ≤ 1000bp, 더욱 구체적으로 ≤ 5000bp 또는 ≤ 1000bp, 예를 들어 ≤ 500bp일 수 있다. 특히, 포워드 및 리버스 프라이머는 랜덤 프라이머일 수 있다.

다른 태양에 따라, 증폭될 표적 핵산의 영역(들)을 동정 및/또는 선택하는 단계 (i)은 표적 핵산의 각 위치를 위한 기하학적 증폭 바이어스의 효과를 측정하는 단계, 평균보다 더 높은 증폭 효과(AE)를 가진 영역(들)으로 증폭될 적어도 하나의 영역(들)을 선택하는 단계를 포함한다. 기하학적 증폭 바이어스는 다른 영역보다 더 효과적으로 증폭될 수 있는 핵산의 일부 영역의 능력으로 정의된다. 예를 들어, 기하학적 증폭 바이어스는 PCR 바이어스이다.

증폭 효율의 모델링

어떤 표적 핵산(예를 들어 병원체)이 환자 샘플 내에 존재하는지 알려져 있지 않기 때문에, 랜덤 프라이머들은 존재하는 DNA 속에 존재하는 모든 RNA의 비편향 역전사(unbiased reverse-transcription)를 하기 위해 증폭 단계 및/또는 역전사(RT) 공정 동안 사용될 수 있다. 당업계에 공지된 임의의 랜덤 증폭 방법은 본 발명의 목적을 위해 사용될 수 있다. 본 발명의 명세서에서, 상기 랜덤 증폭 방법은 RT-PCR이다.

그러나, 본 발명의 방법은 RT-PCR에 한정되지 않는다는 것은 당업자에게 명백할 것이다. 특히, RT-PCR 방법은 RT-PCR 공정(부스틴, 에스.에이., 등, 2004)에서 프라이머-다이머 결합과 나쁜 증폭 효율에 의해 발생된 신호 부정확성이 일어날 수 있다. 이런 문제를 극복하기 위해, 본 발명자들은 랜덤 프라이머를 사용함으로써 RT-PCR 공정을 모형으로 만들었다.

본 발명의 특정 태양에 따라, 상기 증폭 단계는 포워드 및 리버스 프라이머를 포함하고, 상기 포워드 및 리버스 프라이머의 각각은 5'-3' 방향으로, 고정된 프라이머 헤더와 가변성 프라이머 테일을 포함하고 적어도 상기 가변성 테일은 표적 핵산(v_a)의 일부에 혼성화한다. 고정된 프라이머 헤더의 크기와 가변성 프라이머 테일의 크기는, mer로 본 발명에 따른 방법을 목적에 적합한 임의의 크기일 수 있다. 고정된 헤더는 10-30mer, 특히, 15-25mer, 예를 들어 17mer일 수 있다. 가변성 테일은 1-20mer, 특히, 5-15mer, 예를 들어, 9mer일 수 있다. 이런 포워드 및 리버스 프라이머의 예는 도 1에 도시된다. 더욱 구체적으로, 증폭 단계는 뉴클레오티드 서열 5'-GTTTCCCAGTCACGATANNNNNNNNN-3',(SEQ ID NO:1)을 가진 포워드 및/또는 리버스 랜덤 프라이머를 포함할 수 있고, 여기서 N은 A,T,C 및 G 또는 이의 유도체 중 임의의 하나이다.

도 1에 예로 든 특정 실시예에 따라, 본 발명자들은 다음과 같이 랜덤 RT-PCR 공정을 모델로 하였다. v _a 를 샘플 속의 실제 바이러스로 하였다. RT-PCR 공정에 사용된 랜덤 프라이머는 바람직하게는 형태(5'-GTTTCCCAGTCACGATANNNNNNNNN-3'),(SEQ ID NO:1 및 특히, SEQ ID NOS:2-7)의 고정된 17-mer 헤더와 가변성 9-mer 테일을 가진 26-mer 프라이머이었다. 그러나, 당업자는 본 발명에 따른 프라이머는 헤더 및 가변성 테일은 변할 수 있고 상기한 범위 내에서 선택될 수 있다. v_a의 위치 i 및 j 사이의 영역에서 RT-PCR 생성물을 얻기 위해서, 본 발명자들은 위치(i)에 결합된 포워드 프라이머, (2) ｜i-j｜≤10000 및 (3) 위치(j)에 결합된 리버스 프라이머가 필요하였다. 특히, 증폭되기 원하는 표적 핵산의 영역인 ｜i-j｜는 ≤ 5000bp, 더욱 구체적으로 ≤ 1000, 예를 들어 ≤ 500bp일 수 있다. RT-PCR 생성물의 품질은 포워드 프라이머 및/또는 리버스 프라이머가 v_a에 얼마나 잘 결합하는 지에 의해 결정된다. 일부 랜덤 프라이머들은 다른 것들보다 v_a에 더욱 잘 결합할 수 있다. 이런 프라이머들 및 이들이 어디서 v_a에 결합하는 지를 확인하는 것은 v_a의 특정 영역이 어떻게 증폭될 것인 지의 암시를 제공한다. 이런 방법을 사용하면, v_a의 각 위치에 대한 증폭 효율 점수(AES)를 계산하는 증폭 효율 모델이 제공된다.

표적 핵산(v_a)의 특정 위치(i)의 경우에, P ^f (i) 및 P ^r (i)는 랜덤 프라이머(r _i )가 각각 포워드 프라이머와 리버스 프라이머로 v_a의 위치(i)에 결합할 수 있는 확률이다. 간단히 설명하기 위해, 랜덤 프라이머는 이의 마지막 9개 뉴클레오티드가 v_a(포워드 프라이머)의 리버스 상보서열의 서브스트링 또는 v_a(리버스 프라이머)의 서브스트링인 경우에 v_a에만 결합할 수 있다고 가정한다. 이것은 도 1에 도시된다. 잘 설정된 프라이머 디자인 기준(유, 디.와이., 등., 1991)을 기초로 하여, P ^f (i)는 만일 r _i 가 상당한 프라이머-다이머를 형성하는 경우 또는 최대 용융 온도를 갖는 경우 낮게 측정되었다. 반면에, 만일 r _i 가 임의의 상당한 프라이머-다이머를 형성하지 않고 최적의 용융 온도를 갖는 경우, P ^f (i)는 높을 것이다. 만일 랜덤 프라이머의 헤더가 v_a와 유사하다면, 헤더가 결합을 도울 것이고 따라서 P ^f (i)는 더 높아질 수 있다는 것을 알아야 한다. P ^r (i)는 유사하게 계산되었다.

포워드 프라이머로서 v_a의 위치(i)에 랜덤 프라이머(r _i )의 결합은 위치(i)의 적어도 1000 뉴클레오티드 상부에 대한 RT-PCR 생성물의 품질에 영향을 미친다. 유사하게, 리버스 프라이머로서 v_a의 위치(i)에서 랜덤 프라이머(r _i )의 결합은 위치(i)의 적어도 10000 뉴클레오티드 하류에 대한 RT-PCR의 품질에 영향을 미친다. 따라서, v_a의 각 위치(i)의 경우, 증폭 효율 점수(AES _i )는 이를 증폭하는 모든 포워드 및 리버스 프라이머-쌍의 연합 효과를 고려함으로써 계산될 수 있다:

여기서

P ^f (i) 및 P ^r (i)는 랜덤 프라이머(r _i )가 각각 포워드 프라이머와 리버스 프라이머로 v_a의 위치(i)에 결합할 수 있는 확률이고 Z ≤ 10000 bp는 증폭되기 원하는 v_a의 영역이다.

따라서, Z는 ≤ 10000 bp, ≤ 5000 bp, ≤ 1000 bp 또는 ≤ 500 bp일 수 있다. 만일 바이러스의 다른 영역에 의해 나타나는 신호 강도의 변화가 상응하는 증폭 효율 점수와 직접적인 상관관계를 갖는 지를 확인하기 위해서, 여러 마이크로어레이 실험들(구체적인 경우, 5개 마이크로어레이 실험의 전체)는 인간에 영향을 미치는 일반적인 병원체, 인간 호흡기 합포체 바이러스 B(RSV B) 상에서 수행하였다.

증폭 효율을 위한 RT - PCR 의 모델링

성 등. 2003, CSB의 방법을 개량시킨 본 발명의 방법에 따라, 역전사에 사용된 프라이머는 고정된 올리고뉴클레오티드 태그(헤더) 및 랜덤 올리고뉴클레오티드 테일을 포함한다. 이론적으로, 상기 랜덤 올리고뉴클레오티드 테일은 환자 샘플의 모든 핵산에 무차별로 결합하여, 제 1 가닥 합성을 개시한다. 제 2 가닥 합성 후에, 모든 역전사 서열은 양 말단에서 고정된 올리고뉴클레오티드 태그(헤더)를 가질 것이다. 이런 서열들은 길이가 적어도 1000 bp의 PCR 생성물을 생성하기 위해서 프라이머로서 고정된 올리고뉴클레오티드(헤더)를 사용하여, PCR에 의해 증폭된다. 특히, 증폭된 PCR 생성물의 대부분은 길이가 500-1000 bp이다. 특정한 실시예에 따라, 역전사(RT)에 사용되는 26-mer 프라이머는 9-mer 랜덤 테일: 5'-GTTTCCCAGTCACGATANNNNNNNNN-3'(SEQ ID NO:1)를 가진 고정된 17-mer 태그를 포함한다.

우리 모델에서, v_a는 임상 샘플의 병원체를 나타낸다. v_a의 위치(i 및 j)에 의해 정의되는 게놈의 임의의 영역에, 예를 들어, 500-1000 bp의 적어도 하나의 PCR 생성물을 생성하는 것은 위치(i)에 결합하는 포워드 프라이머 및 안티-센스 방향으로 위치(j)에 결합된 리버스 프라이머를 필요로 하여 500 = ｜i-j｜= 10000, 특히 500 = ｜i-j｜= 1000이다. 프라이머의 결합 친화력은 적어도 2개의 인자: (1) 프라이머 다이머 정보 및 (2) 바이러스 v_a에 대한 프라이머의 혼성화 친화력에 의해 결정된다. 10000 뉴클레오티드, 특히 1000 또는 500 뉴클레오티드 내의 이상적인 프라이머 결합 위치를 갖는 것에 의해 성공적으로 증폭될 수 있는 게놈 영역은 도 1의 v_a의 각 위치에 대한 증폭 효율 점수(AES)를 계산함으로써 예상할 수 있다.

증폭 효율 점수( AES )

v_a의 각 위치(i)의 경우, P ^f (i) 및 P ^r (i)는 랜덤 프라이머(r _i )가 각각 포워드 프라이머와 리버스 프라이머로 v_a의 위치(i)에 결합할 수 있는 가능성이다. 간단히 설명하기 위해, 랜덤 프라이머는 만일 이의 랜덤 테일의 뉴클레오티드(예를 들어, 도 1에 도시된 대로 랜덤 프라이머의 마지막 9개 뉴클레오티드)가 v_a(포워드 프라이머)의 리버스 상보서열의 서브스트링 또는 v_a(리버스 프라이머)의 서브스트링인 경우 v_a에만 결합할 수 있다고 가정한다. 잘 설정된 프라이머 디자인 기준(유 및 우고졸리, 1991)을 기초로 하여, P ^f (i)는 만일 r _i 가 상당한 프라이머-다이머를 형성하는 경우 또는 최대 용융 온도를 갖는 경우 낮게 측정되었다. 반면에, 만일 r _i 가 임의의 상당한 프라이머-다이머를 형성하지 않고 최적의 용융 온도를 갖는 경우, P ^f (i)는 높을 것이다. 만일 랜덤 프라이머(예를 들어, 도 1에 도시된 고정된 17-mer 태그)의 고정된 올리고뉴클레오티드 태그(헤더)가 v_a와 유사하다면, 헤더가 결합을 도울 것이고 따라서 P ^f (i)는 더 높아질 수 있다. P ^r (i)는 유사하게 계산하였다.

포워드 프라이머로서 v_a의 위치(i)에 랜덤 프라이머(r _i )의 결합은 위치(i)의 뉴클레오티드 상부에 대한(예를 들어, 위치(i)의 500 내지 1000 뉴클레오티드 상부에 대한) RT-PCR 생성물의 품질에 영향을 미친다. 유사하게, 리버스 프라이머로서 v_a의 위치(i)에서 랜덤 프라이머(r _i )의 결합은 위치(i)의 뉴클레오티드 하류에 대한(예를 들어, 위치(i)의 500 내지 1000 뉴클레오티드 하류에 대한) RT-PCR 생산물의 품질과 범위에 영향을 미친다. v_a의 위치(x)를 고려한다. 각각 위치(i 및 j)에 있는 모든 유효 프라이머 쌍은 x에서 RT-PCR 생성물의 품질에 영향을 미친다. i = x = j 및 i - j = 10000 주목하라. 예를 들어, 500 내지 1000 염기쌍 길이일 때 RT-PCR 생산물이기 때문에 500 = i - j = 1000이다. 따라서, v_a의 각 위치(x)의 경우, 증폭 효율 점수(AES _x )는 이를 증폭시키는 모든 포워드 및 리버스 프라이머-쌍의 연합 효과를 고려함으로써 계산될 수 있다:

성공적인 RT - PCR 를 예측하는 AES 문턱값

바이러스 v_a에 대한 프로브 선택에 대한 증폭 효율 점수에 대한 문턱값은 AES 값 v_a의 누적 분포 함수에 의해 측정된다. X를 v_a의 모든 프로브의 AES 값을 나타내는 랜덤 변수로 한다. k를 v_a의 프로브들의 수로 한다. 그런 후에, AES 값은

이하 또는 동일하다는 확률을 표시하며, c는 x 이하 또는 x와 동일한 AES 값을 가진 프로브의 수이다. v_a의 위치(i)에 있는 프로브(p _i )의 경우, x _i 를 상응하는 AES 값으로 한다. 프로브의 신호 강도가 이의 AES 값과 관련성이 높기 때문에, p _i 가 v_a의 존재하에서 높은 신호 강도를 가지는 확률인 P(p _i ｜v _a )는 P(X≤x _i )라고 생각하였다. 따라서,

상기 식에서 c _i 는 AES 값이 x _i 이하이거나 x _i 와 동일한 프로브의 수이다.

프로브 선택의 경우에, 프로브(p _i )는 만일 P(p _i ｜v _a )> λ인 경우 선택된다. 실험에서, λ = 0.8로 설정하였다. 이 문턱값(상부 20% AES)에서, 예상된 프로브들의 50% 이상은 다른 임상 샘플들에 재생가능하게 혼성화할 것이다. 더 높은 AES(예를 들어, 상부 10% AES)를 가진 프로브를 사용하여 재생성을 향상시킬 수 있지만, 일부 게놈을 위해 잔존하는 독특한 프로브의 수를 종 수준에서 <10으로 감소시킬 수 있어서, 결과적으로 병원체를 특이적으로 동정하는 어레이의 능력을 파괴한다. 따라서 상부 20% AES가 사용되었다.

병원체 탐지 마이크로어레이에 대한 교차- 혼성화 문턱값의 실험적 측정

프로브 디자인

선택된 영역(들)에 혼성화할 수 있는 올리고뉴클레오티드 프로브(들)를 디자인하는 단계(ii)는 당업계에서 공지된 프로브 디자인 기술들 중 임의의 하나로 선택될 수 있다. 다음 설명은 프로브 디자인에 관한 것이나, 프라이머(들)의 디자인, 특히, RT-PCR을 위한 프라이머(들)의 디자인을 위해 동일한 원리를 적용하는 것은 당업자에게 명백할 것이다.

예를 들어, 표적 핵산들(예를 들어, 바이러스성 게놈)의 세트 V = {v₁, v₂, ..., v_n}를 고려하면, 각 v_ieV의 경우, 다음 조건을 만족시키는 길이-m 프로브(v_i의 서브스티링)의 세트는 다음 중 적어도 하나를 고려하여 디자인하였다:

(a) 균일성, 민감성 및 특이성의 설정된 프로브 디자인 기준(성, 더블유, 케이 등. 2003, CSB);

(b) 인간 게놈과 현저한 서열 유사성을 나타내지 않음; 및

(c) 명세서와 같이, 예를 들어, RT-PCR에 의해 AE 점수를 사용하여 효과적으로 증폭.

교차-혼성화 인공물에 의해 발생된 잡음 신호는 마이크로어레이 데이터의 해석, 특히 핵산의 복합 혼합물에 존재하는 희귀한 병원체 서열의 동정에 큰 장애물을 제공한다. 예를 들어, 임상 표본에서, 숙주 조직으로부터 유도된 것과 같은 오염된 핵산 서열들은 서열 상보성의 일부의 문턱값 이상으로 병원체-특이적 마이크로어레이 프로브와 교차-혼성화할 것이다. 이것이 거짓-양성 신호를 일으켜 잘못된 결론을 유도할 수 있다. 유사하게는, 이의 특이적 프로브와 결합하는 병원체 서열은 다른 비-표적 프로브와 교차-혼성화될 수 있다(즉, 다른 병원체를 탐지하도록 디자인됨). 후자의 현상은, 비록 문제가 있지만, 이런 교차-혼성화가 정확하게 예측될 수 있는 정도로 병원체 동정을 위한 유용한 정보를 제공할 수 있다. 어닐링 능려과 서열 특이성을 측정하는 여러 측정 기준으로, 마이크로어레이 프로브는 (비 특이적 서열에 대한) 최소 교차-혼성화로 최대 특이적 혼성화(공지된 표적)를 이루기 위해 통상적으로 디자인되었다. 그러나, 실제로는 비록 최적의 인 실리코 변수로 디자인되어도, 많은 프로브들은 분명하지 않은 이유에 대한 예상에 따라 수행되지 않는다는 것을 발견하였다.

어레이-기초 병원체 탐지의 동역학을 체계적으로 조사하기 위해서, 님블레겐 어레이 합성 기술(뉴웨이서 등. 2002)을 사용하는 올리고뉴클레오티드 어레이를 만들었다. 상기 어레이는 각 게놈의 전체 길이를 가로질러 평균 8-염기 해상도에서 기울어진 40-mer 프로브들을 사용하는 35 RNA 바이러스까지 탐지하도록 디자인하였다(53,555 프로브; 도 6, 표 1).

병원체 탐지 마이크로어레이 상에 나타난 게놈들의 목록. (1열) 마이크로어레이 상에서 합성된 각 게놈을 위한 프로브들의 수. (2열) 프로브 디자인 필터의 사용 후에 남아있는 각 게놈을 위한 프로브들의 수. (3열) 게놈에 독특하고 인간과 교차-혼성화하지 않는 각 게놈을 위한 프로브들의 수.

게놈	최초 프로브 숫자 (1)	여과된 프로브 숫자 (2)	독특한 프로브 (3)	NCBI GI 숫자	Ref 형태	수납 번호	설명
1	1948	537	271	9629198	RefSeq	NC_001781.1	인간 호흡기 합포체 바이러스, 완전힌 게놈
2	1995	550	295	19718363	RefSeq	NC_003461.1	인간 파라인플루엔자 바이러스 1 균주 워싱톤/1964, 완전한 게놈
3	2002	762	474	19525721	RefSeq	NC_003443.1	인간 파라인플루엔자 바이러스 2, 완전한 게놈
4	1979	701	345	1093870	RefSeq	NC_001796.2	인간 파라인플루엔자 바이러스 3, 완전한 게놈
5	3805	588	444	30468042	Genbank	AY283794.1	SARS 코로나바이러스 Sin2500, 완전한 게놈
6	3937	604	356	38018022	RefSeq	NC_005147.1	인간 코로나바이러스 OC43, 완전한 게놈
7	3495	182	112	12175745	RefSeq	NC_002645.1	인간 코로나바이러스 229E, 완전한 게놈
8	1705	292	177	46852132	RefSeq	NC_004148.2	인간 메타뉴모바이러스, 완전한 게놈
9	296	118	101	8486138	RefSeq	NC_002023.1	인플루엔자 A 바이러스 RNA 절편 1, 완전한 게놈
10	282	69	42	8486136	RefSeq	NC_002022.1	인플루엔자 A 바이러스 RNA 절편 3, 완전한 게놈
10	296	81	54	8486134	RefSeq	NC_002021.1	인플루엔자 A 바이러스 RNA 절편 2, 완전한 게놈
10	110	69	57	8486131	RefSeq	NC_002020.1	인플루엔자 A 바이러스 RNA 절편 8, 완전한 게놈
10	196	71	62	8486129	RefSeq	NC_002019.1	인플루엔자 A 바이러스 RNA 절편 5, 완전한 게놈

10	177	75	59	8486127	RefSeq	NC_002018.1	인플루엔자 A 바이러스 RNA 절편 6, 완전한 게놈
10	225	70	51	8486125	RefSeq	NC_002017.1	인플루엔자 A 바이러스 RNA 절편 4, 완전한 게놈
10	300	105	48	8486164	RefSeq	NC_002204.1	인플루엔자 B 바이러스 RNA-1, 완전한 게놈
10	293	113	74	8486148	RefSeq	NC_002205.1	인플루엔자 B 바이러스 RNA-2, 완전한 게놈
10	279	94	59	8486150	RefSeq	NC_00206.1	인플루엔자 B 바이러스 RNA-3, 완전한 게놈
10	237	70	53	8486152	RefSeq	NC_002207.1	인플루엔자 B 바이러스 RNA-4, 완전한 게놈
10	232	90	82	8486154	RefSeq	NC_002208.1	인플루엔자 B 바이러스 RNA-5, 완전한 게놈
10	195	64	32	8486156	RefSeq	NC_002209.1	인플루엔자 B 바이러스 RNA-6, 완전한 게놈
10	150	47	37	8486159	RefSeq	NC_002210.1	인플루엔자 B 바이러스 RNA-7, 완전한 게놈
10	136	59	50	8486161	RefSeq	NC_002211.1	인플루엔자 B 바이러스 RNA-8, 완전한 게놈
11	1401	85	54	11528013	RefSeq	NC_001563.2	웨스트 네일 바이러스, 완전한 게놈
12	1389	145	123	9727244	RefSeq	NC_002031.1	황열병 바이러스, 완전한 게놈
13	2335	235	171	13559808	RefSeq	NC_002728.1	니파 바이러스, 완전한 게놈
14	1943	244	211	11545722	RefSeq	NC_002617.1	웨스트캐슬 질환 바이러스, 완전한 게놈
15	1174	208	128	9629357	RefSeq	NC_001802.1	인간 면역결핍 바이러스 1, 완전한 게놈
16	409	134	106	21326584	RefSeq	NC_003977.1	B형 간염 바이러스, 완전한 게놈
17	1011	169	135	9627257	RefSeq	NC_001576.1	인간 파필로마바이러스 형 10, 완전한 게놈
18	1036	325	299	10445391	RefSeq	NC_002554.1	구제역 바이러스 C, 완전한 게놈
19	1246	211	209	9790308	RefSeq	NC_001545.1	루벨리아 바이러스, 완전한 게놈
20	955	309	172	9626732	RefSeq	NC_001489.1	A형 간염 바이러스, 완전한 게놈
21	834	103	29	38371716	RefSeq	NC_005222.1	한타 바이러스, 완전한 게놈
22	837	188	98	38371727	RefSeq	NC_005217.1	신놈브레 바이러스, 완전한 게놈
23	430	100	86	23334588	RefSeq	NC_004294.1	림프구성 맥락수막염 바이러스 절편 S, 완전한 게놈

24	1404	204	122	9626460	RefSeq	NC_001437.1	림프구성 맥락수막염 바이러스 절편 L, 완전한 게놈
25	1370	284	91	51850386	DNA 일본 데이터베이스	AB189128.1	뎅기열 바이러스 타입 3 게놈 RNA, 완전한 게놈, 균주: 98902890 DF DV-3
26	1361	130	57	12659201	Genbank	AF326573.1	뎅기열 바이러스 타입 4 균주 814669, 완전한 게놈
27	1370	142	21	1944844	Genbank	AF489932.1	뎅기열 바이러스 타입 2 균주 BR64022, 완전한 게놈
28	1370	152	52	323660	Genbank	M87512.1	DENT1SEQ 뎅기열 바이러스 타입 1 게놈 바이러스
29	944	175	87	9626436	RefSeq	NC_001430.1	인간 엔테로바이러스 D, 완전한 게놈
30	945	183	122	9626433	RefSeq	NC_001428.1	인간 엔테로바이러스 C, 완전한 게놈
31	946	196	148	9627719	RefSeq	NC_001612.1	인간 엔테로바이러스 A, 완전한 게놈
32	945	364	154	21363125	RefSeq	NC_003986.1	인간 에코바이러스 1, 완전한 게놈
33	944	94	12	9626677	RefSeq	NC_001472.1	인간 엔테로바이러스 B, 완전한 게놈
34	913	283	190	9627730	RefSeq	NC_01617.1	인간 리노바이러스 89, 완전한 게놈
35	920	426	291	9626735	RefSeq	NC_001490.1	인간 리노바이러스 B, 완전한 게놈

각 바이러스 프로브를 위한 7개 복제물과 어레이 합성과 혼성화(아래 기술)를 위한 대조 서열과 함께, 상기 어레이는 전체 390,482 프로브를 함유하였다.

균일성, 민감성 및 특이성

균일성은 유사한 용융 온도를 가진 프로브들의 선택을 필요로 한다. 낮은 CG-함량을 가진 프로브들은 신뢰할 수 있는 혼성화 신호 강도를 만들지 않으며, 높은 CG-함량을 가진 프로브들은 비특이적 결합을 통해 높은 신호 강도를 만들며 내는 경향을 가진다는 것이 발견되었다. 따라서, 선택된 프로브들의 CG-함량은 40% 내지 60% 되도록 규정할 수 있다.

따라서, 본 발명은 40% 내지 60%의 CG-함량을 가진 프로브들을 선택하는 단계를 포함하여, 핵산 탐지를 위한 올리고뉴클레오티드 프로브(들)를 디자인하는 방법을 제공한다.

"혼성화"라는 용어는 올리고 프로브들이 표적 핵산에 비-공유적으로 결합하여, 안정한 이중-가닥을 형성하는 과정을 의미한다. 삼중-가닥 혼성화는 이론적으로 가능하다.

혼성화 프로브들은 표적 핵산의 상보 가닥에 염기-특이적 방식으로 결합할 수 있는 올리고뉴클레오티드이다. 특이적 혼성화는 서열이 DNA 또는 RNA의 착물 혼합물(예를 들어, 전체 세포)에 존재할 때 엄격한 조건하에서 실질적으로 특정 뉴클레오티드 서열 또는 서열들에 대한 또는 단지 특정 뉴클레오티드 서열 또는 서열들에 대한 분자의 결합, 이중화 또는 혼성화를 의미한다. 혼성화, 예를 들어, 대립 형질 유전자-특이적 프로브 혼성화는 일반적으로 엄격한 상태하에서 수행된다. 예를 들어, 염 농도가 불과 약 1 몰 농도(M) 및 적어도 25℃인 상태, 예를 들어, 750mM NaCl, 50mM 인산나트륨, 5mM EDTA, pH 7.4(5배 SSPE) 및 약 25℃ 내지 약 30℃의 온도. 혼성화는 주로 엄격한 상태, 예를 들어, 불과 1M의 염 농도 및 적어도 25℃의 온도하에서 주로 수행된다. 엄격한 상태의 경우, 예를 들어, 상기 모든 목적을 위해 전문이 참조로 포함된 샘브룩 및 러셀, Molecular Cloning: A Laboratory Manual, Cold Springs Harbor Laboratory, New York(2001)를 참조바람.

민감성은 상당한 제 2 구조를 형성할 수 없는 프로브들은 소량 mRNAs를 탐지하기 위해 선택되는 것을 필요로 한다. 따라서, 최근접-이웃 모델을 기초로 계산된 높은 자유 에너지를 가진 프로브들이 선택된다(산타루시아, J. Jr 등., 1996).

따라서, 본 발명은 핵산(들) 탐지를 위한 적어도 하나의 올리고뉴클레오티드 프로브를 디자인하는 방법을 제공하며, 상기 프로브(들)은 최근접-이웃 모델을 기초로 계산된 높은 자유 에너지를 가짐으로써 선택된다.

특이성은 바이러스 게놈에 가장 독특한 프로브들을 선택하는 것을 필요로 한다. 이것이 프로브들과 다른 비-표적 핵산들(예를 들어, 바이러스성 게놈)의 교차-혼성화를 감소시킨다. 표적 핵산(v_a 및 v_b)의 프로브(s_a) 및 프로브(s_b) 서브스트링을 고려하면, s_a는 s_a와 표적 핵산(v_b)으로부터 임의의 길이-m 서브스트링 사이의 해밍 거리 및/또는 s_a 및 s_b의 최장 공통 서브스트링을 기초로 하여 선택된다. 특히, s_a 및 s_b를 각각 바이러스성 게놈(v_a 및 v_b)로부터의 길이-m 서브스트링로 하며, v_a ≠ v_b이다.

디자인되는 프로브(들)의 길이는 본 발명의 목적을 위해 유용한 임의의 길이일 수 있다. 상기 프로브들은 100 mer 이하, 예를 들어, 20 내지 80 mer, 25 내지 60 mer, 예를 들어, 40 mer 일 수 있다. 상기 해밍 거리 및/또는 최장 공통 서브스트링은 변할 수 있다.

케인의 기준(케인, 엠.디 등., 2000)에 따라, s_a는 만일:

(a) s_a 및 바이러스성 게놈(v_b)으로부터 임의의 길이-m 서브스트링(s_b) 사이의 해밍 거리가 0.25m 이상이고;

(b) s_a 및 s_b의 최장 공통 서브스트링이 15 이하이면 v_a에 특이적이다.

해밍 거리에 대한 컷오프 값(들)은 원하는 엄격성에 따라 선택될 수 있다. 어떻게 원하는 특정 엄격성에 따라 해밍 거리 컷오프를 선택하는 지는 임의의 당업자에게 명백할 것이다. 본 명세서에 기술된 프로브 디자인의 특정 예에 따라, 발명자들은 특이적 프로브들에 대한 다른 표적 핵산에 대해 >10, 및 보존된 프로브들에 대해 <10, 바람직하게는 <5의 해밍 거리 컷오프를 사용하였다. 특이적 프로브들로는, 특이적 표적 핵산에만 혼성화하는 프로브를 나타내는 반면, 보존된 프로브들로는, 표적 핵산의 과 중 임의의 일부에 혼성화할 수 있는 프로브를 나타낸다.

따라서, 본 발명은 핵산 탐지를 위한 올리고뉴클레오티드 프로브(들)를 디자인하는 방법을 제공하며, 생물학적 샘플에 포함된 표적 핵산(v_a 및 v_b)의 프로브(s_a 및 s_b) 서브스트링을 고려하면, s_a는 만일 s_a와 표적 핵산(v_b)으로부터 임의의 길이-m 서브스트링(s_b) 사이의 거리가 0.25m 이상이고, s_a 및 s_b의 최장 공통 서브스트링이 15 이하면 선택된다.

인간 RNA로부터 교차-혼성화의 복잡성을 없이 어레이 혼성화 동역학을 연구하기 위해서, SARS 코로나바이러스 및 뎅기열 혈청형 1 바이러스 RNA는 감염된 셀 라인의 배지로부터 정제되고, 역전사되고, 바이러스-특이적 프라이머를 사용하여 PCR-증폭되었다(옹 등., 2004). 각 게놈 cDNA는 전체(시퀀싱으로 확인)가 증폭되고, Cy3으로 식별화되고 마이크로어레이 상에서 개별적으로 혼성화되었다. SARS 샘플은 SARS 타일 프로브에 잘 혼성화하였고, 모든 3,805 SARS-특이적 프로브는 상기 탐지 문턱값(평균 어레이 신호 강도 이상의 프로브 신호 강도 >2 표준 편차에 의해 측정; 도 7a) 훨씬 이상의 형광(Cy3) 신호를 나타내었다. 다른 병원체 프로브 세트와의 교차-혼성화는 최소이고, 코로나바이러스의 다른 멤버 및 피코나바이러스 및 파라믹소바이러스의 소수 종들에 대해서만 발견되었고, SARS는 다른 공지된 바이러스들과 서열 동일성을 갖지 않는다는 관찰과도 일치하였다(키시아젝 등. 2003). 한편, 뎅기열 1의 혼성화 패턴은 더욱 복잡하였다(도 7b). 먼저, 뎅기열 1 프로브 세트에 대한 혼성화는 서열 다형성 때문에 부분적으로 불완전하였다(즉, 신호가 없는 영역)는 것을 발견하였다. 어레이 상에 혼성화된 뎅기열 1 샘플은 1944년에 하와이 사람 분리물(ATCC 카달로그 #VR-1254)로부터 배양되었고, 어레이 프로브 세트는 1990년에 싱가포르에서 분리된 균주 S275/90의 서열을 기초로 한다(퓨 등. 1992). cDNA 표적과 혼성화에 실패한 뎅기열 1 프로브는 표적 서열과 적어도 3개의 미스매치(15-염기 거리)를 포함하였다. 다음으로, 어레이 상에 존재하는 거의 모든 바이러스성 프로브 세트, 특히 다른 플라비바이러스 멤버들의 프로브와 어느 정도 발생된 교차-혼성화는 4 뎅기열 혈청형이 60-70% 동일성을 공유한다는 사실과 일치한다는 것을 발견하였다. 혼성화 신호 결과 및 어닐링 특이성 사이의 관계를 이해하기 위해서, 유사성의 2가지 기준: 프로브 해밍 거리(HD) 및 최대 근접 일치(MCM)를 사용하여 모든 프로브 서열들과 각 바이러스성 게놈을 먼저 비교하였다. HD는 두 서열들의 전체 유사성 거리를 측정하는데, 유사한 서열들은 낮은 점수를 가진다(해밍, 1950). MCM은 정확하게 일치하는 연속된 염기들의 수를 측정하는데, 유사한 서열들은 높은 점수를 가진다(케인 등. 2000).

하와이 뎅기열 1 분리물에 대한 각 프로브를 위한 HD 및 MCM 점수를 계산하였고 이런 점수들은 프로브 신호 강도에 각각 반비례와 정비례로 상관되어 있다는 것을 발견하였다. 하와이 뎅기열 1 게놈, 즉, HD = 2(n=942) 또는 MCM = 27(n=627)에 높은 유사성을 가진 어레이 상의 모든 프로브들은 백그라운드 이상의 중간 신호 강도 3 로그를 혼성화되었다. 비록 98%의 프로브들이 0-4의 낮은 HD 범위 또는 18-40의 높은 MCM 범위에서 탐지가능할 수 있지만, 중간 프로브 신호 강도는 서열 거리의 매 증가에서 감소되었다. 중간 신호 강도는 HD=7 및 MCM=15에서, 각각 43% 및 46% 탐지가능한 프로브들로 백그라운드 레벨로 급격하게 감소하였다. 대다수의 프로브들(>96%, n>51,000)은 8 내지 21의 HD 점수 및/또는 0 내지 15의 MCM 점수를 가지며, 이의 1.23% 및 1.57%를 각각 탐지할 수 있었다.

이상적은 교차-혼성화 유사성 문턱값은 특이적 병원체를 동정하는 모든 프로브들은 병원체 서열에서 다형성의 존재하에서도, 백그라운드 노이즈 이상의 탐지가능한 신호 강도를 항상 가질 수 있는 것이다. 최적의 유사성 문턱값 HD = 4 및 MCM = 18에서, >98%의 프로브들은 상기 백그라운드 이상의 중간 신호 강도 2 로그를 가지고 탐지할 수 있는 반면에, 문턱값을 HD = 5 및 MCM = 17로 1 단계 하향조절하면 단지 ~85% 프로브 탐지와 백그라운드 이상의 중간 신호 강도 ~1.2 로그를 초래할 수 있을 것이다(도 8).

교차-혼성화를 예측하기 위해 이런 최적 HD 및 MCM 문턱값을 사용하여, 모든 프로브들을 소정의 병원체를 가장 탐지할 것 같은 그룹들 속에 저장하였다. 우리는 이런 그룹들을 특이적 지표 프로브 세트(SPSs)로 부르며 어레이 상에 나타낸 35 병원체 게놈의 각각에 대한 SPSs를 정의하였다(표 2).

각 병원체 지표 프로브 세트(SPS)는 상위 20번째 백분위수의 AES[1열]를 가진 이의 프로브들을 포함한다. 40-60%의 GC[2열]를 갖지 않거나 인간 게놈[3열]에 대한 유사성을 갖지 않는 프로브들은 제거하였다. HD 및 MCM[4열]을 기초로 한 병원체에 교차-혼성화될 다른 병원체들로부터 유도된 프로브들은 SPS[5열]에 첨가하였다.

	병원체	과	전체 타일링 프로브	AES (1)	GC 함량 필터 (2)	인간 게놈 필터 (3)	남은 여과된 프로브 의 수	예상된 교차-혼성화 프로브 의 수( HD ≤4 및 MCM ≥18) (4)	SPS 에 서 프로 브의 수 (5)
1	LCMV	아레나바이러스	1283	574	1	18	55	0	555
2	한탄	분야바이러스	834	131	6	22	103	2	105
3	심브로	분야바이러스	837	225	8	29	188	3	191
4	229E	코로나바이러스	3495	196	2	12	182	2	184
5	OC43	코로나바이러스	3937	663	16	43	604	3	607
6	SARS	코로나바이러스	3805	672	6	78	588	3	591
7	뎅기열 혈청형1	플라비바이러스	1370	201	2	47	152	50	202
8	뎅기열 혈청형2	플라비바이러스	1370	178	0	36	142	71	213
9	뎅기열 혈청형3	플라비바이러스	1370	336	1	51	284	69	353
10	뎅기열 혈청형4	플라비바이러스	1361	172	1	41	130	44	174
11	일본 뇌염바이러스	플라비바이러스	1404	274	6	64	204	40	244
12	웨스트 네일	플라비바이러스	1401	111	4	22	85	22	107
13	황열병	플라비바이러스	1389	151	0	6	145	10	155
14	B간염	헤파드나바이러스	409	146	2	10	134	0	134
15	인플루엔자 A	오르소믹소바이러스	1582	601	2	46	553	0	553
16	인플루엔자 B	오르소믹소바이러스	1822	718	7	69	642	2	644

17	인간 파필로마바이러스 타입 10	파필로마바이러스	1011	177	1	7	169	0	169
18	hMPV	파라믹소바이러스	1705	375	23	60	292	8	300
19	뉴캐슬 병	파라믹소바이러스	1943	252	0	8	244	0	244
20	니파	파라믹소바이러스	1943	252	0	8	244	0	244
21	파라인플루엔자 1	파라믹소바이러스	1995	625	13	62	550	3	553
22	파라인플루엔자 2	파라믹소바이러스	2002	838	31	45	762	0	762
23	파라인플루엔자 3	파라믹소바이러스	1979	834	29	104	701	9	710
24	RSV B	파라믹소바이러스	1948	655	52	66	537	4	541
25	에코바이러스1	피코나바이러스	945	439	3	72	364	59	423
26	엔테로바이러스A	피코나바이러스	946	205	0	9	196	21	217
27	엔테로 바이러 스B	피코나바이러스	944	109	0	15	94	47	141
28	엔테로 바이러 스C	피코나바이러스	945	202	0	19	183	31	214
29	엔테로 바이러 스D	피코나바이러스	944	191	0	16	175	15	190
30	구제역	피코나바이러스	1036	356	26	5	325	0	309
31	A간염	피코나바이러스	955	355	9	37	309	0	309
32	리노바이러스 A (타입89)	피코나바이러스	913	355	9	37	309	0	309
33	로노바이러스 B	피코나바이러스	920	464	3	35	426	11	437
34	HIV1	레트로바이러스	1174	229	4	17	208	0	208
35	루벨라	토가바이러스	1246	748	534	3	211	0	211
		전체	53555				10955		11497

각 병원체들의 SPS는 게놈 서열(HD = 0, MCM = 40)로부터 유도된 타일링 프로브뿐만 아니라 다른 병원체들(HD = 4, MCM = 18)로부터 유도된 교차-혼성화 프로브를 포함하였다.

다음으로 우리의 SPS 프로브의 성능에 영향을 미칠 수 있는 다른 비-특이적 혼성화 현상을 고려하였다. 예를 들어, 프로브 신호와 % GC 함량 사이의 일반적인 관계를 관찰하였다. 이전 관찰과 일치함에 따라, <40% GC의 프로브는 감소된 신호 강도를 일으키는 반면, >60% GC 함량의 프로브는 더 높은 신호 강도를 나타내었다(왕 등. 2004; 마스코스 및 서든, 1993). 따라서, 추가 선별 필터로서 % GC 함량을 사용하였고, 최적의 HD 및 MCM 값에 불구하고, <40% GC 및 >60% GC를 가진 프로브들을 우리의 SPSs로부터 제거하였다.

인간 게놈에 대한 서열 유사성

탐지될 표적 핵산이 인간(예를 들어, 바이러스 게놈을 함유하는 인간 샘플)으로부터 추출되는 경우에, 인간 게놈과 높은 상동 관계를 가진 프로브들을 피해야 한다. 따라서, 표적 핵산(v_a)에 특이적인 길이-m의 임의의 프로브(s_a)의 경우에, 프로브(s_a)는 표적 핵산과 다른 핵산의 임의의 영역과 임의의 영역과 어떠한 일치점도 갖지 않는 경우 선택되며 만일 프로브(s_a) 길이-m이 표적 핵산과 다른 핵산과 일치점을 갖는 경우, 최소의 최대 정렬 길이 및/또는 최소수의 일치점을 가진 프로브(s_a) 길이-m가 선택된다. 특히, 임의의 길이-m 프로브(s_a)의 경우에, s_a와 인간 게놈의 일치점들은 BLAST 알고리즘으로 발견된다(알트츌, 에스, 에프., 등, 1997). (W = 15)의 BLAST 단어 크기와 100의 예상 값은 모든 일치점을 찾아내는데 사용하였다. s_a는 인간 게놈과 어떠한 일치점도 갖지 않는 경우, 즉, v_a에 특이적인 경우에 선택된다. 그러나, 만일 v_a의 모든 길이-m 서브스트링은 인간 게놈과 일치점을 갖는 경우, 최소의 최대 정렬 길이와 최소수의 일치점을 가진 것들이 선택되었다.

게다가, 인간 서열들과의 교차-혼성화는 결과를 혼동시킬 수 있기 때문에, 15의 단어 크기를 사용하는 BLAST(알트츌 등. 1997)에 의해 모든 프로브들을 인간 게놈 어셈블리(17개 형성)와 비교하였다(International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409(6822), 860-921(2001).). 100의 예상 값을 가진 프로브들은 SPSs로부터 추가로 여과되었다(상기 표 2 참조).

따라서, 본 발명은 핵산 탐지를 위한 올리고뉴클레오티드(들)를 디자인하는 방법을 제공하며, 표적 핵산(v_a)에 특이적인 길이-m의 임의의 프로브(s_a)의 경우에, 프로브(s_a)는 표적 핵산과 다른 핵산의 임의의 영역과 임의의 영역과 어떠한 일치점도 갖지 않는 경우 선택되며, 만일 프로브(s_a) 길이-m이 표적 핵산과 다른 핵산과 일치점을 갖는 경우, 최소의 최대 정렬 길이 및/또는 최소수의 일치점을 가진 프로브(s_a) 길이-m가 선택된다.

또한, 올리고뉴클레오티드 프로브(들)의 디자인은 본 발명에 따른 AES에 의해 수행될 수 있다. 특히, 본 발명은 프로브들을 선택 및/또는 디자인하는 방법을 제공하며 여기서 표적 핵산의 위치(i)에서 프로브(p_i)는 만일 p_i가 증폭된 표적 핵산의 위치(i)에 혼성화하는 것으로 예상되면 선택된다.

특히, 선택된 영역(들)에 혼성화할 수 있는 올리고뉴클레오티드 프로브(들)는 다음 기준 중 적어도 하나에 따라 선택되고 디자인될 수 있다:

(a) 상기 선택된 프로브(들)는 40% 내지 60%의 CG-함량을 가진다;

(b) 상기 프로브(들)는 최근접-이웃 모델을 기초로 계산된 최고 자유 에너지를 가짐으로써 선택된다;

(c) 표적 핵산(v_a 및 v_b)의 프로브(s_a 및 s_b) 서브스트링을 고려하면, s_a는 s_a 및 표적 핵산(v_b)으로부터 임의의 길이-m 서브스트링 s_b 사이의 해밍 거리(hamming distance) 및/또는 s_a 및 프로브 s_b의 최장 공통 서브스트링(longest common substring)을 기초로 선택된다;

(d) 표적 핵산(v_a)에 특이적인 길이-m의 임의의 프로브(s_a)의 경우에, 프로브(s_a)는 표적 핵산과 다른 핵산의 임의의 영역과 어떠한 일치점도 갖지 않는 경우 선택되며 만일 프로브(s_a) 길이-m이 표적 핵산과 다른 핵산과 일치점을 갖는 경우, 최소의 최대 정렬 길이 및/또는 최소수의 일치점을 가진 프로브(s_a) 길이-m가 선택된다; 및/또는

(e) 표적 핵산의 위치(i)에서 프로브(p_i)는 증폭된 표적 핵산의 위치(i)에 혼성화하는 것으로 예상된다면 선택된다.

따라서, 상기한 둘 이상의 기준은 상기 올리고뉴클레오티드 프로브(들)를 디자인하는데 사용될 수 있다. 예를 들어, 상기 프로브(들)는 모든 기준 (a) 내지 (e)를 사용함으로써 디자인될 수 있다. 본 명세서에서 명확하게 언급되지 않으나 당업자의 지식 범위 내에 있는 다른 기준들이 사용될 수 있다.

특히, 기준 (e)하에서, 표적 핵산(v_a)의 위치(i)에 있는 프로브(p _i )는 P(p _i ｜v _a )> λ인 겨우 선택되며, 여기서 λ는 0.5이고 P(p _i ｜v _a )는 p _i 가 표적 핵산(v_a)의 위치(i)에 혼성화하는 확률이다. 더욱 구체적으로, λ는 0.8이다.

다른 태양에 따라, 본 발명은 상기한 방법을 제공하며, P(p _i ｜v _a )

P(X≤x _i ) =

, 여기서 X는 v_a의 모든 프로브의 증폭 효율 점수(AES) 값을 나타내는 랜덤 변수이고, k는 v_a에 있는 프로브의 수이고 c _i 는 AES 값이 ≤ x _i 인 프로브의 수이다.

다른 태양에 따라, AES는 랜덤 PCR에 의해 샘플의 랜덤 증폭을 용이하게 하도록 랜덤 프라이머 태그를 디자인하는데 사용될 수 있다(병원체의 탐지, 유전자 발현의 탐지, 클론 DNA 라이브러리 건설과 같은 용도 및 다른 응용분야에서의 사용을 위해 당업자는 랜덤 PCR을 사용할 수 있다).

지지체 상에 올리고뉴클레오티드 프로브의 합성

본 발명의 다른 태양에 따라, 상기한 대로 적어도 하나의 올리고뉴클레오티드 프로브(들)를 선택 및/또는 디자인하는 방법은 선택되고 및/또는 디자인된 프로브(들)의 제조 단계를 더 포함한다. 프로브를 디자인하는 단계는 이의 서열을 이해하는 단계 및/또는 임의의 적절한 수단, 예를 들어, 소프트웨어를 사용하여 프로브를 디자인하는 단계를 포함한다. 프로브를 제조하는 단계는 이의 물리적 제조를 포함한다. 프로브는 당업계에 공지된 임의의 표준 방법에 따라 제조될 수 있다. 예를 들어, 샘브룩 및 러셀, 2001에 기술된 것과 같이 프로브들은 화학적으로 합성되거나 클로닝에 의해 제조될 수 있다.

본 발명에 따른 임의의 실시예에 따라 제조된 지지체, 예를 들어, 마이크로어레이 또는 바이오칩이 제공된다.

본 발명의 임의의 방법에 따라 디자인되고 제조된 프로브(들)는 용액에서 사용될 수 있거나 불용성 지지체 상에 위치될 수 있다. 예를 들어, 프로브(들)는 당업계 공지된 임의의 기술에 따라 불용성 지지체 상에 도포되고, 얼룩지거나 인쇄될 수 있다. 상기 지지체들은 고체 지지체 또는 겔일 수 있다. 고체 지지체 또는 겔 상에 도포된 프로브들을 가진 지지체는 마이크로어레이 또는 바이오칩일 수 있다.

더욱 구체적으로, 본 발명은 주요 조직 샘플로부터 제조된 PCR-증폭된 cDNA로부터 병원체, 예를 들어 바이러스성 및/또는 박테리아성 병원체의 빠른 탐지와 동정을 위한 올리고 마이크로어레이 혼성화-기초 방법을 제공한다.

다음 설명에서, 프로브들의 제조는 마이크로어레이를 구체적으로 참조하여 이루어진다. 그러나, 지지체뿐만 아니라 프로브들은 본 발명의 전체 내용을 걸쳐 임의의 설명에 따라 제조될 수 있다. 특히, "어레이"는 합성적으로 또는 생합성적으로 제조될 수 있는 분자들의 의도적으로 생성된 집합이다. 어레이 속의 분자들은 서로 동일하거나 다를 수 있다. 상기 어레이는, 예를 들어, 가용성 분자들의 라이브러리; 수지 비드, 실리카 칩 또는 다른 고체 지지체에 고정된 화합물들의 라이브러리와 같은 다양한 형식을 가질 수 있다. 어레이 플레이트 또는 플레이트는 각 어레이가 액체의 통로를 막는 물리적 장벽에 의해 다른 어레이로부터 분리되는 복수의 어레이들을 가지며 웰로 불리는 지역 또는 공간을 형성하는 몸체이다.

마이크로어레이 상에서 샘플 제조 및 혼성화

생물학적 샘플은 포유류, 예를 들어, 인간으로부터 취한 임의의 샘플일 수 있다. 생물학적 샘플은 혈액, 체액, 타액, 소변, 대변 등일 수 있다. 상기 생물학적 샘플은 증폭 단계를 수행하기 전에 생물학적 샘플에 포함된 핵산을 제거하도록 처리될 수 있다. 상기 표적 핵산은 탐지하려는 임의의 핵산일 수 있다. 탐지될 표적 핵산은 생물학적 샘플의 핵산에 외인성인 적어도 하나의 핵산일 수 있다. 따라서, 만일 생물학적 샘플이 인간의 것이면, 탐지된 외인성 표적 핵산(만일 생물학적 샘플에 존재하는 경우)은 인간의 것이 아닌 핵산이다. 본 발명의 태양에 따라, 탐지될 표적 핵산은 적어도 하나의 병원체 게놈 또는 이의 절편이다. 상기 병원체 핵산은 적어도 하나의 바이러스, 기생충 또는 박테리아의 핵산 또는 이의 절편일 수 있다.

본 발명의 태양에 따라, 표적 핵산 탐지 분석 방법이 제공된다. 탐지되기 원하는 생물학적 샘플로부터의 표적 핵산(들)은 임의의 표적 핵산, RNA 및/또는 DNA일 수 있다. 예를 들어, mRNA 및/또는 cDNA. 더욱 구체적으로, 탐지될 표적 핵산은 병원체 또는 비-병원체일 수 있다. 예를 들어, 표적 핵산은 적어도 하나의 바이러스, 적어도 하나의 박테리아 및/또는 적어도 하나의 기생충의 게놈 또는 이의 절편일 수 있다. 선택 및/또는 제조된 프로브들은 당업자에게 공지된 임의의 표준 기술에 따른 지지체 상에 위치, 도포 및/또는 고정될 수 있다. 지지체는 불용성 지지체, 예를 들어, 고체 지지체일 수 있다. 특히, 마이크로어레이 및/또는 바이오칩.

특정 실시예에 따라, RNA 및 DNA는 설정된 프로토콜 및 상업용 키트를 사용하여, 예를 들어, 조직, 혈청, 비인두 세척액, 대변과 같은 환자 샘플로부터 추출되었다. 예를 들어, 핵산 추출을 위한 퀴아겐 키트(Qiagen Kit)가 사용될 수 있다. 선택적으로, 페놀/클로로포름은 DNA 및/또는 RNA의 추출에 사용될 수 있다. 샘브룩 및 러셀, 2001에 개시된 대로 당업계에 공지된 임의의 기술이 사용될 수 있다. RNA는 보란더 등., 1992 및 왕 등., 2003에 의해 개시된 프로토콜을 기초로 하여, 태그가 달린 랜덤 프라이머를 사용하여 cDNA에 대해 역전사되었다. 그런 후에 cDNA는 랜덤 PCR에 의해 증폭되었다. 샘플의 분쇄화, 레이블링 및 마이크로어레이에 대한 혼성화는 왕 등., 2004에 개시된 대로 수행하였다.

마이크로어레이 합성

실시예에 개시된 특정 실험에 따라, 본 발명자들은 싱가폴의 바이러스서 질환의 가장 일반적인 원인을 나타내는 여러 바이러스성 게놈을 선택하였다. 겐뱅크로부터 다운받은 완전한 게놈 서열들을 사용하여, 전체 게놈을 가로질러 덮으며 프로브들과 5개 염기 해상도에서 겹치는 40-mer 프로브를 생성하였다. 각 바이러스 프로브의 7개 복제물을 님블레겐 기술(누웨이서, 이.에. 등., 2002)을 사용하여 마이크로어레이 상에 직접 합성하였다. 상기 프로브들은 혼성화 인공물의 효과를 최소화하기 위해 마이크로어레이 상에 무작위로 분포되었다. 프로브들에 대한 샘플의 비특이적 혼성화를 제어하기 위해, 10,000 올리고뉴클레오티드는 디자인되고 마이크로어레이 상에서 합성되었다. 이런 10,000 올리고뉴클레오티드는 인간 게놈 또는 병원체 게놈과 어떠한 서열 유사성도 갖지 않는다. 이들은 40-60% CG 함량을 가진 랜덤 프로브들이었다. 이런 프로브들은 백그라운드 신호 강도를 측정하였다. 양성 대조군으로서, 면역 반응에서 공지되거나 암시된 기능들을 가진 인간 게놈에 대한 400 올리고뉴클레오티드 프로브는 어레이 상에 합성하였다. 식물 바이러스, PMMV는 대략 380,000 프로브의 전체에 대해, 음성 대조군으로 포함되었다. 다음 설명에서, 본 발명은 병원체 탐지 칩 분석(PDC로도 불림)을 참조하여 더욱 구체적으로 기술될 것이다. 그러나, 상기 분석(방법)은 이런 특정 실시예에 한정되지 않고, 본 발명의 전체 내용에서 개시한 대로 본 발명의 여러 태양을 포함한다.

표적 핵산(들)의 탐지 방법

다른 태양에 따라, 본 발명은 다음 단계를 포함하는 적어도 하나의 표적 핵산을 탐지하는 방법을 제공한다:

(i) 적어도 하나의 생물학적 샘플을 제공하는 단계;

(ii) 생물학적 샘플에 포함된 핵산(들)을 증폭하는 단계;

(iii) 만일 존재하면, 생물학적 샘플 속의 적어도 하나의 표적 핵산에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드 프로브를 제공하는 단계, 여기서 상기 프로브(들)는 개시된 본 발명의 임의의 태양에 따른 방법을 사용하여 디자인 및/또는 제조된다; 및

(iv) 상기 프로브(들)를 증폭된 핵산에 접촉하는 단계 및/또는 상기 표적 핵산(들)에 혼성화된 프로브(들)를 탐지하는 단계.

상기 증폭 단계 (ii)는 랜덤 프라이머의 존재하에서 수행될 수 있다. 예를 들어, 상기 증폭 단계 (ii)는 적어도 하나의 랜덤 포워드 프라이머, 적어도 하나의 랜덤 리버스 프라이머 및/또는 2 이상의 랜덤 프라이머의 존재하에서 수행될 수 있다. 더욱 구체적으로, 적어도 하나의 랜덤 포워드 프라이머 및/또는 적어도 하나의 랜덤 리버스 프라이머의 존재하에서 수행될 수 있다. 예를 들어, 상기 증폭 단계 (ii)는 2 이상 랜덤 프라이머의 존재하에서 수행될 수 있다. 당업계에 공지된 임의의 증폭 방법이 사용될 수 있다. 예를 들어, 상기 증폭 방법은 RT-PCR이다.

특히, 증폭 효과 점수(AES)를 기초로 한 표적 핵산에 혼성된 프로브(들)를 탐지하는 방법을 개발하였다. 이것은 본 발명에 따른 알고리즘으로 불릴 수 있다. 특히, 표적 핵산(v_a)의 위치(i)에 결합하는 포워드 프라이머 및/또는 위치(j)에 결합하는 랜덤 프라이머는 표적 핵산(v_a)의 각 위치(i)에 대한 증폭 효율 점수(AES _i )를 가진 프라이머들 중에서 선택된다:

여기서

상기 증폭 단계는 포워드 및 리버스 프라이머를 포함할 수 있고 포워드 및 리버스 프라이머의 각각은 5'-3' 방향으로 고정된 프라이머 헤더와 가변성 프라이머 테일을 포함할 수 있고 적어도 가변성 테일은 상기 표적 핵산(v_a)의 일부에 혼성화된다. 특히, 상기 증폭 단계는 SEQ ID NO:1-7의 뉴클레오티드 서열을 가진 포워드 및/또는 리버스 랜덤 프라이머 또는 이의 변형체 또는 유도체를 포함할 수 있다.

본 발명에 따른 임의의 방법에 따라 디자인 및/또는 제조된 프로브(들)는 용액에서 사용될 수 있거나 불용성 지지체 상에 위치될 수 있다. 예를 들어, 상기 프로브(들)는 당업계 공지된 임의의 기술에 따라 불용성 지지체 상에 도포되고, 얼룩지거나 인쇄될 수 있다. 그 위에 도포된 프로브들을 가진 상기 지지체들은 고체 지지체 또는 겔일 수 있다. 특히, 상기 지지체는 마이크로어레이 또는 바이오칩일 수 있다.

예를 들어, 탐지 단계(iv)에서, 생물학적 샘플 속의 표적 핵산의 존재는 t-검정≤ 0.1 및/또는 앤더슨-달링 검정 값 ≤0.05 및/또는 ≥ 1.0, 바람직하게는 ≥ 5.0의 가중 쿨백-레이블러 발산 점수로 주어진다. 특히, t-검정 값은 ≤ 0.05이다.

다른 태양에 따라, 본 발명은 표적 핵산(v_a)에 프로브의 혼성화를 탐지하는 단계를 포함하여 표적 핵산(v_a)의 존재를 측정하는 방법을 제공하며 v_a에 혼성화되는 프로브들의 신호 강도의 평균은 프로브들(

v_a)의 평균보다 통계적으로 높아서, v_a의 존재를 나타낸다. 특히, v_a에 혼성화되는 프로브들의 신호 강도의 평균은 프로브들(

v_a)의 신호 강도보다 더욱 양으로 비대칭이어서, v_a의 존재를 나타낸다. 더욱 구체적으로, 생물학적 샘플 속의 표적 핵산의 존재는 t-검정 ≤ 0.1의 값 및/또는 앤더슨-달링 검정 값 ≤0.05 및/또는 ≥ 1.0, 바람직하게는 ≥ 5.0의 가중 쿨백-레이블러 발산 점수에 의해 주어진다. 예를 들어, t-검정 값은 ≤ 0.05일 수 있다.

(i) 적어도 하나의 생물학적 샘플을 제공하는 단계;

(ii) 생물학적 샘플에 포함된 핵산(들)을 증폭하는 단계;

v_a)의 신호 강도보다 더욱 양으로 비대칭이어서, 생물학적 샘플 속의 v_a의 존재를 나타낸다. 특히, 단계 (iv)에서, 생물학적 샘플 속의 표적 핵산의 존재는 t-검정 ≤ 0.1의 값 및/또는 앤더슨-달링 검정 값 ≤0.05 및/또는 ≥ 1.0, 바람직하게는 ≥ 5.0의 가중 쿨백-레이블러 발산 점수에 의해 주어진다. t-검정 값은 ≤ 0.05일 수 있다. 탐지될 핵산은 생물학적 샘플의 핵산에 외인성인 핵산이다. 탐지될 표적 핵산은 적어도 하나의 병원체 게놈 또는 이의 절편일 수 있다. 병원체 핵산은 적어도 하나의 바이러스, 기생충 또는 박테리아의 적어도 하나의 핵산 또는 이의 절편일 수 있다. 특히, 만일 생물학적 샘플을 인간으로부터 얻으면, 만일 존재하면 생물학적 샘플에 포함된 표적 핵산은 인간으로부터 얻은 것이 아니다. 상기 프로브들은 불용성 지지체 위에 놓일 수 있다. 상기 지지체는 마이크로어레이 또는 바이오칩일 수 있다.

RSV B의 주형 서열을 사용하는 검정

바이러스의 다른 영역에 의해 나타낸 신호 강도의 변화가 이에 상응하는 증폭 효과 점수와 직접적인 상관관계를 가지는 지를 확인하기 위해서, 전체 5회 마이크로어레이 실험을 인간에 영향을 미치는 통상적인 병원체, 인간 호흡기 합포체 바이러스 B(RSV B)에 대해 수행하였다.

다음으로, 상기한 대로, 포로브 디자인 기준은 NCBI(NC_001781)로부터 얻은 RSV B의 주형 서열에 적용하였다. 이것이 각 마이크로어레이 상에 얼룩진 1948 프로브들을 초래하였다. RSV B를 위한 증폭 효율 지도는 실제 실험 전에 계산하였고 도 2에 도시되었다. 이 도면은 평균 AES보다 높은 AES를 가지며 더 높은 확률의 증폭을 가진 RSV B의 영역을 나타내는 피크를 나타낸다.

인간 호흡기 합포체 바이러스 B(RSV B)를 함유하는 5개 샘플을 사용하여, 개개의 마이크로어레이 실험을 수행하였다. 이런 실험에 대한 최종 신호 강도들은 도 3에 도시된다.

각 실험의 경우, 1948 프로브의 신호 강도들은 감소하는 순서로 나열하였고 이들의 AES 값과 관련이 있었다. p-값은 평균 <2.2e^-16인 것으로 발견되었다. 이것은 RSV B의 위치(i)에서 프로브의 신호 강도와 AES _i 의 상관관계는 전혀 임의적이지 않다는 것을 나타낸다. 추가 조사들은 전체 5회 실험에서 높은 신호 강도를 지속적으로 생산했던 약 300 프로브들은 90^th 백분위수 레벨로 증폭 효율 점수를 가진다.

개시한 증폭 효율 모델이 RSV B 게놈에 잘 작용하는 것을 보여주었기 때문에, 본 발명에 따른 모델은 다른 바이러스성 게놈에도 확장될 수 있다는 것을 보여주는 것이 바람직하다. 다른 마이크로어레이 실험은 인간 메타폐렴 바이러스(HMPV)에 대해 수행되었다. 이번에는, 1705 프로브가 마이크로어레이 상에 있었다. 다시, HMPV에 대한 증폭 효율 지도를 계산하였다. 이 실험에서, 신호 강도와 증폭 효율 점수 사이의 상관관계 검정은 1.335e^-9의 p-값을 나타내었다.

따라서, 본 발명에 따른 증폭 효율 모델은 개시된 실험 셋업에서 바이러스성 게놈의 다른 영역에 의해 발생된 신호들의 상대 강도를 예측할 수 있다. 낮은 증폭 효율 점수를 가진 영역들로부터의 프로브들은 없거나 낮은 신호 강도를 형성하는 높은 경향을 가진다. 이것은 마이크로어레이 상에 거짓 음성을 초래할 것이다. 이런 프로브들은 마이크로어레이 데이터의 분석을 복잡하게 할 것이고 낮은 신호 강도를 가진 프로브가 이의 표적 게놈 때문에 존재하지 않거나 증폭되지 않기 때문에 더욱 복잡해진다. 이와 같이, 상당히 높은 증폭 효율 점수를 가진 영역들의 프로브들은 랜덤 프라이머를 사용하여 RT-PCR 공정에 의해 발생된 부정확성을 최소화하도록 선택되어야 한다.

바이러스(v_a)에 대한 프로브 선택에 대한 증폭 효율 점수에 대한 문턱값은 AES 값 v_a의 누적 분포 함수에 의해 결정된다. X를 v_a의 모든 프로브의 AES 값을 나타내는 랜덤 변수로 한다. k를 v_a의 프로브들의 수로 한다. 그런 후에, AES 값은

이하 또는 동일하다는 확률을 표시하며, c는 x 이하 또는 x와 동일한 AES 값을 가진 프로브의 수이다. v_a의 위치(i)에 있는 프로브(p _i )의 경우, x _i 를 상응하는 AES 값으로 한다. 프로브의 신호 강도가 이의 AES 값과 관련성이 높기 때문에, p _i 가 v_a의 존재하에서 높은 신호 강도를 가지는 확률인 P(p _i ｜v _a )는 P(X≤x _i )라고 생각하였다.

프로브 선택의 경우에, 프로브(p _i )는 만일 P(p _i ｜v _a )> λ인 경우 선택된다. 실험에서, λ = 0.8로 설정하였다.

따라서, 본 발명은 프로브 디자인 및/또는 표적 핵산 탐지 방법을 제공하며 표적 핵산(v_a)의 위치(i)에 프로브(p _i )는 P(p _i ｜v _a ) > λ, λ는 0.75인 경우 선택되고 P(p _i ｜v _a )는 p _i 가 v_a의 존재하에서 높은 신호 강도를 갖는 확률이다. 더욱 구체적으로, P(p _i ｜v _a )

P(X≤x _i ) =

, 여기서 X는 v_a의 모든 프로브의 증폭 효율 점수(AES) 값을 나타내는 랜덤 변수이고, k는 v_a에 있는 프로브들의 수이고 c _i 는 AES 값이 x _i 이하 또는 동일한 프로브들의 수이다.

표적 핵산 탐지 분석

다음 설명에서, 본 발명은 병원체 탐지 칩 분석(PDC로 불림)을 참조하여 더욱 구체적으로 개시될 것이다. 그러나, 분석(방법)은 이런 특정 실시예에 한정되지 않으며, 본 출원의 모든 내용을 통해 개시된 대로 본 발명의 여러 태양을 포함한다. 따라서, 특히, 바이러스성 게놈 V={v ₁ , v ₂ ,..., v _n }의 세트를 위해 디자인된 길이-m 프로브 P={p ₁ , p ₂ ,..., p _i }의 세트에 의한 PDC를 고려하면, 병원체 탐지 칩 분석 문제는 칩 데이터를 기초로 한 샘플에 존재하는 바이러스를 탐지하는 것이다. 여기서 칩 데이터는 PDC에 대한 프로브 신호에 의해 제공된 수집된 정보를 의미한다. 따라서, 칩 데이터 D={d ₁ , d ₂ ,..., d _x }는 PDC에 대한 프로브 세트 P의 상응하는 신호들의 세트이다.

샘플을 고려하면, 어떤 병원체가 샘플에 존재하는가, 만일 존재한다면, 얼마나 많은 다른 병원체들이 존재하는지는 알려지지 않았다. 그러나, 만일 바이러스(v_a)는 정말 샘플에 있다면, 그런 후에, v_a의 프로브들의 신호 강도들은 다른 바이러스들의 신호 강도들과 현저하게 달라야 한다. 구체적으로, v_a의 프로브들의 더 높은 비율은 다른 바이러스들과 비교하면 높은 신호 강도를 가져야 한다. 한편, va의 프로브들의 신호 강도들의 평균은 프로브들(

v_a)의 신호 강도보다 통계적으로 더 높아야 한다.

따라서, 본 발명은 방법을 제공하며 v_a에 혼성화하는 프로브들의 신호 강도들의 평균은 프로브들(

v_a)의 평균보다 통계적으로 높고, 이는 생물학적 샘플에 v_a의 존재를 나타낼 수 있다.

그러나, 통계적으로 더 높은 평균을 갖는 것은 v_a가 샘플에 존재한다고 결론내리기에 불충분할 수 있다. 바람직하게는, 추가 단계가 필요할 수 있다. 높은 신호 강도들을 가진 PDC에 대한 프로브들의 비율과 높은 신호 강도들을 가진 프로브들(

v_a)의 비율의 상대적 차이를 계산하는 것이 필요하다. 이것은 프로브들(

v_a)의 신호 강도들의 분포는 프로브들(

v_a)의 신호 강도보다 더욱 양으로 비대칭된다는 정보를 기초로 한다(도 4a의 화살표 참조. 비교를 위해 도 4b를 참조).

상기 관찰을 기초로 하여, 바이러스들의 존재에 대한 칩 데이터(D)는 다음과 같이 분석하였다. 각 바이러스 v_a

V의 경우에, 프로브들(

v_a)의 신호 강도들의 평균은 프로브들(

v_a)의 신호 강도들의 평균보다 통계적으로 높다는 것을 측정하기 위해 원-테일 t-검정(고울던, 씨.에이치., 1956)를 사용하였다. 따라서, t-통계량을 계산하였다:

여기서 μ _a , σ ² _a 및 n _a 는 각각 프로브들(

v_a)의 신호 강도들의 평균, 차이 및 크기이고 μ _a' , s ² _a' 및 n _a' 는 각각 프로브들(

v_a)의 평균, 차이 및 크기이다.

차이의 현저함을 검정하기 위해서, 유의 수준을 0.05로 설정하였다. 이것은 프로브들(

v_a)의 신호 강도들의 평균은 프로브들(

v_a)의 신호 강도들의 평균보다 높다는 가장은 t _a <0.05의 p-값인 경우에만 허용될 수 있다는 것을 의미한다. 이런 경우에, v_a는 샘플에 존재할 것이다.

발명자들이 바이러스의 신호 강도들의 분포가 다른 바이러스들과 다른 지를 알게 해주는 t-검정는 특정 바이러스가 샘플 속에 있는 지를 측정하는데 충분하지 않을 수 있다. 또한 두 분포가 얼마나 유사하고 또는 다른지를 아는 것이 필수적이다. 실제 분포와 모델 분포 사이의 유사성을 측정하는데 사용될 수 있는 기준은 쿨백-레이버 발산(쿨백 및 레이버, 1951)(상대 엔트로피로도 알려짐)이다. 본 출원에서, v_a의 프로브들의 신호 강도의 확률 분포는 실제 분포인 반면에 P의 모든 프로브들의 신호 강도들의 확률 분포는 모델 분포이다. P _a 를 v_a의 프로브들의 세트로 한다. P _a 및 P의 신호 강도들의 확률 분포의 쿨백-레이블러(KL) 발산은:

여기서 μ는 P의 프로브들의 평균 신호 강도이고; f _a (x)는 신호 강도(x)를 가진 P _a 의 프로브의 비율이고; f(x)는 신호 강도(x)를 가진 P의 프로브들의 비율이다. KL(P _a ∥P) = 0이면 P _a 의 확률 분포는 P의 확률 분포와 정확하게 같게 된다. 그렇치 않으면 다르다.

샘플에 존재하는 바이러스는 개체군의 신호 강도보다 높은 신호 강도를 가질 것이기 때문에, 이것은 KL(P _a ∥P) >0이면, v_a는 샘플에 존재하는 기회를 갖는다는 것을 의미한다. 따라서, KL(P _a ∥P)의 값이 크면 클수록, 2개의 확률 분포를 더 다르며 v_a는 더욱 샘플에 존재할 수 있다.

쿨백-레이블러 발산은 2개의 확률 분포의 모든 x에 대한 축적된 차이이다. 따라서, 쿨백-레이블러 발산은 확률 분포의 이동을 찾는데 유리하지만, 확률 분포의 테일에 더 영향을 미치는 확률 분포의 퍼짐을 찾는데 항상 유리하지 않다. 도 4(a,b)에 개시된 대로, 확률 분포의 테일은 바이러스가 샘플에 존재하는지에 대한 최고의 정보를 제공한다. 한편, 쿨백-레이블러 발산 통계량은 이런 관찰을 더욱 정확하게 나타내도록 향상되어야 한다.

테일에 대한 쿨백-레이블러 발산의 민감성을 증가시키기 위해서, 쿨백-레이블러 발산, 앤더슨-달링 통계량에 안정화되고 또는 가중된 통계량를 도입하였다(스테판, 엠.에이.(1974). EDF Statistics for Goodness of Fit and Some Comparisons, Journal of the American Statistical Association, Vol. 69, pp. 730-737). 따라서, 가중 쿨백-레이블러 발산(WKL)은 다음과 같다:

여기서 Q(x)는 P의 프로브들의 신호 강도들의 누적 분포 함수이다.

실험 검정은 샘플에 바이러스들이 없는 경우, 유의 수준 0.05로 t-검정을 통과하는 바이러스들은 WKL < 5.0을 가진다는 것을 나타낸다. 샘플에 바이러스가 존재하는 경우, 실제 바이러스들은 유의 수준 0.05로 t-검정을 통과할 뿐만 아니라 WKL ≥ 5.0을 가진 바이러스뿐이다. 따라서 샘플에 존재하는 바이러스에 대한 가중 쿨백-레이블러 발산 문턱값을 5.0으로 설정하였다. 이 분석 구성은 도 5에 도시된다.

본 발명에 따른 방법을 수행하는 장치 및/또는 제품

본 발명에 제공된 방법을 수행할 수 있는 알고리즘 및/또는 소프트웨어를 어떻게 만드는가는 당업자에게 주지되어 있다. 따라서, 본 발명은 본 발명의 임의의 실시예에 따른 알고리즘 및/또는 방법을 수행하도록 만들어진 소프트웨어 및/또는 컴퓨터 프로그램 제품을 제공한다. 또한 적어도 하나의 전자 저장 매체가 제공된다. 상기 전자 저장 매체는 컴퓨터 하드 드라이브, CD-ROM, 플래쉬 메모리 소자(예를 들어, USB 썸드라이브), 플로피 디스크, 또는 당업계의 임의의 다른 전자 저장 매체이 수 있다. 상기 소프트웨어는 개인용 컴퓨터, 메인프레임, 및 임의의 연산 처리 장치에서 작동할 수 있고 구체적인 구성은 당업자에게 공지되어 있다.

본 발명은 실시예에 의해서만 개시되었고 본 발명의 취지와 범위를 벗어나지 않고 디자인을 다양하게 변형할 수 있다는 것을 알 것이다.

본 발명을 일반적으로 개시하였기 때문에, 본 발명은 본 발명을 제한하는 않고, 예시적으로 제공된 다음 실시예들을 참조하여 더욱 쉽게 기술된다.

도 1은 바이러스 서열(SEQ ID NOS: 1 내지 9) 상의 한 쌍의 랜덤프라이머의 RT-PCR 결합 방법을 도시한다. 도 1에 대한 라벨은 다음과 같다:

A: 역전사(RT). 프라이머는 주형과 결합한다.

B: 태크된 RT 생성물들은 (상세하게는 가정적 바이러스 서열 주형 및 가정적 특이적 랜덤 프라이머)에 의해 발생한다.

C: 제 2 가닥 합성은 포함된 태그.

D: PCR 프라이머 GTTTCCCAGTCACGATA(SEQ ID NO:8)를 사용하는 태그된 RT 생성물의 증폭.

도 2는 RSV B 게놈에 대한 증폭 효과 점수(AES) 지도를 도시한다.

도 3은 RSV B를 위한 1 실험에 대한 올리고뉴클레오티드 프로브 신호 강도를 도시한다.

도 4(a,b). 도 4a는 검정된 샘플인 바이러스의 신호 강도의 밀도 분포를 도시한다. 화살표는 분포의 양의 비대칭을 나타낸다. 이것은 비록 잡음이 있지만, 상당한 양의 실제 신호가 있다는 것을 나타낸다. 도 4b는 샘플 속이 아닌 바이러스의 신호 강도의 밀도 분포를 도시한다. 이것은 소음 지배적이다.

도 5는 병원체 탐지 칩 데이터의 분석 구조를 도시한다.

도 6. 올리고뉴클레오티드 프로브 디자인 도식. NC_001781 인간 호흡기 합포체 바이러스(RSV)의 게놈을 가로질러 생성된 타일링 프로브(tiling probe)를 설명한다. 숫자들은 각 프로브의 출발 및 종결 위치를 나타낸다. 1948 프로브는 전체 15225 bp RSV 게놈을 덮도록 합성되었다. 이 과정은 잔존하는 34 바이러스 게놈에 대해 반복하였다.

도 7(a,b,c) 마이크로어레이 바들의 라벨에 대한 일람표:

바이러스 과	바이러스 속/종
오르소믹소바이러스	Sars Sin2500 OC41 229E
코로나바이러스	플루 A 플루 B
피코르나바이러스	엔테로 D 엔테로 C 에코 1 엔테로 B
	엔테로 A 리노 89 리노 B Hep A 구제역 C
분야바이러스	한탄 신 놈브레
플라비바이러스	웨스트 네일 잽 엔세프 뎅기열 3 뎅기열 1 뎅기열 2 뎅기열 4 황열병
파라믹소바이러스	파라플루 1 파라플루 3 니파아 파라플루 2 뉴캐슬 RSV(B1) 메타페렴바이러스
기타	HPV 타입 10 HIV 1 Hep B 루벨라 LCMV-S LCMV-L PMMV 인간 대조군

SARS Sin850-감염 세포주(A) 또는 뎅기열 I-감염 세포주(B)로부터 분리된 RNA는 각각 다음 SARS-특이적 또는 뎅기열 I-특이적 RT-PCR에 따라 병원체 마이크로어레이 상에 혼성화되었다. SARS는 다른 코로나바이러스 게놈(검은 색으로 도시됨), 특히 게놈의 높게 보존된 중간 부분에 교차-혼성화되었다(루안 등. 2003). 뎅기열 I는 플라비바이러스로부터 유도된 프로브 및 이들의 서열 유사성을 기초로 한 다른 게놈에 교차-혼성화되었다. 해밍 거리(HD)와 최대 근접 매치(MCM) 값을 조사함으로써, 교차-혼성화가 발생할 것인지를 예측하기 위한 문턱값(threshold)을 설정하였고 이 정보를 실리코 혼성화 지표를 생성시키기 위해 사용하였다. (C) RSV로 진단된 임상 환자로부터 분리한 RNA는 랜덤 RT-PCR을 사용하여 증폭하였고 병원체 마이크로어레이 상에 혼성화되었다.

도 8 프로브 해밍 거리(HD), 프로브 최대 근접 매치(MCM) 및 프로브 신호 강도 사이의 관계. 평균 프로브 신호 강도는 HD가 증가하고 MCM이 감소함에 따라 감소한다. 이것은 탐지가능한 프로브(신호 강도 > 평균 + 2 SD)의 백분율의 감소와 상관관계가 있다. 최적 교차-혼성화 문턱값에서 HD≤4 또는 MCM≥18(그늘짐), >98%의 프로브들이 탐지될 수 있다. HD=5 또는 MCM=17에서, 탐지 비율은 85%로 떨어진다.

도 9(a,b) RSV-감염 환자로부터 분리된 RNA는 병원체 탐지 어레이 상에 혼성화되었다. (A) 전체 53,555 프로브의 프로브 신호 강도의 분포 곡선은 정상 분포 곡선(회색 두꺼운 선)을 나타낸다. 게놈-특이적 레벨에 대해 검정될 때, 비-RSV 프로브, 예를 들어, 파라인플루엔자-1(회색 점선)은 정상 분포 곡선을 나타낸다. RSV-특이적 프로브의 신호 강도는 분포 곡선의 하부(검은 두꺼운 색)에 더 높은 신 호 강도를 가진 양의 비틀림을 가진다. (B) 35 SPS에 대한 WKL 점수의 분포 주기는 대부분 -5 내지 3 범위를 가진다. 그러나 RSV 게놈에 대한 WKL 점수는 17이고, 따라서 분포 곡선은 비정상이다(앤더슨 달링 검정에 의해 P<0.05). 아웃라이어 게놈을 제외하면 정상 분포 곡선을 얻는다. 이런 계산으로부터, RSV는 혼성된 샘플에 존재한다는 것을 결론지을 수 있다.

도 10 AES는 프로브 증폭 효율을 나타낸다. 높은 AES를 가진 프로브들의 더 높은 비율은 5회 실험에 걸쳐 상기 신호 강도 문턱값 이상에서 탐지할 수 있다.

도 11 도표는 마이크로어레이를 사용하는 병원체 탐지에 필수적인 방법을 나타낸다.

도 12 혼성화 신호 강도는 증폭 효율 점수(ASE), P=2.2 x 10^-16와 상관이 있다. RSV 환자 샘플을 마이크로어레이 상에 혼성화하였고, 각 프로브의 신호 강도를 계산된 AES와 함께 그래프로 나타내었다. 전형적인 어레이에 대한 높은 정확성의 탐지를 위한 신호 문턱값은 녹색선으로 나타낸다.

도 13 랜덤 RT-PCR에 대한 AES-최적 프라이머 태그를 사용하면 10-30배 정도 AES가 증가한다. 최적화된 프라이머들은 마이크로어레이 상에 표현된 모든 35개 게놈을 가로질러 동일한 성능을 가진다고 예상하였다. 대부분의 환자 샘플들은 AES-최적화된 프라이머 A2를 사용하여 증폭하였다.

SEQ ID NO:	프라이머	뉴클레오티드 서열
10	A1	GTTTCCCAGTCACGATA
11	A2	GATGAGGGAAGATGGGG
12	A3	CTCATGCACGACCCAAA
13	A4	AGATCCATTCCACCCCA

도 14(a,b) 마이크로어레이 바의 라벨에 대한 일람표:

랜덤 RT-PCR에서 프라이머 태그의 선택은 PCR 효율에 현저한 효과를 가진다. 히트맵은 마이크로어레이 상에 표현된 모든 게놈들(높은 AES)을 효과적으로 증폭하게 될 것이라는 것을 확실히 하기 위해 (A) 보란더 등에 의해 개시된 최초의 프라 이머 또는 (B) PCR 모델링을 따라 디자인된 프라이머를 사용하는 RT-PCR을 따라 임상적인 hMPV 샘플에 혼성화되는 프로브들을 도시한다.

도 15 RSV 환자 #412를 위한 진단 PCR 결과는 환자는 코로나바이러스에 감염되지 않은 것을 입증한다. (A) 판코로나바이러스 프라이머를 사용하는 PCR. 레인 1: OC43 코로나바이러스 양성 대조군, 레인 2: 229E 코로나바이러스 양성 대조군, 레인 3: RSV 환자 #412, 레인 4: PCR 프라이머 및 시약들은 단지 음성 대조군. 1kb 래더. (B) OC43 특이적 프라이머를 사용하는 PCR. 레인 1: OC43 코로나바이러스 양성 대조군, 레인 2: RSV 환자 #412, 레인 3: ATCC로부터의 정제된 RSV, 레인 4: PCR 음성 대조군. 50bp 래더. (C) 229E 특이적 프라이머를 사용하는 PCR. 레인 1: 229E 코로나바이러스 양성 대조군, 레인 2: RSV 환자 #412, 레인 3: PCR 음성 대조군. 1kb 래더.

당업계에 공지되고 구체적으로 개시되지 않은 표준 분자 생물학 기술들은 일반적으로 Sambrook and Russel, Molecular Cloning: A Laboratory Manual, Cold Springs Harbor Laboratory, New York(2001).

마이크로어레이 합성

싱가포르의 바이러스성 질환의 가장 일반적인 원인을 나타내는 35개 바이러스성 게놈을 선택하였다(상기 표 1 참조).

전체 게놈을 가로질러 덮고 평균 8-염기 해상도에서 겹치는 40-mer 프로브 서열을 생성하기 위해서 완전한 게놈 서열들은 NCBI 택소노미 데이터베이 스(http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/)로부터 다운로드하였다. 각 바이러스 프로브의 7개 복제물을 님블레겐 기술(누웨이서, 이.에. 등., 2002)을 사용하여 마이크로어레이 상에 직접 합성하였다. 상기 프로브들은 혼성화 인공물의 효과를 최소화하기 위해 마이크로어레이 상에 무작위로 분포되었다. 프로브들에 대한 샘플의 비특이적 혼성화를 제어하기 위해, 10,000 올리고뉴클레오티드 프로브들은 디자인되고 마이크로어레이 상에서 합성되었다. 이들은 인간 게놈 또는 병원체 게놈과 어떠한 서열 유사성도 갖지 않는 40-60% CG 함량을 가진 랜덤 프로브들이었다. 이런 프로브들은 백그라운드 신호 강도를 측정하였다. 양성 대조군으로서, 면역 반응에서 공지되거나 암시된 기능들을 가진 인간 게놈에 대한 400 올리고뉴클레오티드 프로브는 어레이 상에 합성하였다. 식물 바이러스, PMMV는 390,482 프로브의 전체에 대해 음성 대조군으로 포함되었다.

샘플 제조, 마이크로어레이 혼성화 및 염색

뎅기열 세포주(ATCC #VR-1254)는 ATCC 권고에 따라 배양하였고 Sin850 SARS 세포주는 개시한 대로 배양하였다(베가 등. 2004). 임상 표본(비인두 세척액)들을 인도네시아 소아들로부터 얻었고 RNAzol(Leedo Medical Laboratories, Inc., Friendswood, TX)에 -80℃에서 저장하였다. 모두 호흡기 질환의 특이적인 임상 신호를 나타내는 7 내지 38 개월의 폐렴 환자로 의심되었다. 제조사 지시(스말링 등. 2002; 탱 등. 1999)에 따라 RNAzol로 RNA를 추출하였다. 추출한 RNA를 RNA 저장 용액(앰비온, 미국)에 현탁하였고 필요할 때까지 -80℃로 저장하였다. 보란더 등과 왕 등()에 개시된 프로토콜을 기초로 하여 태그화된 랜덤 프라이머를 사용하여 RNA 를 cDNA에 대해 역전사하였다. 그런 후에 cDNA를 랜덤 PCR로 증폭하고, 단편화하고, 바이오틴 레이블링으로 말단-식별화하고, 마이크로어레이 상에 혼성화하고 상기한 대로(왕 등. 2002) 염색하였다. 최초 실험에서, 프로브 GC 함량은 신호 강도 측정에서 인공물을 생성할 수 있고, 신호는 프로브 GC 함량에 정비례하여 증가한다. 님블레겐 소유의 TMAC 혼성화 버퍼에 0.82M TMAC를 첨가하여 이 인공물을 제거하였다.

RSV 및 hMPV 에 대한 실시간 진단 RT - PCR

20㎕ 반응 혼합물은 2㎕의 정제된 환자 RNA, 5U의 MuLV 역전사효소, 8U의 재조합 RNase 억제제, UNG(모두 Applied Biosystems으로부터 얻음) 0.9μM 프라이머 및 0.2μM 프로브가 없는 10㎕의 2X 유니버셜 PCR 매스터 믹스를 함유한다. 실시간 RT-PCRs은 ABI 프리즘 7900HT 서열 탐지 시스템(Applied Biosystems)에서 수행하였다. RT는 DNA 중합효소의 활성화를 위해 30분 동안 48℃에서 수행되고 뒤이어 95℃에서 10분 동안 수행하였다. RT 생성물의 증폭은 95℃에서 15초 및 60℃에서 1분의 40 사이클로 수행하였다. 음성 대조군과 플라스미드 클론(양성 대조군)의 연속적 희석은 매 PCR 평가에 포함되었다. 증폭하는 동안, 형광 방출은 매 열 사이클에서 관찰하였다. 문턱값(CT)은 상당한 형광이 먼저 탐지되는 사이클을 나타낸다. CT 값은 공지된 농도의 대조군 플라스미드를 사용하여 숫자를 복사하도록 변환하였다. RSV의 경우, 2.61 x 10⁹ 복제물은 11.897의 CT 값을 가지며 hMPV의 경우, 7.51 x 10⁹ 복제물은 10.51의 CT 값을 가진다.

코로나바이러스 및 리노바이러스를 위한 1-단계 진단 RT - PCR

인간 코로나바이러스 OC43, 229E 및 리노바이러스 16의 냉동된 살아있는 배양균들은 양성 대조군으로 사용하기 위해 ATCC(Cat #VR-1558, VR-740, VR-283)로부터 구입하였다. RNA는 제조사의 지시에 따라 RNA 소형 키트(독일, 퀴아겐)를 사용하여 이런 배양균으로부터 추출하였다. 샘플들을 다음 진단 프라이머 쌍을 사용하여 미리 개시한 대로 증폭하였다: 판코로나바이러스(Cor-FW, Cor-RV), OC43(OC43-FW, OC43-RV), 229E(229E-FW, 229E-RV), 리노바이러스(증폭기 1, 증폭기 2)(모에스 등. 2005; 디퍼네즈 등. 2004)

병원체 마이크로어레이 데이터의 분석

병원체 마이크로어레이는 35 바이러스 게놈 V = {v ₁ , v ₂ ,..., v ₃₅ }에 대한 뚜렷한 프로브 혼성화 지표 속에 저장된 40-mer 프로브들 P = {p ₁ , p ₂ ,..., p _s }의 세트를 포함한다.

1-테일 t-검정

만일 바이러스(v_a)가 존재하면, 이의 혼성화 지표(프로브들

v_a)를 포함하는 프로브들은 t-통계량(1-테일 t-검정)에 의해 측정된 프로브들

v_a보다 통계적으로 더 높은 신호 강도를 가져야 한다:

여기서 μ _a , σ ² _a 및 n _a 는 각각 프로브들(

v_a)의 평균, 차이 및 크기이다.

유의수준을 0.05로 설정하였다. 이것은 프로브들(

v_a)의 신호 강도들의 평균은 프로브들(

v_a)의 신호 강도들의 평균보다 높다는 가장은 t _a <0.05의 p-값인 경우에만 허용될 수 있다는 것을 의미한다. 이런 경우에, v_a는 샘플에 존재할 것이다. 그러나, 탐지의 t-검정 방법은 여러 거짓 양성 콜을 초래한다.

PDA v. 1

PDA v.1은 연속된 통계량 검정을 포함하며, 가중 쿨백-레이블러 검정 및 Z-스코어 변형(WKL 점수)으로 시작하고 정상상태를 위한 앤더슨-달링 검정이 이어진다.

바이러스(v_a)를 고려한다. P _a 를 바이러스(v_a) 및 = P - P _a 의 프로브의 세트로 정한다. [r_low, r_high]를 신호 강도 범위로 정한다. 이것을 c bins

으로 나누었다. 변형되지 않은 쿨백-레입를러 발산은 다음에 의해 계산하였다:

여기서 및 는 각각 bin b _j 에 포함된 P _a 의 프로브 및

의 프로브의 수이다.

는 bin b _j 에서 발견된 P _a 의 프로브들의 비율이고;

는 bin b _j 에서 발견된

의 프로브들의 비율이다.

확률 분포의 테일의 신호 차이를 비교하기 위해서,

,

의 프로브들의 평균 신호 강도, 및 r _high = 최대 신호 강도를 설정한다. bins의 디펄트 수, c = 20으로 설정한다.

확률 분포의 테일에 대한 쿨백-레이블러 발산의 민감도를 더욱 안정화 및/또는 증가시키기 위해서, 두 개의 변형을 만들었다. 첫 번째, 앤더슨-달링 타입 가중치 함수를 쿨백-레이블러 발산으로 유도하였다. 이것은 분포의 중간보다 꼬리에 더욱 가중치를 제공한다. 다음으로, 이들의 확률 밀도 함수 대신에 2개의 상응하는 누적 분포 함수에 대해 통계량을 사용하였다. 우리는 향상된 쿨백-레이블러 발산을 가중 쿨백-레이블러 발산(WKL 점수)으로 부른다:

에서 프로브들의 신호 강도의 누적 분포 함수이다.

따라서 각 혼성화된 샘플의 경우, 매 바이러스(v_a

V)의 WKL 점수를 계산하였다. 다음으로, 모든 바이러스(v_a V)의 WKL 점수들의 분포는 한 샘플에 바이러스가 존재하지 않으면 대략 정상인 것으로 주장하였다. 만일 우리 주장이 부트스트래핑 과정에 의해 수정되는 것을 실험적으로 증명하였다: n을 V의 바이러스의 수로 정한다. 각 바이러스(v_k

V, k=1,...,n,)의 경우에 우리는 vk의 "교란된" 신호 강도 분포를 형성하기 위해 무작위로 교체하면서 실제 데이터세트(D)로부터 ｜v_k｜프로브 신호 강도들 선택한다. 이런 분포는 바이러스(v_k)가 샘플(D)에 존재하지 않는 상황을 모방할 수 있다. 그 후에, n WKL 점수는 n 바이러스들의 세트에 대해 발생한다. 다음으로, n WKL 점수가 95% 신뢰 구간에서 정상상태를 위한 앤더슨-달링 검정에 의해 정상 분포를 따르는 지를 확인하였다. 부트스트랩은 100,000회 반복하였다. 분포는 시간의 99%의 이상이 정상으로 발견되었다(NB: 마이크로어레이, n = 35 상에 나타낸 35 바이러스 게놈이 있기 때문이다).

상기 논의를 기초로, 한 샘플이 다음의 중요하지 않고 선택적인 가정을 만듦으로써 바이러스(들)를 함유하는 지를 검정할 수 있다:

H₀: WKL 점수들의 분포는 정상, 즉, 바이러스들은 샘플에 존재하지 않는다.

H₁: WKL 점수들의 분포는 비정상, 즉, 적어도 1개의 바이러스는 샘플에 존재한다.

정의 앤더슨-달링 검정은 다음과 같이 정의된다:

H₀: 데이터는 특정 분포를 따른다.

H_a: 데이터는 특정 분포를 따르지 않는다.

검정 통계량: 앤더슨-달링 검정 통계량은 다음과 정이 정의한다.

여기서

F 는 특정 분포의 누적 분포 함수이다. Y _i 는 순서 데이터

(ordered data)이다.

유의 수준: α

임계 영역: 앤더슨-달링 검정에 대한 임계값은 검정되는 특정 분포에

의존한다. 조정된 값과 공식은 소수의 특정 분포(노멀, 로 고노멀, 지수, 웨이불, 기호논리학, 극단치 타입 1)에 대해

발행되었다(스테판, 1974, 1976, 1977, 1979). 이 검정은

편파적 검정이고 분포의 특정 형태라는 가정은 검정 통계량

A가 임계값보다 크면 거부된다.

95% 신뢰 구간을 가진 H₀를 거부하기 위해 WKL 점수의 분포에 대한 정상상태를 위해 앤더슨-달링 검정을 적용한다. 만일 WKL 점수의 분포가 정상이 아니면, 범 위 밖의 WKL 점수를 가진 바이러스를 제외하고 다시 앤더슨-달링 검정을 수행한다. 이 과정은 H₀가 선택될 때까지 반복한다(공동-감염 병원체의 존재를 확인하기 위함).

H₀가 배경 WKL 분포로서 받아들여질 때 WKL 점수의 분포를 표시한다. 제외된 바이러스들은 이들의 WKL 점수는 배경 WKL 분포를 따르지 않기 때문에 샘플에 존재할 가능성이 크다.

우리 실험에서, P, 바이러스를 함유하는 샘플 내에서, 주어진 WKL 점수에 의한 랜덤 변화에 의해 발생하는 비정상 분포인 확률은 P < 1.0 x 10^-6(WKL 점수의 Z-점수 변형에 의해 얻음)로 매우 낮은 것으로 확인되었다. 아래 박스 1은 바이러스-탐지 알고리즘에 대한 의사-코드(pseudo-code)를 나타낸다.

박스 1: 바이러스 탐지 알고리즘

바이러스 세트(V) 및 프로브 세트(P)를 가진 병원체 마이크로어레이 데이터(D)를 고려하여, V_present = F로 하고; 모든 v

V의 경우 D _WKL 를 WKL(Pa∥P'a)의 세트로 한다; 1. 정상상태를 위한 앤더슨 달링 검정으로 D _WKL 의 정상상태를 측정한다. 만일 D _WKL 가 유의수준 0.05를 가진 정상 분포인 경우, V_present로 돌아간다. 그렇지 않으면, 2단계로 간다. 2. D _WKL 로부터 최고의 WKL(Pa∥P'a)을 가진 바이러스(v_a)를 찾는다. V_present = V_present ∪{v_a}; D _WKL = D _WKL -{WKL(Pa∥P'a)}; 단계 1로 간다. 3. 탐지된 SPS를 제거하고 WKL 분포가 정상인지 확인한다. 4. 만일 분포가 비정상이면, 공동-감염 병원체를 찾기 위해 단계 2로 되돌아 간다.

게놈- 와이드 증폭 바이러스 예측

프라이머-특이적 증폭이 아닌 랜덤 프라이머 증폭은 임상 표본들의 미지 병원체들을 동정하는데 바람직하다. 그러나, 공지된 병원체를 동정하기 위해 랜덤 프라이밍 증폭을 사용하는 최초 실험에서, 서열 다형성(도 7c)에 의해 설명되지 않는 불완전 혼성화 확장 게놈 영역을 자주 관찰하였다. 유전자 2차 구조, 프로브 2차 구조 및 프로브 GC 함량은 이런 낮은 신호 강도 프로브들을 설명하는 데 실패한다. 따라서, 불완성 혼성화는 역전사(RT) 단계에서 바이러스성 게놈에 결합하는 랜덤 프라이머의 다른 능력으로부터 유래된 PCR 바이어스에 때문일 것이라고 가정하였다. 우리 실험들에서 사용된 랜덤 프라이머는 고정된 17-mer 서열(5'-GTTTCCCAGTCACGATA)(도 1 참조)로 태그화된 랜덤 노나머(3')로 구성된 26-mer이었고, 고정된 5' 태그의 목적은 RT 생성물의 PCR를 활성화하여, 10000bp, 특히 500-1000bp PCR 절편의 PCR 절편을 발생시킨다(팡 등., 2005; 왕 등., 2002; 왕 등. 2003). 이런 현상을 연구하기 위해서, 실험 데이터를 사용하여 RT-PCR 공정을 모델화하기 위해 알고리즘(AES)을 설계하였다. 성공적인 RT-PCR은 주형에 결합하는 프라이머들의 능력에 의존한다. 주형들 사이의 다이머 및 헤어핀 형성과 같은 인트라-프라이머 2차 구조 형성. 태그와 나노머 사이의 다이머 및 헤어핀과 같은 인트라-프라이머 2차 구조 형성 및 프로브 용융 온도는 결합 효율에 영향을 미치는 것으로 알려져 있다(구엔 및 서든, 2000; 라투시나 등. 2005).

랜덤 프라이머 믹스 속의 나노머가 바이러스성 게놈의 서열을 완벽하게 완전하게 한다고 가정하면, 알고리즘은 500-1000 bp 생성물이 게놈에 있는 각 가능한 출발 위치로부터 발생할 수 있는 확률을 측정한다. 따라서, 1000 염기들의 슬라이딩 원도우에 있는 각 뉴클레오티드의 경우에, 성공적으로 증폭될 확률은 증폭 효율 점수(AES; 상기 증폭 효율 점수 참조)에 반영된다. 알고리즘을 확인하기 위해서, RSV 게놈에 대한 1,948 SPS 프로브에 대한 혼성화 신호 강도를 확인하고 이들의 AES 값과 비교하였다. RSV 게놈에 걸쳐, AES는 AES와 프로브 탐지 사이의 강한 상관관계(도 12)를 나타내는 혼성화 신호 강도(피셔의 정확한 확률 검정 P = 2.2x10^-16)와 상당히 상관관계가 있다는 것을 발견하였다. 메타뉴모바이러스에 대한 1,705 SPS 프로브를 사용하는 다른 비교는 유사한 결과, P = 1.3 x 10^-9를 나타내었다. 임상 샘플에서 SPS 프로브 탐지를 예상하는 AES의 중요성은 도 10에 도시된다. 놀랍게도, 더 높은 값의 AES는 탐지가능한 프로브의 더 큰 비율, 즉, AES 값의 상부 20%와 상관관계가 있다는 것을 발견하였다. 따라서, HD, MCM, %GC 및 서열 균일성은 프로브 성능의 가치 있는 변수들이지만, PCR 바이어스를 고려하지 않았고 따라서 AES의 부존재를 고려할 때 프로브 성능의 불충분한 예언자이다. 병원체 SPS의 선택에서 첫 번째 필터로서 상위 20위 백분위수 사용이 더 높은 WKL 점수와 거짓 양성 콜의 제거에 의해 증명된 대로 병원체 예측을 현저하게 향상시켰다(표 3).

평균 프로브 신호 강도(t-검정)를 사용하는 병원체들의 탐지는 높은 수의 거짓-양성 콜을 유도한다. 최적화된 혼성화 표지들과 인간 게놈(필터됨)에 교차-혼성화되는 프로브들의 제거는 거짓-야성 콜을 감소시키나 탐지 정확성에 대해서는 불충분하다. PDA v.1은 전체 필터되지 않은 프로브 세트를 사용하여 정확한 진단을 할 수 있다. 바이러스는 WKL 점수 > 5이면 "탐지된다". 최적의 혼성화 표지(필터됨)를 사용하면 진단의 증가된 확신에 상응하는 WKL 점수는 증가한다. 바이러스 CT 값: 바이러스가 탐지될 때 실시간 PCR 사이클(상기 참조).

		PDA v.1을 사용하는 탐지			바이러스 CT 값	바이러스 복제물 수
칩 #	병원체	최대 WKL 점수(필터 되지않음)	최대 WKL 점수( 필터됨 )	탐지된 바이러스의 수	바이러스 CT 값	바이러스 복제물 수
32272	순수 SARS	5.007	5.803	1	--	--
34959	순수 뎅기열	14.351	20.373	1	--	--
35259	RSV 환자 324	18.288	20.611	1	21.4366	9.8x10⁷
35179	hMPV 환자122	1.747	8.439	1	25.5388	50384
35253	RSV 환자 841	12.056	12.069	1	20.8619	14x10⁷
36042	RSV 환자 412	16.466	17.531	1	23.5804	2.5x10⁷
36053	RSV 환자 483	12.089	12.168	1	24.8340	1.2x10⁷
35915	비-폐렴환자 (음성 대조군)	3.916	4.284	0	0	0

어레이 상에 혼성화된 모든 환자 샘플들에 대한 데이터는 아래 표 4에 나타난다.

병원체 마이크로어레이 상에 혼성화된 임상 환자들의 완벽한 목록.

어레이	환자 ID	WKL	P-값	PDAv .1 진단	임상 진단*	최초 PCR 진단	PCR CT 값	바이러스 복제물 수	RT - PCR 프라이머
35179	122	8.439216	1.34x 10^-71	hMPV	LRT1	hMPV	24.8	5.0x10⁴	A1
35887	122	18.312077	2.98x 10^-22	hMPV	LRT1	hMPV	24.8	5.0x10⁴	A2
71180	133	17.359597	2.42x 10^-37	hMPV	LRT1	hMPV	25.1159	4.0x10⁴	A2
66691	165	8.56786	1.84x 10^-4	hMPV	폐렴	hMPV	27.9	3.9x10³	A2
70935	254	21.348515	8.70x 10^-30	hMPV	LRT1	hMPV	21.9518	5.4x10⁵	A2
63781	283	16.680752	3.97x 10^-12	hMPV	폐렴	미공지			A2
73067	769	24.006323	1.34x 10^-51	hMPV	LRT1	hMPV	25.6715	2.5x10⁴	A2
66690	853			탐지되지않음	폐렴	hMPV	36	0.5	A2
68359	892	12.534284	5.66x 10^-5	리노바이러스속	폐렴	hMPV	33.8	27	A2
35915	111			탐지되지않음	음성 대조군	없음			A1
70927	818			탐지되지않음	음성 대조군	없음			A2
71025	414	25.406289	3.80x 10^-24	RSV B	폐렴	RSV A	22.3	3.9x10⁵	A2
71027	478			탐지되지않음	폐렴	RSV A	34.8	18	A2
73068	832	59.275233	1.91x 10^-102	RSV 속	LRT1	RSV A	23.7681	1.2x10⁵	A2
71028	913	25.897084	3.23x 10^-30	RSV B	폐렴	RSV A	19.1	4.7x10⁶	A2
66703	924	12.673149	9.71x 10^-6	RSV B	LRT1	RSV B	31.5	250	A2
35259	324	20.61147	3.55x 10^-94	RSV B	LRT1	RSV B	21.4366	3.0x10⁵	A1

35662	355	17.999418	2.97x 10^-40	RSV B	LRT1	RSV B	20.2642	6.7x10⁶	A2
66695	374			탐지되 지않음	폐렴	RSV B	34.1	500	A2
70993	378	13.81578	7.77x 10^-17	RSV B	LRT1	RSV B	23.9204	5.4x10⁵	A2
36042	412	17.531234	1.05x 10^-43	RSV B	LRT1	RSV B	23.5804	6.9x10⁵	A1
35890	412	17.214556	1.05x 10^-43	RSV B	LRT1	RSV B	23.5804	6.9x10⁵	A2+A3
70997	554	76.547183 54.013223	1.83x 10^-119 2.45x 10^-81	리보바 이러스 속; 엔테로 바이러 스 과	폐렴	RSV B	35.1	240	A2
35253	841	12.069138	4.86x 10^-26	RSV B	폐렴	RSV B	20.8619	4.4x10⁶	A2
73070	841	22.10857 5.708560	6.80x 10^-50 5.66x 10^-6	RSV B, hMPV 공동강 감염	폐렴	RSV B/ hMPV	20.8619 35.4	4.4x10⁶ 8	A2
66696	185			탐지되 지않음	폐렴	미공지			A2
66697	261			탐지되 지않음	폐렴	미공지			A2
66698	331			탐지되 지않음	폐렴	미공지			A2
71189	393			탐지되 지않음	폐렴	미공지			A2
66699	461			탐지되 지않음	폐렴	미공지			A2
66700	573	41.397051 27.444893	3.97x 10^-23 1.34x 10^-11	리노바 이러스 속, 엔테로 바이러 스 과	폐렴	미공지			A2
71182	639			탐지되 지않음	폐렴	미공지			A2
71007	699			탐지되 지않음	폐렴	미공지			A2
71188	859			탐지되 지않음	폐렴	미공지			A2

^*LTI1: 낮은 기도 감염

AES의 중요성은 증폭 효율과 후속 프로브 탐지가 최적의 RT-PCR 프라이머 태그를 사용함으로써 향상될 수 있다는 것을 제안하였다. 따라서, 무작위로 발생된 17-mer 태그 서열을 사용하여 AES 점수를 계산하였고 AES 점수의 최대 전체 증가를 초래하는 상부 3개의 가장 불일치하는 프라이머를 선택하였다(도 13). AES 최적화 프라이머를 사용하여, 메타뉴모바이러스 및 향상된 PCR 효율 및 탐지 민감성을 가진 임상 샘플로부터의 RSV를 증폭하였다(도 14, 표 5).

환자 샘플 #412 및 #122에 대한 E-Predict 및 PDA v.1의 비교. 어레이 35179는 결과에서 기술한 최초 PCR 프라이머를 사용하여 증폭하였다. 어레이 36731 및 35887은 프라이머 A2를 사용하여 증폭하였고 어레이 35890은 양 프라이머 A2 및 A3를 사용하여 증폭하였다. PDA v.1은 모든 경우에 정확한 병원체에만 되돌려주었다. E-Predict의 저자들은 이들의 플랫폼에 대한 현저한 컷오프로서 P<0.01을 사용한다(우리스만 등. 2005). 낮은 컷오프는 만일 이 알고리즘이 어레이 데이터를 분석하는데 사용된다면 필수적이지 않다. PCR 모델링에 의해 디자인된 새로운 프라이머들은 양 알고리즘(어레이 35179 vs 35887)을 사용하여 우수한 예측 점수를 얻는다. PCR 과정 동안 제 2 프라이머를 가지면 WKL 점수 및 P-값(어레이 36731 vs 어레이 35890)의 점진적 증가를 제공하였다.

어레이	환자	PCR 증폭 프라이머	E- predict 알고리즘			GIS 병원체 알고리즘
		PCR 증폭 프라이머	게놈	유사성_점수	P-값	게놈	WKL
36042	412 (RSV)	최초 프라이머 A1	RSV	0.35128	0	RSV	21.526316
			OC43 코로나바이러스	0.350264	6.84E-20
			229E 코로나바이러스	0.323503	1.77E-10
			B형 간염	0.134825	3.03E-04
			SARS 코로나바이러스	0.338911	0.00299
			A형 간염	0.229589	0.00847
36731	412 (RSV)	A2	RSV	0.335389	0	RSV	21.836754
			OC43 코로나바이러스	0.348043	2.29E-13
			229E 코로나바이러스	0.322055	2.00E-09
			B형 간염	0.135222	1.02E-06
			루벨라	0.164332	0.00919
35890	412 (RSV)	A2 + A3	RSV	0.334602	0	RSV	22.093258
			OC43 코로나바이러스	0.348969	3.63E-23
			229E 코로나바이러스	0.322805	3.20E-14
			B형 간염	0.13436	6.74E-04
			SARS 코로나바이러스	0.338609	0.03060
35179	122 (hMPV)	최초 프라이머 A1	hMPV	0.26011069 5	5.01E-28	hMPV	9.763149
			루벨라	0.16478498 1	1.20E-17
			구제역 C	0.20674781 6	4.66E-11
			일본 뇌염	0.20134722 2	1.65E-04
			B형 간염	0.13340762 2	1.98E-04
			에코바이러스	0.22200202 5	0.01740
35887	122 (hMPV)	A2	hMPV	0.299655	0	hMPV	39.677149
			루벨라	0.169626	3.40E-19
			B형 간염	0.137703	5.84E-12

OC43 코로나바이러스	0.347685	5.06E-10
229E 코로나바이러스	0.321702	1.72E-06
SARS 코로나바이러스	0.340504	1.76E-06
구제역 C	0.2075	1.31E-04
뉴캐슬	0.23453	0.04310

PDA v.1 - 병원체 탐지를 위한 알고리즘

임상 표본들은 게놈 증폭을 위한 준최적이다: 이들은 낮은 바이러스 농도를 가질 수 있고, 어레이 상의 참조 균주로부터 서열 다형성을 가지거나 공동 감염된 병원체들을 가진다. 또한 마이크로어레이들은 비특이적 혼성화 및 다른 인공물로부터의 고유 소음을 가진다. 따라서, 마이크로어레이 데이터를 해석하는 것은 SPS에 대한 프로브 신호 강도 프로파일을 일치시키거나 단순한 통계 방법(예를 들어, T-검정, ANONA 등)의 간단한 문제가 아니다. 이런 문제에 집중하기 위해서, 강한 통계 소프트웨어, PDA v.1를 제조하였고, 이는 혼성화된 샘플에 존재하는 병원체들을 동정하기 위해 인실리코 예상 SPS에 대한 프로브 신호 강도의 분포를 분석한다(상기 참조).

어레이 상의 모든 프로브들에 대한 신호 강도들은 정상 분포에 해당하는 반면, 샘플에 존재하는 병원체 SPS를 포함하는 프로브들의 큰 비율은 매우 강한 신호 강도를 가져 오른쪽으로 비대칭된 분포를 나타낸다는 사실을 기초로 하여 프로브 신호 강도들의 분포를 분석함으로써 병원체들의 존재를 탐지할 수 있다는 것을 유추하였다(도 9a). 각 SPS에 대한 신호 강도 분포들의 테일을 검정하면 샘플 내에 공동 감염된 병원체들의 존재를 동정할 수 있다.

따라서, PDA v.1은 2 부분으로 구성된다: (1) 각 병원체 SPS의 프로브들의 프로브 신호 강도를 평가하기 위해 가중 쿨백-레이블러 발산(WKL; 향상된 쿨백-레이블러 검정), 및 (2) 각 SPS에 대한 WKL 점수들의 분포가 정상인지를 측정하기 위한 앤더슨-달링 검정.

최초 쿨백-레이블러는 확률 분포의 테일에서 차이를 신뢰할 수 있게 측정하지 못하고 프로브들/게놈의 수 및 각 신호 강도 bin의 크기에 크게 의존한다(쿨백 및 레이블러, 1951). 이런 결손은 각 분포의 테일에 더욱 가중치를 주기 위해 앤더슨-달링 통계량을 포함시키고 최초 확률 분포 대신에 누적 분포 함수를 사용함으로써 극복하였다(앤더슨 및 달링, 1952). 향상된 KL 발산을 가중 쿨백-레이블러 발산(WKL)로 부른다:

에서 프로브들의 신호 강도의 누적 분포 함수이다. 부존재하는 병원체들을 나타내는 SPS는 정상 신호 강도 분포를 가져야 하며 따라서 상대적으로 비교적 낮은 WKL 점수를 가져야 하며, 존재하는 병원체를 나타내는 것들은 높고, 통계적으로 현저한 범위 밖의 WKL 점수(도 9B)를 가져야 한다. PDA v.1의 두 번째 부분에서, WKL 점수들의 분포는 정상 상태에 대한 앤더슨-달링 검정에 영향을 받는다. P<0.05이면, WKL 부포는 비정상으로 생각되며, 범위 밖의 WKL 점수를 가진 병원체들이 존재하는 것을 암시한다. 병원체를 동정하자마자, 공동 감염된 병원체들의 존재에 대한 검정을 위해 이의 WKL 점수의 부존재하에서 개별 앤더슨-달링 검정을 수행한다. 이런 방식으로, 상기 방법은 정상 분포(즉, P>0.05; 상기 표 3 및 4 참조)가 남을 때까지 반복적으로 사용한다. PDA v.1은 매우 빠르고, 약 10초 후 혼성화된 마이크로어레이로부터 진단할 수 있다.

33개 임상 환자 샘플에 대한 병원체 진단

도 11에 도시된 작업도에 따라, 33개 임상 환자 샘플을 병원체 마이크로어레이 플랫폼에 혼성화함으로써 플랫폼을 평가하였다. 이들 중에서, 27개 표본들은 RSV A, RSV B 또는 메타뉴모바이러스로 미리 진단되었다. 우리 플랫폼은 21/27 샘플들로부터 정확하게 병원체를 탐지하였다. 바이러스가 탐지되지 않은(거짓-음성)6개 샘플들은 실시간 PCR(<10 바이러스성 복제물/반응)에 의한 탐지 한계에 있었고 이런 낮은 바이러스 양은 환자의 심각한 병에 원인이 되는 병인 물질이 되지 않을 것 같다. 이들 중 2개는 리노바이러스에 의해 감염되는 마이크로어레이에 의해 정화하게 진단되었다. 미공지된 병원체에 의해 발생된 심각한 호흡기 질환을 가진 6 환자들의 선별에서, 마이크로어레이는 샘플들 중 1에서 병인 물질을 동정하였다(상기 표 4). 이런 결과들은 실시간 PCR에 의해 증명되었다. 예상대로, 비-바이러스 병인을 가진 폐렴 환자로부터 추출한 샘플을 혼성화할 때 어떠한 병원체들도 탐지하지 않았다.

데이터 분석

마이크로어레이는 액슨 4000b 스캐너와 진픽스 4 소프트웨어(액슨 인스트루먼트)를 사용하여 5㎛ 해상도에서 스캔하였다. 신호 강도들은 님블레스캔 2.1 소프트웨어(님블레겐 시스템)를 사용하여 추출하였다. 자동화된 스크랩트을 사용하여, 각 프로브의 7개 복제물로부터 중앙 신호 강도(혼성화 인공물을 제거하기 위해) 및 표준 편차를 계산하였다. 프로브 신호 강도들은 게놈에 의해 분류하고 서열 순서로 정렬하였고, 그런 후에 자바 트리뷰(http://jtreeview.sourceforge.net)에서 신호 강도들의 그래프 보기를 위한 CDT 형식으로 재포맷하였다. 유사하게는, 프로브 중앙 신호 강도들은 어떤 병원체가 존재하고 예측의 연관 신뢰 수준을 측정하기 위해서 PDA v.1을 사용하여 분석하였다. 본 발명자들은 실험 결과들에 대한 프로브 디자인의 효과를 증명하고 본 발명에 따른 분석 알고리즘의 견고성을 보여주기 위해 실험을 실시하였다.

실험 결과에 대한 프로브 디자인의 효과

인간에 영향을 미치는 35개 바이러스로부터의 53555 40-mer 프로브를 함유하는 PDC는 4개 독립 마이크로어레이 실험을 위해 사용하였다. 이런 53555 프로브들은 각 바이러스의 5-bps 타일링에 기초하여 선택하였고 우리의 프로브 디자인 기준의 어떤 것에도 영향을 받지 않았다. 따라서, CG-함량, 교차-혼성화 및 잘 디자인된 프로브들을 가진 PDc의 증폭보다 현저하게 높게 되는 효과 없는 증폭 때문에 발생하는 에러를 예상할 수 있다. 4 실험에 대한 이런 나쁜 환경에서 우리의 분석 알고리즘을 시험하였다.

이런 실시예에서, 미공지된 병원체를 가진 인간 샘플은 랜덤 프로브를 사용하여 RT-PCR 공정에 의해 증폭하였고 그런 후에 PDC 상에 혼성화하였다. PDC 상의 35개 바이러스의 각각에 대한 프로브들이 유의 수준 0.05를 가진 원-테일 t-검정을 받게 하였고 어떤 바이러스가 각 실험에 대한 샘플에 있는지를 측정하기 위해 칩 상의 모든 프로브들의 신호 강도 대 이들의 신호 강도들의 가중 쿨백-레이블러(WKL) 발산을 계산하였다. 우리 프로그램에 의한 분석의 정확성의 확인은 샘플 속의 실제 바이러스의 동정하기 위해 웨트-랩 PCR(wet-lab PCR)에 의해 수행하였다. 표 6의 4 실험에 대한 분석 결과 및 표 6에 있는 상응하는 PCR 검증을 제공한다.

사용된 프로브 디자인 기준을 갖지 않는 PDC에 대해 행해진 분석 결과. 각 실험에 대해 검사된 샘플에서 실제 바이러스가 되는 분석 알고리즘에 의해 측정된 바이러스는 옅은 회색으로 표시하였다.

	실험 1		실험 2		실험 3		실험 4
샘플명칭	35259_324		35179_122		35253_841		35915_111
｜ D ｜	53555		53555		53555		53555
바이러스 (접수번호)	t-test p-valu e	WKL	t-test p-value	WKL	t-test p-valu e	WKL	t-test p-valu e	WKL
NC _001781.1	0	16.39 1	1	NA	0	10.856 35	1	NA
NC _003461.1	1	NA	1	NA	1	NA	1	NA
NC _003443.1	0.9993 24	NA	0.87301 7	NA	0.9980 2	NA	0.9999 61	NA
NC _001796.2	1	NA	1	NA	1	NA	1	NA
AY283794 .1	0	0.543 5	0.10814 1	NA	0	0.7759 59	0	0.43542 7
NC _005147.1	0	1.289 6	1	NA	0	1.3995 91	0	1.76291 2
NC _002645.1	0	1.294 3	0.99984 7	NA	0	1.6558 88	0	2.07933 4
NC _004148.2	1	NA	0.00273 3	5.7629 07	1	NA	1	NA
NC _002204.1 NC_002205.1 NC_002206.1 NC_002207.1 NC_002208.1 NC_002209.1 NC_002210.1 NC_002211.1	1	NA	1	NA	1	NA	1	NA
NC _001563.2	1	NA	0.00000 1	0.5378 26	1	NA	0.9950 13	NA
NC _002031.1	1	NA	0.00000 5	0.7587 58	0.9988 73	NA	0.3639 47	NA
NC _00272 8.1	1	NA	0.99906 2	NA	1	NA	1	NA
NC _00261 7.1	0.9999 94	NA	0	0.5718 44	1	NA	0.7690 98	NA
NC _00180 2.1	1	NA	0.99996 6	NA	1	NA	1	NA

NC _00397 7.1	0	2.742 4	0	2.1898 27	0	3.9787 47	0	1.49066 5
NC _00157 6.1	0.3712 24	NA	0.00464 3	0.9484 1	0.0095 99	1.2570 41	0	3.96153 2
NC _00255 4.1	0.0000 62	0.714 6	0	1.5272 92	0.2993 34	NA	0.0000 02	0.16623 9
NC _00154 5.1	0	1.454 5	0	2.4385 58	0	0.8697 82	0	0.98959 2
NC _00148 9.1	0	1.708 8	0.31912 5	NA	0	2.5930 65	0	1.51039 9
NC _00522 2.1	0.9997 57	NA	0.64631 4	NA	0.7739 12	NA	0.8078 75	NA
NC _00521 7.1	0.6047 7	NA	0.99990 3	NA	0.3543 58	NA	0.0008 71	0.62681 8
NC _00429 4.1	0	1.841 1	0.00052 3	0.9023 99	0	2.4321 5	0.0000 07	0.53753 1
NC _00429 1.1	0.6623 86	NA	0.95413 7	NA	0.2554 22	NA	0.0991 48	NA
NC _00143 7.1	1	NA	0	0.5930 93	1	NA	1	NA
AB189128 .1	1	NA	0.90621 3	NA	1	NA	1	NA
AF326573 .1	1	NA	0.03850 3	0.5397 83	1	NA	1	NA
AF489932 .1	1	NA	0.89979 7	NA	1	NA	1	NA
M87512 .1	1	NA	0.75966 8	NA	1	NA	1	NA
NC _00143 0.1	1	NA	0.91249 6	NA	1	NA	0.9999 12	NA
NC _00142 8.1	0.9999 88	NA	0.28479 2	NA	0.9993 46	NA	0.9571 64	NA
NC _00161 2.1	0.9703 79	NA	0.00000 1	0.5578 65	0.9988 78	NA	0.0612 26	NA
NC _00398 6.1	1	NA	0.00001 2	0.6044 74	1	NA	0.9979 45	NA
NC _00147 2.1	0.9999 99	NA	0.0046	0.4551 94	0.9995 79	NA	0.1434 04	NA
NC _00161 7.1	0.7214 65	NA	0.98373	NA	0.1787 33	NA	0.4142 09	NA
NC _00149 0.1	0.9998 08	NA	0.99502 9	NA	0.9973 69	NA	0.8590 25	NA
추정 바 이러스	NC_001781.1 (RSV)		NC_004148.2 (HMPV)		NC_001781.1 (RSV)		없음
확인 바이러스 (PCR)	NC_001781.1 (RSV)		NC_004148.2 (HMPV)		NC_001781.1 (RSV)		없음

본 발명은 첫 번째 3개 실험(상기 표 6에 결과 도시됨)에서 검사된 샘플에서 실제 바이러스를 정확하게 추정한다. 게다가, 샘플은 마지막 실험에서 바이러스를 갖지 않다고 추정할 수 있었다. 만일 0.05의 유의 수준으로 t-검정을 방금 사용하였다면, 각 샘플에 존재하는 탐지될 바이러스들의 수는 아래 표 7에 도시된다.

t-검정만을 사용하는 바이러스들의 거짓 양성 탐지

샘플 명칭	35259_324	35179_122	35253_841	35915_111
T-검정을 사용하여 탐지된 바이러스들	9	14	9	10
거짓 양성	8	13	8	10
Max KL 발산(>5.0)	16.391	5.76	10.85	-
T-검정을 사용하고 KL 발산에 의해 탐지된 바이러스들	1	1	1	0

t-검정을 통과한 바이러스들의 가중 쿨백-레이블러 발산을 사용함으로써, 모든 거짓 양성 바이러스들을 제거하고 실제 바이러스들을 동정할 수 있었다. 따라서, 우리의 분석 알고리즘은 높은 수준의 잡음하에서 바이러스를 견고하게 측정할 수 있다.

다음으로, 우리의 분석 결과에 대해 적용된 프로브 디자인 기준으로 PDC를 사용하는 효과를 조사하였다. 먼저, 35개 바이러스의 각각에 대한 증폭 효율 지도를 계산하였다. 그런 후에, 최초 PDC 상의 정확히 53555 프로브들을 프로브 디자인 기준에 따르게 하였다. 최대 수준의 CG-함량, 인간과 비표적 바이러스들에 대한 높은 유사성 및 낮은 증폭 효율을 가진 프로브들은 칩으로부터 제거되었다. 10955 프로브들의 전체는 제 2 세트의 실험을 위해 보유하였다. 제 1 세트의 실험들에 사용된 샘플들을 사용하여, 새로운 칩으로 아래 표 8의 4 실험을 반복하였다. 실험 결과들은 표 8에 제공된다.

사용된 프로브 디자인 기준에 의한 PDC 상에 행해진 분석 결과. 각 실험을 위해 검사될 샘플 속의 실제 바이러스가 될 분석 결과에 의해 측정된 바이러스는 옅은 회색으로 표시하였다.

	실험 1		실험 2		실험 3		실험 4
샘플명칭	35259_324		35179_122		35253_841		35915_111
｜ D ｜	10955		10955		10955		10955
바이러스 (접수번호)	t- test p- value	WKL	t-test p- value	WKL	t-test p- value	WKL	t-test p- value	WKL
NC _001781.1	0	18.54859	1	NA	0	11.17914	1	NA
NC _003461.1	1	NA	1	NA	1	NA	1	NA
NC _003443.1	0.548718	NA	0.53727	NA	0.002783	0.837121	0.020436	0.60355 2
NC _001796.2	1	NA	0.999907	NA	1	NA	1	NA
AY283794 .1	0	1.347801	0.024116	0.858364	0	1.523272	0	1.12863 7
NC_005147.1	0	1.604381	0.999697	NA	0	2.150019	0	2.89355 5
NC _002645.1	0	2.802742	0.999895	NA	0	4.612482	0	3.63577 1
NC _004148.2	1	NA	0.000003	9.324785	1	NA	1	NA
NC _00202 3.1 NC_00202 2.1 NC_00202 1.1 NC_00202 0.1 NC_00201 9.1 NC_00201 8.1 NC_00201 7.1	1	NA	0.124517	NA	1	NA	0.999163	NA

NC _00220 4.1 NC_00220 5.1 NC_00220 6.1 NC_00220 7.1 NC_00220 8.1 NC_00220 9.1 NC_00221 0.1 NC_00221 1.1	1	NA	0.998724	NA	1	NA	1	NA
NC _00156 3.2	0.98644 3	NA	0.428418	NA	0.76002	NA	0.112011	NA
NC _00203 1.1	0.99810 3	NA	0.003435	2.52162	0.278672	NA	0.409527	NA
NC _00272 8.1	0.99937 5	NA	0.30951	NA	0.969492	NA	0.297244	NA
NC _00261 7.1	0.63418	NA	0.003578	0.965856	0.247148	NA	0.025188	0.86116 3
NC _00180 2.1	1	NA	0.998118	NA	1	NA	1	NA
NC _00397 7.1	0	3.062956	0.000028	3.027442	0	4.574591	0	3.27770 8
NC _00157 6.1	0.57934 2	NA	0.101093	NA	0.155219	NA	0.026417	3.28033 5
NC _00255 4.1	0.6722	NA	0	2.289379	0.80654	NA	0.106683	NA
NC _00154 5.1	0	2.225817	0	2.794877	0.000019	1.674329	0	1.97064
NC _00148 9.1	0.09942 7	NA	0.999985	NA	0.000366	1.829543	0.000006	3.02323 5
NC _00522 2.1	0.99973 5	NA	0.294141	NA	0.974031	NA	0.356952	NA
NC _00521 7.1	0.91618 6	NA	0.994358	NA	0.600759	NA	0.032616	2.10562 8
NC _00429 4.1	0.86762 5	NA	0.235197	NA	0.100961	NA	0.052759	NA
NC _00429 1.1	0.99203 2	NA	0.964128	NA	0.714211	NA	0.206422	NA
AB189128 . 1	1	NA	0.732737	NA	0.999997	NA	0.98859	NA
AF326573 . 1	1	NA	0.435629	NA	0.999986	NA	0.905393	NA
AF489932 . 1	1	NA	0.322655	NA	0.999996	NA	0.996837	NA

M87512 .1	0.99961 7	NA	0.057346	NA	0.999758	NA	0.937937	NA
NC _00143 0.1	1	NA	0.865038	NA	1	NA	0.882339	NA
NC _00142 8.1	1	NA	0.522986	NA	0.999351	NA	0.749412	NA
NC _00161 2.1	0.99170 8	NA	0.751091	NA	0.990929	NA	0.257635	NA
NC _00398 6.1	0.99999 7	NA	0.02014	0.93616	0.937996	NA	0.708985	NA
NC _00147 2.1	0.99959	NA	0.977242	NA	0.957869	NA	0.692936	NA
NC _00161 7.1	0.43556 2	NA	0.474076	NA	0.028549	1.699567	0.079676	NA
NC _00149 0.1	1	NA	0.90881	NA	0.996231	NA	0.518662	NA
추정 바이 러스	NC_001781.1 (RSV)		NC_004148.2 (HMPV)		NC_001781.1 (RSV)		없음
확인 바이 러스( PCR )	NC_001781.1 (RSV)		NC_004148.2 (HMPV)		NC_001781.1 (RSV)		없음

다음 세트의 실험에서, 분석 알고리즘은 3 샘플 및 음성 샘플에 있는 실제 바이러스를 정확하게 탐지하였다. 우리 칩을 위한 우수한 프로브들을 디자인한 후에, 실험 1, 2 및 3의 실제 바이러스의 가중 쿨백-레이블러 발산은 프로브 디자인 없는 상응하는 실험보다 더 컸다. 이것은 실제 바이러스로부터의 신호 강도는 PDC에 있는 배경 소음보다 비교적 높았다는 것을 의미한다. 이것은 우리 프로브 디자인 기준은 PDC로부터의 일부 나쁜 프로브들을 제거하여 더욱 정확한 분석이 되게 한다는 것을 보여주었다.

다시, 0.05의 유의 수준으로 t-검정을 방금 사용하였다면, 아래 표 9에 도시한 4 실험의 결과를 제공한다. 이번에는, 각 샘플에 대해 존재하는 탐지될 바이러스들의 수는 표 9에 도시된다:

프로브 디자인에 의한 PDC에서 t-검정만을 사용하는 바이러스들의 거짓 양성 탐지.

샘플 명칭	35259_324	35179_122	35253_841	35915_111
T-검정을 사용하 여 탐지된 바이 러스들	6	9	9	10
거짓 양성	5	8	8	10
Max KL 발산(>5.0)	18.54859	9.324785	11.17914	-
T-검정을 사용하 고 KL 발산에 의 해 탐지된 바이 러스들	1	1	1	0

표 9로부터, 프로브 디자인은 샘플 35259_324 및 35179_122에 대한 t-검정에 의해 탐지된 거짓 양성 바이러스의 수는 감소하였다는 것을 볼 수 있다. 더욱 중요한 관찰은 실제 바이러스에 대한 가중 쿨백-레이블러 발산은 모두 4개 샘플에 대해 증가하였다는 것이다. 이것은 실제 바이러스의 신호들은 프로브 디자인 기준이 PDC에 적용될 때 배경 신호보다 더욱 분화된다는 것을 의미한다.

결론적으로, 본 발명자들은 유의 수준 0.05를 가진 원-테일 t-검사를 사용하고, 각 바이러스에 대한 신호 강도를 위해 가중 쿨백-레이블러 발산을 계산하면, PDC에 대한 데이터를 정확하게 분석하고 샘플 속의 실제 병원체를 높은 확률로 측정할 수 있다는 것을 보여주었다. 비록 분석 알고리즘은 높은 소음 수준하에서도 잘 작동하지만, 본 발명자들은 분석의 정확도는 PDC에 대한 프로브들의 우수한 세트를 선택하기 위해 상기 프로브 디자인 기준을 사용함으로써 향상된다는 것을 보여주었다.

프로드 디자인과 병원체 탐지에 대한 대안적 방법

매우 소수의 알고리즘이 마이크로어레이에 대한 교차-혼성화를 예측하는데 사용할 수 있고 단지 1개 알고리즘, E-predict는 보고되었고 마이크로어레이 상의 병원체들을 입증하는데 사용되었다(우리스만 등. 2005; 리 등. 2005). E-predict는 혼성화 표지와 각 마이크로어레이 프로브에 대한 혼성화의 이론적 자유 에너지로부터 유도된 예측된 표지와 일치한다. 그러나, 마이크로어레이를 분석하기 위해 E-predict를 사용하면 다수의 거짓 양성 콜을 유발시켰다(상기 표 5 참조). 예를 들어, E-predict는 RSV 환자 412에서 코로나바이러스를 탐지하였다(도 15). 판코로나바이러스 프라이머뿐만 아니라 OC43 및 229E 코로나바이러스에 대한 특이적 진단 프라이머를 사용하는 진단 PCR은 환자 412로부터의 코로나바이러스의 부존재를 확인하였다(상기 표 4 참조). E-predict를 사용하는 거짓 양성 콜은 인간 또는 RSV 게놈과 교차-혼성화된 코로나바이러스 프로브들로부터 얻은 것으로 가정하였다. 사실은, 최고의 신호 강도를 가진 50 코로나바이러스 프로브의 85%는 인간 게놈과 교차-혼성화되는 것으로 예측되었고 65%는 RSV에 대해 HD<17을 가지며, 과 교차-혼성화에 대한 12의 HD 문턱값 이상이다. 게다가, E-predict는 인간 게놈에 대한 교차-혼성화는 주요 고려사항일 수 있는 타일링 어레이 대신의 바이러스성 게놈 영역들 중에 많이 보존되는 프로브들을 함유하는 마이크로어레이 상에 작용하도록 최적화되었다. 따라서 이런 2가지 인자들 - 다른 마이클로어레이 디자인 전략과 인간 게놈에 대한 교차 혼성화는 플랫폼에 대한 E-predict의 나쁜 성능에 영향을 미치는 것 같다. E-predict에 의한 경험으로부터, PDA v1과 다른 알고리즘을 비교하는 것이 공정하지 않을 것인데, 다른 알고리즘들은 다른 프로브 길이에 대해 디자인되고 다른 응용분야와 플랫폼에 대해 최적화되었기 때문이다.

결론

교차-혼성화 문턱값을 실험적으로 측정함으로써, 임상 샘플들에 존재하는 특정 바이러스들에 잘 혼성화하는 프로브들만 포함하는 인실리코 병원체 표지 프로브 세트를 만들었다. AES 알고리즘은 전체 바이러스 게놈을 효과적으로 증폭하기 위해 유니버셜 프라이머 태그를 디자인하게 할 수 있다. PDA v.1 탐지 알고리즘과 함께, 임상 샘플들로부터의 마이크로어레이 상에 나타내어진 어떠한 병원체들도 신뢰할 수 있게 동정할 수 있다. 이 방법은 각 병원체 혼성화 표지의 실험적 확인을 위한 필수조건을 제거하고 병원체 동정을 위한 강력한 진단 플랫폼이 되도록 >10000 병원체들에 대한 프로브들을 함유하는 미래 마이크로어레이를 허용한다.

본 발명자들은 병원체 탐지 마이크로어레이에 대한 디자인과 분석을 최적화하고, 병원에서의 이들의 사용을 촉진한다. 랜덤 PCR에서 일상적으로 사용되는 프라이머 태그는 편향적이어서, 병원체 게놈들의 비-균일적 증폭을 초래하는 것을 발견하였다. 이런 바이어스는 AES 알고리즘을 사용하여 프라이머들을 디자인함으로써 피할 수 있다. 인실리코 표지 프로브 세트는 어떤 프로브들이 어레이 상에 나타내어진 임의의 병원체에 혼성화하는 지 정확하게 예측하게 한다.

PDA v.1 탐지 알고리즘과 함께, 이 방법은 각 병원체 혼성화 표지의 실험적 확인을 위한 필수조건을 제거하고 병원체 동정을 위한 강력한 진단 플랫폼이 되도록 >10000 병원체들에 대한 프로브들을 함유하는 미래 마이크로어레이를 허용한다.

여기서, 바이러스성 증폭 효율, 혼성화 신호 결과, 표적-프로브 어닐링 특이성, 및 주문제작 마이크로어레이 플랫폼을 사용하는 병원체 탐지의 재생산성 사이의 복잡한 관계의 체계적인 조사의 결과를 보고한다. 본 발명자들의 발견은 최적 병원체 표적 프로브 세트(SPS)의 인실리코 예측을 위한 새로운 방법론의 기초를 형성하며, 바이러스성 증폭 효율(마이크로어레이 혼성화 이전)을 지배하는 인자들을 분명히 하고 바이러스성 증폭 효율 점수(AES) 및 최적 프로브 선택 사이의 중요한 관련성을 증명한다. 마지막으로, 본 발명자들은 바이러스 농도의 범위에 걸쳐 임상 표본들에 있는 병원체들을 빠르고 재생가능하게 동정할 수 있는 새로운 통계학-기초 병원체 탐지 알고리즘(PDA)을 개시한다.

본 발명자들은 적어도 4000 바이러스 복제물이 존재하는 경우(상기 표 3 참조) 높은 정도의 확실성으로 임상 샘플에서 바이러스들을 탐지하기 위해서, 공개적으로 사용가능한 데이터베이스로부터 얻은 바이러스성 게놈 서열의 사용 가능성을 증명하였다. 바이러스성 게놈 서열의 민감성은 항원 탐지 방법과 비슷하여, 임상적으로 관련된 탐지 도구(리우 등. 2005; 마라 등. 2003)가 되게 한다. 인실리코 병원체 혼성화 표지를 예측하는 능력은 먼저 어레이를 순수한 병원체 샘플에 혼성화함으로써 실험적 입증을 필요로 하는 현재의 마이크로어레이 방법에 비해 현저한 장점을 정확하게 제공한다. 어레이 상에 나타내어진 병원체들의 특이적 동정 이외에, PDA v.1은 어레이 상에 특이적으로 나타나지 않는 게놈들에 대한 병원체 종, 과 또는 속의 동정을 허용한다(HD 및 MCM에 대한 문턱값을 완화시킴으로써). 이 정보는 클리닉에서 치료를 결정하는데 충분하다. AES-최적화 태그로, 비-AES-최적화 태그를 사용하여 증폭될 때 더 일지 탐지되지 않을 수 있는 임상 샘플로부터의 바이러스를 동정할 수 있었다. 따라서 AES에 의한 태그의 선택은 PCR 효율과 탐지의 민감성을 증가시켰다. 본 발명에 따른 알고리즘은 DNA 라이브러리의 발생 및 재서열화를 위한 RNA의 풍부함과 같은 다른 태그화된-기초 PCR 응용분야에 적용될 수 있다.

참조문헌

본 발명의 내용 중에 포함되어 있음

SEQUENCE LISTING <110> Agency for Science, Technology and Research <120> Method and/or apparatus of oligonucleotide design and/or nucleic acid detection <130> FP3143 <140> 11/202,023 <141> 2005-08-12 <160> 13 <170> PatentIn version 3.3 <210> 1 <211> 26 <212> DNA <213> Artificial <220> <223> Forward and/or reverse random primer (Figure 1A) <220> <221> misc_feature <222> (18)..(26) <223> n is a, c, g, or t <400> 1 gtttcccagt cacgatannn nnnnnn 26 <210> 2 <211> 26 <212> DNA <213> Artificial <220> <223> Random forward primer (Figure 1B) <400> 2 gtttcccagt cacgatagca tgaggg 26 <210> 3 <211> 26 <212> DNA <213> Artificial <220> <223> Random reverse primer (Figure 1B) <400> 3 gtttcccagt cacgatacga atagct 26 <210> 4 <211> 22 <212> DNA <213> Artificial <220> <223> Fragment of virus sequence (upper leftmost strand of virus sequence in Figure 1B) <400> 4 acgatatccg cgaatagcta ga 22 <210> 5 <211> 23 <212> DNA <213> Artificial <220> <223> Fragment of virus sequence (upper rightmost strand of virus sequence in Figure 1B) <400> 5 catccctcat gcatggggca att 23 <210> 6 <211> 22 <212> DNA <213> Artificial <220> <223> Fragment of virus sequence (lower leftmost strand of virus sequence in Figure 1B) <400> 6 tgctataggc gcttatcgat ct 22 <210> 7 <211> 23 <212> DNA <213> Artificial <220> <223> Fragment of virus sequence (lower rightmost strand of virus sequence in Figure 1B) <400> 7 gtagggagta cgtaccccgt taa 23 <210> 8 <211> 17 <212> DNA <213> Artificial <220> <223> Random Primer Tag (top strand Figure 1C and 1D) <400> 8 gtttcccagt cacgata 17 <210> 9 <211> 17 <212> DNA <213> Artificial <220> <223> Random Primer Tag (bottom strand Figure 1C and 1D) <400> 9 caaagggtca gtgctat 17 <210> 10 <211> 17 <212> DNA <213> Artificial <220> <223> Primer A1 (Figure 13) <400> 10 gtttcccagt cacgata 17 <210> 11 <211> 17 <212> DNA <213> Artificial <220> <223> Primer A2 (Figure 13) <400> 11 gatgagggaa gatgggg 17 <210> 12 <211> 17 <212> DNA <213> Artificial <220> <223> Primer A3 (Figure 13) <400> 12 ctcatgcacg acccaaa 17 <210> 13 <211> 17 <212> DNA <213> Artificial <220> <223> Primer A4 (Figure 13) <400> 13 agatccattc cacccca 17

Claims

임의의 순서로 다음 단계를 포함하는 핵산 탐지를 위한 적어도 하나의 올리고뉴클레오티드를 디자인하는 방법:

(I) 증폭될 적어도 하나의 표적 핵산의 적어도 한 영역을 동정 및/또는 선택하는 단계, 상기 영역(들)은 평균 AE보다 더 높은 증폭(AE) 효과를 가진다; 및

(II) 선택된 영역(들)에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드를 디자인하는 단계.
제 1 항에 있어서,

상기 선택된 영역(들)의 AE는 증폭 효율 점수는 포워드 프라이머(r_i)가 위치(i)에 결합할 수 있고 리버스 프라이머(r_j)가 표적 핵산의 위치(j)에서 결합할 수 있고 ｜i-j｜는 증폭되기 원하는 표적 핵산의 영역이라는 확률인 증폭 효율 점수(AES)로 계산될 수 있는 방법.
제 2 항에 있어서,

｜i-j｜는 ≤ 10000bp인 방법.
제 2 항에 있어서,

｜i-j｜는 1000bp인 방법.
제 2 항에 있어서,

｜i-j｜는 ≤ 500bp인 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,

단계(I)은 표적 핵산의 각 위치에 대한 기하학적 증폭 바이어스의 효과를 측정하는 단계, 평균 AE보다 더 높은 증폭 효과(AE)를 가진 영역(들)으로 증폭될 적어도 하나의 영역(들)을 선택하는 단계를 포함하는 방법.
제 6 항에 있어서,

상기 기하학적 증폭 바이어스는 PCR 바이어스인 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,

상기 선택된 영역(들)에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드는 다음 기준의 적어도 하나에 따라 선택되고 디자인되는 방법:

(a) 상기 선택된 올리고뉴클레오티드(들)는 40% 내지 60%의 CG-함량을 가진다;

(b) 상기 올리고뉴클레오티드(들)는 최근접-이웃 모델을 기초로 계산된 최고 자유 에너지를 가짐으로써 선택된다;

(c) 표적 핵산(v_a 및 v_b)의 올리고뉴클레오티드(s_a 및 s_b) 서브스트링을 고려하면, s_a는 s_a 및 임의의 길이-m 서브스트링 s_b 사이의 해밍 거리(hamming distance) 및/또는 s_a 및 올리고뉴클레오티드 s_b의 최장 공통 서브스트링(longest common substring)을 기초로 선택된다;

(d) 표적 핵산(v_a)에 특이적인 길이-m의 임의의 올리고뉴클레오티드(s_a)의 경우에, 올리고뉴클레오티드(s_a)는 표적 핵산과 다른 핵산의 임의의 영역과 어떠한 일치점도 갖지 않는 경우 선택되며 만일 올리고뉴클레오티드(s_a) 길이-m이 표적 핵산과 다른 핵산과 일치점을 갖는 경우, 최소의 최대 정렬 길이 및/또는 최소수의 일치점을 가진 올리고뉴클레오티드(s_a) 길이-m가 선택된다; 및

(e) 표적 핵산의 위치(i)에서 올리고뉴클레오티드(p_i)는 증폭된 표적 핵산의 위치(i)에 혼성화하는 것으로 예상된다면 선택된다.
제 8 항에 있어서,

기준 (e)하에서, 표적 핵산(v_a)의 위치(i)에 있는 올리고뉴클레오티드(p _i )는 P(p _i ｜v _a )> λ인 경우 선택되며, 여기서 λ는 0.5이고 P(p _i ｜v _a )는 p _i 가 표적 핵산(v_a)의 위치(i)에 혼성화하는 확률인 방법.
제 9 항에 있어서,

λ는 0.8인 방법.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,

P(p _i ｜v _a )
P(X≤x _i ) =
, 여기서 X는 v_a의 모든 올리고뉴클레오티드의 증폭 효율 점수(AES) 값을 나타내는 랜덤 변수이고, k는 v_a에 있는 올리고뉴클레오티드의 수이고 c _i 는 AES 값이 ≤ x _i 인 올리고뉴클레오티드의 수인 방법.
제 1 항 내지 제 11 항 중 어느 한 항에 있어서,

상기 방법은 선택된 및/또는 디자인된 올리고뉴클레오티드(들)의 제조 단계를 더 포함하는 방법.
다음 단계를 포함하는 적어도 하나의 표적 핵산을 탐지하는 방법:

(i) 적어도 하나의 생물학적 샘플을 제공하는 단계;

(ii) 생물학적 샘플에 포함된 핵산(들)을 증폭하는 단계;

(iii) 만일 존재하면, 생물학적 샘플 속의 적어도 하나의 표적 핵산에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드를 제공하는 단계, 여기서 상기 올리고뉴클레오티드(들)는 제 1 항 내지 제 12 항 중 어느 한 항의 방법에 따라 디자 인 및/또는 제조된다; 및

(iv) 상기 올리고뉴클레오티드(들)을 증폭된 핵산에 접촉하는 단계 및/또는 상기 표적 핵산(들)에 혼성화된 올리고뉴클레오티드(들)를 탐지하는 단계.
제 13 항에 있어서,

적어도 하나의 올리고뉴클레오티드는 적어도 하나의 올리고뉴클레오티드 프로브 또는 프라이머인 방법.
제 13 항 또는 제 14 항에 있어서,

상기 증폭 단계는 적어도 하나의 랜덤 포워드 프라이머 및/또는 적어도 하나의 리버스 랜덤 프라이머의 존재하에서 수행되는 방법.
제 13 항 내지 제 15 항 중 어느 한 항에 있어서,

상기 증폭 단계는 RT-PCR인 방법.
제 13 항 내지 제 16 항 중 어느 한 항에 있어서,

표적 핵산(v_a)의 위치(i)에 결합하는 포워드 프라이머 및/또는 위치(j)에 결합하는 랜덤 프라이머는 표적 핵산(v_a)의 각 위치(i)에 대한 증폭 효율 점수(AES _i )를 가진 프라이머들 중에서 선택되는 방법:

여기서

P ^f (i) 및 P ^r (i)는 랜덤 프라이머(r _i )가 각각 포워드 프라이머와 리버스 프라이머로 v_a의 위치(i)에 결합할 수 있고, Z≤10000 bp는 증폭되기 원하는 v_a의 영역이다.
제 1 항 내지 제 17 항 중 어느 한 항에 있어서,

상기 증폭 단계는 포워드 및 리버스 프라이머를 포함할 수 있고 포워드 및 리버스 프라이머의 각각은 5'-3' 방향으로 고정된 프라이머 헤더와 가변성 프라이머 테일을 포함할 수 있고 적어도 가변성 테일은 상기 표적 핵산(v_a)의 일부에 혼성화되는 방법.
제 13 항 내지 제 18 항 중 어느 한 항에 있어서,

상기 증폭 단계는 SEQ ID NO:1의 뉴클레오티드 서열을 가진 포워드 및/또는 리버스 랜덤 프라이머 또는 이의 변형체 또는 유도체를 포함하는 방법.
제 13 항 내지 제 19 항 중 어느 한 항에 있어서,

탐지되는 표적 핵산은 생물학적 샘플의 핵산에 외인성인 핵산인 방법.
제 13 항 내지 제 20 항 중 어느 한 항에 있어서,

탐지되는 표적 핵산은 적어도 하나의 병원체 게놈 또는 이의 절편인 방법.
제 21 항에 있어서,

상기 병원체 핵산은 바이러스, 기생충 또는 박테리아의 핵산 또는 이의 절편인 방법.
제 13 항 내지 제 22 항 중 어느 한 항에 있어서,

상기 생물학적 샘플은 인간으로부터 얻으며 만일 존재하면, 생물학적 샘플 내의 표적 핵산은 인간의 것이 아닌 방법.
제 13 항 내지 제 23 항 중 어느 한 항에 있어서,

상기 프로브들은 불용성 지지체 상에 위치되는 방법.
제 24 항에 있어서,

상기 불용성 지지체는 마이크로어레이인 방법.
제 13 항 내지 제 25 항 중 어느 한 항에 있어서,

상기 탐지 단계(iv)에서, v_a에 혼성화되는 프로브들의 신호 강도의 평균은 프로브(
v_a)의 평균보다 통계적으로 높아서, 생물학적 샘플 속의 v_a의 존재를 나타내는 방법.
제 13 항 내지 제 25 항 중 어느 한 항에 있어서,

상기 탐지 단계(iv)에서, v_a에 혼성화되는 프로브들의 신호 강도의 평균은 프로브(
v_a)의 평균보다 통계적으로 높고 상기 방법은 높은 신호 강도를 가진 탐지 방법에 사용된 프로브의 비율과 높은 신호 강도를 가진 프로브(
v_a)의 비율의 상대적 차이를 계산하는 단계를 더 포함하고, 프로브(v_a)의 신호 강도의 밀도 분포는 프로브(
v_a)의 신호 강도보다 더욱 양으로 비대칭이어서, 생물학적 샘플 속의 v_a의 존재를 나타내는 방법.
제 13 항 내지 제 25 항 중 어느 한 항에 있어서,

상기 탐지 단계(iv)에서, 생물학적 샘플 속의 적어도 하나의 표적 핵산의 존재는 t-검정 ≤ 0.1 및 앤더슨-달링 검정 값 ≤ 0.05 및/또는 가중 쿨백-레이블러 발산 ≥ 1.0에 의해 주어지는 방법.
제 28 항에 있어서,

상기 t-검정 값은 ≤ 0.05인 방법.
제 28 항 또는 제 29 항에 있어서,

가중 쿨백-레이블러 발산의 값은 ≥ 5.0인 방법.
제 13 항 내지 제 25 항 중 어느 한 항에 있어서,

탐지 단계(iv)는 가중 쿨백-레이블러(WKL) 발산 점수의 분포를 계산함으로써 표적 핵산(들)(v_a)에 대한 각 병원체 특이적 지표 프로브 세트(SPS)에서 프로브(들)의 프로브 신호 강도를 평가하는 단계를 포함하는 방법:

Q _a (j)는 bin b _j 에서 발견된 P _a 에서 프로브들의 신호 강도의 누적 분포 함수이고; Q _a -(j)는 bin b _j 에서 발견된
에서 프로브들의 신호 강도의 누적 분포 함수이고 P _a 는 바이러스(v_a)의 프로브들의 세트이고
= P-P _a 이다.
제 31 항에 있어서,

표적 핵산들(v_a)의 부존재를 나타내는 각 지표 프로브 세트(SPS)는 정상적으로 분포된 신호 강도 및/또는 WKL<5의 가중 쿨백-레이블러(WKL) 발산 점수를 갖는 방법.
제 32 항에 있어서,

적어도 하나의 표적 핵산들(v_a)의 존재를 나타내는 각 지표 프로브 세트(SPS)는 양으로 비대칭된 신호 강도 분포 및/또는 WKL>5의 가중 쿨백-레이블러(WKL) 발산 점수를 가지는 방법.
제 31 항 내지 제 33 항 중 어느 한 항에 있어서,

WKL 점수(들)의 분포에 대한 앤더슨-달링 검정을 수행하는 단계를 더 포함하고, P>0.05의 결과는 표적 핵산(들)(v_a)의 부존재를 나타내는 방법.
제 31 항 내지 제 33 항 중 어느 한 항에 있어서,

WKL 점수(들)의 분포에 대한 앤더슨-달링 검정을 수행하는 단계를 더 포함하고, P<0.05의 결과는 표적 핵산(들)(v_a)의 존재를 나타내는 방법.
제 35 항에 있어서,

추가 앤더슨-달링 검정이 수행되어 추가 공동 감염 표적 핵산(들)의 존재를 나타내는 방법.
적어도 하나의 표적 핵산(v_a)에 적어도 하나의 올리고뉴클레오티드 프로브의 혼성화를 탐지하는 단계를 포함하고 v_a에 혼성화되는 프로브의 신호 강도의 평균은 프로브(
v_a)의 평균보다 통계적으로 높아서, v_a의 존재를 나타내는 적어도 하나의 표적 핵산(v_a)의 존재를 측정하는 방법.
제 37 항에 있어서,

v_a에 혼성화하는 프로브들의 신호 강도들의 평균은 프로브(
v_a)의 평균보다 통계적으로 높고 상기 방법은 높은 신호 강도를 가진 탐지 방법에 사용된 프로브의 비율과 높은 신호 강도를 가진 프로브(
v_a)의 비율의 상대적 차이를 계산하는 단계를 더 포함하고, 프로브(v_a)의 신호 강도의 밀도 분포는 프로브(
v_a)의 신호 강도보다 더욱 양으로 비대칭이어서, v_a의 존재를 나타내는 방법.
제 37 항 또는 제 38 항에 있어서,

생물학적 샘플 속의 적어도 하나의 표적 핵산의 존재는 t-검정 ≤ 0.1의 값 및/또는 앤더슨-달링 검정 값 ≤0.05 및/또는 ≥ 1.0의 가중 쿨백-레이블러 발산 점수에 의해 주어지는 방법.
제 39 항에 있어서,

상기 t-검정 값은 ≤ 0.05인 방법.
제 39 항 또는 제 40 항에 있어서,

가중 쿨백-레이블러 발산의 값은 ≥ 5.0인 방법.
다음 단계를 포함하는 적어도 하나의 표적 핵산을 탐지하는 방법:

(i) 적어도 하나의 생물학적 샘플을 제공하는 단계;

(ii) 생물학적 샘플에 포함된 핵산(들)을 증폭하는 단계;

(iii) 만일 존재하면, 생물학적 샘플 속의 적어도 하나의 표적 핵산에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드를 제공하는 단계; 및

(iv) 상기 올리고뉴클레오티드(들)를 증폭된 핵산에 접촉하는 단계 및 표적 핵산에 혼성화된 올리고뉴클레오티드(들)를 탐지하는 단계, 여기서 v_a에 혼성화된 올리고뉴클레오티드(들)의 신호 강도의 평균은 프로브(
v_a)의 평균보다 통계적으로 높아서, 생물학적 샘플 속의 v_a의 존재를 나타낸다.
제 42 항에 있어서,

단계(iv)에서, v_a에 혼성화되는 프로브들의 신호 강도의 평균은 프로 브(
v_a)의 평균보다 통계적으로 높고 상기 방법은 높은 신호 강도를 가진 탐지 방법에 사용된 프로브의 비율과 높은 신호 강도를 가진 프로브(
v_a)의 비율의 상대적 차이를 계산하는 단계를 더 포함하고, 프로브(v_a)의 신호 강도의 밀도 분포는 프로브(
v_a)의 신호 강도보다 더욱 양으로 비대칭이어서, 생물학적 샘플 속의 v_a의 존재를 나타내는 방법.
제 42 항 또는 제 43 항에 있어서,

단계(iv)에서, 생물학적 샘플 속의 적어도 하나의 표적 핵산의 존재는 t-검정 ≤ 0.1의 값 및/또는 앤더슨-달링 검정 값 ≤0.05 및/또는 ≥ 1.0의 가중 쿨백-레이블러 발산 점수에 의해 주어지는 방법.
제 44 항에 있어서,

t-검증 값은 ≤ 0.05인 방법.
제 44 항 또는 제 45 항에 있어서,

가중 쿨백-레이블러 발산의 값은 ≥5.0인 방법.
제 37 항 내지 제 46 항 중 어느 한 항에 있어서,

탐지되는 표적 핵산은 생물학적 샘플의 핵산에 외인성인 핵산인 방법.
제 37 항 내지 제 47 항 중 어느 한 항에 있어서,

탐지되는 표적 핵산은 적어도 하나의 병원체 게놈 또는 이의 절편인 방법.
제 48 항에 있어서,

상기 병원체 핵산은 바이러스, 기생충 또는 박테리아의 핵산 또는 이의 절편인 방법.
제 37 항 내지 제 47 항 중 어느 한 항에 있어서,

상기 생물학적 샘플은 인간으로부터 얻으며 만일 존재하면, 생물학적 샘플 내의 표적 핵산은 인간의 것이 아닌 방법.
제 37 항 내지 제 48 항 중 어느 한 항에 있어서,

상기 적어도 하나의 프로브는 불용성 지지체 상에 위치되는 방법.
제 51 항에 있어서,

상기 지지체는 마이크로어레이인 방법.
핵산 탐지를 위한 적어도 하나의 올리고뉴클레오티드를 디자인하기 위한 장치로서,

(i) 증폭될 적어도 하나의 표적 핵산의 적어도 한 영역을 동정 및/또는 선택하는 단계, 상기 영역(들)은 평균 AE보다 더 높은 증폭(AE) 효과를 가진다; 및

(ii) 선택된 영역(들)에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드를 디자인하는 단계를 수행하도록 구성된 장치.
제 53 항에 있어서,

선택된 영역(들)의 AE는 증폭 효율 점수는 포워드 프라이머(r_i)가 위치(i)에 결합할 수 있고 리버스 프라이머(r_j)가 표적 핵산의 위치(j)에서 결합할 수 있고 ｜i-j｜는 증폭되기 원하는 표적 핵산의 영역이라는 확률인 증폭 효율 점수(AES)로 계산될 수 있는 장치.
제 54 항에 있어서,

｜i-j｜는 ≤ 10000bp, ≤ 1000bp 또는 ≤ 500bp인 장치.
제 53 항 내지 제 55 항 중 어느 한 항에 있어서,

단계(I)은 표적 핵산의 각 위치에 대한 기하학적 증폭 바이어스의 효과를 측정하는 단계, 평균 AE보다 더 높은 증폭 효과(AE)를 가진 영역(들)으로 증폭될 적어도 하나의 영역(들)을 선택하는 단계를 포함하는 장치.
제 56 항에 있어서,

상기 기하학적 증폭 바이어스는 PCR 바이어스인 장치.
제 53 항 내지 제 57 항 중 어느 한 항에 있어서,

상기 선택된 영역(들)에 혼성화할 수 있는 올리고뉴클레오티드(들)는 다음 기준의 적어도 하나에 따라 선택되고 디자인되는 장치:

(a) 상기 선택된 올리고뉴클레오티드(들)는 40% 내지 60%의 CG-함량을 가진다;

(b) 상기 올리고뉴클레오티드(들)는 최근접-이웃 모델을 기초로 계산된 최고 자유 에너지를 가짐으로써 선택된다;

(c) 표적 핵산(v_a 및 v_b)의 올리고뉴클레오티드(s_a 및 s_b) 서브스트링을 고려하면, s_a는 s_a 및 임의의 길이-m 서브스트링 s_b 사이의 해밍 거리(hamming distance) 및/또는 s_a 및 올리고뉴클레오티드 s_b의 최장 공통 서브스트링(longest common substring)을 기초로 선택된다;

(d) 표적 핵산(v_a)에 특이적인 길이-m의 임의의 올리고뉴클레오티드(s_a)의 경우에, 올리고뉴클레오티드(s_a)는 표적 핵산과 다른 핵산의 임의의 영역과 어떠한 일치점도 갖지 않는 경우 선택되며 만일 올리고뉴클레오티드(s_a) 길이-m이 표적 핵산과 다른 핵산과 일치점을 갖는 경우, 최소의 최대 정렬 길이 및/또는 최소수의 일치점을 가진 올리고뉴클레오티드(s_a) 길이-m가 선택된다; 및

(e) 표적 핵산의 위치(i)에서 올리고뉴클레오티드(p_i)는 증폭된 표적 핵산의 위치(i)에 혼성화하는 것으로 예상된다면 선택된다.
제 58 항에 있어서,

기준 (e)하에서, 표적 핵산(v_a)의 위치(i)에 있는 올리고뉴클레오티드(p _i )는 P(p _i ｜v _a )> λ인 겨우 선택되며, 여기서 λ는 0.5이고 P(p _i ｜v _a )는 p _i 가 표적 핵산(v_a)의 위치(i)에 혼성화하는 확률인 장치.
제 59 항에 있어서,

λ는 0.8인 장치.
제 53 항 내지 제 60 항 중 어느 한 항에 있어서,

P(p _i ｜v _a )
P(X≤x _i ) =
, 여기서 X는 v_a의 모든 올리고뉴클레오티드의 증폭 효율 점수(AES) 값을 나타내는 랜덤 변수이고, k는 v_a에 있는 올리고뉴클레오티드의 수이고 c _i 는 AES 값이 ≤ x _i 인 올리고뉴클레오티드의 수인 장치.
제 53 항 내지 제 61 항 중 어느 한 항에 있어서,

상기 구성은 선택된 및/또는 디자인된 올리고뉴클레오티드(들)의 제조 단계를 더 포함하는 방법.
제 53 항 내지 제 62 항 중 어느 한 항에 있어서,

적어도 하나의 올리고뉴클레오티드는 적어도 하나의 올리고뉴클레오티드 프로브 또는 프라이머인 장치.
다음 단계들 중 임의의 하나를 포함하는 적어도 하나의 표적 핵산을 탐지하도록 구성된 장치:

(i) 적어도 하나의 생물학적 샘플을 제공하는 단계;

(ii) 생물학적 샘플에 포함된 핵산(들)을 증폭하는 단계;

(iii) 만일 존재하면, 생물학적 샘플 속의 적어도 하나의 표적 핵산에 혼성화할 수 있는 적어도 하나의 올리고뉴클레오티드를 제공하는 단계, 여기서 상기 올리고뉴클레오티드(들)는 제 53 항 내지 제 63 항 중 어느 한 항에 따라 구성된 장치에 따라 디자인 및/또는 제조된다; 및

(iv) 상기 올리고뉴클레오티드(들)을 증폭된 핵산에 접촉하는 단계 및/또는 상기 표적 핵산(들)에 혼성화된 올리고뉴클레오티드(들)를 탐지하는 단계.
제 53 항 내지 제 64 항 중 어느 한 항에 있어서,

상기 증폭 단계는 적어도 하나의 랜덤 포워드 프라이머 및/또는 적어도 하나의 리버스 랜덤 프라이머의 존재하에서 수행되는 장치.
제 53 항 내지 제 65 항 중 어느 한 항에 있어서,

상기 증폭 단계는 RT-PCR인 장치.
제 53 항 내지 제 66 항 중 어느 한 항에 있어서,

표적 핵산(v_a)의 위치(i)에 결합하는 포워드 프라이머 및/또는 위치(j)에 결합하는 랜덤 프라이머는 표적 핵산(v_a)의 각 위치(i)에 대한 증폭 효율 점수(AES _i )를 가진 프라이머들 중에서 선택되는 장치:

여기서

P ^f (i) 및 P ^r (i)는 랜덤 프라이머(r _i )가 각각 포워드 프라이머와 리버스 프라이머로 v_a의 위치(i)에 결합할 수 있고, Z≤10000 bp는 증폭되기 원하는 v_a의 영역이다.
제 53 항 내지 제 67 항 중 어느 한 항에 있어서,

상기 증폭 단계는 포워드 및 리버스 프라이머를 포함할 수 있고 포워드 및 리버스 프라이머의 각각은 5'-3' 방향으로 고정된 프라이머 헤더와 가변성 프라이머 테일을 포함할 수 있고 적어도 가변성 테일은 상기 표적 핵산(v_a)의 일부에 혼성화되는 장치.
제 53 항 내지 제 68 항 중 어느 한 항에 있어서,

상기 증폭 단계는 SEQ ID NO:1의 뉴클레오티드 서열을 가진 포워드 및/또는 리버스 랜덤 프라이머 또는 이의 변형체 또는 유도체를 포함하는 장치.
제 53 항 내지 제 69 항 중 어느 한 항에 있어서,

탐지되는 표적 핵산은 생물학적 샘플의 핵산에 외인성인 적어도 하나의 핵산인 장치.
제 53 항 내지 제 69 항 중 어느 한 항에 있어서,

탐지되는 표적 핵산은 적어도 하나의 병원체 게놈 또는 이의 절편인 장치.
제 71 항에 있어서,

상기 병원체 핵산은 바이러스, 기생충 또는 박테리아의 핵산 또는 이의 절편 인 장치.
제 53 항 내지 제 72 항 중 어느 한 항에 있어서,

상기 생물학적 샘플은 인간으로부터 얻으며 만일 존재하면, 생물학적 샘플 내의 표적 핵산은 인간의 것이 아닌 장치.
제 53 항 내지 제 73 항 중 어느 한 항에 있어서,

상기 장치는 적어도 하나의 프로브가 놓이는 적어도 하나의 불용성 지지체를 포함하는 장치.
제 74 항에 있어서,

상기 불용성 지지체는 마이크로어레이인 장치.
제 64 항 내지 제 75 항 중 어느 한 항에 있어서,

상기 탐지 단계(iv)에서, v_a에 혼성화되는 프로브들의 신호 강도의 평균은 프로브(
v_a)의 평균보다 통계적으로 높아서, 생물학적 샘플 속의 v_a의 존재를 나타내는 장치.
제 64 항 내지 제 75 항 중 어느 한 항에 있어서,

상기 탐지 단계(iv)에서, v_a에 혼성화되는 프로브들의 신호 강도의 평균은 프로브(
v_a)의 평균보다 통계적으로 높고 상기 방법은 높은 신호 강도를 가진 탐지 방법에 사용된 프로브의 비율과 높은 신호 강도를 가진 프로브(
v_a)의 비율의 상대적 차이를 계산하는 단계를 더 포함하고, 프로브(v_a)의 신호 강도의 밀도 분포는 프로브(
v_a)의 신호 강도보다 더욱 양으로 비대칭이어서, 생물학적 샘플 속의 v_a의 존재를 나타내는 장치.
제 64 항 내지 제 75 항 중 어느 한 항에 있어서,

상기 탐지 단계(iv)에서, 생물학적 샘플 속의 적어도 하나의 표적 핵산의 존재는 t-검정 ≤ 0.1 및 앤더슨-달링 검정 값 ≤ 0.05 및/또는 가중 쿨백-레이블러 발산 ≥ 1.0에 의해 주어지는 장치.
제 78 항에 있어서,

상기 t-검정 값은 ≤ 0.05인 장치.
제 78 항 또는 제 79 항에 있어서,

가중 쿨백-레이블러 발산의 값은 ≥ 5.0인 장치.
제 64 항 내지 제 75 항 중 어느 한 항에 있어서,

탐지 단계(iv)는 가중 쿨백-레이블러(WKL) 발산 점수의 분포를 계산함으로써 표적 핵산(들)(v_a)에 대한 각 병원체 특이적 지표 프로브 세트(SPS)에서 프로브(들)의 프로브 신호 강도를 평가하는 단계를 포함하는 장치:

Q _a (j)는 bin b _j 에서 발견된 P _a 에서 프로브들의 신호 강도의 누적 분포 함수이고; Q _a -(j)는 bin b _j 에서 발견된
에서 프로브들의 신호 강도의 누적 분포 함수이고 P _a 는 바이러스(v_a)의 프로브들의 세트이고
= P-P _a 이다.
제 81 항에 있어서,

표적 핵산들(v_a)의 부존재를 나타내는 각 지표 프로브 세트(SPS)는 정상적으로 분포된 신호 강도 및/또는 WKL<5의 가중 쿨백-레이블러(WKL) 발산 점수를 갖는 장치.
제 81 항에 있어서,

적어도 하나의 표적 핵산들(v_a)의 존재를 나타내는 각 지표 프로브 세트(SPS)는 양으로 비대칭된 신호 강도 분포 및/또는 WKL>5의 가중 쿨백-레이블러(WKL) 발산 점수를 가지는 장치.
제 81 항 내지 제 83 항 중 어느 한 항에 있어서,

WKL 점수(들)의 분포에 대한 앤더슨-달링 검정을 수행하는 단계를 더 포함하고, P>0.05의 결과는 표적 핵산(들)(v_a)의 부존재를 나타내는 장치.
제 81 항 내지 제 83 항 중 어느 한 항에 있어서,

WKL 점수(들)의 분포에 대한 앤더슨-달링 검정을 수행하는 단계를 더 포함하고, P<0.05의 결과는 표적 핵산(들)(v_a)의 존재를 나타내는 장치.
제 85 항에 있어서,

추가 앤더슨-달링 검정이 수행되어 추가 공동 감염 표적 핵산(들)의 존재를 나타내는 장치.
제 53 항 내지 제 86 항 중 어느 한 항에 있어서,

상기 구성은 적어도 하나의 전자 저장 매체 상에 저정되는 장치.
제 1 항 내지 제 52 항 중 어느 한 항에 따른 방법을 수행하도록 구성된 컴퓨터 프로그램 제품.
적어도 하나의 올리고뉴클레오티드를 디자인 및/또는 적어도 하나의 표적 핵산을 탐지하기 위해 WKL 발산 점수 및/또는 앤더슨-달링 검정을 측정하도록 구성된 소프트웨어를 포함하는 컴퓨터 프로그램 제품.
제 89 항에 있어서,

WKL 앤더슨-달링 검정, 올리고뉴클레오티드 프로브(들)의 디자인, 올리고뉴클레오티드 프라이머(들)의 디자인 및/또는 표적 핵산(들)의 탐지는 제 1 항 내지 제 52 항 중 어느 한에 따라 정의되는 컴퓨터 프로그램 제품.
제 1 항 내지 제 52 항 중 어느 한에 따른 방법을 수행하도록 구성된 소프트웨어를 포함하는 제거가능한 전자 저장 매체.
적어도 하나의 올리고뉴클레오티드를 디자인 및/또는 적어도 하나의 표적 핵산을 탐지하기 위해 WKL 발산 점수 및/또는 앤더슨-달링 검정을 측정하도록 구성된 소프트웨어를 포함하는 제거가능한 전자 저장 매체.
제 92 항에 있어서,

WKL 앤더슨-달링 검정, 올리고뉴클레오티드 프로브(들)의 디자인, 올리고뉴클레오티드 프라이머(들)의 디자인 및/또는 표적 핵산(들)의 탐지는 제 1 항 내지 제 52 항 중 어느 한에 따라 정의되는 제거가능한 전자 저장 매체.