KR102106499B1

KR102106499B1 - 폴리머의 측정의 분석

Info

Publication number: KR102106499B1
Application number: KR1020147025898A
Authority: KR
Inventors: 스튜어트 윌리엄 레이드; 제임스 앤서니 클라크; 제임스 와이트; 개빈 하퍼
Original assignee: 옥스포드 나노포어 테크놀로지즈 리미티드
Priority date: 2012-02-16
Filing date: 2013-02-18
Publication date: 2020-05-04
Also published as: EP3736339A1; CN104321441B; IN2014DN06795A; AU2013220179B2; CA2866587C; EP2814980B8; BR112014020211A2; JP2015509710A; EP2814980B1; CA2866587A1; JP6226888B2; CN104321441A; EP3736339B1; KR20140125874A; US20150057948A1; US20190154655A1; EP2814980A1; AU2013220179A1; WO2013121224A1; US11959906B2

Abstract

나노포어를 통한 폴리머 이송 동안 수행된 폴리머에 대한 시간 순서 일련의 측정이 분석된다. 상기 측정은 나노포어에서의 k-mer의 정체(identiy)에 의존하고, k-mer는 폴리머의 k 폴리머 단위(k polymer unit)이고, 상기 k는 양수이다. 상기 방법은 상기 일련의 측정으로부터, 상기 측정의 특성을 나타내는 시간 순서 특징의 특징 벡터(feature vector)를 도출(deriving)하는 단계; 및 도출된 특징 벡터와 하나 이상의 다른 특징 벡터 간의 유사도를 결정하는 단계를 포함한다.

Description

폴리머의 측정의 분석{Analysis of measurements of a polymer}

본 발명은 일반적으로 나노포어를 통한 폴리머의 이송(translocation) 동안 수행된, 폴리머 단위, 비제한적 예를 들면 폴리뉴클레오티드를 포함하는 폴리머의 측정을 분석하는 분야에 관한 것이다.

나노포어 측정은 통상적으로 멤브레인을 사용하여 용액의 두 개의 풀(pool) 간의 물질(material)의 흐름(flow)을 한정(restrict)함으로써 만들어진다. 용액의 한 풀로부터 다른 쪽으로 물질의 이동(transfer)을 할 수 있게 하는 구멍(aperture)이 멤브레인 내에 제공된다. 구멍은 나노미터 크기(scale)로 하나 이상의 치수(dimension)를 갖는다. 물질이 포어를 통하여 이송되면서, 그 물질의 측정이 이루어진다. 가장 일반적으로 사용되는 설정(setup)은 나노포어를 통해 분자종(molecular species) 을 추진하는 인가된 전압의 적용에 의존한다. 전극이 각각의 용액 부피에 위치되고 용액은 전해질, 통상적으로 1 M NaCl과 같은 염을 포함한다. 전극을 가로질러 인가된 전위는 또한 포어를 통해 전해질을 추진시키고(drive) 전류를 생성시킨다. 물질이 포어를 통해 통과하는 경우, 이는 전류 측정에서 직접적으로 관찰되는 이온의 흐름을 변형시킨다. 전류 차단(block)의 정도 및 물질이 나노포어에서 보내는 기간이 그의 정체를 표시한다.

나노포어를 통해 통과시킴으로써 폴리머를 분석하는 원래의 개념은 1996년에 Branton et al. (US-5,795,782)에 의해 제안되었다. 이 경우, DNA 분자를 지질 멤브레인에 내장된(embed) 나노포어를 통해 통과시켰다. 전극을 멤브레인의 각각의 측에 위치시키고 인가된 전위를 DNA 분자를 멤브레인의 한 쪽으로부터 다른 쪽으로 추진하기 위해 사용하였다. DNA 분자의 이송 동안, 포어를 통한 트랜스-멤브레인 전류가 측정되었다. DNA의 상이한 서열로 인해 나노포어를 통해 흐르는 DNA로서 상이한 관찰 전류가 생기는 것으로 나타났다. 이들 초기의 실험은 나노포어를 통해 폴리머가 자유롭게(freely) 이송하는 뉴클레오티드의 호모폴리머를 사용하여 수행되었다. 이들 실험에서, 폴리머 이송의 비율은 매우 빠르고 (~ 5 ?/염기) 이로 인해 폴리머 내의 개별적 뉴클레오티드를 결정하기 힘들다.

급속한 DNA 이송의 한계(limitation)을 극복하기 위해, Branton et al. 은 나노포어를 통한 DNA 이송의 속도를 제어하는 폴리머라제의 사용을 개시한다. 이 명쾌한 해결책을 해당 분야에서 많은 연구자들이 선택하고 적용하여 다수의 문헌을 발표하였다. 기본 개념은 분자 모터 또는 분자 브레이크를 포괄할 수 있는, 폴리머의 움직임에 대한 래칫(ratchet)을 제공하는 것이다.

초기의 연구는 DNA의 움직임(motion)을 제어하는 폴리머라제의 사용에 집중되었다. 다수의 연구가 클레나우(Klenow) 단편을 사용하여 수행되었으나, 이들 실험은 나노포어의 상의 DNA-효소 복합체의 짧은 지속기간에 의해 제한되었다. 다수의 반응 개요는 이 약한 결합을 보상하기 위해 개발되었다 (예를 들어, Olasagasti et al., Nat Nanotechnol. 2010 Nov; 5(11):798-806, Ashkenasy et al., Angew Chem Int Ed Engl. 2005 Feb 18;44(9):1401-4 참조).

2010년에, Akeson et al.은 Phi29 DNA 폴리머라제 (DNAP)가 나노포어 상에서 작용할 수 있다는 것을 개시하였다 (예, Lieberman et al., J Am Chem Soc. 2010 Dec 22;132(50):17961-72, 61/402,903 참조). 주형 DNA에 결합하는 Phi29 DNAP의 강도는 다수의 효소 주기가 나노포어 상에서 수행될 수 있도록 충분하여, DNA가 래칫의 방식으로 나노포어를 통해 당겨질 수 있었다. 상기 논문은 또한 Phi29 DNAP가 효소 움직임이 억제된 조건 하에서 나노포어를 통한 DNA 움직임을 제어하는데 사용될 수 있다는 것을 밝혀냈다. 이들 조건에서, 효소 작용에 필수적인 Mg² ⁺가 금속 킬레이터 에틸렌디아민테트라아세트산(EDTA)의 부가를 통해 효과적으로 제거되었다. 인가된 전위는 DNA 가닥에 대해 힘을 제공하며, Phi29 DNAP는 포어를 통한 DN A 가닥의 "언지핑(unzipping)"을 제한하였다. 이러한 연구는 나노포어 시스템에서 효소가 분자 모터 또는 분자 브레이크로서 기능할 수 있는 것을 보여주었다.

분자 래칫으로서 폴리머라제를 사용하는 것 이외에, 일부 헬리카제 패밀리가 나노포어를 통한 폴리뉴클레오티드의 제어된 이동을 제공하는데 사용될 수 있다는 것이 입증되었다 (예, US 61/549,998 (N115020), US 61/581,332 (N115505), US 61/581,340 (N115506) 참조). 헬리카제는 나노포어 시스템 적절하게 사용될 수 있는 다수의 특성을 갖는다.

표적 단일 가닥 DNA의 이송을 늦추는 대안적 방법은 표적 가닥의 길이에 따라 ssDNA의 추가적 섹션을 혼성화 (hyb-DNA)하는 것이다. DNA의 표적 가닥은 인가된 전위 하에 포어를 통해 신속하게 공급된다. 가닥의 이중 가닥 섹션이 나노포어의 협착(constriction)에 도달하면, 가닥의 이송이 중단되고, 이로 인해 고정된 위치의 폴리머에서의 전류를 읽을 수 있다. hyb-DNA 섹션은 인가된 필드(field)의 힘에 의해 비-혼성화되고(un-hybridise), 표적 DNA 가닥은 또 다른 hyb-DNA가 마주칠 때까지 나노포어를 통해 이송된다. 이러한 방식으로, 다수의 고정된 위치의 DNA 가닥에 대한 전류 특징(current signature)이 수득된다. 복합체 시료 제조 기법을 사용하여, Derrington et al.은 이 시도를 사용한 DNA 가닥을 시퀀싱하는 방법을 제안하였다.

이들 시도로부터 생성된 데이터가 주요 특징을 공유하고, DNA의 이송이 각각의 단계가 나노포어 중 폴리머의 위치를 나타내고 각각의 특정 폴리머 위치가 특성 전류 수준(characteristic current level)을 갖는, 별개의 단계에서 발생한다. 전류 수준이 가끔 분산(variance)으로 지칭되는 변동을 보이는 경우가 있다. 이러한 특징은 "노이지 스텝 웨이브(noisy step waves)"의 형태를 갖는 신호를 초래한다.

보다 일반적으로 시스템의 일부 특성은 나노포어 중 폴리머 단위에 의존하고, 특성의 측정을 수행진다. 예를 들면, 측정 시스템이 나노포어를 절연(insulating) 멤브레인 상에 위치시키고 분석물 분자의 존재에서 나노포어를 통한 전압-구동 이온 이동을 측정함으로써 생성될 수 있다. 나노포어를 통한 폴리머의 제어된 움직임이 폴리머 서열을 표시하는 다수의 특징적인 측정 수준을 생성시킨다.

이전 개발(development)에서는, 폴리머의 기본 서열(underlying sequence)을 결정하는 것에 초점이 있었다. 일반적으로 이러한 시도에서, 신호 내 각각의 상태가 이들 상태의 전류 수준과 참조 데이터로부터의 알려진 전류 수준을 비교하여 독립적으로 분석되었다. 이 과정은 전류 신호를 폴리머 서열의 평가(estimate)로 전환한다. 다시 말하면 이는 신호 공간으로부터 서열 공간으로 정보를 전환하는 과정이다. 그러나, 서열을 신뢰성 있게 결정할 수 있는 측정 시스템을 개발하는데 있어서 실질적인 어려움이 있다. 이는 k-폴리머 단위의 그룹(k는 복수의 정수이고, 이하에서 'k-mer'로 지칭된다)에 의존하는 각각의 측정 값에 대해, 현재 알려진 대다수의 나노포어를 포함하는, 많은 유형의 측정 시스템에 통상적이다. 이는 하나 보다 많은 폴리머 단위가 관찰된 이온 전류에 기여하고, 측정되는 폴리머 단위보다 더 큰 "블런트 리더 헤드(blunt reader head)"를 갖는 측정 시스템으로서 개념적으로 생각될 수 있기 때문이다. 이러한 상황에서, 분석되는(resolved) 상이한 k-mer의 수가 k의 제곱(power)으로 증가한다. 예를 들면, n 개의 가능한 폴리머 단위가 존재한다면, 해결되는 상이한 다수의 k-mer는 n^k이다. 상이한 k-mer에 대한 측정은 분명히 분해되는 것이 바람직하지만, 이들 측정의 일부는 중첩되는 것이 보통이다. 특히 큰수(high number)의 k-mer의 경우, 상이한 k-mer에 의해 생성된 측정을 분해하기 어려워져, 예를 들어 폴리머 단위의 기본 서열과 같은 폴리머에 관한 정보 도출이 손상될 수 있다.

많은 연구가 단일 폴리머 단위에 의존하는 분해가능한(resolvable) 측정을 제공하는 측정 시스템의 설계를 목표로 한다. 그러나, 이는 예를 들면 근본적인 물리적 또는 생물학적 시스템 중 내재적 변이(inherent variation)로부터 변화하는 정도로 일어날 수 있는 측정 중 변이(variation) 및/또는 측정될 특성의 작은 규모 때문에 불가피한 측정 노이즈(measurement noise) 때문에, 실제 어려운 것으로 입증되었다. 다른 연구는 k-mer에 의존하는 측정을 용인하였으나, 상이한 k-mer로부터의 측정이 서로 분해가능한 측정 시스템의 설계를 목적으로 하였다. 그러나 실질적인 한계로 인해 이것이 매우 어려운 것으로 나타났다. 일부 상이한 k-mer에 의해 생산된 신호의 분포가 종종 중첩할 수 있다.

본 발명에 따르면, 나노포어를 통한 폴리머의 이송(translocation) 동안 수행된 폴리머에 대한 시간 순서의 일련의 측정(time-ordered series of measurement)을 분석하는 방법이 제공되고, 상기 측정은 나노포어에서의 k-mer의 정체(identity)에 의존하고, k-mer는 폴리머의 k 폴리머 단위(k polymer unit)이고, 상기 k는 양수이고, 상기 방법은

상기 일련의 측정으로부터, 상기 측정의 특성을 나타내는 시간 순서 특징의 특징 벡터(feature vector)를 도출(deriving)하는 단계; 및

도출된 특징 벡터와 하나 이상의 다른 특징 벡터 간의 유사도를 결정하는 단계를 포함하는 것인 방법을 포함한다.

이전 연구가 측정으로부터 정확한 서열을 도출하기 위해 노력했지만, 본 발명은 많은 적용이 정확한 폴리머 서열의 부여를 요구하지 않는다는 이해(appreciation)를 이용한다. 이는 서열 정보에 기대지 않고 더 높은 정도의 정확도로, 원하는 결과가 싸고, 신속하게 수득될 수 있는, 상당한 수의 진단, 임상, 과학, 유전적 적용을 포함한다. 구체적으로 본 발명은 측정의 특성을 나타내는 시간 순서 특징의 특징 벡터의 도출(derivation)을 포함한다. 도출된 특징 벡터와 하나 이상의 다른 특징 벡터 간의 유사도가 그 후 결정되고 이는 많은 적용에서 유용한 정보를 제공한다.

그 결과, 본 발명은 폴리머 서열의 부여(assignment)를 필요로 하지 않고, 즉, 서열 공간으로의 측정 신호의 전환을 반드시 요구하지는 않는다. 이는 많은 적용에서 폴리머의 유용한 분석을 제공하나, 이것이 서열 중 모든 단일 폴리머 단위를 분해(resolve)하는 것을 필요로 하지 아니므로 측정 시스템의 작동의 부담을 줄인다. 측정 시스템의 제약의 감소가 또한 측정 시스템의 범위를 증가시킨다. 이는 설계 또는 작동이 더 용이한 측정 시스템의 사용을 가능하게 할 수 있거나, 완전한 서열 정보를 제공할 수 없어도 폴리머의 특정 특성을 분석하기에 특별히 적합한 측정 시스템의 사용을 가능하게 할 수 있다.

본 발명의 근본적인 특징은 처리되지 않은 신호(raw signal), 즉 시간-순서의 일련의 측정의 시간-순서 특징의 특징 벡터로의 전환이다. 일련의 측정이 폴리머가 나노포어를 통해 이송할 때 도출되고, 따라서 이것이 완전하지는 않지만 전체 서열에 대한 정보를 제공한다. 특징 벡터의 도출은 또한 시간 순서이나 감소된 데이터 세트를 갖는 표현(representation)을 제공한다. 이 특징 벡터는 폴리머의 "서명(signature)"으로 생각될 수 있다. 특징 벡터는 그 후 유사도를 결정하기 위해 하나 이상의 다른 특징 벡터와 비교된다. 하나 이상의 다른 특징 벡터는 예를 들면, 메모리에 저장된 특징 벡터 또는 동일한 방식으로 도출된 다른 특징 벡터일 수 있다. 유사도에 기반하여, 폴리머의 특성이 도출될 수 있다.

일부의 신호에서는, 연속적 측정의 그룹이, 각각의 그룹마다 다른 각각의 k-mer에 따라 달라지는 각각의 k-mer에 대한 충분한 분해능(resolution)이 있다. 이러한 경우, 특징 벡터를 도출하는 단계는 연속적 측정의 그룹을 확인하는 단계, 및 각각의 그룹에 대하여, 그룹의 측정의 특성을 나타내는 하나 이상의 특징의 값을 도출하는 단계를 포함할 수 있다. 예를 들면, 상기 특징(feature)은: 측정 그룹의 평균; 측정 그룹의 기간; 측정 그룹의 분산(variance); 측정 그룹의 분포; 또는 그의 조합을 포함할 수 있다.

본 발명은 또한 더 작은 분해능을 갖는 신호에 적용가능하여, 일부 k-mer가 오직 단일 측정을 제공하거나 전혀 측정을 제공하지 않는다.

앞서 언급한 바와 같이, 일부 경우에 도출된 특징 벡터를 하나 이상의 클래스에서의 메모리에 저장된 하나 이상의 다른 특징 벡터와 비교할 수 있다. 이 경우에, 유사도가, 도출된 특징 벡터의 전체 또는 부분과 메모리에 저장된 하나 이상의 다른 특징 벡터의 전체 간에, 또는 대안적으로 도출된 특징 벡터의 전체 또는 부분과 메모리에 저장된 하나 이상의 다른 특징 벡터의 부분 간에 결정될 수 있다.

상기 방법은 도출된 상기 특징 벡터가 도출된 폴리머를 상기 결정된 유사도에 근거하여 상기 클래스에 속하는 것으로 분류하는 단계를 더 포함할 수 있다. 이는 조사 중인(under investigation) 폴리머의 확인을 제공한다.

메모리에 저장된 하나 이상의 다른 특징 벡터는 측정될 폴리머에 의존하여 선택될 수 있고, 또는 대안적으로 메모리에 저장된 복수의 다른 특징 벡터의 라이브러리가 사용될 수 있다.

일부 적용에서, 조합된 특징 벡터가 중첩 영역(overlapping region)을 갖는 둘 이상의 특징 벡터로부터 수득될 수 있으며, 여기에서 도출된 특징 벡터의 유사도는 상기 조합된 특징 벡터 간에 결정된다. 조합된 특징 벡터의 비-중첩 영역(non-overlapping region)은 도출된 특징 벡터 간의 유사도를 결정하기 위해, 예를 들면 도출된 특징 벡터의 특정 국부적 영역(localised region)을 확인하기 위해 사용될 수 있다.

따라서 상기 방법은 도출된 특징 벡터의 연속적 영역(continuous region) 또는 비연속적 영역(non-continuous region)과 하나 이상의 특징 벡터 간의 유사도를 결정하기 위해 사용될 수 있다.

일부 적용에서, 도출된 특징 벡터의 복수 부분(plural part)이 저장된 특징 벡터의 전체, 일부 또는 복수 부분과 비교될 수 있다.

상기 언급한 바와 같이, 다른 경우에 도출된 특징 벡터가 동일한 방법을 사용해 도출된 특징 벡터인 하나 이상의 다른 특징 벡터와 비교될 수 있다. 이는 서로간에 관하여(relative to each other), 조사에서의(under investigation) 복수의 폴리머의 서로 간의 특성의 확인을 제공한다. 일부 경우에, 상기 방법은 유사한 특징 벡터의 클러스터를 하나의 클래스로서 확인하는 단계 및 특징 벡터가 도출된 폴리머를 확인된 클래스에 속하는 것으로 분류하는 단계를 더 포함할 수 있다.

일 실시예에서, 동일한 방법을 사용하여 도출된 복수의 다른 특징 벡터가 있는 경우, 상기 방법은 특징 벡터의 중첩 부분에서의 유사도에 근거하여 공통된 폴리머의 단편인 폴리머로부터 도출된 특징 벡터를 확인하는 단계를 더 포함할 수 있다.

폴리머가 분류된 경우, 상기 방법은 상이한 클래스에 속하는 특징 벡터의 수를 세는 단계를 더 포함할 수 있다. 이는 조사 하에서 폴리머 집단의 분석을 위해 제공한다.

폴리머가 분류된 경우, 상기 방법은 도출된 특징 벡터가 폴리머가 속하는 것으로 분류된 클래스에 대한 특징 벡터와 비유사한 국부적 영역을 확인하는 단계를 더 포함할 수 있다.

폴리머가 예상된 정체(identity)를 갖는 유사한 기법에서, 도출된 특징 벡터는 메모리에 저장된 특징 벡터와 비교될 수 있고 유사도의 결정은 도출된 특징 벡터가 메모리에 저장된 하나 이상의 다른 특징 벡터와 비유사한 국부적 영역을 결정하는 단계를 포함한다.

도출된 특징 벡터가 예상되는 것과 비유사한 국부 부위의 이러한 확인은 폴리머의 긴 서열의 상대적으로 작은 영역의 변화가 유의적인 많은 적용에서 매우 효과적이다. 이러한 기법의 일 예는 폴리뉴클레오티드인 폴리머의 돌연변이를 확인하는 것이다.

상기 방법은 이전에 이미 이루어진 일련의 측정에 기초하여 수행될 수 있다. 대안적으로, 상기 방법은 나노포어를 통해 폴리머를 이송하는 단계 (translocating); 및 폴리머의 연속적인 일련의 측정을 수행하는 단계를 더 포함할 수 있다.

일련의 측정을 분석하는 방법은 분석에 근거하여 표적 폴리머의 존재, 부재, 또는 양을 평가하는 방법에 사용될 수 있다.

일부 경우에, 폴리머는 둘 이상의 폴리머의 혼합물을 포함할 수 있고, 하나 이상의 폴리머의 상대적 양을 결정할 수 있다.

표적 폴리머의 존재, 부재 또는 양을 평가하는 방법이 폴리머 분석물에 적용될 수 있고, 상기 방법은 폴리머 분석물을 폴리머로 단편화하는 단계; 및 단편화된 폴리머에 대하여 평가의 방법을 수행하는 단계를 포함한다. 폴리머가 폴리뉴클레오티드인 경우, 폴리머 단위는 뉴클레오티드고, 폴리머 분석물은 제한 효소에 의해 단편화될 수 있다.

일련의 측정을 분석하는 방법은 폴리머의 변형을 결정하는 단계에 적용될 수 있고, 소정의 시간에 걸쳐 반복적으로 나노포어를 통해 폴리머를 이송시키는 단계; 각각의 이송 동안, 폴리머의 연속적 일련의 측정을 수행하는 단계; 및 각각의 일련의 측정을 분석하는 단계를 포함한다:. 이 경우, 도출된 특징 백터와 하나 이상의 다른 특징 벡터 간의 유사도 결정의 단계는 (a) 각각의 일련의 측정으로부터 도출된, 도출된 특징 벡터와 동일한 하나 이상의 다른 특징 벡터 간의 유사도를 결정하는 단계 또는 (b) 상기 일련의 측정으로부터 도출된 모든 도출된 특징 벡터 간의 유사도를 결정하는 단계를 포함할 수 있다.

폴리머가 폴리뉴클레오티드인 경우, 폴리머 단위는 뉴클레오티드고, 상기 방법은 변형된 염기 또는 점 돌연변이의 존재를 결정하기 위해 사용될 수 있다.

일반적으로, 상기 방법은 치료 또는 진단을 안내하거나 개체(individual)를 확인하기 위해 사용될 수 있다.

본 발명은 다수의 적용을 갖는다. 일부 비-제한적 실시예 또는 적용은 다음과 같다.

본 발명은 폴리머의 분석을 위한 단일 분자 표지 자유 검출 시스템(single molecule label free detection system), 예를 들면 나노포어 시스템에 적용될 수 있다. 이는 주어진(given) 폴리머 위치에서 하나 이상의 모노머 단위에 의해 영향을 받는 인식 요소(recognition element)를 포함하는 이러한 시스템에 대하여 공통이다. 이러한 시스템에서, 측정과 폴리머 서열간의 관계를 추출하는 것은 어렵거나 지나치게 자원 요구가 많을 수(resource demanding) 있다.

본 발명은 폴리머 서명(polymer signature)이 상기 폴리머의 특성의 표시이고 정확한 폴리머 서열이 상기 특성을 결정하기 위해 알려져야 하는 것이 아닌 폴리머 분석 시스템에 적용될 수 있다. 예는 단일 염기 다형성 (SNP), 특정 서열의 존재 또는 부재, 폴리머 서열의 그루핑(grouping) 및 카운팅(counting), 표지 및 바이오마커의 설계(design), 및 변형되거나 손상된 DNA의 확인을 포함하나 이에 제한되지 않는다.

상기 방법은 예를 들면 시료 중 표적 폴리머 분석물의 존재, 부재 또는 양을 결정하기 위해 사용될 수 있다 .상기 방법은 임계(threshold)에 대한 양을 측정하기 위해 사용될 수 있다. 상기 방법은 폴리머의 혼합물 중 하나 이상의 표적 폴리머의 상대적 양을 결정하기 위해 사용될 수 있다.

상기 방법은 단일 시료의 분석에 기반하여 치료 또는 진단을 안내하기 위해 사용될 수 있다. 대안적으로 상기 방법은 예를 들면 개체의 질병의 진전 또는 개선을 모니터링하기 위해, 소정의 기간에 걸쳐 복수 회 수행될 수 있다. 상기 방법은 치료의 효능을 모니터링하기 위해 사용될 수 있고, 예를 들면, 치료 진단(theranostic)으로서 사용되는 경우이다.

상기 방법은 법의학 적용, 예를 들면 개체의 DNA 프로파일링을 위해 미토콘드리아 DNA 중 SNP를 검출하기 위해, 개체의 유전적 핑거프린팅을 위해, 예를 들면 단연쇄반복(short tandem repeat), 가변연쇄반복(variable tandem repeat) 등의 존재를 결정함으로써 사용될 수 있다.

모든 방법은 폴리머의 폴리머 단위의 서열 평가 없이 수행될 수 있다.

보다 나은 이해를 위해, 이하에서는 본 발명의 구체예를 첨부된 도면를 참조로 하여 비-제한적 실시예로서 기재할 것이다:
도 1은 나노포어를 포함한 측정 시스템의 모식도이고;
도 2는 측정 시스템에 의해 시간의 경과에 따라 측정된 사건의 신호의 플롯(plot)이다;
도 3은 나노포어를 포함하는 측정 시스템에서의 두 개의 상이한 폴리뉴클레오티드 측정의 진동수(frequency) 분포의 그래프이다;
도 4 및 5는 각각, 실험적으로 도출된 전류 측정의 설정에 적용된 제1 차 선형 모델로부터 예측된 값에 대한, 64개의 3-mer 계수 및 1024개의 5-mer 계수의 플롯이다;
도 6은 폴리머의 측정을 포함한 입력 신호를 분석하는 방법의 흐름도이다;
도 7은 도 6의 상태 검출(state detection) 단계의 흐름도이다;
도 8 및 9는 각각, 상태 검출 단계를 수행할 입력 신호 및 그 결과로 생긴 일련의 측정의 플롯이다;
도 10 및 11은 도 6의 유사도 결정 단계의 예시의 흐름도이다;
도 12는 본 발명의 실시예 2의 방법에서 중첩에 의해 확인된 서열의 3개의 단편에 대한 특징 벡터의 플롯이다;
도 13은 실시예 2에서 모든 라이브러리 서열과 비교된 후보 분자에 대한 유사도 스코어의 플롯이다;
도 14는 실시예 2 에서 최상 일치 라이브러리 분자(best match library molecule)와 정렬된 후보 분자의 플롯이다;
도 15는 실시예 2에서 176개의 후보 분자에 대한 분류의 히스토그램이다;
도 16은 분자 13의 SNP의 효과를 도시한, 본 발명의 방법의 실시예 3 에서의 특징 벡터의 그래프이다;
도 17은 실시예 3에서의 분자 13 중 3개의 SNP를 갖는 176개 후보 분자에 대한 분류의 히스토그램이다;
도 18은 실시예 3에서 측정된 분자의 라이브러리 특징 벡터와의 정렬 그래프이다;
도 19는 실시예 3에서 SNP의 위치를 나타내는, 측정과 라이브러리 특징 벡터 간의 위치-분해(position-resolved) 차이의 플롯이다;
도 20은 실시예 3 중 SNP 없이, 측정과 라이브러리 특징 벡터 간의 위치-분해 차이의 플롯이다;
도 21은 본 발명의 방법의 실시예 4에서 컨센서스 랜드마크로 데이터의 최종 정렬의 플롯이다;
도 22는 실시예 4에서 약 위치 337에 후보 분자 51-60의 위치-분해 차이의 플롯이다;
도 23 및 24는 본 발명의 방법의 실시예 5에서, 각각 두개의 클러스터 및 세개의 클러스터 데이터 세트에 대한 정렬 유사도 스코어를 합한 네이버(neighbour)에 의해 형성된 트리의 다이어그램이다;
도 25 내지 27은 실시예 5 중 각각 확인된 클러스터에 대한 데이터의 최종 정렬을 갖는 랜드마크 컨센서스의 그래프이다;
도 28 및 29는 실시예 5에서 각각 두개의 클러스터 및 세개의 클러스터 실험에 대한 분류의 히스토그램이다;
도 30은 본 발명의 방법의 실시예 6에서 정렬 유사도 스코어에 대한 네이버 조인닝(neighbour joining)에 의해 형성된 트리의 다이어그램이다; 및
도 31은 실시예 6에서 각각의 세개의 단편에 대한 데이터의 최종 정렬을 갖는 랜드마크 컨센서스의 그래프이다.

적용될 수 있는 폴리머는 다음과 같다.

폴리머는 생물학적 폴리머일 수 있다. 폴리머는 천연 또는 합성일 수 있다. 폴리머는 폴리뉴클레오티드 (또는 핵산), 단백질과 같은 폴리펩티드, 폴리사카라이드, 또는 기타 폴리머일 수 있다. 폴리펩티드의 경우, 폴리머 단위는 천연 발생 또는 합성인 아미노산일 수 있다. 폴리사카라이드의 경우, 폴리머 단위는 모노사카라이드일 수 있다.

적용될 수 있는 폴리뉴클레오티드는 다음과 같다.

핵산과 같은 폴리뉴클레오티드는 둘 이상의 뉴클레오티드를 포함하는 마크로분자이다. 폴리뉴클레오티드 또는 핵산은 임의의 뉴클레오티드의 조합을 포함할 수 있다. 폴리뉴클레오티드는 천연 발생 또는 인공(artificial)일 수 있다. 표적 폴리뉴클레오티드 중 하나 이상의 뉴클레오티드는 산화 또는 메틸화될 수 있다. 표적 폴리뉴클레오티드 중 하나 이상의 뉴클레오티드가 손상될 수 있다. 표적 폴리뉴클레오티드 중 하나 이상의 뉴클레오티드는 변형될 수 있고, 예를 들면 표지 또는 태그로 변형될 수 있다. 표적 폴리뉴클레티드는 하나 이상의 스페이서를 포함할 수 있다.

뉴클레오티드는 통상적으로 뉴클레오베이스, 당 및 하나 이상의 인산기를 포함한다. 뉴클레오베이스는 통상적으로 헤테로시클릭이다. 뉴클레오베이스는 퓨린 및 피리미딘, 더 구체적으로 아데닌, 구아닌, 티민, 우라실 및 시토신을 포함하나, 이에 제한되지 않는다. 당은 통상적으로 펜토스 당이다. 뉴클레오티드 당은 리보스 및 디옥시리보스를 포함하나, 이에 제한되지 않는다. 뉴클레오티드는 통상적으로 리보뉴클레오티드 또는 디옥시리보뉴클레오티드다. 뉴클레오티드는 통상적으로 모노포스페이트, 디포스페이트 또는 트리포스페이트를 포함한다. 포스페이트는 뉴클레오티드의 5' 또는 3'측에 부착될 수 있다.

뉴클레오티드는 아데노신 모노포스페이트 (AMP), 아데노신 디포스페이트 (ADP), 아데노신 트리포스페이트 (ATP), 구아노신 모노포스페이트 (GMP), 구아노신 디포스페이트 (GDP), 구아노신 트리포스페이트 (GTP), 티미딘 모노포스페이트 (TMP), 티미딘 디포스페이트 (TDP), 티미딘 트리포스페이트 (TTP), 우리딘 모노포스페이트 (UMP), 우리딘 디포스페이트 (UDP), 우리딘 트리포스페이트 (UTP), 시티딘 모노포스페이트 (CMP), 시티딘 디포스페이트 (CDP), 시티딘 트리포스페이트 (CTP), 5-메틸시티딘 모노포스페이트, 5-메틸시티딘 디포스페이트, 5-메틸시티딘 트리포스페이트, 5-히드록시메틸시티딘 모노포스페이트, 5-히드록시메틸시티딘 디포스페이트, 5-히드록시메틸시티딘 트리포스페이트, 시클릭 아데노신 모노포스페이트 (cAMP), 시클릭 구아노신 모노포스페이트 (cGMP), 디옥시아데노신 모노포스페이트 (dAMP), 디옥시아데노신 디포스페이트 (dADP), 디옥시아데노신 트리포스페이트 (dATP), 디옥시구아노신 모노포스페이트 (dGMP), 디옥시구아노신 디포스페이트 (dGDP), 디옥시구아노신 트리포스페이트 (dGTP), 디옥시티미딘 모노포스페이트 (dTMP), 디옥시티미딘 디포스페이트 (dTDP), 디옥시티미딘 트리포스페이트 (dTTP), 디옥시우리딘 모노포스페이트 (dUMP), 디옥시우리딘 디포스페이트 (dUDP), 디옥시우리딘 트리포스페이트 (dUTP), 디옥시시티딘 모노포스페이트 (dCMP), 디옥시시티딘 디포스페이트 (dCDP) 및 디옥시시티딘 트리포스페이트 (dCTP), 5-메틸-2'-디옥시시티딘 모노포스페이트, 5-메틸-2'-디옥시시티딘 디포스페이트, 5-메틸-2'-디옥시시티딘 트리포스페이트, 5-히드록시메틸-2'-디옥시시티딘 모노포스페이트, 5-히드록시메틸-2'-디옥시시티딘 디포스페이트 및 5-히드록시메틸-2'-디옥시시티딘 트리포스페이트를 포함하나, 이에 제한되지 않는다. 뉴클레오티드는 AMP, TMP, GMP, UMP, dAMP, dTMP, dGMP 또는 dCMP로부터 바람직하게 선택된다. 뉴클레오티드는 무염기(abasic) (즉, 뉴클레오베이스가 없음)일 수 있다. 뉴클레오티드는 추가적 변형을 포함할 수 있다. 구체적으로, 적절한 변형 뉴클레오티드는 2'아미노 피리미딘 (예를 들면 2'-아미노 시티딘 및 2'-아미노 우리딘), 2'-히드록실 푸린 (예를 들면, 2'-플루오로 피리미딘 (예를 들면 2'-플루오로시티딘 및 2'플루오로 우리딘), 히드록실 피리미딘 (예를 들면 5'-α-P-보라노 우리딘), 2'-O-메틸 뉴클레오티드 (예를 들면 2'-O-메틸 아데노신, 2'-O-메틸 구아노신, 2'-O-메틸 시티딘 및 2'-O-메틸 우리딘), 4'-티오 피리미딘 (예를 들면 4'-티오 우리딘 및 4'-티오 시티딘) 및 뉴클레오베이스의 변형을 갖는 뉴클레오티드 (예를 들면 5-펜티닐-2'-디옥시 우리딘, 5-(3-아미노프로필)-우리딘 및 1,6-디아미노헥실-N-5-카르바모일메틸 우리딘)을 포함하나, 이에 제한되지 않는다.

뉴클레오티드는 무염기 (즉, 뉴클레오베이스가 없음)일 수 있다.

폴리뉴클레오티드는 단일 가닥 또는 이중 가닥일 수 있다. 폴리뉴클레오티드는 하나 이상의 이중 가닥 영역 및 하나 이상의 단일 영역을 포함할 수 있다. 폴리뉴클레오티드는 디옥시리보핵산 (DNA) 또는 리보핵산 (RNA)과 같은 핵산일 수 있다. 표적 폴리뉴클레오티드는 한 가닥의 DNA에 혼성화된 한 가닥의 RNA를 포함할 수 있다. 폴리뉴클레오티드는 PNA (peptide nucleic acid), GNA (glycerol nucleic acid), TNA (threose nucleic acid), LNA (locked nucleic acid) 또는 뉴클레오티드 측쇄를 갖는 기타 합성 폴리머와 같은, 해당 기술 분야에 알려진 임의의 합성 핵산일 수 있다.

표적 폴리뉴클레오티드의 전체 또는 일부만 본 발명의 방법을 사용해 특성이 규명될 수 있다. 표적 폴리뉴클레오티드는 임의의 길이일 수 있다. 예를 들면, 폴리뉴클레오티드는 10 이상, 50 이상, 100 이상, 150 이상, 200 이상, 250 이상, 300 이상, 400 이상 또는 500 이상의 뉴클레오티드 쌍 길이일 수 있다. 폴리뉴클레오티드는 1000 이상의 뉴클레오티드 쌍, 5000 이상의 뉴클레오티드 쌍 길이 또는 100000 이상의 뉴클레오티드 쌍 길이일 수 있다.

표적 폴리뉴클레오티드는 임의의 적절한 시료에 존재할 수 있다. 본 발명은 통상적으로 표적 폴리뉴클레오티드를 포함하거나 포함하는 것으로 의심되는 것으로 알려지는 시료에 수행된다. 대안적으로, 본 발명은 시료 중에 그 존재가 알려지거가 예상되는 하나 이상의 표적 폴리뉴클레오티드의 정체(identity)를 확인하기 위한 시료에 수행될 수 있다.

연구될 수 있는 시료는 다음과 같다.

시료는 생물학적 시료일 수 있다. 본 발명은 임의의 유기체 또는 미생물로부터 수득되거나 추출된 시료에서 인 비트로에서 수행될 수 있다. 유기체 또는 미생물은 통상적으로 시생(archaean), 원핵생물(prokaryotic) 또는 진핵생물(eukaryotic)이고, 통상적으로 5개의 계(kingdom) 중 하나에 속한다: 식물계(plantae), 동물계(animalia), 균류(fungi), 모네라계(monera) 및 원생생물(protista). 본 발명은 임의의 바이러스로부터 수득되거나 추출된 시료에서 인 비트로에서 수행될 수 있다. 시료는 바람직하게 유체(fluid) 시료이다. 시료는 추가적으로 처리되어 유체 시료(fluid sample)를 제공하는, 원래 고체 또는 반고체(semi-solid) 일 수 있다. 이러한 예는 배설물(faecal), 피부, 조직, 털(hair), 뼈 및 근육이다. 시료는 통상적으로 환자의 체액을 포함한다. 시료는 예를 들면 소변(urine), 혈액, 혈장, 혈청, 림프, 타액, 간질액, 눈물, 점액 또는 양수로부터 선택될 수 있다. 통상적으로, 시료는 사람 근원(human in origin)일 수 있으나, 대안적으로 이는 또 다른 상업적으로 사육된 동물, 예를 들면 말, 소, 양 또는 돼지와 같은 포유동물로부터 유래될 수 있거나, 대안적으로 고양이 또는 개와 같은 애완동물일 수 있다. 대안적으로 식물 기원의 시료는 통상적으로 곡류, 콩과 식물(legume), 과일 또는 채소와 같은 상업적 작물, 예를 들면 밀, 보리, 귀리, 캐놀라, 옥수수, 콩(soya), 쌀, 바나나, 사과, 토마토, 감자, 포도, 담배, 콩(bean), 렌틸(lentil), 사탕 수수, 코코아, 목화로부터 수득될 수 있다.

시료는 비-생물학적 시료일 수 있다. 비-생물학적 시료는 바람직하게 유체 시료이다. 비-생물학적 시료의 예는 수술 유체(surgical fluid), 식수, 해수 또는 강수와 같은 물, 및 실험실 테스트(laboratory test)를 위한 시약, 폴리머 시약의 합성으로부터 수득된 폴리머와 같은 산업적 시료(industrial sample)를 포함한다.

시료는 통상적으로 분석되기 전에 예를 들면 원심분리에 의해 또는 적혈구와 같은 원치 않는 분자 또는 세포를 걸러 내는 멤브레인을 통한 통과에 의해, 처리될 수 있다. 시료는 취해진 후 즉시 측정될 수 있다. 시료는 또한 통상적으로 분석 전에, 바람직하게 -70^oC 미만에서 저장될 수 있다.

시료는 또한 US 61/490860에 보인 방법, 설계, 또는 변형을 받을 수 있다.

측정 시스템에 사용될 수 있는 멤브레인은 다음과 같다.

본 발명에 따르면, 임의의 멤브레인이 사용될 수 있다. 적절한 멤브레인은 당해 기술분야에서 잘 알려져 있다. 멤브레인은 바람직하게 양친매성 층일 수 있다. 양친매성 층은 친수성 및 친유성 특성을 모두 갖는, 인지질과 같은 양친매성 분자로부터 형성된다. 양친매성 층은 단층 또는 이중층일 수 있다. 멤브레인은 (Gonzalez-Perez et al., Langmuir, 2009, 25, 10447-10450)에 의해 개시된 바와 같이 공중합-블록 폴리머(co-block polymer)일 수 있다.

멤브레인은 지질 이중층일 수 있다. 지질 이중층은 세포막의 모델이고 다양한 실험 연구를 위한 탁월한 플랫폼으로 작용한다. 예를 들면, 지질 이중층은 단일-채널 기록(single-channel recording)에 의해 멤브레인 단백질의 인 비트로 조사를 위해 사용될 수 있다. 대안적으로, 지질 이중층은 다양한 물질의 존재를 검출하는 바이오센서로서 사용될 수 있다. 적절한 양친매성 층은 평면(planar) 지질 이중층, 지지형(supported) 이중충 또는 리포좀을 포함하나, 이에 제한되지 않는다. 지질 이중층은 바람직하게 평면 지질 이중층이다. 적절한 지질 이중층은 국제출원 제PCT/GB08/000563호 (WO 2008/102121로 공개), 국제출원 제PCT/GB08/004127호 (WO 2009/077734로 공개) 및 국제출원 제PCT/GB2006/001057호 (WO 2006/100484로 공개)에 개시된다.

지질 이중층을 형성하는 방법은 당해 기술분야에 알려져 있다. 적절한 방법은 실시예에 개시하였다. 지질 이중층은 지질 단층이 수용액/공기 계면에 수직인 구멍의 어느 한 쪽 측면을 지나 상기 계면 상에 수행되는, Montal and Mueller (Proc. Natl. Acad. Sci. USA., 1972; 69: 3561-3566)의 방법에 의해 통상적으로 형성된다.

Montal & Mueller의 방법은 비용-효과적(cost-effective)이고 단백질 포어 삽입에 적절한 우수한 품질 지질 이중층을 형성하는 상대적으로 간단한 방법이기 때문에 일반적이다. 이중층 형성의 다른 보통 방법은 팁-딥핑(tip-dipping), 페이팅 이중층(painting bilayer) 및 리포좀 이중층의 패치 클램핑(patch-clamping)을 포함한다.

바람직한 구체예에서, 양친매성 층은 국제출원 제PCT/GB08/004127호 (published as WO 2009/077734)에 개시된 바와 같이 형성된다.

바람직한 구체예에서, 멤브레인은 고체 상태 층(solid state layer)이다. 고체-상태층은 생물학적 유래(origin)가 아니다. 즉, 고체 상태층은 유기체 또는 세포와 같은 생물학적 환경, 또는 생물학적으로 이용가능한 구조체(structure)로부터 유래되거나 분리되지 않는다. 고체 상태층은 마이크로전자 물질(microelectronic material), Si₃N₄, Al₂O₃, 및 SiO와 같은 절연 물질(insulating material), 폴리아미드와 같은 유기 및 무기 폴리머, 테플론®과 같은 플라스틱 또는 2성분형 부가-큐어 실리콘 고무(two-component addition-cure silicone rubber)와 같은 탄성중합체(elastomers), 및 유리를 포함하나, 이에 제한되지 않는, 유기 물질 및 무기 물질로부터 형성될 수 있다. 고체 상태층은 그래핀(graphen)과 같은 1가층 또는 단지 수개의 원자 두께인(only a few atoms thick) 층으로부터 형성될 수 있다. 적절한 그래핀 층이 국제출원 제 PCT/US2008/010637호 (WO 2009/035647로 공개)에 개시된다. 고체 상태 멤브레인은 또한 생물학적 물질로부터 유래된 나노포어를 지지할 수 있고, 비-제한적 예가 Hall et al. (Nat Nanotechnol. 2010 Dec;5(12):874-7) 및 Bell et al. (Nano Lett. 2012 Jan 11;12(1):512-7), 및 국제출원 No. PCT/US2011/039621 (WO/2012/005857로 공개)에 의해 개시되었다.

상기 방법은 통상적으로 (i) 포어를 포함하는 인공 양친매성 층, (ii) 포어를 포함하는 분리된, 천연 양친매성 층, 또는 (iii) 세포에 삽입된 포어를 갖는 세포를 사용하여 수행된다. 상기 방법은 바람직하게는 인공 양친매성 층을 사용하여 수행된다. 이중층은 포어와 기타 트랜스멤브레인 및/또는 인트라멤브레인 단백질 및 기타 분자를 포함할 수 있다. 적절한 기기 및 조건은 하기 논의하였다. 본 발명의 방법은 통상적으로 인 비트로에서 수행한다.

적용될 수 있는 나노포어는 다음과 같다.

측정 시스템은 나노포어를 포함한다. 나노포어를 통한 폴리머의 이송(translocation) 동안 측정이 수행된다. 나노포어를 통한 폴리머의 이송은 관찰될 수 있는 측정된 특성에서 특징적인 신호(characteristic signal)를 생성하고, 전체에 걸쳐 "사건(event)"으로 지칭될 수 있다.

나노포어는 전형적으로 대략적으로 나노미터 크기의 사이즈를 갖는 포어이다. 본 명세서에서, "포어"에 대한 지칭(references)은 이런 의미에서 나노포어를 의미한다.

나노포어는 생물학적 포어 또는 고체 상태 포어(solid state pore)일 수 있다.

고체 상태 포어는 통상적으로 고체 상태층에 있는 구멍이다. 고체 상태 포어는 폴리머의 대안적 또는 추가적 측정을 제공하는 추가적 구성요소, 예를 들면 터널링 전극 (Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85), 또는 전계 효과 트랜지스터 (field effect transistor, FET) 장치 (국제 출원 WO 2005/124888)와 조합되어 사용될 수 있다. 고체 상태 포어는 예를 들면 WO 00/79257에 기재된 것을 포함하는 알려진 방법에 의해 형성될 수 있다.

나노포어는 바람직하게 트랜스멤브레인 단백질 포어이다. 트랜스멤브레인 단백질 포어는 수화된 이온이 멤브레인의 한 쪽으로부터 상기 멤브레인의 다른 쪽으로 흐를 수 있도록 하는 폴리펩티드 또는 폴리펩티드의 집단(collection)이다. 본 발명에서, 트랜스멤브레인 단백질 포어는 인가된 전위에 의해 구동된 수화된 이온이 멤브레인의 한 쪽으로부터 다른 쪽으로 흐를 수 있도록 하는 포어를 형성할 수 있다. 트랜스멤브레인 단백질 포어는 DNA 또는 RNA와 같은 폴리머가 포어를 통해 이동될 수 있게 한다.

트랜스멤브레인 단백질 포어는 모노머 또는 올리고머일 수 있다. 포어는 바람직하게 6, 7 또는 8개의 서브유닛과 같은 여러 반복 서브유닛으로 구성된다. 포어는 더 바람직하게 헵타머(heptameric) 또는 옥타머(octameric)의 포어이다.

트랜스멤브레인 단백질 포어는 이온이 흐를(flow) 수 있는 배럴(barrel) 또는 채널을 포함한다. 포어의 서브유닛은 통상적으로 중앙축(central axis)을 둘러싸고 트랜스멤브레인 β-배럴 또는 채널 또는 트랜스멤브레인 α-헬릭스 번들 또는 채널에 대한 가닥을 제공한다(contribute).

트랜스멤브레인 단백질 포어의 배럴 또는 채널은 통상적으로 폴리머, 뉴클레오티드, 폴리뉴클레오티드 또는 핵산과 같은 분석물과의 반응을 용이하게 하는 아미노산을 포함한다. 이들 아미노산은 바람직하게 배럴 또는 채널의 협착부(constriction) 근처에 위치된다. 트랜스 멤브레인 단백질 포어는 통상적으로 아르기닌, 라이신 또는 히스티딘과 같은 하나 이상의 양전하 아미노산, 또는 티로신 또는 트립토판과 같은 방향족 아미노산을 포함한다. 이들 아미노산은 통상적으로 포어와 폴리머, 뉴클레오티드, 폴리뉴클레오티드 또는 핵산 간의 상호작용을 용이하게 한다.

본 발명에 따라 사용하기 위한 트랜스멤브레인 단백질 포어는 β-배럴 포어 또는 α-헬릭스 번들 포어로부터 유래될 수 있다. β-배럴 포어는 β-가닥으로 형성되는 배럴 또는 채널을 포함한다. 적절한 β-배럴 포어는 α-헤모리신, 탄저균 독소(anthrax toxin) 및 류코시딘(leukocidin)과 같은 α-독소, 및 미코박테리움 스메르마티스 포린(Mycobacterium smegmatis porin, Msp)과 같은 박테리아의 외부 멤브레인 단백질/포린, 예를 들면 MspA, 외부 멤브레인 포린 F (OmpF), 외부 멤브레인 포린 G (OmpG), 외부 멤브레인 포스포리파제 A 및 나이세리아 자가수송체 리포단백질 (Neisseria autotransporter lipopretein, NalP)을 포함하나, 이에 제한되지 않는다. α-헬릭스 번들 포어는 α-헬릭스로부터 형성되는 것인 배럴 또는 채널을 포함한다. 적절한 α-헬릭스 번들 포어는 WZA 및 ClyA 독소와 같은, 내부 멤브레인 단백질 및 외부 멤브레인 단백질을 포함하나, 이에 제한되지 않는다. 트랜스멤브레인 포어는 Msp 또는α-용혈소 (α-HL)으로부터 유래될 수 있다.

트랜스멤브레인 단백질 포어는 바람직하게는 Msp, 바람직하게는 MspA로부터 유래된다. 이러한 포어는 올리고머(oligomeric)일 것이고 통상적으로 Msp로부터 유래된 7, 8, 9 또는 10개의 모노머를 포함한다. 포어는 동일한 모노머를 포함하는 Msp로부터 유래된 호모-올리고머 포어(homo-oligomeric pore)일 수 있다. 대안적으로, 포어는 서로 상이한 하나 이상의 모노머를 포함한 Msp로부터 유래된 헤테로-올리고머 포어(hetero-oligomeric pore)일 수 있다. 바람직하게 포어는 MspA 또는 그의 동족체(homolog) 또는 그의 상동체(paralog)로부터 유래된다.

Msp로부터 유래된 일 모노머는 서열번호 2에 보이는 서열 또는 그의 변이체(variant)를 포함한다. 서열번호 2는 MspA 모노머의 MS-(B1)8 돌연변이(mutation)이다. 이는 하기 돌연변이를 포함한다: D90N, D91N, D93N, D118R, D134R 및 E139K. 서열번호 2의 변이체는 서열번호 2와 다른 아미노산 서열을 갖고 포어를 형성할 수 있는 능력을 보유하는 폴리펩티드이다. 포어를 형성하는 변이체의 능력은 당해 기술분야에서 알려진 임의의 방법을 사용하여 분석될 수 있다. 예를 들면, 변이체는 지질 이중층에 다른 적절한 서브유닛을 따라 삽입될 수 있고, 포어를 형성하기 위해 올리고머화시키는(oligomerise) 능력이 결정될 수 있다. 지질 이중층과 같은 멤브레인에 서브유닛을 삽입하기 위한 방법은 당해 기술분야에 알려져 있다. 예를 들면, 서브유닛은 지질 이중층을 포함하는 용액에 정제된 형태로 현탁될 수 있어서, 이는 지질 이중층으로 분산하고 지질 이중층에 결합하고 기능적 상태(functional state)로 어셈블링되어 삽입된다. 대안적으로, 서브유닛은 M.A. Holden, H. Bayley. J. Am. Chem. Soc. 2005, 127, 6502-6503 및 국제 출원 제PCT/GB2006/001057호 (WO 2006/100484로 공개)에 기재된 "픽앤플레이스(pick and place)" 방법을 사용하여 멤브레인에 직접적으로 삽입될 수 있다.

서열번호 2의 아미노산 서열의 전체 길이에 걸쳐, 변이체는 바람직하게 아미노산 유사도에 기반하여 서열번호 2의 서열과 50% 이상의 상동일 것이다. 더 바람직하게, 변이체는 전체 서열에 걸쳐 서열번호 2의 아미노산 서열에 대해 아미노산 유사도를 기초로, 55% 이상, 60% 이상, 65% 이상, 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상, 더 바람직하게 95% 이상, 97% 또는 99% 상동성일 수 있다. 100개 이상, 예를 들면 125, 150, 175 또는 200개 이상의 연속적 아미노산의 신장물(stretch)에 걸쳐 아미노산 유사도가 80% 이상, 예를 들면 85% 이상, 90% 또는 95%일 수 있다 ("강한 상동성(hard homology)").

당해 기술분야에서 상동성을 결정하기 위한 표준 방법이 사용될 수 있다. 예를 들면 UWGCG 패키지는 상동성을 계산하기 위해 사용될 수 있는 BESTFIT 프로그램을 제공하고, 예를 들면 이는 이의 디폴트 설정으로 사용된다 (Devereux et al (1984) Nucleic Acids Research 12, p387-395). 예를 들면 Altschul S. F. (1993) J Mol Evol 36:290-300; Altschul, S.F et al (1990) J Mol Biol 215:403-10에 기재된 바와 같이, PILEUP 및 BLAST 알고리즘은 상동성 또는 정렬 서열(line up seqence)을 계산하기 위해 사용될 수 있다 (예를 들면 등가의 잔기 또는 상응하는 서열을 확인 (전형적으로 이들의 디폴트 설정을 기초로 함)). BLAST 분석을 수행하기 위한 소프트웨어는 국립생물정보센터 (National Center for Biotechnology Information) (http://www.ncbi.nlm.nih.gov/)를 통해 공개적으로 이용가능하다.

서열번호 2는 MspA 모노머의 MS-(B1)8 돌연변이이다. 변이체는 MspA에 비하여 MspB, C 또는 D 모노머 중 임의의 돌연변이를 포함할 수 있다. MspB, C 및 D의 성숙형(mature form)은 서열번호 15 내지 17에 보인다. 구체적으로, 변이체는 MspB에 존재하는 하기 치환을 포함할 수 있다: A138P. 변이체는 MspC에 존재하는 하기 치환중 하나 이상을 포함할 수 있다: A96G, N102E 및 A138P. 변이체는 MspD에 존재하는 하기 돌연변이의 하나 이상을 포함할 수 있다: G1의 결실, L2V, E5Q, L8V, D13G, W21A, D22E, K47T, I49H, I68V, D91G, A96Q, N102D, S103T, V104I, S136K 및 G141A. 변이체는 하나 이상의 돌연변이와 Msp B, C 및 D로부터의 치환의 조합을 포함할 수 있다. 변이체는 L88N 돌연변이를 포함할 수 있다. 서열번호 2의 변이체는 MS-B1의 모든 돌연변이에 외에 돌연변이 L88N를 갖고 MS-B2라고 불리운다. 본 발명에 사용된 포어는 MS-(B2)8 또는 MS-(B2C)8일 수 있다.

아미노산 치환이 상기 논의된 것 외에 서열번호 2의 아미노산 서열에 만들어질 수 있고, 예를 들면 1, 2, 3, 4, 5, 10, 20 또는 30개 이하의 치환이다. 보존적 치환은 아미노산을 유사한 화학 구조, 유사한 화학 특성 또는 유사한 측쇄 부피의 다른 아미노산으로 대체한다. 도입된 아미노산은 그들이 대체한 아미노산에 대하여 유사한 극성, 친수성, 소수성, 염기성, 산성, 중성 또는 전하를 가질 수 있다. 대안적으로, 보존적 치환은 방향족 또는 지방족인 또 다른 아미노산을 기존의 방향족 또는 지방족 아미노산의 위치에 도입할 수 있다. 보존적 아미노산 변화는 당해 기술분야에 잘 알려져 있고 하기 표 2에 정의된 바와 같이 20개의 주요 아미노산의 특성에 따라 선택될 수 있다. 아미노산이 유사한 극성을 갖는 경우, 이는 또한 표 3의 아미노산 측쇄에 대한 소수성 등급(hydropathy scale)를 참조로 결정될 수 있다.

표 2 - 아미노산의 화학적 특성:

Ala	지방족, 소수성, 중성	Met	소수성, 중성
Cys	극성, 소수성, 중성	Asn	극성, 친수성, 중성
Asp	극성, 친수성, (-) 전하	Pro	소수성, 중성
Glu	극성, 친수성, (-) 전하	Gln	극성, 친수성, 중성
Phe	방향족, 소수성, 중성	Arg	극성, 친수성, (+) 전하
Gly	지방족, 중성	Ser	극성, 친수성, 중성
His	방향족, 극성, 친수성, (+) 전하	Thr	극성, 친수성, 중성
Ile	지방족, 소수성, 중성	Val	지방족, 소수성, 중성
Lys	극성, 친수성, (+) 전하	Trp	방향족, 소수성, 중성
Leu	지방족, 소수성, 중성	Tyr	방향족, 극성, 소수성

표 3- 소수성 등급(Hydropathy scale):

___________________________________________

측쇄 히드로파시( Hydropathy )

___________________________________________

Ile 4.5

Val 4.2

Leu 3.8

Phe 2.8

Cys 2.5

Met 1.9

Ala 1.8

Gly -0.4

Thr -0.7

Ser -0.8

Trp -0.9

Tyr -1.3

Pro -1.6

His -3.2

Glu -3.5

Gln -3.5

Asp -3.5

Asn -3.5

Lys -3.9

Arg -4.5

서열번호 2의 아미노산의 하나 이상의 아미노산 잔기는 상기 기재된 폴리펩티드로부터 추가적으로 결실될 수 있다. 1, 2, 3, 4, 5, 10, 20 또는 30개 이하의 잔기가 결실될 수 있다.

변이체는 서열번호 2의 단편을 포함할 수 있다. 이러한 단편은 포어 형성 활성(pore forming activity)을 보유한다. 단편은 50, 100, 150 또는 200개 이상의 아미노산을 갖는 길이일 수 있다. 이러한 단편은 포어를 제조하기 위해 사용될 수 있다. 단편은 바람직하게 서열번호 2의 도메인을 형성하는 포어를 포함한다. 단편은 서열번호 2의 88, 90, 91, 105, 118 및 134의 잔기 중 하나를 포함하여야 한다. 통상적으로, 단편은 서열번호 2의 88, 90, 91, 105, 118 및 134의 모든 잔기를 포함한다.

하나 이상의 아미노산은 대안적으로 또는 추가적으로 상기 기재된 폴리펩티드에 첨가될 수 있다. 신장(extension)이 서열번호 2의 아미노산 또는 그의 폴리펩티드 변이체 또는 그의 단편의 아미노 말단 또는 카르복시 말단에 제공될 수 있다. 신장은 예를 들면 1 내지 10개의 아미노산 길이로, 매우 짧을 수 있다. 대안적으로, 신장은 예를 들면 50 또는 100 개의 아미노산 이하로 더 길 수 있다. 담체 단백질(carrier protein)이 본 발명에 따른 아미노산 서열에 융합될 수 있다. 기타 융합 단백질이 하기 더 자세하게 논의된다.

상기 논의된 바와 같이, 변이체는 서열번호 2의 것으로부터 다른 아미노산 서열을 갖고 포어를 형성하는 능력을 보유한다. 변이체는 통상적으로 포어 형성의 원인이 되는 서열번호 2의 영역을 포함한다. β-배럴을 포함하는, Msp의 포어 형성 능력이 각각의 서브유닛에 β-시트에 의해 제공된다. 서열번호 2의 변이체는 통상적으로 β-시트를 형성하는 서열번호 2의 영역을 포함한다. 결과적으로 수득된 변이체는 포어를 형성하는 능력을 보유하는 한, 하나 이상의 변형이 β-시트를 형성하는 서열번호 2의 영역으로 만들어질 수 있다. 서열번호 2의 변이체는 바람직하게 α-헬릭스 및/또는 루프 영역 내에 하나 이상의 변형, 예를 들면 치환, 첨가 또는 결실을 포함한다.

Msp로부터 유래된 모노머는 그의 확인 또는 정제를 보조하기 위해, 예를 들면 히스티딘 잔기 (hist 태그), 아스파르트산 잔기, 스트렙타비딘 태그 또는 플래그(flag) 태그의 첨가에 의하거나, 폴리펩티드가 이러한 서열을 천연적으로 포함하지 않는 세포로부터 그의 분비를 촉진하는 신호 서열의 첨가에 의해, 변형될 수 있다. 유전적 태그를 도입하는 대안은 태그를 포어에의 천연 또는 조작된 위치에 화학적으로 반응시키는 것이다. 이의 예는 겔-시프트 시약(gel-shift reagent)을 포어의 외부의 조작된 시스테인과 반응시키는 것이다. 이는 헤모리신 헤테로-올리고머 (용혈소 hetero-oligomer)를 분리하기 위한 방법으로서 입증되어 왔다(Chem Biol. 1997 Jul; 4(7):497-505).

Msp로부터 유래된 모노머는 표식 표지(revealing label)로 표지될 수 있다. 표식 표지는 포어가 검출될 수 있게 하는 적절한 표지일 수 있다. 적절한 표지는 형광성 분자,방사성 동위원소, 예를 들면 125I, 35S, 효소, 항체, 항원, 폴리뉴클레오티드 및 비오틴과 같은 리간드를 포함하나 이에 제한되지 않는다.

Msp로부터 유래된 모노머는 D-아미노산을 사용해 생산될 수 있다. 예를 들면, Msp로부터 유래된 모노머는 L-아미노산과 D-아미노산의 혼합물을 포함할 수 있다. 이는 이러한 단백질 또는 펩티드를 생산하기 위한 당해 기술분야에서 통상적이다.

Msp로부터 유래된 모노머는 뉴클레오티드 식별을 용이하게 하는 하나 이상의 특정 변형을 포함한다. Msp로부터 유래된 모노머는 포어 형성을 간섭(interfere)하지 않는 한, 또한 다른 비특이 변형을 포함할 수 있다. 다수의 비특이 측쇄 변형은 당해 기술 분야에 알려졌고 Msp로부터 유래된 모노머의 측쇄에 만들어질 수 있다. 이러한 변형은 알데히드와의 반응 및 뒤이어 NaBH₄의환원에 의한 아미노산의 환원적 알킬화(reductive alkylation), 메틸아세트이미데이트(methylacetimidate)에 의한 아미딘화 (amidination) 또는 아세트산 무수물(acetic anhydride)에 의한 아실화(acylation)를 포함하나, 이에 제한되지 않는다.

Msp로부터 유래된 모노머는 당해 기술분야에 알려진 표준 방법을 사용해 생산될 수 있다. Msp로부터 유래된 모노머는 합성으로 또는 재조합 수단에 의해 제조될 수 있다. 예를 들면, 포어가 인 비트로 번역 및 전사(in vitro translation and transcription, IVTT)에 의해 합성될 수 있다. 포어를 생산하기 위한 적절한 방법이 국제 출원 제PCT/GB09/001690호 (WO 2010/004273로 공개), PCT/GB09/001679 (WO 2010/004265로 공개) 또는 PCT/GB10/000133 (WO 2010/086603로 공개)호에 논의된다. 멤브레인에 포어를 삽입하기 위한 방법이 논의된다.

트랜스멤브레인 단백질 포어는 바람직하게 α-용혈소(hemolysin) (α-HL)로부터 유래된다. 야생형 α-HL 포어는 7개의 동일한 모노머 또는 서브유닛(즉, 이는 헵타머임)으로 형성된다. α-용혈소-NN의 일 모노머 또는 서브유닛의 서열이 서열번호 4에 보인다. 트랜스멤브레인 단백질 포어는 바람직하게 서열번호 4 또는 그의 변이체에 보이는 서열을 각각 포함한 7개의 모노머를 포함한다. 서열번호 4의 아미노산 1, 7 내지 21, 31 내지 34, 45 내지 51, 63 내지 66, 72, 92 내지 97, 104 내지 111, 124 내지 136, 149 내지 153, 160 내지 164, 173 내지 206, 210 내지 213, 217, 218, 223 내지 228, 236 내지 242, 262 내지 265, 272 내지 274, 287 내지 290 및 294는 루프 영역을 형성한다. 서열번호 4의 잔기 113 및 147은 α-HL의 배럴 또는 채널의 협착부를 형성한다.

이러한 구체예에서, 서열번호 4로 나타낸 서열 또는 그의 변이체를 각각 포함한, 7개의 단백질 또는 모노머를 포함한 포어가 본 발명의 방법에 바람직하게 사용된다. 이들 7개의 단백질은 동일하거나(호모헵타머) 상이할 수 있다(헤테로헵타머).

서열번호 4의 변이체는 서열번호 4의 것과 다르고 포어 형성 능력을 보유하는 아미노산 서열을 갖는 단백질이다. 포어를 형성하는 변이체의 능력은 당해 기술 분야에서 알려진 임의의 방법을 사용해 분석될 수 있다. 예를 들면, 변이체는 지질 이중층에 다른 적절한 서브유닛과 함게 따라 삽입될 수 있고 포어를 형성하기 위해 올리고머화시키는 능력이 결정될 수 있다. 지질 이중층과 같은 멤브레인에 서브유닛을 삽입하기 위한 방법은 당해 기술분야에 알려져 있다. 적절한 방법이 상기 논의된다.

변이체는 헬리카제와 공유 결합 또는 상호작용을 용이하게 하는 변형을 포함할 수 있다. 변이체는 바람직하게 헬리카제에의 결합을 용이하게 하는 하나 이상의 반응성 시스테인 잔기를 포함한다. 예를 들면, 변이체는 서열번호 4의 위치 8, 9, 17, 18, 19, 44, 45, 50, 51, 237, 239 및 287 중 하나 이상 및/또는 아미노 또는 카르복시 말단에 시스텐인을 포함할 수 있다. 바람직한 변이체는 시스테인으로의 서열번호 4의 위치 8, 9, 17, 237, 239 및 287의 잔기의 치환 (A8C, T9C, N17C, K237C, S239C 또는 E287C)을 포함한다. 변이체는 바람직하게 국제출원 제PCT/GB09/001690호 (WO 2010/004273로 공개), PCT/GB09/001679 (WO 2010/004265로 공개) 또는 PCT/GB10/000133 (WO 2010/086603로 공개)에 기재된 변이체 중 하나이다.

변이체는 또한 뉴클레오티드와 상호작용을 용이하게 하는 변형을 포함할 수 있다.

변이체는 유기체, 예를 들면 스타필로코커스 박테리아(Staphylococcus bacterium)에 의해 천연적으로 발현되는 천연-발생 변이체일 수 있다. 대안적으로, 변이체는 인 비트로에서 또는 에스케리키아 콜라이(Escherichia coli)와 같은 박테리아에 의해 재조합적으로 발현될 수 있다. 변이체는 또한 재조합 기법에 의해 생산된 비-천연 변이체를 포함한다. 서열번호 4의 아미노산 서열의 전체 길이에 걸쳐, 변이체는 바람직하게 아미노산 유사도에 기반하여 그 서열에 대해 50% 이상 상동성일 것이다. 더 바람직하게, 변이체 폴리펩티드는 전체 서열에 걸쳐 서열번호 4의 아미노산 서열에 대한 아미노산 유사도에 기초하여 55% 이상, 60% 이상, 65% 이상, 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상 및 더 바람직하게 95% 이상, 97% 또는 99% 상동성일 수 있다. 200개 이상, 예를 들면 230, 250, 270 또는 280개 이상의 연속적 아미노산의 신장물(stretch)에 걸쳐 아미노산 유사도가 80% 이상, 예를 들면 85% 이상, 90% 또는 95%일 수 있다 ("강한 상동성(hard homology)"). 상동성은 상기 논의된 바와 같이 결정될 수 있다.

예를 들면, 1, 2, 3, 4, 5, 10, 20 또는 30 개의 치환까지, 아미노산 치환이 상기 논의된 것에 더하여 서열번호 4의 아미노산 서열에 수행될 수 있다. 보존적 치환은 상기 논의된 바와 같이 수행될 수 있다.

서열번호 4의 아미노산 서열의 하나 이상의 아미노산 잔기가 상기 논의된 폴리펩티드로부터 추가적으로 결실될 수 있다. 1, 2, 3, 4, 5, 10, 20 또는 30개 이하의 잔기가 결실될 수 있다.

변이체는 서열번호 4의 단편일 수 있다. 이러한 단편은 포어-형성 활성을 보유한다. 단편은 50, 100, 200 또는 250 이상의 아미노산 길이일 수 있다. 단편은 바람직하게 서열번호 4의 포어-형성 도메인을 포함한다. 단편은 통상적으로 서열번호 4의 119, 121, 135, 113 및 139 잔기를 포함한다.

하나 이상의 아미노산이 상기 논의된 폴리펩티드에 대안적으로 또는 추가적으로 부가될 수 있다. 신장(extension)이 서열번호 4의 아미노산 서열 또는 그의 변이체 또는 그의 단편의 아미노 말단 또는 카르복시 말단에 제공될 수 있다. 신장은 예를 들면 1 내지 10 아미노산 길이로, 매우 짧을 수 있다. 대안적으로, 신장은 예를 들면 50 또는 100 아미노산 이하로 더 길 수 있다. 담체 단백질이 포어 또는 변이체에 융합될 수 있다.

상기 논의된 바와 같이, 서열번호 4의 변이체는 서열번호 4의 것과 다른 아미노산 서열을 갖는 서브유닛이고, 이는 포어를 형성하는 능력을 보유한다. 변이체는 통상적으로 포어 형성의 원인이 되는 서열번호 4의 영역을 포함한다. β-배럴을 포함하는 α-HL의 포어 형성 능력은 각각의 서브 유닛 중 β-가닥에 의해 제공된다. 서열번호 4의 변이체는 통상적으로 β-가닥을 형성하는 서열번호 4 중 영역을 포함한다. β-가닥을 형성하는 서열번호 4의 아미노산이 상기 논의된 바와 같다. 하나 이상의 변형이 포어를 형성하는 능력을 보유하는 변이체를 초래하는 한,β-가닥을 형성하는 서열번호 4의 영역에 수행될 수 있다. 서열번호 4의 β-가닥 영역에 수행될 수 있는 특정 변형은 상기 논의된 바와 같다.

서열번호 4의 변이체는 바람직하게는 α-헬릭스 및/또는 루프 영역 내에, 하나 이상의 변형, 예를 들면 치환, 추가 또는 결실을 포함한다. α-헬릭스 및 루프를 형성하는 아미노산이 상기 논의된 바와 같다.

변이체는 상기 논의된 바와 같이 그의 확인 또는 정제를 보조하기 위해 변형될 수 있다.

α-HL로부터 유래된 포어는 Msp로부터 유래된 포어와 관련하여 상기 논의된 바와 같이 제조될 수 있다.

일부 구체예에서, 트랜스멤브레인 단백질 포어는 화학적으로 변형된다. 포어는 임의의 방식으로 및 임의의 위치에 화학적으로 변형될 수 있다. 트랜스멤브레인 단백질 포어는 바람직하게 하나 이상의 시스테인에 분자의 부착(시스테인 연결), 하나 이상의 라이신에 분자의 부착, 하나 이상의 비-천연 아미노산에 분자의 부착, 에피토프의 효소 변형 또는 말단의 변형에 의해 화학적으로 변형될 수 있다. 이러한 변형을 수행하기 위한 적절한 방법이 당해 기술분야에 잘 알려져있다. 트랜스멤브레인 단백질 포어가 임의의 분자의 부착에 의해 화학적으로 변형될 수 있다. 예를 들면, 포어가 염료 또는 형광단(fluorophore)의 부착에 의해 변형될 수 있다.

포어 중 모노머의 수가 화학적으로 변형될 수 있다. 바람직하게 2, 3, 4, 5, 6, 7, 8, 9 또는 10개와 같은 하나 이상의 모노머가 상기 논의된 바와 같이 화학적으로 변형될 수 있다.

(화학적으로 변형된 포어를 갖는) 분자가 국제 출원 제PCT/GB09/001690호 (WO 2010/004273으로 공개), PCT/GB09/001679 (WO 2010/004265로 공개) 또는 PCT/GB10/000133 (WO 2010/086603으로 공개)에 개시된 바와 같이 직접적으로 포어에 부착되거나 링커를 통해 부착될 수 있다.

사용될 수 있는 래칫(ratchets)은 다음과 같다.

나노포어를 통한 폴리머의 이송이 래칫의 방식(ratched manner)으로 수행될 수 있다. 이 경우 폴리머의 연속적(successive) k-mer가 나노포어에 기록된다(register). 이 방식에서 각각의 측정은 특정 k-mer에 의존한다. 기록(registration)이 충분한 시간동안 유지되면(hold), 그 후 복수의 측정의 그룹이 특정 k-mer에 의존할 것이다. 이송의 속성에 따라, 기록의 기간이 예측불가능할 수 있고 길이에 따라 다양할 수 있다. 측정 샘플링 속도(measurement sampling rate)에 대해 상대적인 기록의 기간에 따라, , 복수의 측정 또는 심지어 단일 신호 측정이 없을 수 있으며, 이는 서열 중 모든 k-mer에 의존한다.

폴리머의 이송(translocation)은 포어를 통해 폴리머의 움직임(movement)을 제어하는 분자 래칫(molecular ratchet)에 의해 제어될 수 있다. 분자 래칫은 폴리머 결합 단백질일 수 있다. 폴리뉴클레오티드의 경우, 폴리뉴클레오티드 결합 단백질은 바람직하게 폴리뉴클레오티드 취급 효소(polynucleotide handling enzyme)이다. 폴리뉴클레오티드 취급 효소는 폴리뉴클레오티드의 하나 이상의 특성과 상호작용하고 이를 변형할 수 있는 폴리펩티드이다. 효소는 개별 뉴클레오티드 또는 더 짧은 사슬의 뉴클레오티드, 예를 들면 디뉴클레오티드 또는 트리뉴클레오티드를 형성하기 위해 이를 절단하여(cleave) 폴리뉴클레오티드를 변형시킬 수 있다. 효소는 특정 위치로 지향(orient)하거나 이동시켜 폴리뉴클레오티드를 변형할 수 있다. 폴리뉴클레오티드 취급 효소는 표적 폴리뉴클레오티드에 결합하고 포어를 통한 그의 이동을 제어할 수 있는 한 효소 활성을 보일 필요는 없다. 예를 들면, 효소는 그의 효소 활성을 제거하기 위해 변형될 수 있거나 효소로서 작용하는 것을 막는 조건에서 사용될 수 있다. 이러한 조건은 하기 더 구체적으로 논의된다.

폴리뉴클레오티드 취급 효소는 핵산분해 효소(nucleolytic enzyme)로부터 유래될 수 있다. 효소의 구축에 사용되는 폴리뉴클레오티드 취급 효소는 더 바람직하게 효소 분류 (EC) 그룹 3.1.11, 3.1.13, 3.1.14, 3.1.15, 3.1.16, 3.1.21, 3.1.22, 3.1.25, 3.1.26, 3.1.27, 3.1.30 및 3.1.31의 멤버로부터 유래된다. 효소는 국제출원 제PCT/GB10/000133 (WO 2010/086603으로 공개)에 개시된 것일 수 있다.

바람직한 효모는 폴리머라제, 엑소뉴클레아제, 헬리카제 및 자이라제(gyrase)와 같은 토포이소머라제(topoisomerase)다. 적절한 효모는 이. 콜라이로부터의 엑소뉴클레아제 I (서열번호 8), E. coli로부터의 엑소뉴클레아제 III 효소 (서열번호 10), T. thermophilus로부터의 RecJ (서열번호 12) 및 박테리오파지 람다 엑소뉴클레아제(bacteriophage lambda exonuclease) (서열번호 14) 및 그의 변이체를 포함하나, 이에 제한되지 않는다. 서열번호 14로 나타낸 서열 또는 그의 변이체를 포함한 3개의 서브유닛은 상호작용하여 삼합체 엑소뉴클레아제(trimer exonuclease)를 형성한다. 이 효소는 바람직하게 Phi29 DNA 폴리머라제로부터 유래된다. Phi29 폴리머라제로부터 유래된 효소는 서열번호 6에 나타낸 서열 또는 그의 변이체를 포함한다. 서열번호 6, 8, 10, 12 또는 14의 변이체는 서열번호 6, 8, 10, 12 또는 14의 것과 다르고 폴리뉴클레오티드 결합 능력을 보유하는 아미노산 서열을 갖는 효소이다. 변이체는 폴리뉴클레오티드의 결합을 용이하게 하고 및/또는 고 염 농도 및/또는 상온에서 그의 활성을 용이하게 하는 변형을 포함할 수 있다. 서열번호 6, 8, 10, 12 또는 14의 아미노산 서열의 전체 길이에 걸쳐, 변이체는 바람직하게 아미노산 유사도에 기반하여 그 서열에 50% 이상의 상동성일 것이다. 더 바람직하게, 변이체는 전체 서열에 걸쳐 서열번호 6, 8, 10, 12 또는 14의 아미노산 서열에 대한 아미노산 유사도를 기초로, 55% 이상, 60% 이상, 65% 이상, 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상, 더 바람직하게 95% 이상, 97% 또는 99% 상동성일 수 있다. 200개 이상, 예를 들면 230, 250, 270 또는 280개 이상의 연속적 아미노산의 신장물(stretch)에 걸쳐 아미노산 유사도가 80% 이상, 예를 들면 85% 이상, 90% 또는 95%일 수 있다("강한 상동성"). 상동성은 상기 논의된 바에 따라 결정된다. 변이체는 서열번호 2와 관련하여 상기 논의된 방식으로 야생형 서열과 다를 것이다. 효소는 상이 논의된 바와 같이 포어에 공유결합으로 부착될 수 있다.

단일 가닥 DNA 시퀀싱의 두가지 전략은 인가된 전위와 함께 또는 이에 대항하여(with or against an applied potential), 시스(cis)에서 트랜스(trans)로 및 트랜스에서 시스로의, 나노포어를 통한 DNA의 이송이다. 가닥 시퀀싱을 위한 가장 유리한 기작은 인가된 전위 하의 나노포어를 통한 단일 가닥 DNA의 제어된 이동이다. 이중 가닥 DNA에 점진적으로 또는 전진적으로 작용하는 엑소뉴클레아제는 잔여 단일 가닥을 공급(feed)하기 위해 인가된 전위 하에 포어의 시스 쪽에서 또는 반대의 전위 하에 트랜스 쪽에서 사용될 수 있다. 또한, 이중 가닥 DNA를 푸는(unwind) 헬리카제가 또한 유사한 방식으로 사용될 수 있다. 또한 인가된 전위에 반대하여 가닥 이송을 요구하는 시퀀싱 적용에 대한 가능성이 있으나, DNA는 반대 전위 하에 또는 전위 없이(under a reverse or no potential) 효소에 의해 처음 "포착(caught)"되어야 한다. 결합 후, 다시 전환된(switch) 전위로, 가닥은 포어를 통해 시스에서 트랜스로 이동할 것이고 전류 흐름에 의해 연장된 배열(extended conformation)이 유지될 것이다. 단일 가닥 DNA 엑소뉴클레아제 또는 단일 가닥 DNA 의존 폴리머라제가 인가된 전위에 반대하여 제어된 순차적 방식(controlled stepwise manner)으로, 트랜스에서 시스로, 최근에 이송된 단일 가닥을 포어를 통해 뒤로 끌어내는 분자 모터(molecular motor)로 작용할 수 있다. 대안적으로, 단일 가닥 DNA 의존 폴리머라제가 포어를 통한 폴리뉴클레오티드의 이동을 늦추는 분자 브레이크(molecular brake)로 작용할 수 있다.

바람직한 구체예에서, 가닥 시퀀싱은 Msp 및 Phi29 DNA 폴리머라제로부터 유래된 포어를 사용하여 수행된다. 상기 방법은 (a) 폴리뉴클레오티드를 용액에 첨가하는 단계; (b) 표적 폴리뉴클레오티드가 멤브레인 중 Msp 및 Phi29 DNA 폴리머라제로부터 유래된 포어를 포함하는 검출기와 상호작용하게 하여, 폴리머라제가 포어를 통한 표적 폴리뉴클레오티드의 이동을 제어하고 표적 폴리뉴클레오티드 중 뉴클레오티드의 부분이 포어와 상호작용하는 단계; 및 (c) 각각의 상호작용 동안 포어를 통해 흐르는 전류를 측정하여 표적 폴리뉴클레오티드의 서열을 결정하는 단계를 포함하고, 상기 단계 (b) 및 (c)는 포어를 가로질러 인가된 전압에 의해 수행된다. 표적 폴리뉴클레오티드가 Phi29 DNA 폴리머라제와 Msp로부터 유래된 포어와 접촉하는 경우, 표적 폴리뉴클레오티드는 처음으로 Phi29 DNA 폴리머라제와의 복합체(complex)를 형성한다. 전압이 포어를 가로질러 인가되는 경우, 표적 폴리뉴클레오티드/Phi29 DNA 폴리머라제 복합체가 포어와 함께 복합체를 형성하고 포어를 통한 표적 폴리뉴클레오티드의 이동을 제어한다.

야생형 Phi29 DNA 폴리머라제는 폴리머라제 및 엑소뉴클레아제 활성을 갖는다. 이는 또한 적절한 조건 하에 이중 가닥 폴리뉴클레오티드를 언지핑할 수 있다(unzip). 따라서, 효소는 3개의 모델에서 작동할 수 있다. 이는 하기에서 더 자세히 논의된다.

Phi29 DNA 폴리머라제는 서열번호 6에 보이는 서열 또는 그의 변이체를 포함할 수 있다. 서열번호 6의 변이체는 서열번호 6의 것과 다르고 폴리뉴클레오티드 결합 활성을 보유하는 아미노산 서열을 갖는 효소이다. 변이체는 하기 논의되는 3개의 모델 중 하나 이상에서 작동하여야 한다. 바람직하게, 변이체는 모든 3개의 모델에서 작동한다. 변이체는 폴리뉴클레오티드의 취급(handling)을 용이하게 하고 및/또는 고 염 농도 및/또는 상온에서 그의 활성을 용이하게 하는 변형을 포함할 수 있다.

서열번호 6의 아미노산 서열의 전체 길이에 걸쳐, 변이체는 바람직하게 아미노산 유사도에 기초하여 서열 6에 40% 이상의 상동성일 것이다. 더 바람직하게, 변이체는 전체 서열에 걸쳐 서열번호 6의 아미노산 서열에 대한 아미노산 유사도를 기초로, 50% 이상, 55% 이상, 60% 이상, 65% 이상, 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상, 더 바람직하게 95% 이상, 97% 또는 99% 상동성일 수 있다. 200개 이상, 예를 들면 230, 250, 270 또는 280개 이상의 연속적 아미노산의 신장물(stretch)에 걸쳐 아미노산 유사도가 80% 이상, 예를 들면 85% 이상, 90% 또는 95%일 수 있다("강한 상동성"). 상동성은 상기 논의된 바에 따라 결정된다. 변이체는 서열번호 2와 관련하여 상기 논의된 방식으로 야생형 서열과 다를 것이다.

상기 논의된 임의의 시스템, 기기 또는 조건은 바람직한 구체예에 따라 사용될 수 있다. 염 농도는 통상적으로 0.15M 내지 0.6M이다. 염은 바람직하게 KCl이다.

상기 방법은 Phi29 DNA 폴리머라제의 3개의 모드에 기반한 3개의 바람직한 방식 중 하나에서 수행될 수 있다. 각각의 방식은 서열을 교정(proof-reading)하는 방법을 포함한다. 우선, 상기 방법은 바람직하게 폴리머라제로서 Phi29 DNA 폴리머라제를 사용하여 수행된다. 이 구체예에서, 단계 (b) 및 (c)는 유리 폴리뉴클레오티드 및 효소 보조인자의 존재에서 수행되어 폴리머가 인가된 전압으로 인한 필드 (field)에 반대하여 포어를 통해 표적 폴리뉴클레오티드를 이동시킨다. 표적 폴리뉴클레오티드는 5'에서 3' 방향으로 이동한다. 유리 뉴클레오티드는 상기 논의된 하나 이상의 임의의 개별적 뉴클레오티드일 수 있다. 효소 보조인자는 Phi29 DNA 폴리머라제가 폴리머라제 또는 엑소뉴클레아제로 작용하도록 하는 인자이다.

2가 금속이온은 바람직하게 2가 금속 양이온이다. 2가 금속 양이온은 바람직하게 Mg² ⁺, Mn² ⁺, Ca² ⁺ 또는 Co² ⁺이다. 효소 보조인자는 바람직하게 Mg² ⁺이다. 상기 방법은 바람직하게 (d) 유리 뉴클레오티드를 제거하여 폴리머라제가 인가된 전압으로 인한 필드와 함께 (즉, 3'에서 3'방향으로) 포어를 통해 표적 폴리뉴클레오티드를 이송시켜 표적 폴리뉴클레오티드 중 뉴클레오티드의 부분(proportion)이 포어와 상호작용하는 단계 및 (e) 각각의 상호작용 동안 포어를 통해 흐르는 전류를 측정하여 단계 (c)에서 수득된 표적 폴리뉴클레오티드의 서열을 교정하는 단계를 더 포함하고, 단계 (d) 및 (e)는 또한 포어를 가로질러 인가된 전압에 의해 수행된다.

둘째, 상기 방법은 바람직하게 엑소뉴클레아제로서 Phi29 DNA 폴리머라제를 사용하여 수행된다. 이 구체예에서, 단계 (b) 및 (c)는 유리 뉴클레오티드의 존재 및 효소 보조인자의 존재에서 수행되어 폴리머라제가 인가된 전압으로 인한 필드와 함께 포어를 통해 표적 폴리뉴클레오티드를 이동시킨다. 표적 폴리뉴클레오티드는 3'에서 5' 방향으로 이동한다. 상기 방법은 바람직하게 (d) 유리 뉴클레오티드를 첨가하여 폴리머라제가 인가된 전압으로 인한 필드에 대항하여 (즉, 5'에서 3' 방향으로) 포어를 통해 표적 폴리뉴클레오티드를 이동시켜 표적 폴리뉴클레오티드 중 뉴클레오티드의 부분이 포어와 상호작용하는 단계 및 (e) 각각의 상호작용 동안 포어를 통해 흐르는 전류를 측정하여 단계 (c)에서 수득된 표적 폴리뉴클레오티드의 서열을 교정하는 단계를 더 포함하고, 단계 (d) 및 (e)는 또한 포어를 가로질러 인가된 전압에 의해 수행된다.

셋째, 상기 방법은 바람직하게 언지핑 방식(unzipping mode)으로 Phi29 DNA 폴리머라제를 사용하여 수행된다. 이 구체예에서, 단계 (b) 및 (c)는 유리 뉴클레오티드의 존재 및 효소 보조인자의 존재에서 수행되어 폴리머라제가 인가된 전압으로 인한 필드와 함께 포어를 통한 표적 폴리뉴클레오티드의 이동을 제어한다 (이것이 언지핑함에 따라서임). 이 구체예에서, 폴리머라제는 인가된 전압의 영향 하에 표적 폴리뉴클레오티드가 매우 신속하게 포어를 통해 이동하는 것을 막는 브레이크와 같이 작동한다. 상기 방법은 바람직하게 (d) 포어를 가로질러 인가된 전압을 낮춰 표적 폴리뉴클레오티드가 단계 (b) 및 (c)에서와 반대의 방향으로 (즉, 이것이 재-어닐링(re-anneal)하기 때문) 포어를 통해 이동하고 표적 폴리뉴클레오티드 중 뉴클레오티드의 부분이 포어와 상호작용 하는 단계 및 (e) 각각의 상호작용 동안 포어를 통해 흐르는 전류를 측정하여 단계 (c)에서 수득된 표적 폴리뉴클레오티드의 서열을 교정하는 단계를 더 포함하고, 단계 (d) 및 (e)는 또한 포어를 가로질러 인가된 전압에 의해 수행된다.

또 다른 바람직한 구체예에서, 헬리카제가 폴리뉴클레오티드를 위한 래칫으로서 사용된다 (예를 들면 참조에 의해 본 명세서에 포함된 US 61/549,998 (N115020), US 61/581,332 (N115505), US 61/581,340에 개시). 헬리카제는 놀랍게도 높은 염 내약성을 갖는다는 것을 보여준다. 헬리카제는 표적 폴리뉴클레오티드를 두 방향, 즉 인가된 전압으로 인한 필드와 함께 또는 반대하여 움직일 수 있다. 이런 이유로, 상기 방법은 두 개의 바람직한 방식 중 하나로 수행될 수 있다. 상이한 신호가 표적 폴리뉴클레오티드가 포어를 통해 이동하는 방향에 의존하여, 즉 장의 방향에서 또는 반대하여 수득된다. 헬리카제는 통상적으로 표적 폴리뉴클레오티드를 포어를 통해 한번에 하나의 뉴클레오티드를 이동시킨다. 헬리카제는 따라서 단일-염기 래칫과 같이 기능한다. 이는 표적 폴리뉴클레오티드를 시퀀싱하는 경우 당연히 유리하다. 표적 폴리뉴클레오티드 중 뉴클레오티드의 만약 전부가 아니라면, 실질적으로 전부가 포어를 사용해 확인될 수 있다. 헬리카제는 단일 가닥 폴리뉴클레오티드 및 이중 가닥 폴리뉴클레오티드의 이동을 제어할 수 있다. 헬리카제는 인가된 전압으로 인한 필드에 매우 저항성이 있는 것으로 여겨진다. "언지핑" 조건 하에 폴리뉴클레오티드의 아주 적은 이동이 관찰되었다. 이는 인가된 전압으로부터 초래되는 필드에 대항하여 폴리뉴클레오티드를 이동시킬 때 원치않는 "역행(backward)" 이동으로 인한 부작용(complication)이 없다는 것을 의미하기 때문에, 이것이 중요하다.

상기 방법은 (a) 표적 폴리뉴클레오티드를 트랜스멤브레인 포어 및 헬리카제와 접촉시켜 헬리카제가 포어를 통한 표적 폴리뉴클레오티드의 이동을 제어하고 표적 폴리뉴클레오티드 중 뉴클레오티드가 포어와 상호작용하는 단계; 및 (b) 하나 이상의 상호작용 동안 포어를 통해 흐르는 전류를 측정하여, 표적 폴리뉴클레오티드의 하나 이상의 특정을 측정하하고, 그럼으로써 표적 폴리뉴클레오티드 특성을 규명하는 단계를 포함한다:

상기 논의된 바와 같이, 헬리카제는 나노포어에 대하여 두 가지 방식으로 작동한다. 3'에서 5' 방향으로 이동하는 헬리카제의 경우, 두 가지 방식은 다음과 같다.

첫째, 상기 방법은 바람직하게 헬리카제를 이용하여 수행되어, 이는 인가된 전압으로부터 초래되는 필드(field)와 함께 포어를 통해 표적 서열을 이동시킨다. 이러한 방식으로 DNA의 3' 말단이 나노포어에 처음 포획되고, 효소가 DNA를 나노포어에 이동시켜, 이것이 이중층의 트랜스 쪽을 통해 최종적으로 이송시킬 때까지 표적 서열이 필드와 함께 나노포어를 통해 통과된다. 대안적으로, 상기 방법은 바람직하게 효소가 표적 서열을 인가된 전압으로부터 인한 필드에 대항하여 포어를 통해 이동시키도록 수행된다. 이러한 방식에서 DNA의 5' 말단이 처음에 나노포어에서 포획되고, 효소는 DNA를 나노포어를 통해 이동시켜, 이중층의 시스 쪽을 통해 최종적으로 방출될 때까지 인가된 필드에 대항하여 표적 서열을 나노포어로부터 끌어당긴다.

5'에서 3'방향으로 이송하는 헬리카제의 경우, 두가지 방식은 하기와 같다. 첫째, 상기 방법은 바람직하게 헬리카제를 사용하여 수행되어 이는 인가된 전압으로 인한 필드와 함께 포어를 통해 표적 서열을 이동시킨다. 이 방식에서의 경우 DNA의 5' 말단이 나노포어에 처음 포획되고, 효소가 나노포어로 DNA를 이동시켜 표적 서열이 이중층의 트랜스 쪽으로 최종적으로 이송할 때까지 나노포어를 통해 상기 필드와 함께 통과된다. 대안적으로, 상기 방법은 바람직하게 효소가 인가된 전압으로 인한 필드에 대항하여 포어로부터 표적 서열을 움직이도록 수행된다. 이 방식으로 DNA의 3' 말단은 처음 나노포어에 포획되고, 효소가 나노포어를 통해 DNA를 움직이고 최종적으로 이중층의 시스 쪽으로 다시 방출될 때까지 표적 서열이 인가된 필드에 대항하여 나노포어로부터 당겨진다(pull). 이 방식에서 DNA의 3' 말단이 처음 포획되고, 효소가 나노포어를 통해 DNA를 통과시켜, 최종적으로 이중층의 시스 쪽으로 다시 방출될(eject back) 때까지 인가된 필드에 저항하여 나노포어로부터 당겨진다.

사용될 수 있는 측정 시스템은 다음과 같다.

상기 방법은 포어가 멤브레인에 삽입된 것인 멤브레인/포어 시스템을 조사하기 위해 적절한 기기를 사용해 수행될 수 있다. 상기 방법은 트랜스멤브레인 포어 센싱(transmembrane pore sensing)을 위해 적절한 기기를 사용해 수행될 수 있다. 예를 들면, 기기는 수용액을 포함하는 챔버 및 상기 챔버를 두 섹션으로 나누는 벽(barrier)을 포함한다. 상기 벽은 포어를 포함한 멤브레인이 형성된 구멍을 갖는다.

상기 방법은 국제 출원 제PCT/GB08/000562호 (WO 2008/102120)에 기재된 기기를 사용해 수행될 수 있다.

상기 방법은 뉴클레오티드(들)과의 하나 이상의 상호작용 동안, 포어를 통해 흐르는 전류를 측정하는 것을 포함할 수 있다. 따라서 기기는 또한 전위를 인가할 수 있고 멤브레인과 포어를 가로지르는 전기적 신호를 측정하는 전기회로를 포함할 수 있다. 상기 방법은 패치 클램프(patch clamp) 또는 전압 클램프(voltage clamp)를 사용하여 수행될 수 있다. 상기 방법은 바람직하게 전압 클램프의 사용을 포함한다.

본 발명의 방법은 뉴클레오티드와의 하나 이상의 상호작용 동안 포어를 통해 흐르는 전류의 측정을 포함할 수 있다. 트렌스멤브레인 단백질 포어를 통한 이온 전류를 측정하기 위한 적절한 조건은 당해 기술분야에서 알려져 있고 실시예에 개시하였다. 상기 방법은 통상적으로 멤브레인과 포어를 가로질러 인가된 전압과 함께 수행된다. 사용되는 전압은 통상적으로 +2 V 내지 -2 V, 통상적으로 -400 mV 내지 +400mV이다. 사용되는 전압은 바람직하게 -400 mV, -300 mV, -200 mV, -150 mV, -100 mV, -50 mV, -20mV 및 0 mV로부터 선택된 하한 및 +10 mV, + 20 mV, +50 mV, +100 mV, +150 mV, +200 mV, +300 mV 및 +400 mV로부터 독립적으로 선택된 상한을 갖는 범위이다. 사용된 전압은 바람직하게 100 mV 내지 240mV 범위이고 가장 바람직하게 120 mV 내지 220 mV의 범위이다. 증가된 인가 전위를 사용하여 포어에 의해 상이한 뉴클레오티드 간의 식별을 증가시키는 것이 가능하다.

상기 방법은 통상적으로 금속 염, 예를 들면 알칼리 금속 염, 할라이드 염, 예를 들면 클로라이드 염, 알칼리 금속 클로라이드 염과 같은 전하 담체(charge carrier)의 존재에서 수행된다. 전하 담체는 이온 액체 또는 유기 염, 예를 들면 테트라메틸 암모늄 클로라이드, 트리메틸페닐 암모늄 클로라이드, 페닐트리메틸 암모늄 클로라이드, 또는 1-에틸-3-메틸 이미다졸리움 클로라이드를 포함할 수 있다. 상기 논의된 예시적 기기에서, 염이 챔버 중 수용액에 존재한다. 포타슘 클로라이드 (KCl), 소듐 클로라이드 (NaCl) 또는 세슘 클로라이드 (CsCl)가 통상적으로 사용된다. NaCl이 바람직하다. 염 농도는 포화일 수 있다. 염 농도 3M 이하일 수 있고 통상적으로 0.1 내지 2.5 M, 0.3 내지 1.9 M, 0.5 내지 1.8 M, 0.7 내지 1.7 M, 0.9 내지 1.6 M 또는 1 M 내지 1.4 M이다. 염 농도는 바람직하게 150 mM 내지 1 M이다. 상기 방법은 바람직하게 0.3 M 이상, 예를 들면 0.4 M 이상, 0.5 M 이상, 0.6 M 이상, 0.8 M 이상, 1.0 M 이상, 1.5 M 이상, 2.0 M 이상, 2.5 M 이상 또는 3.0 M 이상의 염 농도를 사용하여 수행된다. 고 염 농도는 노이즈 비율에 대한 높은 신호를 제공하고 폴리머의 존재를 나타내는 전류 가 정상 전류 변동(current fluctuation)의 배경(background)에 대해 확인되도록 할 수 있다.

상기 방법은 통상적으로 버퍼의 존재에서 수행된다. 상기 논의된 예시적 기기에서, 버퍼는 챔버 중 수용액에 존재한다. 임의의 버퍼가 본 발명의 방법에 사용될 수 있다. 통상적으로, 버퍼는 HEPES이다. 또 다른 적절한 버퍼는 Tris-HCl 버퍼이다. 상기 방법은 통상적으로 4.0 내지 12.0, 4.5 내지 10.0, 5.0 내지 9.0, 5.5 내지 8.8, 6.0 내지 8.7 또는 7.0 내지 8.8 또는 7.5 내지 8.5의 pH에서 수행된다. 사용된 pH는 바람직하게 약 7.5이다.

상기 방법은 0 ^oC 내지 100 ^oC, 15 ^oC 내지 95 ^oC, 16 ^oC 내지 90 ^oC, 17 ^oC 내지 85 ^oC, 18 ^oC 내지 80 ^oC, 19 ^oC 내지 70 ^oC, 또는 20 ^oC 내지 60 ^oC에서 수행될 수 있다. 상기 방법은 통상적으로 상온에서 수행된다. 상기 방법은 선택적으로 효소 기능을 지지하는 온도, 예를 들면 37 ^oC에서 수행된다.

상기 방법은 통상적으로 유리 뉴클레오티드 또는 유리 뉴클레오티드 유사체 및 분자 래칫 또는 효소의 작용을 용이하게 하는 효소 보조인자의 존재에서 수행된다. 유리 뉴클레오티드는 상기 논의된 임의의 개별적 뉴클레오티드의 하나 이상일 수 있다. 유리 뉴클레오티드 아데노신 모노포스페이트 (AMP), 아데노신 디포스페이트 (ADP), 아데노신 트리포스페이트 (ATP), 구아노신 모노포스페이트 (GMP), 구아노신 디포스페이트 (GDP), 구아노신 트리포스페이트 (GTP), 티미딘 모노포스페이트 (TMP), 티미딘 디포스페이트 (TDP), 티미딘 트리포스페이트 (TTP), 우리딘 모노포스페이트 (UMP), 우리딘 디포스페이트 (UDP), 우리딘 트리포스페이트 (UTP), 시티딘 모노포스페이트 (CMP), 시티딘 디포스페이트 (CDP), 시티딘 트리포스페이트 (CTP), 시클릭 아데노신 모노포스페이트 (cAMP), 시클릭 구아노신 모노포스페이트 (cGMP), 디옥시아데노신 모노포스페이트 (dAMP), 디옥시아데노신 디포스페이트 (dADP), 디옥시아데노신 트리포스페이트 (dATP), 디옥시구아노신 모노포스페이트 (dGMP), 디옥시구아노신 디포스페이트 (dGDP), 디옥시구아노신 트리포스페이트 (dGTP), 디옥시티미딘 모노포스페이트 (dTMP), 디옥시티미딘 디포스페이트 (dTDP), 디옥시티미딘 트리포스페이트 (dTTP), 디옥시우리딘 모노포스페이트 (dUMP), 디옥시우리딘 디포스페이트 (dUDP), 디옥시우리딘 트리포스페이트 (dUTP), 디옥시시티딘 모노포스페이트 (dCMP), 디옥시시티딘 디포스페이트 (dCDP) and 디옥시시티딘 트리포스페이트 (dCTP)를 포함하나 이에 제한되지 않는다. 유리 뉴클레오티드는 AMP, TMP, GMP, CMP, UMP, dAMP, dTMP, dGMP 또는 dCMP로부터 바람직하게 선택된다. 유리 뉴클레오티드는 바람직하게 아데노신 트리포스페이트 (ATP)이다. 효소 보조인자는 효소가 기능할 수 있게 하는 인자이다. 효소 보조인자는 바람직하게 2가 금속 양이온이다. 2가 금속 양이온은 바람직하게 Mg² ⁺, Mn² ⁺, Ca² ⁺ 또는 Co² ⁺이다. 효소 보조인자는 가장 바람직하게 Mg² ⁺이다.

표적 폴리머는 임의의 순서로 분자 래칫 및 포어와 접촉될 수 있다. 표적 폴리머가 분자 래칫 및 포어와 접촉하는 경우, 표적 폴리머가 첫째로 분자 래칫과 복합체를 형성하는 것이 바람직하다. 전압이 포어를 가로질러 인가되는 경우, 표적 폴리머/분자 래칫 복합체가 그 후 포어와 복합체를 형성하고 포어를 통한 폴리머의 이동을 제어한다.

측정의 속성은 다음과 같을 수 있다.

포어를 통해 이동하는 폴리머 단위에 의존하는 특성이 측정될 수 있다. 특성은 폴리머와 포어 간의 상호작용과 관련될 수 있다. 폴리머의 상호작용은 포어의 협착 영역(constricted region)에서 일어날 수 있다. 측정 시스템은 특성을 측정하고, 폴리머의 폴리머 단위에 의존하는 측정을 생산한다.

다양한 상이한 종류의 측정이 수행될 수 있다. 이는 전기적 측정 및 광학 측정을 포함하나 이에 제한되지 않는다. 가능한 전기적 측정은 이온 전류 흐름 측정, 임피던스(impedance) 측정, 터널링(tunnelling) 측정 (Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85), 및 FET 측정 (국제 출원 WO 2005/124888)을 포함한다. 광학 측정은 전기적 측정과 조합될 수 있다 (Soni GV et al., Rev Sci Instrum. 2010 Jan;81(1):014301). 측정은 포어를 통해 흐르는 이온 전류의 측정과 같은 트랜스멤브레인 전류 측정일 수 있다.

전기적 측정이 Stoddart D et al., Proc Natl Acad Sci, 12;106(19):7702-7, Lieberman KR et al, J Am Chem Soc. 2010;132(50):17961-72, 및 국제 출원 WO-2000/28312에 기재된 표준 단일 채널 기록 장비(single channel recording equipment)을 사용하여 수행될 수 있다. 대안적으로, 전기적 측정은, 예를 들면 국제 출원 WO-2009/077734 및 국제 출원 WO-2011/067559에 기재된 바와 같이, 멀티-채널 시스템을 사용해서 수행될 수 있다.

한가지 특성보다 많은 측정을 사용하는 것이 가능하다. 예를 들면, 한가지 가능성은 이온 전류 흐름(ion current flow) 외에 하나 이상의 추가적 특성의 측정, 예를 들면 FET 측정, 광학 측정, 또는 둘 모두를 포함하는 측정과 함께, 이온 전류 흐름의 측정을 사용하는 것이다.

측정 시스템은 복수의 포어를 포함할 수 있다. 기기는 바람직하게 복수의 폴리머 래칫(polymer ratchet)을 더 포함한다. 기기는 바람직하게 본 발명의 방법을 수행하기 위한 지시(instruction)를 더 포함한다. 기기는 어레이 또는 칩과 같은, 폴리머 분석을 위한 통상적인 기기일 수 있다. 본 발명의 방법과 관련하여 상기 논의된 구체예는 본 발명의 기기에 동일하게 적용가능하다.

기기는 바람직하게 본 발명의 방법을 수행하기 위해 세팅된다(set up).

기기는 멤브레인을 지지(supporting)할 수 있는 센서 장치 및 복수의 포어 및 포어를 사용하여 폴리머 특성화(characterising)를 수행하기 위해 작동하는 것; 특성화를 수행하기 위한 물질을 보유하는 하나 이상의 저장조(reservoir); 하나 이상의 저장조로부터 센서 장치로 물질을 제어가능하게 공급하도록 구현된 유체공학 시스템(fluidics system); 및 개별적 시료를 수용하기 위한 복수의 용기를 포함할 수 있으며, 상기 유체공학 시스템은 용기로부터 센서 장치로 선택적으로 시료를 공급하도록 구현된 것이다. 기기는 국제출원 제PCT/GB08/004127호 (WO 2009/077734로 공개), PCT/GB10/000789 (WO 2010/122293 로 공개), 국제 출원 제 PCT/GB10/002206호 (아직 미공개) 또는 국제출원 제 PCT/US99/25679호 (WO 00/28312로 공개)에 기재된 것일 수 있고, 이들 모두는 참조에 의해 본 명세서에 통합된다.

기기는 진단 장치일 수 있다. 진단 장치는 벤치탑(benchtop) 또는 핸드헬드(handheld) 장치일 수 있다. 장치는 나노포어 분석 구성요소(nanopore assay component)를 포함하고 유체 시료를 수용하기 위한 카트리지와 관련하여 작동될 수 있다. 카트리지는 장치에 수납(house)될 수 있거나, 그렇지 않으면 장치에 실시할 수 있게 연결될 수 있다. 카트리지는 재사용을 위한 카트리지 청소를 위해, 또는 폐기(disposal)를 위해, 그 후 제거되거나 장치로부터 분리될 수 있다. 그 후 미사용 또는 청소된 카트리지가 장치에 사용될 수 있다. 카트리지는 장치의 일체로 된 부분일 수 있고, 상기 장치는 사용 후 폐기할 수 있다. 카트리지는 통상적으로 유체 시료를 수용하기 위한 시료 적용 영역(sample application region)을 가질 것이다. 시료 적용 영역은 예를 들면 소변(urine) 시료를 직접 받는 미세유체 채널(microfluidic channel) 또는 다공성 시료 패드(porous sample pad)일 수 있다. 시료의 크기는 통상적으로 0.25 uL 내지 10 mL의 범위이다. 시료 적용 영역은 환자로부터 시료, 예를 들면 핑거스틱(fingerstick)으로 수득된 혈액의 시료를 직접 받기 위해 작용할 수 있다. 카트리지는 적혈구를 여과하기 위한 적혈구 필터를 포함할 수 있다. 카트리지는 염, 항응고제, 또는 버퍼와 같은 건조 시약을 포함할 수 있다. 장치는 데이터 입력 및 출력 포트 및 특징 벡터, 환자 ID, 및 측정 결과에 대한 정보와 같은, 데이터를 송신 또는 수신 및 저장하는 메모리를 포함할 수 있다. 장치는 원격 서버 또는 전문 의료진(medical professional)과 통신(communicate)하기 위한 무선 접속성(wireless connectivity)을 가질 수 있다. 통상적으로 장치 및 카트리지는 특정 분석물의 측정에 한정되지 않고, 메모리에 업로드 및 저장될 수 있는 관심대상의 특정 분석물과 관련된 임의의 특정 분석물 및 특징 벡터를 측정할 수 있다.

이상적으로 많은 통상적인 측정 시스템을 이용한 측정이 단일 폴리머 단위에 의존하나 (이는 k=1인 k 폴리머 단위를 포함하는 k-mer로 고려될 수 있음), 측정은 k가 복수의 정수인 k 폴리머 단위를 포함하는 k-mer에 의존한다. 즉, 각각의 측정은 k-mer 중 각각의 폴리머 단위의 서열에 의존한다. 통상적으로 측정은 폴리머와 측정 시스템 간의 상호작용과 관련된 특성이다.

본 발명의 일부 구체예에서, 폴리머 단위의 소그룹, 예를 들면 폴리머 단위의 더블릿(doublet) 또는 트리플릿(triplet) (즉 k=2 또는 k=3임)에 의존한 측정을 사용하기 위해 바람직하다. 다른 구체예에서, 폴리머 단위의 더 큰 그룹에 의존하는 측정, 즉, "넓은(broad)" 분해능을 갖는 측정을 사용하는 것이 바람직하다. 이러한 넓은 분해능(resolution)은 호모폴리머 영역(homoploymer region)을 조사하기 위해 특히 유용할 수 있다.

측정이 k-mer에 의존하는 경우, 측정은 가능한 많은 k-mer에 대하여 측정이 분해가능한(resolvable) 것(즉, 분리됨(separated))이 바람직하다. 통상적으로 이는 다른 k-mer에 의해 생산된 측정이 측정 범위를 걸쳐 잘 스프레드(spread)되거나 및/또는 좁은 분포를 갖는 경우 달성될 수 있다. 이는 상이한 측정 시스템에 의한 다양한 정도로 도달될 수 있다. 그러나, 이는 본 발명의 구체적 장점이고, 이는 분해가능한(resolvable) 상이한 k-mer에 의해 생산된 측정을 위해 필수적이지 않다.

도 1은 지질 이중층과 같은 생물학적 멤브레인(2)에 삽입된 생물학적 포어(1)인 나노포어를 포함한 측정 시스템(8)의 예를 도식적으로 보여준다. 일련의 폴리머 단위(4)를 포함한 폴리머(3)는 화살표에 의해 보이는 생물학적 포어(1)을 통해 이송된다. 폴리머(3)는 폴리머 단위(4)가 뉴클레오티드인 폴리뉴클레오티드일 수 있다. 폴리머(3)는 생물학적 포어(1)의 안에 k-mer에 의존하여 변하는 트렌스-멤브레인 전류와 같은 전기적 특성을 초래하는 생물학적 포어(1)의 활성 부분(5)과 상호작용한다. 본 구체예에서, 활성 부분(5)은 3개의 폴리머 단위의 k-mer와 상호작용하는 것으로 도시되나, 이에 제한적이지 않다. 생물학적 멤브레인(2)의 각각의 면(each side)에 배열된 전극(6)은 전기적 특성을 측정하는 측정 회로(7)에 연결된다. 따라서 측정은 생물학적 포어(1)의 안에 k-mer에 의존한다.

측정 시스템에 의한 신호 출력(signal output)의 통상적인 종류이고 본 발명에 따라 분석될 입력 신호(input signal)인 것은, 이 신호 종류(type)에 제한 없음에도 불구하고 "노이지 스텝 웨이브(noisy step waves)"이다 이 형태를 갖는 입력 신호의 예는 나노포어를 포함한 측정 시스템을 사용하여 수득된 이온 전류 측정의 경우를 위한 도 2에 도시된다.

입력 신호의 종류는 복수의 측정의 연속적 그룹이 동일한 k-mer에 의존하는 일련의 입력 측정(input series of measurement)을 포함한다. 각각의 그룹에서 복수의 측정이 일정하고, 하기 논의된 일부 분산(variance)이 적용되고, 따라서 측정 시스템의 상태에 상응하는, 신호에서의 "수준(level)"을 형성한다. 신호는 수준의 세트 간에 이동하고, 큰 세트(large set)일 수 있다. 계기 장치(instrumentation)의 샘플링 비율(sampling rate) 및 신호에 대한 노이즈가 주어지는 경우, 수준들 간의 전이(transition)가 즉각적으로 고려될 수 있어서, 신호가 이상화된 단계 트레이스(idealized step trace)에 의해 비슷해질 수 있다.

각각의 상태에 상응하는 측정이 사건의 시간 단위(time scale)에 걸쳐 일정하고, 그러나 대부분의 측정시스템에 대하여 짧은 시간 단위에 걸쳐 분산(variance)될 것이다. 분산(variance)은 측정 노이즈(measurement noise), 예를 들면 전기 회로 및 신호 가공(signal processing)으로부터, 특히 전기생리학(electrophysiology)의 특정 경우에서 증폭기(amplifier)로부터의 결과이다. 이러한 측정 노이즈는 측정될 특성의 작은 규모(small magnitude) 때문에 불가피하다. 분산(variance)은 또한 측정 시스템의 근본적인 물리적 또는 생물학적 시스템에서의 내재적(inherent) 분산 또는 스프레드(spread)로부터 초래될 수 있다. 대부분의 측정 시스템은 측정 노이즈를 피하는 경우가 이상화된 경우에도, 이러한 내재적 분산이 더 커지거나 작아지는 정도까지 격게 될 것이다. 주어진 측정 시스템의 경우, 모든 근원의 변이가 기여할 수 있거나 이들 노이즈 근원 중 하나가 지배적일 수 있다.

또한, 통상적으로, 예측할 수 없을 정도로 변화하는, 그룹의 측정 수의 사전지식(a priori knowledge)은 없다. 분산, 및 측정의 수의 지식의 결여(variance and lack of knowledge of the number of measurements)인 이들 두 요인이 일부의 그룹, 예를 들면 그룹이 짧거나(short) 및/또는 두 연속적 그룹(successive group)의 측정 수준이 다른 것과 가까운 그룹을 구별하기 어렵게 할 수 있다

신호는 측정 시스템에서 일어나는 물리적 또는 생물학적 과정의 결과로서의 이 형태를 취한다. 따라서 측정의 각각의 그룹은 "상태(state)"로서 지칭될 수 있다.

예를 들면, 나노포어를 포함한 일부 측정 시스템에서, 나노포어를 통한 폴리머의 이송으로 구성된 사건(event)이 래칫 방식(ratched manner)으로 발생할 수 있다. 래칫 이동(ratched movement)의 각각의 단계 동안, 나노포어를 가로지르는 소정의 전압에서 나노포어를 통한 이온 전류 흐름이 일정하고, 하기 논의되는 분산이 이루어진다. 따라서, 측정의 각각의 그룹은 래칫 이동의 단계와 관련된다. 각각의 단계는 폴리머가 나노포어에 대해 상대적인 개별적 위치에 존재하는 것인 상태에 상응한다. 상태의 기간 동안 정확한 위치에서 일부 변이(variation)가 존재할 수 있더라고, 상태 사이에는 폴리머의 큰 단위 이동(large scale movement)이 존재한다. 측정 시스템의 속성에 의존하여, 상태는 나노포어에서의 결합 사건(binding event)의 결과로서 발생할 수 있다.

측정의 부분으로서 또는 등록 정보를 제공하는 추가적 근원로부터 이용 가능한 다른 정보가 존재할 수 있다. 이러한 다른 정보는 상태를 확인되게 할 수 있다.

대안적으로, 신호는 임의적 형태를 가질 수 있다. 이러한 경우에, k-mer에 상응하는 측정은 또한 방출(emission) 및 전이(transition)의 세트로서 기재될 수 있다. 예를 들면, 특정 k-mer에 의존하는 측정은 이들 방법에 의한 기재를 처리할 수 있는 방식으로 일어나는 일련의 측정을 포함할 수 있다.

소정의 측정 시스템은 k-mer 및 상기 k-mer의 크기에 의존하는 측정을 제공하는 정도가 실험적으로 검사될 수 있다. 예를 들면, 알려진 폴리머는 합성되고 그 결과로 인한 측정으로부터 측정이 어떻게 측정 시스템과 상호작용하는 k-mer의 정체(identity)에 의존하는지 조사하기 위해 측정 시스템에 대하여 소정의 위치에 유지될 수 있다.

하나의 가능한 시도는 세트의 각각의 폴리머마다 다른 미리 결정된 위치에서 k-mer를 제외하고 동일한 서열을 갖는 폴리머의 세트를 사용하는 것이다. k-mer의 크기 및 정체는 측정에 대한 효과를 조사하기 위해 다양화시킬 수 있다.

또 다른 가능한 시도는 미리 결정된 위치에서 조사 중인 k-mer 외부의 폴리머 단위(polymer unit outside of a k-mer)가 폴리머의 세트의 각각의 폴리머마다 다른, 폴리머의 세트를 사용하는 것이다. 이러한 시도의 예시로서, 도 3은 나노포어를 포함하는 측정 시스템 중 두 개의 폴리뉴클레오티드의 전류 측정의 진동수(frequency) 분포이다. (폴리T로 표지된) 하나의 폴리뉴클레오티드에서, 나노포어의 영역 중 각각의 염기는 (폴리 T로 표지된) T이고,폴리 뉴클레오티드 (N11-TATGAT-N8로 표지)의 다른 것 중, (서열 TATGAT을 갖는) 특정 고정 6-mer의 왼쪽으로 11개의 염기 및 오른쪽으로 8개는 변하도록 할 수 있다. 도 3의 예는 전류 측정의 측면에서 2개의 가닥의 현저한 분리를 보여준다. N11-TATGAT-N8 가닥이 나타내는 값의 범위는 또한 폴리 T가 나타내는 것보다 단지 약간 더 넓다. 이 방식에서 및 또한 다른 서열을 갖는 폴리머를 측정하여, 의심스러운 특정 시스템에 대하여, 측정이 우수한 근사치로 6-mer에 의존하는 것이 확인될 수 있다.

또는 유사하게, 이 시도는 위치 및 최소 k-mer 기재가 결정될 수 있도록 하는 많은 측정 시스템에 대하여 일반화될 수 있다.

유사한 방법론이 일반적 측정 시스템에서 우수한 근사치(well-approximating) k-mer의 위치 및 너비를 확인하기 위해 사용될 수 있다. 도 3의 실시예에서, 이는 최선의 근사치 k-mer의 위치 및 6으로부터 고정된 염기의 수 증감을 검출하기 위해, 포어에 대한 6-mer의 위치를 변화함으로써 (예, N의 수를 전후 다양하게 함으로써) 달성된다. k의 값은 충분히 좁은 값의 퍼짐를 받을 수 있다. K-mer의 위치는 피크 너비(peak width)를 최소화하기 위해 선택될 수 있다.

통상적인 측정 시스템의 경우, 상이한 k-mer에 의존하는 측정이 모두 특별히 분해가능한 것은 아닌 경우가 보통이다. 예를 들면, 도 3과 관련된 측정 시스템에서, 고정된 6-mer를 갖는 DNA 가닥에 의해 얻어진 측정의 범위가 2 pA의 크기(order)이고 이 시스템의 근사치 측정 범위는 30 pA 내지 70 pA이다. 6-mer의 경우, 4096개의 가능한 k-mer가 있다. 이들의 각각이 2 pA의 유사한 변이를 가질 경우, 40 pA 측정 범위에서 이들 신호가 특별히 분해가능한(uniquely resolvable) 것은 아닐 것이라는 것이 명백하다. 일부 k-mer의 측정이 분해가능하더라도, 많은 다른 k-mer의 측정이 그렇지 않다는 것이 통상적으로 관찰된다.

많은 실제 측정 시스템의 경우, 폴리머 단위의 수준에서 분해되는 단일값을 수득하기 위해, 각각의 동일한 폴리머 단위에 부분적으로에 의존하는, k 측정을 변환시키는 함수를 확인하는 것이 가능하지 않고, 또는 더 일반적으로 k-mer 측정은 k-mer의 수보다 더 작은 파라미터의 세트에 의해 기재될 수 없다.

예를 들면, 나노포어를 포함하는 특정 측정 시스템의 경우 실험적으로 도출된 폴리뉴클레오티드의 이온 전류 측정이 단순 1차 선형 모델에 의해 정확히 기재되지 않는다는 것이 입증될 것이다. 이는 하기 더 구체적으로 기재되는 두 개의 연습 세트(training set)에 대하여 입증된다. 이 입증을 위해 사용된 이 단순 1차 선형 모델은 다음이다:

전류 = Sum [ fn(Bn) ] + E

식 중에서 fn은 측정 시스템 중 각각의 위치 n에서 일어나는 각각의 염기 Bn에 대한 계수이고, E는 실험 가변성(experimental variability)으로 인한 랜덤 오차(random error)를 나타낸다. 이 데이터는 이 모델에 당해 기술 분야에 알려진 많은 방법 중 하나가 대안적으로 사용될 수 있기는 하나, 최소자승법(least squares method)에 의해 맞춰진다(fit). 도 4 및 5는 전류 측정에 대항하여 맞춰진 최선의 모델(best model)의 플롯이다. 데이터가 이 모델에 의해 잘 기재된 경우, 포인트(point)는 통상적인 실험 오차 (예를 들면 2 pA) 내에서 대각선에 근접하게 따라야 한다. 이는 데이터가 어떤 계수의 세트에 대해서도 선형 모델에 의해 잘 기재되지 않는다는 것을 보여주는 경우는 아니다.

이하에서는 시간 순서 서열의 측정(time-ordered sequence of measurement)을 분석하는 특정 방법을 기재한다.

그 방법은 도 6에 도시하였으며, 도 6에 도식적으로 보이는 분석 장치(10)에서 컴퓨터-실행될 수 있다. 분석 장치(10)는 컴퓨터 기기에서 실행되는 컴퓨터 프로그램에 의해 실행될 수 있거나, 전용 하드웨어 장치, 또는 그의 조합에 의해 실행될 수 있다. 각각의 경우에, 상기 방법에 의해 사용되는 데이터는 분석 장치(10) 중 메모리에 저장된다. 컴퓨터 기기는, 사용되는 경우, 임의의 종류의 컴퓨터 시스템일 수 있으나, 통상적으로 종래의 구성물(conventional construction)이다. 컴퓨터 프로그램은 적절한 프로그래밍 언어로 쓰일 수 있다. 컴퓨터 프로그램은 컴퓨터 판독 가능 저장 매체 (즉, 비일시적 매체(non-transitory medium))에 저장될 수 있고, 이는 임의의 종류, 예를 들면 컴퓨팅 시스템의 드라이브에 삽입되고 정보를 자기적(magnetically), 광학적 또는 옵토-자기적으로(opto-magnetically) 저장될 수 있는 기록 매체, 하드 드라이브와 같은 컴퓨터 시스템의 고정된 기록 매체, 또는 컴퓨터 메모리일 수 있다.

측정이 시간-순서(time-ordered)이고 임의의 그룹의 측정의 수에 대한 사전지식(a priori knowledge)이 없는 일부 k-mer에 의존하는 복수의 측정의 연속적인 그룹을 포함하는, 상기 기재된 종류의 일련의 측정(또는 더 일반적으로 하기 더 기재되는 바와 같이, 일련의 수)을 포함하는, 충분한 시간 분해능(time resolution)을 갖는 입력 신호(11)에 대해 수행된 방법이 처음 기재된다.

이러한 입력 신호 (11)의 예를 앞서 기재된 바와 같이 도 2에 나타내었다.

상태 검출 단계 (S1)에서, 입력 신호(11)는 측정의 연속적 그룹(successive group)을 확인하기 위해 처리된다.

상태 검출 단계(S1)는 다음과 같이 입력 신호(11)의 도함수의 단기(short-term) 증가를 보이는 도 7에 도시된 방법을 사용해서 수행될 수 있다.

단계 S1-1에서, 입력 신호(11)가 그의 도함수(derivative)로 도출되기 위해 미분된다(differentiate).

단계 S1-2에서, 단계 S1-1로부터의 도함수(derivative)는 (미분이 증폭하는 경향이 있는) 고빈도 노이즈(high-frequency noise)를 억제하는 저역 필터링(low-pass filtering)에 적용한다.

단계 S1-3에서, 단계 S1-2로부터의 여과된 도함수(filtered derivative)는 측정의 그룹간 전이점(transition point)을 검출하여, 데이터의 그룹을 확인하기 위한 역치이다.

단계 S2에서, 각각의 확인된 그룹 중 측정은 각각의 그룹에 대한 특성을 나타내는 하나 이상의 특징의 값을 도출하는 것이다. 가장 간단한 시도에서, 단일값, 예를 들면 평균이 도출되나, 동일하거나 다른 특징을 나타내는 특징의 복수 값이 정보 내용을 증가하기 위해 사용될 수 있다. 사용될 수 있는 특징의 예는 측정 그룹의 평균(average)(평균(mean) 또는 중간값 또는 기타 평균); 측정 그룹의 기간; 측정 그룹의 분산; 측정 그룹의 분포, 비대칭 정보(asymmetry information); 측정의 신뢰(confidence); 또는 그의 조합을 포함한다.

단계 S2로부터의 특징 출력의 값(value of the feature output)은 그 값이 그들이 도출된 그룹과 동일한 순서로 시간-순서인 특징 벡터(12)를 형성한다.

단계 S2는 정보의 양이 감소되나 신호의 상당한 특성이 유지되는, 입력 신호(11)의 표시 제공의 결과를 갖는다.

일반적으로, 다른 방법이 대안적으로 입력 신호(11)와 동일한 순서로 입력 신호(11)의 특징을 나타내는 하나 이상의 특징의 값의 특징 벡터(12)의 값을 도출하기 위해 단계 S1 및/또는 S2의 위치에서 사용될 수 있다.

구체적으로, 그룹을 특이적으로 확인하는 것이 필요하지 않고, 이러한 방법이 시간 분해능(time resolution)이 일부 k-mer가 오직 단일 측정을 제공하거나 측정을 제공하지 않는 정도까지 더 낮은 입력 신호에 적용될 수 있다.

상태 검출 단계의 가능한 단순화는 사람들은 데이터의 두 개의 인접한 윈도(window)의 평균을 비교하여, 슬라이딩 윈도 분석(sliding window analysis)을 사용하는 것이다. 임계는 그 후 평균의 차이로 직접적으로 놓아질(put) 수 있거나, 2개의 창(window)에 데이터 포인트(data point)의 분사에 기반하여 설정될 수 있다 (예를 들면, 스투던트 t-통계(Student's t-statistic)를 계산). 이들 방법의 특정 장점은 데이터에 대한 많은 추정 부과 없이 적용될 수 있다는 것이다.

예를 들면, 도 8은 실험적으로 결정된, 무빙 윈도(moving window) t-검정에 의해 리듀스된(reduced) 입력 신호(11)를 도시한다. 구체적으로, 도 8은 옅은 선(light line)으로서 입력 신호(11)를 보여준다. 상태 검출 이후 수준이 암선(dark line)으로서 오버레이되어(overlayed) 보인다. 도 9는 전체 기록(trace)에 대하여 도출된 값을 보여주고, 전이 간의 평균 값으로부터 각각의 상태의 수준을 계산한다.

단계 S3에서, 단계 S2에서 도출된 특징 벡터(12)는 그들 간의 유사도를 결정하기 위해 하나 이상의 다른 특징 벡터(13)와 비교된다. 점선에 의해 보이는 바와 같이, 다른 특징 벡터(13)는 분석 장치(10)의 메모리(15)에 저장된 하나 이상의 특징 벡터(14)일 수 있고, 대안적으로 다른 폴리머의 일련의 측정인 입력 신호(11)로부터 단계 S1 및 S2를 사용하여 도출된 하나 이상의 특징 벡터(12)일 수 있다.

단계 S3은 조사 대상인 폴리머에 대한 유용한 정보를 도출하는 다양한 방식으로 실행될 수 있다. 단계 S3의 일부 비-제한적 예시가 다음과 같다.

도 10에 보인 단계 S3의 제1 실시예에서, 단계 S2에서 도출된 특징 벡터(12)는 라이브러리로서 하나 이상의 클래스에 대한, 분석 장치(10)의 메모리(15)에 저장된 하나 이상의 복수의 특징 벡터(14)인 다른 특징 벡터와 비교된다. 이 경우에, 단계 S3은 도출된 특징 벡터(12)가 도출된 폴리머를 결정된 유사도에 근거하여 해당 클래스 중 하나에 속하는 것으로 분류하는 분류 데이터(16)를 생산한다.

메모리(15) 중 특징 벡터(14)에 의해 표시된 폴리머의 속성에 의존하여, 유사도가 도출된 특징 벡터(12)의 전부 또는 일부와 메모리(15)에 저장된 특징 벡터(14)의 전부 간에, 또는 도출된 특징 벡터(12)의 전부 또는 일부와 메모리(15)에 저장된 특징 벡터(14)의 일부 간에 결정될 수 있다.

이러한 경우, 선택적으로 상기 방법은 다른 폴리머, 예를 들면 동일한 시료로부터의 폴리머의 일련의 측정인 입력 신호(11) 상에 반복될 수 있다. 이러한 경우 하기 단계 S4, S5, 또는 S4 및 S5 모두가 수행될 수 있다.

단계 S4에서 각각의 클래스 중 폴리머의 수가 카운트될 수 있다. 이는 조사 하 폴리머의 집단의 프로파일에 대한 정보를 제공한다.

단계 S5에서, 도출된 특징 벡터(12)는 도출된 특징 벡터(12)의 폴리머가 속하는 것으로 분류된 클래스의 메모리(15)에 저장된 특징 벡터(14)와 다시 비교된다. 이 비교에서, 유사도가 다시 결정되나, 이번에는 도출된 특징 벡터(12)가 클래스에 대하여 특징 벡터(14)와 비유사한 국소 영역을 확인하기 위해서이다. 도출된 특징 벡터가 기대되는 것과 비유사한, 이러한 국소 영역의 확인은 폴리머의 긴 서열의 상대적으로 작은 영역의 변화가 유의성있는 것인 많은 적용에서 매우 강력하다. 이러한 기법의 일 예는 폴리뉴클레오티드인 폴리머 중 돌연변이를 확인하는 것이다.

단계 S3에서, 비교를 위해 사용되는 특징 벡터(13)는 측정될 폴리머에 의존하여 메모리에 저장된 특징 벡터(14)로부터 선택될 수 있다.

메모리(15)에 저장된 특징 벡터(14)는 중첩 영역을 갖는 둘 이상의 특징 벡터를 포함한다. 이러한 경우, 유사도가 단계 S3에서 도출된 특징 벡터(12)와의 유사도의 결정에 사용되는 특징 벡터(14)의 비-중첩 영역과 함께 결정될 수 있다. 도 11에 보이는 제2 예시에서, 단계 S3이 복수의 폴리머, 예를 들면 동일한 시료로부터의 폴리머 또는 공통의 폴리머의 단편인 폴리머에 대한 단계 S1 및 S2를 수행함으로써 도출된 복수의 특징 벡터(12)에 대하여 수행된다.

제2 실시예에서, 단계 S3은 하기 단계를 포함한다.

단계 S3-1에서, 복수의 도출된 특징 벡터(12)가 서로 비교되고 그들간의 유사도가 결정된다.

단계 S3-2에서, 복수의 도출된 특징 벡터(12)가 그들의 유사도에 기반하여 클러스터(cluster)된다. 구체적으로, 유사한 특징 벡터(12)의 클러스터는 한 클래스로서 확인된다. 단계 S3-2는 도출된 특징 벡터(12)가 클래스 중 하나에 속하는 것으로 도출된 것인, 분류 데이터(16)을 생산한다.

분류 데이터(16)는 상기 기재된 단계 S4 및/또는 S5에 의해 처리될 수 있다.

제3 실시예에서, 단계 S3이 공통 폴리머의 단편인 복수의 폴리머에 대한 단계 S1 및 S2를 수행하여 도출된 복수의 특징 벡터(12)에 대하여 수행된다.

이 경우에, 단계 S3에서, 복수의 도출된 특징 벡터(12)가 서로 비교되고 이들 간의 유사도가 특징 벡터(12)의 중첩 부분에서 결정된다. 이는 단편의 입력 신호로부터 만들어 낼 수 있는 공통의 폴리머에 대한 정보를 허용한다.

단계 S3의 제4 실시예는 단계 5와 유사하나, 도출된 특징 벡터(12)와 메모리(15)에 저장된 특징 벡터(14)의 비교를 포함한다. 이 비교예에서, 유사도는 도출된 특징 벡터(12)가 메모리 중 특징 벡터(14)와 비유사한 것인 국소 영역을 확인하기 위해 결정된다. 제4의 실시예는 상기 단계 S5에 유사하게 유리하나, 폴리머의 예상된 종류가 미리 알려진 경우에 적용가능하고 따라서 비교가 처음에 도출된 특징 벡터(12)를 분류할 필요 없이, 예상된 종류에 대한 특징 벡터(14)로 수행될 수 있다.

유사도를 결정하기 위해 단계 S3 및 S5에 적용될 수 있는 일부의 수학적 기법이 논의된 것이다.

하나의 시도는 존재하는 쌍으로 다이내믹 프로그램 마이닝 서열 정렬 알고리즘(pairwise dynamic programming sequence alignment algorithm), 예를 들면 글로벌 얼라인먼트(global alignment)를 위한 Needleman-Wunsch 알고리즘 또는 로컬 얼라인먼트(local alignment)를 위한 Smith-Waterman 알고리즘을 변형하는 것이다.

상기 변형은 치환 행렬(substitution matrix)을 특징 벡터에 작동하는 거리 측정(distance measure operating on the feature vector)으로 교체하는 것을 포함할 수 있다. 예를 들면 거리 측정은 데이터점(data point) 간의 전류의 절대적 차이의 측정일 수 있다. 거리 함수가 또한 각각의 위치에서의 다수의 측정, 예를 들면 전류 측정의 평균 및 분산이 고려될 수 있다.

변형은 또한 당해 기술 분야에서 알려진 바와 같은 갭 점수 기작(gap scoring mechanism), 예를 들면 일정 갭 페널티(constant gap penalties), 선형 갭 페널티(linear gap penalties) 또는 아핀 갭 페널티(affine gap penalties)에서 수행될 수 있다.

이들 알고리즘을 두 개의 특징 벡터의 함수, 길이 함수(distance function) 및 갭 페널티인 정렬 점수(alignment score)를 출력해낸다. 정렬 점수는 유사도를 결정하기 위 해 사용될 수 있다.

다른 방법이 또한 이들 과업을 달성하기 위해 사용될 수 있더라도, 이들 변형된 정렬 알고리즘이 클러스터링, 컨센서스 구축(consensus building), 및 패턴 일치(pattern matching)를 위해 사용될 수 있다.

또한 다수의 정렬 알고리즘이 쌍 정렬을 위해 기재된 것과 유사한 방식으로 변형될 수 있다.

상기 기재된 갭 정렬 기법(gapped alignment technique)을 사용한 일치 특징 벡터보다, 대안적 시도는 통상적으로 특징 벡터 중 연속적 엔트리(consecutive entry)를 포함한 더 짧은 서브-벡터의 측면에서 특징 벡터를 나타내는 것다. 예를 들면, 특징 벡터가 (1,2,3,4,5)인 경우 그 후 본 발명자는 신규한 표시 {(1,2,3),(2,3,4),(3,4,5)}를 제공하는 길이 3 서브-벡터에 의해 표현할 수 있다. 본 발명자의 출원의 경우 서브-벡터는 종종 상당히 더 길어서 (>10) 시간-순서 정보의 대다수를 유지한다.

서브-벡터에 기반한 특징 벡터의 유사도는 그 후 서브-벡터의 세트가 얼마나 근접하게 일치하는지에 기반하여 정의된다. 본 발명자는 갭에 대한 허용 없이 서브-벡터를 직접적으로 비교할 수 있으므로, 이는 갭 정렬(gapped alignmnet) 종류 알고리즘보다 비교의 더 효율적인 평균의 가능성을 갖는다.

(예를 들면 각각의 수를 0.1에 가깝게 반올림함으로써) 특징 서브-벡터가 적절하게 구별되면(discretized) 그 후 서브-벡터의 정확하거나 부분적 일치가 사용될 수 있고, 유사도를 서브-벡터의 부분의 측면에서 계산하였다. 구별은 또한 비교를 위해 사용될 정수형 산술(integer arithmetic)이 비교를 위해 사용될 수 있게 한다. 대안적으로 해시 함수(hash function)가 고정 길이 "핑거프린트(fingerprints)" (예를 들면 Karp, R., Rabin, M. (1987) "Efficient randomized pattern matching algorithms"/ IBM J. Res. Development 31:249-260 참조)을 제공하기 위해 서브-벡터에 적용될 수 있고, 신속하게 비교될 수 있는 서브-벡터의 존재 또는 부재를 나타낸다.

일치 서브-스트링 (matching sub-string)의 측면에서 유사한 아이디어가 데이터를 짧은 단편으로 나누고 큰 라이브러리에 대하여 이들을 일치시키고 BLST와 같은 알고리즘에 의해 사용된다 (Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) "Basic local alignment search tool." J. Mol. Biol. 215:403-410.),

대안적 시도는 하기와 같이 HMM (Hidden Markov Model) Viterbi 경로를 사용하는 것이다.

일반적으로, 정렬-기반 및 서브-벡터 기반 측정의 짝 유사도(sub-vector based measure of pairwise similarity)는 동일한 방식으로 비교될 특징 벡터의 쌍을 처리한다. 그 결과는 특징 벡터 A 및 B의 쌍(pair)이 주어지는 경우, A 내지 B의 유사도는 B 내지 A의 유사도와 동일하다.

그러나, 비교될 특징 벡터 중 하나가 라이브러리 특징 벡터인 경우, 특징 벡터가 "모델(model)" 또는 "트레이닝 서열(traning sequence)"인 것처럼 문제를 처리하는 것이 자연스럽다. 이 경우에, 정렬은 이전에 기재된 "강제 경로(forced path)" 트레이닝 모델(US 61/538,721, GB 1117574.2)과 유사한 방식으로 구축된 모델을 갖는 HMM 방법을 이용해 수행될 수 있다. Viterbi 외에 당해 기술분야에 알려진 알고리즘, 예를 들면 Forwards-Backwards 알고리즘이 적용될 수 있다. 정렬 알고리즘의 경우에서와 같이, 유사도의 측정으로서 사용될 수 있는 출력 점수가 존재한다. Viterbi의 경우 경로의 전체 가능성(total likelihood)이 존재한다. 전체 가능성은 본 발명자가 두 개의 특징 벡터의 역할을 바꾼다면 동일한 것으로 보장되지 않으나, 구체적으로 분류 문제의 경우, 이는 일반적으로 문제(issue)가 아니다.

클러스터링의 경우, 하기 시도가 적용될 수 있다.

클러스터링은 폴리머의 측정된 집단으로부터 입력 신호(11)가 수행되고, 일부 유사도 기준에 따라 존재하는 폴리머의 수 및/또는 종류를 결정하는 것을 포함한다.

거리의 행렬 (또는 유사도/비유사도)이 주어지는 경우, 계층적 클러스터링(hierarchical clustering)을 위한 방법이 잘 알려져 있고 표준 모노그래프(standard monograph)에 포함된다 (예를 들면 Gordon, A.D. (1999) Classification, 2^nd edition. Chapman and Hall/CRC). 계층적 응집(hierarchical agglomerative) 방법이 또한 CLUSTAL (Higgins,D.G. and Sharp,P.M. (1988). CLUSTAL: a package for performing multiple sequence alignment on a microcomputer. Gene, 73, 237-244.)과 같은 패키지(package)에서 서열 정렬을 위해 사용된다.

글로벌(global) 또는 로컬(local) 정렬 알고리즘을 사용하여, 모든 특징 벡터는 서로 쌍으로 정렬되어, 본 발명자는 특징 벡터의 각각의 쌍 간의 유사도의 측정 (또는 일부 경우에는 거리)을 갖는다. 이들 유사도 값은 m'번째에서 n'번째 특징 벡터의 유사도를 포함한 (m,n)번째 엔트리(entry)를 갖는 유사도 행렬로서 적어질 수 있다. 클러스터링 기법 (통상적으로 계층적 응집 클러스터링(hierarchical agglomerative clustering))이 그 후 그 유사도 행렬에 기반하여 사용된다.

응집 클러스터링의 두 극값(extremes)은 싱글-링크(single-link) (가장 유사한 특징 벡터 쌍의 염기에 응집(agglomerative) 단계 동안 클러스터의 쌍을 채점함) 및 컴플리트-링크 (complete-link) (가장 비유사한 특징 벡터 쌍에 기반한 클러스터의 쌍을 채점함) 클러스터링이다. 유사도를 결정하는 알고리즘과 클러스터링 기법의 최선의 조합은 주어진 적용을 위해 예상되는 클러스터의 속성에 의존한다.

예를 들면, 클러스터가 높은 유사도를 보이는 특징 벡터의 쌍의 중첩 단편을 갖는 특징 벡터로 이루어진 것으로 기대되는 경우, 국소 정렬 점수(local alignment score) 및 싱글-링크 응집 클러스터링(single-link agglomerative clustering)이 하나의 적절한 선택일 것이다. 이의 예가 작업된 실험예(Worked Example) 2에 보이고, 서열 1 및 2는 서열 2 및 3과 중첩한다. 본 발명자의 클러스터링 과업에서 본 발명자가 일부 다른 특징 벡터 중에 단일 클러스터로서 이들을 확인하는 것을 원한다면, 본 발명자는 짧은 중첩 영역을 정확히 확인하는 국소 정렬 점수를 사용해 가장 성공할 것으로 보인다. 싱글-링크 클러스터링은 1은 2와 중첩하고 2는 3와 중첩하기 때문에 서열을 동일한 클러스터로 조인하나, 서열 1 및 2은 서열 공간에서 실제 중첩을 갖지 않기 때문에 컴플리트-링크 응집 클러스터링은 열등한 선택일 것이고 따라서 특징 벡터의 측면에서 낮은 유사도를 가질 것으로 보인다.

클러스터가 전체 특징 벡터를 가로질러 근-동일한(near-identical) 것으로 기대되는 경우 (예를 들면, 특징 벡터이 알려진 기준에 대하여 거의 동일한 위치에서 시작 및 끝나는 것으로 이미 확인되었고, 본 발명자는 그 기준으로부터 미묘하게 변하는 클래스를 발견하기 위해 찾는다) 글로벌 정렬 점수 및 컴플리트-링크 응집 클러스터링은 더 적절한 것이다.

많은 맥락에서, 유사 및 중첩 특징 벡터의 그룹/클러스터/클래스를 나타내는 단일 기준 특징 벡터를 생성할 수 있는 것이 유용하다. 하기는 이를 달성하기 위해 사용될 수 있는 반복적 알고리즘(iterative algorithm)의 개요이다.

1. 긴 초기 특징 벡터(long initial feature vector)를 생성한다. 본 발명자는 이를 랜드마크(landmark) 벡터라 부른다.

2. 상기 랜드마크 벡터에 대하여 각각의 특징 벡터를 정렬한다(align).

3. 신규하고, 빈(empty), 랜드마크 벡터를 생성한다.

4. 단계 2로부터 정렬된 특징 벡터를 따라 처음부터 종료까지 이동하여, 정렬된 특징 벡터의 비율(p)가 범위(r) 내에 있는 경우, 랜드마크 벡터의 위치에 평균값을 부가한다. 5. 단계 4에서 생산된 랜드마크 벡터가 연속적 반복가 동일하거나, 반복의 최고 수에 도달할 때까지 2-4를 반복한다.

대안적으로, 랜드마크 벡터(landmark vector)가 많은 또는 모든 가능한 정렬에 기반하여 업데이트될 수 있다.

그것에 정렬된 특징 벡터를 갖는 이 프로세스의 결과로서 생산된 랜드마크 벡터는 상기 특징 벡터의 "컨센서스(consensus)"를 생산한다.

단계 1에서, 특징 벡터의 모든 쌍은 정렬될 수 있고 선택된 최대 상태를 갖는 정렬된 쌍은 일부 최소 수준의 유사도를 받고, 상기 상태가 초기 특징 벡터를 생성하도록 정렬한 각각의 위치에서 평균을 수행한다. 대안은, 예를 들면 단지 가장 긴 특징 벡터를 고르는 것이 가능하다.

단계 2에 사용된 쌍 정렬 알고리즘은 상기 기재된다.

단계 4에서, p 및 r 은 특정 상황에 따라 다양할 수 있고, 평균은 위치의 일부 다른 척도(meaurement)에 의해 교환될 수 있고, r은 스프레드의 일부 다른 척도에 의해 교환될 수 있다.

이 컨센서스 구축 프로세스는 특징 벡터의 측면에서 다수의 정렬 알고리즘(multiple alignment algorithm)을 제공한다. 랜드마크-정렬 상태(landmark-aligned state)는 각각의 특징 벡터를 나타내는 고정된 길이 벡터(fixed length vector)를 준다.

분류에 대한 일부 시도는 하기와 같다.

분류를 위한 작업은 정수 m>1인 m 클래스의 하나에 "퀘리(query)" 특징 벡터를 부여(assing)하는 것이다. 이는 이들 m 클래스에 속하는 메모리(15) 중 "표적" 특징 벡터(14)의 라이브러리이다.

방법의 혼합이 적절한 이들 극값 간에 놓인 경우가 명백히 있음에도 불구하고, 해결의 방법은 특징 벡터가 불균일(글로벌 수준에서 상호 비유사) 또는 균일(일부 상대적으로 미묘한 차이, 통상적으로 국소화된 차이와 함께, 모두 글로벌하게 서로에 대하여 유사)인지에 의존한다.

불균일한 경우(heterogeneous case)에, 클래스 결정의 가장 간단한 방법은 상기 기재된 방법 중 하나에 의해 퀘리 특징 벡터(query feature vector)와 표적 특징 벡터(target feature vector) 간의 유사도를 계산하고, 퀘리 특징 벡터를 최고 유사도(maximum similarity)의 표적 특징 벡터를 갖는 클래스에 배정(assign)하는 것이다.

클래스 당 다수의 표적 특징 벡터이 존재한다면, 그 후 클래스 중 예를 들면 표적 특징 벡터를 넘는 평균 값을 포함한, 간략한(summary) 표적 특징 벡터가 각각의 클래스에 대하여 도출될 수 있고, 앞서와 같이 진행할 수 있다. 정렬-기반 유사도 측정의 경우, 예를 들면 상기 기재된 "컨센서스 구축(Consensus Building)" 방법을 사용한 특징 벡터의 다수의 정렬을 처음 수행하는 것이 요구된다.

대안적으로 각각의 표적 특징 벡터가 독립적으로 처리될 수 있다. 예를 들면, 가장 간단한 경우에, 퀘리 특징 벡터는 가장 가까운 표적 특징 벡터의 클래스로 부여된다. 이러한 시도가 가능한 성공적이도록, 클래스 당 표적 특징 벡터의 상이한 수를 위한 설명(account)에 대한 통계의 재-가중(re-weighting)이 종종 요구된다.

모든 클래스를 가로지르는 모든 표적 특징 벡터의 정렬이 일반적으로 불균일 경우에 가능하지 않더라고, 본 발명자는 그래도 아직 분류자(classifier)를 도출하는 학습(learning) 알고리즘을 사용할 수 있다. 표적 특징 벡터에 대한 거리 또는 비유사성의 벡터가 개선된 분류자를 생산하는 멀티-클래스 선형 판별 분석과 같은 다변량 학습 기법에 대한 입력으로서 사용될 수 있다. 대안적으로, 고정 길이 벡터(fixed length vector)가 전에 기재된 표준 해싱 알고리즘(standard hashing algorithm)을 사용해 서브-벡터로부터 생산될 수 있고 이는 학습 알고리즘에 대한 입력으로서 사용하였다. 균일 경우에서의 학습 알고리즘에 대한 것은 다음과 같다.

이는 가장 그럴듯한 클래스가 아닌 출력에 대한 많은 방법에 대하여 일반적으로 가능하나, 분류의 확률은 정확하다.

균일한 경우에, 동일하거나 유사한 방법이 비균일한 경우와 같이 적용될 수 있으나, 특징 벡터를 가로지르는 임의의 변이체가 주요 관심대상인 체계적 국소 변이체를 잘 마스크(mask)하고 클래스 간에 정확히 구별하는 주요 정보를 제공할 것이다.

따라서 표적 특징 벡터 간의 주요 차이점이 무엇인지를 배우는 것이 종종 더 효율적이거나; 더 일반적으로, 알려진 클래스를 갖는 특징 벡터의 트레이닝 세트가 주어진 경우, 정확한 분류를 위한 규칙을 배우는 것이 본 발명자들이 특징 벡터의 클래스를 예측하도록 한다.

불균일 경우와 달리, 특징 벡터는 위에 "컨센서스 구축 (Consensus Building)" 경우와 유사하게, 공통의 기준 특징 벡터(예를 들면 표적 특징 벡터의 컨센서스 정렬로부터의 랜드마크)에 초기에 공통 기준 특징 벡터 및 학습 알고리즘에 대한 고정 길이 입력 벡터로서 공급된 랜드마크에 정렬한 상태에 정렬될 수 있다.

알려진 클래스의 특징 벡터의 트레이닝 세트가 주어진 경우, 표준 통계 및 기계-학습 분류 기법이 신규 특징 벡터의 클래스를 예측하기 위해 사용될 수 있다. 예를 들면, 결정 트리 분류자(decision tree classifier) (예를 들면, C4.5. Quinlan, J. R. (1993) C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers에 제한되지 않음)는 기준-정렬 특징 벡터의 특정 위치가 오직 한 클래스에 대한 특정 값을 넘는다는 것을 학습할 수 있다. 신경 네트워크(neural network), 랜덤 포리스트(random forest) 및 서포트 벡터 머신(support vector machine)과 같은 소위 블랙 박스(black box) 방법이 클래스 멤버쉽(lass membership)의 예측을 수행하는데 사용될 수 있고, 해석가능한 규칙을 반드시 생성하지는 않는다. 대안적 방법에서, Bayesian 네트워크가 실행될 수 있고, 전문 정보가 또한 포함될 수 있다.

클래스가 기준에 대한 정렬 후 동일한 위치 주변에서 변하는 특정 관심대상일 수 있다 (예를 들면 게놈의 덜 보존된 영역에 상응). 이 경우, 정렬이 주어지는 경우, 클래스 내의(within-class) 변이에 비하여 클래스 간의(between-class) 높은 변이를 갖는 하나 이상의 연속적 위치(one-or-more consecutive position)를 위해 직접적으로 볼 수 있다.

이는 과대-적합(over-fitting)을 피하고 일반화가능성의 아이디어를 얻는 이들 방법을 갖는 교차-타당법(cross-validation) 및 홀드-아웃 세트(hold-out set)와 같은 표준 기법을 사용하기에 유익하다.

정렬 단계로 시작하는 것보다, 본 발명자는 또한 학습 알고리즘(learging algortithm)에 대한 입력으로서 서브-벡터(sub vector)를 사용한다. 고정된 길이 벡터(fixed length vector)가 전에 논의된 바와 같이 표준 해싱 알고리즘을 사용한 서브-벡터로부터 생성될 수 있고, 이는 학습 알고리즘에 대한 입력으로서 사용하였다. 대안적으로, 서브-벡터는 - 예를 들면 클래스 내의 네이버(neighbour) 근처를 오직 갖는 서브-벡터에 대한 알고리즘 검색에 의해 직접적으로 사용될 수 있다.

균일 또는 비균일 경우로 분명히 나누어지지 않는 문제는 두 경우로부터의 방법의 혼합을 사용해, 구체적으로 (상기 기재된 "클러스터링"과 유사하게) 클러스터링을 사용해 문제 공간을 클래스의 균일 그룹으로 처음 세분하여 처리될 수 있다.

도출된 특징 벡터(12)가 또 다른 특징 벡터와 비유사한 국소 영역을 결정하는 시도, 예를 들면 단계 S5 또는 제4 실시예의 단계 S3이 기재될 것이다.

일반적으로, 표적 특징 벡터에 대한 정렬이 수행되고 그 후 퀘리 특징 벡터와 표적 특징 벡터 간에 다른(vary) 위치가 확인된다.

단일 클래스로부터의 하나 이상의 표적 특징 벡터가 존재하는 경우, 기준 특징 벡터가 상기 표적 특징 벡터로부터 생성되고 (예를 들면 상기 "컨세서스 구축"에 기재된 랜드마크), 상기 표적 특징 벡터는 위치의 아이디어 및 기준에서의 각각의 위치에서의 변동성을 얻기 위해 기준 특징 벡터에 정렬된다 (예를 들면 그 위치에서의 정렬된 표적 특징 벡터의 평균 및 표준 편차를 계산함). 퀘리 특징 벡터가 표적 클래스에서 생성될 것 같지 않은 값의 패턴을 보이는 국소 영역이 그 후 확인, 예를 들면 본 발명자가 표적 특징 벡터로부터 추정된 평균 및 표준 편차를 갖는 가우시안(Gaussian)에 대한 각각의 분포를 추정하는 경우, 연속적 기준-정렬 상태의 수를 가로질러 총 가능성에서 봄으로써 확인될 수 있다.

상기 방법은 상기 분류의 균일 경우에서 논의된 바와 같은 특징 벡터의 클래스 간의 차이를 보기 위해 연장될 수 있다. 이들 클래스가 미리-정의될 수 있고, 예를 들면 그들이 특정 질병이 있고 없는 환자로부터의 DNA 시료일 수 있다. 대안적으로, 그들은 제1 사례에서 클러스터링에 의해 도출될 수 있다.

동일하게, 균일 분류(homogeneous classification) 방법의 맥락에서 상기 논의된 (결정 트리(decision tree)와 같은) 많은 통계학적 및 기계 학습 기법이 또한 특징 벡터의 쌍 또는 클래스 간에 다른 국소 영역을 발견하기 위해 사용된다.

예를 들면 상기 단계 S3의 제3 실시예 중, 특징 벡터의 단편으로부터 큰 특징 벡터의 어셈블리에 대한 시도가 기재될 것이다.

어셈블리 알고리즘의 다수가 존재하는 종류의 특징 벡터를 사용하기 위해 변형될 수 있다. 상기 기재된 컨센서스 방법은 일부 어셈블리 적용을 위해 적절할 수 있다. 일반적으로 하기 방법이 사용될 수 있다.

특징 벡터가 처음 "구별된다(discretised)". 전환이 하기 또는 그의 조합을 포함할 수 있는 각각의 일련의 측정에 적용된다:

1. 일련의 델타(deltas)로서 특정 벡터를 나타낸다.

2. 전류 수준에 기반한 일련의 클래스로서 특징 벡터를 나타낸다.

3. 일련의 마일스톤(mileston) (잘 특징화된) 특징으로서 특징 벡터를 나타낸다.

일단 기록(trace)이 구별되면, 표준 어셈블리 알고리즘이 사용될 수 있다. 예를 들면. 시드 서열(seed sequence)이 추출되고, 중첩 시 사용될 수 있다. 그런 당므, 중첩기(overlapper)가 특징 벡터 공간 전환(feature vector space transformation)을 사용해 판독(reads)을 맞출 것이다.

적용될 수 있는 존재하는 어셈블리 알고리즘은 Zerbino & Birney, "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs", Genome Res. 2008. 18: 821-829 and Batzoglou, S. "Algorithmic challenges in mammalian genome sequence assembly", (2005) Encyclopaedia of genomics, proteomics and bioinformatics, ed Dunn, M., et al. (John Wiley and Sons, New York)을 포함한다.

본 발명의 일부 특정 적용이 비-제한적 예시에 의해 설정된다.

제1 적용은 알려진 라이브러리 또는 패널의 분자에 대항하여 분자를 카운팅하는 것이고, 이는 단계 S3의 제1 실시예를 포함하는 방법을 사용할 수 있다.

라이브러리는 메모리(15)에 저장된 특징 벡터(14)를 포함한다. 이러한 라이브러리는 특징 벡터를 학습하기 위해 각각의 분자 또는 각각의 분자의 세트를 위한 개별적 실험에 근거하여, 지도식(supervised) 또는 비-지도식(un-supervised) 학습을 사용해, 나중에 사용을 위해 생성될 수 있다.

예를 들면 이는 알려진 질환의 DNA/RNA 서열의 세트를 가질 수 있다. 이들 분자의 핑커프린트(fingerprint)가 측정으로부터 또는 모델로부터 생성되어 미리 알려질 수 있다. 분자의 측정이 주어지는 경우, 알려진 라이브러리가 측정된 라이브러리 멤버에 대한 분자의 유사도와 비교될 수 있다. 이는 측정된 각각의 분자의 확인(이 확인은 "다른 것(other)"일 수 있다) 및 측정된 분자의 각각의 종류의 상대적 수의 정량을 가능하게 한다.

라이브러리 또는 참조 패널(referecne panel)에 대하여 기준으로 카운트될 수 있는 것들의 예는 다음과 같다:

발현 프로파일(Expression profile): 일치(mathing) 특징 벡터에 의한 mRNA 전사체의 풍부(abundance)의 비교. 이는 발현 수준에서의 변화를 측정하기 위해 사용될 수 있다. 이러한 유전자 발현은 한 기관과 또 다른 것 사이에서의 발생, 질병, 질병에 대한 치료 동안 변할 수 있다.

바이오마커 miRNA의 풍부: 이들은, 통상적으로, 혈액에서 순환하는 20-25-mer RNA 올리고뉴클레오티드이고, 및 이들의 그룹의 발현 수준의 변화는 특정 질병, 특히 암과 관련된다. 사람은 정의된 패널을 비교할 수 있고, 따라서 유형 정합(pattern matching)을 위해 상대적으로 작은 탐색 공간(search space)이 있을 것이다.

순환 혈액 중 태아 카피수 변이(foetal copy number variation): 단편화된 태아 DNA는 모체 혈액에서 순환한다. 태아가 이수성(aneuploidy), 예를 들면 염색체 21, 18, 11의 추가적 카피(즉시 사망하지 않는 주요 항목)를 갖는 경우, 포어 분석을 강화하고(enrich), 이들을 기준 특징 벡터와 비교하고 카운트하기 위해, 포획 프로브, 예를 들면 관심대상의 염색체의 엑손을 설계하는 것이 가능하다. 이를 위한 전류 방법의 주요 한계는 모체와 태아 염색체 간의 구별의 불능이다. PCR을 사용하는 차세대 시퀀싱에서 보이지 않는, 태아와 모체 DNA 간의 메틸화 상태의 차이가 있지만, 이는 특징 벡터의 차이로 볼 수 있다.

비교 게놈 혼성화(Comparative genomic hybridization, CGH): 다양한 게놈 영역의 카피수의 변화가 종양 세포 (및 또한 상기 기재된 바와 같이 태아) 중 변형될 수 있다. 잠시동안, 이는 비교 게놈 혼성화에 의해 확인되었다. 잠시동안, 이는 비교 게놈 혼성화에 의해 확인되었고, 즉, 환자/시료가 어레이로 프로브의 세트에 단편화된 게놈 DNA를 혼성화함으로써 기준과 비교된다. 태아 테스트(foetal testing)와 같이, 특징 벡터 공간(feature vector space)이 이들 카피수 변화를 프로파일하기 위해 사용될 수 있다.

바이러스 또는 박테리아 로드(load): 감염의 중증도의 척도. 농축(enrichment)의 일부 형태와 가능한 함께, 혈액 당 병원체 RNA 또는 DNA 카피의 수가 측정된다. 모든 병원체 게놈에 수행되지 않을 수 있다. 초기 단계 및 후기 단계 측정이 항원 소변이(antigenic drift) 및/또는 항원 변이를 확인하기 위해 수행될 수 있다.

상기 방법은 역학(epidemiology) 예를 들면 확인 (균주 타이핑(strain typing)) 및 질병이 어떻게 스프레딩 또는 진화하는지에서의 적용일 수 있다. 상기 방법은 예를 들면 특정 약물 요법의 효능을 모니터링하거나 신체의 한 영역으로부터 다른 곳으로의 질병의 스프레드 또는 환자 간의 질병의 스프레드를 모니터링하기 위해 사용될 수 있다.

프로브: 작은 집단의 프로브(예, 바이오마커 패널에 대한 압타머)가 제공되고, 이들 중 일부는 표적 분자에 결합한다. 결합하지 않은 것들은 결합한 것으로부터 분리되고, 표적 분자를 정량화하기 위해, 분자가 결합되지 않은 집단 또는 결합한 집단 중에서 카운트된다.

유기체의 정체(identity)가 예를 들면 식품 또는 문화에서 결정될 수 있다.

제2 적용은 주요 집단(들)(major population)의 정량화 및 시료 중 "다른 것(other)"의 측정이다.

한 예로서, 사람들은 DNA 올리고머의 합성을 고려할 수 있다. 현재 품질관리방법(current quality control method)은 통상적으로 폴리아크릴아미드 겔 전기영동 (PAGE), 고성능 액체 크로마토그래피 (HPLC) 및 질량 분석법(mass spectrometry)을 포함한다. 사람들은 시료의 합성된 DNA를 측정하고 존재하는 주요 집단의 특징(signature)을 결정할 수 있다. 그 후 합성 중 실수를 가능한 대로 나타내는, 주요 집단과 다른 시료 중 다수의 분자를 카운트하는 것이 가능하다. 구체적으로 차이가 특징 벡터 중 특정 위치에서 일어난다며, 이는 합성 조건을 조정하여 고쳐질 수 있는 체계적인(systematic) 실수 때문이다. 그 후 임의의 개선(improvement)이 나노포어 측정을 반복하여 확인될 수 있다.

제3 적용(application)은 위치에서의 변형/차이점의 측정과 분자의 집단 내 이들 변형/차이점의 정량이다.

일 예는 단일-염기 다형성 (SNP)의 콜링(calling)이다. 그 위치에서 허용된 4개 (또는 이상의) 허용된 뉴클레오티드와 비교하여 위치가 알려졌다. 야생형과 비교하여 알려진 위치에 SNP의 존재 및/또는 부재를 "야생형(wild-type)"과 비교하였다. 이는 새로운 좌(locus)의 확인을 가능하게 할 수 있다. 유사하게 이는 후에 논의되는 바와 같이 비-대립 상동 재조합(non-allelic homologous recombination, NAHR) 중 상동체-특이 변이체의 확인을 가능하게 할 수 있다.

또 다른 실시예는 메틸화와 관련된다. 측정이 알려진 메틸화 위치에서 만들어 질 수 있다. 상기 방법은 이러한 위치에서 메틸화의 존재, 부재 및/또는 정량의 확인을 가능하게 한다. 상기 방법은 또한 알려지지 않은 위치의 확인을 가능하게 한다. 상기 방법은 예를 들면, 상기 기재된 바와 같은 태아 스크리닝에 사용하기 위한, 예를 들면 집단의 100%가 변형된 50%이거나 상기 집단의 50%가 변형된 100%인, 개별 분자의 "벌크(bulk)" 메틸화 상태의 추정을 가능하게 한다. 특정 유전자의 메틸화 상태가 암을 위한 바이오마커로 사용될 수 있다.

또 다른 실시예는 스플라이스 변이체(splice variant) 및/또는 이송 중지점(translocation breakpoint)의 확인이다. 이는 이전에 기재된 실시예와 유사하나, 사람들은 특징 벡터가 일치(matching)을 중지하거나 특징 벡터의 이분의 일이 한 좌에 매핑하고 다른 반이 다른 곳에서 매핑하는 위치를 확인한다.

제4 적용은 특정 알려진 분자의 원하는 신뢰도로 존재 및/또는 부재의 확인에 있다.

이는 제1 적용과의 비교와 유사하나, 본 명세서에 한 특정 분자에 관심대상(interest)이 있을 수 있다.

이 방법은 예를 들면 급속하게 돌연변이를 만드는 질환에서, (DNA 또는 단백질 서열의 상동성의 측정과 유사한) 특정 정도의 신뢰도로 알려진 분자와 동일하지는 않으나, 관련된 분자의 집단을 확인하는데 사용될 수 있다.

또 다른 실시예는 스플라이스 변이체(splice variant)에서와 같은 융합 전사체(fusion transcript)와 관련된다. 특이한 융합 전사체의 검출이 암 진단에서 사용되고, 예를 들면 Bcl-abl 융합 전사체의 존재는 백혈병을 나타낸다.

또 다른 예는 NAHR의 진단과 관련된다. 감수분열(meiosis) 동안, 유사하지만 비-대립 좌 간의 재조합은 이러한 생식세포(gamete)로부터 생기는 태아에 대한 큰재앙의 결과(catastrophic consequence)를 포함한, 상당히 많은 양의 게놈(fairly large chunks of genome)의 결실 또는 복제를 초래한다. 이는 발병된 좌의 카피수의 변화를 초래할 것이고(상기 CGH 참조), 또한 (동일하지 않으나 SNP와 같이) PSV를 봄으로써 측정가능한 비-대립 상동기관(non-allelic homolog)의 융합을 초래한다.

또 다른 실시예는 도출된 특징 벡터의 복수의 부분이 복수의 저장된 특징 벡터와 비교되는 경우와 관련된다. 예를 들면 알려진 단백질 도메인에 대한 DNA 서열이 라이브러리 특징 벡터를 생성하는데 사용될 것이고 알려지지 않은 단백질을 코딩하는 DNA가 측정된다. 도출된 특징 벡터의 부분이 예를 들면 촉매 도메인와 다른 부분으로, 예를 들면 DNA 결합 도메인으로 확인될 것이다. 따라서 단백질의 기능이 추정될 수 있다.

제5 적용은 어셈블리와 관련된다.

더 큰 분자로부터의 일부 다른 기작에 의해, 임의적으로 분열되거나(randomly split), 체계적으로(systematically) 분열되거나, 분열된, 더 작고, 부분적 중첩 특징 벡터(smaller, partially overlapping feature vector)를 읽는 분자의 집단(collection)으로부터, 사람들은 완전하고 더 큰 특징 벡터를 어셈블ㄹ할 수 있다. 서열 어셈블리(sequence assembly)를 위하여 사용된 것에 (조정되어) 유사한 알고리즘이 사용될 수 있다. 대안적으로, 사람은 (예를 들면 DNA 서열이 알려진 경우) 분자의 알려진 특성으로부터 거친(rough) 주형 특징 벡터 및 그 주형 특징 벡터에 매핑된 작은 단편을 생성할 수 있다. 주형이 근사치인 경우, 상기 주형은 상기 방법을 통해 개량(refine)될 수 있다.

라이브러리가 실험적으로 도출되거나 정보적으로(informatically) 생성될 수 있다.

사용되는 라이브러리의 종류의 예는 모델을 사용한 알려진 DNA 서열, 알려진 단백질 서열, 알려진 폴리머로부터 구축된 특징 벡터, 실험적으로 도출된 특징 벡터, 중첩 도출(overlapping derived) 특징 벡터로부터 합체된 특징 벡터, 클러스터된 측정의 컨센서스로부터 도출된 특징 벡터를 제한없이 포함할 수 있다. 라이브러리는 복수의 관련된(plural related) 특징 벡터, 복수의 관련되지 않은(plural unrelated) 특징 벡터, 비균일 또는 균일한 크기의 특징 벡터, 국소화된 차이(localised difference)를 갖는 유사한 특징 벡터를 포함할 수 있다.

DNA 단편에 상응하는 특징 벡터의 라이브러리가 실험적으로 도출된 예는 체계적으로 생산된 단편을, 예를 들면, 효소 단편화(enzymatic fragmentation), 또는 임의적으로 생산된 단편에 의해, 예를 들면 기계적 전단(mechanical shearing) 또는 철저한(through) 비 선택적(non-selective) 효소 작용에 의해 사용할 수 있다. 임의적으로 단편화된 도출 특징 벡터가 우선적으로 라이브러리에 사용하기 위한 더 큰 도출된 특징 벡터로 조립될 수 있다. 체계적으로 단편화된 라이브러리(systematically fragmented library)는 단편화된 패턴과 유사한 영역을 포함하는 라이브러리 특징 벡터로서 우선적으로 사용될 수 있다.

특징 벡터의 라이브러리가 정보적으로(informatically) 도출된 예는 이용가능한 데이터베이스 예를 들면 공개적으로 이용가능한 DNA 서열을 포함하는 NIH Genbank 데이터베이스 (Nucleic Acids Research, 2011 Jan;39(Database issue):D32-7)를 활용할 수 있다. 이들 서열에 상응하는 평균 전류에 대한 특징 벡터를 도출하기 위해, 예를 들면, 모델이 이전에 사용된 것(US 61/538,721, GB 1117574.2, N114722)과 같은 트레이닝 프로세스(training process)로부터 도출되어 사용될 수 있다. 라이브러리는 특정 적용에 대한 관심대상인 그들 서열로 리듀스(reduce)될 수 있고, 예를 들면 라이브러리가 인간 게놈의 코딩 영역으로 리듀스될 수 있다.

본 발명의 사용의 일부 실시예가 기재될 것이다.

실시예 1은 하기 실험 조건을 갖는 통상적인 나노포어 실험에서 얻어진 데이터와 관련된다:

버퍼 용액(buffered solution): 1 M NaCl, 100 mM Hepes pH 8.0, 1 mM ATP, 1 mM MgCl₂, 1 mM DTT, 10 mM 페로사이안화칼륨(Potassium Ferrocyanide) (II), 10 mM 페리사이안화 칼륨(Potassium Ferricyanide) (III), Pt 전극.

나노포어: MS(B2C)8 MspA MS-(G75S/G77S/L88N/D90N/D91N/D93N/D118R/Q126R/D134R/E139K)8

효소: 헬리카제 100 nM

1,2-디피타노일-글리세로-3-포스포콜린 지질 (Avanti 극성 Lipids) 이중층에 삽입된 단일 MspA 나노포어로부터 전기적 측정을 얻었다. 이중층을 Montal-Mueller 기법을 통해 20 ㎛의 두께 PTFE 필름 (Delrin 챔버로 구입) 중 ~100 ㎛의 직경 구멍을 가로질러 형성하였고, 두개의 1 mL 버퍼 용액으로 분리하였다. 모든 실험을 정해진(stated) 버퍼 용액에서 수행하였다. 단일-채널 전류를 1440A 수치기(digitizer)가 구비된 Axopatch 200B 증폭기 (Molecular Devices)에서 측정하였다. Pt 전극을 버퍼 용액과 연결하여 (나노포어 및 효소/DNA가 부가된) 시스 구획이 Axopatch 헤드스테이지(headstage)의 그라운드(ground)에 연결되고 트랜스 구획이 상기 헤스스테이지(headstage)의 활성 전극에 연결하였다.

이중층 중 단일 포어를 달성한 후, DNA 폴리뉴클레오티드 및 헬리카제를 100 ?의 버퍼에 부가하고 5분 동안 프리-인큐베이션(pre-incubate)하였다 (DNA = 1.5 nM, 효소 = 1 μM). 상기 프리-인큐베이션 혼합물을 전기생리(electrophysiology) 챔버의 시스 구획 중 900 ㎕의 버퍼에 부가하여 MspA 나노포어 중 헬리카제-DNA 복합체의 포획을 개시하였다 (DNA = 0.15 nM, 효소 = 0.1 μM의 최종 농도를 제공하기 위함). 헬리카제 ATPase 활성을 시스 구획(cis compartment)에 2가 금속 (1 mM MgCl₂) 및 NTP (1 mM ATP)의 부가에 의해 요구된 바와 같이 개시되었다. 실험을 +120 mV의 일정한 전위에서 수행하였다.

본 시험에 사용되는 분석물 DNA 시료는 ANA ID NO. 1-19에 보인다.

실시예 2는 DNA 분자의 패널로부터 특정 DNA 분자의 확인 및 정량(quantification)과 관련된다. 이 실시예는 특징 벡터의 미리-결정된 라이브러리로부터의 용액 중 DNA 분자의 확인의 과정을 기재한다.

라이브러리 구축을 하기와 같이 수행되었다. 라이브러리를, 5 킬로베이스 게놈 (PhiX174)로부터 약 100 염기에 의해 이전 서열과 각각 중첩하는, 18 가까이 400 mer 서열 (ANA ID NO 1 to 18)을 취하여 구축하였다. 예를 들면, ANA ID NO 2는 ANA ID NO 1을 갖는 100개의 염기 및 ANA ID NO 3을 갖는 100개의 염기를 공유할 것이다. 이들 서열은 모든 서열에 공통되고 더 큰 게놈의 일부가 아닌, 개시에서의 서열 및 종료에서의 서열을 포함한다. 중첩 서열은 큰 유사 영역의 존재에도 불과하고, 상이한 분자의 확인의 입증을 가능하게 한다. 라이브러리 특징 벡터가 각각의 5 mer 위치 (1024 값)와 연관된 전류의 모델을 고려함으로써 평균 전류에 대하여 구축된다. 모델의 이러한 종류의 결정은 이전에 개시되었다 (예를 들면 US 61/538,721, GB 1117574.2, N114722).

서열 1, 2 및 3에 대한 특징 벡터를 도 12에 표시하고, 이는 중첩 섹션(overlapping section)을 도시한다. (상기에 기재된 바와 같이) 각각의 서열의 공통 단부(common end)는 이 예시로부터 제거되었다.

후보 분자 특징 벡터가 하기와 같이 수득되었다. 상기 기재된 실험 방법 및 실시예 1을 사용해 후보 분자를 획득하였다. 후보는 이전에 기재된 바와 같이 확인된 전이(identified transition) 간의 평균 전류로 구성된 특징 벡터로 리듀스된다(reduce).

하나의 서열 (ANA ID NO 1 내지 18)에 속하는 예시 후보를 고려하였다. 이 분자는 상기 기재된 정렬 알고리즘을 사용해 라이브러리 (ANA ID NO 1 sowl 18)에 대하여 비교되었다. 정렬로부터 출력 점수가 각각의 라이브러리 멤버에 대한 유사도의 측정으로 사용된다.

정렬에 의한 비교를 수행하였다. 라이브러리 비교(library comparison)로부터의 출력 점수(output score)가 도 13에 보인다. 사람들은 라이브러리 멤버의 하나에 대한 점수가 모든 다른 라이브러리 멤버에 대한 것보다 훨씬 더 높다는 것을 볼 수 있다. 이는 정렬의 합당한 모수화(parameterisation)의 범위를 가로지르는 진실이다. 본 명세서에 -1의 차이 갭 패널티(gap penalty) 및 상호 절대 차이(reciprocal absolute difference)의 점수 함수가 보인다 (즉 더 가까운 일치가 더 큰 점수이다).

라이브러리 분자 13 (ANA ID NO 13)을 갖는 정렬의 보다 가까운 조사(Closer inspection)는 도 14에 도시된 바와 같이, 가까운 매치(close match)가 실제로 존재함을 보여준다.

이는 이 실험 중 모든 후보 분자(모든 분자 13)에 대하여 행해졌고 사람들은 대부분의 경우 분자가 정확히 분자 13으로 확인되었던 것을 볼 수 있다. 분자가 정확히 확인되지 않은 경우, 이들은 분자 12 (ANA ID NO 12)로서 오인된다. 이들은 통상적으로 분자의 부분 판독(partial read)이고, 대부분 공유된 중첩 서열을 포함한다. 확인의 히스토그램이 도 15에 보인다. 본 발명자는 분자 13의 168개의 예를 카운트하고, 정확히 본 실험에서 확인하였다.

실시예 3은 DNA 단편 중 단일 염기 다형성 (SNP)의 측정과 관련된다.

라이브러리 구축 및 특징 벡터는 상기 제시된 바와 같은 방법을 사용해 생성되나, 분자 13(ANA ID NO 13)에 대한 라이브러리 특징 벡터에서, 서열[old][position][new]에 세개의 변화, T335A, G357T, C385A (ANA ID NO 19)가 만들어졌다. 분자 13의 실시예는 라이브러리 분자 (즉, 3개의 SNP)에 대하여 이들 위치에 변화를 가질 것이다. 라이브러리 특징 벡터의 이들 SNP의 효과가 도 16에 보인다.

이전 실시예의 정렬 기반 확인 방법을 반복하고, 이들 SNP가 분자의 확인에 상당한 영향을 갖지 않는다는 것을 입증하였다. 다수의 분자가 주어진 SNP 오인(mis-identify)에 대해 약간 더 높은 경향과 함께 여전히 정확히 확인된다. 증가된 경향은 SNP 없이 동일한 서열을 공유하는 ANA ID NO 12에 대한 서열 때문이다. 확인의 히스토그램이 도 17에 보인다.

SNP 콜링(SNP calling)의 경우, HMM 및 Viterbi 경로(path)가 예를 들면, 이전에 사용된 파라미터를 갖는 Needleman-Wunsch보다 더 우수한 경로(즉, 불일치 SNP 영역(mismatches SNP region)을 통해 더 잘 정렬될 것이다)를 가졌기 때문에 정렬을 위하여 사용하였다. 도 18에 보이는 정렬이 이전에 보인 이상화된 라이브러리 돌연변이(idealised library mutation)와 잘 비교한다. 3개의 SNP가 도 18에서 분명하게 관찰가능하다.

176개의 분자의 데이터세트를 보면, 이들 SNP 위치가 명백히 확인될 수 있다. 도 19는 Viterbi 정렬된 라이브러리(aligned library)와 후보 특징 벡터(candidate feature vector) 간의 전류 차이를 보여준다. 측정된 특징의 일부가 각각의 단일 변화(즉, 서열에 대한 단일 변화가 일부 인접한 kmer에 영향을 미침)에 의해 영향을 받은 것으로서 일부 위치에서 335 및 357의 경우에서 세 개의 SNP가 보인다.

이 실험의 컨트롤 버전(control version)을 SNP가 없는 ANA ID NO 13을 위한 라이브러리 특징 벡터를 사용하여 행하였다. 이 경우 위치(position)가 일관된 편차를 보이지 않는 도 20에 보이는 바와 같이, 일관된 차이점이 라이브러리로부터 확인되지 않는다.

실시예 4는 주요 집단의 확인 및 유사하나 상이한 서브-집단의 측정과 관련된다.

본 실시예는 시물레이션된 데이터와 작용된다. (평균 전류의) 60개의 특징 벡터의 세트가 ANA ID NO 13에 시물레이션된다. 시물레이션의 10개는 또한 SNP을 포함한다. 1 pA의 표준 편차를 갖는 가우스 노이즈(Gaussian noise)가 각각의 값에 첨가되고 각각의 벡터 중 5%의 값이 임의로 제거된다. 데이터를 시물레이션하는 것으로부터 떨어져, 서열의 정보가 더 사용되지 않았다.

이 데이터세트 (및 서열은 알지 못함)를 사용하여 컨센서스가 이전에 기재된 랜드마크 방법(landmark process)을 통해 구축된다. 도 21은 컨센서스에 정렬된 모든 데이터를 갖는 이 프로세스의 최종 출력을 보여준다. 본 발명자는 SNP가 약. 위치 337에서 포함된 영역을 명백하게 보았다.

도 22에 도시된 바와 같이, 실시예 3과 같은 동일한 분석을 수행하여 사람들은 분자 51-60에서 보통 확인되는 SNP를 볼 수 있다.

실시예 5는 다수의 집단의 확인, 라이브러리의 생성 및 상대적 카운트와 관련된다.

첫번째로 두개의 종이 존재하는 경우, 및 두 번째로 세 개의 종(species)이 존재하는 경우, 두 경우가 고려된다. 데이터는 실시예 2로부터 ANA ID NO 13, 9 및 5로부터의 서열을 사용해 시물레이션된다. 그러나 이 실시예의 경우, 초기 데이터세트의 시물레이션의 경우 외에 활용되는 서열 또는 모델 정보가 없다. 유사도의 측정으로서 짝 정렬 점수를 사용하여 트리가 당해 기술분야에 알려진 네이버 조인닝(neighbour joining)에 의해 구축된다. 도 23 및 24에 보이는 바와 같이, 이들 데이터세트는 각각 두 개 및 세 개의 집단에 잘 클러스터링된다. 임계가 이들 클러스터를 분리하기 위해 (라인의 길이는 유사도를 나타냄) 정의될 수 있다는 것이 또한 명백하다.

3개의 클러스터 실험의 경우 각각의 클러스터에 대한 랜드마크 컨센서스가 구축된다. 이의 결과는 도 25 내지 27에 보인다.

실시예 2에서와 같은 확인이 두 개의 실험을 위해 행해진다. 도 28 및 29는 두개의 클러스터 및 세 개의 클러스터 실험에 대한 세 개의 클러스에 대항한 카운트를 보여준다. 본 발명자가 각각의 실험에서 혼합물을 정확하게 정량화한 것을 보았다.

실시예 6은 더 작은 특징 벡터로부터의 더 큰 라이브러리 특징 벡터의 어셈블리와 관련된다.

실시예는 상기 기재된 중첩 서열 S1-S18로부터 시물레이션된 데이터를 사용한다. 그러나, 어셈블리 프로세스를 도시하기 위해 본 발명자는 (도 12에 도시된 바와 같이) 상기 서열이 미스매치된 영역이 없이 중첩하도록 (실시예 2에 기재된 바와 같이) 모든 서열에 공통적인, 개시 및 종료에서의 서열을 없앤다. 이러한 서열은 중첩하는 것으로 보장되므로 상대적으로 간단한 방법이 사용될 수 있다. 이러한 경우가 아니라면 사람들은 상기 기재된 바와 같은 당해 기술분야에 알려진 것으로 조정된 더 복합한 어셈블리 알고리즘을 사용할 수 있다.

실시예 5와 유사하게, 쌍 정렬 점수(pairwise alignment score) 상의 네이버 조인닝(neighbour joining)에 의한 트리(tree)를 구축하였다. 그러나 상대적으로 큰 비-유사한 영역이 예상되기 때문에, 정렬 내에서 강력하게, 정렬의 개시 또는 끝에서 갭을 불리하게(penalise) 하지 않는 사용된 점수 함수(scoring function)가 존재하였다. 트리가 도 30에 보인다. 본 명세서에서 모든 서열은 각각의 서열이 양쪽의 서열과 공유하는 ~100 염기 중첩을 나타내는, 두개의 다른 서열에 대하여 유사한 관계를 갖는 것으로 보일 수 있다.

관련성을 위해 트리를 통한 진전하여, 정렬된 서열에 대한 컨센서스 랜드마크(consensus landmark)가 쌍이 또 다른 서열과 결합된 특징 벡터로서 작동하는 서열의 짝으로부터의 출력 랜드마크로 구축된다. 프로세스의 출력(output)은 충분히 조립된 특징 벡터이다. 원래의 데이터를 예시를 위해 조립된 특징(assembled feature)에 정렬하였다. 3개의 단편에 대한 정렬이 중첩이 명백히 보여질 수 있는 도 31에 보인다.

<110> OXFORD NANOPORE TECHNOLOGIES LIMITED <120> ANALYSIS OF MEASUREMENTS OF A POLYMER <130> N.116109B <140> TBC <141> 2013-02-15 <150> US 61/599, 573 <151> 2012-02-16 <160> 36 <170> PatentIn version 3.5 <210> 1 <211> 558 <212> DNA <213> Artificial Sequence <220> <223> MS-B1 <400> 1 atgggtctgg ataatgaact gagcctggtg gacggtcaag atcgtaccct gacggtgcaa 60 caatgggata cctttctgaa tggcgttttt ccgctggatc gtaatcgcct gacccgtgaa 120 tggtttcatt ccggtcgcgc aaaatatatc gtcgcaggcc cgggtgctga cgaattcgaa 180 ggcacgctgg aactgggtta tcagattggc tttccgtggt cactgggcgt tggtatcaac 240 ttctcgtaca ccacgccgaa tattctgatc aacaatggta acattaccgc accgccgttt 300 ggcctgaaca gcgtgattac gccgaacctg tttccgggtg ttagcatctc tgcccgtctg 360 ggcaatggtc cgggcattca agaagtggca acctttagtg tgcgcgtttc cggcgctaaa 420 ggcggtgtcg cggtgtctaa cgcccacggt accgttacgg gcgcggccgg cggtgtcctg 480 ctgcgtccgt tcgcgcgcct gattgcctct accggcgaca gcgttacgac ctatggcgaa 540 ccgtggaata tgaactaa 558 <210> 2 <211> 184 <212> PRT <213> Artificial Sequence <220> <223> MS-B1 <400> 2 Gly Leu Asp Asn Glu Leu Ser Leu Val Asp Gly Gln Asp Arg Thr Leu 1 5 10 15 Thr Val Gln Gln Trp Asp Thr Phe Leu Asn Gly Val Phe Pro Leu Asp 20 25 30 Arg Asn Arg Leu Thr Arg Glu Trp Phe His Ser Gly Arg Ala Lys Tyr 35 40 45 Ile Val Ala Gly Pro Gly Ala Asp Glu Phe Glu Gly Thr Leu Glu Leu 50 55 60 Gly Tyr Gln Ile Gly Phe Pro Trp Ser Leu Gly Val Gly Ile Asn Phe 65 70 75 80 Ser Tyr Thr Thr Pro Asn Ile Leu Ile Asn Asn Gly Asn Ile Thr Ala 85 90 95 Pro Pro Phe Gly Leu Asn Ser Val Ile Thr Pro Asn Leu Phe Pro Gly 100 105 110 Val Ser Ile Ser Ala Arg Leu Gly Asn Gly Pro Gly Ile Gln Glu Val 115 120 125 Ala Thr Phe Ser Val Arg Val Ser Gly Ala Lys Gly Gly Val Ala Val 130 135 140 Ser Asn Ala His Gly Thr Val Thr Gly Ala Ala Gly Gly Val Leu Leu 145 150 155 160 Arg Pro Phe Ala Arg Leu Ile Ala Ser Thr Gly Asp Ser Val Thr Thr 165 170 175 Tyr Gly Glu Pro Trp Asn Met Asn 180 <210> 3 <211> 885 <212> DNA <213> Artificial Sequence <220> <223> alpha-HL-NN <400> 3 atggcagatt ctgatattaa tattaaaacc ggtactacag atattggaag caatactaca 60 gtaaaaacag gtgatttagt cacttatgat aaagaaaatg gcatgcacaa aaaagtattt 120 tatagtttta tcgatgataa aaatcacaat aaaaaactgc tagttattag aacaaaaggt 180 accattgctg gtcaatatag agtttatagc gaagaaggtg ctaacaaaag tggtttagcc 240 tggccttcag cctttaaggt acagttgcaa ctacctgata atgaagtagc tcaaatatct 300 gattactatc caagaaattc gattgataca aaaaactata tgagtacttt aacttatgga 360 ttcaacggta atgttactgg tgatgataca ggaaaaattg gcggccttat tggtgcaaat 420 gtttcgattg gtcatacact gaactatgtt caacctgatt tcaaaacaat tttagagagc 480 ccaactgata aaaaagtagg ctggaaagtg atatttaaca atatggtgaa tcaaaattgg 540 ggaccatacg atcgagattc ttggaacccg gtatatggca atcaactttt catgaaaact 600 agaaatggtt ctatgaaagc agcagataac ttccttgatc ctaacaaagc aagttctcta 660 ttatcttcag ggttttcacc agacttcgct acagttatta ctatggatag aaaagcatcc 720 aaacaacaaa caaatataga tgtaatatac gaacgagttc gtgatgatta ccaattgcat 780 tggacttcaa caaattggaa aggtaccaat actaaagata aatggacaga tcgttcttca 840 gaaagatata aaatcgattg ggaaaaagaa gaaatgacaa attaa 885 <210> 4 <211> 293 <212> PRT <213> Artificial Sequence <220> <223> alpha HL-NN <400> 4 Ala Asp Ser Asp Ile Asn Ile Lys Thr Gly Thr Thr Asp Ile Gly Ser 1 5 10 15 Asn Thr Thr Val Lys Thr Gly Asp Leu Val Thr Tyr Asp Lys Glu Asn 20 25 30 Gly Met His Lys Lys Val Phe Tyr Ser Phe Ile Asp Asp Lys Asn His 35 40 45 Asn Lys Lys Leu Leu Val Ile Arg Thr Lys Gly Thr Ile Ala Gly Gln 50 55 60 Tyr Arg Val Tyr Ser Glu Glu Gly Ala Asn Lys Ser Gly Leu Ala Trp 65 70 75 80 Pro Ser Ala Phe Lys Val Gln Leu Gln Leu Pro Asp Asn Glu Val Ala 85 90 95 Gln Ile Ser Asp Tyr Tyr Pro Arg Asn Ser Ile Asp Thr Lys Asn Tyr 100 105 110 Met Ser Thr Leu Thr Tyr Gly Phe Asn Gly Asn Val Thr Gly Asp Asp 115 120 125 Thr Gly Lys Ile Gly Gly Leu Ile Gly Ala Asn Val Ser Ile Gly His 130 135 140 Thr Leu Asn Tyr Val Gln Pro Asp Phe Lys Thr Ile Leu Glu Ser Pro 145 150 155 160 Thr Asp Lys Lys Val Gly Trp Lys Val Ile Phe Asn Asn Met Val Asn 165 170 175 Gln Asn Trp Gly Pro Tyr Asp Arg Asp Ser Trp Asn Pro Val Tyr Gly 180 185 190 Asn Gln Leu Phe Met Lys Thr Arg Asn Gly Ser Met Lys Ala Ala Asp 195 200 205 Asn Phe Leu Asp Pro Asn Lys Ala Ser Ser Leu Leu Ser Ser Gly Phe 210 215 220 Ser Pro Asp Phe Ala Thr Val Ile Thr Met Asp Arg Lys Ala Ser Lys 225 230 235 240 Gln Gln Thr Asn Ile Asp Val Ile Tyr Glu Arg Val Arg Asp Asp Tyr 245 250 255 Gln Leu His Trp Thr Ser Thr Asn Trp Lys Gly Thr Asn Thr Lys Asp 260 265 270 Lys Trp Thr Asp Arg Ser Ser Glu Arg Tyr Lys Ile Asp Trp Glu Lys 275 280 285 Glu Glu Met Thr Asn 290 <210> 5 <211> 1830 <212> DNA <213> Artificial Sequence <220> <223> Phi29 DNA polymerase <400> 5 atgaaacaca tgccgcgtaa aatgtatagc tgcgcgtttg aaaccacgac caaagtggaa 60 gattgtcgcg tttgggccta tggctacatg aacatcgaag atcattctga atacaaaatc 120 ggtaacagtc tggatgaatt tatggcatgg gtgctgaaag ttcaggcgga tctgtacttc 180 cacaacctga aatttgatgg cgcattcatt atcaactggc tggaacgtaa tggctttaaa 240 tggagcgcgg atggtctgcc gaacacgtat aataccatta tctctcgtat gggccagtgg 300 tatatgattg atatctgcct gggctacaaa ggtaaacgca aaattcatac cgtgatctat 360 gatagcctga aaaaactgcc gtttccggtg aagaaaattg cgaaagattt caaactgacg 420 gttctgaaag gcgatattga ttatcacaaa gaacgtccgg ttggttacaa aatcaccccg 480 gaagaatacg catacatcaa aaacgatatc cagatcatcg cagaagcgct gctgattcag 540 tttaaacagg gcctggatcg catgaccgcg ggcagtgata gcctgaaagg tttcaaagat 600 atcatcacga ccaaaaaatt caaaaaagtg ttcccgacgc tgagcctggg tctggataaa 660 gaagttcgtt atgcctaccg cggcggtttt acctggctga acgatcgttt caaagaaaaa 720 gaaattggcg agggtatggt gtttgatgtt aatagtctgt atccggcaca gatgtacagc 780 cgcctgctgc cgtatggcga accgatcgtg ttcgagggta aatatgtttg ggatgaagat 840 tacccgctgc atattcagca catccgttgt gaatttgaac tgaaagaagg ctatattccg 900 accattcaga tcaaacgtag tcgcttctat aagggtaacg aatacctgaa aagctctggc 960 ggtgaaatcg cggatctgtg gctgagtaac gtggatctgg aactgatgaa agaacactac 1020 gatctgtaca acgttgaata catcagcggc ctgaaattta aagccacgac cggtctgttc 1080 aaagatttca tcgataaatg gacctacatc aaaacgacct ctgaaggcgc gattaaacag 1140 ctggccaaac tgatgctgaa cagcctgtat ggcaaattcg cctctaatcc ggatgtgacc 1200 ggtaaagttc cgtacctgaa agaaaatggc gcactgggtt ttcgcctggg cgaagaagaa 1260 acgaaagatc cggtgtatac cccgatgggt gttttcatta cggcctgggc acgttacacg 1320 accatcaccg cggcccaggc atgctatgat cgcattatct actgtgatac cgattctatt 1380 catctgacgg gcaccgaaat cccggatgtg attaaagata tcgttgatcc gaaaaaactg 1440 ggttattggg cccacgaaag tacgtttaaa cgtgcaaaat acctgcgcca gaaaacctac 1500 atccaggata tctacatgaa agaagtggat ggcaaactgg ttgaaggttc tccggatgat 1560 tacaccgata tcaaattcag tgtgaaatgc gccggcatga cggataaaat caaaaaagaa 1620 gtgaccttcg aaaacttcaa agttggtttc agccgcaaaa tgaaaccgaa accggtgcag 1680 gttccgggcg gtgtggttct ggtggatgat acgtttacca ttaaatctgg cggtagtgcg 1740 tggagccatc cgcagttcga aaaaggcggt ggctctggtg gcggttctgg cggtagtgcc 1800 tggagccacc cgcagtttga aaaataataa 1830 <210> 6 <211> 608 <212> PRT <213> Artificial Sequence <220> <223> Phi29 DNA polymerase <400> 6 Met Lys His Met Pro Arg Lys Met Tyr Ser Cys Ala Phe Glu Thr Thr 1 5 10 15 Thr Lys Val Glu Asp Cys Arg Val Trp Ala Tyr Gly Tyr Met Asn Ile 20 25 30 Glu Asp His Ser Glu Tyr Lys Ile Gly Asn Ser Leu Asp Glu Phe Met 35 40 45 Ala Trp Val Leu Lys Val Gln Ala Asp Leu Tyr Phe His Asn Leu Lys 50 55 60 Phe Asp Gly Ala Phe Ile Ile Asn Trp Leu Glu Arg Asn Gly Phe Lys 65 70 75 80 Trp Ser Ala Asp Gly Leu Pro Asn Thr Tyr Asn Thr Ile Ile Ser Arg 85 90 95 Met Gly Gln Trp Tyr Met Ile Asp Ile Cys Leu Gly Tyr Lys Gly Lys 100 105 110 Arg Lys Ile His Thr Val Ile Tyr Asp Ser Leu Lys Lys Leu Pro Phe 115 120 125 Pro Val Lys Lys Ile Ala Lys Asp Phe Lys Leu Thr Val Leu Lys Gly 130 135 140 Asp Ile Asp Tyr His Lys Glu Arg Pro Val Gly Tyr Lys Ile Thr Pro 145 150 155 160 Glu Glu Tyr Ala Tyr Ile Lys Asn Asp Ile Gln Ile Ile Ala Glu Ala 165 170 175 Leu Leu Ile Gln Phe Lys Gln Gly Leu Asp Arg Met Thr Ala Gly Ser 180 185 190 Asp Ser Leu Lys Gly Phe Lys Asp Ile Ile Thr Thr Lys Lys Phe Lys 195 200 205 Lys Val Phe Pro Thr Leu Ser Leu Gly Leu Asp Lys Glu Val Arg Tyr 210 215 220 Ala Tyr Arg Gly Gly Phe Thr Trp Leu Asn Asp Arg Phe Lys Glu Lys 225 230 235 240 Glu Ile Gly Glu Gly Met Val Phe Asp Val Asn Ser Leu Tyr Pro Ala 245 250 255 Gln Met Tyr Ser Arg Leu Leu Pro Tyr Gly Glu Pro Ile Val Phe Glu 260 265 270 Gly Lys Tyr Val Trp Asp Glu Asp Tyr Pro Leu His Ile Gln His Ile 275 280 285 Arg Cys Glu Phe Glu Leu Lys Glu Gly Tyr Ile Pro Thr Ile Gln Ile 290 295 300 Lys Arg Ser Arg Phe Tyr Lys Gly Asn Glu Tyr Leu Lys Ser Ser Gly 305 310 315 320 Gly Glu Ile Ala Asp Leu Trp Leu Ser Asn Val Asp Leu Glu Leu Met 325 330 335 Lys Glu His Tyr Asp Leu Tyr Asn Val Glu Tyr Ile Ser Gly Leu Lys 340 345 350 Phe Lys Ala Thr Thr Gly Leu Phe Lys Asp Phe Ile Asp Lys Trp Thr 355 360 365 Tyr Ile Lys Thr Thr Ser Glu Gly Ala Ile Lys Gln Leu Ala Lys Leu 370 375 380 Met Leu Asn Ser Leu Tyr Gly Lys Phe Ala Ser Asn Pro Asp Val Thr 385 390 395 400 Gly Lys Val Pro Tyr Leu Lys Glu Asn Gly Ala Leu Gly Phe Arg Leu 405 410 415 Gly Glu Glu Glu Thr Lys Asp Pro Val Tyr Thr Pro Met Gly Val Phe 420 425 430 Ile Thr Ala Trp Ala Arg Tyr Thr Thr Ile Thr Ala Ala Gln Ala Cys 435 440 445 Tyr Asp Arg Ile Ile Tyr Cys Asp Thr Asp Ser Ile His Leu Thr Gly 450 455 460 Thr Glu Ile Pro Asp Val Ile Lys Asp Ile Val Asp Pro Lys Lys Leu 465 470 475 480 Gly Tyr Trp Ala His Glu Ser Thr Phe Lys Arg Ala Lys Tyr Leu Arg 485 490 495 Gln Lys Thr Tyr Ile Gln Asp Ile Tyr Met Lys Glu Val Asp Gly Lys 500 505 510 Leu Val Glu Gly Ser Pro Asp Asp Tyr Thr Asp Ile Lys Phe Ser Val 515 520 525 Lys Cys Ala Gly Met Thr Asp Lys Ile Lys Lys Glu Val Thr Phe Glu 530 535 540 Asn Phe Lys Val Gly Phe Ser Arg Lys Met Lys Pro Lys Pro Val Gln 545 550 555 560 Val Pro Gly Gly Val Val Leu Val Asp Asp Thr Phe Thr Ile Lys Ser 565 570 575 Gly Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser 580 585 590 Gly Gly Gly Ser Gly Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys 595 600 605 <210> 7 <211> 1458 <212> DNA <213> Escherichia coli <220> <221> misc_feature <222> (1)..(1458) <223> EcoExo I <400> 7 atgatgaacg atggcaaaca gcagagcacc ttcctgtttc atgattatga aaccttcggt 60 acccatccgg ccctggatcg tccggcgcag tttgcggcca ttcgcaccga tagcgaattc 120 aatgtgattg gcgaaccgga agtgttttat tgcaaaccgg ccgatgatta tctgccgcag 180 ccgggtgcgg tgctgattac cggtattacc ccgcaggaag cgcgcgcgaa aggtgaaaac 240 gaagcggcgt ttgccgcgcg cattcatagc ctgtttaccg tgccgaaaac ctgcattctg 300 ggctataaca atgtgcgctt cgatgatgaa gttacccgta atatctttta tcgtaacttt 360 tatgatccgt atgcgtggag ctggcagcat gataacagcc gttgggatct gctggatgtg 420 atgcgcgcgt gctatgcgct gcgcccggaa ggcattaatt ggccggaaaa cgatgatggc 480 ctgccgagct ttcgtctgga acatctgacc aaagccaacg gcattgaaca tagcaatgcc 540 catgatgcga tggccgatgt ttatgcgacc attgcgatgg cgaaactggt taaaacccgt 600 cagccgcgcc tgtttgatta tctgtttacc caccgtaaca aacacaaact gatggcgctg 660 attgatgttc cgcagatgaa accgctggtg catgtgagcg gcatgtttgg cgcctggcgc 720 ggcaacacca gctgggtggc cccgctggcc tggcacccgg aaaatcgtaa cgccgtgatt 780 atggttgatc tggccggtga tattagcccg ctgctggaac tggatagcga taccctgcgt 840 gaacgcctgt ataccgccaa aaccgatctg ggcgataatg ccgccgtgcc ggtgaaactg 900 gttcacatta acaaatgccc ggtgctggcc caggcgaaca ccctgcgccc ggaagatgcg 960 gatcgtctgg gtattaatcg ccagcattgt ctggataatc tgaaaatcct gcgtgaaaac 1020 ccgcaggtgc gtgaaaaagt ggtggcgatc ttcgcggaag cggaaccgtt caccccgagc 1080 gataacgtgg atgcgcagct gtataacggc ttctttagcg atgccgatcg cgcggcgatg 1140 aaaatcgttc tggaaaccga accgcgcaat ctgccggcgc tggatattac ctttgttgat 1200 aaacgtattg aaaaactgct gtttaattat cgtgcgcgca attttccggg taccctggat 1260 tatgccgaac agcagcgttg gctggaacat cgtcgtcagg ttttcacccc ggaatttctg 1320 cagggttatg cggatgaact gcagatgctg gttcagcagt atgccgatga taaagaaaaa 1380 gtggcgctgc tgaaagcgct gtggcagtat gcggaagaaa tcgtttctgg ctctggtcac 1440 catcatcatc accactaa 1458 <210> 8 <211> 485 <212> PRT <213> Escherichia coli <400> 8 Met Met Asn Asp Gly Lys Gln Gln Ser Thr Phe Leu Phe His Asp Tyr 1 5 10 15 Glu Thr Phe Gly Thr His Pro Ala Leu Asp Arg Pro Ala Gln Phe Ala 20 25 30 Ala Ile Arg Thr Asp Ser Glu Phe Asn Val Ile Gly Glu Pro Glu Val 35 40 45 Phe Tyr Cys Lys Pro Ala Asp Asp Tyr Leu Pro Gln Pro Gly Ala Val 50 55 60 Leu Ile Thr Gly Ile Thr Pro Gln Glu Ala Arg Ala Lys Gly Glu Asn 65 70 75 80 Glu Ala Ala Phe Ala Ala Arg Ile His Ser Leu Phe Thr Val Pro Lys 85 90 95 Thr Cys Ile Leu Gly Tyr Asn Asn Val Arg Phe Asp Asp Glu Val Thr 100 105 110 Arg Asn Ile Phe Tyr Arg Asn Phe Tyr Asp Pro Tyr Ala Trp Ser Trp 115 120 125 Gln His Asp Asn Ser Arg Trp Asp Leu Leu Asp Val Met Arg Ala Cys 130 135 140 Tyr Ala Leu Arg Pro Glu Gly Ile Asn Trp Pro Glu Asn Asp Asp Gly 145 150 155 160 Leu Pro Ser Phe Arg Leu Glu His Leu Thr Lys Ala Asn Gly Ile Glu 165 170 175 His Ser Asn Ala His Asp Ala Met Ala Asp Val Tyr Ala Thr Ile Ala 180 185 190 Met Ala Lys Leu Val Lys Thr Arg Gln Pro Arg Leu Phe Asp Tyr Leu 195 200 205 Phe Thr His Arg Asn Lys His Lys Leu Met Ala Leu Ile Asp Val Pro 210 215 220 Gln Met Lys Pro Leu Val His Val Ser Gly Met Phe Gly Ala Trp Arg 225 230 235 240 Gly Asn Thr Ser Trp Val Ala Pro Leu Ala Trp His Pro Glu Asn Arg 245 250 255 Asn Ala Val Ile Met Val Asp Leu Ala Gly Asp Ile Ser Pro Leu Leu 260 265 270 Glu Leu Asp Ser Asp Thr Leu Arg Glu Arg Leu Tyr Thr Ala Lys Thr 275 280 285 Asp Leu Gly Asp Asn Ala Ala Val Pro Val Lys Leu Val His Ile Asn 290 295 300 Lys Cys Pro Val Leu Ala Gln Ala Asn Thr Leu Arg Pro Glu Asp Ala 305 310 315 320 Asp Arg Leu Gly Ile Asn Arg Gln His Cys Leu Asp Asn Leu Lys Ile 325 330 335 Leu Arg Glu Asn Pro Gln Val Arg Glu Lys Val Val Ala Ile Phe Ala 340 345 350 Glu Ala Glu Pro Phe Thr Pro Ser Asp Asn Val Asp Ala Gln Leu Tyr 355 360 365 Asn Gly Phe Phe Ser Asp Ala Asp Arg Ala Ala Met Lys Ile Val Leu 370 375 380 Glu Thr Glu Pro Arg Asn Leu Pro Ala Leu Asp Ile Thr Phe Val Asp 385 390 395 400 Lys Arg Ile Glu Lys Leu Leu Phe Asn Tyr Arg Ala Arg Asn Phe Pro 405 410 415 Gly Thr Leu Asp Tyr Ala Glu Gln Gln Arg Trp Leu Glu His Arg Arg 420 425 430 Gln Val Phe Thr Pro Glu Phe Leu Gln Gly Tyr Ala Asp Glu Leu Gln 435 440 445 Met Leu Val Gln Gln Tyr Ala Asp Asp Lys Glu Lys Val Ala Leu Leu 450 455 460 Lys Ala Leu Trp Gln Tyr Ala Glu Glu Ile Val Ser Gly Ser Gly His 465 470 475 480 His His His His His 485 <210> 9 <211> 804 <212> DNA <213> Escherichia coli <220> <221> misc_feature <222> (1)..(804) <223> Exonuclease III <400> 9 atgaaatttg ttagcttcaa tatcaacggc ctgcgcgcgc gcccgcatca gctggaagcg 60 attgtggaaa aacatcagcc ggatgttatt ggtctgcagg aaaccaaagt tcacgatgat 120 atgtttccgc tggaagaagt ggcgaaactg ggctataacg tgttttatca tggccagaaa 180 ggtcattatg gcgtggccct gctgaccaaa gaaaccccga tcgcggttcg tcgtggtttt 240 ccgggtgatg atgaagaagc gcagcgtcgt attattatgg cggaaattcc gagcctgctg 300 ggcaatgtga ccgttattaa cggctatttt ccgcagggcg aaagccgtga tcatccgatt 360 aaatttccgg ccaaagcgca gttctatcag aacctgcaga actatctgga aaccgaactg 420 aaacgtgata atccggtgct gatcatgggc gatatgaaca ttagcccgac cgatctggat 480 attggcattg gcgaagaaaa ccgtaaacgc tggctgcgta ccggtaaatg cagctttctg 540 ccggaagaac gtgaatggat ggatcgcctg atgagctggg gcctggtgga tacctttcgt 600 catgcgaacc cgcagaccgc cgatcgcttt agctggtttg attatcgcag caaaggtttt 660 gatgataacc gtggcctgcg cattgatctg ctgctggcga gccagccgct ggcggaatgc 720 tgcgttgaaa ccggtattga ttatgaaatt cgcagcatgg aaaaaccgag cgatcacgcc 780 ccggtgtggg cgacctttcg ccgc 804 <210> 10 <211> 268 <212> PRT <213> Escherichia coli <400> 10 Met Lys Phe Val Ser Phe Asn Ile Asn Gly Leu Arg Ala Arg Pro His 1 5 10 15 Gln Leu Glu Ala Ile Val Glu Lys His Gln Pro Asp Val Ile Gly Leu 20 25 30 Gln Glu Thr Lys Val His Asp Asp Met Phe Pro Leu Glu Glu Val Ala 35 40 45 Lys Leu Gly Tyr Asn Val Phe Tyr His Gly Gln Lys Gly His Tyr Gly 50 55 60 Val Ala Leu Leu Thr Lys Glu Thr Pro Ile Ala Val Arg Arg Gly Phe 65 70 75 80 Pro Gly Asp Asp Glu Glu Ala Gln Arg Arg Ile Ile Met Ala Glu Ile 85 90 95 Pro Ser Leu Leu Gly Asn Val Thr Val Ile Asn Gly Tyr Phe Pro Gln 100 105 110 Gly Glu Ser Arg Asp His Pro Ile Lys Phe Pro Ala Lys Ala Gln Phe 115 120 125 Tyr Gln Asn Leu Gln Asn Tyr Leu Glu Thr Glu Leu Lys Arg Asp Asn 130 135 140 Pro Val Leu Ile Met Gly Asp Met Asn Ile Ser Pro Thr Asp Leu Asp 145 150 155 160 Ile Gly Ile Gly Glu Glu Asn Arg Lys Arg Trp Leu Arg Thr Gly Lys 165 170 175 Cys Ser Phe Leu Pro Glu Glu Arg Glu Trp Met Asp Arg Leu Met Ser 180 185 190 Trp Gly Leu Val Asp Thr Phe Arg His Ala Asn Pro Gln Thr Ala Asp 195 200 205 Arg Phe Ser Trp Phe Asp Tyr Arg Ser Lys Gly Phe Asp Asp Asn Arg 210 215 220 Gly Leu Arg Ile Asp Leu Leu Leu Ala Ser Gln Pro Leu Ala Glu Cys 225 230 235 240 Cys Val Glu Thr Gly Ile Asp Tyr Glu Ile Arg Ser Met Glu Lys Pro 245 250 255 Ser Asp His Ala Pro Val Trp Ala Thr Phe Arg Arg 260 265 <210> 11 <211> 2000 <212> DNA <213> Thermus thermophilus <220> <221> misc_feature <222> (1)..(2000) <223> RecJ <400> 11 atgcgtgatc gtgtccgctg gcgtgttctg tccctgccgc cgctggctca atggcgtgaa 60 gttatggctg ccctggaagt gggtccggaa gcggccctgg catattggca ccgcggtttt 120 cgtcgcaaag aagatctgga cccgccgctg gccctgctgc cgctgaaagg cctgcgcgaa 180 gcagctgcgc tgctggaaga agccctgcgt cagggtaaac gtattcgcgt tcatggcgat 240 tatgacgccg atggcctgac cggtaccgca attctggtcc gtggtctggc ggcactgggt 300 gccgatgtgc atccgtttat tccgcaccgc ctggaagaag gctacggtgt gctgatggaa 360 cgtgttccgg aacacctgga agcgagcgac ctgttcctga cggtggattg cggtatcacc 420 aaccatgccg aactgcgtga actgctggaa aatggcgttg aagtcattgt gaccgatcat 480 cacaccccgg gtaaaacccc gtctccgggc ctggtggttc acccggcgct gacgccggat 540 ctgaaagaaa aaccgaccgg cgctggtgtc gtgtttctgc tgctgtgggc actgcacgaa 600 cgtctgggtc tgccgccgcc gctggaatat gccgacctgg ctgccgttgg taccattgcc 660 gatgttgccc cgctgtgggg ttggaaccgt gcactggtga aagaaggcct ggcacgtatt 720 ccggctagct cttgggttgg tctgcgtctg ctggccgaag cagtcggcta caccggtaaa 780 gcggttgaag tcgccttccg tattgcaccg cgcatcaacg ccgcatcacg cctgggtgaa 840 gcagaaaaag ctctgcgtct gctgctgacg gatgacgctg cggaagctca ggcgctggtt 900 ggcgaactgc accgcctgaa tgctcgtcgc cagaccctgg aagaagcgat gctgcgtaaa 960 ctgctgccgc aagcggaccc ggaagccaaa gcaatcgtgc tgctggatcc ggaaggccat 1020 ccgggtgtta tgggcattgt cgcttcacgc atcctggaag cgacgctgcg tccggtcttt 1080 ctggtggcgc agggtaaagg taccgtgcgc agcctggcac cgatttctgc cgttgaagcc 1140 ctgcgtagcg ccgaagacct gctgctgcgt tatggcggtc acaaagaagc cgcaggcttt 1200 gctatggatg aagcgctgtt tccggcattc aaagctcgcg ttgaagccta cgctgcccgt 1260 ttcccggacc cggttcgtga agtcgcactg ctggatctgc tgccggaacc gggtctgctg 1320 ccgcaggtgt ttcgtgaact ggcgctgctg gaaccgtatg gcgaaggtaa tccggaaccg 1380 ctgtttctgc tgtttggtgc accggaagaa gcacgtcgcc tgggtgaagg tcgtcacctg 1440 gcattccgcc tgaaaggtgt gcgtgttctg gcttggaaac agggtgatct ggccctgccg 1500 ccggaagttg aagtggcagg tctgctgtcc gaaaacgcat ggaatggcca tctggcctat 1560 gaagtgcaag cagttgatct gcgtaaaccg gaagcgctgg aaggcggtat tgccccgttt 1620 gcatatccgc tgccgctgct ggaagctctg gcccgtgccc gcctgggcga aggtgtttat 1680 gtcccggaag acaacccgga aggtctggat tacgcacgca aagctggctt ccgtctgctg 1740 ccgccggaag aagcgggtct gtggctgggt ctgccgccgc gcccggtgct gggtcgtcgc 1800 gtggaagttg cactgggccg tgaagcacgt gctcgcctga gtgcaccgcc ggttctgcat 1860 accccggaag ctcgcctgaa agcgctggtg caccgtcgcc tgctgtttgc ctatgaacgt 1920 cgccatccgg gtctgttctc cgaagcgctg ctggcctact gggaagtcaa tcgtgttcag 1980 gaaccggcgg gtagtcctaa 2000 <210> 12 <211> 666 <212> PRT <213> Thermus thermophilus <400> 12 Met Arg Asp Arg Val Arg Trp Arg Val Leu Ser Leu Pro Pro Leu Ala 1 5 10 15 Gln Trp Arg Glu Val Met Ala Ala Leu Glu Val Gly Pro Glu Ala Ala 20 25 30 Leu Ala Tyr Trp His Arg Gly Phe Arg Arg Lys Glu Asp Leu Asp Pro 35 40 45 Pro Leu Ala Leu Leu Pro Leu Lys Gly Leu Arg Glu Ala Ala Ala Leu 50 55 60 Leu Glu Glu Ala Leu Arg Gln Gly Lys Arg Ile Arg Val His Gly Asp 65 70 75 80 Tyr Asp Ala Asp Gly Leu Thr Gly Thr Ala Ile Leu Val Arg Gly Leu 85 90 95 Ala Ala Leu Gly Ala Asp Val His Pro Phe Ile Pro His Arg Leu Glu 100 105 110 Glu Gly Tyr Gly Val Leu Met Glu Arg Val Pro Glu His Leu Glu Ala 115 120 125 Ser Asp Leu Phe Leu Thr Val Asp Cys Gly Ile Thr Asn His Ala Glu 130 135 140 Leu Arg Glu Leu Leu Glu Asn Gly Val Glu Val Ile Val Thr Asp His 145 150 155 160 His Thr Pro Gly Lys Thr Pro Ser Pro Gly Leu Val Val His Pro Ala 165 170 175 Leu Thr Pro Asp Leu Lys Glu Lys Pro Thr Gly Ala Gly Val Val Phe 180 185 190 Leu Leu Leu Trp Ala Leu His Glu Arg Leu Gly Leu Pro Pro Pro Leu 195 200 205 Glu Tyr Ala Asp Leu Ala Ala Val Gly Thr Ile Ala Asp Val Ala Pro 210 215 220 Leu Trp Gly Trp Asn Arg Ala Leu Val Lys Glu Gly Leu Ala Arg Ile 225 230 235 240 Pro Ala Ser Ser Trp Val Gly Leu Arg Leu Leu Ala Glu Ala Val Gly 245 250 255 Tyr Thr Gly Lys Ala Val Glu Val Ala Phe Arg Ile Ala Pro Arg Ile 260 265 270 Asn Ala Ala Ser Arg Leu Gly Glu Ala Glu Lys Ala Leu Arg Leu Leu 275 280 285 Leu Thr Asp Asp Ala Ala Glu Ala Gln Ala Leu Val Gly Glu Leu His 290 295 300 Arg Leu Asn Ala Arg Arg Gln Thr Leu Glu Glu Ala Met Leu Arg Lys 305 310 315 320 Leu Leu Pro Gln Ala Asp Pro Glu Ala Lys Ala Ile Val Leu Leu Asp 325 330 335 Pro Glu Gly His Pro Gly Val Met Gly Ile Val Ala Ser Arg Ile Leu 340 345 350 Glu Ala Thr Leu Arg Pro Val Phe Leu Val Ala Gln Gly Lys Gly Thr 355 360 365 Val Arg Ser Leu Ala Pro Ile Ser Ala Val Glu Ala Leu Arg Ser Ala 370 375 380 Glu Asp Leu Leu Leu Arg Tyr Gly Gly His Lys Glu Ala Ala Gly Phe 385 390 395 400 Ala Met Asp Glu Ala Leu Phe Pro Ala Phe Lys Ala Arg Val Glu Ala 405 410 415 Tyr Ala Ala Arg Phe Pro Asp Pro Val Arg Glu Val Ala Leu Leu Asp 420 425 430 Leu Leu Pro Glu Pro Gly Leu Leu Pro Gln Val Phe Arg Glu Leu Ala 435 440 445 Leu Leu Glu Pro Tyr Gly Glu Gly Asn Pro Glu Pro Leu Phe Leu Leu 450 455 460 Phe Gly Ala Pro Glu Glu Ala Arg Arg Leu Gly Glu Gly Arg His Leu 465 470 475 480 Ala Phe Arg Leu Lys Gly Val Arg Val Leu Ala Trp Lys Gln Gly Asp 485 490 495 Leu Ala Leu Pro Pro Glu Val Glu Val Ala Gly Leu Leu Ser Glu Asn 500 505 510 Ala Trp Asn Gly His Leu Ala Tyr Glu Val Gln Ala Val Asp Leu Arg 515 520 525 Lys Pro Glu Ala Leu Glu Gly Gly Ile Ala Pro Phe Ala Tyr Pro Leu 530 535 540 Pro Leu Leu Glu Ala Leu Ala Arg Ala Arg Leu Gly Glu Gly Val Tyr 545 550 555 560 Val Pro Glu Asp Asn Pro Glu Gly Leu Asp Tyr Ala Arg Lys Ala Gly 565 570 575 Phe Arg Leu Leu Pro Pro Glu Glu Ala Gly Leu Trp Leu Gly Leu Pro 580 585 590 Pro Arg Pro Val Leu Gly Arg Arg Val Glu Val Ala Leu Gly Arg Glu 595 600 605 Ala Arg Ala Arg Leu Ser Ala Pro Pro Val Leu His Thr Pro Glu Ala 610 615 620 Arg Leu Lys Ala Leu Val His Arg Arg Leu Leu Phe Ala Tyr Glu Arg 625 630 635 640 Arg His Pro Gly Leu Phe Ser Glu Ala Leu Leu Ala Tyr Trp Glu Val 645 650 655 Asn Arg Val Gln Glu Pro Ala Gly Ser Pro 660 665 <210> 13 <211> 681 <212> DNA <213> Artificial Sequence <220> <223> Lambda Exonuclease <400> 13 atgacaccgg acattatcct gcagcgtacc gggatcgatg tgagagctgt cgaacagggg 60 gatgatgcgt ggcacaaatt acggctcggc gtcatcaccg cttcagaagt tcacaacgtg 120 atagcaaaac cccgctccgg aaagaagtgg cctgacatga aaatgtccta cttccacacc 180 ctgcttgctg aggtttgcac cggtgtggct ccggaagtta acgctaaagc actggcctgg 240 ggaaaacagt acgagaacga cgccagaacc ctgtttgaat tcacttccgg cgtgaatgtt 300 actgaatccc cgatcatcta tcgcgacgaa agtatgcgta ccgcctgctc tcccgatggt 360 ttatgcagtg acggcaacgg ccttgaactg aaatgcccgt ttacctcccg ggatttcatg 420 aagttccggc tcggtggttt cgaggccata aagtcagctt acatggccca ggtgcagtac 480 agcatgtggg tgacgcgaaa aaatgcctgg tactttgcca actatgaccc gcgtatgaag 540 cgtgaaggcc tgcattatgt cgtgattgag cgggatgaaa agtacatggc gagttttgac 600 gagatcgtgc cggagttcat cgaaaaaatg gacgaggcac tggctgaaat tggttttgta 660 tttggggagc aatggcgata a 681 <210> 14 <211> 226 <212> PRT <213> Artificial Sequence <220> <223> Lambda Exonuclease <400> 14 Met Thr Pro Asp Ile Ile Leu Gln Arg Thr Gly Ile Asp Val Arg Ala 1 5 10 15 Val Glu Gln Gly Asp Asp Ala Trp His Lys Leu Arg Leu Gly Val Ile 20 25 30 Thr Ala Ser Glu Val His Asn Val Ile Ala Lys Pro Arg Ser Gly Lys 35 40 45 Lys Trp Pro Asp Met Lys Met Ser Tyr Phe His Thr Leu Leu Ala Glu 50 55 60 Val Cys Thr Gly Val Ala Pro Glu Val Asn Ala Lys Ala Leu Ala Trp 65 70 75 80 Gly Lys Gln Tyr Glu Asn Asp Ala Arg Thr Leu Phe Glu Phe Thr Ser 85 90 95 Gly Val Asn Val Thr Glu Ser Pro Ile Ile Tyr Arg Asp Glu Ser Met 100 105 110 Arg Thr Ala Cys Ser Pro Asp Gly Leu Cys Ser Asp Gly Asn Gly Leu 115 120 125 Glu Leu Lys Cys Pro Phe Thr Ser Arg Asp Phe Met Lys Phe Arg Leu 130 135 140 Gly Gly Phe Glu Ala Ile Lys Ser Ala Tyr Met Ala Gln Val Gln Tyr 145 150 155 160 Ser Met Trp Val Thr Arg Lys Asn Ala Trp Tyr Phe Ala Asn Tyr Asp 165 170 175 Pro Arg Met Lys Arg Glu Gly Leu His Tyr Val Val Ile Glu Arg Asp 180 185 190 Glu Lys Tyr Met Ala Ser Phe Asp Glu Ile Val Pro Glu Phe Ile Glu 195 200 205 Lys Met Asp Glu Ala Leu Ala Glu Ile Gly Phe Val Phe Gly Glu Gln 210 215 220 Trp Arg 225 <210> 15 <211> 184 <212> PRT <213> Artificial Sequence <220> <223> MspB <400> 15 Gly Leu Asp Asn Glu Leu Ser Leu Val Asp Gly Gln Asp Arg Thr Leu 1 5 10 15 Thr Val Gln Gln Trp Asp Thr Phe Leu Asn Gly Val Phe Pro Leu Asp 20 25 30 Arg Asn Arg Leu Thr Arg Glu Trp Phe His Ser Gly Arg Ala Lys Tyr 35 40 45 Ile Val Ala Gly Pro Gly Ala Asp Glu Phe Glu Gly Thr Leu Glu Leu 50 55 60 Gly Tyr Gln Ile Gly Phe Pro Trp Ser Leu Gly Val Gly Ile Asn Phe 65 70 75 80 Ser Tyr Thr Thr Pro Asn Ile Leu Ile Asp Asp Gly Asp Ile Thr Ala 85 90 95 Pro Pro Phe Gly Leu Asn Ser Val Ile Thr Pro Asn Leu Phe Pro Gly 100 105 110 Val Ser Ile Ser Ala Asp Leu Gly Asn Gly Pro Gly Ile Gln Glu Val 115 120 125 Ala Thr Phe Ser Val Asp Val Ser Gly Pro Ala Gly Gly Val Ala Val 130 135 140 Ser Asn Ala His Gly Thr Val Thr Gly Ala Ala Gly Gly Val Leu Leu 145 150 155 160 Arg Pro Phe Ala Arg Leu Ile Ala Ser Thr Gly Asp Ser Val Thr Thr 165 170 175 Tyr Gly Glu Pro Trp Asn Met Asn 180 <210> 16 <211> 184 <212> PRT <213> Artificial Sequence <220> <223> MspC <400> 16 Gly Leu Asp Asn Glu Leu Ser Leu Val Asp Gly Gln Asp Arg Thr Leu 1 5 10 15 Thr Val Gln Gln Trp Asp Thr Phe Leu Asn Gly Val Phe Pro Leu Asp 20 25 30 Arg Asn Arg Leu Thr Arg Glu Trp Phe His Ser Gly Arg Ala Lys Tyr 35 40 45 Ile Val Ala Gly Pro Gly Ala Asp Glu Phe Glu Gly Thr Leu Glu Leu 50 55 60 Gly Tyr Gln Ile Gly Phe Pro Trp Ser Leu Gly Val Gly Ile Asn Phe 65 70 75 80 Ser Tyr Thr Thr Pro Asn Ile Leu Ile Asp Asp Gly Asp Ile Thr Gly 85 90 95 Pro Pro Phe Gly Leu Glu Ser Val Ile Thr Pro Asn Leu Phe Pro Gly 100 105 110 Val Ser Ile Ser Ala Asp Leu Gly Asn Gly Pro Gly Ile Gln Glu Val 115 120 125 Ala Thr Phe Ser Val Asp Val Ser Gly Pro Ala Gly Gly Val Ala Val 130 135 140 Ser Asn Ala His Gly Thr Val Thr Gly Ala Ala Gly Gly Val Leu Leu 145 150 155 160 Arg Pro Phe Ala Arg Leu Ile Ala Ser Thr Gly Asp Ser Val Thr Thr 165 170 175 Tyr Gly Glu Pro Trp Asn Met Asn 180 <210> 17 <211> 183 <212> PRT <213> Artificial Sequence <220> <223> MspD <400> 17 Val Asp Asn Gln Leu Ser Val Val Asp Gly Gln Gly Arg Thr Leu Thr 1 5 10 15 Val Gln Gln Ala Glu Thr Phe Leu Asn Gly Val Phe Pro Leu Asp Arg 20 25 30 Asn Arg Leu Thr Arg Glu Trp Phe His Ser Gly Arg Ala Thr Tyr His 35 40 45 Val Ala Gly Pro Gly Ala Asp Glu Phe Glu Gly Thr Leu Glu Leu Gly 50 55 60 Tyr Gln Val Gly Phe Pro Trp Ser Leu Gly Val Gly Ile Asn Phe Ser 65 70 75 80 Tyr Thr Thr Pro Asn Ile Leu Ile Asp Gly Gly Asp Ile Thr Gln Pro 85 90 95 Pro Phe Gly Leu Asp Thr Ile Ile Thr Pro Asn Leu Phe Pro Gly Val 100 105 110 Ser Ile Ser Ala Asp Leu Gly Asn Gly Pro Gly Ile Gln Glu Val Ala 115 120 125 Thr Phe Ser Val Asp Val Lys Gly Ala Lys Gly Ala Val Ala Val Ser 130 135 140 Asn Ala His Gly Thr Val Thr Gly Ala Ala Gly Gly Val Leu Leu Arg 145 150 155 160 Pro Phe Ala Arg Leu Ile Ala Ser Thr Gly Asp Ser Val Thr Thr Tyr 165 170 175 Gly Glu Pro Trp Asn Met Asn 180 <210> 18 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 1 (PhiX Fragment Sense 1) <400> 18 tttttgccat cagattgtgt ttgttagtcg ctggttgttt ctgttggtgc tgatattgct 60 tttgatgccg accctaaatt ttttgcctgt ttggttcgct ttgagtcttc ttcggttccg 120 actaccctcc cgactgccta tgatgtttat cctttggatg gtcgccatga tggtggttat 180 tataccgtca aggactgtgt gactattgac gtccttcccc gtacgccggg caataatgtt 240 tatgttggtt tcatggtttg gtctaacttt accgctacta aatgccgcgg attggtttcg 300 ctgaatcagg ttattaaaga gattatttgt ctccagccac ttaagtgagg tgatttatgt 360 ttggtgctat tgctggcggt attgcttctg ctcttgctgg tggcgccatg tctaaattgt 420 ttggaggcgg tctttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 19 <211> 486 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 2 (PhiX Fragment Sense 2) <400> 19 tttttgccat cagattgtgt ttgttagtcg ctgtctccag ccacttaagt gaggtgattt 60 atgtttggtg ctattgctgg cggtattgct tctgctcttg ctggtggcgc catgtctaaa 120 ttgtttggag gcggtcaaaa agccgcctcc ggtggcattc aaggtgatgt gcttgctacc 180 gataacaata ctgtaggcat gggtgatgct ggtattaaat ctgccattca aggctctaat 240 gttcctaacc ctgatgaggc cgtccctagt tttgtttctg gtgctatggc taaagctggt 300 aaaggacttc ttgaaggtac gttgcaggct ggcacttctg ccgtttctga taagttgctt 360 gatttggttg gacttggtgg caagtctgcc gctgataaag gaaaggatac tcgtgattat 420 cttgctgctg catttctttt tccccctttt tccccctttt tccccctttt tccccctttt 480 tccccc 486 <210> 20 <211> 481 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 3 (PhiX Fragment Sense 3) <400> 20 tttttgccat cagattgtgt ttgttagtcg ctctgccgtt tctgataagt tgcttgattt 60 ggttggactt ggtggcaagt ctgccgctga taaaggaaag gatactcgtg attatcttgc 120 tgctgcattt cctgagctta atgcttggga gcgtgctggt gctgatgctt cctctgctgg 180 tatggttgac gccggatttg agaatcaaaa agagcttact aaaatgcaac tggacaatca 240 gaaagagatt gccgagatgc aaaatgagac tcaaaaagag attgctggca ttcagtcggc 300 gacttcacgc cagaatacga aagaccaggt atatgcacaa aatgagatgc ttgcttatca 360 acagaaggag tctactgctc gcgttgcgtc tattatggaa aacaccaatc tttccaagca 420 acagcaggtt ttttttcccc ctttttcccc ctttttcccc ctttttcccc ctttttcccc 480 c 481 <210> 21 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 4 (PhiX Fragment Sense 4) <400> 21 tttttgccat cagattgtgt ttgttagtcg cttatgcaca aaatgagatg cttgcttatc 60 aacagaagga gtctactgct cgcgttgcgt ctattatgga aaacaccaat ctttccaagc 120 aacagcaggt ttccgagatt atgcgccaaa tgcttactca agctcaaacg gctggtcagt 180 attttaccaa tgaccaaatc aaagaaatga ctcgcaaggt tagtgctgag gttgacttag 240 ttcatcagca aacgcagaat cagcggtatg gctcttctca tattggcgct actgcaaagg 300 atatttctaa tgtcgtcact gatgctgctt ctggtgtggt tgatattttt catggtattg 360 ataaagctgt tgccgatact tggaacaatt tctggaaaga cggtaaagct gatggtattg 420 gctctaattt gttttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 22 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 5 (PhiX Fragment Sense 5) <400> 22 tttttgccat cagattgtgt ttgttagtcg ctggtgtggt tgatattttt catggtattg 60 ataaagctgt tgccgatact tggaacaatt tctggaaaga cggtaaagct gatggtattg 120 gctctaattt gtctaggaaa taaccgtcag gattgacacc ctcccaattg tatgttttca 180 tgcctccaaa tcttggaggc ttttttatgg ttcgttctta ttacccttct gaatgtcacg 240 ctgattattt tgactttgag cgtatcgagg ctcttaaacc tgctattgag gcttgtggca 300 tttctactct ttctcaatcc ccaatgcttg gcttccataa gcagatggat aaccgcatca 360 agctcttgga agagattctg tcttttcgta tgcagggcgt tgagttcgat aatggtgata 420 tgtatgttga cgtttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 23 <211> 480 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 6 (PhiX Fragment Sense 6) <400> 23 tttttgccat cagattgtgt ttgttagtcg ctccataagc agatggataa ccgcatcaag 60 ctcttggaag agattctgtc ttttcgtatg cagggcgttg agttcgataa tggtgatatg 120 tatgttgacg gccataaggc tgcttctgac gttcgtgatg agtttgtatc tgttactgag 180 aagttaatgg atgaattggc acaatgctac aatgtgctcc cccaacttga tattaataac 240 actatagacc accgccccga aggggacgaa aaatggtttt tagagaacga gaagacggtt 300 acgcagtttt gccgcaagct ggctgctgaa cgccctctta aggatattcg cgatgagtat 360 aattacccca aaaagaaagg tattaaggat gagtgttcaa gattgctgga ggcctccact 420 atgaaatcgc tttttccccc tttttccccc tttttccccc tttttccccc tttttccccc 480 480 <210> 24 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 7 (PhiX Fragment Sense 7) <400> 24 tttttgccat cagattgtgt ttgttagtcg ctcgccctct taaggatatt cgcgatgagt 60 ataattaccc caaaaagaaa ggtattaagg atgagtgttc aagattgctg gaggcctcca 120 ctatgaaatc gcgtagaggc tttgctattc agcgtttgat gaatgcaatg cgacaggctc 180 atgctgatgg ttggtttatc gtttttgaca ctctcacgtt ggctgacgac cgattagagg 240 cgttttatga taatcccaat gctttgcgtg actattttcg tgatattggt cgtatggttc 300 ttgctgccga gggtcgcaag gctaatgatt cacacgccga ctgctatcag tatttttgtg 360 tgcctgagta tggtacagct aatggccgtc ttcatttcca tgcggtgcac tttatgcgga 420 cacttcctac agtttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 25 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 8 (PhiX Fragment Sense 8) <400> 25 tttttgccat cagattgtgt ttgttagtcg ctcacgccga ctgctatcag tatttttgtg 60 tgcctgagta tggtacagct aatggccgtc ttcatttcca tgcggtgcac tttatgcgga 120 cacttcctac aggtagcgtt gaccctaatt ttggtcgtcg ggtacgcaat cgccgccagt 180 taaatagctt gcaaaatacg tggccttatg gttacagtat gcccatcgca gttcgctaca 240 cgcaggacgc tttttcacgt tctggttggt tgtggcctgt tgatgctaaa ggtgagccgc 300 ttaaagctac cagttatatg gctgttggtt tctatgtggc taaatacgtt aacaaaaagt 360 cagatatgga ccttgctgct aaaggtctag gagctaaaga atggaacaac tcactaaaaa 420 ccaagctgtc gctttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 26 <211> 491 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 9 (PhiX Fragment Sense 9) <400> 26 tttttgccat cagattgtgt ttgttagtcg ctgttggttt ctatgtggct aaatacgtta 60 acaaaaagtc agatatggac cttgctgcta aaggtctagg agctaaagaa tggaacaact 120 cactaaaaac caagctgtcg ctacttccca agaagctgtt cagaatcaga atgagccgca 180 acttcgggat gaaaatgctc acaatgacaa atctgtccac ggagtgctta atccaactta 240 ccaagctggg ttacgacgcg acgccgttca accagatatt gaagcagaac gcaaaaagag 300 agatgagatt gaggctggga aaagttactg tagccgacgt tttggcggcg caacctgtga 360 cgacaaatct gctcaaattt atgcgcgctt cgataaaaat gattggcgta tccaacctgc 420 agagttttat cgcttccatg atttttcccc ctttttcccc ctttttcccc ctttttcccc 480 ctttttcccc c 491 <210> 27 <211> 498 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 10 (PhiX Fragment Sense 10) <400> 27 tttttgccat cagattgtgt ttgttagtcg ctctgtagcc gacgttttgg cggcgcaacc 60 tgtgacgaca aatctgctca aatttatgcg cgcttcgata aaaatgattg gcgtatccaa 120 cctgcagagt tttatcgctt ccatgacgca gaagttaaca ctttcggata tttctgatga 180 gtcgaaaaat tatcttgata aagcaggaat tactactgct tgtttacgaa ttaaatcgaa 240 gtggactgct ggcggaaaat gagaaaattc gacctatcct tgcgcagctc gagaagctct 300 tactttgcga cctttcgcca tcaactaacg attctgtcaa aaactgacgc gttggatgag 360 gagaagtggc ttaatatgct tggcacgttc gtcaaggact ggtttagata tgagtcacat 420 tttgttcatg gtagagattc tcttgttgtt tttccccctt tttccccctt tttccccctt 480 tttccccctt tttccccc 498 <210> 28 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 11 (PhiX Fragment Sense 11) <400> 28 tttttgccat cagattgtgt ttgttagtcg ctacgcgttg gatgaggaga agtggcttaa 60 tatgcttggc acgttcgtca aggactggtt tagatatgag tcacattttg ttcatggtag 120 agattctctt gttgacattt taaaagagcg tggattacta tctgagtccg atgctgttca 180 accactaata ggtaagaaat catgagtcaa gttactgaac aatccgtacg tttccagacc 240 gctttggcct ctattaagct cattcaggct tctgccgttt tggatttaac cgaagatgat 300 ttcgattttc tgacgagtaa caaagtttgg attgctactg accgctctcg tgctcgtcgc 360 tgcgttgagg cttgcgttta tggtacgctg gactttgtag gataccctcg ctttcctgct 420 cctgttgagt tttttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 29 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 12 (PhiX Fragment Sense 12) <400> 29 tttttgccat cagattgtgt ttgttagtcg cttgctactg accgctctcg tgctcgtcgc 60 tgcgttgagg cttgcgttta tggtacgctg gactttgtag gataccctcg ctttcctgct 120 cctgttgagt ttattgctgc cgtcattgct tattatgttc atcccgtcaa cattcaaacg 180 gcctgtctca tcatggaagg cgctgaattt acggaaaaca ttattaatgg cgtcgagcgt 240 ccggttaaag ccgctgaatt gttcgcgttt accttgcgtg tacgcgcagg aaacactgac 300 gttcttactg acgcagaaga aaacgtgcgt caaaaattac gtgcagaagg agtgatgtaa 360 tgtctaaagg taaaaaacgt tctggcgctc gccctggtcg tccgcagccg ttgcgaggta 420 ctaaaggcaa gctttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 30 <211> 489 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 13 (PhiX Fragment Sense 13) <400> 30 tttttgccat cagattgtgt ttgttagtcg ctgtcaaaaa ttacgtgcgg aaggagtgat 60 gtaatgtcta aaggtaaaaa acgttctggc gctcgccctg gtcgtccgca gccgttgcga 120 ggtactaaag gcaagcgtaa aggcgctcgt ctttggtatg taggtggtca acaattttaa 180 ttgcaggggc ttcggcccct tacttgagga taaattatgt ctaatattca aactggcgcc 240 gagcgtatgc cgcatgacct ttcccatctt ggcttccttg ctggtcagat tggtcgtctt 300 attaccattt caactactcc ggttatcgct ggcgactcct tcgagatgga cgccgttggc 360 gctctccgtc tttctccatt gcgtcgtggc cttgctattg actctactgt agacattttt 420 actttttatg tccctcatct ttttccccct ttttccccct ttttccccct ttttccccct 480 ttttccccc 489 <210> 31 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 14 (PhiX Fragment Sense 14) <400> 31 tttttgccat cagattgtgt ttgttagtcg cttccttcga gatggacgcc gttggcgctc 60 tccgtctttc tccattgcgt cgtggccttg ctattgactc tactgtagac atttttactt 120 tttatgtccc tcatcgtcac gtttatggtg aacagtggat taagttcatg aaggatggtg 180 ttaatgccac tcctctcccg actgttaaca ctactggtta tattgaccat gccgcttttc 240 ttggcacgat taaccctgat accaataaaa tccctaagca tttgtttcag ggttatttga 300 atatctataa caactatttt aaagcgccgt ggatgcctga ccgtaccgag gctaacccta 360 atgagcttaa tcaagatgat gctcgttatg gtttccgttg ctgccatctc aaaaacattt 420 ggactgctcc gctttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 32 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 15 (PhiX Fragment Sense 15) <400> 32 tttttgccat cagattgtgt ttgttagtcg ctatgcctga ccgtaccgag gctaacccta 60 atgagcttaa tcaagatgat gctcgttatg gtttccgttg ctgccatctc aaaaacattt 120 ggactgctcc gcttcctcct gagactgagc tttctcgcca aatgacgact tctaccacat 180 ctattgacat tatgggtctg caagctgctt atgctaattt gcatactgac caagaacgtg 240 attacttcat gcagcgttac catgatgtta tttcttcatt tggaggtaaa acctcttatg 300 acgctgacaa ccgtccttta cttgtcatgc gctctaatct ctgggcatct ggctatgatg 360 ttgatggaac tgaccaaacg tcgttaggcc agttttctgg tcgtgttcaa cagacctata 420 aacattctgt gctttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 33 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 16 (PhiX Fragment Sense 16) <400> 33 tttttgccat cagattgtgt ttgttagtcg cttctaatct ctgggcatct ggctatgatg 60 ttgatggaac tgaccaaacg tcgttaggcc agttttctgg tcgtgttcaa cagacctata 120 aacattctgt gccgcgtttc tttgttcctg agcatggcac tatgtttact cttgcgcttg 180 ttcgttttcc gcctactgcg actaaagaga ttcagtacct taacgctaaa ggtgctttga 240 cttataccga tattgctggc gaccctgttt tgtatggcaa cttgccgccg cgtgaaattt 300 ctatgaagga tgttttccgt tctggtgatt cgtctaagaa gtttaagatt gctgagggtc 360 agtggtatcg ttatgcgcct tcgtatgttt ctcctgctta tcaccttctt gaaggcttcc 420 cattcattca ggtttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 34 <211> 482 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 17 (PhiX Fragment Sense 17) <400> 34 tttttgccat cagattgtgt ttgttagtcg cttctaagaa gtttaagatt gctgagggtc 60 agtggtatcg ttatgcgcct tcgtatgttt ctcctgctta tcaccttctt gaaggcttcc 120 cattcattca ggaaccgcct tctggtgatt tgcaagaacg cgtacttatt cgccaccatg 180 attatgacca gtgtttccag tccgttcagt tgttgcagtg gaatagtcag gttaaattta 240 atgtgaccgt ttatcgcaat ctgccgacca ctcgcgattc aatcatgact tcgtgataaa 300 agattgagtg tgaggttata acgccgaagc ggtaaaaatt ttaatttttg ccgctgaggg 360 gttgaccaag cgaagcgcgg taggttttct gcttaggagt ttaatcatgt ttcagacttt 420 tatttctcgc catttttccc cctttttccc cctttttccc cctttttccc cctttttccc 480 cc 482 <210> 35 <211> 571 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 18 (PhiX Fragment Sense 18) <400> 35 tttttgccat cagattgtgt ttgttagtcg ctgttataac gccgaagcgg taaaaatttt 60 aatttttgcc gctgaggggt tgaccaagcg aagcgcggta ggttttctgc ttaggagttt 120 aatcatgttt cagactttta tttctcgcca taattcaaac tttttttctg ataagctggt 180 tctcacttct gttactccag cttcttcggc acctgtttta cagacaccta aagctacatc 240 gtcaacgtta tattttgata gtttgacggt taatgctggt aatggtggtt ttcttcattg 300 cattcagatg gatacatctg tcaacgccgc taatcaggtt gtttctgttg gtgctgatat 360 tgcttttgat gccgacccta aattttttgc ctgtttggtt cgctttgagt cttcttcggt 420 tccgactacc ctcccgactg cctatgatgt ttatcctttg gatggtcgcc atgatggtgg 480 ttattatacc gtcaaggact gtgtgactat tgacgtcctt ctttttcccc ctttttcccc 540 ctttttcccc ctttttcccc ctttttcccc c 571 <210> 36 <211> 489 <212> DNA <213> Artificial Sequence <220> <223> ANA ID NO: 19 (PhiX Fragment Sense 13-T335A-G357T-C385A) <400> 36 tttttgccat cagattgtgt ttgttagtcg ctgtcaaaaa ttacgtgcgg aaggagtgat 60 gtaatgtcta aaggtaaaaa acgttctggc gctcgccctg gtagtccgca gccgttgcga 120 ggtactaaag tcaagcgtaa aggcgctcgt ctatggtatg taggtggtca acaattttaa 180 ttgcaggggc ttcggcccct tacttgagga taaattatgt ctaatattca aactggcgcc 240 gagcgtatgc cgcatgacct ttcccatctt ggcttccttg ctggtcagat tggtcgtctt 300 attaccattt caactactcc ggttatcgct ggcgactcct tcgagatgga cgccgttggc 360 gctctccgtc tttctccatt gcgtcgtggc cttgctattg actctactgt agacattttt 420 actttttatg tccctcatct ttttccccct ttttccccct ttttccccct ttttccccct 480 ttttccccc 489

Claims

나노포어를 통한 폴리머 이송(translocation) 동안 수행된 폴리머에 대한 시간 순서의 일련의 측정(time-ordered series of measurement)을 분석하는 방법으로서, 상기 측정은 나노포어에서의 k-mer의 정체(identity)에 의존하고, k-mer는 폴리머의 k 폴리머 단위(k polymer unit)이고, 상기 k는 양수이고, 상기 방법은
상기 일련의 측정으로부터, 상기 측정에 비해 감소된 데이터 세트를 갖는 상기 측정의 특성을 나타내는 시간 순서 특징의 특징 벡터(feature vector)를 도출(deriving)하는 단계; 및
도출된 특징 벡터와 하나 이상의 다른 특징 벡터 간의 유사도를 결정하는 단계를 포함하는 것인 방법.
청구항 1에 있어서, 상기 하나 이상의 다른 특징 벡터는 하나 이상의 클래스에 대한 메모리에 저장된 하나 이상의 다른 특징 벡터인 것인 방법.
청구항 2에 있어서, 상기 메모리에 저장된 하나 이상의 다른 특징 벡터는 측정될 폴리머에 의존하여 선택된 것인 방법.
청구항 2 또는 3에 있어서, 상기 메모리에 저장된 하나 이상의 다른 특징 벡터는 단편(fragment)의 특징 벡터로부터 선택된 공통(common) 폴리머의 종합적 특징 벡터를 포함하는 것인 방법.
청구항 2 또는 3에 있어서, 상기 유사도를 결정하는 단계는 상기 도출된 특징 벡터의 전체 또는 부분과 상기 메모리에 저장된 하나 이상의 다른 특징 벡터의 전체 간의 유사도 결정을 포함하는 것인 방법.
청구항 2 또는 3에 있어서, 상기 유사도를 결정하는 단계는 상기 도출된 특징 벡터의 전체 또는 부분과 상기 메모리에 저장된 하나 이상의 다른 특징 벡터의 부분 간의 유사도 결정을 포함하는 것인 방법.
청구항 2 또는 3에 있어서, 상기 도출된 특징 벡터가 도출된 폴리머를 상기 결정된 유사도에 근거하여 해당 클래스에 속하는 것으로 분류(classifying)하는 단계를 더 포함하는 것인 방법.
청구항 1에 있어서, 상기 하나 이상의 다른 특징 벡터는 동일한 방법을 이용해서 도출된 특징 벡터인 것인 방법.
청구항 8에 있어서, 상기 하나 이상의 다른 특징 벡터는 동일한 방법을 이용해서 도출된 복수의 다른 특징 벡터이고, 상기 방법은 상기 특징 벡터의 중첩하는 부분에서의 유사도에 근거하여, 공통 폴리머의 단편인 폴리머로부터 도출된 특징 벡터를 확인하는 단계를 더 포함하는 것인 방법.
청구항 8에 있어서, 확인된 단편의 특징 벡터로부터 공통 폴리머의 전체적인 특징 벡터를 구축(constructing)하는 단계를 더 포함하는 것인 방법.
청구항 8에 있어서, 상기 하나 이상의 다른 특징 벡터는 동일한 방법을 이용하여 도출된 복수의 다른 특징 벡터이고, 상기 방법은 유사한 특징 벡터의 클러스터를 하나의 클래스로서 확인하는 단계 및 특징 벡터가 도출된 폴리머를 확인된 클래스에 속하는 것으로 분류하는 단계를 더 포함하는 것인 방법.
청구항 7에 있어서, 상이한 클래스에 속하는 특징 벡터의 수를 세는(counting) 단계를 더 포함하는 것인 방법.
청구항 7에 있어서, 도출된 특징 벡터가 폴리머가 속하는 것으로 분류된 클래스에 대한 특징 벡터와 비유사한 국부적 영역을 확인하는 단계를 더 포함하는 것인 방법.
청구항 1에 있어서, 하나 이상의 다른 특징 벡터는 메모리에 저장된 특징 벡터를 포함하고 상기 유사도의 결정 단계는 도출된 특징 벡터가 메모리에 저장된 하나 이상의 다른 특징 벡터와 비유사한 것인 국부적 영역을 결정하는 단계를 포함하는 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서,
연속적 측정의 그룹은 각각의 그룹에서 상이한 개별적 k-mer에 의존적이고, 및
특징 벡터 도출의 단계는 연속적 측정의 그룹을 확인하는 단계, 및 각각의 그룹에 대하여, 측정의 그룹의 특성을 나타내는 하나 이상의 특징의 값을 도출하는 단계를 포함하는 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 특징은
측정 그룹의 평균;
측정 그룹의 기간;
측정 그룹의 분산;
비대칭 정보(asymmetry information);
측정의 신뢰 정보(confidence information);
측정 그룹의 분포; 또는
그의 임의의 조합을 포함하는 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 측정은 전기적 측정인 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 측정은 나노포어를 통한 이온 전류 흐름(ion current flow)의 측정을 포함하는 것인 방법.
청구항 18에 있어서, 상기 측정은 이온 전류 흐름 외에 하나 이상의 추가적 특성의 측정을 포함하는 것인 방법.
청구항 19에 있어서, 상기 하나 이상의 추가적 특성의 측정은 FET 측정, 광학 측정, 또는 둘 모두를 포함하는 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 폴리머는 폴리뉴클레오티드고, 상기 폴리머 단위는 뉴클레오티드인 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 나노포어는 생물학적 포어인 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 나노포어를 통한 폴리머의 이송은 연속적 k-mer가 나노포어에 기록(register)되는 래칫의 방식으로 수행되는 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 폴리머의 이송은 폴리머 결합 단백질인 분자 래칫(molecular ratchet)에 의해 제어되는 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 유사도를 결정하는 단계는 정렬-기반 및 서브-벡터 기반 측정의 짝 유사도(sub-vector based measure of pairwise similarity)를 이용하여 수행되는 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 유사도를 결정하는 단계는 상기 도출된 특징 벡터를 하나 이상의 다른 특징 벡터의 HMM (Hidden Markov Model)에 맞게 정렬시키는 단계를 포함하는 것인 방법.
청구항 1 내지 3 중 어느 한 항에 있어서,
나노포어를 통해 폴리머를 이송시키는 단계; 및
상기 폴리머에 대해 연속적인 일련의 측정을 수행하는 단계를 더 포함하는 것인 방법.
표적 폴리머의 존재, 부재 또는 양을 평가하는 단계로서, 상기 방법은
나노포어를 통해 폴리머를 이송시키는 단계;
상기 폴리머에 대해 연속적인 일련의 측정을 수행하는 단계;
청구항 1 내지 3 중 어느 한 항에 따른 방법을 사용하여 상기 일련의 측정을 분석하는 단계; 및
상기 분석에 기반하여 표적 폴리머의 존재, 부재 또는 양을 평가하는 단계를 포함하는 것인 방법.
컴퓨터 기기에 의해 실행할 수 있고, 청구항 1 내지 3 중 어느 한 항에 따른 방법을 수행하기 위한 실행이 구현된 컴퓨터 프로그램을 저장하는, 컴퓨터-판독 가능한 저장 매체.
청구항 1 내지 3 중 어느 한 항에 따른 방법을 수행하기 위해 구성된 분석 장치.
청구항 30에 따른 분석 장치; 및
폴리머가 이송될 수 있는 나노포어를 포함하고, 이송 동안 폴리머의 연속적인 일련의 측정을 수행하기 위해 배열된 측정 시스템을 포함하는 진단 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제