KR102551897B1 - 폴리머의 분석 - Google Patents

폴리머의 분석 Download PDF

Info

Publication number
KR102551897B1
KR102551897B1 KR1020177013088A KR20177013088A KR102551897B1 KR 102551897 B1 KR102551897 B1 KR 102551897B1 KR 1020177013088 A KR1020177013088 A KR 1020177013088A KR 20177013088 A KR20177013088 A KR 20177013088A KR 102551897 B1 KR102551897 B1 KR 102551897B1
Authority
KR
South Korea
Prior art keywords
polymer
measurements
series
sequence
mer
Prior art date
Application number
KR1020177013088A
Other languages
English (en)
Other versions
KR20170069273A (ko
Inventor
스튜어트 윌리엄 레이드
개빈 하퍼
클라이브 개빈 브라운
다니엘 존 터너
앤드류 존 헤론
크리스토퍼 제임스 라이트
Original Assignee
옥스포드 나노포어 테크놀로지즈 피엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1418366.9A external-priority patent/GB201418366D0/en
Priority claimed from GBGB1418379.2A external-priority patent/GB201418379D0/en
Priority claimed from GBGB1507742.3A external-priority patent/GB201507742D0/en
Application filed by 옥스포드 나노포어 테크놀로지즈 피엘씨 filed Critical 옥스포드 나노포어 테크놀로지즈 피엘씨
Publication of KR20170069273A publication Critical patent/KR20170069273A/ko
Application granted granted Critical
Publication of KR102551897B1 publication Critical patent/KR102551897B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/60Detection means characterised by use of a special device
    • C12Q2565/631Detection means characterised by use of a special device being a biochannel or pore

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Nanotechnology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analyzing Materials By The Use Of Electric Means (AREA)

Abstract

폴리머의 분석. 생화학적 분석 시스템은 나노포어를 통한 상기 폴리머의 이송 중에 나노포어를 포함하는 센서 요소로부터 폴리머의 측정을 취함으로써 폴리머를 분석한다. 폴리머가 일부 이송되어졌을 때, 상기 일련의 측정이 유사도의 척도를 제공하기 위해 참조 서열로부터 유도된 참조 데이터를 사용하여 분석된다. 상기 유사도의 척도에 반응하여, 상기 센서 요소가 상기 폴리머를 배출시킴으로써, 상기 나노포어가 부가의 폴리머를 수용하도록 선택적으로 작동될 수 있다. 상기 생화학적 분석 시스템은 센서 요소의 어레이를 포함하고, 또한 상기 유사도의 척도에 반응하여 다중 방식으로 선택된 센서 요소로부터 측정을 취하는 경우, 상기 생화학적 분석 시스템은 현재 선택된 센서 요소로부터 측정을 얻는 것을 중지시키고, 새롭게 선택된 센서 요소로부터 측정을 얻는 것을 시작한다.

Description

폴리머의 분석{ANALYSIS OF A POLYMER}
본 발명의 제1 내지 제3 양태는 나노포어 (nanopore)를 포함하는 적어도 하나의 센서 요소 (sensor element)를 포함하는 생화학적 분석 시스템을 사용하는 폴리머의 분석에 관한 것이다. 본 발명의 제4 양태는, 폴리머 유닛 (polymer units)을 포함하는 폴리머의 일련의 측정들과 폴리머 유닛의 참조 서열 (reference sequence) 사이의 정렬 맵핑 (alignment mapping)의 추정 (estimation)에 관한 것이다. 모든 양태에서, 상기 폴리머는 예를 들면, 이에 한정되는 것은 아니지만, 상기 폴리머 유닛이 뉴클레오티드인 폴리뉴클레오티드일 수 있다.
상기 서열을 결정하기 위한 목적으로 폴리머 유닛의 측정을 제공하는 많은 형태의 생화학적 분석 시스템이 있다. 예를 들면, 이에 한정되는 것은 아니지만, 측정 시스템의 일 형태는 나노포어를 사용한다. 나노포어를 사용하는 생화학적 분석 시스템이 최근 개발의 주제였었다. 통상적으로, 나노포어를 포함하는 센서 요소로부터 폴리머의 연속적인 측정이 상기 나노포어를 통한 상기 폴리머의 이송 (translocation) 중에 얻어진다. 상기 시스템의 일부 특성은 상기 나노포어내에 상기 폴리머 유닛에 의존하고, 상기 특성의 측정이 얻어진다. 나노포어를 사용하는 이러한 측정 시스템의 형태는 특히 DNA 또는 RNA와 같은 폴리뉴클레오티드를 시퀀싱하는 분야에서 상당한 가능성을 갖는다.
나노포어를 사용하는 이러한 생화학적 분석 시스템은, 예를 들어 수 백 내지수 만 (및 가능한 더 많은) 뉴클레오티드에 이르는 폴리뉴클레오티드의 경우에, 폴리머의 긴 연속 판독 (long continuous reads)을 제공할 수 있다. 상기 방식으로 수집된 데이터는 측정, 예컨대 이온 전류의 측정을 포함하고, 여기서 상기 나노포어의 감지 부분 (sensitive part)을 통해 상기 서열의 각 이송으로 상기 측정된 특성에서 약간의 변화를 일으킨다.
나노포어를 사용한 이러한 생화학적 분석 시스템은 중요한 장점을 제공할 수 있을 뿐만 아니라, 상기 분석 속도를 증가시키는 것이 바람직하다. 본 발명의 제1 및 제2 양태는 이러한 증가를 제공하는 것과 관련된다.
본 발명의 제1 양태에 따르면, 폴리머 유닛의 서열을 포함하는 폴리머들을 분석하기 위한 생화학적 분석 시스템을 조절하는 방법이 제공되며, 상기 생화학적 분석 시스템은 나노포어를 포함하는 적어도 하나의 센서 요소를 포함하고, 상기 생화학적 분석 시스템은, 상기 센서 요소의 나노포어를 통한 상기 폴리머의 이송 중에, 센서 요소로부터 폴리머의 연속적인 측정이 얻어지도록 작동가능하고,
상기 방법은, 폴리머가 상기 나노포어를 통해 일부 이송되었을 때, 상기 일부 이송된 폴리머의 폴리머 유닛의 서열과 적어도 하나의 참조 서열 사이에 유사도 (similarity)의 척도를 제공하기 위해서, 폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된 참조 데이터를 사용하여, 상기 그 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정들을 분석하는 단계, 및
상기 유사도의 척도에 반응하여, 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정이 얻어지도록 상기 생화학적 분석 시스템을 작동시키는 단계를 포함한다.
상기 방법은, 상기 나노포어를 통해 일부 이송되어졌을 때, 즉 상기 나노포어를 통한 상기 폴리머의 이송 중에, 상기 폴리머로부터 얻어진 측정을 분석하는 것을 포함한다. 특히, 상기 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정들이 폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된 참조 데이터를 사용하여 분석된다. 상기 분석은, 일부 이송된 폴리머의 폴리머 유닛의 서열과, 상기 적어도 하나의 참조 서열 사이에 유사도의 척도를 제공한다. 상기 유사도의 척도에 반응하여, 상기 참조 서열에 대한 유사도가, 예를 들면 측정되는 폴리머에 관심이 없기 때문에, 상기 폴리머의 부가의 분석이 필요하지 않다고 나타내는 경우, 상기 폴리머를 거절하고 부가의 폴리머로부터 측정이 얻어지도록 행위를 취할 수 있다.
상기 폴리머의 거절로, 처음에 측정되는 폴리머의 측정을 완료하지 않고 부가의 폴리머의 측정이 얻어지도록 한다. 이는 측정하는데 걸리는 시간을 절약할 수 있고, 즉 폴리머로부터 측정이 얻어지는 동안 이는 "온-더-플라이 (on-the-fly)"로 조치가 수행되기 때문이다. 통상적인 적용에서, 나노포어를 사용하는 생화학적 분석 시스템은 폴리머의 긴 연속 판독을 제공할 수 있기 때문에 시간 절약이 중요할 수 있고, 반면에 상기 분석으로 현재 측정되는 폴리머의 부가의 측정이 필요하지 않은 판독을 초기 단계에서 확인할 수 있다.
예를 들면, 상기 폴리머가 폴리뉴클레오티드인 통상적인 적용에서, 100% 정확도로 수행된 시퀀싱으로 약 30개의 뉴클레오티드의 측정 후에 초기 결정이 만들어질 수 있다. 그러므로, 실제 성취가능한 정확도를 고려하여, 수 백개의 뉴클레오티드, 통상적으로 250개의 뉴클레오티드의 측정 후에, 결정이 만들어질 수 있다. 이는 길이가 수백 내지 수만 (및 가능한 더 많은)인 뉴클레오티드의 서열에서 측정이 얻어질 수 있는 상기 생화학적 분석 시스템과 비교한다.
상기 방법은 현저하게 더 빠른 시간에 결과를 제공하는 것이 가능하고, 연속된 측정이 관심이 있는 것으로 결정된 폴리머에서만 얻어지고, 관심 대상이 아닌 것으로 결정된 폴리머는 거절된다. 폐기되는 데이터 수집량을 줄이는 이점은 많은 양의 데이터 수집이 필요한 응용분야에서 특히 중요하다. 수득된 시간 절약은 그 자체로 유용하거나, 또는 예를 들어 이용 가능한 시간 및 자원으로 얻을 수 있는 것보다 더 넓은 범위에서 더 높은 시퀀싱 정확도를 얻는데 사용될 수도 있다.
상기 일부 이송된 폴리머의 폴리머 유닛의 서열과 상기 적어도 하나의 참조 서열 사이의 유사도의 척도를 제공하는 분석은 본질적으로 참조와 측정들을 비교하는 공지된 기술을 사용할 수 있다. 그러나, 본 방법과 대조적으로, 이러한 공지된 기술들은 통상적으로 상기 이송이 완료되어진 후에 측정들이 얻어진다.
상기 방법이 광범위한 응용분야에 적용될 수 있다. 상기 적용에 따라서, 상기 유사도의 척도는 상기 참조 서열의 전부, 또는 상기 참조 서열의 일부와의 유사도를 나타낼 수 있다.
본 발명의 제2 양태에 따르면, 폴리머 유닛의 서열을 포함하는 폴리머들을 분석하기 위한 생화학적 분석 시스템을 조절하는 방법이 제공되고, 상기 생화학적 분석 시스템은 나노포어를 포함하는 적어도 하나의 센서 요소를 포함하며, 상기 생화학적 분석 시스템은, 상기 센서 요소의 나노포어를 통해 상기 폴리머의 이송 중에, 센서 요소로부터 폴리머의 연속적인 측정이 얻어지도록 작동가능하고,
상기 방법은, 폴리머가 상기 나노포어를 통해 일부 이송되었을 때, 다른 가능한 형태의 k-mer 상태들의 시리즈의 관측 (observations)으로서 상기 측정들을 처리하고, 또한 상기 k-mer 상태들의 시리즈에서 연속적인 k-mer 상태들 사이의 각 전이에 대해, k-mer 상태의 가능한 형태들 사이의 가능한 전이에 대한 전이 가중 (transition weightings); 및 상기 k-mer에 대한 주어진 측정 값을 관측하는 기회를 나타내는 k-mer 상태의 각 형태에 대한 방출 가중 (emission weightings)을 포함하는, 모델에 대한 피트 (fit)의 척도를 유도함으로써 그 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정을 분석하는 단계, 및
상기 피트의 척도에 반응하여, 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정이 얻어지도록 상기 생화학적 분석 시스템을 작동시키는 단계를 포함한다.
상기 방법은, 폴리머가 상기 나노포어를 통해 일부 이송되어졌을 때, 즉 상기 나노포어를 통한 상기 폴리머의 이송 중에, 상기 폴리머로부터 얻어진 측정을 분석하는 것을 포함한다. 특히, 상기 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정들이 폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된 참조 데이터를 사용하여 분석된다. 상기 분석은 모델에 대한 피트의 척도를 제공한다. 상기 피트의 척도에 반응하여, 부가의 이송 및 측정이 보증되지 않도록 상기 모델에 의해서 결정되는 바와 같이 측정이 불량한 품질을 갖는다고 상기 피트의 척도가 나타내는 경우, 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정이 얻어지는 조치가 수행될 수 있다.
상기 폴리머의 거절로, 처음에 측정되는 상기 폴리머의 측정을 완료하지 않고, 부가의 폴리머의 측정이 얻어지도록 한다. 상기는 측정을 얻는데 걸리는 시간을 절약할 수 있고, 즉 폴리머로부터 측정을 얻는 동안 "온-더-플라이"로 조치가 수행되기 때문이다. 통상적인 적용에서, 나노포어를 사용하는 생화학적 분석 시스템은 폴리머의 긴 연속 판독을 제공할 수 있기 때문에 시간 절약이 중요할 수 있고, 상기 분석으로 초기 단계에서 상기 측정이 불량한 품질을 갖는지를 확인할 수 있다.
본 발명의 제1 및 제2 양태들은, 상기 생화학적 분석 시스템이 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정을 얻도록 작동되는 것을 제외하고는, 동일하다. 그러므로, 종속항인 청구항 2 내지 20에 제시된 본 발명의 제1 양태에 따른 임의의 특성들이 본 발명의 제2 양태에 대해 적용될 수 있다. 또한, 상기 방법의 하기 특성들 모두는 본 발명의 제1 또는 제2 양태에 따른 방법들에 동일하게 적용된다.
상기 폴리머의 거절 (rejection)은 다른 방식으로 발생할 수 있다:
제1 접근법에서, 상기 적어도 하나의 센서 요소는 상기 나노포어를 통해 이송 중인 폴리머를 배출(eject)하도록 작동가능하다. 상기 경우에, 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정을 얻도록 상기 생화학적 분석 시스템을 작동시키는 단계가, 상기 나노포어로부터 상기 폴리머를 배출하고, 또한 상기 나노포어 중에 부가의 폴리머를 수용하도록 상기 센서 요소를 작동시킴으로써, 수행될 수 있다.
제2 접근법에서, 상기 생화학적 분석 시스템은 센서 요소의 어레이 (array)를 포함하고, 다중 방식 (multiplexed manner)으로 선택된 센서 요소로부터 폴리머의 연속적인 측정을 얻도록 작동가능하다. 상기 경우에, 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정을 얻도록 상기 생화학적 분석 시스템을 작동시키는 단계는 상기 현재 선택된 센서 요소로부터 측정을 얻는 것을 중지시키고, 또한 새롭게 선택된 센서 요소로부터 측정을 얻는 것을 시작하도록 상기 생화학적 분석 시스템을 작동시키는 단계를 포함할 수 있다.
상기 두가지 접근법이 조합하여 사용될 수 있다.
본 발명의 제3 양태가, 나노포어를 사용하여 수행될 수 있는 생화학적 분석의 특정 형태의 적용과 관련이 있다.
본 발명의 제3 양태에 따르면, 각 폴리머가 폴리머 유닛의 서열을 포함하는 폴리머들을 선별하는 (sorting) 방법이 제공되고, 상기 방법은, 상기 폴리머들을 포함하는 시료를 포함하는 시료 챔버 (sample chamber), 상기 시료 챔버로부터 밀봉된 수집 챔버 (collection chambers) 및 상기 시료 챔버와 상기 수집 챔버 사이를 연결하는 나노포어를 포함하는 센서 요소 (sensor element)를 포함하는, 시스템을 사용하고,
상기 방법은, 상기 시료 챔버로부터 연속적인 폴리머를 상기 나노포어를 통해 이송을 시작하도록 하는 단계; 및 각 폴리머의 이송 중에:
상기 센서 요소로부터 상기 폴리머의 연속적인 측정을 얻는 단계;
상기 일부 이송된 폴리머의 폴리머 유닛의 서열과 적어도 하나의 참조 서열 사이의 유사도의 척도를 제공하기 위해서, 폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된 참조 데이터를 사용하여, 그 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정을 분석하는 단계,
상기 유사도의 척도에 의존하여, 상기 수집 챔버로 상기 폴리머의 이송을 선택적으로 완료하거나 또는 상기 폴리머를 상기 시료 챔버로 다시 배출시키는 단계를 포함한다.
그러므로, 상기 방법은 상기 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정의 분석에 의해서 제공된 유사도의 척도를 사용한다. 상기 분석은 본질적으로 참조와 측정을 비교하는 공지된 기술을 사용할 수 있다. 그러나, 상기 폴리머가 수집될지 여부를 결정하기 위해서 상기 유사도의 척도가 사용된다. 그렇다면, 상기 수집 챔버로 상기 폴리머의 이송이 완료된다. 그렇지 않다면, 상기 폴리머가 상기 시료 챔버로 다시 배출된다. 이와 같은 방식으로, 상기 선택된 폴리머가 상기 수집 챔버에 수집된다. 상기 수집된 폴리머가 예를 들면 상기 시료로부터 폴리머의 이송을 완료한 후에, 또는 대안으로서 상기 시료로부터 폴리머의 이송 중에, 예를 들면 상기에 적당한 유체 시스템 (fluidics system)에 상기 시스템을 제공함으로써 회수될 수 있다.
상기 방법이 광범위한 응용분야에 적용될 수 있다. 예를 들면, 상기 방법이 폴리뉴클레오티드, 예를 들면 바이러스 게놈 (viral genomes) 또는 플라스미드 (plasmids)인 폴리머에 적용될 수 있다. 바이러스 게놈은 통상적으로 10-15 kB (kilobases)의 길이를 갖고, 플라스미드는 통상적으로 4 kB의 길이를 갖는다. 상기 예에서, 상기 폴리뉴클레오티드가 단편화 (fragmented)되지 않을 수 있어서, 전체로 수집될 수 있다. 상기 수집된 바이러스 게놈 또는 플라스미드가 예를 들면 세포를 감염시키기 위해 임의의 방식으로 사용될 수 있다.
상기 참조 데이터가 유도되는 폴리머 유닛의 상기 참조 서열은 원하는 서열일 수 있다. 이러한 경우에, 상기 수집 챔버로 상기 폴리머의 이송을 선택적으로 완료하는 단계가, 상기 일부 이송된 폴리머가 상기 원하는 서열임을 나타내는 유사도의 척도에 반응하여, 수행된다. 그러나, 상기는 필수적이지 않다. 일부 적용에서, 상기 참조 데이터가 유도되는 폴리머 유닛의 상기 참조 서열은 원하지 않는 서열일 수 있다. 이러한 경우에, 상기 수집 챔버로 상기 폴리머의 이송을 선택적으로 완료하는 단계가, 상기 일부 이송된 폴리머가 상기 원하지 않는 서열이 아님을 나타내는 유사도의 척도에 반응하여, 수행된다.
상기 적용에 따라서, 상기 유사도의 척도는 상기 참조 서열의 전체, 또는 상기 참조 서열의 일부와의 유사도를 나타낼 수 있다.
상기 시스템은 복수의 수집 챔버 및, 각 수집 챔버에 대해서, 상기 시료 챔버와 상기 개별의 수집 챔버 사이의 연결을 제공하는 나노포어를 포함하는 센서 요소를 포함할 수 있다. 이는 복수의 나노포어에 대해 상기 방법이 병렬로 수행되도록 한다. 상기 선별 방법의 속도를 증가시키는 능력을 제공할 뿐만 아니라, 다른 수집 챔버에 다른 폴리머를 수집할 수 있다. 이를 달성하기 위해서, 상기 참조 데이터 및 수집을 위한 기준이 이에 따라서 선택된다. 일례에서, 상기 방법은 다른 나노포어에 대해 다른 참조 데이터를 사용하여 수행될 수 있다. 다른 예에서, 상기 방법이 다른 나노포어에 대해 동일한 참조 데이터를 사용하여 수행될 수 있지만, 상기 수집 챔버로 상기 폴리머의 이송을 선택적으로 완료하는 단계가 다른 나노포어에 대한 유사도의 척도에서 다른 의존도로 수행된다.
본 발명의 부가의 양태에 따르면, 본 발명의 제1, 제2 또는 제3 양태와 유사한 방법을 구현하는 생화학적 분석 시스템이 제공된다.
본 발명의 제4 양태는, 폴리머 유닛을 포함하는 폴리머의 일련의 측정과, 폴리머 유닛의 참조 서열 사이의 정렬과 관련이 있다.
측정 시스템의 일부 형태는 k-mer에 의존하는 폴리머의 측정을 얻고, 상기 k-mer는 상기 폴리머의 k개의 폴리머 유닛이며, 여기서 k는 정수이다. 정의로서, k개의 폴리머 유닛의 그룹은 이후에 k-mer라고 한다. 일반적으로, k-mer가 단일 폴리머 유닛인 경우 k는 값 1을 취할 수 있거나, 또는 복수의 정수일 수 있다. 각 주어진 폴리머 유닛은 상기 폴리머의 특성에 따라서 다른 형태를 가질 수 있다. 예를 들면, 상기 폴리머가 폴리뉴클레오티드인 경우에, 상기 폴리머 유닛은 뉴클레오티드이고, 상기 다른 형태는 다른 뉴클레오베이스 (nucleobases) (예컨대, 시토신, 구아닌 등)를 포함하는 뉴클레오티드이다. 그러므로, 각 주어진 k-mer는 또한 상기 k-mer의 각 폴리머 유닛의 다른 형태의 다른 조합에 해당하는 다른 형태를 가질 수 있다.
상기 측정 시스템의 실제 형태에서 상기 측정들로부터 상기 폴리머 유닛의 추정치에 대해서, 단일 폴리머 유닛에 의존하는 측정을 제공하는 것이 어렵다. 대신에, 각 측정의 값은 k-mer에 의존하며, 여기서 k는 복수의 정수 (plural integer)이다. 개념적으로, 측정되는 폴리머 유닛보다 더 큰 "블런트 리더 헤드 (blunt reader head)"를 갖는 측정 시스템으로서 생각될 수 있다. 이러한 상황에서, 분석되는 (resolved) 다른 k-mer의 수가 k의 제곱 (power)으로 증가한다. 측정이 다수의 폴리머 유닛 (k의 큰 값)에 의존하는 경우, 다른 형태를 갖는 k-mers로부터 얻어진 측정은 분석하는 것이 어려울 수 있으며, 이는 특히 상기 측정 시스템에서 노이즈 (noise) 및/또는 인공물 (artefacts)이 고려될 때 중첩되는 신호 분포들 (signal distributions)을 제공하기 때문이다. 이는 폴리머 유닛들의 기본 서열을 추정하는데 불리할 수 있다.
여기서, k가 복수의 정수인 경우, 폴리머 유닛의 수준에서 분해되는 단일 값을 수득하기 위해서 동일한 폴리머에 일부 의존하는 중첩된 k-mers의 다수의 측정들로부터 정보를 조합할 수 있다. 예로서, WO-2013/041878에서는 다른 가능한 형태의 k-mer 상태의 시리즈의 관측으로서 상기 측정들을 처리하는 상기 일련의 측정들에 대한 모델을 사용하는 상기 폴리머에 관련된 적어도 하나의 일련의 측정으로부터 폴리머 중 폴리머 유닛들의 서열을 추정하는 방법이 개시되었다. 상기 모델은: 상기 k-mer 상태의 시리즈에서 연속적인 k-mer 상태들 사이에 각 전이에 대해 상기 k-mer 상태의 가능한 형태들 사이에 가능한 전이에 대한 전이 가중; 및 상기 k-mer에 대한 주어진 측정 값을 관측할 기회를 나타내는 k-mer 상태의 각 형태에 대한 방출 가중을 포함한다. 상기 모델은 예를 들면 HMM (Hidden Markov Model)일 수 있다. 이러한 모델은, 폴리머 유닛의 서열에 의해서 생성되는 일련의 측정의 모델에 의해서 예측된 가능성을 고려하여 복수의 측정들을 취함으로써 상기 추정의 정확도를 향상시킬 수 있다.
많은 상황에서, 폴리머 유닛을 포함하는 폴리머의 일련의 측정들과, 폴리머 유닛의 참조 서열 사이에 정렬 맵핑을 추정하는 것이 바람직하다. 이러한 정렬 맵핑의 추정이, 시료내 폴리머의 존재, 부재 또는 정도의 확인 또는 검출을 제공하기 위해, 예를 들면 진단 (diagnosis)을 제공하기 위한 참조와 비교하는 것과 같이 다양한 응용분야에서 사용될 수 있다. 특정 응용분야의 가능한 범위는 광범위하고, DNA 서열을 갖는 임의의 분석물의 검출에 적용될 수 있다.
종래 기술은 먼저 측정되어진 폴리머 유닛의 서열을 추정하고, 그 후 상기 폴리머 유닛의 동일성 (identity)을 비교함으로써 폴리머 유닛의 참조 서열에 대해 정렬 맵핑을 추정하는 것을 포함한다. 상기 폴리머 유닛이 뉴클레오티드 (종종 문자 그대로 염기라고 함)인 경우에 적용하기 위한 다수의 신속 정렬 알고리즘 (fast alignment algorithms)이 개발되었다. 신속 정렬 알고리즘의 예로는 BLAST (Basic Local Alignment Search Tool), FASTA 및 HMMER, 및 그 파생형태가 있다. 통상적으로 신속 정렬 알고리즘은 상대적으로 빠른 프로세스로 매우 유사한 더 작은 영역을 찾은 후에, 더 느린 프로세스로 덜 유사한 더 큰 영역으로 확장시킨다. 측정되는 상기 폴리머가 최소 시간 프레임 (minimal time frame)안에 참조와 부합되는지 여부에 대해 유사도 점수 (similarity score)를 제공함으로써 상기 폴리머 유닛의 동일성을 나타내는 상황에 이러한 알고리즘이 적용되어진다. 상기 기술 형태에서, 상기 추정된 서열 및 상기 참조에서 상기 폴리머 유닛의 동일성이 직접 비교된다. 염기인 폴리머 유닛을 나타내는 경우, 상기 기술은 "염기-스페이스 (base-space)"에서 비교를 포함하는 것으로 나타낼 수 있고, 반면에 측정들 사이에서 비교를 포함하는 것은 "측정 스페이스 (measurement space)"라고 할 수 있다.
그러나, 이러한 기술들은 상기 정렬 맵핑의 추정에서 제한된 정확도를 갖거나, 또는 즉 제한된 판별력을 갖는다. 이는 폴리머 유닛의 서열을 추정하는 초기 단계에서 고유하게 상기 측정 자체에 존재하는 상기 폴리머 유닛의 동일성에 대한 정보가 손실되기 때문이다.
상기 종래 기술과 비교하여 증가된 정확도를 제공하는 정렬 맵핑을 추정하는 방법을 제공하는 것이 바람직할 수 있다.
본 발명의 제4 양태에 따르면, (a) 폴리머 유닛을 포함하는 폴리머의 일련의 측정들로서, 상기 측정이, 상기 폴리머의 k개의 폴리머 유닛인, k-mer에 의존하고, 여기서 k는 정수인 것인 폴리머의 일련의 측정들과, (b) 폴리머 유닛의 참조 서열 사이에 정렬 맵핑을 추정하는 방법이 제공되며;
상기 방법은 폴리머 유닛의 참조 서열에 해당하는 k-mer 상태의 참조 시리즈의 관측으로서 상기 측정들을 처리하는 참조 모델을 사용하고, 상기 참조 모델은:
상기 k-mer 상태의 참조 시리즈에서 상기 k-mer 상태들 사이의 전이에 대한 전이 가중; 및
각 k-mer 상태에 대해, 상기 k-mer 상태가 관측될 때 관측되는 다른 측정들에 대한 방출 가중을 포함하고;
상기 방법은 일련의 측정들과 폴리머 유닛의 참조 서열에 해당하는 상기 k-mer 상태의 참조 시리즈 사이에 정렬 맵핑의 추정을 유도하기 위해 상기 일련의 측정들에 상기 참조 모델을 적용하는 단계를 포함한다.
그러므로 상기 방법은 상기 참조 서열에 대한 참조 모델을 사용한다. 상기 참조 모델은 폴리머 유닛의 상기 참조 서열에 해당하는 k-mer 상태의 참조 시리즈의 관측으로서 상기 측정들을 처리하고, 또한 상기 k-mer 상태의 참조 시리즈에서 상기 k-mer 상태들 사이에 전이에 대한 전이 가중; 및 각 k-mer 상태에 대해 상기 k-mer 상태가 관측될 때 관측되는 다른 측정들에 대한 방출 가중을 포함한다. 예를 들면, 이에 한정되는 것은 아니지만, 상기는 HMM일 수 있다. 결과적으로, 상기 방법은 처음에 상기 폴리머 유닛의 서열을 추정하고, 그 후 상기 폴리머 유닛의 동일성을 비교함으로써 폴리머 유닛의 참조 서열에 대한 정렬 맵핑을 추정하는 것을 포함하는 전술된 공지된 기술과 비교하여, 상기 정렬 방법의 추정의 정확도를 향상시킬 수 있다. 이는 하기와 같은 이유 때문이다.
일반적 용어로서, 상기 참조 모델의 사용은, 예를 들어 유사한 형태의 전이 가중 및 방출 가중을 사용하고, 또한 상기 모델로 동일한 수학적 처리를 적용하여, 폴리머 유닛의 서열을 추정하는 WO-2013/041878에 개시된 모델과 유사하다. 그러나, 상기 참조 모델 자체는 상기 측정 시스템의 포괄적인 모델인 WO-2013/041878에 개시된 모델과는 다르며, 각 k-mer 상태는 일반적으로 k-mer 상태의 가능한 형태들 중 어느 것을 가질 수 있다. 그러므로, 상기 k-mer 상태들의 시리즈에서 연속적인 k-mer 상태들 사이에 각 전이에 대해, 상기 k-mer 상태들의 가능한 형태들 사이의 다양한 가능한 전이에 대한 전이 가중이 제공된다. 대조적으로, 본 방법에 사용된 상기 참조 모델은 폴리머 유닛의 상기 참조 서열에 해당하는 k-mer 상태의 참조 시리즈의 모델이다. 그러므로, 상기 k-mer 상태의 참조 시리즈들에서 상기 k-mer 상태들 사이에 전이에 대한 전이 가중이 제공된다.
이러한 유사도는, 본 발명의 방법이 WO-2013/041878에 개시된 모델의 파워를 사용할 수 있다는 것을 의미한다. 중첩하는 k-mers에 의존하는 상기 측정에 존재하는 상기 폴리머 유닛의 동일성에 대한 정보가 상기 결과를 알려주기 위해서 사용된다. 상기 참조 모델 자체의 다른 특성에 의해서, 상기 참조 모델의 적용은 일련의 측정들과 폴리머 유닛의 상기 참조 서열에 해당하는 상기 k-mer 상태의 참조 시리즈 사이에 정렬 맵핑, 및 그러므로 상기 일련의 측정들과 상기 폴리머 유닛의 참조 서열 사이의 정렬 맵핑을 제공할 수 있다.
일부 구현예에서, 상기 정렬 맵핑의 유도된 추정치는, 상기 시리즈에서 각 측정에 대해서, 상기 k-mer 상태의 참조 시리즈에서 맵핑된 k-mer 상태의 개별의 추정치를 포함할 수 있다. 상기 모델이 HMM인 예로서, 상기 정렬 맵핑의 추정치를 유도하기 위해 Viterbi 알고리즘의 사용에 의해서 상기가 수득될 수 있다.
다른 구현예에서, 상기 정렬 맵핑의 유도된 추정치는, 상기 시리즈에서 각 측정에 대해, 상기 k-mer 상태들의 참조 시리즈에서 다르게 맵핑된 k-mer 상태들에 대한 가중을 포함할 수 있다. 상기 모델이 HMM인 예로서, 상기 정렬 맵핑의 추정치를 유도하기 위해 Forwards-Backwards 알고리즘의 사용에 의해서 상기가 수득될 수 있다.
임의로, 상기 방법은 상기 정렬 맵핑의 추정치가 정확한지에 대한 가능성을 나타내는 점수를 유도하는 단계를 더 포함할 수 있다. 상기 점수는 측정되는 폴리머와 폴리머 유닛의 참조 서열의 유사도의 척도를 제공한다. 이는 참조 서열과 비교하여 측정되는 상기 폴리머의 동일성에 대한 정보를 제공함으로써 광범위한 응용분야에서 유용할 수 있다.
몇가지 경우에서, 상기 점수가 상기 모델의 적용으로부터 직접 유도될 수 있다. 상기의 예로는 상기 모델이 HMM이고, 또한 상기 Viterbi 알고리즘이 적용되는 경우이다.
상기 정렬 맵핑의 유도된 추정치는, 상기 시리즈에서 각 측정에 대해, 상기 k-mer 상태의 참조 시리즈에서 다르게 맵핑된 k-mer 상태에 대한 가중을 포함할 수 있는 다른 경우에, 상기 점수가 상기 가중 자체로부터 유도될 수 있다.
상기 참조 모델의 소스 (source)는 상기 응용분야에 따라 다양할 수 있다.
일부 적용에서, 상기 폴리머 유닛의 참조 서열로부터 얻어진 측정으로부터 또는 상기 폴리머 유닛의 참조 서열로부터 이전에 생성되어진 참조 모델이 사전에 저장될 수 있다.
다른 적용에서, 상기 참조 모델이 예를 들면 하기와 같이 방법이 수행될 때에 생성될 수 있다.
제1 예에서, 상기 참조 모델이 폴리머 유닛의 상기 참조 서열로부터 생성될 수 있다. 이는 상기 참조 서열이 예를 들어 라이브러리 (library) 또는 초기 실험으로부터 알려져 있는 응용분야에서 유용하다.
상기 경우에, 상기 참조 모델의 생성이 k-mer 상태의 가능한 형태의 세트에 대해 저장된 방출 가중을 사용하여 수행될 수 있다. 유익하게, k-mer 상태의 가능한 형태에 대한 방출 가중과 관련하여 저장된 데이터만 기반하여, 상기는 폴리머 유닛의 임의의 참조 서열에 대한 참조 모델을 생성시킨다.
예를 들면, 상기 참조 모델이 하기를 포함하는 방법에 의해서 생성될 수 있다: 폴리머 유닛의 용인된 참조 서열에 해당하는 상기 k-mer 상태의 시리즈를 유도하는 단계; 및 상기 k-mer 상태의 유도된 시리즈에서 상기 k-mer 상태들 사이의 전이에 대한 전이 가중을 생성시키고, 또한 상기 k-mer 상태의 형태에 따라 상기 저장된 방출 가중으로부터 상기 유도된 시리즈에서 각 k-mer 상태에 대한 방출 가중을 선택함으로써 상기 참조 모델을 생성시키는 단계.
제2 예에서, 상기 폴리머 유닛의 참조 서열을 포함하는 폴리머의 참조 측정의 시리즈로부터 상기 참조 모델이 생성될 수 있다. 이는 예를 들면 상기 폴리머 유닛의 참조 서열이 상기 표적 폴리머로 동시에 측정되는 경우의 응용분야에서 유용하다. 특히, 상기 예에서, 상기 참조 서열에서 상기 폴리머 유닛의 동일성 자체가 알려져 있을 필요는 없다.
예를 들면, 다른 가능한 형태의 k-mer 상태들의 부가의 시리즈의 관측으로서 상기 일련의 참조 측정들을 처리하는 부가의 모델을 사용하는 방법에 의해서 상기 참조 모델이 생성될 수 있으며, 상기 부가의 모델은: 상기 k-mer 상태의 부가의 시리즈에서 연속적인 k-mer 상태들 사이의 각 전이에 대해, 상기 k-mer 상태의 가능한 형태들 사이에 가능한 전이에 대한 전이 가중; 및 k-mer 상태의 각 형태에 대해, 상기 k-mer 상태가 상기 형태를 가질 때 관측되는 다른 측정에 대한 방출 가중을 포함한다. 이러한 부가의 모델은 본질적으로 WO-2013/041878에 개시된 형태의 모델일 수 있다. 상기 경우에, 상기 참조 모델이 하기를 포함하는 방법에 의해서 생성될 수 있다: 상기 일련의 참조 측정에 상기 부가의 모델을 적용시킴으로써 상기 k-mer 상태의 추정치의 참조 시리즈를 생성시키는 단계; 및 상기 k-mer 상태의 추정치의 생성된 참조 시리즈에서 상기 k-mer 상태들 사이의 전이에 대한 전이 가중을 생성시키고, 또한 상기 k-mer 상태의 형태에 따른 상기 부가의 모델의 가중으로부터 추정치의 상기 생성된 참조 시리즈에서 각 k-mer 상태에 대한 방출 가중을 선택함으로써 상기 참조 모델을 생성시키는 단계.
상기 모델의 생성은, 방출 가중 및 전이 가중과 같은 수학적 모델의 알려져 있지 않은 파라미터를 찾기 위해서, k-mer 상태들의 시리즈의 많은 수집을 관측하여 유도된 참조 측정의 많은 수집을 조사하는 모델 트레이닝 (model training)의 더 큰 프레임워크 (framework)의 일부일 수 있다. 통상적으로, 상기 EM (expectation-maximisation) 알고리즘이, 상기 모델이 잠재 (감춰진) 변수를 포함할 때 최대 가능한 추정치를 찾기 위해서 사용될 수 있다. HMMs의 특정 경우에, Baum-Welch 알고리즘이 사용될 수 있다. 이러한 알고리즘이 반복되며; 처음의 추측 (guesses)이 상기 모델의 파라미터에 대해 만들어지고, 트레이닝 측정 (training measurements)의 세트를 조사함으로써 업데이트가 적용된다. 제2 별개의 측정의 세트로 상기 결과의 HMM의 적용으로 향상된 결과를 수득할 것이다 (상기 제2 세트가 상기 트레이닝 데이터와 동일한 모델에 의해서 서술될 수 있다고 추정함).
본 발명의 부가의 양태에 따르면, 본 발명의 제4 양태에 따른 방법을 구현할 수 있는 컴퓨터 프로그램 (computer program) 및 본 발명의 제4 양태에 따른 방법을 구현하는 분석 시스템이 제공된다.
더 잘 이해하기 위해서, 본 발명의 구현예가 첨부된 도면을 참고로 비제한적인 예에 의해서 서술될 것이다.
도 1은 생화학적 분석 시스템의 개략도이고;
도 2는 상기 시스템의 센서 장치의 단면도이며;
도 3은 상기 센서 장치의 센서 요소의 개략도이고;
도 4는 측정 시스템에 의해서 경시적으로 측정된 사건의 신호의 그래프이며;
도 5는 제1 배열에서 상기 시스템의 전자 회로의 다이아그램이고;
도 6은 제2 배열에서 상기 시스템의 전자 회로의 다이아그램이며;
도 7은 폴리머를 분석하기 위해 상기 생화학적 분석 시스템을 조절하는 방법의 흐름도이고;
도 8은 상태 검출 단계의 흐름도이며;
도 9는 상기 상태 검출 단계의 예의 상세한 흐름도이고;
도 10은 상기 상태 검출 단계 및 상기 결과의 일련의 측정에 종속되는 일련의 원 측정 (raw measurements)의 그래프이며;
도 11은 폴리머를 분석하기 위해 상기 생화학적 분석 시스템을 조절하는 대안의 방법의 흐름도이고;
도 12는 폴리머를 선별하기 위해 상기 생화학적 분석 시스템을 조절하는 방법의 흐름도이며;
도 13 내지 16은 다른 형태의 참조 데이터를 분석하기 위한 다른 방법의 흐름도이고;
도 17은 k-mer 상태의 참조 시리즈의 예의 상태 다이아그램이며;
도 18은 상기 k-mer 상태들 사이의 전이의 가능한 형태를 나타내는 k-mer 상태들의 참조 시리즈의 상태 다이아그램이고;
도 19는 참조 모델을 생성하기 위한 제1 방법의 흐름도이며;
도 20은 참조 모델을 생성하기 위한 제2 방법의 흐름도이고;
도 21은 정렬 맵핑을 추정하는 방법의 흐름도이며; 또한
도 22는 정렬 맵핑의 다이아그램이다.
다수의 뉴클레오티드 및 아미노산 서열들이 개시된 구현예에서 사용될 수 있다. 특히:
서열번호: 1은 상기 포어 MS-(B1)8 (= MS-(D90N/D91N/D93N/D118R/D134R/E139K)8)을 인코딩하는 뉴클레오티드 서열이고;
서열번호: 2는 상기 포어 MS-(B1)8 (= MS-(D90N/D91N/D93N/D118R/D134R/E139K)8)을 인코딩하는 아미노산 서열이며;
서열번호: 3은 상기 포어 MS-(B2)8 (=MS-(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8)을 인코딩하는 뉴클레오티드 서열이고;
서열번호: 4는 상기 포어 MS-(B2)8 (= MS-(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8)을 인코딩하는 아미노산 서열이다. 상기 B2의 아미노산 서열은 돌연변이 (mutation) L88N을 제외하고 B1의 아미노산 서열과 동일하며;
서열번호: 5는 바람직한 폴리뉴클레오티드 핸들링 효소 (handling enzyme)인 야생형 (wild type) 이. 콜리 (E. coli) 엑소뉴클레아제 (Exonuclease) I (WT EcoExo I)에 대한 서열이고;
서열번호: 6은 바람직한 폴리뉴클레오티드 핸들링 효소인 이. 콜리 엑소뉴클레아제 III에 대한 서열이며;
서열번호: 7은 바람직한 폴리뉴클레오티드 핸들링 효소인 티. 서모필루스 (T. thermophilus) RecJ에 대한 서열이고;
서열번호: 8은 바람직한 폴리뉴클레오티드 핸들링 효소인 박테리오파아지 람다 (bacteriophage lambda) 엑소뉴클레아제에 대한 서열이며;
서열번호: 9는 바람직한 폴리뉴클레오티드 핸들링 효소인 Phi29 DNA 폴리머라제에 대한 서열이다.
하기에 개시된 다양한 특성은 예이고, 이에 한정되지 않는다. 또한 개시된 특성들이 함께 적용될 필요는 없고, 임의의 조합으로 적용될 수 있다.
본 발명에 적용될 수 있는 폴리머의 특성에 대해서 먼저 서술할 것이다.
상기 폴리머는 폴리머 유닛의 서열을 포함한다. 각 주어진 폴리머 유닛은 상기 폴리머의 특성에 따라서 다른 형태 (또는 동일물)를 가질 수 있다.
상기 폴리머는 폴리뉴클레오티드 (또는 핵산), 폴리펩티드, 예컨대 단백질, 폴리사카리드, 또는 임의의 다른 폴리머일 수 있다. 상기 폴리머는 천연 또는 합성일 수 있다. 상기 폴리머 유닛은 뉴클레오티드일 수 있다. 상기 뉴클레오티드는 다른 뉴클레오베이스를 포함하는 다른 형태를 가질 수 있다.
상기 폴리뉴클레오티드는 데옥시리보핵산 (DNA), 리보핵산 (RNA), cDNA 또는 당분야에 알려져 있는 합성 핵산, 예컨대 펩티드 핵산 (peptide nucleic acid: PNA), 글리세롤 핵산 (glycerol nucleic acid: GNA), 트레오스 핵산 (threose nucleic acid: TNA), 잠금 핵산 (locked nucleic acid: LNA) 또는 뉴클레오티드 곁사슬을 갖는 기타 합성 폴리머일 수 있다. 상기 폴리뉴클레오티드는 단일-가닥 또는 이중-가닥일 수 있거나, 또는 단일-가닥 및 이중-가닥 영역 둘 다를 포함할 수 있다. 통상적으로, cDNA, RNA, GNA, TNA 또는 LNA는 단일 가닥이다.
상기 뉴클레오티드는 임의의 형태를 가질 수 있다. 상기 뉴클레오티드는 자연적으로 발생하거나 또는 인위적일 수 있다. 뉴클레오티드는 통상적으로 뉴클레오베이스 (본원에서, "염기 (base)"로 약칭할 수 있음), 당 (sugar) 및 적어도 하나의 포스페이트기를 포함한다. 상기 뉴클레오베이스는 통상적으로 이종고리이다. 적당한 뉴클레오베이스는 퓨린 및 피리미딘, 특히 아데닌, 구아닌, 티민, 우라실 및 시토신을 포함한다. 상기 당은 통상적으로 5탄당 (pentose sugar)이다. 적당한 당으로는 이에 한정되는 것은 아니지만, 리보스 (ribose) 및 데옥시리보스 (deoxyribose)를 포함한다. 상기 뉴클레오티드는 통상적으로 리보뉴클레오티드 또는 데옥시리보뉴클레오티드이다. 상기 뉴클레오티드는 통상적으로 모노포스페이트, 디포스페이트 또는 트리포스페이트를 포함한다.
상기 뉴클레오티드는 손상된 (damaged) 또는 후성적 (epigenetic) 염기를 포함할 수 있다. 상기 뉴클레오티드는 별개의 신호를 갖는 마커 (marker)로서 작용하기 위해서 표지되거나 (labelled) 또는 변형될 (modified) 수 있다. 상기 기술이 염기의 부재, 예를 들면 상기 폴리뉴클레오티드 중 비염기성 (abasic) 유닛 또는 스페이서 (spacer)를 확인하기 위해서 사용될 수 있다.
변형되거나 또는 손상된 DNA (또는 유사한 시스템)의 측정을 고려될 때 상보적 데이터가 고려되는 방법이 특히 유용하다. 상기 제공된 부가의 정보는 다수의 기초 상태들을 구별할 수 있다.
상기 폴리머는 또한 폴리뉴클레오티드 이외의 폴리머의 형태를 가질 수 있으며, 일부 비제한적인 예가 하기에 개시되었다.
상기 폴리머는 폴리펩티드일 수 있고, 이 경우에 상기 폴리머 유닛은 자연 발생되거나 또는 합성인 아미노산일 수 있다.
상기 폴리머는 폴리사카리드일 수 있고, 이 경우에 상기 폴리머 유닛은 모노사카리드일 수 있다.
특히 상기 생화학적 분석 시스템(1)은 나노포어를 포함하고, 상기 폴리머는 폴리뉴클레오티드를 포함하는 경우, 상기 폴리뉴클레오티드는 장쇄, 예를 들어 적어도 5kB (kilo-bases), 즉 적어도 5,000개의 뉴클레오티드, 또는 적어도 30kB, 즉 적어도 30,000개의 뉴클레오티드일 수 있다.
본원에서, 용어 'k-mer'는 k-폴리머 유닛의 그룹을 나타내고, 여기서 k는 양의 정수이고, k가 1인 경우에, 상기 k-mer는 단일 폴리머 유닛이다. 일부 문맥에서, k가 복수의 정수인 k-mers를 나타내고, 일반적으로 k가 1인 경우를 제외하는 k-mers의 서브세트 (subset)이다.
그러므로 각 주어진 k-mer는, 상기 k-mer의 각 폴리머 유닛의 다른 형태의 다른 조합에 해당하는, 다른 형태를 또한 가질 수 있다.
도 1은 폴리머를 분석하기 위한 생화학적 분석 시스템(1)을 나타내고, 이는 또한 폴리머를 선별하는데 사용될 수 있다. 도 1에 도시된 바와 같이, 상기 생화학적 분석 시스템(1)은 차례로 데이터 프로세서(6)에 연결되는 전자 회로(4)에 연결되는 센서 장치(2)를 포함한다.
상기 센서 장치(2)는 센서 요소의 어레이를 포함하고, 각각은 생물학적 나노포어를 포함하는 몇가지 예가 먼저 서술될 것이다.
제1 형태에서, 상기 센서 장치(2)는 도 2에서 단면도로 도시되는 바와 같이 바디(20)를 포함하는 구조를 가질 수 있고, 상기에 웰 (wells, 21)의 어레이가 형성되고, 각 웰에는 그 안에 배열된 센서 전극(22)을 갖는 오목부가 있다. 상기 시스템(1)의 데이터 수집 속도를 최적화하기 위해서 다수의 웰(21)이 제공된다. 일반적으로, 도 2에서는 단지 몇개의 웰(21)만 도시되었지만, 임의의 수의 웰(21), 통상적으로 256 또는 1024개가 있을 수 있다. 상기 바디(20)가 상기 바디(20)위에 연장되는 커버(23)에 의해서 커버되고, 상기 각 웰(21)이 개방되면 시료 챔버(24)를 한정하기 위한 중공 (hollow)이 있다. 공통 전극 (common electrode, 25)이 상기 시료 챔버(24)내 배치된다. 상기 제1 형태에서, 상기 센서 장치(2)는 WO-2009/077734에 더 상세하게 개시된 바와 같은 장치일 수 있으며, 이는 상기 생화학적 분석 시스템(1)에 적용될 수 있고, 본원에 참조로 포함된다.
제2 형태에서, 상기 센서 장치(2)는 WO-2014/064443에 상세하게 개시된 바와 같은 구조를 가질 수 있고, 이는 상기 생화학적 분석 시스템(1)에 적용될 수 있으며, 본원에 참조로 포함된다. 상기 제2 형태에서, 상기 센서 장치(2)는 일반적으로 상기 제1 형태와 유사한 형태를 가지며, 상기는 더 복잡한 구조를 가졌고, 각각은 센서 전극(22)을 포함함에도 불구하고, 상기 웰(21)과 일반적으로 유사한 구획 (compartments)의 어레이를 포함한다.
상기 수집 챔버로부터 시료의 수집을 가능하게 하기 위해서, 상기 수집 챔버(21)는 그 안에 포함된 상기 시료를 노출시키기 위해서 상기 기저의 개별 전극(22)으로부터 탈착가능하도록 상기 센서 장치가 구성될 수 있다. 이러한 장치 구성이 GB 특허 출원 제1418512.8호에 상세하게 개시되었다.
상기 센서 장치(2)가 센서 요소(30)의 어레이를 형성하도록 제조되고, 그 중 하나가 도 3에 도식적으로 개시되었다. 상기 센서 장치(2)의 제1 형태에서 각 웰(21) 전체 또는 상기 센서 장치(2)의 제2 형태에서 각 구획 전체에 멤브레인(31)을 형성하고, 그 후 포어(32)를 상기 멤브레인(31)으로 삽입함으로써 각 센서 요소(30)가 만들어진다. 상기 멤브레인(31)은 상기 시료 챔버(24)로부터 상기 각 웰(21)을 밀봉한다. 상기 멤브레인(31)이 액체와 같이 양친성 분자 (amphiphilic molecules)로 만들어질 수 있다.
상기 포어(32)는 생물학적 나노포어이다. 상기 포어(32)는 상기 시료 챔버(24)와 상기 웰(21) 사이를 공지된 방식으로 연결한다.
WO-2009/077734에서 상세하게 개시된 기술 및 재료를 사용하는 상기 센서 장서(2)의 제1 형태 또는 WO-2014/064443에서 상세하게 개시된 기술 및 재료를 사용하는 상기 센서 장치(2)의 제2 형태에 대해서 상기 제조가 수행될 수 있다.
각 센서 요소(30)에 대한 상기 센서 전극(22) 및 상기 공통 전극(25)을 사용하여, 상기 포어(32)를 통한 상기 폴리머(33)의 이송 중에 폴리머로부터 전기적 측정을 얻도록 각 센서 요소(30)가 작동될 수 있다. 상기 포어(32)를 통한 상기 폴리머(33)의 이송은 관측될 수 있는, 상기 측정된 특성에서 특징적인 신호를 생성하고, 이는 전체적으로 "사건"이라고 할 수 있다.
본 예에서, 상기 포어(32)는 생물학적 포어이고, 하기 특성을 가질 수 있다.
상기 생물학적 포어는 트랜스멤브레인 단백질 포어 (transmembrane protein pore)일 수 있다. 본원에 개시된 방법에 사용하기 위한 트랜스멤브레인 단백질 포어가 β-배럴 포어 (barrel pores) 또는 α-나선 번들 포어 (helix bundle pores)로부터 유도될 수 있다. β-배럴 포어는 β-가닥으로부터 형성된 배럴 (barrel) 또는 채널 (channel)을 포함한다. 적당한 β-배럴 포어는, 이에 한정되는 것은 아니지만 β-독소 (toxins), 예컨대 α-헤모리신 (hemolysin), 탄저 독소 (anthrax toxin) 및 류코시딘 (leukocidins), 및 박테리아의 외부막 단백질 (outer membrane proteins)/포린 (porins), 예컨대, 미코박테리움 스메그마티스 포린 (Mycobacterium smegmatis porin: Msp), 예를 들어 MspA, 외부막 포린 F (outer membrane porin F: OmpF), 외부막 포린 G (outer membrane porin G: OmpG), 외부막 포스포리파제 A (outer membrane phospholipase A) 및 니세리아 오토트랜스포터 리포프로테인 (Neisseria autotransporter lipoprotein: NalP)을 포함한다. α-나선 번들 코어는 α-나선으로부터 형성된 배럴 및 채널을 포함한다. 적당한 α-나선 번들 코어는, 이에 한정되는 것은 아니지만, 내부막 단백질 및 α 외부막 단백질, 예컨대 WZA 및 ClyA 독소를 포함한다. 상기 트랜스멤브레인 포어는 Msp 또는 α-헤모리신 (α-hemolysin: α-HL)으로부터 유도될 수 있다.
적당한 트랜스멤브레인 단백질 포어가 Msp, 바람직하게 MspA로부터 유도될 수 있다. 이러한 포어는 올리고머일 것이고, 통상적으로 Msp로부터 유도되는 7, 8, 9 또는 10개의 모노머를 포함한다. 상기 포어는 동일한 모노머를 포함하는 Msp로부터 유도되는 호모-올리고머 포어 (homo-oligomeric pore)일 수 있다. 대안으로서, 상기 포어는 서로 다른 적어도 하나의 모노머를 포함하는 Msp로부터 유도된 헤테로-올리고머 포어일 수 있다. 상기 포어는 또한 Msp로부터 유도된 2 이상의 공유결합으로 부착된 모노머를 포함하는 1 이상의 구조를 포함할 수 있다. 적당한 포어가 WO-2012/107778에 개시되었다. 상기 포어가 MspA 또는 그 상동체 (homolog) 또는 패럴로그 (paralog)로부터 유도될 수 있다.
상기 생물학적 포어는 자연적으로 발생된 포어일 수 있거나, 또는 돌연변이체 포어 (mutant pore)일 수 있다. 통상적인 포어가 WO-2010/109197, Stoddart D et al., Proc Natl Acad Sci, 12;106(19):7702-7, Stoddart D et al., Angew Chem Int Ed Engl. 2010;49(3):556-9, Stoddart D et al., Nano Lett. 2010 Sep 8;10(9):3633-7, Butler TZ et al., Proc Natl Acad Sci 2008;105(52):20647-52, 및 WO-2012/107778에 개시되었다.
상기 생물학적 포어는 MS-(B1)8일 수 있다. B1을 인코딩하는 상기 뉴클레오티드 서열 및 B1의 아미노산 서열은 서열번호: 1 및 서열번호: 2이다.
상기 생물학적 포어는 더 바람직하게는 MS-(B2)8이다. B2의 아미노산 서열은 돌연변이 L88N을 제외하고 B1의 아미노산 서열과 동일하다. B2를 인코딩하는 뉴클레오티드 서열 및 B2의 아미노산 서열은 서열번호: 3 및 서열번호: 4이다.
상기 생물학적 포어가 멤브레인, 예컨대 양친성 층 (amphiphilic layer), 예를 들어 지질 2중층 (lipid bilayer)으로 삽입될 수 있다. 양친성 층은, 친수성과 친지성 둘 다를 갖는, 양친성 분자, 예컨대 포스포리피드로부터 형성된 층이다. 상기 양친성 층은 단일층 또는 이중층일 수 있다. 상기 양친성 층은 코-블록 폴리머 (co-block polymer), 예컨대 (Gonzalez-Perez et al., Langmuir, 2009, 25, 10447-10450) 또는 PCT/GB2013/052767, WO2014/064444로 공개된 것에 개시된 것일 수 있다. 대안으로서, 생물학적 포어가 고체 상태 층으로 삽입될 수 있다.
상기 포어(32)는 나노포어의 예이다. 더 일반적으로, 상기 센서 장치(2)는, 나노포어를 통한 상기 폴리머의 이송 중에 폴리머로부터 측정을 얻도록 작동될 수 있는 적어도 하나의 센서 요소(30)를 포함하는 임의의 형태를 가질 수 있다.
나노포어는 통상적으로 나노미터의 크기를 가지며, 이를 폴리머가 관통할 수 있는 포어이다. 상기 포어를 통해 이송되는 폴리머 유닛에 의존하는 특성이 측정될 수 있다. 상기 특성은, 상기 폴리머와 상기 나노포어 사이의 상호작용과 관련이 있을 수 있다. 상기 폴리머의 상호작용은 상기 나노포어의 제한된 영역에서 발생할 수 있다. 상기 생화학적 분석 시스템(1)은 상기 특성을 측정하여, 상기 폴리머의 상기 폴리머 유닛에 의존하는 측정을 생성한다.
대안으로서, 상기 나노포어는 고체 상태 층에 형성된 구멍 (aperture)을 포함하는 고체 상태 포어일 수 있다. 상기 경우에, 하기 특성을 가질 수 있다.
이러한 고체 상태 층은 통상적으로 생물학적 기원 (biological origin)이 아닐 수 있다. 즉, 고체 상태 층은 통상적으로 생물학적 환경, 예컨대 생물체 또는 세포, 또는 생물학적으로 이용가능한 구조의 합성으로 제조된 버젼으로부터 유래되거나 또는 분리되지 않는다. 고체 상태 층이, 이에 한정되는 것은 아니지만 미세전자 물질 (microelectronic materials), 절연 물질 (insulating materials), 예컨대 Si3N4, A1203, 및 SiO, 유기 및 무기 폴리머, 예컨대 폴리아미드, 플라스틱, 예컨대 Teflon® 또는 엘라스토머, 예컨대 2성분 부가-경화 실리콘 고무 (two-component addition-cure silicone rubber) 및 유리를 포함하는, 유기 및 무기 물질 둘 다로부터 형성될 수 있다. 상기 고체 상태 층이 그래핀 (graphene)으로부터 형성될 수 있다. 적당한 그래핀 층이 WO-2009/035647 및 WO-2011/046706에 개시되었다.
상기 고체 상태 포어가, 고체 상태 층에 구멍이 있는 경우, 상기 구멍은 나노포어로서 그 특성을 향상시키기 위해 화학적으로 변형될 수 있다.
고체 상태 포어가, 터널링 전극 (tunnelling electrodes) (Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85), 또는 전계 효과 트랜지스터 (field effect transistor: FET) 장치 (WO-2005/124888)와 같이 상기 폴리머의 대안 또는 부가의 측정을 제공하는 부가의 성분과 조합하여 사용될 수 있다. 적당한 고체 상태 포어는 예를 들면 WO-00/79257에 개시된 것을 포함하는 알려진 방법에 의해 형성될 수 있다.
도 1에 개시된 상기 생화학적 분석 시스템(1)의 예에서, 상기 측정은 전기적 측정, 특히 상기 포어(32)를 통해 흐르는 이온 전류의 전류 측정이다. 일반적으로, 상기 및 기타 전기적 측정은 Stoddart D et al., Proc Natl Acad Sci, 12;106(19):7702-7, Lieberman KR et al, J Am Chem Soc. 2010;132(50):17961-72, 및 WO-2000/28312에 개시된 바와 같은 표준 단일 채널 기록 장비 (standard single channel recording equipment)를 사용하여 만들어질 수 있다. 대안으로서, 전기적 측정은 예를 들어 WO-2009/077734 및 WO-2011/067559에 개시된 바와 같은 다-채널 시스템 (multi-channel system)을 사용하여 만들어질 수 있다.
상기 폴리머가 상기 포어(32)를 통해 이송될 때 측정이 얻어지도록 하기 위해서, 상기 이송 속도가 폴리머 결합 모이어티 (polymer binding moiety)에 의해서 조절될 수 있다. 통상적으로, 상기 모이어티는, 적용된 전기장 방향 또는 그의 반대 방향으로 상기 포어(32)를 통해 상기 폴리머를 이동시킬 수 있다. 상기 모이어티는, 예를 들면, 상기 모이어티가 효소인 경우에 효소 활성을 사용하는 분자 모터 (molecular motor), 또는 분자 브레이크 (molecular brake)일 수 있다. 상기 폴리머가 폴리뉴클레오티드인 경우에, 폴리뉴클레오티드 결합 효소의 사용을 포함하는 이송율을 조절하기 위해 수많은 방법이 제시되었다. 상기 폴리뉴클레오티드의 이송율을 조절하기 위한 적당한 효소는 이에 한정되는 것은 아니지만, 폴리머라제, 헬리카제 (helicases), 엑소뉴클레아제 (exonucleases), 단일 가닥 및 이중 가닥 결합 단백질, 및 토포이소머라제 (topoisomerases), 예컨대 자이라제 (gyrases)를 포함한다. 다른 폴리머 형태에 있어서, 상기 폴리머 형태과 상호작용하는 모이어티가 사용될 수 있다. 상기 모이어티와 상호작용하는 폴리머가 WO-2010/086603, WO-2012/107778, 및 Lieberman KR et al, J Am Chem Soc. 2010;132(50):17961-72), 및 전압 작동 통로 도식도 (voltage gated schemes) (Luan B et al., Phys Rev Lett. 2010;104(23):238103)에 개시된 임의의 것일 수 있다.
폴리머 결합 모이어티가 상기 폴리머 이동을 조절하기 위한 다수의 방법에서 사용될 수 있다. 상기 모이어티가 적용된 전기장 방향 또는 그의 반대 방향으로 상기 포어(32)를 통해 상기 폴리머를 이동시킬 수 있다. 상기 모이어티는, 예를 들면 상기 모이어티가 효소인 경우에 효소 활성을 사용하는 분자 모터로서, 또는 분자 브레이크로서 사용될 수 있다. 상기 포어를 통해서 상기 폴리머의 이동을 조절하는 분자 래칫 (molecular ratchet)에 의해서 상기 폴리머의 이송이 조절될 수 있다. 상기 분자 래칫은 폴리머 결합 단백질일 수 있다.
폴리뉴클레오티드에 있어서, 상기 폴리뉴클레오티드 결합 단백질은 바람직하게 폴리뉴클레오티드 핸들링 효소이다. 폴리뉴클레오티드 핸들링 효소는, 폴리뉴클레오티드의 적어도 하나의 특성과 상호작용하고, 또한 이를 변형시킬 수 있는 폴리펩티드이다. 상기 효소는 폴리뉴클레오티드를 절단하여, 개별의 뉴클레오티드 또는 뉴클레오티드의 더 짧은 사슬, 예컨대 디뉴클레오티드 또는 트리뉴클레오티드를 형성시킴으로써 상기 폴리뉴클레오티드를 변형시킬 수 있다. 상기 효소는 폴리뉴클레오티드를 배향시키거나 또는 이를 특정 위치로 이동시킴으로써 상기 폴리뉴클레오티드를 변형시킬 수 있다. 상기 폴리뉴클레오티드 핸들링 효소는, 상기 표적 폴리뉴클레오티드를 결합시키고, 또한 상기 포어를 통한 그 이동을 조절할 수 있는 한, 효소적 활성을 나타낼 필요는 없다. 예를 들어, 상기 효소는 그 효소적 활성이 제거되도록 변형될 수 있거나 또는 효소로 작용하는 것을 방지하는 조건하에서 사용될 수 있다. 상기 조건이 하기에 더 상세하게 토의된다.
상기 폴리뉴클레오티드 핸들링 효소가 뉴클레오리틱 효소 (nucleolytic enzyme)로부터 유도될 수 있다. 상기 효소의 구조에 사용되는 상기 폴리뉴클레오티드 핸들링 효소는 더 바람직하게는 효소 분류 (Enzyme Classification: EC) 그룹들 3.1.11, 3.1.13, 3.1.14, 3.1.15, 3.1.16, 3.1.21, 3.1.22, 3.1.25, 3.1.26, 3.1.27, 3.1.30 및 3.1.31의 임의의 구성원으로부터 유도된다. 상기 효소는 WO-2010/086603에 개시된 것들 중 임의의 것일 수 있다.
바람직한 효소는 폴리머라제, 엑소뉴클레아제, 헬리카제 및 토포이소머라제, 예컨대 자이라제이다. 적당한 효소는, 이에 한정되는 것은 아니지만, 이. 콜리로부터의 엑소뉴클레아제 I (서열번호: 5), 이. 콜리로부터의 엑소뉴클레아제 III 효소 (서열번호: 6), 티. 서모필루스로부터의 RecJ (서열번호: 7) 및 박테리오파아지 람다 엑소뉴클레아제 (서열번호: 8) 및 그 변이체를 포함한다. 서열번호: 8에 개시된 서열을 포함하는 3개의 서브유닛 또는 그 변이체가 상호작용하여 트리머 엑소뉴클레아제 (trimer exonuclease)를 형성한다. 상기 효소는 바람직하게 Phi29 DNA 폴리머라제로부터 유도된다. Phi29 폴리머라제로부터 유도된 효소는 서열번호: 9에 개시된 서열 및 그 변이체를 포함한다.
서열번호: 5, 6, 7, 8 또는 9의 변이체는 서열번호: 5, 6, 7, 8 또는 9의 서열로부터 변형되고, 또한 폴리뉴클레오티드 결합 능력을 보유하는 아미노산 서열을 갖는 효소이다. 상기 변이체는 상기 폴리뉴클레오티드의 결합을 가능하게 하고 및/또는 높은 염 농도 및/또는 실온에서 그 활성을 가능하게 하는 변형을 포함할 수 있다.
서열번호: 5, 6, 7, 8 또는 9의 아미노산 서열의 전체 길이에 대해서, 변이체는 바람직하게 아미노산 동일성에 기반하여 상기 서열에 대해 적어도 50%의 상동성을 가질 것이다. 더 바람직하게, 상기 변이체 폴리펩티드는 전체 서열에 대해서 서열번호: 5, 6, 7, 8 또는 9의 아미노산 서열에 대한 아미노산 동일성에 기반하여 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 및 더 바람직하게 적어도 95%, 97% 또는 99%의 상동성일 수 있다. 200 이상, 예를 들어 230, 250, 270 또는 280 이상의 인접하는 (contiguous) 아미노산의 신축 (stretch)에 대해서 적어도 80%, 예를 들어 적어도 85%, 90% 또는 95%의 아미노산 동일성일 수 있다 ("강한 상동성 (hard homology)"). 상동성 (homology)이 전술한 바와 같이 결정된다. 상기 변이체는 서열번호: 2를 참조로 한 전술한 방법 중 어느 것에서 상기 야생형 서열과 다를 수 있다. 상기 효소는 전술한 바와 같이 상기 포어에 공유결합으로 부착될 수 있다.
단일 가닥 DNA 시퀀싱에 대한 적당한 전략은 적용된 전위에 의해서 또는 이에 대항하여, 시스에서 트란스 (cis to trans) 및 트란스에서 시스 (trans to cis) 둘 다로 상기 포어(32)를 통한 DNA의 이송이다. 가닥 시퀀싱에 대한 가장 유익한 메카니즘은 적용된 전위하에 상기 포어(32)를 통한 단일 가닥 DNA의 조절된 이송이다. 이중 가닥 DNA에서 점진적으로 (progressively) 또는 진행적으로 (processively) 작용하는 엑소뉴클레아제가 적용된 전위 하에 남아 있는 단일 가닥을 공급하기 위해 상기 포어의 시스 측에서 사용될 수 있거나, 또는 반대 전위 하에 상기 트란스 측에서 사용될 수 있다. 마찬가지로, 상기 이중 가닥 DNA를 풀리게 하는 헬리카제가 또한 유사한 방식으로 사용될 수 있다. 적용된 전위에 대항하여 가닥 이송을 필요로 하는 시퀀싱 응용분야에 대한 가능성이 있지만, 그러나 역 전위 또는 전위가 없는 환경 하에 상기 DNA가 상기 효소에 의해서 먼저 "캐치 (caught)"되어야 한다. 그 후 상기 전위가 되돌아가면, 상기 가닥이 결합되어서 상기 포어를 통해서 시스에서 트란스로 통과되어서, 상기 전류 흐름에 의해 연장된 형태로 유지될 것이다. 상기 단일 가닥 DNA 엑소뉴클레아제 또는 단일 가닥 DNA 의존성 폴리머라제는, 상기 적용된 전위에 대항하여, 트란스에서 시스로, 조절된 단계적 방식 (controlled stepwise manner)으로 상기 포어를 통해 최근 이송된 단일 가닥을 뒤로 당기도록 분자 모터로서 작용할 수 있다. 대안으로서, 상기 단일 가닥 DNA 의존성 폴리머라제는 상기 포어를 통해 폴리뉴클레오티드의 이동을 늦추는 분자 브레이크로서 작용할 수 있다. WO-2012/107778 또는 WO-2012/033524에 개시된 임의의 모이어티, 기술 또는 효소가 폴리머 이동을 조절하기 위해서 사용될 수 있다.
일반적으로, 상기 측정이 상기 포어(32)를 통한 이온 전류 흐름의 전류 측정인 경우, 원칙적으로 AC 전류 흐름 (즉 AC 전압의 적용하에 AC 전류 흐름의 크기)을 사용하는 것이 대안임에도 불구하고, 상기 이온 전류는 통상적으로 DC 이온 전류일 수 있다.
상기 생화학적 분석 시스템(1)은 전술한 바와 같이 나노포어를 통한 이온 전류의 전류 측정 이외의 형태의 전기적 측정을 얻을 수 있다.
다른 가능한 전기적 측정은 하기를 포함한다: 전류 측정 (current measurements), 임피던스 측정 (impedance measurements), 터널링 측정 (tunnelling measurements) (예를 들어, Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85에 개시됨), 및 전계 효과 트랜지스터 (FET) 측정 (예를 들어, WO2005/124888에 개시됨).
전기적 측정에 대한 대안으로서, 상기 생화학적 분석 시스템(1)은 광학 측정 (optical measurements)을 얻을 수 있다. 형광 (fluorescence)의 측정을 포함하는 적당한 광학 방법이 J. Am. Chem. Soc. 2009, 131 1652-1653에 의해서 개시되었다.
상기 측정 시스템(8)은 전술한 바와 같이 나노포어를 통한 이온 전류의 전류 측정 이외의 형태의 전기적 측정을 얻을 수 있다. 가능한 전기적 측정은 하기를 포함한다: 전류 측정, 임피던스 측정, 터널링 측정 (예를 들면, Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85에 개시됨), 및 전계 효과 트랜지스터 (FET) 측정 (예를 들어, WO2005/124888에 개시됨).
광학 측정은 전기적 측정과 조합될 수 있다 (Soni GV et al., Rev Sci Instrum. 2010 Jan;81(1):014301).
상기 생화학적 분석 시스템(1)은 다른 특성들의 동시 측정을 얻을 수 있다. 상기 측정은 다른 물리적 특성의 측정이기 때문에 다른 특성을 가질 수 있으며, 이는 상기에 개시된 것들 중 임의의 것일 수 있다. 대안으로서, 상기 측정이 동일한 물리적 특성의 측정이지만, 그러나 다른 조건하에 예를 들면 다른 바이어스 전압하에 전류 측정과 같은 전기적 측정이기 때문에 다른 특성을 가질 수 있다.
일련의 원 측정(11)으로서 상기 센서 장치(2)의 다수의 형태에 의해 출력되는 신호의 통상적인 형태는 "노이지 스텝 웨이브 (noisy step waves)"이고, 상기 신호 형태에 한정되는 것은 아니다. 상기 형태를 갖는 일련의 원 측정(11)의 예가, 나노포어를 포함하는 측정 시스템(8)의 형태를 사용하여 얻어진 이온 전류 측정의 경우에 대해 도 4에 개시되었다.
통상적으로, 상기 생화학적 분석 시스템(1)에 의해서 얻어진 각 측정은, 폴리머 유닛의 각 서열의 k개의 폴리머 유닛인, k-mer에 의존하고, 여기서 k는 양의 정수이다. 이상적으로 상기 측정이 단일 폴리머 유닛 (즉, k가 1인 경우)에 의존함에도 불구하고, 상기 생화학적 분석 시스템(1)의 많은 형태에서, 각 측정은 복수의 폴리머 유닛의 k-mer에 의존한다 (즉, k는 복수의 정수임). 즉 각 측정은, k가 복수의 정수인 경우에 상기 k-mer에서 상기 폴리머 유닛의 각 서열에 의존한다.
상기 생화학적 분석 시스템(1)에 의해 얻어진 일련의 측정에서, 복수의 측정의 연속적인 그룹은 동일한 k-mer에 의존한다. 각 그룹에서 복수의 측정은 하기에 개시되는 몇가지 변수에 대해 일정한 값을 가지며, 그러므로 일련의 원 측정에서 "레벨 (level)"을 형성한다. 상기 레벨은 통상적으로 동일한 k-mer (또는 동일한 형태의 연속적인 k-mers)에 의존하는 측정에 의해서 형성될 수 있고, 그러므로 상기 생화학적 분석 시스템(1)의 공통 상태에 해당한다.
상기 신호가 한세트의 레벨 사이에서 이동하여, 큰 세트일 수 있다. 상기 장치의 샘플링 속도 (sampling rate) 및 상기 신호 상의 노이즈를 고려하여, 레벨들 사이의 전이가 즉각적으로 고려될 수 있으므로, 상기 신호가 이상적인 단계 추적 (step trace)으로 근사될 수 있다.
각 상태에 해당하는 측정은 상기 사건의 시간 규모에 대해 일정하지만, 대부분의 형태의 상기 생화학적 분석 시스템(1)에 있어서 단시간 규모에 대해서 가변될 것이다. 측정 노이즈, 예를 들면 전자 회로 및 신호 프로세싱, 특히 전기생리학의 특정 경우에서 증폭기 (amplifier)로부터 발생되는 측정 노이즈로부터 변동량 (Variance)이 기인될 수 있다. 이러한 측정 노이즈는 측정되는 특성의 작은 크기에 의해 필연적이다. 변동량은 또한 상기 생화학적 분석 시스템(1)의 기본 물리적 또는 생물학적 시스템에서 고유한 변동 (inherent variation) 또는 확산으로부터 기인될 수 있다. 상기 생화학적 분석 시스템(1)의 대부분의 형태는 이러한 고유한 변동을 더 많거나 또는 더 적은 정도로 경험할 것이다. 상기 생화학적 분석 시스템(1)의 임의의 주어진 형태에 있어서, 변동의 소스가 기여될 수 있거나 또는 상기 노이즈 소스들 중 하나가 우세할 수 있다.
또한, 통상적으로 상기 그룹에서 측정 수에 대한 사전 지식이 없으며, 이는 예측할 수 없게 가변한다.
변동량 및 측정 수에 대한 지식의 결여와 같은 2가지 요소는 상기 그룹의 일부를 구별하는 것을 어렵게 만들 수 있고, 예를 들어 상기 그룹은 짧고, 및/또는 2개의 연속적인 그룹의 측정의 레벨이 서로 가깝다.
상기 일련의 원 측정은 상기 생화학적 분석 시스템(1)에서 발생하는 물리적 또는 생물학적 프로세스의 결과로서 상기 형태를 얻을 수 있다. 그러므로, 일부 문맥에서, 측정의 각 그룹을 "상태 (state)"라고 할 수 있다.
예를 들면, 상기 생화학적 분석 시스템(1)의 일부 형태에서, 상기 포어(32)를 통한 상기 폴리머의 이송으로 구성된 사건은 래칫 방식 (ratcheted manner)으로 발생할 수 있다. 상기 래칫 이동의 각 단계 중에, 상기 포어(32) 전체에 주어진 전압에서 상기 나노포어를 통해 흐르는 이온 전류는 전술한 변동량에 따라서 일정하다. 그러므로, 각 측정 그룹은 상기 래칫 이동의 단계와 관련이 있다. 각 단계는 상기 폴리머가 상기 포어(32)에 대해 각 위치에 있는 상태에 해당한다. 비록 상태의 기간 중에 정확한 위치에서 약간의 변동이 있을 수 있을지라도, 상태들 사이에서 상기 폴리머의 큰 규모의 이동이 있다. 상기 생화학적 분석 시스템(1)의 특성에 따라서, 상기 상태들은 상기 나노포어에서 결합 사건의 결과로서 발생할 수 있다.
개별 상태의 기간은 다수의 요인, 예컨대 상기 포어 전체에 적용된 전위, 상기 폴리머를 래칫하기 위해 사용된 효소의 형태, 상기 효소에 의해서 상기 폴리머가 상기 포어를 통해 밀거나 또는 당겨지는지 여부, pH, 염 농도 및 존재하는 뉴클레오시드 트리포스페이트의 형태에 의존할 수 있다. 상태의 기간은 통상적으로 상기 생화학적 분석 시스템(1)에 따라서 0.5ms 내지 3s 사이로 가변할 수 있고, 임의의 주어진 나노포어 시스템에 있어서, 상태들 사이에서 어느 정도 무작위의 변동을 가질 수 있다. 기간들의 기대된 분포가 임의의 주어진 생화학적 분석 시스템(1)에 대해서 실험적으로 결정될 수 있다.
주어진 생화학적 분석 시스템(1)이 k-mers에 의존하는 측정을 제공하는 정도 및 상기 k-mer의 크기가 실험적으로 조사될 수 있다. 상기에 대한 가능한 접근법이 WO-2013/041878에 개시되었다.
상기 생화학적 분석 시스템(1)으로 복귀하는 것은 전술한 바와 같이 나노포어를 통한 이온 전류의 전류 측정 이외의 형태의 전기적 측정을 얻을 수 있다.
다른 가능한 전기적 측정은 하기를 포함한다: 전류 측정, 임피던스 측정, 터널링 측정 (예를 들어, Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85에 개시됨), 및 전계 트랜지스터 (FET) 측정 (예를 들어, WO2005/124888에 개시됨).
도 1을 참조하여, 상기 전자 회로(4)의 배열이 지금 토의될 것이다. 상기 전자 회로 (4)가 각 센서 요소(30)에 대해 상기 센서 전극(22) 및 상기 공통 전극(25)에 연결된다. 상기 전자 회로(4)는 WO 2011/067559에 개시된 전체 배열을 가질 수 있다. 상기 전자 회로(4)가 각 센서 요소(4) 전체에 바이어스 전압의 적용을 조절하고, 또한 각 센서 요소(3)로부터 측정을 얻도록 하기와 같이 배열된다.
상기 전자 회로(4)에 대한 제1 배열이 도 5에 도시되었고, 상기 도 5는 상기 센서 요소(30) 중 각 하나에 대해서 복제되는 단일 센서 요소(30)에 대한 성분들을 보여준다. 상기 제1 배열에서, 상기 전자 회로(4)는 검출 채널(40) 및 바이어스 조절 회로(41)를 포함하고, 각각은 상기 센서 요소(30)의 상기 센서 전극(22)에 연결된다.
상기 검출 채널(40)은 상기 센서 전극(22)으로부터 측정을 얻는다. 상기 검출 채널(40)이 상기 센서 전극으로부터 전기 신호를 증폭하도록 배열된다. 그러므로 상기 검출 채널(40)이, 관심있는 상호작용에 의해서 유발되는 특징적인 변화를 검출하기 위한 충분한 해상도로 매우 작은 전류를 증폭시키도록 고안된다. 상기 검출 채널(40)이 또한, 각 이러한 상호작용을 검출하기 위해서 필요한 시간 해상도를 제공하기 위해 충분히 높은 대역폭 (bandwidth)을 갖도록 고안된다. 그러므로 이러한 제약 (constraints)은 감도 및 고가의 성분들을 필요로 한다. 특히, 상기 검출 채널(40)이 WO-2010/122293 또는 WO 2011/067559에 상세하게 개시된 바와 같이 배열될 수 있고, 각각이 참조되었고, 참고로 본원에 포함된다.
상기 바이어스 조절 회로(4)가 상기 검출 채널(40)의 입력에 대해 상기 센서 전극(20)을 바이어스하기 위해서 상기 센서 전극(22)에 바이어스 전압을 공급한다.
정상 작업 (normal operation) 중에, 상기 바이어스 조절 회로(41)에 의해서 공급된 바이어스 전압이 상기 포어(32)를 통해 폴리머를 이송할 수 있도록 선택된다. 이러한 바이어스 전압은 통상적으로 최대 -200 mV의 레벨을 갖는다.
상기 바이어스 조절 회로(41)에 의해서 공급된 바이어스 전압이 또한 상기 포어(32)로부터 상기 이송을 배출시키기에 충분하도록 선택될 수 있다. 이러한 바이어스 전압을 공급하도록 상기 바이어스 조절 회로(41)를 유발시킴으로써, 상기 센서 요소(30)가 상기 포어(32)를 통해 이송 중인 폴리머를 배출시키도록 작동가능하다. 신뢰성 있는 배출을 위해서, 상기 바이어스 전압은 통상적으로 항상 필수적인 것은 아니지만 역방향 바이어스 (reverse bias)이다. 상기 바이어스 전압이 적용될 때, 상기 검출 회로(40)로의 입력이 (상기 정상 전류에 대한 유사한 크기, 통상적으로 -50pA 내지 -100pA의) 음의 전류로 나타낼 때 조차도 일정 바이어스 전위로 유지되도록 고안된다.
도 5에 개시된 상기 전자 회로(4)에 대한 제1 배열은 구현하기에 고가인 각 센서 요소(30)에 대한 개별의 검출 채널(40)을 필요로 한다. 검출 채널(40)의 수를 감소시키는 상기 전자 회로(4)에 대한 제2 배열이 도 6에 개시된다.
상기 배열에서, 상기 어레이에서 센서 요소(30)의 수는 검출 채널(40)의 수보다 더 많고, 상기 생화학적 센싱 시스템 (biochemical sensing system)이 다중 방식, 특히 전기적 다중 방식으로 선택된 센서 요소로부터 폴리머의 측정을 얻도록 작동가능하다. 상기 센서 요소(30)의 센서 전극(23)과 상기 검출 채널(40) 사이에 스위치 배열(42)을 제공함으로써 상기가 달성된다. 도 6은 4개의 센서 셀 (sensor cells, 30) 및 2개의 검출 채널(40)을 갖는 간단한 예를 보여주지만, 그러나 센서 셀(30) 및 검출 채널(40)의 수는 더 많아질 수 있고, 통상적으로 훨씬 더 많아질 수 있다. 예를 들면, 일부 적용을 위해서, 상기 센서 장치(2)는 총 4096개의 센서 요소(30) 및 1024개의 검출 채널(40)을 포함할 수 있다.
상기 스위치 배열(42)이 WO-2010/122293에 상세하게 개시된 바와 같이 배열될 수 있다. 예를 들면, 상기 스위치 배열(42)은 N개의 센서 요소(30)의 그룹에 각각 연결되는 복수의 1-내지-N개의 멀티플렉서 (multiplexers)를 포함할 수 있고, 또한 상기 스위칭의 상태를 선택하기 위한 래치 (latch)와 같은 적당한 하드웨어를 포함할 수 있다.
그러므로, 상기 스위치 배열(42)의 스위칭에 의해서, 상기 생화학적 분석 시스템(1)이 전기적 다중 방식으로 선택된 센서 요소(30)로부터 폴리머의 측정을 얻도록 작동될 수 있다.
상기 검출 채널(40)로부터 출력된 증폭된 전기적 신호에 기반하여 허용가능한 성능 품질을 갖는 각 센서 요소(30)에 상기 검출 채널(40)을 선택적으로 연결하기 위해서 WO-2010/122293에 개시된 방식으로 상기 스위치 배열(42)이 조절될 수 있고, 또한 상기 스위칭 배열이 하기에 부가로 개시되는 바와 같이 조절된다.
상기 제1 배열에서와 같이, 상기 제2 배열은 또한 각 센서 요소(30)에 대해 바이어스 조절 회로(41)를 포함한다.
상기 예에서, 상기 센서 요소(30)가 전기적 다중 방식으로 선택됨에도 불구하고, 예를 들면 전기적 측정을 얻는데 사용되는 프로브 (probe)의 이동에 의해서 또는 다른 센서 요소(30)의 다른 공간적 위치로부터 광학 측정을 얻기 위해서 사용된 광학 시스템의 조절에 의해서 공간적 다중 방식으로 센서 요소들 사이를 스위칭하도록 다른 형태의 생화학적 분석 시스템(1)이 구성될 수 있다.
상기 전자 회로(4)에 연결된 데이터 프로세서(5)가 하기와 같이 배열된다. 상기 데이터 프로세서(5)는 적당한 프로그램을 실행하는 컴퓨터 장치일 수 있거나, 제공된 하드웨어 장치에 위해서 구현될 수 있거나, 또는 그 임의의 조합에 의해서 구현될 수 있다. 상기 컴퓨터 장치가 사용되는 경우, 임의의 형태의 컴퓨터 시스템일 수 있지만, 그러나 통상적으로 종래의 구조를 갖는다. 상기 컴퓨터 프로그램이 임의의 적당한 프로그래밍 언어로 쓰여질 수 있다. 상기 컴퓨터 프로그램이 컴퓨터-판독가능한 저장 매체에 저장될 수 있고, 이는 예를 들면 상기 컴퓨터 시스템의 드라이브로 삽입가능하고, 자기적, 광학적 또는 광-자기적으로 정보를 저장할 수 있는 기록 매체; 하드 드라이브와 같이 상기 컴퓨터 시스템의 고정된 기록 매체; 또는 컴퓨터 메모리의 임의의 형태일 수 있다. 상기 데이터 프로세서(5)는 데스크탑 (desktop) 또는 랩탑 (laptop)과 같이 컴퓨터로 플러그되는 (plugged) 카드 (card)를 포함할 수 있다. 상기 데이터 프로세서(5)에 의해서 사용된 데이터가 종래 방식으로 그 메모리(10)에 저장될 수 있다.
상기 데이터 프로세서(5)는 상기 전자 회로(3)의 작동을 조절한다. 상기 검출 채널(41)의 작동을 조절할 뿐만 아니라, 상기 데이터 프로세서는 상기 바이어스 조절 회로(41)를 조절하고, 또한 상기 스위치 배열(31)의 스위칭을 조절한다. 상기 데이터 프로세서(5)는 또한 각 검출 채널(40)로부터 일련의 측정을 수신 및 처리한다. 상기 데이터 프로세서(5)는 하기에 부가로 개시되는 바와 같이 상기 일련의 측정을 저장 및 분석한다.
상기 센서 요소(30)의 상기 포어(32)를 통해 폴리머를 이송하기에 충분한 바이어스 전압을 적용하도록 상기 데이터 프로세서(5)는 상기 바이어스 조절 회로(41)를 조절한다. 상기 생화학적 센서 요소(41)의 작동으로, 예를 들면 WO-2013/041878에 개시된 바와 같은 기술을 사용하여, 폴리머 중 폴리머 유닛의 서열을 추정하기 위해서, 상기 데이터 프로세서(5) 또는 다른 데이터 프로세싱 유닛에 의해서 분석될 수 있는 다른 센서 요소(30)로부터 일련의 측정을 수집하였다. 다른 센서 요소(30)로부터의 데이터가 수집 및 조합될 수 있다.
상기 데이터 프로세서(5)는, 상기 센서 장치(2)에 의해서 얻어지고, 또한 상기 전자 회로(4)로부터 공급된 일련의 원 측정(11)을 수신 및 분석한다. 상기 데이터 프로세서(5)는 또한, 예를 들면 상기 센서 장치(2)에서 상기 생물학적 포어(1) 전체에 적용된 전압을 선택하도록 상기 전자 회로(5)에 조절 신호를 제공할 수 있다. 예를 들어 상기 데이터 프로세서(5) 및 상기 센서 장치(2)가 물리적으로 함께 위치하는 경우에 직접 연결, 또는 상기 데이터 프로세서(5) 및 상기 센서 장치(2)가 서로 물리적으로 떨어져 있는 경우에 임의의 형태의 네트워크 연결과 같이 임의의 적당한 연결에 대해서 상기 일련의 원 측정(11)이 공급될 수 있다.
폴리머를 분석하기 위해서 상기 생화학적 분석 시스템(1)을 조절하는 도 7에 개시된 방법이 서술될 것이다. 상기 방법은 본 발명의 제1 양태에 따르며, 부가의 분석이 필요하지 않은 상기 폴리머를 거절함으로써 분석의 속도를 증가시키는 방식으로 수행된다. 상기 방법이 상기 데이터 프로세서(5)에서 구현된다. 상기 전자 회로(4)에 대한 상기 제1 배열에 모든 센서 요소(30)가 있고, 일련의 측정이 얻어지는 각 센서 요소(30), 및 상기 전자 회로(4)에 대한 상기 제2 배열에서 상기 스위치 배열(42)에 의해서 검출 채널(40)에 연결되는 각 센서 요소(30)에 대해, 상기 방법이 병렬로 수행된다.
단계 C1에서, 상기 생화학적 분석 시스템(1)이, 폴리머를 이송하기에 충분한 상기 센서 요소(30)의 포어(32) 전체에 바이어스 전압을 적용하도록 상기 바이어스 조절 회로(30)를 조절함으로써 작동된다. 상기 검출 채널(40)로부터 출력 신호에 기반하여, 이송이 검출되고, 측정이 얻어지기 시작한다. 일련의 측정이 경시적으로 얻어진다.
몇가지 경우에서, 하기의 단계들은, 임의의 그룹에서 측정 수에 대한 사전 지식 없이 동일한 k-mer에 의존하는 복수의 측정의 연속적인 그룹을 포함하는 전술한 형태의 일련의 측정인, 상기 센서 장치(2)에 의해서 얻어진 상기 일련의 원 측정(11)에서 실시한다.
다른 경우에서, 도 8에 개시된 바와 같이, 상기 원 측정 대신에 다음 단계들에 사용되는 일련의 측정(12)을 유도하기 위해서 상태 검출 단계 (state detection step: SD)를 사용하여 상기 원 측정(11)이 사전-처리된다.
이러한 상태 검출 단계(SD)에서, 원 측정의 연속적인 그룹을 확인하고, 또한 각 확인된 그룹에 대해 측정의 선정된 수로 이루어진 일련의 측정(12)을 유도하기 위해서 상기 일련의 원 측정(11)이 처리된다. 그러므로, 일련의 측정(12)이 측정되는 폴리머 유닛의 각 서열에 대해서 유도된다. 상기 상태 검출 단계(SD)의 목적은 후속하는 분석을 단순화하기 위해서 각 k-mer와 관련된 측정의 선정된 수로 상기 일련의 원 측정을 감소시키는 것이다. 예를 들면, 도 4에 개시된 바와 같이 노이지 단계 파장 신호 (noisy step wave signal)가, 각 상태와 관련된 단일 측정이 평균 전류일 수 있는 상태로 감소될 수 있다. 상기 상태를 레벨이라고 명명할 수 있다.
도 9는 하기와 같이 상기 일련의 원 측정(11)의 도함수에서 단기간 증가를 찾는 이러한 상태 검출 단계(SD)의 예를 보여준다.
단계 SD-1에서, 상기 일련의 원 측정(11)이 그 도함수를 유도하기 위해서 미분된다.
단계 SD-2에서, 단계 SD-1으로부터 도함수가, 고-빈도의 노이즈를 억제하기 위해 저통과 필터링 (low-pass filtering)시켜서, 단계 SD-1에서 미분 (differentiation)은 증폭되는 경향이 있다.
단계 SD-3에서, 단계 SD-2로부터 필터된 도함수는 측정의 그룹들 사이에서 전이점 (transition points)을 검출함으로써, 원 측정의 그룹들을 확인하기 위한 한계값 (thresholded)이다.
단계 SD-4에서, 측정의 선정된 수가 단계 SD-3에서 확인된 원 측정의 각 그룹으로부터 유도된다. 단계 SD-4로부터 출력된 측정은 상기 일련의 측정(12)을 형성한다.
상기 측정의 선정된 수는 하나 또는 그 이상이다.
가장 간단한 접근법에서, 단일 측정이 원 측정의 각 그룹, 예를 들면 각 확인된 그룹에서 원 측정의 평균, 중간값, 표준 편차 또는 수로부터 유도된다.
다른 접근법에서, 다른 특성을 갖는 측정의 선정된 복수가 각 그룹, 예를 들면 각 확인된 그룹에서 원 측정의 평균, 중간값, 표준 편차 또는 수의 임의의 둘 이상으로부터 유도된다. 상기 경우에, 이들은 원 측정의 동일한 그룹의 다른 척도이기 때문에, 동일한 k-mer에 의존하는, 다른 특성을 갖는 측정의 선정된 복수가 얻어진다.
상기 상태 검출 단계 SD는 도 9에 개시된 것과 다른 방법을 사용할 수 있다. 예를 들면, 도 9에 개시된 방법의 통상의 단순화는, 2개의 인접한 데이터의 윈도우 (windows)의 평균을 비교하는 슬라이딩 윈도우 분석 (sliding window analysis)을 사용하는 것이다. 그 후에 한계값을 평균에서 차액에 직접 적용하거나 또는 상기 두개의 윈도우에서 데이터 포인트의 변동을 기반으로 설정될 수 있다 (예를 들면, Student's t-statistic을 산출함에 의함). 이러한 방법의 특별한 장점은 데이터에 많은 가정을 부과하지 않고도 적용할 수 있다는 것이다.
상기 측정된 레벨과 관련된 다른 정보가 상기 분석에서 이후에 사용하기 위해 저장될 수 있다. 이러한 정보는 이에 한정되지 않고 하기를 포함할 수 있다: 상기 신호의 변동; 비대칭 정보; 상기 관측의 신뢰도; 상기 그룹의 길이.
예로서, 도 10은 이동하는 윈도우 t-검정에 의해 감소된 실험적으로 결정된 일련의 원 측정(11)을 나타낸다. 특히, 도 10은 밝은 라인 (light line)으로 상기 일련의 원 측정(11)을 보여준다. 상태 검출 후의 레벨은 짙은 선 (dark line)으로 겹쳐서 표시된다.
폴리머가 상기 나노포어를 통해 일부 이송되었을 때, 즉 상기 이송 중에 단계 C2가 수행된다. 이 때, 상기 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정이 분석을 위해서 수집되고, 이를 본원에서 측정의 "청크 (chunk)"라고 한다. 상기 측정의 청크가 미리 정의된 크기를 갖도록 선정된 수의 측정이 얻어진 후에 단계 C2가 수행될 수 있거나, 또는 대안으로 선정된 양의 시간 후에 단계 C2가 수행될 수 있다. 전자의 경우, 상기 측정의 청크의 크기는 실행 시작시 초기화되는 파라미터에 의해 정의될 수 있지만, 상기 측정의 청크의 크기가 변경되도록 동적으로 변화된다.
단계 C3에서, 단계 C2에서 수집된 측정의 청크가 분석된다. 상기 분석은 참조 데이터(50)를 사용한다. 하기에 더 상세하게 토의된 바와 같이, 상기 참조 데이터(50)가 폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된다. 단계 C3에서 수행된 분석은 (a) 측정이 얻어진 일부 이송된 폴리머의 폴리머 유닛의 서열과 (b) 하나의 참조 서열 사이에 유사도의 척도를 제공한다. 상기 분석을 수행하기 위한 다양한 기술이 가능하고, 몇가지 예가 하기에 서술된다.
상기 유사도의 척도는 그 적용에 따라서 상기 참조 서열의 전체와의 유사도 또는 상기 참조 서열의 일부와의 유사도를 나타낼 수 있다. 상기 유사도의 척도를 유도하기 위해 단계 C3에서 적용된 기술은 예를 들어 글로벌 또는 로컬 방법과 같이 적절하게 선택될 수 있다.
또한, 상기 유사도의 척도는, 서열이 얼마나 유사한 지에 대한 척도를 일반적 용어로 제공한다면, 여러 가지 다른 척도에 의해 유사도를 나타낼 수 있다. 다른 방법으로 서열로부터 결정될 수 있는 유사도의 특정 척도의 몇 가지 예가 하기에 제시되어 있다.
단계 C4에서, (a) 측정되는 폴리머를 거절하거나, (b) 결정을 하기 위해 추가 측정이 필요하거나, 또는 (c) 폴리머의 끝까지 측정을 계속 얻기 위해, 단계 C3에서 결정된 유사도의 척도에 반응하여 결정한다.
단계 C4에서 만들어진 결정은 (a) 측정되는 상기 폴리머를 거절하고, 그 후 상기 방법을 단계 C5로 진행시키며, 상기 생화학적 분석 시스템(1)이 상기 폴리머를 거절하도록 조절되어서, 측정이 부가의 폴리머로부터 얻어질 수 있다.
단계 C5가 하기에서와 같이 상기 전자 회로(4)의 제1 배열과 제2 배열 사이에서 구별되게 수행된다.
상기 전자 회로(4)의 제1 배열의 경우에, 그 후 단계 C5에서, 상기 바이어스 조절 회로(30)가, 현재 이송되는 상기 폴리머를 배출하기에 충분한 상기 센서 요소(30)의 상기 포어(32) 전체에 바이어스 전압을 적용하도록 조절된다. 상기는 상기 폴리머를 배출함으로써, 상기 포어가 부가의 폴리머를 수용하도록 만들 수 있다. 단계 C5에서 이러한 배출 후에, 상기 방법이 단계 C1으로 되돌아가고, 그래서 상기 포어(32)를 통해 부가의 폴리머를 이송시키기에 충분한 상기 센서 요소(30)의 포어(32) 전체에 바이어스 전압을 적용하도록 상기 바이어스 조절 회로(30)가 조절된다.
상기 전자 회로(4)의 제2 배열의 경우에, 그 후 단계 C5에서, 상기 생화학적 분석 시스템(1)이, 상기 센서 요소(30)에 현재 연결된 상기 검출 채널(40)을 단절하고, 또한 상기 검출 채널(40)을 다른 센서 요소(30)에 선택적으로 연결하도록 상기 스위치 배열(42)을 조절함으로써, 현재 선택된 센서 요소(30)로부터 측정을 얻는 것을 중지시킬 수 있다. 동시에, 단계 C5에서, 센서 요소(30)가 미래에 부가의 폴리머를 수용할 수 있도록 현재 선택된 센서 요소(30)를 통해서 현재 이송되는 상기 폴리머를 배출하기에 충분한 상기 센서 요소(30)의 포어(32) 전체에 바이어스 전압을 적용하도록 상기 바이어스 조절 회로(30)가 조절된다.
상기 방법은 그 후 새롭게 선택된 센서 요소(30)로 적용된 단계 C1으로 되돌려서, 상기 생화학적 분석 시스템(1)은 이로부터 측정을 얻기 시작한다.
단계 C4에서 만들어진 결정이 (b) 결정을 만들기 위해 부가의 측정이 필요한 것인 경우, 그 후 상기 방법은 단계 C2로 되돌아간다. 그러므로, 측정의 청크가 다음에 단계 C2에서 수집되고, 단계 C3에서 분석될 때까지 상기 이송하는 폴리머의 측정이 계속 얻어진다. 단계 C2가 다시 수행될 때 수집된 측정의 청크가 분리에서 분석될 새로운 측정일 수 있거나, 또는 측정의 이전의 청크와 조합된 새로운 측정일 수 있다.
단계 C4에서 만들어진 결정이 (c) 상기 폴리머의 끝까지 측정을 얻는 것을 계속하는 것이라면, 그 후 상기 방법은 단계들 C2 및 C3을 반복하지 않고 단계 C6로 진행되어서, 데이터의 부가의 청크가 분석되지 않았다. 단계 C6에서, 상기 폴리머의 끝까지 상기 측정이 계속 얻어지도록 상기 센서 요소(1)가 계속 작동되었다. 그 후에, 상기 방법은 단계 C1으로 되돌아가서, 부가의 폴리머가 분석될 수 있다.
유사도의 척도에 의해서 나타내는 바와 같이, 단계 C4에서 결정에 대한 기반으로서 사용되는 유사도의 정도는 상기 참조 서열의 적용 및 특성에 의존하여 가변될 수 있다. 그러므로, 상기 결정이 유사도의 척도에 반응한다면, 일반적으로 상기 다른 결정을 만들기 위해서 사용되는 유사도의 정도에 대한 제한은 없다.
유사도의 척도에 대한 의존성이 어떻게 가변하는지에 대한 몇가지 예는 다음과 같다.
상기 폴리머 유닛의 참조 서열이 원하지 않는 서열인 경우의 적용에서, 단계 C4에서, 상기 일부 이송된 폴리머가 원하지 않는 서열임을 나타내는 유사도의 척도에 반응하여 상기 폴리머를 거절하는 결정이 만들어지고, 유사도의 상대적으로 높은 정도가 상기 폴리머를 거절하기 위한 근거로서 사용될 수 있다. 유사하게, 상기 유사도의 정도는 상기 적용의 문맥에서 상기 참조 서열의 특성에 따라 다양할 수 있다. 유사한 서열들 사이에서 구별하기 위해서, 유사도의 더 높은 정도가 상기 거절에 대한 근거로서 요구될 수 있다.
반대로, 상기 참조 데이터(50)가 유도되는 상기 폴리머 유닛의 참조 서열이 표적인 경우의 적용에서, 단계 (C4)에서 상기 일부 이송된 폴리머가 표적인 아님을 나타내는 유사도의 척도에 반응하여 상기 폴리머를 거절하는 결정이 만들어지고, 유사도의 상대적으로 낮은 정도가 상기 폴리머를 거절하기 위한 근거로서 사용될 수 있다.
다른 예로서, 상기 적용이 알려져 있는 박테리아로부터 알려져 있는 유전자가 다양한 박테리아의 시료 중에 존재하는지 여부를 결정하는데 있다면, 폴리뉴클레오티드는 상기 표적과 동일한 서열을 갖는지를 결정하기 위해서 필요한 유사도의 정도는, 상기 유전자는 다른 박테리아 균주 전체에 보존된 서열을 갖는 경우가 상기 서열이 보존되지 않는 경우 보다 더 높을 것이다.
유사하게, 본 발명의 구현예의 일부에서, 상기 유사도의 척도는 상기 표적 폴리머에 폴리머의 동일성 정도로 동일할 것이고, 반면에 다른 구현예에서, 상기 유사도의 척도는 상기 폴리머가 상기 표적 폴리머와 동일할 확률로 동일할 것이다.
거절에 대한 근거로서 요구되는 유사도의 정도는 또한 잠재적인 시간 절약에 따라 가변될 수 있고, 그 자체는 하기에 개시되는 바와 같이 적용에 의존한다. 허용가능한 거짓-양성 비율 (false-positive rate)은 시간 절약에 의존할 수 있다. 예를 들면, 원하지 않는 폴리머를 거절함으로써 잠재적인 시간 절약이 상대적으로 높은 경우, 실제로 원하지 않는 폴리머의 거절로부터 전체적으로 시간이 절약된다면, 표적인 폴리머의 증가된 비율을 거절하는 것이 허용가능하다.
도 7의 방법으로 되돌아가서, 폴리머의 측정을 얻는 동안의 임의의 시점에서 측정이 더이상 얻어지지 않는다고 검지된다면, 상기 폴리머의 끝에 도달되는 것을 나타내며, 그 후 상기 방법이 즉시 단계 C1으로 되돌아가서, 부가의 폴리머가 분석될 수 있다. 그렇게 상기 전체 폴리머의 측정을 얻은 후에, 예를 들어 폴리머 유닛의 서열의 추정치를 유도하기 위해서, 상기 측정들이 WO-2013/041878에 개시된 바와 같이 분석될 수 있다.
상기 참조 데이터(50)의 소스는 상기 적용에 따라 다양할 수 있다. 상기 참조 데이터(50)가 폴리머 유닛의 상기 참조 서열로부터 발생될 수 있거나 또는 폴리머 유닛의 상기 참조 서열로부터 얻은 측정으로부터 발생될 수 있다.
몇 가지 적용에서, 이전에 생성되어진 상기 참조 데이터(50)가 사전-저장될 수 있다. 다른 적용에서, 상기 참조 데이터(50)가 상기 방법이 수행될 때 생성된다.
상기 참조 데이터(50)가 폴리머 유닛의 단일 참조 서열 또는 폴리머 유닛의 복수의 참조 서열에 대해 제공될 수 있다. 후자의 경우에, 단계 C3가 각 서열에 대해 수행되거나 또는 상기 복수의 참조 서열 중 하나가 단계 C3에서 사용되기 위해 선택된다. 후자의 경우에, 상기 선택은 적용에 따라서 다양한 기준에 기반하여 만들어질 수 있다. 예를 들면, 하기 개시된 상기 참조 모델(70)의 선택이 실제 사용된 생화학적 분석 시스템(1)의 형태 및/또는 상기 실제 주위 조건에 기반하는 경우 상기 참조 데이터(50)가 생화학적 분석 시스템(1)의 다른 형태 (예컨대, 다른 나노포어) 및/또는 주위 조건으로 적용가능할 수 있다.
도 7에 개시된 방법이, 상기 적용에 따라서 가변될 수 있다. 예를 들면, 일부 변형예에서, 단계 C4에서 결정은 (c) 상기 폴리머의 끝까지 측정을 얻는 것을 계속하지 않아서, 상기 방법은 상기 폴리머의 끝까지 측정의 청크를 반복하여 수집 및 분석한다.
다른 변형예에서, 단계 C3에서 상기 참조 데이터(50)를 사용하고, 상기 유사도의 척도를 결정하는 것 대신에, 상기 폴리머를 거절하는 단계 C4에서 결정은 상기 일련의 측정의 다른 분석, 일반적으로 상기 측정의 청크의 임의의 분석에 기반될 수 있다.
하나의 가능성에서, 단계 C3은 상기 측정의 청크가 불충분한 품질, 예를 들면 한계값을 초과하는 노이즈 레벨, 잘못된 스케일링 (wrong scaling), 또는 폴리머의 특징이 손상되는지를 분석할 수 있다.
단계 C4에서 결정이 상기 분석에 기반하여 만들어져서 내부 품질 조절 체크에 기반하여 상기 폴리머를 거절한다. 이는 상기 일부 이송 중에 상기 폴리머로부터 얻어진 일련의 측정인 측정의 청크에 기반하여 폴리머를 거절하는 결정을 만드는 것을 여전히 포함하고, 이는 폴리머를 거절하여 차단 (blockade)을 야기하는 것과 대조적이고, 상기 폴리머가 더 이상 이송되지 않는 경우 k-mer 의존성 측정이 얻어지지 않는다.
본 방법이 본 발명의 제2 양태에 따르는 다른 가능성에서, 상기 방법이 도 11에 개시된 바와 같이 변형된다. 상기 방법은 단계 C3이 변형되는 것을 제외하고는 도 7과 동일하다. 단계 C3에서, 폴리머 유닛의 적어도 하나의 참조 서열로부터 유도되는 상기 참조 데이터(50)를 사용하고, 상기 유사도의 척도를 결정하는 것을 대신하여, 다른 가능한 형태의 k-mer 상태의 시리즈의 관측으로서 상기 측정을 처리하고, 또한: 상기 k-mer 상태들의 시리즈에서 연속적인 k-mer 상태들 사이에서 각 전이에 대해, k-mer 상태의 가능한 형태들 사이에 가능한 전이에 대한 전이 가중(61); 및 상기 k-mer에 대한 측정의 주어진 값을 관측하는 기회를 나타내는 k-mer 상태의 각 형태에 대한 방출 가중(62)을 포함하는 일반적 모델(60)이 사용된다. 상기 참조 모델(60)로 피트의 척도를 유도하는 단계를 포함하도록 단계 C3이 변형된다.
상기 일반적 모델(60)이 WO-2013/041878에 개시된 형태를 가질 수 있다. 상기 모델의 상세에 대해서는 WO-2013/041878을 참조한다. 상기 일반적 모델(60)은 도 13을 참조로 하기에 더 개시되었다. 예를 들면 k-mer 상태의 가장 유사한 서열로부터 관측되는 상기 측정의 가능성으로서 피트의 척도가 유도된다. 이러한 피트의 척도는 상기 측정의 품질을 나타낸다.
단계 C3이 상기 방법으로 변형될 때, 상기 피트의 척도에 기반하여 단계 C4에서 결정이 만들어지고, 이로써 내부 품질 조절 체크에 기반하여 상기 폴리머를 거절한다.
그러므로, 폴리머 유닛의 상기 참조 서열에 대한 유사도가 상기 폴리머의 부가의 분석이 필요하지 않다고 나타내거나 또는 상기 폴리머로부터 얻어진 측정이 상기 모델에 의해서 측정되어 불량한 품질을 가져서 부가의 이송 및 측정이 보장되지 않는 경우, 상기 방법은 상기 폴리머가 거절되도록 유발한다. 데이터가 모델에 의해서 충분하게 양호하지 않다고 나타내는 것에 대한 정도는 상기 모델 자체의 복잡성 (complexity)에 의존한다. 예를 들면, 더 복잡한 모델은 거절을 일으킬 수 있는 상기 조건들 중 몇가지를 나타낼 수 있는 파라미터를 가질 수 있다.
거절을 일으킬 수 있는 조건들은 예를 들면: 신호에서 허용가능하지 않은 드리프트 (drift); 높은 노이즈; 모형화될 수 없는 (un-modelled) 거동; 온도 변동과 같은 불규칙한 시스템 에러; 및/또는 상기 전기-물리적 시스템에 의한 에러를 포함할 수 있다.
예를 들면, 하나의 가능성은 폴리머 또는 다른 데브리스 (debris)가 나노포어에서 로지되어 (lodged), 느린 변화 (slowly varying), 오히려 정적 (rather static)인, 전류 흐름 (current flow)을 생성하게 되는 것이다. 상기 모델은 일반적으로 상기 데이터에서 잘 분리된 (시간에서 구간적으로 일정 (piecewise constant)) 단계를 기대하고, 그래서 이러한 측정은 상기 모델의 피트의 불량한 척도를 가질 것이다.
제2 가능성은 일시적 노이즈 (transient noise)이고, 예를 들면 긴밀한 그룹 단계들 사이의 전류에서 큰 변화이다. 이러한 노이즈가 높은 빈도로 발생되는 경우, 상기 데이터는 실제 목적을 위해서 거의 사용되지 않는다. 상기 모델로의 피트의 척도는 예기치 않은 측정의 높은 빈도에 의해서 낮을 것이다.
상기 "에러 (errors)"가 비-일시적 형태 (non-transitory fashion)로 발생할 수 있다. 실제로, 측정 부분에서 이웃하는 부분에 대해 그 평균 전류에서 상쇄가 나타내는 것이 종종 관측된다. 이는 상기 포어 및 상기 폴리머 분자의 형태에서 변화로 이에 대한 설명이 가능하다. 상기 이유에도 불구하고, 이러한 거동이 상기 모델에서 캡쳐되지 않았고, 실제 목적을 위해서 상기 데이터는 거의 사용되지 않는다.
이러한 에러의 영향으로, 상기 모델의 복잡성을 증가시킴으로써 어느 정도까지 완화시킬 수 있다. 그러나, 이는 바람직하지 않을 수 있고, 상기 데이터를 모델링하고 (modelling), 상기 폴리머 서열을 디코딩하는 (decoding)하는 컴퓨터화 비용 (computation cost)을 증가시킬 수 있다.
상기 폴리머 가닥을 거절하는 결과로서, 상기 모델의 전이 및 방출 가중이 유도되는 것과 강한 상동성을 갖는 폴리머 서열만이 상기 모델에 대한 피트의 양호한 척도를 갖는 측정을 하게 될 것이다.
상기 전체 폴리머의 측정을 얻는 것을 마친 후에, 예를 들면 폴리머 유닛의 서열의 추정치를 유도하기 위해서, 상기 측정은 WO-2013/041878에 개시된 바와 같이 분석될 수 있다.
도 7 및 도 11의 대안의 방법이 독립적으로 또는 조합하여 적용될 수 있고, 상기는 동시에 (예를 들면, 단계 C3에서 상기 방법들이 병렬로 실시되고, 또한 다른 단계들이 공동으로 실시됨) 또는 순차적으로 (예를 들면, 도 11의 방법이 실시되고, 그 후에 도 7의 방법이 실시됨) 적용될 수 있다.
폴리머를 선별하기 위해서 상기 생화학적 분석 시스템(1)을 조절하는 도 12에 개시된 방법이 서술될 것이다. 상기 방법은 본 발명의 제3 양태에 따른다. 상기 경우에, 상기 시료 챔버(24)는 다른 형태를 가질 수 있는 상기 폴리머를 포함하는 시료를 포함하고, 상기 웰(21)은 상기 선별된 폴리머를 수집하기 위한 수집 챔버로서 작용한다.
상기 방법은 상기 데이터 프로세서(5)에서 구현된다. 상기 전자 회로(4)에 대한 제1 배열에서 모든 센서 요소(30), 및 상기 전자 회로(4)에 대한 제2 배열에서 상기 스위치 배열(42)에 의해서 검출 채널(40)에 연결되는 각 센서 요소(30)와 같이 병렬로 복수의 센서 요소(30)에 대해서 상기 방법이 병렬로 수행된다.
단계 D1에서, 폴리머를 이송하기에 충분한 상기 센서 요소(30)의 포어(32) 전체에 바이어스 전압을 적용하도록 상기 바이어스 조절 회로(30)를 조절함으로써 상기 생화학적 분석 시스템(1)이 작동된다. 이는 폴리머가 상기 나노포어를 통해서 이송을 시작하고, 상기 이송 중에 하기 단계들이 수행된다. 상기 검출 채널(40)로부터 상기 출력 신호에 기반하여, 이송이 검출되고, 또한 측정이 수행되기 시작한다. 상기 폴리머의 일련의 측정이 경시적으로 상기 센서 요소(30)로부터 수행된다.
몇가지 경우에, 하기 단계들은 상기 센서 장치(2)에 의해서 얻어진 상기 일련의 원 측정(11)에서 작동되며, 즉 상기에 개시된 상기 형태의 일련의 측정은 임의의 그룹에서 측정 수의 사전 지식 없이 동일한 k-mer에 의존하는 복수의 측정의 연속적인 그룹을 포함한다.
다른 경우에, 상기 원 측정 대신에 하기의 단계에서 사용되는 일련의 측정(12)을 유도하기 위해 상태 검출 단계 (SD)를 사용하여 상기 원 측정(11)이 사전-처리된다. 상기 상태 검출 상태 (SD)가 도 8 및 도 9를 참조하여 전술한 바와 같이 단계 C1과 동일한 방식으로 수행될 수 있다.
폴리머가 상기 나노포어를 통해 일부 이송될 때, 즉 상기 이송 중에, 단계 D2가 수행된다. 이 때, 상기 일부 이송 중에 상기 폴리머로부터 수행된 상기 일련의 측정이 분석을 위해서 수집되고, 본원에서 이를 측정의 "청크"라고 한다. 상기 측정의 청크가 미리 한정된 크기를 갖도록 측정의 선정된 수가 얻어진 후에 단계 D2가 수행될 수 있거나, 또는 대안으로 선정된 시간의 양 후에 단계 D2가 수행될 수 있다. 전자의 경우, 상기 측정의 청크의 크기가 실행 초기에 개시되는 파라미터에 의해서 한정될 수 있지만, 그러나 상기 측정의 청크의 크기가 변화되도록 동적으로 변화된다.
단계 D3에서, 단계 D2에서 수집된 상기 측정의 청크가 분석된다. 상기 분석은 참조 데이터(50)를 사용한다. 하기에서 상세하게 토의되는 바와 같이, 상기 참조 데이터(50)가 폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된다. 단계 D3에서 수행된 분석은 (a) 측정이 얻어진 일부 이송된 폴리머의 폴리머 유닛의 서열과, (b) 상기 하나의 참조 서열 사이에 유사도의 척도를 제공한다. 상기 분석을 수행하기 위한 다양한 기술이 가능하고, 일부의 예가 하기에 서술된다.
상기 유사도의 척도는 적용에 따라서 상기 참조 서열의 전체, 또는 상기 참조 서열의 일부와 유사도를 나타낼 수 있다. 상기 유사도의 척도를 유도하기 위한 단계 D3에서 적용된 기술이 예를 들면 글로발 또는 로컬 방법으로 이에 따라서 선택될 수 있다.
또한, 상기 유사도의 척도는, 상기 서열이 얼마나 유사한지에 대한 척도를 일반적 용어로 제공하는 한, 다양한 다른 메트릭스에 의해서 상기 유사도를 나타낼 수 있다. 다른 방법으로 서열로부터 결정될 수 있는 유사도의 특정 척도의 몇가지 예가 하기에 제시된다.
단계 D4에서, (a) 부가의 측정이 결정을 만들기 위해 필요하거나, (b) 상기 웰(21)로 상기 폴리머의 이송을 완료하거나, 또는 (c) 상기 측정되어진 폴리머를 상기 시료 챔버(24)로 다시 배출하는 결정이, 단계 D3에서 결정된 유사도의 척도에 의존하여 만들어진다. 단계 D4에서 만들어진 결정이 (a) 부가의 측정이 결정을 만드는데 필요한 것인 경우, 그 후 상기 방법이 단계 D2로 되돌아간다. 그러므로, 측정의 청크가 단계 D2에서 수집되고, 단계 D3에서 분석될 때까지 상기 이송되는 폴리머의 측정이 계속 얻어진다. 단계 D2가 다시 수행될 때 수집된 측정의 청크는 분리에서 분석될 새로운 측정일 수 있거나, 또는 이전의 측정의 청크와 조합된 새로운 측정일 수 있다.
단계 D4에서 만들어진 결정이 (b) 상기 폴리머를 상기 웰(21)로 이송을 완료하는 것인 경우, 상기 방법은 부가적인 측정 분석이 수행되지 않도록 상기 단계 D2 및 D3을 반복하지 않고 단계 D6로 진행된다.
단계 D6에서, 상기 웰(21)로 상기 폴리머의 이송이 완료된다. 결과적으로 상기 폴리머가 상기 웰(21)에서 수집된다.
폴리머를 이송할 수 있는 상기 센서 요소(30)의 포어(32) 전체에 동일한 바이어스 전압을 계속 적용함으로써 단계 D6가 수행될 수 있다.
대안으로서, 단계 D6에서, 이송에 대해 걸리는 시간을 감소시키기 위해서 증가된 속도로 상기 폴리머의 나머지의 이송을 수행하도록 상기 바이어스 전압이 변화될 수 있다. 이는 상기 선별 공정의 전체 속도를 증가시키기 때문에 유익하다. 상기 폴리머가 더 이상 분석될 필요가 없기 때문에 상기 이송 속도를 증가시키는 것이 허용가능하다. 통상적으로, 상기 바이어스 전압에서 변화는 증가일 수 있다. 통상적인 시스템에서, 상기 증가는 현저할 수 있다. 예를 들면 일 구현예에서, 상기 이송 속도가 초당 약 30 염기에서 초당 약 10,000 염기로 증가될 수 있다. 상기 이송 속도를 변화시킬 가능성이 상기 센서 요소의 구성에 의존할 수 있다. 예를 들면, 폴리머 결합 모이어티, 예를 들어 효소가 상기 이송을 조절하기 위해서 사용되는 경우, 이는 사용된 폴리머 결합 모이어티에 의존할 수 있다. 유익하게, 상기 속도를 조절할 수 있는 폴리머 결합 모이어티가 선택될 수 있다.
단계 D6 중에, 측정은 상기 폴리머 끝까지 계속 얻어지도록 상기 센서 요소(1)가 계속 작동될 수 있지만, 그러나 이는 상기 서열의 나머지를 결정할 필요가 없기 때문에 선택 사항이다.
단계 D6 이후에, 상기 방법이 단계 D1으로 되돌아가서, 부가의 폴리머가 이송될 수 있다.
단계 D4에서 만들어진 결정이 (c) 상기 폴리머를 배출하는 것인 경우에, 상기 방법은 단계 D5로 진행되고, 측정되어진 폴리머를 상기 시료 챔버(24)로 다시 배출시켜서, 측정이 부가의 폴리머로부터 얻어질 수 있도록 상기 생화학적 분석 시스템(1)이 조절된다.
단계 D5에서, 현재 이송되어진 상기 폴리머를 배출하기에 충분한 상기 센서 요소(30)의 상기 포어(32) 전체에 바이어스 전압을 적용하도록 상기 바이어스 조절 회로(30)가 조절된다. 이는 상기 폴리머를 배출함으로써, 상기 포어(32)가 부가의 폴리머를 수용하도록 만들 수 있다. 단계 D5에서 이러한 배출 후에, 상기 방법은 단계 D1으로 되돌아가고, 그러므로 상기 포어(32)를 통해 부가의 폴리머를 이송시키기에 충분한 상기 센서 요소(30)의 상기 포어(32) 전체에 바이어스 전압을 적용하도록 상기 바이어스 조절 회로(30)가 조절된다.
단계 D1으로 되돌아가서, 상기 방법이 반복된다. 상기 방법의 반복된 수행으로 상기 시료 챔버(24)로부터 연속적인 폴리머가 이송 및 처리되도록 한다.
그러므로, 상기 방법은 연속적인 폴리머가 상기 웰(21)에서 수집되는지 여부에 기반하여 상기 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정의 분석에 의해서 제공된 유사도의 척도를 사용한다. 상기 방식으로, 상기 시료 챔버(24)에서 상기 시료로부터 폴리머가 선별되고, 원하는 폴리머가 상기 웰(21)에서 선택적으로 수집된다.
상기 수집된 폴리머가 회수될 수 있다. 상기 시료 챔버(24)로부터 상기 시료를 제거하고, 그 후 상기 웰(21)로부터 상기 폴리머를 회수함으로써 상기 방법이 반복적으로 실행되어진 후에 회수가 수행될 수 있다. 대안으로서, 상기 웰(21)로부터 상기 폴리머를 추출하는 유체 시스템에 상기 생화학적 분석 시스템(1)을 제공함으로써 상기 시료로부터 폴리머의 이송 중에 상기가 실시될 수 있다.
상기 방법이 광범위한 용도에 적용될 수 있다. 예를 들면 상기 방법은 폴리뉴클레오티드, 예를 들면 바이러스 게놈 또는 플라스미드인 폴리머로 적용될 수 있다. 바이러스 게놈은 통상적으로 10-15kB (kilobases)의 길이를 갖고, 플라스미드는 통상적으로 4kB의 길이를 갖는다. 상기 예에서, 상기 폴리뉴클레오티드가 단편화되지 않을 수 있고, 또한 전체로 수집될 수 있다. 상기 수집된 바이러스 게놈 또는 플라스미드가 예를 들면 세포를 감염시키기 위해서 임의의 방식으로 사용될 수 있다. 형질감염은 DNA를 세포 핵으로 도입시키는 과정이고, 유전자 기능 및 유전자 발현의 조절을 조사하는 연구에서 사용되는 중요한 기술이고, 기본 세포 연구, 약물 개발, 및 표적 유효성의 진보에 기여하였다. RNA 및 단백질이 또한 감염될 수 있다.
유사도의 척도에 의해서 나타내는 바와 같이, 단계 D4에서 결정을 위한 근거로서 사용되는 유사도의 정도는 상기 참조 서열의 적용 및 특성에 따라 가변할 수 있다. 그러므로, 상기 결정이 유사도의 척도에 의존하는 경우 일반적으로 다른 결정을 만들기 위해서 사용되는 유사도의 정도에 제한은 없다.
유사도의 척도에 대한 의존성이 어떻게 가변하는지에 대한 몇가지 예는 하기와 같다.
많은 적용에서, 상기 참조 데이터(50)가 유도되는 폴리머 유닛의 참조 서열은 원하는 서열이다. 이러한 경우에, 단계 D4에서, 상기 이송을 완료하는 결정은, 상기 일부 이송된 폴리머가 상기 원하는 서열임을 나타내는 유사도의 척도에 반응하여 만들어지며, 상대적으로 높은 유사도의 정도가 상기 이송을 완료하기 위한 근거로서 사용될 수 있다.
그러나, 상기는 필수적이지 않다. 몇가지 적용에서, 상기 폴리머 유닛의 참조 서열은 원하지 않는 서열이다. 상기 경우에, 단계 D4에서, 상기 이송을 완료하는 결정은 상기 일부 이송된 폴리머가 상기 원하지 않는 서열이 아님을 나타내는 유사도의 척도에 반응하여 만들어진다.
유사하게, 유사도의 정도는 본 출원에서 상기 참조 서열의 특성에 따라 가변할 수 있다. 유사한 서열들 사이에서 구별하려는 의도를 갖는 경우, 더 높은 유사도의 정도가 상기 거절을 위한 근거로서 요구될 수 있다.
상기 방법이 각 센서 요소(30)에 대해 단계 D4에서 동일한 참조 데이터(50) 및 동일한 기준을 사용하여 수행될 수 있다. 이러한 경우에, 각 웰(21)이 병렬로 상기 동일한 폴리머를 수집한다.
대안으로서, 상기 방법은 다른 웰(21)에서 다른 폴리머를 수집하기 위해서 수행될 수 있다. 이러한 경우에, 차별되는 선별이 수행된다. 상기의 일 예에서, 다른 참조 데이터(50)가 다른 센서 요소(30)에 대해서 사용된다. 상기의 다른 예에서, 상기 동일한 참조 데이터(50)가 다른 센서 요소(30)에 대해 사용되지만, 그러나 단계 D4가 다른 센서 요소에 대해 유사도의 척도에 대한 다른 의존성으로 수행된다.
도 7, 11 및 12에 개시된 방법들이 그 적용에 따라 가변될 수 있다.
폴리머 유닛의 참조 서열의 다양한 다른 형태가 그 적용에 따라 사용될 수 있다. 제한되지 않고, 상기 폴리머가 폴리뉴클레오티드인 경우, 상기 폴리머 유닛의 참조 서열은 상기 측정이 비교되는 하나 이상의 관심있는 게놈의 영역 또는 하나 이상의 참조 게놈을 포함할 수 있다.
상기 참조 데이터(50)의 소스는 그 적용에 따라 다양할 수 있다. 상기 참조 데이터가 폴리머 유닛의 참조 서열 또는 폴리머 유닛의 참조 서열로부터 얻어진 측정으로부터 생성될 수 있다.
몇가지 용도에서, 이전에 생성되어진 상기 참조 데이터(50)가 사전-저장될 수 있다. 다른 적용에서, 상기 참조 데이터(50)가 상기 방법이 수행되는 때에 생성된다.
상기 참조 데이터(50)가 폴리머 유닛의 단일한 참조 서열 또는 폴리머 유닛의 복수의 참조 서열에 대해서 제공될 수 있다. 후자의 경우에, 단계 D3이 각 서열에 대해서 수행되거나 또는 복수의 참조 서열들 중 하나가 단계 D3에서 사용되기 위해서 선택된다. 후자의 경우에, 상기 선택이 그 적용에 따라서 다양한 기준에 기반하여 만들어질 수 있다. 예를 들면, 하기에 개시된 상기 참조 모델(70)의 선택이 실제 사용된 생화학적 분석 시스템(1)의 형태 및/또는 상기 실제 주위 조건에 기반되는 경우에, 상기 참조 데이터(50)가 생화학적 분석 시스템(1)의 다른 형태 (예컨대, 다른 나노포어) 및/또는 주위 조건에 적용가능할 수 있다.
상기에 개시된 상기 생화학적 분석 시스템(1)은 각각이 나노포어를 포함하는 센서 요소의 어레이를 포함하는 생화학적 분석 시스템의 예이다. 그러나, 상기에 개시된 방법이 상기 나노포어의 사용없이 폴리머의 연속적인 측정을 얻도록 작동가능한 임의의 생화학적 분석 시스템에 일반적으로 적용될 수 있다.
나노포어를 포함하지 않는 상기 생화학적 분석 시스템의 예로는 주사 프로브 현미경 (scanning probe microscope)이고, 원자력 현미경 (atomic force microscope: AFM), 주사 터널링 현미경 (scanning tunnelling microscope: STM) 또는 주사 현미경의 다른 형태일 수 있다. 이러한 경우에, 상기 생화학적 분석 시스템이 공간적 다중 방식으로 선택된 폴리머의 연속적인 측정을 얻도록 작동가능할 수 있다. 예를 들면, 상기 폴리머가 다른 공간적 위치에서 기재상에 배치될 수 있고, 또한 상기 공간적 다중화가 상기 주사 프로브 현미경의 프로브의 이동에 의해서 제공될 수 있다.
상기 판독기가 AFM인 경우, 상기 AFM 팁의 해상도는 개별 폴리머 유닛의 치수보다 덜 미세할 수 있다. 이와 같이, 상기 측정은 다수의 폴리머 유닛의 함수일 수 있다. 상기가 관능화되지 않는다면 이에 대한 대안 방식으로 상기 폴리머 유닛과 상호작용하도록 상기 AFM 팁이 관능화될 수 있다. 상기 AFM이 접촉 모드 (contact mode), 비접촉 모드 (non-contact mode), 태핑 모드 (tapping mode) 또는 임의의 다른 모드로 작동될 수 있다.
상기 판독기가 STM인 경우에, 상기 측정이 다수의 폴리머 유닛의 함수인 경우 개별 폴리머 유닛의 치수보다 상기 측정의 해상도는 덜 미세할 수 있다. 상기 STM이 종래와 같이 작동될 수 있거나 또는 분광학적 측정 (spectroscopic measurement: STS) 또는 임의의 다른 모드를 만들도록 작동될 수 있다.
상기에 개시된 방법의 어느 것에서 사용되는 바와 같이 상기 참조 데이터(50)의 형태가 지금 토의될 것이다. 상기 참조 데이터(50)가 다른 방법으로 폴리머 유닛의 상기 참조 서열로부터 유도된 다양한 형태를 취할 수 있다. 유사도의 척도를 제공하기 위한 단계 C4 또는 D4에서 수행된 분석은 상기 참조 데이터(50)의 형태에 의존한다. 일부 비제한적인 예가 서술될 것이다.
제1 예에서, 상기 참조 데이터(50)는 적어도 하나의 참조 서열의 폴리머 유닛의 동일성을 나타낸다. 상기 경우에, 단계 C4 또는 D4는 하기와 같이 도 13에 개시된 공정을 포함한다.
단계 C4a-1에서, 상기 일부 이송된 폴리머의 폴리머 유닛의 서열의 상기 폴리머 유닛의 동일성의 추정치(64)를 제공하기 위해 상기 측정의 청크가 분석된다. 상기 생화학적 분석 시스템에 의해서 얻어진 상기 측정을 분석하기 위한 임의의 방법을 사용하여 단계 C4a-1이 일반적으로 수행될 수 있다.
단계 C4a-1이 특히 WO-2013/041878에 상세하게 개시된 방법을 사용하여 수행될 수 있고, 이는 본원에 참조로 포함된다. 상기 방법의 상세한 설명을 위해서 WO-2013/041878을 참조하지만, 요약이 하기에서 제공된다.
상기 방법은 상기 측정의 청크(63)에 해당하는 k-mer 상태의 시리즈에 대한 전이 가중(61) 및 방출 가중(62)을 포함한다.
상기 k-mer 상태의 시리즈에서 연속적인 k-mer 상태들 사이에 각 전이에 대해 상기 전이 가중(61)이 제공된다. 원래의 k-mer 상태에서 목적하는 k-mer 상태까지 각 전이가 고려될 수 있다. 상기 전이 가중(61)은 상기 k-mer 상태의 가능한 형태들 사이, 즉 임의의 형태의 원래 k-mer 상태로부터 임의의 형태의 목적하는 k-mer 상태까지의 가능한 전이들의 상대 가중을 나타낸다. 일반적으로 상기는 동일한 형태의 2개의 k-mer 상태들 사이에 전이에 대한 가중을 포함한다.
상기 방출 가중(62)이 각 형태의 k-mer 상태에 대해 제공된다. 상기 방출 가중(62)은 상기 k-mer 상태가 상기 형태를 가질 때 관측되어진 다른 측정에 대한 가중이다. 개념적으로, 상기가 가능성이 있을 필요가 없음에도 불구하고, 상기 k-mer 상태에 대한 측정의 주어진 값을 관측할 기회를 나타내는 것으로 상기 방출 가중(62)이 사료될 수 있다.
개념적으로, 상기가 가능성이 있을 필요가 없음에도 불구하고, 상기 가능한 전이의 기회를 나타내는 것으로 상기 전이 가중(61)이 사료될 수 있다. 그러므로, 상기 측정이 다른 k-mer 상태들 사이에 전이에 의존하여 상기 전이 가중(61)은 상기 k-mer 상태의 기회를 고려하고, 이는 상기 원래 및 목적하는 k-mer 상태들의 형태에 더 많이 또는 더 적게 의존할 수 있다.
이에 한정되는 것은 아니지만 예로서, 상기 모델은 상기 전이 가중(61) 및 방출 가중(62)이 가능성이 있는 HMM일 수 있다.
상기 일부 이송된 폴리머의 폴리머 유닛의 서열의 상기 폴리머 유닛의 동일성의 추정치(64)를 유도하기 위해서 단계 C4a-1는 상기 참조 모델(60)을 사용한다. 상기 참조 모델(60)의 특성에 적용가능한 공지된 기술을 사용하여 상기가 수행될 수 있다. 통상적으로, 이러한 기술은 k-mer 상태들의 서열로부터 관측되어진 상기 참조 모델(60)에 의해서 예측된 상기 측정의 가능성에 기반하여 추정치(64)를 유도한다. WO-2013/041878에 개시된 바와 같이, 이러한 기술이 상기 일련의 원 측정(11) 또는 상기 일련의 측정(12)에서 수행될 수 있다.
이러한 방법은 또한 상기 모델의 측정의 피트의 척도, 예를 들면 k-mer 상태들의 가장 유사한 서열으로부터 관측되어진 상기 참조 모델(60)에 의해서 예측된 상기 측정의 가능성을 나타내는 품질 점수를 제공할 수 있다. 이러한 척도는 상기 추정치(64)를 유도하기 위해서 사용될 수 있기 때문에, 이러한 척도가 유도된다.
상기 일반적 모델(60)이 HMM인 경우의 예로서, 상기 분석 기술은 상기 HMM을 해결하기 위한 알려져 있는 알고리즘일 수 있고, 예를 들면 상기 Viterbi 알고리즘이 당분야에 잘 알려져 있다. 상기 경우에, k-mer 상태의 전체 서열에 의해서 생성되어진 일반적 모델(60)에 의해서 예측되는 가능성에 기반하여 상기 추정치(64)가 유도된다.
상기 일반적 모델(60)이 HMM인 경우의 다른 예로서, 상기 분석 기술은 Fariselli et al.의 "The posterior-Viterbi: a new decoding algorithm for hidden Markov models", Department of Biology, University of Casadio, archived in Cornell University, submitted 4 January 2005에 개시된 형태를 가질 수 있다. 상기 방법에서, (상기 측정이 각 k-mer 상태로부터 관측되는 가능성을 나타내는) 후부 매트릭스 (posterior matrix)가 일관된 통로 (consistent path)를 수득하고, 이는 사건당 가장 유사한 k-mer 상태를 간단하게 선택하기 보다는 오히려, 이웃하는 k-mer 상태가 중첩되도록 바이어스되는 통로이다. 본질적으로, 상기 Viterbi 알고리즘의 적용으로부터 직접 수득되는 것과 동일한 정보를 회수하였다.
상기 전이 가중(61) 및 방출 가중(62)은 가능성이 있고, 방법은 상기 일반적 모델(60)이라고 하는 가능한 기술을 사용하는 HMM인 일반적 모델(60)에 대해 상기 서술이 제공된다. 그러나, 대안으로서 전이 가중(61) 및/또는 방출 가중(62)은 가능성이 없지만, 그러나 몇가지 다른 방법으로 전이 또는 측정의 기회를 나타내는 프레임워크를 사용하는 상기 일반적 모델(60)이 가능하다. 이러한 경우에, 상기 방법은 폴리머 유닛의 서열에 의해서 생성되어진 상기 일련의 측정의 일반적 모델(60)에 의해서 예측된 가능성에 기반하는 가능한 기술 이외의 분석 기술을 사용할 수 있다. 상기 분석 기술은 명백하게 가능성 함수를 사용할 수 있지만, 그러나 일반적으로 이는 필수적이지는 않다.
단계 C4a-2에서, 상기 추정치(64)가 상기 유사도(65)의 척도를 제공하기 위해 상기 참조 데이터(50)와 비교된다. 상기 비교는, 유사도(65)의 척도인 정렬 맵핑의 정확도에 대한 점수와 함께, 폴리머 유닛들의 2개의 서열을 비교하고, 폴리머 유닛들의 서열 사이에 정렬 맵핑을 유도하는 정렬 알고리즘인 임의의 알려진 기술을 사용할 수 있다. 다수의 이용가능한 신속 정렬 알고리즘의 어느 것, 예컨대 Smith-Waterman 정렬 알고리즘, BLAST 또는 그 파생물, 또는 k-mer 카운팅 기술 (counting technique)이 사용될 수 있다.
상기 참조 데이터(50)의 형태의 예로는, 유사도(65)의 척도를 유도하기 위한 공정이 신속하지만, 그러나 상기 참조 데이터의 다른 형태가 가능하다는 장점을 갖는다.
제2 예에서, 상기 참조 데이터(50)는 상기 생화학적 분석 시스템(1)에 의해서 얻어진 실제 또는 모의 측정을 나타낸다. 상기 경우에서, 단계 C4 또는 D4는 도 14에 개시된 공정을 포함하고, 이는 유사도(65)의 척도를 유도하기 위해, 상기 일련의 원 측정(11)으로부터 얻어지는 경우에 상기 측정의 청크(63)를, 상기 참조 데이터(50)와 비교하는, 단계 C4b를 포함한다. 유사도(65)의 척도로서 2개의 일련의 측정들 사이에 거리의 척도를 제공하기 위해 거리 함수를 사용하여 임의의 적당한 비교가 만들어질 수 있다.
제3 예에서, 상기 참조 데이터(50)는 상기 생화학적 분석 시스템(1)에 의해서 얻어진 상기 측정의 특징을 나타내는 시간-차수 특성 (time-ordered features)의 특성 벡터 (feature vector)를 나타낸다. 이러한 특성 벡터가 WO-2013/121224에 상세하게 개시된 바와 같이 유도될 수 있고, 이를 참고하며, 본원에 참조로 포함된다. 상기 경우에, 단계 C4 또는 D4는 하기에서와 같이 수행되는 도 15에 개시된 공정을 포함한다.
단계 C4c-1에서, 상기 일련의 원 측정(11)으로부터 얻어지는 경우에 상기 측정의 청크(63)가 분석되어서, 상기 측정의 특징을 나타내는 시간-차수 특성의 특성 벡터(66)를 유도하였다.
단계 C4c-2에서, 유사도(65)의 척도를 유도하기 위해서, 상기 특성 벡터(66)가 상기 참조 데이터(50)와 비교된다. 상기 비교가 WO-2013/121224에 상세하게 기재된 방법을 사용하여 수행될 수 있다.
제4 예에서, 상기 참조 데이터(50)는 참조 모델(70)을 나타낸다. 상기 경우에, 단계 C4 또는 D4는 도 16에 개시된 공정을 포함하고, 이는 상기 측정의 청크(63)에 대한 상기 참조 모델(70)의 피트로서 상기 유사도(65)의 척도를 제공하기 위해 상기 측정의 청크(63)의 시리즈에 상기 모델을 피팅하는 단계 C4d를 포함한다. 상기 측정의 청크(63)는 상기 일련의 원 측정(11) 또는 상기 일련의 측정(12)일 수 있다.
단계 C4d가 하기와 같이 수행될 수 있다.
상기 참조 모델(70)은 상기 생화학적 분석 시스템(1)에서 폴리머 유닛의 상기 참조 서열의 모델이다. 상기 참조 모델(70)은 폴리머 유닛의 참조 서열에 해당하는 k-mer 상태들의 참조 시리즈의 관측으로서 상기 측정을 처리한다. 상기 참조 모델(70)의 상기 k-mer 상태들은 수학적으로 상기가 필요하지 않아서 상기 k-mer 상태는 상기 실제 k-mer의 추출 (abstraction)일 수 있음에도 불구하고, 상기 측정이 의존하는 실제 k-mer를 모형화할 수 있다. 그러므로, 상기 다른 형태의 k-mer 상태는 폴리머 유닛의 참조 서열 중에 존재하는 다른 형태의 k-mers에 해당할 수 있다.
상기 참조 서열이 측정될 때 특히 수득되는 상기 측정을 모형화하기 위해서, 상기 및 WO-2013/041878에 개시된 형태의 일반적 모델(60)의 개조로서 상기 참조 모델(70)이 고려될 수 있다. 그러므로, 참조 모델(70)은 폴리머 유닛의 상기 참조 서열에 해당하는 k-mer 상태들(73)의 참조 시리즈의 관측으로서 상기 측정들을 처리한다. 이와 같이, 상기 참조 모델(70)은 특히 하기에 개시되는 바와 같은 전이 가중(71) 및 방출 가중(72)을 포함하는 일반적 모델(60)과 동일한 형태를 갖는다.
상기 전이 가중(71)은 상기 참조 시리즈의 상기 k-mer 상태들(73) 사이의 전이를 나타낸다. 상기 k-mer 상태들(73)은 폴리머 유닛의 참조 서열에 해당한다. 그러므로, 상기 참조 시리즈에서 연속적인 k-mer 상태들(73)은 k개의 폴리머 유닛의 연속적인 중첩하는 그룹에 해당한다. 이와 같이, 상기 참조 시리즈의 k-mer 상태들(73)과 상기 참조 서열의 폴리머 유닛 사이에 고유 맵핑이 있다. 유사하게, 각 k-mer 상태들(73)은 k개의 폴리머 유닛의 그룹에서 각 폴리머 유닛의 다른 형태의 조합에 해당하는 형태를 갖는다.
상기 추정된 k-mer 상태(73)의 참조 시리즈에서 3개의 연속적인 k-mer 상태들(73)의 예를 나타내는 도 17의 상태 다이아그램을 참조로 설명되었다. 본 예에서, k는 3이고, 상기 폴리머 유닛의 참조 서열은 A, A, C, G, T로 표지된 연속적인 폴리머 유닛을 포함한다. (물론 상기 k-mer 상태(73)의 특정 형태는 한정되지 않음). 따라서, 상기 폴리머 유닛에 해당하는 상기 참조 시리즈의 연속적인 k-mer 상태(73)는 폴리머 유닛 AACGT의 측정된 서열에 해당하는 타입 AAC, ACG, CGT를 갖는다.
도 18의 상태 다이아그램은 상기 전이 가중(71)에 의해서 나타내는 바와 같이 상기 참조 시리즈의 상기 k-mer 상태들(73) 사이에 전이를 나타낸다. 본 예에서, 상기 참조 시리즈의 상기 k-mer 상태들(73)을 통해서 상태들이 전방으로만 진행될 수 있다 (일반적으로 후방 진행이 부가적으로 허용될 수는 있음). 3개의 다른 형태의 전이 (74, 75 및 76)가 하기에서 개시된다.
상기 참조 시리즈에서 각 주어진 k-mer 상태(73)로부터, 다음 k-mer 상태(73)로의 전이(74)가 허용된다. 폴리머 유닛의 참조 서열의 연속적인 k-mers로부터 얻어진 상기 일련의 측정(12)에서 연속적인 측정의 가능성을 모형화하였다. 각 확인된 그룹에 대해 측정의 선정된 횟수로 이루어지는, 측정의 연속적인 그룹을 확인하고, 추가의 분석을 위해 일련의 처리된 측정을 유도하기 위해서 상기 측정의 청크(63)가 사전-처리되는 경우에, 상기 전이 가중(71)은 상대적으로 높은 가능성을 갖는 상기 전이(74)를 나타낸다.
상기 참조 시리즈에서 각 주어진 k-mer 상태(73)로부터, 상기 동일한 k-mer 상태로의 전이(75)가 허용된다. 폴리머 유닛의 참조 서열의 동일한 k-mer로부터 얻어지는 상기 일련의 측정(12)에서 연속적인 측정의 가능성을 모형화하였다. 이는 "체류 (stay)"라고 할 수 있다. 각 확인된 그룹에 대해 측정의 선정된 수로 이루어지고, 측정의 연속적인 그룹들을 확인하고, 일련의 처리된 측정을 유도하기 위해서 상기 측정의 청크(63)가 사전-처리되는 경우에, 상기 전이 가중(71)은 상기 전이(74)와 비교하여 상대적으로 낮은 가능성을 갖는 상기 전이(75)를 나타낸다.
상기 참조 시리즈에서 각 주어진 k-mer 상태(73)로부터, 다음 k-mer 상태(73)를 넘어선 후속하는 k-mer 상태(73)로의 전이(76)가 허용된다. 다음 k-mer 상태로부터 측정이 얻어지지 않을 가능성을 모형화하였고, 상기 일련의 측정(12)에서 연속적인 측정이 분리되는 폴리머 유닛의 상기 참조 서열의 k-mers로부터 얻어진다. 이를 "스킵 (skip)"이라 할 수 있다. 각 확인된 그룹에 대해 측정의 선정된 수로 이루어지는, 측정의 연속적인 그룹을 확인하고, 일련의 처리된 측정을 유도하기 위해 상기 측정의 청크(63)가 사전-처리되는 경우에, 상기 전이 가중(71)은 상기 전이(74)와 비교하여 상대적으로 낮은 가능성을 갖는 상기 전이(76)를 나타낸다.
상기 전이(74)를 나타내는 상기 전이 가중(71)의 수준에 대해서 스킵과 체류에 대한 상기 전이들(75 및 76)을 나타내는 상기 전이 가중(71)의 수준이, 상기에 개시된 바와 같이, 상기 일반 모델(31)에서 스킵 및 체류에 대한 상기 전이 가중(61)과 동일한 방식으로 유도될 수 있다.
측정의 연속적인 그룹을 확인하고, 일련의 처리된 측정을 유도하기 위해 상기 측정의 청크(63)가 사전-처리되지 않는 대안으로서, 상기 부가의 분석이 상기 측정의 청크(63) 자체에서 수행되어지고, 그 후 상기 전이 가중(71)은 유사하지만, 상기 동일한 k-mer로부터 얻어지는 연속적인 측정의 가능성을 나타내기 위해 스킵을 나타내는 상기 전이(75)의 가능성을 증가시키도록 개조된다. 상기 전이(75)에 대한 전이 가중(71)의 수준은 임의의 주어진 k-mer로부터 얻어질 것으로 기대되는 측정 수에 의존하고, 또한 사용된 특정 생화학적 분석 시스템(1)에 대한 실험에 의해서 결정될 수 있다.
방출 가중(72)이 각 k-mer 상태에 대해 제공된다. 상기 방출 가중(72)은 상기 k-mer 상태가 관측될 때 관측되어진 다른 측정에 대한 가중이다. 그러므로, 상기 방출 가중(72)은 표제의 상기 k-mer 상태의 형태에 의존한다. 특히, 임의의 주어진 형태의 k-mer 상태에 대한 상기 방출 가중(72)은 상기에 개시된 바와 같이 상기 일반적 모델(60)에서 상기 k-mer 상태의 형태에 대한 상기 방출 가중(62)과 동일하다.
상기 측정의 청크(63)에 대한 상기 참조 모델(70)의 피트로서 유사도(65)의 척도를 제공하기 위한 상기 측정의 청크(63)의 시리즈로 상기 모델을 피팅하는 단계 C4d가 도 13를 참조하여 상기에 개시된 바와 같은 동일한 기술을 사용하여 수행되지만, 단 상기 참조 모델(70)은 상기 일반적 모델(60)을 대체한다.
상기 참조 모델(70)의 형태, 특히 k-mer 상태들(73)의 상기 참조 시리즈들 사이의 전이의 표시의 결과로서, 상기 모델의 적용은 상기 측정의 청크(63)와 상기 k-mer 상태(73)의 참조 시리즈 사이에 정렬 맵핑의 추정치를 유도한다. 상기는 하기에서 이해될 수 있다. 상기 일반적 모델(60)이 상기 k-mer 상태의 가능한 형태들 사이에서 전이를 나타낼 때, 상기 모델의 적용은 각 측정이 관측되는 k-mer 상태의 형태의 추정치를 제공한다. 상기 참조 모델(70)이 상기 k-mer 상태(73)의 참조 시리즈 사이의 전이를 나타낼 때, 상기 참조 모델(70)의 적용은 각 측정이 관측되는 상기 참조 서열의 상기 k-mer 상태(73)를 추정하고, 상기 일련의 측정들과 상기 k-mer 상태(73)의 참조 시리즈 사이의 정렬 맵핑이다.
또한, 상기 알고리즘은 상기 정렬 맵핑의 정확도에 대한 점수를 유도하고, 예를 들면, 상기 정렬 맵핑의 추정치가 정확하다는 가능성을 나타내고, 예를 들면 상기 알고리즘은 상기 모델을 통한 다른 경로에 대한 이러한 점수에 근거하여 상기 정렬 맵핑을 유도하기 때문이다. 그러므로, 상기 정렬 맵핑의 정확도에 대한 점수는 유사도(65)의 척도이다.
상기 참조 모델(70)이 HMM이고, 상기 적용된 분석 기술이 상기에 개시된 바와 같은 Viterbi 알고리즘인 경우의 예로서, 상기 점수는 상기 정렬 맵핑의 유도된 추정치와 관련하여 상기 참조 모델(70)에 의해서 예측된 가능성이다.
상기 일반적 모델(60)이 HMM인 경우의 다른 예로서, 상기 분석 기술은 상기에 개시된 바와 같은 Fariselli et al.에서 개시된 형태를 가질 수 있다. 다시 상기는 유사도(65)의 척도인 점수를 유도한다.
상기 참조 모델(70)이 하기에서와 같이 폴리머 유닛의 상기 참조 서열로부터, 또는 폴리머 유닛의 상기 참조 서열로부터 얻어진 측정으로부터 생성될 수 있다.
상기 참조 모델(70)이 하기에서와 같이 도 19에 개시된 공정에 의해서 폴리머 유닛(80)의 참조 서열로부터 생성될 수 있다. 상기 참조 서열이 예를 들면 라이브러리 또는 초기 실험으로부터 알려져 있는 용도에서 유용하다. 상기 폴리머 유닛(80)의 참조 서열을 나타내는 입력 데이터가 상기 데이터 프로세서(5)에 이미 저장될 수 있거나 또는 이에 입력될 수 있다.
상기 공정은 k-mer 상태의 가능한 형태의 세트, 타입-1에서 타입-n에 대해서 상기 방출 가중 e1 내지 en을 포함하는 저장된 방출 가중(81)을 사용한다. 유익하게, 상기는 k-mer 상태의 가능한 형태에 대해서 상기 저장된 방출 가중(81)에만 기반하여 폴리머 유닛(80)의 임의의 참조 서열에 대한 상기 참조 모델을 생성시킨다.
상기 공정이 하기에서 수행된다.
단계 P1에서, 상기 폴리머 유닛(80)의 참조 서열이 수신되고, k-mer 상태(73)의 참조 서열이 그로부터 생성된다. 이는 상기 참조 서열 중 각 k-mer 상태(73)에 대해서, 상기 k-mer 상태(73)가 해당하는 폴리머 유닛(80)의 형태의 조합에 기반하여 상기 k-mer 상태(73)의 형태를 수립하는 간단한 공정이다.
단계 P2에서, 상기 참조 모델이 하기에서 생성된다.
상기 전이 가중(71)이 단계 P1에서 유도된 상기 k-mer 상태(73)의 참조 시리즈 사이의 전이에 대해서 유도된다. 상기 전이 가중(71)이 전술한 형태를 취하고, 상기 k-mer 상태(73)의 참조 시리즈들에 대해 정의된다.
상기 방출 가중(72)이 상기 k-mer 상태(73)의 형태에 따라 상기 저장된 방출 가중(81)을 선택함으로써 단계 P1에서 유도된 상기 k-mer 상태(73)의 시리즈에서 각 k-mer 상태(73)에 대해서 유도된다. 예를 들면, 주어진 k-mer 상태(73)가 타입-4의 형태를 갖는다면, 상기 방출 가중 e4가 선택된다.
상기 참조 모델(70)이 하기에서와 같이 도 20에 개시된 공정에 의해서 상기 폴리머 유닛의 상기 참조 서열로부터 얻어진 일련의 참조 측정(93)으로부터 생성될 수 있다. 상기는 예를 들면 상기 폴리머 유닛의 참조 서열이 상기 표적 폴리머와 동시에 측정되는 용도에서 유용하다. 특히, 본 예에서, 상기 참조 서열에서 상기 폴리머 유닛의 동일성 자체가 알려져 있을 필요는 없다. 상기 일련의 참조 측정(93)이 상기 생화학적 분석 시스템(1)에 의해서 폴리머 유닛의 상기 참조 서열을 포함하는 상기 폴리머로부터 얻어질 수 있다.
상기 공정은 다른 가능한 형태의 k-mer 상태의 부가의 시리즈의 관측으로서 상기 일련의 참조 측정을 처리하는 부가의 모델(90)을 사용한다. 상기 부가의 모델(90)은 상기 일련의 참조 측정(93)을 수행하기 위해서 사용된 상기 생화학적 분석 시스템(1)의 모델이고, 예를 들면 WO-2013/041878에 개시된 형태의 전술한 상기 일반적 모델(60)과 동일할 수 있다. 그러므로, 상기 부가의 모델은 상기 k-mer 상태들의 부가의 시리즈에서 연속적인 k-mer 상태들 사이에 각 전이에 대해 k-mer 상태의 가능한 형태들 사이의 가능한 전이에 대한 전이 가중(91)인 전이 가중(91); 및 상기 k-mer 상태가 상기 형태를 가질 때 관측되어진 다른 측정에 대한 방출 가중(92)인 k-mer 상태의 각 형태에 대한 방출 가중(92)을 포함한다.
상기 공정은 하기에서 실시된다.
단계 Q1에서, 일련의 별개의 추정된 k-mer 상태로서 상기 k-mer 상태(73)의 참조 시리즈를 추정하기 위해서 상기 일련의 참조 측정(93)에 상기 부가의 모델(90)이 적용된다. 이는 전술한 기술을 사용하여 실시될 수 있다.
단계 Q2에서, 상기 참조 모델(70)이 하기에서 생성된다.
단계 Q1에서 유도된 상기 k-mer 상태(73)의 참조 시리즈 사이의 전이에 대해 상기 전이 가중(71)이 유도된다. 상기 전이 가중(71)은 전술한 형태를 취하고, 상기 k-mer 상태(73)의 참조 시리즈에 대해서 정의된다.
상기 k-mer 상태(73)의 형태에 따라 부가의 모델(50)의 가중으로부터 방출 가중을 선택함으로써, 단계 Q1에서 유도된 상기 k-mer 상태(73)의 시리즈에서 각 k-mer 상태(73)에 대해 상기 방출 가중(72)이 유도된다. 그러므로, 상기 참조 모델에서 k-mer 상태(73)의 각 형태에 대한 방출 가중은 상기 부가의 모델(50)에서 k-mer 상태(73)의 상기 형태에 대한 방출 가중과 동일하다.
도 7에 개시되고, 특히 본 발명의 제1 양태에 따른 방법의 다양한 적용의 예가, 폴리머 유닛의 상기 참조 서열의 특성, 단계 C4에서 결정의 근거 및 가능한 시간 절약의 표시를 설명하기 위해서 서술될 것이다. 하기의 예에서, 상기 폴리머는 폴리뉴클레오티드이고, 먼저 상기 250개의 뉴클레오티드의 측정 후에 참조 서열과의 비교하여 (a) 상기 참조 서열과 관련이 있는지의 여부 및 (b) 상기 전체 서열에 대한 그 위치를 결정하기에 충분할 것이라고 추정되어진다. 그러나, 상기 숫자는 더 많거나 또는 더 적을 수 있다. 결정을 만들기 위해서 필요한 폴리머 유닛의 수가 고정될 필요는 없을 것이다. 통상적으로, 상기 결정이 만들어질 수 있을 때까지 연속적 근거로 측정이 계속하여 실시될 것이다.
상기 적용의 각 형태에 대해서, 도 7에 개시된 방법이 약간 다르게 사용될 수 있다. 상기 형태의 적용의 혼합이 또한 사용될 수 있다. 단계 C3에서 수행된 분석 및/또는 단계 C4에서 결정의 근거가 상기 실행이 진행될 때 동적으로 조정될 수 있다. 예를 들면, 처음에도 결정 논리가 적용되지 않으며, 결정을 만들기 위한 충분한 데이터가 축적되어진 후에 논리가 실행에 사용된다. 대안으로서, 상기 결정 논리가 실행 중에 변화될 수 있다.
제1 적용 형태에서, 상기 참조 데이터(50)가 유도되는 폴리머 유닛의 참조 서열은 원하지 않는 서열이고, 단계 C4에서, 상기 일부 이송된 폴리머가 원하지 않는 서열임을 나타내는 유사도의 척도에 반응하여 상기 폴리머를 거절하는 결정이 만들어진다.
상기 제1 적용 형태는 다중 전위 사용 (multiple potential uses)을 갖는다. 예를 들면, 생물체의 게놈의 불완전한 부분을 시퀀싱하기 위해서 이러한 용도가 사용될 수 있다. 상기 생물체의 게놈이 일부 정의되었지만, 그러나 상기 서열이 불완전하다면, 상기 서열의 불완전한 부분은 본 발명의 방법을 사용하여 결정될 수 있다. 이러한 구현예에서, 상기 참조 서열은 상기 게놈의 완전한 부분의 서열일 수 있다. 상기 폴리머는 상기 생물체로부터 폴리뉴클레오티드의 단편일 수 있다. 상기 유사도의 척도는 상기 폴리머가 상기 참조 서열 (즉, 상기 게놈의 이미 정의된 부분의 서열)임을 나타낸다면, 상기 폴리머가 거절되고, 새로운 폴리머가 상기 나노포어에 의해서 수용될 수 있다. 이는 상기 참조 서열과 유사하지 않은 폴리머가 상기 나노포어를 통해서 일부 이송되어질 때까지 반복될 수 있고, 이러한 폴리머는 상기 게놈의 이미 정의되지 않은 부분에 해당할 것이고, 상기 나노포어에 유지될 수 있고, 그 전체가 시퀀싱될 수 있다. 상기 방법은 상기 게놈의 정의되지 않은 부분을 신속하게 시퀀싱하도록 한다.
상기 제1 적용 형태는 또한 사람의 DNA를 포함하는 폴리머의 시료로부터 폴리머를 시퀀싱하는데 유익하게 사용될 수 있다. 사람 DNA의 시퀀싱은 이와 관련된 윤리적 문제를 갖는다. 그러므로, 폴리머의 시료를 시퀀싱하고, 사람의 DNA의 서열을 무시하는데 유용할 수 있다 (예를 들어, 사람 환자로부터 추출된 시료에서 박테리의 동정). 이러한 경우에, 상기 참조 서열 (원하지 않는 서열)은 사람 게놈일 수 있다. 상기 사람 게놈의 일부에 해당한다고 나타내는 유사도의 척도를 갖는 임의의 폴리머가 거절될 수 있고, 상기 사람의 게놈에 해당되지 않는 것으로 나타내는 유사도의 척도를 갖는 폴리머가 상기 나노포어에 보유될 수 있고, 완전하게 시퀀싱될 수 있다. 그러므로, 상기 유사도의 척도가 상기 참조 서열의 일부와 유사함을 나타내는 방법의 예이다. 본 출원에서, 상기 방법은 사람 DNA를 시퀀싱하는 것을 회피하고, 상기 박테리아 DNA가 시퀀싱되도록 한다. 상기 박테리아는 사람 장기로부터의 시료인 경우, 상기 박테리아 DNA (본 발명자가 시퀀싱을 원하는 DNA 또는 "온 타겟 (on target)" DNA임)는 상기 DNA의 대략 5%이고, 상기 시료 중 상기 DNA의 95%는 사람의 DNA ("오프 타겟 (off-target) DNA")이다. 각 단편의 약 250bp (base-pairs)의 서열은 상기 요구되는 유사도의 척도를 제공하기에 충분할 것으로 가정한다면, 상기 폴리머는 초당 25개 염기의 속도로 상기 포어를 통해서 이송될 수 있고, 그 후 상기 표적 DNA가 아닌 폴리머, 즉 사람의 DNA 참조 서열과 유사한 DNA ("오프-타겟" 폴리머)가 배출되기 전에 대략 10초 동안 상기 나노포어를 통해 이송할 것이다. 그러므로, 상기 나노포어는 오프-타겟 폴리머를 포함하는 시간의 상대량이 95% x 10 = 9.5인 것으로 사료될 수 있다. 한편, 상기 DNA가 10Kb의 단편으로 단편화되는 것을 가정하여, 온-타겟 DNA의 하나의 단편을 시퀀싱하는데 걸리는 시간의 양은 10,000/25일 것이고, 이는 400초이다. 그러므로, 상기 나노포어는 온-타겟 폴리머를 포함하는 시간의 상대량은 5% x 400인 것으로 사료될 수 있으며, 이는 20초이다. 그러므로, 상기 나노포어는 온-타겟 가닥을 포함하는 시간의 비율이, 상기 나노포어가 온-타겟 가닥을 포함하는 시간 / 상기 나노포어가 오프-타겟 가닥을 포함하는 시간 + 상기 나노포어가 온-타겟 가닥을 포함하는 시간인 것으로 사료될 수 있고, 이는 20/29.5이다. 한편, 상기 오프-타겟 가닥이 그 전체로 시퀀싱되어야 한다면, 상기 나노포어가 오프-타겟 가닥을 포함하는 시간의 상대량은 95% x 400이고, 이는 380이며, 그러므로 상기 나노포어가 온-타겟 가닥을 포함하는 시간의 비율은 20/380인 것으로 사료될 수 있다. 이는 약 13.6 배의 효율을 나타낸다.
상기 제1 적용 형태는 또한 시료 중 오염물을 시퀀싱하는데 유익하게 사용될 수 있다. 이러한 구현예에서, 상기 참조 서열은 시료 중에 존재하는 것으로 알려져 있는 성분들의 서열일 수 있다. 예를 들어, 이는 식품, 예컨대 소고기 제품과 같은 육류 제품에서 오염물을 검출하기 위해서 사용될 수 있다. 상기 경우에, 상기 참조 서열은 상기 식품에서 유래되는 생물체로부터 폴리뉴클레오티드의 서열 (예를 들어, 상기 생물체의 게놈)일 수 있다. 상기 참조 서열은 소의 게놈의 서열일 수 있다. 이들이 소의 게놈에 해당한다고 나타내는 유사도의 척도를 갖는 시료 중 임의의 폴리머가 거절될 수 있고, 반면에 이들이 상기 소의 게놈에 해당하지 않는다고 나타내는 유사도의 척도를 갖는 폴리머는 상기 나노포어에 유지되어서 완전하게 시퀀싱될 수 있다. 이는 상기 오염물의 특성을 알 필요 없이, 상기 오염물의 특성을 빠르고 간단하게 정의할 수 있다. 이는 의심되는 오염물의 지식을 필요로 하는 정량적 PCR과 같은 종래 방법보다 유익하다. 상기 DNA의 99%가 오프-타겟 (육류 DNA)이고, 또한 상기 DNA의 1%가 온-타겟 (예를 들면, 오염물)인 것을 가정하여, 본 발명의 방법은 상기 나노포어가 원하지 않는 폴리머를 배출할 수 없는 경우보다 약 29배 더 효과적일 수 있다.
제2 적용 형태에서, 상기 참조 데이터(50)가 유도되는 폴리머 유닛의 참조 서열이 타겟이고, 단계 C4에서, 상기 폴리머를 거절하는 결정은 상기 일부 이송된 폴리머가 표적이 아님을 나타내는 유사도의 척도에 반응하여 만들어진다.
상기 제2 적용 형태는 DNA의 시료로부터 관심있는 유전자를 시퀀싱하는데 유익하게 사용될 수 있다. 이러한 적용에서, 상기 참조 서열은 폴리뉴클레오티드의 일부, 예컨대 관심있는 유전자일 수 있는 표적이고, 상기 폴리머는 상기 시료로부터 DNA와 같은 폴리뉴클레오티드의 단편을 포함할 수 있다. 이들이 상기 표적 (관심있는 유전자)과 유사하지 않음을 나타내는 유사도의 척도를 갖는 시료 중 임의의 폴리머가 거절될 수 있다. 상기 남아있는 폴리머가 유지 및 시퀀싱될 수 있다. 이는 관심있는 유전자의 시퀀싱을 신속하게 진행시키고, 이를 시퀀싱하기 전에 관심 있는 표적 유전자의 분리를 필요로 하는 종래 방법보다 유익하다 (예를 들면, 고체 표면에 부착된 프로브에 관심있는 유전자의 하이브리드화에 의함). 이러한 분리 기술은 시간을 소모시키고, 본 발명의 방법을 사용할 때 요구되지 않는다. 이러한 적용의 일 예로는 상기 사람 게놈의 시퀀싱일 수 있다. 상기 사람 게놈은 50Mb (Mega-bases)의 코딩 서열을 포함한다. 상기 50Mb를 시퀀싱하고, 나머지 3,000Mb를 시퀀싱하지 않을 수 있어서 이상적일 수 있다. 그러므로, "오프 타겟"인 DNA의 양 (거절되어야 함)은 3,000Mb이다. 상기 DNA가 길이가 약 10Kb의 단편으로 단편화될 수 있으므로, 3,000Mb는 대략 300,000개의 단편을 나타낼 것이다. 각 단편의 약 250bp의 서열은 요구된 유사도의 척도를 제공하기에 충분하다고 가정하여, 상기 폴리머는 초당 25 염기의 속도로 상기 포어를 통해 이송될 수 있고, 상기 표적 폴리머와 유사하지 않은 폴리머 ("오프-타겟" 사람의 DNA)는 배출되기 전 대략 10초 동안 상기 나노포어를 통해 이송될 것이다. 300,000개의 오프-타겟 단편이 있기 때문에, 상기 오프-타겟 단편은 나노포어당 약 3,000,000 초 동안 상기 포어 중에 유지될 것이다 (단편의 수 × 상기 포어에 각 단편이 유지되는 시간 - 대략 10초). 상기 표적 폴리머 ("온-타겟")와 유사한 상기 남아있는 50Mb는 2,000초가 걸릴 것이다 (초당 25 염기에서, 50,000,000/25 또는 2,000,000초와 동일한 시간이 걸릴 것임). 상기 표적 폴리머의 상기 개시된 50Mb를 시퀀싱하는데 걸리는 전체 시간은 오프-타겟 폴리머를 시퀀싱하는데 걸리는 시간의 양과 온-타겟 폴리머를 시퀀싱하는데 걸리는 시간의 양의 합이고, 이는 나노포어 당 3,000,000 + 2,000,000 또는 5,000,000 초이다. 한편, 상기 300,000개의 오프-타겟 단편의 각각의 전체가 시퀀싱된다면, 상기 게놈을 한번에 시퀀싱하기 위해서, 3,000,000,000/25 (3,000Mb가 초당 25 염기쌍의 속도로 시퀀싱됨) + 2,000,000 (상기 온-타겟 서열을 시퀀싱하는데 걸리는 시간)이 걸릴 수 있고, 이는 포어당 122,000,000초 (50배 이상 더 길다)이다.
상기 제2 적용 형태는 시료 (예를 들면 병원에 있는 환자로부터 유도되는) 중 박테리아가 항생제 내성이 있는지 여부를 확인하게 위해서 유익하게 사용될 수 있다. 여기서 상기 참조 서열은 특정 항생제 내성 유전자에 해당하는 폴리뉴클레오티드일 수 있는 표적일 것이다. 이들이 상기 표적 항생제 내성 유전자에 유사하지 않다고 나타내는 유사도의 척도를 갖는 시료 중 임의의 폴리머가 거절될 것이다. 이들이 상기 항생제 내성 유전자에 유사하다고 나타내는 유사도의 척도를 갖는 폴리머가 검출되지 않는다면, 이는 상기 박테리아가 상기 특정 항생제 내성 유전자를 소실했다는 것을 나타낼 수 있다. 대안으로서, 이들이 상기 항생제 내성 유전자와 유사하다고 나타내는 유사도의 척도를 갖는 폴리머가 검출된다면, 이들이 유지 및 시퀀싱될 수 있고, 상기 항생제 내성 유전자가 기능을 갖는지 여부를 결정하기 위해서 상기 서열이 사용된다. 이러한 경우에, 상기 오프-타겟 폴리머 (상기 박테리아의 게놈)는 약 5000kb일 것이고, 상기 온-타겟 폴리머 (관심있는 영역)는 약 5kb일 것이다. 전술한 바와 같은 동일한 추정을 만든다는 것은 본 발명의 방법은, 상기 나노포어가 원하지 않는 폴리머를 배출할 수 없는 경우보다 대략 40배 더 빠르게 DNA를 시퀀싱할 수 있다는 것을 의미한다.
상기 제2 적용 형태는 또한 전체 박테리아 mRNA를 시퀀싱하는데 유익하게 사용될 수 있다. 이러한 경우에, mRNA를 시퀀싱할 수 있지만, 그러나 rRNA 또는 tRNA의 서열을 무시할 수 있는 것이 바람직하다. 여기서 상기 참조 서열은 표적 서열, 예컨대 상기 박테리아 게놈의 주석이 달린 버젼 (annotated version)일 수 있다. 상기 폴리머는 상기 박테리아의 시료로부터 RNA를 포함할 수 있다. 이들이 상기 표적 박테리아 게놈과 유사하지 않음을 나타내는 유사도의 척도를 갖는 시료 중 임의의 폴리머는 rRNA 또는 tRNA에 관련될 것이고, 거절될 수 있다. 상기 남아있는 폴리머는 mRNA에 해당할 것이고, 상기 전체 박테리아 mRNA의 서열을 제공하기 위해서 시퀀싱화될 수 있다. 이러한 경우에, 상기 온-타겟 폴리머는 상기 mRNA일 수 있고 (이는 상기 전체 RNA의 대략 5%임), 상기 오프-타겟 폴리머는 상기 tRNA 및 상기 rRNA일 수 있고, 이는 상기 전체 RNA의 대략 95%이다. 전술한 바와 같은 동일한 추정치를 사용하여, 본 발명자들은 시퀀싱 효율에서 약 8.4배의 증가를 기대할 것이다.
상기 제2 적용 형태는 표현형 분석(phenotyping) 또는 SNP (single-nucleotide polymorphism) 검출을 위한, 박테리아 균주를 확인하기 위해서 유익하게 사용될 수 있고, 여기서 상기 박테리아의 균주가 알려져 있지 않다. 예를 들면, 상기 경우에, 상기 폴리머는 박테리아 시료로부터 폴리뉴클레오티드의 단편일 수 있다. 처음에 폴리머가 거절되지 않고 (참조 서열이 사용되지 않음), 상기 포어를 통해 일부 이송된 임의의 폴리머가 시퀀싱되지만, 그러나 사용자가 상기 박테리아 균주를 결정하기에 충분한 서열 정보가 얻어지는 경우, 참조 서열이 선택된다. 상기 참조 서열은 관심있는 표적 영역에 해당할 것이고, 정의되어진 박테리아의 종에 의존할 것이다. 일단 상기 참조 서열이 정의되어진 경우, 상기 포어를 통해 일부 이송되고, 또한 이들이 참조 서열 (관심있는 표적 부위)과 유사하다는 것을 나타내는 유사도의 척도를 갖는 임의의 폴리머가 유지되고, 완전하게 시퀀싱되고, 반면에 다른 폴리머들이 거절될 수 있다. 이는 표현형 또는 SNPs의 존재를 검출할 것이다.
유사하게, 상기 제2 적용 형태는 암의 표현형 분석에 유용할 수 있다. 본 적용에서, 상기 폴리머는 암 환자로부터 수득된 폴리뉴클레오티드의 단편일 수 있다. 처음에, 상기 참조 서열은 표적 서열일 수 있다. 상기 표적 서열은 폴리뉴클레오티드의 서열, 예컨대 암의 다른 부류들과 관련된 유전자의 서열일 수 있다. 상기 표적 서열들과 유사도의 척도를 갖는 임의의 폴리머가 보유될 것이고, 다른 폴리머가 거절될 것이다. 그러나, 상기 암의 부류가 확인되어지면, 상기 참조 서열은 암의 하위-부류와 관련된 폴리뉴클레오티드의 서열을 갖는 표적을 포함하도록 상기 참조 서열이 정제될 수 있다.
제3 적용 형태에서, 상기 참조 데이터(50)가 유도된 폴리머 유닛의 상기 참조 서열은 폴리머 유닛의 이미 측정된 서열이고, 단계 C4에서, 상기 폴리머를 거절하는 결정은 상기 일부 이송된 폴리머가 폴리머 유닛의 이미 측정된 서열임을 나타내는 유사도의 척도에 반응하여 만들어진다.
이러한 적용 형태는 게놈을 정확하게 시퀀싱하는데 사용될 수 있다. 게놈의 서열의 결정은 DNA의 다수의 가닥의 시퀀스가 수행되고, 정확도를 위해서 상기 DNA의 일부에 대한 컨센서스 (consensus) 서열이 결정될 것이 필요하다. 그러므로, 상기 서열의 동일한 부분에 해당하는 폴리머는 정확한 컨센서스 서열을 한정할 수 있는 충분한 시간동안 시퀀싱되어야 한다. 이러한 이유로, 본 발명의 방법은 게놈을 빠르고 정확하게 시퀀싱하는데 사용될 수 있다. 예를 들면, 상기 폴리머는 상기 게놈이 한정되어진 상기 생물체의 DNA의 시료로부터 DNA를 포함할 수 있다. 상기 참조 서열은 충분한 측정이 이미 취해진 상기 DNA의 일부이다 (정확한 컨센서스 서열을 제공하기 위해서 충분한 서열 데이터가 수득되어진 경우). 처음에 서열이 거절되지 않는다. 그러나, 상기 게놈의 일부에 대한 충분한 서열 데이터가 수득되어져서 정확한 컨센서스 서열을 산출하도록 산출되어지면, 상기 컨센서스 서열은 표적 (참조 서열)이 된다. 상기 포어를 통해 일부 이송되고, 또한 이들이 상기 참조 서열 (정확한 컨센서스 서열이 이미 정의되어진 DNA의 일부)과 유사함을 나타내는 유사도의 척도를 갖는 임의의 폴리머가 거절될 수 있고, 충분한 정보가 이미 수집되어지지 않은 상기 게놈의 다른 부분을 시퀀싱하기 위해 상기 나노포어를 비워준다.
제4 적용 형태에서, 상기 참조 데이터(50)가 유도되는 폴리머 유닛의 참조 서열은 복수의 표적을 포함하고, 단계 C4에서, 상기 폴리머를 거절하는 결정은 상기 일부 이송된 폴리머가 상기 표적들 중 하나임을 나타내는 유사도의 척도에 반응하여 만들어진다.
이는 표적 폴리머의 시료 중 각 표적 폴리머의 비율을 정량화하기 위해서 사용될 수 있는 카운팅 방법 (counting method)이다. 예를 들면, 상기 표적은 다른 폴리머를 나타낼 수 있다. 폴리머가 상기 나노포어를 통해 일부 이송되는 경우, 이들이 상기 참조 서열에 유사함을 나타내는 유사도의 척도를 갖는 임의의 폴리머는 하나의 "버킷 (bucket)"으로 배정될 수 있고, 각 "버킷"에 속하는 것으로 검출된 폴리머의 수가 정량화될 수 있다. 이러한 구현예에서, 상기 참조 서열들 중 하나와 유사하다고 나타내는 유사도의 척도를 갖는지 여부를 결정하기 위해서 상기 폴리머에 대한 충분한 정보가 수득되면 상기 폴리머가 거절될 것이다. 이러한 기술의 사용의 예는 오염물의 정량화이다. 예를 들면 상기 폴리머는 식품, 예컨대 소고기 제품의 시료일 수 있다. 이러한 경우에, 상기 참조 서열은 소의 DNA에서 발견되는 서열을 갖는 표적 및 말의 DNA에서 발견되는 서열을 갖는 표적을 포함할 수 있다. 상기 소의 DNA 표적과 유사한 폴리머의 비율 및 상기 말의 DNA와 유사한 폴리머의 비율이 상기 방법을 사용하여 산출될 수 있고, 이는 말 고기를 갖는 소고기 제품의 오염의 수준을 나타낼 것이다.
유사하게, 사용된 참조 서열은 다른 박테리아에서 발견된 서열을 갖는 표적을 포함한다면, 상기 기술은 시료, 예컨대 감염된 환자로부터의 시료 중 존재하는 다른 박테리아의 비율을 결정하기 위해서 사용될 수 있다.
도 16에 개시된 방법은 정렬 맵핑을 생성할 수 있다. 상기 방법은 하기에서 더 일반적으로 적용될 수 있다.
도 21은 (a) 폴리머 유닛을 포함하는 폴리머의 일련의 측정과, (b) 폴리머 유닛의 참조 서열 사이에 정렬 맵핑을 추정하는 방법을 보여준다. 상기 방법이 하기에서 수행된다.
도 21에 개시된 바와 같이, 상기 방법으로의 입력은, 상기 생화학적 분석 시스템(1)에 의해 폴리머 유닛의 서열로부터 일련의 원 측정을 취하고, 이들을 전술한 바와 같이 사전-처리함으로써 유도된 일련의 측정(12)일 수 있다. 대안으로서, 상기 방법으로의 입력은 일련의 원 측정(11)일 수 있다.
상기 방법은 상기 폴리머 유닛의 참조 서열의 참조 모델(70)을 사용하고, 상기 참조 모델(70)이 상기 데이터 프로세서(5)의 메모리(10)에 저장된다. 상기 참조 모델(70)은 전술한 바와 같은 동일한 형태를 취하여, 폴리머 유닛의 상기 참조 서열에 해당하는 k-mer 상태들의 참조 시리즈의 관측으로서 상기 측정을 처리한다.
상기 참조 모델(70)이 정렬 단계 S1에서 사용된다. 특히, 정렬 단계 S1에서, 상기 참조 모델(70)이 상기 일련의 측정(12)에 적용된다. 정렬 단계 S1이 상기 단계 C4d와 동일한 방식으로 수행된다. 즉 상기 측정의 청크(63)에 대한 상기 참조 모델(70)의 피트로서 유사도(65)의 척도를 제공하기 위해 상기 측정의 청크(63)의 시리즈로 상기 모델을 피팅함으로써 수행된 정렬 단계 S1이, 단 상기 참조 모델(70)이 상기 일반 모델(60)로 대체되는 것을 제외하고, 도 13을 참고하여, 전술한 바와 동일한 기술을 사용하여 수행된다.
상기 참조 모델(70)의 형태, 특히 상기 k-mer 상태(73)의 참조 시리즈들 사이에 전이의 표시의 결과로서, 상기 모델의 적용은, 상기 일련의 측정과 상기 k-mer 상태들(73)의 참조 시리즈 사이에 정렬 맵핑의 추정치(13)를 본질적으로 유도한다. 이는 하기에서 이해될 수 있다. 상기 일반적 모델(60)이 k-mer 상태의 가능한 형태들 사이에 전이를 나타낼 때, 상기 모델의 적용은 각 측정이 관측되는 k-mer 상태의 형태의 추정치를 제공하며, 즉 상기 k-mer 상태(34)의 추정치의 초기 시리즈 및 각 측정이 관측되는 상기 k-mer 상태의 형태를 추정하는 상기 개별 추정된 k-mer 상태(35)가 관측된다. 상기 참조 모델(70)이 상기 k-mer 상태(73)의 참조 시리즈들 사이에 전이를 나타낼 때, 상기 참조 모델(70)의 적용은 각 측정이 관측되는 상기 참조 서열의 상기 k-mer 상태(73)를 추정하고, 이는 상기 일련의 측정과 상기 k-mer 상태(73)의 참조 시리즈들 사이에 정렬 맵핑이다.
상기 참조 서열의 상기 폴리머 유닛과 상기 참조 시리즈의 k-mer 상태들(73) 사이에 본래의 맵핑이 있을 때, 상기 일련의 측정과 k-mer 상태(73)의 참조 시리즈 사이의 정렬 맵핑은 또한 상기 일련의 측정과 상기 폴리머 유닛의 참조 서열 사이의 정렬 맵핑을 제공한다.
도 22는 그 특성을 설명하기 위한 정렬 맵핑의 예를 나타낸다. 특히 도 22는 상기 참조 서열의 폴리머 유닛들 p0 내지 p7, 상기 참조 시리즈의 k-mer 상태들 k1 내지 k6 및 측정들 m1 내지 m7 사이의 정렬 맵핑을 나타낸다. 본 예에서 예시하여, k는 3이다. 상기 수평선은 k-mer 상태와 측정 사이의 정렬을 나타내고, 또는 대시(dash)의 경우에 다른 시리즈에서 갭(gap)에 대한 정렬을 나타낸다. 그러므로, 고유하게 상기 참조 서열의 상기 폴리머 유닛 p0 내지 p7이 개시된 바와 같이 상기 참조 시리즈의 k-mer 상태들 k1 내지 k6로 정렬된다. k-mer 상태 k1은 폴리머 유닛들 p1 내지 p3에 해당되고, 맵핑된다. 상기 참조 시리즈의 k-mer 상태들 k1 내지 k6와 측정들 m1 내지 m7 사이의 맵핑에 대해서: k-mer 상태 k1이 측정 m1에 맵핑되고, k-mer 상태 k2가 측정 m2에 맵핑되며, k-mer 상태 k3이 상기 일련의 측정에서 갭에 맵핑되고, k-mer 상태 k4가 측정 m3에 맵핑되며, 또한 측정들 m4 및 m5가 상기 k-mer 상태의 시리즈에서 갭에 맵핑된다.
적용된 방법에 따라서, 상기 정렬 맵핑의 추정치(13)의 형태가 하기에서 다양할 수 있다.
상기에 언급된 바와 같이, 상기 정렬 단계 S1에 적용된 분석 기술은 상기 참조 모델(70)의 형태에 적당한 다양한 형태를 취할 수 있다. 예를 들면, 상기 참조 모델(70)이 HMM인 경우에, 상기 분석 기술은 상기 HMM을 해결하기 위해 알려져 있는 알고리즘, 예를 들면 Forwards-Backwards 알고리즘 또는 Viterbi 알고리즘일 수 있고, 이는 당분야에 잘 알려져 있다. 상기 알고리즘은 일반적으로 상기 상태들의 서열을 통해 모든 가능한 경로의 가능성의 억지 산출 (brute force calculation)을 회피하고, 대신에 상기 가능성에 기반한 간단한 방법을 사용하여 상태 서열을 확인한다.
상기 정렬 단계 S1에 적용된 일부 기술에 의해서, 상기 정렬 맵핑의 유도된 추정치(13)는 상기 시리즈에서 각 측정(12)에 대해서, 상기 k-mer 상태(73)의 참조 시리즈들에서 다른 k-mer 상태들(73)에 대한 가중을 포함한다. 예를 들면, 이러한 정렬 맵핑은 M i,j 로 나타낼 수 있고, 여기서 지수 i는 측정을 나타내고, 지수 j는 상기 참조 시리즈에서 상기 k-mer 상태를 나타내며, 그러므로 K개의 k-mer 상태가 있는 경우에, 값들 M i,1 내지 M i,K 는 상기 k-mer 상태(73)의 참조 시리즈에서 각 k-mer 상태(73)에 대해 i번째 측정에 대한 가중을 나타낸다. 상기 경우에, 상기 추정치(13)는 각 측정에 대해 맵핑될 때 단일한 k-mer 상태(73)를 나타내지 않지만, 대신에 그렇게 각 측정에 맵핑되는 다른 가능한 k-mer 상태(73)에 대한 가중을 제공한다.
상기 참조 모델(70)이 HMM인 경우의 예로서, 상기 적용된 분석 기술이 전술한 Forwards-Backwards 알고리즘일 때 상기 유도된 추정치는 상기 형태를 가질 수 있다. 상기 Forwards-Backwards 알고리즘에서, 주어진 k-mer 상태로 끝나는 모든 서열의 전체 가능성이 상기 전이 및 방출 가중들을 사용하여 전방 및 후방 방향에 대해서 회귀적으로 산출된다. 전방 및 후방 가능성이 주어진 k-mer 상태로부터 각 측정의 가능성을 산출하기 위한 상기 데이터의 전체 가능성과 함께 조합된다. 상기 후부 매트릭스로 불리는 상기 가능성의 매트릭스는 상기 정렬 맵핑의 추정치(13)이다.
이러한 경우에, 후속 채점 단계 S2 (임의적임)에서, 상기 정렬 맵핑의 추정치(13)가 정확한지의 가능성을 나타내는 점수(14)가 유도된다. 이는 간단한 확률 기술을 사용하여 상기 정렬 맵핑 자체의 추정치(13)로부터 유도될 수 있거나, 또는 대안으로서 정렬 단계 S1의 본래의 부분으로 유도될 수 있다.
상기 정렬 단계 S1에 적용된 다른 기술에 의해서, 상기 정렬 맵핑의 상기 유도된 추정치(13)는, 상기 시리즈에서 각 측정에 대해서, 상기 k-mer 상태의 참조 시리즈에서 k-mer 상태의 별개의 추정치를 포함한다. 예를 들면, 이러한 정렬 맵핑은 M i 로 나타낼 수 있고, 상기 지수 i는 상기 측정을 나타내고, M i 는 상기 K개의 k-mer 상태들을 나타내는 값 1 내지 k를 취할 수 있다. 상기 경우에, 상기 추정치(13)는 각 측정으로 맵핑되어질 때 단일한 k-mer 상태(73)를 나타낸다.
상기 참조 모델(70)이 HMM인 경우의 예로서, 상기 유도된 추정치는 상기 적용된 분석 기술이 전술한 바와 같이 Viterbi 알고리즘인 경우 상기 형태를 가질 수 있고, 상기 분석 기술은 상기 k-mer 상태의 참조 시리즈들에 의해서 생성되어진 상기 일련의 측정의 모델에 의해서 예측된 가능성에 기반하여 k-mers의 서열을 추정한다.
상기 정렬 맵핑의 유도된 추정치(13)가 k-mer 상태의 별개의 추정을 포함하는 경우에, 상기 알고리즘은, 상기 정렬 맵핑의 추정치(13)가 정확한지의 가능성을 나타내는 점수(14)를 본질적으로 유도하고, 이는 상기 알고리즘은 상기 모델을 통해서 다른 경로에 대한 점수에 기반하여 상기 정렬 맵핑을 유도하기 때문이다. 그러므로 상기 경우에 개별 채점 단계 S2가 수행되지 않는다. 상기 참조 모델(70)이 HMM이고, 또한 상기 적용된 분석 기술이 전술한 바와 같은 Viterbi 알고리즘인 경우의 예로서, 상기 점수는 간단하게 상기 정렬 맵핑의 유도된 추정치(13)와 관련된 모델에 의해서 예측된 가능성이다.
도 21에 개시된 방법은, 상기 정렬 맵핑의 가능성이 정확함을 나타내는 점수 및/또는 폴리머 유닛의 참조 서열 및 폴리머의 일련의 측정 사이에 정렬 맵핑을 추정하는 것이 바람직한 광범위한 용도를 갖는다. 이러한 정렬 맵핑의 추정이 다양한 용도, 예컨대 시료 중 폴리머의 존재, 부재 또는 정도의 확인 또는 검출, 예를 들면 진단을 제공하기 위해서 참조군과 비교함으로써 다양한 용도에서 사용될 수 있다. 특정 용도의 가능한 범위는 광범위하고, DNA 서열을 갖는 임의의 분석물의 검출에 적용될 수 있다.
상기 예는 단일한 참조 모델(70)을 나타낸다. 많은 적용에서, 다수의 참조 모델(70)이 사용될 수 있다. 도 21에 개시된 방법이 각 참조 모델(70)을 사용하여 적용될 수 있거나, 또는 상기 참조 모델(70) 중 하나가 선택될 수 있다. 상기 선택은 상기 적용에 따라서 다양한 기준에 기반하여 만들어질 수 있다. 예를 들면, 상기 참조 모델(8)의 선택이 실제 사용된 센서 장치(2)의 형태 및/또는 상기 실제 주위 조건에 기반하는 경우에 상기 참조 모델(70)이 센서 장치(2)의 다른 형태 (즉, 다른 나노포어) 및/또는 주위 조건에 적용가능할 수 있다. 다른 예에서, 상기 선택은 검출되어질 분석물에 기반하여 만들어 질 수 있고, 예를 들면 특히 G/C가 풍부한지 여부 또는 상기 실험이 특정 후생적 정보를 결정할지의 여부에 기반한다.
그러므로, 본 발명의 제4 양태에 따르면, (a) 측정이, 상기 폴리머의 k개의 폴리머 유닛인, k-mer에 의존하고, 여기서 k가 정수인, 폴리머 유닛을 포함하는 폴리머의 일련의 측정과, (b) 폴리머 유닛의 참조 서열 사이에 정렬 맵핑을 추정하는 방법이 제공되며;
상기 방법은 상기 폴리머 유닛의 참조 서열에 해당하는 k-mer 상태의 참조 시리즈의 관측으로서 상기 측정을 처리하는 참조 모델을 사용하고, 상기 참조 모델은:
상기 k-mer 상태의 참조 시리즈에서 상기 k-mer 상태들 사이에 전이에 대한 전이 가중; 및
각 k-mer 상태에 대해서, 상기 k-mer 상태가 관측될 때 관측되는 다른 측정에 대한 방출 가중을 포함하고;
상기 방법은, 상기 일련의 측정과, 폴리머 유닛의 상기 참조 서열에 해당하는 k-mer 상태의 상기 참조 시리즈 사이에 정렬 맵핑의 추정치를 유도하기 위해서 상기 일련의 측정에 대해 상기 참조 모델을 적용하는 단계를 포함한다.
하기 특성은 임의 조합으로 본 발명의 제4 양태에 임의로 적용될 수 있다:
상기 정렬 맵핑의 추정치는, 상기 시리즈에서 각 측정에 대해서, 상기 k-mer 상태의 참조 시리즈에서 맵핑된 k-mer 상태의 별개의 추정치를 포함할 수 있다.
상기 정렬 맵핑의 추정치는, 상기 시리즈에서 각 측정에 대해서, 상기 k-mer 상태의 참조 시리즈에서 다른 맵핑된 k-mer 상태들에 대한 가중을 포함할 수 있다.
상기 방법은 상기 정렬 맵핑의 추정치가 정확한지의 가능성을 나타내는 점수를 유도하는 단계를 더 포함할 수 있다.
상기 방법은 k-mer 상태의 가능한 형태의 세트에 대해 저장된 방출 가중을 사용하여 폴리머 유닛의 상기 참조 서열로부터 상기 참조 모델을 생성하는 단계를, 하기를 포함하는 공정에 의해서, 더 포함할 수 있다;
폴리머 유닛의 수신된 참조 서열에 해당하는 상기 k-mer 상태들의 시리즈를 유도하는 단계;
상기 유도된 k-mer 상태의 시리즈에서 상기 k-mer 상태들 사이에 전이에 대한 전이 가중을 생성하고, 또한 상기 k-mer 상태의 형태에 따른 저장된 방출 가중으로부터 상기 유도된 시리즈 중 각 k-mer 상태에 대한 방출 가중을 선택함으로써 상기 참조 모델을 생성하는 단계.
상기 방법은 상기 폴리머 유닛의 참조 서열을 포함하는 폴리머의 참조 측정의 시리즈로부터 상기 참조 모델을 생성하는 단계를 더 포함할 수 있다.
상기 참조 모델을 생성하는 단계는 다른 가능한 형태의 k-mer 상태의 부가의 시리즈의 관측으로서 상기 일련의 참조 측정을 처리하는 부가의 모델을 사용할 수 있고, 상기 부가의 모델은:
k-mer 상태의 부가의 시리즈에서 연속적인 k-mer 상태들 사이의 각 전이에 대해서, 상기 k-mer 상태들의 가능한 형태들 사이에 가능한 전이에 대한 전이 가중; 및
k-mer 상태의 각 형태에 대해서, 상기 k-mer 상태가 상기 형태를 갖는 경우 관측되어진 다른 측정에 대한 방출 가중을 포함하고,
상기 참조 모델을 생성하는 단계는:
상기 일련의 참조 측정에 상기 부가의 모델을 적용함으로써 상기 k-mer 상태의 추정치의 참조 시리즈들을 생성하는 단계; 및
상기 k-mer 상태들의 추정치의 상기 생성된 참조 시리즈에서 상기 k-mer 상태들 사이에 전이에 대한 전이 가중을 생성하고, 또한 상기 k-mer 상태의 형태에 따른 상기 부가의 모델의 가중으로부터 추정치의 상기 생성된 참조 시리즈에서 각 k-mer 상태에 대한 방출 가중을 선택함으로써 상기 참조 모델을 생성하는 단계를 포함한다.
상기 참조 모델이 사전-저장될 수 있다.
상기 전이 가중 및 상기 방출 가중 중 하나 또는 둘 다는 확률일 수 있다.
상기 모델은 Hidden Markov Model일 수 있다.
상기 정수 k는 복수의 정수 (plural integer)일 수 있다.
상기 측정은 나노포어를 통한 상기 폴리머의 이송 중에 얻어진 측정일 수 있다.
나노포어를 통한 상기 폴리머의 이송이 래칫 방식 (ratcheted manner)으로 수행될 수 있다.
상기 나노포어는 생물학적 포어일 수 있다.
상기 폴리머는 폴리뉴클레오티드일 수 있고, 상기 폴리머 유닛은 뉴클레오티드일 수 있다.
단일 측정은 k-mer에 의존할 수 있거나, 또는 다른 특성을 갖는 측정의 선정된 복수의 횟수는 동일한 k-mer에 의존할 수 있다.
상기 측정은 전류 측정, 임피던스 측정, 터널링 측정, 전계 효과 트랜지스터 측정 및 광학 측정의 하나 이상을 포함할 수 있다.
상기 참조 모델이 메모리에 저장될 수 있다.
상기 방법은, 상기 일련의 측정으로 상기 참조 모델을 적용하는 단계 이전에, 상기 그룹에서 측정 수의 사전 지식 없이, 복수의 원 측정의 일련의 원 측정 그룹은 상기 동일한 k-mer에 의존하는, 상기 폴리머로부터 일련의 원 측정을 수신하고, 또한
측정의 연속적인 그룹을 확인하기 위해서 상기 일련의 원 측정을 처리하고, 또한 각 확인된 그룹에 대해서 상기 일련의 측정을 형성하기 위해서 다른 형태의 단일 측정 또는 복수의 측정을 유도하는 단계에 의해서 상기 일련의 측정을 유도하는 단계를 더 포함할 수 있다.
상기 방법은 상기 폴리머로부터 상기 일련의 원 측정을 얻는 단계를 더 포함할 수 있다.
상기 복수의 일련의 측정의 각각에서, 복수의 측정의 그룹은, 상기 그룹에서 측정 수의 사전 지식 없이, 동일한 k-mer에 의존할 수 있다.
상기 방법은 상기 폴리머로부터 상기 일련의 측정을 얻는 단계를 더 포함할 수 있다.
서열목록
Figure 112017045890749-pct00001
Figure 112017045890749-pct00002
Figure 112017045890749-pct00003
Figure 112017045890749-pct00004
Figure 112017045890749-pct00005
Figure 112017045890749-pct00006
Figure 112017045890749-pct00007
Figure 112017045890749-pct00008
Figure 112017045890749-pct00009
SEQUENCE LISTING <110> OXFORD NANOPORE TECHNOLOGIES LIMITED <120> ANALYSIS OF A POLYMER <130> N403966WO <150> GB 1418379.2 <151> 2014-10-16 <150> GB 1418366.9 <151> 2014-10-16 <150> GB 1507742.3 <151> 2014-05-10 <160> 9 <170> PatentIn version 3.5 <210> 1 <211> 558 <212> DNA <213> Artificial Sequence <220> <223> MS-(B1)8 = MS-(D90N/D91N/D93N/D118R/D134R/E139K)8 <400> 1 atgggtctgg ataatgaact gagcctggtg gacggtcaag atcgtaccct gacggtgcaa 60 caatgggata cctttctgaa tggcgttttt ccgctggatc gtaatcgcct gacccgtgaa 120 tggtttcatt ccggtcgcgc aaaatatatc gtcgcaggcc cgggtgctga cgaattcgaa 180 ggcacgctgg aactgggtta tcagattggc tttccgtggt cactgggcgt tggtatcaac 240 ttctcgtaca ccacgccgaa tattctgatc aacaatggta acattaccgc accgccgttt 300 ggcctgaaca gcgtgattac gccgaacctg tttccgggtg ttagcatctc tgcccgtctg 360 ggcaatggtc cgggcattca agaagtggca acctttagtg tgcgcgtttc cggcgctaaa 420 ggcggtgtcg cggtgtctaa cgcccacggt accgttacgg gcgcggccgg cggtgtcctg 480 ctgcgtccgt tcgcgcgcct gattgcctct accggcgaca gcgttacgac ctatggcgaa 540 ccgtggaata tgaactaa 558 <210> 2 <211> 184 <212> PRT <213> Artificial Sequence <220> <223> MS-(B1)8 = MS-(D90N/D91N/D93N/D118R/D134R/E139K)8 <400> 2 Gly Leu Asp Asn Glu Leu Ser Leu Val Asp Gly Gln Asp Arg Thr Leu 1 5 10 15 Thr Val Gln Gln Trp Asp Thr Phe Leu Asn Gly Val Phe Pro Leu Asp 20 25 30 Arg Asn Arg Leu Thr Arg Glu Trp Phe His Ser Gly Arg Ala Lys Tyr 35 40 45 Ile Val Ala Gly Pro Gly Ala Asp Glu Phe Glu Gly Thr Leu Glu Leu 50 55 60 Gly Tyr Gln Ile Gly Phe Pro Trp Ser Leu Gly Val Gly Ile Asn Phe 65 70 75 80 Ser Tyr Thr Thr Pro Asn Ile Leu Ile Asn Asn Gly Asn Ile Thr Ala 85 90 95 Pro Pro Phe Gly Leu Asn Ser Val Ile Thr Pro Asn Leu Phe Pro Gly 100 105 110 Val Ser Ile Ser Ala Arg Leu Gly Asn Gly Pro Gly Ile Gln Glu Val 115 120 125 Ala Thr Phe Ser Val Arg Val Ser Gly Ala Lys Gly Gly Val Ala Val 130 135 140 Ser Asn Ala His Gly Thr Val Thr Gly Ala Ala Gly Gly Val Leu Leu 145 150 155 160 Arg Pro Phe Ala Arg Leu Ile Ala Ser Thr Gly Asp Ser Val Thr Thr 165 170 175 Tyr Gly Glu Pro Trp Asn Met Asn 180 <210> 3 <211> 558 <212> DNA <213> Artificial Sequence <220> <223> MS-(B2)8 = MS-(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8 <400> 3 atgggtctgg ataatgaact gagcctggtg gacggtcaag atcgtaccct gacggtgcaa 60 caatgggata cctttctgaa tggcgttttt ccgctggatc gtaatcgcct gacccgtgaa 120 tggtttcatt ccggtcgcgc aaaatatatc gtcgcaggcc cgggtgctga cgaattcgaa 180 ggcacgctgg aactgggtta tcagattggc tttccgtggt cactgggcgt tggtatcaac 240 ttctcgtaca ccacgccgaa tattaacatc aacaatggta acattaccgc accgccgttt 300 ggcctgaaca gcgtgattac gccgaacctg tttccgggtg ttagcatctc tgcccgtctg 360 ggcaatggtc cgggcattca agaagtggca acctttagtg tgcgcgtttc cggcgctaaa 420 ggcggtgtcg cggtgtctaa cgcccacggt accgttacgg gcgcggccgg cggtgtcctg 480 ctgcgtccgt tcgcgcgcct gattgcctct accggcgaca gcgttacgac ctatggcgaa 540 ccgtggaata tgaactaa 558 <210> 4 <211> 184 <212> PRT <213> Artificial Sequence <220> <223> MS-(B2)8 = MS-(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8 <400> 4 Gly Leu Asp Asn Glu Leu Ser Leu Val Asp Gly Gln Asp Arg Thr Leu 1 5 10 15 Thr Val Gln Gln Trp Asp Thr Phe Leu Asn Gly Val Phe Pro Leu Asp 20 25 30 Arg Asn Arg Leu Thr Arg Glu Trp Phe His Ser Gly Arg Ala Lys Tyr 35 40 45 Ile Val Ala Gly Pro Gly Ala Asp Glu Phe Glu Gly Thr Leu Glu Leu 50 55 60 Gly Tyr Gln Ile Gly Phe Pro Trp Ser Leu Gly Val Gly Ile Asn Phe 65 70 75 80 Ser Tyr Thr Thr Pro Asn Ile Asn Ile Asn Asn Gly Asn Ile Thr Ala 85 90 95 Pro Pro Phe Gly Leu Asn Ser Val Ile Thr Pro Asn Leu Phe Pro Gly 100 105 110 Val Ser Ile Ser Ala Arg Leu Gly Asn Gly Pro Gly Ile Gln Glu Val 115 120 125 Ala Thr Phe Ser Val Arg Val Ser Gly Ala Lys Gly Gly Val Ala Val 130 135 140 Ser Asn Ala His Gly Thr Val Thr Gly Ala Ala Gly Gly Val Leu Leu 145 150 155 160 Arg Pro Phe Ala Arg Leu Ile Ala Ser Thr Gly Asp Ser Val Thr Thr 165 170 175 Tyr Gly Glu Pro Trp Asn Met Asn 180 <210> 5 <211> 485 <212> PRT <213> Escherichia coli <400> 5 Met Met Asn Asp Gly Lys Gln Gln Ser Thr Phe Leu Phe His Asp Tyr 1 5 10 15 Glu Thr Phe Gly Thr His Pro Ala Leu Asp Arg Pro Ala Gln Phe Ala 20 25 30 Ala Ile Arg Thr Asp Ser Glu Phe Asn Val Ile Gly Glu Pro Glu Val 35 40 45 Phe Tyr Cys Lys Pro Ala Asp Asp Tyr Leu Pro Gln Pro Gly Ala Val 50 55 60 Leu Ile Thr Gly Ile Thr Pro Gln Glu Ala Arg Ala Lys Gly Glu Asn 65 70 75 80 Glu Ala Ala Phe Ala Ala Arg Ile His Ser Leu Phe Thr Val Pro Lys 85 90 95 Thr Cys Ile Leu Gly Tyr Asn Asn Val Arg Phe Asp Asp Glu Val Thr 100 105 110 Arg Asn Ile Phe Tyr Arg Asn Phe Tyr Asp Pro Tyr Ala Trp Ser Trp 115 120 125 Gln His Asp Asn Ser Arg Trp Asp Leu Leu Asp Val Met Arg Ala Cys 130 135 140 Tyr Ala Leu Arg Pro Glu Gly Ile Asn Trp Pro Glu Asn Asp Asp Gly 145 150 155 160 Leu Pro Ser Phe Arg Leu Glu His Leu Thr Lys Ala Asn Gly Ile Glu 165 170 175 His Ser Asn Ala His Asp Ala Met Ala Asp Val Tyr Ala Thr Ile Ala 180 185 190 Met Ala Lys Leu Val Lys Thr Arg Gln Pro Arg Leu Phe Asp Tyr Leu 195 200 205 Phe Thr His Arg Asn Lys His Lys Leu Met Ala Leu Ile Asp Val Pro 210 215 220 Gln Met Lys Pro Leu Val His Val Ser Gly Met Phe Gly Ala Trp Arg 225 230 235 240 Gly Asn Thr Ser Trp Val Ala Pro Leu Ala Trp His Pro Glu Asn Arg 245 250 255 Asn Ala Val Ile Met Val Asp Leu Ala Gly Asp Ile Ser Pro Leu Leu 260 265 270 Glu Leu Asp Ser Asp Thr Leu Arg Glu Arg Leu Tyr Thr Ala Lys Thr 275 280 285 Asp Leu Gly Asp Asn Ala Ala Val Pro Val Lys Leu Val His Ile Asn 290 295 300 Lys Cys Pro Val Leu Ala Gln Ala Asn Thr Leu Arg Pro Glu Asp Ala 305 310 315 320 Asp Arg Leu Gly Ile Asn Arg Gln His Cys Leu Asp Asn Leu Lys Ile 325 330 335 Leu Arg Glu Asn Pro Gln Val Arg Glu Lys Val Val Ala Ile Phe Ala 340 345 350 Glu Ala Glu Pro Phe Thr Pro Ser Asp Asn Val Asp Ala Gln Leu Tyr 355 360 365 Asn Gly Phe Phe Ser Asp Ala Asp Arg Ala Ala Met Lys Ile Val Leu 370 375 380 Glu Thr Glu Pro Arg Asn Leu Pro Ala Leu Asp Ile Thr Phe Val Asp 385 390 395 400 Lys Arg Ile Glu Lys Leu Leu Phe Asn Tyr Arg Ala Arg Asn Phe Pro 405 410 415 Gly Thr Leu Asp Tyr Ala Glu Gln Gln Arg Trp Leu Glu His Arg Arg 420 425 430 Gln Val Phe Thr Pro Glu Phe Leu Gln Gly Tyr Ala Asp Glu Leu Gln 435 440 445 Met Leu Val Gln Gln Tyr Ala Asp Asp Lys Glu Lys Val Ala Leu Leu 450 455 460 Lys Ala Leu Trp Gln Tyr Ala Glu Glu Ile Val Ser Gly Ser Gly His 465 470 475 480 His His His His His 485 <210> 6 <211> 268 <212> PRT <213> Escherichia coli <400> 6 Met Lys Phe Val Ser Phe Asn Ile Asn Gly Leu Arg Ala Arg Pro His 1 5 10 15 Gln Leu Glu Ala Ile Val Glu Lys His Gln Pro Asp Val Ile Gly Leu 20 25 30 Gln Glu Thr Lys Val His Asp Asp Met Phe Pro Leu Glu Glu Val Ala 35 40 45 Lys Leu Gly Tyr Asn Val Phe Tyr His Gly Gln Lys Gly His Tyr Gly 50 55 60 Val Ala Leu Leu Thr Lys Glu Thr Pro Ile Ala Val Arg Arg Gly Phe 65 70 75 80 Pro Gly Asp Asp Glu Glu Ala Gln Arg Arg Ile Ile Met Ala Glu Ile 85 90 95 Pro Ser Leu Leu Gly Asn Val Thr Val Ile Asn Gly Tyr Phe Pro Gln 100 105 110 Gly Glu Ser Arg Asp His Pro Ile Lys Phe Pro Ala Lys Ala Gln Phe 115 120 125 Tyr Gln Asn Leu Gln Asn Tyr Leu Glu Thr Glu Leu Lys Arg Asp Asn 130 135 140 Pro Val Leu Ile Met Gly Asp Met Asn Ile Ser Pro Thr Asp Leu Asp 145 150 155 160 Ile Gly Ile Gly Glu Glu Asn Arg Lys Arg Trp Leu Arg Thr Gly Lys 165 170 175 Cys Ser Phe Leu Pro Glu Glu Arg Glu Trp Met Asp Arg Leu Met Ser 180 185 190 Trp Gly Leu Val Asp Thr Phe Arg His Ala Asn Pro Gln Thr Ala Asp 195 200 205 Arg Phe Ser Trp Phe Asp Tyr Arg Ser Lys Gly Phe Asp Asp Asn Arg 210 215 220 Gly Leu Arg Ile Asp Leu Leu Leu Ala Ser Gln Pro Leu Ala Glu Cys 225 230 235 240 Cys Val Glu Thr Gly Ile Asp Tyr Glu Ile Arg Ser Met Glu Lys Pro 245 250 255 Ser Asp His Ala Pro Val Trp Ala Thr Phe Arg Arg 260 265 <210> 7 <211> 666 <212> PRT <213> Thermus thermophilus <400> 7 Met Arg Asp Arg Val Arg Trp Arg Val Leu Ser Leu Pro Pro Leu Ala 1 5 10 15 Gln Trp Arg Glu Val Met Ala Ala Leu Glu Val Gly Pro Glu Ala Ala 20 25 30 Leu Ala Tyr Trp His Arg Gly Phe Arg Arg Lys Glu Asp Leu Asp Pro 35 40 45 Pro Leu Ala Leu Leu Pro Leu Lys Gly Leu Arg Glu Ala Ala Ala Leu 50 55 60 Leu Glu Glu Ala Leu Arg Gln Gly Lys Arg Ile Arg Val His Gly Asp 65 70 75 80 Tyr Asp Ala Asp Gly Leu Thr Gly Thr Ala Ile Leu Val Arg Gly Leu 85 90 95 Ala Ala Leu Gly Ala Asp Val His Pro Phe Ile Pro His Arg Leu Glu 100 105 110 Glu Gly Tyr Gly Val Leu Met Glu Arg Val Pro Glu His Leu Glu Ala 115 120 125 Ser Asp Leu Phe Leu Thr Val Asp Cys Gly Ile Thr Asn His Ala Glu 130 135 140 Leu Arg Glu Leu Leu Glu Asn Gly Val Glu Val Ile Val Thr Asp His 145 150 155 160 His Thr Pro Gly Lys Thr Pro Ser Pro Gly Leu Val Val His Pro Ala 165 170 175 Leu Thr Pro Asp Leu Lys Glu Lys Pro Thr Gly Ala Gly Val Val Phe 180 185 190 Leu Leu Leu Trp Ala Leu His Glu Arg Leu Gly Leu Pro Pro Pro Leu 195 200 205 Glu Tyr Ala Asp Leu Ala Ala Val Gly Thr Ile Ala Asp Val Ala Pro 210 215 220 Leu Trp Gly Trp Asn Arg Ala Leu Val Lys Glu Gly Leu Ala Arg Ile 225 230 235 240 Pro Ala Ser Ser Trp Val Gly Leu Arg Leu Leu Ala Glu Ala Val Gly 245 250 255 Tyr Thr Gly Lys Ala Val Glu Val Ala Phe Arg Ile Ala Pro Arg Ile 260 265 270 Asn Ala Ala Ser Arg Leu Gly Glu Ala Glu Lys Ala Leu Arg Leu Leu 275 280 285 Leu Thr Asp Asp Ala Ala Glu Ala Gln Ala Leu Val Gly Glu Leu His 290 295 300 Arg Leu Asn Ala Arg Arg Gln Thr Leu Glu Glu Ala Met Leu Arg Lys 305 310 315 320 Leu Leu Pro Gln Ala Asp Pro Glu Ala Lys Ala Ile Val Leu Leu Asp 325 330 335 Pro Glu Gly His Pro Gly Val Met Gly Ile Val Ala Ser Arg Ile Leu 340 345 350 Glu Ala Thr Leu Arg Pro Val Phe Leu Val Ala Gln Gly Lys Gly Thr 355 360 365 Val Arg Ser Leu Ala Pro Ile Ser Ala Val Glu Ala Leu Arg Ser Ala 370 375 380 Glu Asp Leu Leu Leu Arg Tyr Gly Gly His Lys Glu Ala Ala Gly Phe 385 390 395 400 Ala Met Asp Glu Ala Leu Phe Pro Ala Phe Lys Ala Arg Val Glu Ala 405 410 415 Tyr Ala Ala Arg Phe Pro Asp Pro Val Arg Glu Val Ala Leu Leu Asp 420 425 430 Leu Leu Pro Glu Pro Gly Leu Leu Pro Gln Val Phe Arg Glu Leu Ala 435 440 445 Leu Leu Glu Pro Tyr Gly Glu Gly Asn Pro Glu Pro Leu Phe Leu Leu 450 455 460 Phe Gly Ala Pro Glu Glu Ala Arg Arg Leu Gly Glu Gly Arg His Leu 465 470 475 480 Ala Phe Arg Leu Lys Gly Val Arg Val Leu Ala Trp Lys Gln Gly Asp 485 490 495 Leu Ala Leu Pro Pro Glu Val Glu Val Ala Gly Leu Leu Ser Glu Asn 500 505 510 Ala Trp Asn Gly His Leu Ala Tyr Glu Val Gln Ala Val Asp Leu Arg 515 520 525 Lys Pro Glu Ala Leu Glu Gly Gly Ile Ala Pro Phe Ala Tyr Pro Leu 530 535 540 Pro Leu Leu Glu Ala Leu Ala Arg Ala Arg Leu Gly Glu Gly Val Tyr 545 550 555 560 Val Pro Glu Asp Asn Pro Glu Gly Leu Asp Tyr Ala Arg Lys Ala Gly 565 570 575 Phe Arg Leu Leu Pro Pro Glu Glu Ala Gly Leu Trp Leu Gly Leu Pro 580 585 590 Pro Arg Pro Val Leu Gly Arg Arg Val Glu Val Ala Leu Gly Arg Glu 595 600 605 Ala Arg Ala Arg Leu Ser Ala Pro Pro Val Leu His Thr Pro Glu Ala 610 615 620 Arg Leu Lys Ala Leu Val His Arg Arg Leu Leu Phe Ala Tyr Glu Arg 625 630 635 640 Arg His Pro Gly Leu Phe Ser Glu Ala Leu Leu Ala Tyr Trp Glu Val 645 650 655 Asn Arg Val Gln Glu Pro Ala Gly Ser Pro 660 665 <210> 8 <211> 226 <212> PRT <213> Bacteriophage lambda <400> 8 Met Thr Pro Asp Ile Ile Leu Gln Arg Thr Gly Ile Asp Val Arg Ala 1 5 10 15 Val Glu Gln Gly Asp Asp Ala Trp His Lys Leu Arg Leu Gly Val Ile 20 25 30 Thr Ala Ser Glu Val His Asn Val Ile Ala Lys Pro Arg Ser Gly Lys 35 40 45 Lys Trp Pro Asp Met Lys Met Ser Tyr Phe His Thr Leu Leu Ala Glu 50 55 60 Val Cys Thr Gly Val Ala Pro Glu Val Asn Ala Lys Ala Leu Ala Trp 65 70 75 80 Gly Lys Gln Tyr Glu Asn Asp Ala Arg Thr Leu Phe Glu Phe Thr Ser 85 90 95 Gly Val Asn Val Thr Glu Ser Pro Ile Ile Tyr Arg Asp Glu Ser Met 100 105 110 Arg Thr Ala Cys Ser Pro Asp Gly Leu Cys Ser Asp Gly Asn Gly Leu 115 120 125 Glu Leu Lys Cys Pro Phe Thr Ser Arg Asp Phe Met Lys Phe Arg Leu 130 135 140 Gly Gly Phe Glu Ala Ile Lys Ser Ala Tyr Met Ala Gln Val Gln Tyr 145 150 155 160 Ser Met Trp Val Thr Arg Lys Asn Ala Trp Tyr Phe Ala Asn Tyr Asp 165 170 175 Pro Arg Met Lys Arg Glu Gly Leu His Tyr Val Val Ile Glu Arg Asp 180 185 190 Glu Lys Tyr Met Ala Ser Phe Asp Glu Ile Val Pro Glu Phe Ile Glu 195 200 205 Lys Met Asp Glu Ala Leu Ala Glu Ile Gly Phe Val Phe Gly Glu Gln 210 215 220 Trp Arg 225 <210> 9 <211> 608 <212> PRT <213> Bacteriophage phi-29 <400> 9 Met Lys His Met Pro Arg Lys Met Tyr Ser Cys Ala Phe Glu Thr Thr 1 5 10 15 Thr Lys Val Glu Asp Cys Arg Val Trp Ala Tyr Gly Tyr Met Asn Ile 20 25 30 Glu Asp His Ser Glu Tyr Lys Ile Gly Asn Ser Leu Asp Glu Phe Met 35 40 45 Ala Trp Val Leu Lys Val Gln Ala Asp Leu Tyr Phe His Asn Leu Lys 50 55 60 Phe Asp Gly Ala Phe Ile Ile Asn Trp Leu Glu Arg Asn Gly Phe Lys 65 70 75 80 Trp Ser Ala Asp Gly Leu Pro Asn Thr Tyr Asn Thr Ile Ile Ser Arg 85 90 95 Met Gly Gln Trp Tyr Met Ile Asp Ile Cys Leu Gly Tyr Lys Gly Lys 100 105 110 Arg Lys Ile His Thr Val Ile Tyr Asp Ser Leu Lys Lys Leu Pro Phe 115 120 125 Pro Val Lys Lys Ile Ala Lys Asp Phe Lys Leu Thr Val Leu Lys Gly 130 135 140 Asp Ile Asp Tyr His Lys Glu Arg Pro Val Gly Tyr Lys Ile Thr Pro 145 150 155 160 Glu Glu Tyr Ala Tyr Ile Lys Asn Asp Ile Gln Ile Ile Ala Glu Ala 165 170 175 Leu Leu Ile Gln Phe Lys Gln Gly Leu Asp Arg Met Thr Ala Gly Ser 180 185 190 Asp Ser Leu Lys Gly Phe Lys Asp Ile Ile Thr Thr Lys Lys Phe Lys 195 200 205 Lys Val Phe Pro Thr Leu Ser Leu Gly Leu Asp Lys Glu Val Arg Tyr 210 215 220 Ala Tyr Arg Gly Gly Phe Thr Trp Leu Asn Asp Arg Phe Lys Glu Lys 225 230 235 240 Glu Ile Gly Glu Gly Met Val Phe Asp Val Asn Ser Leu Tyr Pro Ala 245 250 255 Gln Met Tyr Ser Arg Leu Leu Pro Tyr Gly Glu Pro Ile Val Phe Glu 260 265 270 Gly Lys Tyr Val Trp Asp Glu Asp Tyr Pro Leu His Ile Gln His Ile 275 280 285 Arg Cys Glu Phe Glu Leu Lys Glu Gly Tyr Ile Pro Thr Ile Gln Ile 290 295 300 Lys Arg Ser Arg Phe Tyr Lys Gly Asn Glu Tyr Leu Lys Ser Ser Gly 305 310 315 320 Gly Glu Ile Ala Asp Leu Trp Leu Ser Asn Val Asp Leu Glu Leu Met 325 330 335 Lys Glu His Tyr Asp Leu Tyr Asn Val Glu Tyr Ile Ser Gly Leu Lys 340 345 350 Phe Lys Ala Thr Thr Gly Leu Phe Lys Asp Phe Ile Asp Lys Trp Thr 355 360 365 Tyr Ile Lys Thr Thr Ser Glu Gly Ala Ile Lys Gln Leu Ala Lys Leu 370 375 380 Met Leu Asn Ser Leu Tyr Gly Lys Phe Ala Ser Asn Pro Asp Val Thr 385 390 395 400 Gly Lys Val Pro Tyr Leu Lys Glu Asn Gly Ala Leu Gly Phe Arg Leu 405 410 415 Gly Glu Glu Glu Thr Lys Asp Pro Val Tyr Thr Pro Met Gly Val Phe 420 425 430 Ile Thr Ala Trp Ala Arg Tyr Thr Thr Ile Thr Ala Ala Gln Ala Cys 435 440 445 Tyr Asp Arg Ile Ile Tyr Cys Asp Thr Asp Ser Ile His Leu Thr Gly 450 455 460 Thr Glu Ile Pro Asp Val Ile Lys Asp Ile Val Asp Pro Lys Lys Leu 465 470 475 480 Gly Tyr Trp Ala His Glu Ser Thr Phe Lys Arg Ala Lys Tyr Leu Arg 485 490 495 Gln Lys Thr Tyr Ile Gln Asp Ile Tyr Met Lys Glu Val Asp Gly Lys 500 505 510 Leu Val Glu Gly Ser Pro Asp Asp Tyr Thr Asp Ile Lys Phe Ser Val 515 520 525 Lys Cys Ala Gly Met Thr Asp Lys Ile Lys Lys Glu Val Thr Phe Glu 530 535 540 Asn Phe Lys Val Gly Phe Ser Arg Lys Met Lys Pro Lys Pro Val Gln 545 550 555 560 Val Pro Gly Gly Val Val Leu Val Asp Asp Thr Phe Thr Ile Lys Ser 565 570 575 Gly Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser 580 585 590 Gly Gly Gly Ser Gly Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys 595 600 605

Claims (44)

  1. 폴리머 유닛 (polymer units)의 서열을 포함하는 폴리머들을 분석하기 위한 생화학적 분석 시스템 (biochemical analysis system)을 조절하는 방법으로서, 상기 생화학적 분석 시스템은 나노포어 (nanopore)를 포함하는 적어도 하나의 센서 요소 (sensor element)를 포함하고, 상기 생화학적 분석 시스템은, 상기 센서 요소의 나노포어를 통한 상기 폴리머의 이송 (translocation) 중에, 센서 요소로부터 폴리머의 일련의 측정을 수행하도록 작동가능하며,
    상기 방법은, 폴리머가 상기 나노포어를 통해 일부 이송되어졌을 때, 상기 일부 이송된 폴리머의 폴리머 유닛의 서열과 적어도 하나의 참조 서열 (reference sequence) 사이에 유사도 (similarity)의 척도를 제공하기 위하여, 폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된 참조 데이터를 사용하여, 그 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정을 분석하는 단계, 및
    상기 유사도의 척도에 반응하여, 상기 폴리머를 거절하고 (reject), 또한 부가의 폴리머로부터 측정을 얻도록 상기 생화학적 분석 시스템을 작동시키는 단계를 포함하고,
    상기 폴리머는 폴리뉴클레오티드, 폴리펩티드, 및 폴리사카리드로 구성된 군에서 선택되는 것인, 방법.
  2. 청구항 1에 있어서, 상기 적어도 하나의 센서 요소는 상기 나노포어를 통해 이송 중인 폴리머를 배출 (eject)하도록 작동가능하고, 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정을 얻는 상기 생화학적 분석 시스템을 작동시키는 단계는 상기 나노포어로부터 상기 폴리머를 배출시키고, 또한 상기 나노포어에 부가의 폴리머를 수용하도록 상기 센서 요소를 작동시키는 단계를 포함하는 것인 방법.
  3. 청구항 2에 있어서, 상기 적어도 하나의 센서 요소는 상기 폴리머를 배출시키기에 충분한 배출 바이어스 전압 (bias voltage)의 적용에 의해서 상기 나노포어를 통해 이송 중인 폴리머를 배출하도록 작동가능하고, 상기 나노포어로부터 상기 폴리머를 배출하도록 상기 센서 요소를 작동시키는 단계가 배출 바이어스 전압을 적용함으로써 수행되고, 상기 나노포어에 부가의 폴리머를 수용하도록 상기 센서 요소를 작동시키는 단계가 이를 통해 부가의 폴리머를 이송시키기에 충분한 이송 바이어스 전압 (translocation bias voltage)을 적용함으로써 수행되는 것인 방법.
  4. 청구항 1에 있어서, 상기 생화학적 분석 시스템은 센서 요소의 어레이 (array)를 포함하고, 또한 다중 방식 (multiplexed manner)으로 선택된 센서 요소로부터 폴리머의 일련의 측정을 얻도록 작동가능하며, 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정을 얻도록 상기 생화학적 분석 시스템을 작동시키는 단계는 현재 선택된 센서 요소로부터 측정을 얻는 것을 중지시키고, 또한 새롭게 선택된 센서 요소로부터 측정을 얻는 것을 시작하도록 상기 생화학적 분석 시스템을 작동시키는 단계를 포함하는 것인 방법.
  5. 청구항 4에 있어서, 상기 측정은 상기 센서 요소로부터 얻어진 전기적 측정 (electrical measurements)을 포함하고, 상기 생화학적 분석 시스템은 전기적 다중 방식으로 선택된 센서 요소로부터 폴리머의 일련의 측정을 얻도록 작동가능한 것인 방법.
  6. 청구항 5에 있어서, 상기 생화학적 분석 시스템은:
    센서 요소로부터 전기적 측정을 얻을 수 있는 복수의 검출 채널 (detection channels)을 포함하고, 상기 어레이 중 센서 요소의 수는 상기 검출 채널의 수보다 더 많은 것인 검출 회로(detection circuit); 및
    상기 검출 채널을 다중 방식으로 개별의 센서 요소에 선택적으로 연결할 수 있는 스위치 배열 (switch arrangement)을 포함하는 것인 방법.
  7. 청구항 4에 있어서, 상기 센서 요소는 상기 센서 요소의 나노포어를 통해 이송 중인 폴리머를 배출하도록 조절가능하고, 상기 방법은, 상기 현재 선택된 센서 요소로부터 측정을 얻는 것을 중지하도록 상기 생화학적 분석 시스템을 작동시킬 때, 또한 상기 폴리머를 배출시킴으로써, 상기 나노포어가 부가의 폴리머를 수용하도록 상기 현재 선택된 센서 요소를 조절하는 단계를 더 포함하는 것인 방법.
  8. 청구항 1에 있어서, 상기 참조 데이터가 유도되는 폴리머 유닛의 상기 적어도 하나의 참조 서열은 원하지 않는 서열이고, 상기 폴리머를 거절하도록 생화학적 분석 시스템을 작동시키는 선택적 작동의 단계가, 상기 일부 이송된 폴리머가 상기 원하지 않는 서열임을 나타내는 유사도의 척도에 반응하여, 수행되는 것인 방법.
  9. 청구항 1에 있어서, 상기 참조 데이터가 유도되는 폴리머 유닛의 상기 적어도 하나의 참조 서열은 표적 (target)이고, 상기 폴리머를 거절하도록 생화학적 분석 시스템을 작동시키는 선택적 작동의 단계가, 상기 일부 이송된 폴리머가 상기 표적이 아님을 나타내는 유사도의 척도에 반응하여, 수행되는 것인 방법.
  10. 청구항 1에 있어서, 상기 참조 데이터가 유도되는 폴리머 유닛의 상기 적어도 하나의 참조 서열은 폴리머 유닛의 이미 측정된 서열이고, 상기 폴리머를 거절하도록 생화학적 분석 시스템을 작동시키는 선택적 작동의 단계가, 상기 일부 이송된 폴리머가 폴리머 유닛의 이미 측정된 서열임을 나타내는 유사도의 척도에 반응하여, 수행되는 것인 방법.
  11. 청구항 1에 있어서, 상기 참조 데이터가 유도되는 폴리머 유닛의 상기 적어도 하나의 참조 서열은 복수의 표적을 포함하고, 상기 폴리머를 거절하도록 생화학적 분석 시스템을 작동시키는 선택적 작동의 단계가, 상기 일부 이송된 폴리머가 상기 표적들 중 하나임을 나타내는 유사도의 척도에 반응하여, 수행되는 것인 방법.
  12. 청구항 1에 있어서,
    폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된 상기 참조 데이터는 생화학적 분석 시스템에 의해서 얻어진 실제 (actual) 또는 모의 (simulated) 측정들을 나타내고,
    상기 일부 이송 중 상기 폴리머로부터 얻어진 상기 일련의 측정을 분석하는 단계는:
    상기 일련의 측정을 상기 참조 데이터와 비교하는 단계를 포함하는 것인 방법.
  13. 청구항 1에 있어서, 폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된 상기 참조 데이터는 생화학적 분석 시스템에 의해서 얻어진 상기 측정들의 특징을 나타내는 시간-차수 특성 (time-ordered features)의 특성 벡터 (feature vector)를 나타내고,
    상기 일부 이송 중 상기 폴리머로부터 얻어진 상기 일련의 측정을 분석하는 단계는:
    상기 일련의 측정으로부터, 상기 측정의 특징을 나타내는 시간-차수 특성의 특성 벡터를 유도하는 단계, 및
    상기 유도된 특성 벡터를 상기 참조 데이터와 비교하는 단계를 포함하는 것인 방법.
  14. 청구항 1에 있어서,
    폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된 상기 참조 데이터는 상기 적어도 하나의 참조 서열의 폴리머 유닛의 동일성 (identity)을 나타내고,
    상기 일부 이송 중 상기 폴리머로부터 얻어진 상기 일련의 측정을 분석하는 단계는:
    상기 일부 이송된 폴리머의 폴리머 유닛의 서열의 폴리머 유닛의 동일성의 추정치를 제공하기 위해서 상기 일련의 측정을 분석하는 단계, 및
    상기 유사도의 척도를 제공하기 위해서 상기 추정치를 상기 참조 데이터와 비교하는 단계를 포함하는 것인 방법.
  15. 청구항 1에 있어서,
    상기 측정은, 폴리머의 k개의 폴리머 유닛인, k-mer에 의존하고, 여기서 k는 정수이며;
    상기 참조 데이터는 폴리머 유닛의 상기 참조 서열에 해당하는 k-mer 상태의 참조 시리즈의 관측 (observations)으로서 상기 측정을 처리하는 참조 모델을 나타내고, 상기 참조 모델은:
    상기 k-mer 상태의 참조 시리즈들에서 상기 k-mer 상태들 사이의 전이에 대한 전이 가중 (transition weightings); 및
    각 k-mer 상태에 대해, 상기 k-mer 상태가 관측될 때 관측되는 다른 측정에 대한 방출 가중 (emission weightings)을 포함하고,
    상기 일부 이송 중 상기 폴리머로부터 얻어진 상기 일련의 측정을 분석하는 단계는, 상기 일련의 측정에 대한 상기 모델의 피트 (fit)로서 유사도의 척도를 제공하기 위해서, 상기 일련의 측정의 시리즈에 상기 모델을 피팅하는 (fitting) 단계를 포함하는 것인 방법.
  16. 청구항 1에 있어서, 상기 측정은, 폴리머의 k개의 폴리머 유닛인, k-mer에 의존하고, 여기서 k는 정수인 것인 방법.
  17. 청구항 1에 있어서, 상기 나노포어는 생물학적 포어 (biological pore)인 것인 방법.
  18. 청구항 1 내지 17 중 어느 한 항에 있어서, 상기 폴리머는 폴리뉴클레오티드이고, 상기 폴리머 유닛은 뉴클레오티드인 것인 방법.
  19. 청구항 1 내지 17 중 어느 한 항에 있어서, 나노포어를 통한 상기 폴리머의 이송이 래칫 방식 (ratcheted manner)으로 수행되는 것인 방법.
  20. 청구항 1 내지 17 중 어느 한 항에 있어서, 상기 측정은 전기적 측정을 포함하는 것인 방법.
  21. 폴리머 유닛의 서열을 포함하는 폴리머들을 분석하기 위한 생화학적 분석 시스템으로서, 상기 생화학적 분석 시스템은 나노포어를 포함하는 적어도 하나의 센서 요소를 포함하고, 상기 생화학적 분석 시스템은, 상기 센서 요소의 나노포어를 통한 상기 폴리머의 이송 중에, 센서 요소로부터 폴리머의 일련의 측정을 얻도록 작동가능하며,
    상기 생화학적 분석 시스템이, 폴리머가 상기 나노포어를 통해 일부 이송되어졌을 때, 상기 일부 이송된 폴리머의 폴리머 유닛의 서열과 적어도 하나의 참조 서열 사이에 유사도의 척도를 제공하기 위하여, 폴리머 유닛의 적어도 하나의 참조 서열로부터 유도된 참조 데이터를 사용하여, 그 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정을 분석하도록 배열되고,
    상기 생화학적 분석 시스템이, 상기 유사도의 척도에 반응하여, 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정을 얻도록 배열되고,
    상기 폴리머는 폴리뉴클레오티드, 폴리펩티드, 및 폴리사카리드로 구성된 군에서 선택되는 것인, 생화학적 분석 시스템.
  22. 폴리머 유닛의 서열을 포함하는 폴리머들을 분석하기 위한 생화학적 분석 시스템을 조절하는 방법으로서, 상기 생화학적 분석 시스템은 나노포어를 포함하는 적어도 하나의 센서 요소를 포함하고, 상기 생화학적 분석 시스템은, 상기 센서 요소의 나노포어를 통한 상기 폴리머의 이송 중에, 센서 요소로부터 폴리머의 일련의 측정을 얻도록 작동가능하며,
    상기 방법은, 폴리머가 상기 나노포어를 통해 일부 이송되어졌을 때, 다른 가능한 형태의 k-mer 상태의 시리즈의 관측으로서 상기 측정을 처리하고, 또한: 상기 k-mer 상태들의 시리즈에서 연속적인 k-mer 상태들 사이에 각 전이에 대해, k-mer 상태의 가능한 형태들 사이에 가능한 전이에 대한 전이 가중; 및 상기 k-mer에 대한 주어진 측정 값을 관측하는 기회를 나타내는 k-mer 상태의 각 형태에 대한 방출 가중을 포함하는, 모델에 대한 피트의 척도를 유도함으로써 그 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정을 분석하는 단계, 및
    상기 피트의 척도에 반응하여, 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정을 얻도록 상기 생화학적 분석 시스템을 작동시키는 단계를 포함하고,
    상기 폴리머는 폴리뉴클레오티드, 폴리펩티드, 및 폴리사카리드로 구성된 군에서 선택되는 것인, 방법.
  23. 폴리머 유닛의 서열을 포함하는 폴리머들을 분석하기 위한 생화학적 분석 시스템으로서, 상기 생화학적 분석 시스템은 나노포어를 포함하는 적어도 하나의 센서 요소를 포함하고, 상기 생화학적 분석 시스템은, 상기 센서 요소의 나노포어를 통한 상기 폴리머의 이송 중에, 센서 요소로부터 폴리머의 일련의 측정을 얻도록 작동가능하며,
    상기 생화학적 분석 시스템이, 폴리머가 상기 나노포어를 통해 일부 이송되어졌을 때, 다른 가능한 형태의 k-mer 상태의 시리즈의 관측으로서 상기 측정을 처리하고, 또한: 상기 일련의 k-mer 상태들에서 연속적인 k-mer 상태들 사이에 각 전이에 대해, k-mer 상태의 가능한 형태들 사이에 가능한 전이에 대한 전이 가중; 및 상기 k-mer에 대한 주어진 측정 값을 관측하는 기회를 나타내는 k-mer 상태의 각 형태에 대한 방출 가중을 포함하는, 모델에 대한 피트의 척도를 유도함으로써 그 일부 이송 중에 상기 폴리머로부터 얻어진 상기 일련의 측정을 분석하도록 배열되고,
    상기 생화학적 분석 시스템이, 상기 피트의 척도에 반응하여, 상기 폴리머를 거절하고, 또한 부가의 폴리머로부터 측정을 얻도록 배열되고,
    상기 폴리머는 폴리뉴클레오티드, 폴리펩티드, 및 폴리사카리드로 구성된 군에서 선택되는 것인, 생화학적 분석 시스템.
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
KR1020177013088A 2014-10-16 2015-10-16 폴리머의 분석 KR102551897B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
GB1418379.2 2014-10-16
GBGB1418366.9A GB201418366D0 (en) 2014-10-16 2014-10-16 Estimating alignment mapping between polymer measurements and reference sequence
GB1418366.9 2014-10-16
GBGB1418379.2A GB201418379D0 (en) 2014-10-16 2014-10-16 Control of analysis of a polymer
GB1507742.3 2015-05-06
GBGB1507742.3A GB201507742D0 (en) 2015-05-06 2015-05-06 Control of analysis of a polymer
PCT/GB2015/053083 WO2016059427A1 (en) 2014-10-16 2015-10-16 Analysis of a polymer

Publications (2)

Publication Number Publication Date
KR20170069273A KR20170069273A (ko) 2017-06-20
KR102551897B1 true KR102551897B1 (ko) 2023-07-06

Family

ID=54337813

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177013088A KR102551897B1 (ko) 2014-10-16 2015-10-16 폴리머의 분석

Country Status (6)

Country Link
US (3) US10689697B2 (ko)
EP (2) EP3971300B1 (ko)
JP (1) JP6709213B2 (ko)
KR (1) KR102551897B1 (ko)
CN (2) CN115851894A (ko)
WO (1) WO2016059427A1 (ko)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3113287C (en) 2011-09-23 2022-12-20 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units
GB201202519D0 (en) 2012-02-13 2012-03-28 Oxford Nanopore Tech Ltd Apparatus for supporting an array of layers of amphiphilic molecules and method of forming an array of layers of amphiphilic molecules
BR112014020211A2 (pt) 2012-02-16 2017-07-04 Oxford Nanopore Tech Ltd métodos para analisar uma série ordenada por tempo de medições de um polímero, para estimar a presença, ausência ou quantidade de um polímero alvo, e para determinar uma alteração em um polímero, programa de computador, e, dispositivos de análise e de diagnóstico
GB201222928D0 (en) 2012-12-19 2013-01-30 Oxford Nanopore Tech Ltd Analysis of a polynucleotide
US10689697B2 (en) 2014-10-16 2020-06-23 Oxford Nanopore Technologies Ltd. Analysis of a polymer
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
GB201609221D0 (en) 2016-05-25 2016-07-06 Oxford Nanopore Tech Ltd Method
US10317392B2 (en) 2016-06-23 2019-06-11 Roche Sequencing Solutions, Inc. Formation and calibration of nanopore sequencing cells
GB201611770D0 (en) 2016-07-06 2016-08-17 Oxford Nanopore Tech Microfluidic device
GB201620450D0 (en) 2016-12-01 2017-01-18 Oxford Nanopore Tech Ltd Method
JP7383480B2 (ja) 2017-02-10 2023-11-20 オックスフォード ナノポール テクノロジーズ ピーエルシー 修飾ナノポア、それを含む組成物、およびそれらの使用
WO2018170552A1 (en) 2017-03-24 2018-09-27 Garvan Institute Of Medical Research "processing of sequencing data streams"
GB201707140D0 (en) 2017-05-04 2017-06-21 Oxford Nanopore Tech Ltd Method
SG11201903333SA (en) 2017-12-29 2019-08-27 Clear Labs Inc Automated priming and library loading services
GB2569977A (en) * 2018-01-05 2019-07-10 Oxford Nanopore Tech Ltd Method
US20210035473A1 (en) 2018-02-02 2021-02-04 Bayer Aktiengesellschaft Control of resistent harmful organisms
JP2021165634A (ja) * 2018-04-20 2021-10-14 株式会社Screenホールディングス 電流値データ取得方法および電流計測装置
GB201809323D0 (en) 2018-06-06 2018-07-25 Oxford Nanopore Tech Ltd Method
US10941342B2 (en) 2018-07-23 2021-03-09 Samsung Display Co., Ltd. Etchant composition and method of manufacturing wiring substrate using the same
GB201821155D0 (en) 2018-12-21 2019-02-06 Oxford Nanopore Tech Ltd Method
WO2020183172A1 (en) 2019-03-12 2020-09-17 Oxford Nanopore Technologies Inc. Nanopore sensing device and methods of operation and of forming it
GB2580988B (en) 2019-03-19 2022-04-13 Oxford Nanopore Tech Ltd Current measurement apparatus, molecular entity sensing apparatus, method of measuring a current, method of sensing a molecular entity
GB201907243D0 (en) * 2019-05-22 2019-07-03 Oxford Nanopore Tech Ltd Sensing interactions between molecular entities and nanapores
CN112578106B (zh) * 2020-04-13 2022-04-22 南京大学 一种纳米孔道单分子蛋白质测序仪
GB202016874D0 (en) 2020-10-23 2020-12-09 Oxford Nanopore Tech Ltd Nanopore support structure and manufacture thereof
CN115698331A (zh) 2020-06-18 2023-02-03 牛津纳米孔科技公开有限公司 使用检测器选择性地表征多核苷酸的方法
GB202009349D0 (en) 2020-06-18 2020-08-05 Oxford Nanopore Tech Ltd Method
CA3183049A1 (en) 2020-06-18 2021-12-23 Rebecca Victoria BOWEN Method
JP2023530695A (ja) 2020-07-17 2023-07-19 オックスフォード ナノポール テクノロジーズ ピーエルシー ナノ細孔感知素子
GB202103605D0 (en) 2021-03-16 2021-04-28 Oxford Nanopore Tech Ltd Alignment of target and reference sequences of polymer units
GB202118906D0 (en) 2021-12-23 2022-02-09 Oxford Nanopore Tech Ltd Method
WO2023222657A1 (en) 2022-05-17 2023-11-23 Oxford Nanopore Technologies Plc Method and adaptors
GB202215442D0 (en) * 2022-10-19 2022-11-30 Oxford Nanopore Tech Plc Analysis of a polymer
WO2024094966A1 (en) 2022-11-01 2024-05-10 Oxford Nanopore Technologies Plc Biochemical analysis system and method of controlling a biochemical analysis system
WO2024099985A1 (en) 2022-11-10 2024-05-16 Bayer Aktiengesellschaft Targeted crop protection product application based on genetic profiles
WO2024101988A1 (en) 2022-11-11 2024-05-16 Umc Utrecht Holding B.V. Computer-implemented method for identifying a dna modification
GB202307486D0 (en) 2023-05-18 2023-07-05 Oxford Nanopore Tech Plc Method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012009578A2 (en) 2010-07-14 2012-01-19 The Curators Of The University Of Missouri Nanopore-facilitated single molecule detection of nucleic acids
US20130071837A1 (en) 2004-10-06 2013-03-21 Stephen N. Winters-Hilt Method and System for Characterizing or Identifying Molecules and Molecular Mixtures
WO2013041878A1 (en) 2011-09-23 2013-03-28 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units
WO2013121224A1 (en) 2012-02-16 2013-08-22 Oxford Nanopore Technologies Limited Analysis of measurements of a polymer

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US6128587A (en) 1997-01-14 2000-10-03 The Regents Of The University Of California Method and apparatus using Bayesian subfamily identification for sequence analysis
JPH11178575A (ja) 1997-12-22 1999-07-06 Hitachi Ltd Dna塩基配列解析装置、方法及び記録媒体
US6267872B1 (en) 1998-11-06 2001-07-31 The Regents Of The University Of California Miniature support for thin films containing single channels or nanopores and methods for using same
WO2000039333A1 (en) 1998-12-23 2000-07-06 Jones Elizabeth Louise Sequencing method using magnifying tags
AU5631200A (en) 1999-06-22 2001-01-09 President And Fellows Of Harvard College Control of solid state dimensional features
WO2002042496A2 (en) 2000-11-27 2002-05-30 The Regents Of The University Of California Methods and devices for characterizing duplex nucleic acid molecules
US20020197618A1 (en) 2001-01-20 2002-12-26 Sampson Jeffrey R. Synthesis and amplification of unstructured nucleic acids for rapid sequencing
JP2002325581A (ja) 2001-04-27 2002-11-12 Adgene Co Ltd 核酸溶解曲線及び核酸解離曲線を用いた未知あるいは既知核酸変異検出法及び表示法
JP2003256435A (ja) 2002-03-06 2003-09-12 Fujitsu Ltd 配列データ統合処理方法、配列データ統合処理装置及び配列データ統合処理プログラム
JP2005176730A (ja) 2003-12-19 2005-07-07 Hitachi Ltd cDNA配列をゲノム配列にマッピングする方法
US20050136408A1 (en) 2003-12-19 2005-06-23 May Tom-Moy Methods and systems for characterizing a polymer
US7238485B2 (en) 2004-03-23 2007-07-03 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
KR100614827B1 (ko) 2004-05-06 2006-08-25 재단법인서울대학교산학협력재단 양방향 은닉 마코프 모델을 이용한 완숙한마이크로알엔에이 위치예측방법 및 이를 구현하기 위한컴퓨터 프로그램을 기록한 저장매체
WO2005124888A1 (en) 2004-06-08 2005-12-29 President And Fellows Of Harvard College Suspended carbon nanotube field effect transistor
US20060019259A1 (en) 2004-07-22 2006-01-26 Joyce Timothy H Characterization of biopolymers by resonance tunneling and fluorescence quenching
US20060073489A1 (en) * 2004-10-05 2006-04-06 Gangqiang Li Nanopore separation devices and methods of using same
GB0505971D0 (en) 2005-03-23 2005-04-27 Isis Innovation Delivery of molecules to a lipid bilayer
US20070048745A1 (en) * 2005-08-30 2007-03-01 Joyce Timothy H Systems and methods for partitioned nanopore analysis of polymers
US7960105B2 (en) * 2005-11-29 2011-06-14 National Institutes Of Health Method of DNA analysis using micro/nanochannel
US20100291548A1 (en) 2006-03-12 2010-11-18 Applera Corporation Methods of Detecting Target Nucleic Acids
WO2007137225A2 (en) 2006-05-19 2007-11-29 The University Of Chicago Method for indexing nucleic acid sequences for computer based searching
US7731826B2 (en) 2006-08-17 2010-06-08 Electronic Bio Sciences, Llc Controlled translocation of a polymer in an electrolytic sensing system
US20080092760A1 (en) 2006-10-19 2008-04-24 Heidelberger Druckmaschinen Ag Device and Method for Driving a Reversing Gripper in a Sheet-Processing Machine, Reversing Drum and Printing Press
US8003319B2 (en) 2007-02-02 2011-08-23 International Business Machines Corporation Systems and methods for controlling position of charged polymer inside nanopore
EP2122344B8 (en) 2007-02-20 2019-08-21 Oxford Nanopore Technologies Limited Lipid bilayer sensor system
CA2684801C (en) * 2007-04-04 2017-10-10 The Regents Of The University Of California Compositions, devices, systems, and methods for using a nanopore
US8698481B2 (en) 2007-09-12 2014-04-15 President And Fellows Of Harvard College High-resolution molecular sensor
GB2453377A (en) 2007-10-05 2009-04-08 Isis Innovation Transmembrane protein pores and molecular adapters therefore.
GB0724736D0 (en) 2007-12-19 2008-01-30 Oxford Nanolabs Ltd Formation of layers of amphiphilic molecules
US8628940B2 (en) 2008-09-24 2014-01-14 Pacific Biosciences Of California, Inc. Intermittent detection during analytical reactions
CN103695530B (zh) 2008-07-07 2016-05-25 牛津纳米孔技术有限公司 酶-孔构建体
JP2011527191A (ja) 2008-07-07 2011-10-27 オックスフォード ナノポア テクノロジーズ リミテッド 塩基検出細孔
EP3029467B1 (en) 2008-09-22 2020-01-08 University of Washington Msp nanopores and related methods
WO2010053820A1 (en) 2008-10-29 2010-05-14 Trustees Of Boston University Sequence preserved dna conversion
US8452546B1 (en) 2008-11-07 2013-05-28 Electronic Biosciences, Inc. Method for deducing a polymer sequence from a nominal base-by-base measurement
JP2012516145A (ja) 2009-01-30 2012-07-19 オックスフォード ナノポア テクノロジーズ リミテッド ハイブリダイゼーションリンカー
AU2010209528B2 (en) 2009-01-30 2015-10-01 Oxford Nanopore Technologies Limited Adaptors for nucleic acid constructs in transmembrane sequencing
GB0905140D0 (en) 2009-03-25 2009-05-06 Isis Innovation Method
US8986928B2 (en) 2009-04-10 2015-03-24 Pacific Biosciences Of California, Inc. Nanopore sequencing devices and methods
EP2422198B1 (en) 2009-04-20 2013-09-25 Oxford Nanopore Technologies Limited Lipid bilayer sensor array
EP3196645B1 (en) 2009-09-18 2019-06-19 President and Fellows of Harvard College Bare single-layer graphene membrane having a nanopore enabling high-sensitivity molecular detection and analysis
JP5873023B2 (ja) * 2009-12-01 2016-03-01 オックスフォード ナノポール テクノロジーズ リミテッド 生化学分析機器
US8748091B2 (en) 2009-12-18 2014-06-10 The Board Of Trustees Of The University Of Illinois Characterizing stretched polynucleotides in a synthetic nanopassage
US8324914B2 (en) 2010-02-08 2012-12-04 Genia Technologies, Inc. Systems and methods for characterizing a molecule
CA3211104A1 (en) * 2010-02-23 2011-09-01 University Of Washington Artificial mycolic acid membranes
EP2580588B1 (en) 2010-06-08 2014-09-24 President and Fellows of Harvard College Nanopore device with graphene supported artificial lipid membrane
CN103392008B (zh) * 2010-09-07 2017-10-20 加利福尼亚大学董事会 通过持续性酶以一个核苷酸的精度控制dna在纳米孔中的移动
WO2012109483A2 (en) 2011-02-09 2012-08-16 Life Technologies Corporation A method of analysis of genetic markers
US9751915B2 (en) 2011-02-11 2017-09-05 Oxford Nanopore Technologies Ltd. Mutant pores
WO2012135658A2 (en) 2011-03-30 2012-10-04 Noblegen Biosciences, Inc. Sequence preserved dna conversion for optical nanopore sequencing
US9702849B2 (en) 2011-04-04 2017-07-11 President And Fellows Of Harvard College Nanopore sensing by local electrical potential measurement
SG10201604316WA (en) 2011-05-27 2016-07-28 Oxford Nanopore Tech Ltd Coupling method
US9145623B2 (en) 2011-07-20 2015-09-29 Thermo Fisher Scientific Oy Transposon nucleic acids comprising a calibration sequence for DNA sequencing
AU2012288629B2 (en) 2011-07-25 2017-02-02 Oxford Nanopore Technologies Limited Hairpin loop method for double strand polynucleotide sequencing using transmembrane pores
US9758823B2 (en) 2011-10-21 2017-09-12 Oxford Nanopore Technologies Limited Enzyme method
EP2798083B1 (en) 2011-12-29 2017-08-09 Oxford Nanopore Technologies Limited Method for characterising a polynucelotide by using a xpd helicase
US10385382B2 (en) 2011-12-29 2019-08-20 Oxford Nanopore Technologies Ltd. Enzyme method
CN104254771B (zh) 2012-01-20 2018-01-12 吉尼亚科技公司 基于纳米孔的分子检测与测序
JP6312607B2 (ja) 2012-02-16 2018-04-18 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 酵素仲介タンパク質トランスロケーションのためのナノポアセンサー
WO2013153359A1 (en) 2012-04-10 2013-10-17 Oxford Nanopore Technologies Limited Mutant lysenin pores
US10612083B2 (en) 2012-04-19 2020-04-07 University Of Washington Through Its Center For Commercialization Methods and compositions for generating reference maps for nanopore-based polymer analysis
WO2013185137A1 (en) * 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing
EP2875154B1 (en) 2012-07-19 2017-08-23 Oxford Nanopore Technologies Limited SSB method for characterising a nucleic acid
EP2875128B8 (en) 2012-07-19 2020-06-24 Oxford Nanopore Technologies Limited Modified helicases
EP2875152B1 (en) 2012-07-19 2019-10-09 Oxford Nanopore Technologies Limited Enzyme construct
WO2014105246A2 (en) * 2012-10-05 2014-07-03 Massachusetts Institute Of Technology Nanofluidic sorting system for gene synthesis and pcr reaction products
GB201313121D0 (en) 2013-07-23 2013-09-04 Oxford Nanopore Tech Ltd Array of volumes of polar medium
CA2889664C (en) 2012-10-26 2020-12-29 Oxford Nanopore Technologies Limited Droplet interfaces
GB201222928D0 (en) 2012-12-19 2013-01-30 Oxford Nanopore Tech Ltd Analysis of a polynucleotide
ES2958715T3 (es) * 2013-11-26 2024-02-13 Illumina Inc Composiciones y métodos para la secuenciación de polinucleótidos
WO2015140535A1 (en) 2014-03-21 2015-09-24 Oxford Nanopore Technologies Limited Analysis of a polymer from multi-dimensional measurements
GB201408652D0 (en) 2014-05-15 2014-07-02 Oxford Nanopore Tech Ltd Model adjustment during analysis of a polymer from nanopore measurements
US10689697B2 (en) 2014-10-16 2020-06-23 Oxford Nanopore Technologies Ltd. Analysis of a polymer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130071837A1 (en) 2004-10-06 2013-03-21 Stephen N. Winters-Hilt Method and System for Characterizing or Identifying Molecules and Molecular Mixtures
WO2012009578A2 (en) 2010-07-14 2012-01-19 The Curators Of The University Of Missouri Nanopore-facilitated single molecule detection of nucleic acids
WO2013041878A1 (en) 2011-09-23 2013-03-28 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units
WO2013121224A1 (en) 2012-02-16 2013-08-22 Oxford Nanopore Technologies Limited Analysis of measurements of a polymer

Also Published As

Publication number Publication date
WO2016059427A1 (en) 2016-04-21
KR20170069273A (ko) 2017-06-20
CN107109490B (zh) 2022-12-02
CN115851894A (zh) 2023-03-28
EP3971300B1 (en) 2024-06-05
EP3971300A1 (en) 2022-03-23
US20230167494A1 (en) 2023-06-01
EP3207154A1 (en) 2017-08-23
CN107109490A (zh) 2017-08-29
EP3207154B1 (en) 2022-03-16
US20210079460A1 (en) 2021-03-18
JP6709213B2 (ja) 2020-06-10
US11401549B2 (en) 2022-08-02
US10689697B2 (en) 2020-06-23
JP2017532049A (ja) 2017-11-02
US20170233804A1 (en) 2017-08-17

Similar Documents

Publication Publication Date Title
KR102551897B1 (ko) 폴리머의 분석
US11959906B2 (en) Analysis of measurements of a polymer
US11085077B2 (en) Analysis of a polynucleotide via a nanopore system
US20170241948A1 (en) Nucleic acid sequences using tags
WO2015051378A1 (en) Systems and methods for nanopore-based analysis of nucleic acids
US20180080072A1 (en) Detection of nucleic acid molecules using nanopores and tags
EP4081650B1 (en) Protein and peptide fingerprinting and sequencing by nanopore translocation of peptide-oligonucleotide complexes
WO2019121845A1 (en) Compositions and methods for unidirectional nucleic acid sequencing
WO2024084211A1 (en) Analysis of a polymer
CN118120017A (zh) 纳米孔测量信号分析

Legal Events

Date Code Title Description
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)