KR20210055690A - 중합체 서열을 결정하는 방법 - Google Patents

중합체 서열을 결정하는 방법 Download PDF

Info

Publication number
KR20210055690A
KR20210055690A KR1020217006275A KR20217006275A KR20210055690A KR 20210055690 A KR20210055690 A KR 20210055690A KR 1020217006275 A KR1020217006275 A KR 1020217006275A KR 20217006275 A KR20217006275 A KR 20217006275A KR 20210055690 A KR20210055690 A KR 20210055690A
Authority
KR
South Korea
Prior art keywords
standard
polymer
units
polynucleotide
target
Prior art date
Application number
KR1020217006275A
Other languages
English (en)
Inventor
클라이브 개빈 브라운
티모시 리 매싱햄
스튜어트 윌리엄 리드
Original Assignee
옥스포드 나노포어 테크놀로지즈 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 옥스포드 나노포어 테크놀로지즈 리미티드 filed Critical 옥스포드 나노포어 테크놀로지즈 리미티드
Publication of KR20210055690A publication Critical patent/KR20210055690A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/02Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating impedance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/60Detection means characterised by use of a special device
    • C12Q2565/631Detection means characterised by use of a special device being a biochannel or pore

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Electrochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 표준 및 비표준 중합체 단위를 포함하는 중합체 단위를 포함하는, 표적 중합체 또는 그의 일부의 서열을 결정하는 방법에 관한 것이다. 상기 방법은 표적 중합체와 관련된 신호의 일련의 측정을 수행하는 단계로서, 여기서 신호의 측정은 복수의 중합체 단위에 의존하고, 여기서 표적 중합체의 중합체 단위는 신호를 변조하고, 여기서 비표준 중합체 단위는 상응하는 표준 중합체 단위와는 다르게 신호를 변조하는, 단계를 포함한다. 일련의 측정은 기계 학습 기술을 사용하여 분석되어, 비표준 중합체 단위를 각각의 상응하는 표준 중합체 단위의 측정으로 간주한다. 표적 중합체, 또는 그의 일부의 서열은 분석된 일련의 측정으로부터 결정된다. 상기 분석으로부터 확인된 비표준 중합체 단위가 추가적으로 또는 대안적으로 결정될 수 있다. 2개 이상의 유형의 표준 중합체 단위에 상응하는 2개 이상의 유형의 비표준 중합체 단위가 사용될 수 있다. 폴리뉴클레오타이드는 DNA일 수 있다.

Description

중합체 서열을 결정하는 방법
본 발명은 중합체 서열을 결정하는 방법 및 나노포어에 대한 중합체의 전위 동안 하나 이상의 중합체, 예를 들어 제한없이 폴리뉴클레오타이드에서 중합체 단위로부터 취한 측정 분석에 관한 것이다. 본 발명의 양태는 이러한 방법에 사용하기 위한 중합체의 제조 및 컨센서스 서열의 결정에 관한 것이다.
중합체에서 중합체 단위의 표적 서열을 추정하는 측정 시스템의 유형은 나노포어를 사용하며, 중합체는 나노포어에 대해 전위된다. 시스템의 일부 속성은 나노포어의 중합체 단위에 따라 다르며, 해당 특성을 측정한다. 나노포어를 사용하는 이러한 유형의 측정 시스템은 특히 DNA 또는 RNA와 같은 폴리뉴클레오타이드 시퀀싱 분야에서 매우 효과적인 것으로 나타났으며, 최근 개발의 주제가 되었다. 최근에는 나노포어를 사용하는 이러한 유형의 측정 시스템이 특히 단백질과 같은 펩타이드 중합체 시퀀싱 분야에서 매우 효과적인 것으로 나타났다(문헌[Nivala et al., 2013 Nat. Biotech.]).
이러한 나노포어 측정 시스템은 수백에서 수십만(그리고 잠재적으로 더 많은) 뉴클레오타이드 범위의 폴리뉴클레오타이드의 긴 연속 판독을 제공할 수 있다. 이러한 방식으로 수집된 데이터는 이온 전류 측정과 같은 측정을 포함하며, 나노포어의 민감한 부분에 대한 서열의 각 전위는 측정된 특성의 변화를 초래할 수 있다.
예를 들어, 나노포어를 통한 중합체의 전위와 같이 나노포어에 대한 폴리뉴클레오타이드의 이동 중에 측정된 신호는 복수의 뉴클레오타이드에 의존하고 복잡한 것으로 나타났다. 폴리뉴클레오타이드와 나노포어의 상호작용 동안 취해진 측정으로부터 중합체 서열을 추정하는 분석 기술에는 PCT/GB2012/052343호에 개시된 것과 같은 은닉 마르코프 모델(Hidden Markov Model; HMM)의 사용이 포함된다. 순환 신경망과 같은 기계 학습 기술도 사용될 수 있으며, 특히 장거리 정보를 결정하는 데 유용하다. 이러한 기술은 PCT/GB2018/051208호에 개시되어 있으며, 그 전체가 여기에 참조로 포함된다.
기계 학습 기술을 사용하여 일련의 측정을 분석하는 단계를 포함하는 방법이 알려져 있다. 이러한 방법은 각각의 측정 또는 각각의 측정 그룹에 상응하는 일련의 사후 확률 행렬을 유도하는 단계를 포함하며, 각각의 사후 확률 행렬은 각각의 측정 이전 또는 이후의 측정에 상응하는 중합체 단위의 상이한 각각의 히스토릭 서열(historical sequence)에 대해, 새로운 중합체 단위 서열을 생성하는 중합체 단위의 각각의 히스토릭 서열에 대한 복수의 상이한 변화의 사후 확률을 나타낸다.
특히 중합체의 긴 판독에서 나노포어를 통해 전위된 중합체의 분석 정확도를 향상시키는 것은 종종 높은 전산 비용을 필요로 한다.
주형 폴리뉴클레오타이드 서열에 기초하여 변형된 폴리뉴클레오타이드가 생성되는 폴리뉴클레오타이드의 서열을 결정하는 복수의 방법이 설명되어 있다.
전체가 본원에 참조로 포함된 WO 2015/124935호는 중합효소를 사용하여 주형 폴리뉴클레오타이드를 특성화하여 후속적으로 특성화되는 변형된 폴리뉴클레오타이드를 제조하는 방법을 설명한다. 변형된 폴리뉴클레오타이드를 형성할 때 중합 효소가 주형 폴리뉴클레오타이드의 뉴클레오타이드 종 중 하나 이상을 상이한 뉴클레오타이드 종으로 대체하도록, 변형된 폴리뉴클레오타이드가 제조된다. WO 2015/124935호는 또한 중합효소를 사용하여, 변형된 폴리뉴클레오타이드를 형성함으로써 호모폴리뉴클레오타이드를 특성화하는 방법을 설명하며, 여기서 변형된 폴리뉴클레오타이드를 형성할 때 중합효소는 호모폴리뉴클레오타이드에서 뉴클레오타이드 종에 상보적인 뉴클레오타이드 종의 일부 예를 무작위로 다른 뉴클레오타이드 종으로 대체한다.
본 발명은 일반적으로 상이한 유형의 중합체 단위를 포함하는 표적 중합체의 서열 또는 그의 일부를 결정하는 방법에 관한 것이다. 이 방법은 표적 중합체와 관련된 신호의 일련의 측정을 포함한다. 이러한 측정이 얻어지거나 회수될 수 있거나, 나노포어를 통해 표적 중합체 가닥을 통과시켜 유도해낼 수 있다. 측정된 신호는 복수의 중합체 단위에 따라 달라진다. 예를 들어, 신호는 나노포어를 통한 복수의 중합체 단위의 이동에 대해 측정되었다. 표적 중합체의 중합체 단위는 신호를 변조한다.
중합체는 표준(canonical) 및 비표준(non-canonical) 중합체 단위를 포함할 수 있다. 비표준 중합체 단위는 전형적으로 해당 표준 중합체 단위와 다르게 신호를 변조한다. 예를 들어, 핵산의 경우, 이들 상응하는 표준 중합체 단위는 매칭된 중합체 단위일 수 있으며, 예를 들어 변형된 C는 표준 C에 상응할 수 있거나, 범용 뉴클레오타이드(예를 들어, 본원에 기재된 범용 뉴클레오타이드)의 확인은 표준 값 C, A, G 또는 T 중 임의의 하나에 상응할 수 있다.
예를 들어, 표적 중합체의 신호는 중합체 단위 'CcAGT'에 기인할 수 있으며, 여기서 'c'는 변형된 'C'이고, 그렇지 않으면 동일한 중합체 단위는 표준 전용 구성요소, 즉 CCAGT이다. 신호는 비표준 단위를 포함하고 측정할 수 있으며 분석 중에 또는 분석 후에 비표준 단위가 표준 단위로 해석되거나 인식될 수 있다. 즉, 비-표준 염기와 같은 대체 염기가 표준 염기로 표시될 수 있다.
중합체는 표준 및 비표준 중합체 단위를 포함할 수 있다. 비표준 중합체 단위는 전형적으로 해당 표준 중합체 단위와 다르게 신호를 변조한다. 예를 들어, 폴리펩타이드에서 이러한 상응하는 표준 중합체 단위는 매칭된 중합체 단위일 수 있으며, 즉 변형된 Lys는 표준 Lys에 상응할 수 있다.
예를 들어, 표적 중합체의 신호는 중합체 단위 'Gly-Lys*-Arg-Phe-Thr'에 기인될 수 있으며, 'Lys*'는 변형된 'Lys'이며, 그렇지 않은 동일한 중합체 단위는 표준-전용 구성요소이다. 신호는 비표준 단위를 포함하고 측정할 수 있으며, 분석 중 또는 분석 후에 비표준 단위는 표준 단위로 해석되거나 인식될 수 있다. 즉, 비표준 아미노산과 같은 대체 아미노산은 표준 아미노산으로 표지될 수 있다.
일부 실시형태에서, 하나 이상의 비표준 아미노산을 포함하는 폴리펩타이드는 하나 이상의 표준 아미노산을 상응하는 비표준 아미노산으로 화학적으로 전환하여 제조될 수 있다. 예를 들어, 표준 아미노산을 포함하는 폴리펩타이드는 하나 이상의 표준 아미노산 유형을 상응하는 비표준 아미노산 유형으로 전환할 수 있는 화학물질과 접촉될 수 있다. 이러한 화학물질의 예는 아민 반응성기, 예컨대 NHS 에스테르, 및 티올 반응성기, 예컨대 말레이미드를 포함한다.
일부 실시형태에서, 하나 이상의 비표준 아미노산을 포함하는 폴리펩타이드는 하나 이상의 표준 아미노산을 상응하는 비표준 아미노산으로 효소적으로 전환하여 제조될 수 있다. 예를 들어, 표준 아미노산을 포함하는 폴리펩타이드는 하나 이상의 표준 아미노산 유형을 상응하는 비표준 아미노산 유형으로 전환할 수 있는 효소와 접촉될 수 있다. 이러한 효소의 예는 아미노산 측쇄에 또는 아미노산 측쇄로부터 작용기, 단백질, 지질 또는 당을 추가하거나 제거하는 키나제, 포스파타제, 트랜스퍼라제 및 리가제를 포함한다.
일련의 측정을 분석하는 방법은 기계 학습 기술을 사용한다. 기계 학습 기술은 훈련을 포함할 수 있다. 기계 학습 기술은 한 유형의 중합체 단위의 측정을 다른 유형의 중합체 단위의 측정이라고 간주한다. 예를 들어, 비표준 'c'는 표준 'C'로 인식될 수 있다.
방법은 분석된 일련의 측정으로부터 표적 중합체의 서열 또는 그의 일부를 추가로 결정하며, 여기서 서열은 감소된 수의 상이한 유형의 중합체 단위로 발현된다.
본 발명의 방법은 특히 표적 중합체의 부분 또는 하위 영역에 초점을 맞출 수 있다. 이러한 하위 영역은 관심 영역이 될 수 있고/있거나 더 깊은 수준의 분석을 받을 수 있다. 이러한 부분 또는 하위 영역은 단일중합체 영역을 포함할 수 있다. 원래 중합체의 단일중합체 영역 및 기타 관심 영역은 그로부터 유도된 신호의 낮은 변동으로 이어지는 경향이 낮은 수준의 복잡도 또는 변동을 갖는 경향이 있다. 표적 중합체에 비표준 단위가 있으면 그로부터 유도된 신호의 복잡성 또는 변동 수준이 증가한다.
이 방법은 분석을 수행하여 비표준 중합체 단위를 확인하고 표준 정보와 비표준 정보의 조합을 사용하여 결정된 서열의 정확도를 향상시킬 수 있다. 방법이 비표준 중합체 단위의 측정을 한 유형의 중합체 단위 또는 선택한 중합체 단위 중 하나로 간주하는 경우, 측정 결과가 표준 중합체 단위를 기반으로 하기 때문에 표적 중합체에서 결정된 서열의 정확도가 향상되고, 단일-판독 염기-호출 및/또는 정렬 및/또는 컨센서스를 생성하는 데 필요한 계산 능력을 차례로 감소시킨다.
특정 양태에서, 기계 학습 기술 방법은 비표준 중합체 단위의 측정을 상응하는 표준 중합체 단위의 측정으로 간주할 수 있다. 따라서, 비표준 염기는 그의 해당 표준 염기로 염기-호출된다. 이것은 기계 학습 기술이 표준 염기와 비표준 염기를 모두 인식하고 염기-호출하도록 훈련된 경우에 비해 계산 요구사항이 더 적다. 비표준 중합체 단위의 측정을 상응하는 표준 중합체 단위의 측정으로 간주하면 기계 학습 기술이 표준 염기만 인식하고 염기-호출하도록 훈련된 경우에 비해 시퀀싱 정확도가 전반적으로 증가할 수 있다. 후자의 경우 비표준 염기의 측정은 염기-호출자가 인식하지 못하기 때문에 시퀀싱 오류를 초래할 수 있다.
본 발명의 일 양태에 따르면, 표준 염기를 포함하는 중합체 단위 및 비표준 중합체 단위를 포함하는 표적 중합체의 서열을 결정하는 방법이 제공된다.
표준 염기는 예를 들어, DNA의 경우 A, G, C, T일 수 있다. 복수의 비표준 중합체 단위가 사용될 수 있다. 복수 유형의 비표준 중합체 단위가 사용될 수 있다.
표적 중합체는 원래의 자연-발생 중합체로부터 합성될 수 있다. 표적 중합체는 비-결정적 방식으로 표준 중합체 단위의 일부가 대체 중합체 단위로 대체된 원래 중합체로부터 유도될 수 있다. 대안적으로, 표적 중합체는 자연 발생 비표준 중합체 단위 또는 염기를 갖는 자연-발생 중합체일 수 있다.
이 방법은 (i) 표적 중합체와 관련된 신호의 일련의 측정을 수행하는 단계로서, 여기서 측정된 신호일 수 있는 신호의 측정은 복수의 중합체 단위에 의존하고, 여기서 표적 중합체의 중합체 단위는 신호를 변조하고, 여기서 비표준 중합체 단위는 상응하는 표준 중합체 단위와는 다르게 신호를 변조하는, 단계, (ii) 바람직하게는 훈련된 기계 학습 기술을 사용하여 일련의 측정을 분석하여 비표준 중합체 단위를 각각의 상응하는 표준 중합체 단위의 측정으로 간주하는 단계, 및 (iii) 분석된 일련의 측정으로부터 표적 중합체의 서열을 결정하는 단계를 포함한다.
비표준 중합체 단위 또는 대체 염기는 예를 들어 메틸화된 뉴클레오타이드, 이노신, 브릿지된 뉴클레오타이드 및 인공 염기를 포함할 수 있다.
상응하는 표준 중합체 단위는 매칭된 중합체 단위, 즉 c 내지 C일 수 있거나, 중합체 단위 세트 중 하나일 수 있으며, 예를 들어 이노신은 표준 염기 C, A, G 또는 T 중 임의의 하나에 상응할 수 있다.
예를 들어, 측정을 분석할 때 비표준 'c'는 그대로 인식되고/되거나 표준 'C'로 인식될 수 있다.
비표준 'c'가 표준 'C'로 인식될 수 있을 때, 본 발명은 또한 이러한 대체 염기의 염기-호출을 만들 필요없이 대체 염기를 측정함으로써 더 많은 정보를 가진 신호를 제공하여, 모든 비표준 염기가 결정된 경우보다 계산 비용이 저렴할 수 있게 하는 방법을 제공할 수 있다. 염기-호출자는 특정 염기가 본질적으로 표준인지 비표준인지 여부를 결정하지 않는다.
이 방법은 또한 비천연적으로 상응하는 표준 염기를 갖는 표적 중합체를 수용할 수 있으며, 예를 들어 X는 C로 표시되거나, TT 이량체는 T로 표시된다.
분석에서 확인된 비표준 중합체 단위는 추가적으로 또는 대안적으로 비표준 중합체 단위의 측정을 각각의 해당 표준 중합체 단위의 측정으로 유지할 수 있다. 비표준 중합체의 동일성 및 서열 위치에 대한 이 정보는 후속 분석 또는 서열 결정 중에 스코어링 또는 칭량에 사용하기 위해 보관되거나 저장될 수 있다.
표적 중합체의 서열을 결정하는 것은 염기 호출에 대한 다양한 변형을 포함할 수 있다. 예를 들어, 표적 중합체에 4개의 표준 염기 A, C, G 및 T와 4개의 해당하는 비표준 염기 a, c, g 및 t가 있는 경우, 염기 호출자는 표준 염기, 즉 4 내지 8개의 염기만 호출할 수 있다.
예를 들어, 표적 중합체가 4개의 표준 염기 A, C, G 및 T와 4개의 상응하는 비표준 염기 a, c, g 및 t를 갖는 경우(여기서 'c'는 메틸화된-C임), 염기 호출자는 표준 염기인 5개의 염기와 메틸화된-C, 즉 8개로부터의 4개의 염기를 호출할 수 있다.
표적 중합체는 2개 이상의 유형의 표준 중합체 단위에 상응하는 2개 이상의 유형의 비표준 중합체 단위를 포함할 수 있다. 예를 들어, 표적 중합체는 4개의 표준 염기 A, C, G 및 T와 2개 이상의 대체 염기를 갖는다.
비표준 중합체 단위의 동일성과 서열 위치가 결정될 수 있다. 즉, 비표준 염기가 호출되는 경우, 예를 들어 8개 중 5개이다.
표적 중합체는 폴리뉴클레오타이드일 수 있다.
표적 중합체는 각 유형의 표준 중합체 단위에 상응하는 비표준 중합체 단위를 포함할 수 있다. 예를 들어 4개의 표준 염기 A, C, G 및 T와 4개의 상응하는 비표준 염기 a, c, g 및 t가 있다.
대안적으로, 기계 학습 기술은 중합체 단위가 비표준인지 여부를 결정할 수 없다. 분석 및 서열은 표준 염기만 생성할 수 있다.
표적 중합체는 존재하는 하나 이상의 유형의 비표준 중합체 단위 각각에 대해 복수의 비표준 중합체 단위를 포함할 수 있다. 예를 들어, 표적 중합체는 4개의 표준 염기 A, C, G 및 T와 8개의 상응하는 비표준 염기 a, a', c, c', g, g', t 및 t'를 갖는다. 염기 호출자는 표준염기, 즉 12개로부터 4개의 염기를 호출할 수 있다.
비표준 중합체 단위는 하나 초과의 표준 중합체 단위에 상응할 수 있다. 예를 들어, 이노신은 하나 초과의 표준 염기와 염기 쌍을 이룰 수 있다(비특이적 결합).
표적 중합체는 1 단위 내지 약 50%의 비표준 중합체 단위를 포함할 수 있다. 50%는 변형된 염기에 의한 최대 중단량을 제공한다.
비표준 중합체 단위는 변형된 표준 중합체 단위, 예를 들어 메틸화된 C일 수 있다.
비표준 중합체 단위는 자연적으로 변형될 수 있다. 예를 들어, 그것은 생체 내에서 자연적으로 발생하며, 특별히 도입되지 않았다.
일련의 측정은 나노포어에 대한 표적 중합체의 이동 중에 수행될 수 있다.
측정은 나노포어를 통한 이온 전류 흐름을 나타내는 측정 또는 표적 중합체의 전위 동안 나노포어를 가로지르는 전압의 측정일 수 있다.
기계 학습 기술은 표적 중합체의 다양한 서열 위치에서 등가 표준 단위로 치환된 비표준 단위를 포함하는 복수의 표적 중합체, 예를 들어 훈련 가닥을 제공하는 단계; 표적 중합체와 관련된 일련의 신호 측정을 수행하는 단계; 기계 학습 기술을 사용하여 일련의 측정을 분석하는 단계; 및 기본 서열일 수 있는 중합체 훈련 가닥의 상응하는 표준 중합체 단위를 추정하는 단계를 포함하는 방법에 의해 훈련 가능하게 될 수 있다.
기계 학습 기술은 순환 신경망, 합성곱 신경망, 트랜스포머 망, 어텐션 메커니즘, 랜덤 포레스트, 서포트 벡터 기계, 제한된 볼츠만 기계, 은닉 마르코프 모델, 마르코프 랜덤 필드, 조건부 랜덤 필드, 또는 이들의 조합 중 적어도 하나를 통합할 수 있다.
중합체는 폴리뉴클레오타이드, 폴리펩타이드 또는 다당류로부터 선택될 수 있다. 특히, 중합체는 폴리뉴클레오타이드이고, 중합체 단위는 뉴클레오타이드 염기일 수 있다.
하나 이상의 비표준 염기는 효소에 의해 변형될 수 있다.
방법은 표준 중합체를 변형시켜, 하나 이상의 상이한 유형의 하나 이상의 하나 이상의 비표준 염기를 포함하는 표적 중합체를 제공하는 단계를 추가로 포함할 수 있다.
전항들 중 한 항에 있어서, 하나 이상의 상이한 유형의 하나 이상의 비표준 염기를 포함하는 폴리뉴클레오타이드가 중합 효소의 사용 및 비표준 염기의 비율에 의해 그의 보체로부터 생성된다.
폴리뉴클레오타이드는 DNA일 수 있다. 나노포어에 대한 폴리뉴클레오타이드의 이동은 효소에 의해 제어될 수 있다. 효소는 헬리케이즈일 수 있다. 표적 중합체 훈련 가닥은 하나 초과의 유형의 비표준 중합체 단위를 포함할 수 있다.
본 발명의 또 다른 양태에 따르면, 복수의 중합체를 제공하는 단계로서, 중합체가 표준 중합체 단위 및 비표준 중합체 단위를 포함하고, 각각의 중합체가 표적 중합체의 영역에 해당하는 중합체 단위의 영역을 포함하는 단계; 복수의 중합체와 관련된 신호의 측정을 분석하는 단계로서, 측정이 복수의 중합체 단위에 의존하고, 표적 중합체의 중합체 단위가 신호를 변조하고, 비표준 중합체 단위가 상응하는 표준 중합체 단위와 상이하게 신호를 변조하는 단계; 및 복수의 중합체의 분석된 일련의 측정으로부터 컨센서스 서열을 결정하는 단계를 포함하는 표적 중합체의 컨센서스 서열을 결정하는 방법이 제공된다.
중합체(예를 들어, 폴리뉴클레오타이드)는 또 다른 중합체의 영역(예를 들어, 표적 중합체의 영역, 예를 들어 표적 폴리뉴클레오타이드)에 상응하는 중합체 단위의 영역(예를 들어, 뉴클레오타이드의 영역)을 포함할 수 있다.
비표준 중합체 단위의 존재가 상응하는 표준 중합체 단위를 나타내는 것으로 간주되도록, 또 다른 중합체의 영역에 "상응하는" 중합체 단위의 영역은 비표준 중합체 단위의 존재를 고려하여 상응하는 영역의 서열과 동일하거나 이에 상보적인 서열을 가질 수 있다. 따라서, 표준 중합체 단위를 포함하는 중합체 영역은 하나 이상의 상응하는 비표준 중합체 단위를 포함하는 중합체 영역에 상응할 수 있다. 예를 들어, 당업자는 표준 중합체 단위의 특정 서열을 갖는 중합체 영역이 표준 중합체 단위 중 하나 이상이 상응하는 비표준 중합체 단위로 대체된 다른 동일한 중합체 영역에 상응한다고 생각할 것이다.
또 다른 중합체의 영역에 "상응하는" 중합체 단위의 영역은 상응하는 영역의 서열과 정렬될 수 있는 서열을 가질 수 있다. 중합체 서열의 정렬(예를 들어, 폴리뉴클레오타이드 서열의 정렬)을 위한 방법은, 예를 들어 서열 정렬 프로그램은 당 업계에 잘 알려져 있고, 당업자에게 친숙할 것이다. 영역은 상응하는 영역과 직접 정렬될 수 있거나, 영역이 상응하는 영역의 상보적 서열(예를 들어, 상보적 폴리뉴클레오타이드 서열)과 정렬될 수 있다. 당업자는 표준 중합체 단위 및 상응하는 비표준 중합체 단위의 특성이 표준 중합체 단위를 포함하는 중합체 영역이 하나 이상의 상응하는 비표준 단위를 포함하는 상응하는 중합체 영역과 정렬될 수 있음을 의미한다는 것을 쉽게 인식할 것이다.
서로 상응하는 두개의 중합체 영역(예를 들어, 폴리뉴클레오타이드)은 상동적일 수 있다.
일련의 측정을 분석하는 것은 비표준 중합체 단위의 측정을 각각의 상응하는 표준 중합체 단위의 측정으로 간주하는 기계 학습 기술을 포함할 수 있다.
분석에서 확인된 비표준 중합체 단위는 각각의 상응하는 표준 중합체 단위의 측정으로서 비표준 중합체 단위의 측정으로서 추가로 또는 대안적으로 유지될 수 있다.
비표준 뉴클레오타이드는 상응하는 표준 염기 대신 폴리뉴클레오타이드에 도입될 수 있다.
폴리뉴클레오타이드 가닥 중 하나 이상은 4개 이상의 상이한 유형의 비표준 염기를 포함할 수 있다.
상기 방법은 비표준 염기를 폴리뉴클레오타이드 가닥에 도입하는 단계를 추가로 포함할 수 있다.
하나 이상의 유형의 비표준 염기가 각각 하나 이상의 상응하는 표준 염기로 대체된 것, 컨센서스 서열의 추정이 제공되는 것, 여기서 하나 이상의 유형의 비표준 염기가 이들 상응하는 하나 이상의 유형의 표준 염기로 결정되는 것을 제외하고는, 뉴클레오타이드 영역 중의 하나 이상의 비표준 염기의 존재와 관련된 측정을 동등한 영역의 측정으로 간주하기 위해 바람직하게 훈련된 기계 학습 기술을 사용하여 일련의 측정이 분석될 수 있다.
둘 이상의 유형의 비표준 중합체 단위가 폴리뉴클레오타이드 가닥 중 하나 이상에 도입될 수 있다.
각각의 폴리뉴클레오타이드 가닥은 30% 내지 80% 비표준 중합체 단위를 포함할 수 있다.
나노포어에 대한 중합체 단위의 이동 중에 일련의 측정이 수행될 수 있다.
일부 실시형태에서, 주어진 유형의 비표준 중합체 단위의 측정은 각각의 상응하는 표준 중합체 단위 유형의 측정에 기인하지 않는다. 따라서, 일부 실시형태에서, 주어진 비표준 염기 유형은 염기-호출될 수 있다. 예를 들어, 기계 학습 기술은 생체 내에서 빈번하게 발생하는 하나 이상의 비표준 염기, 예를 들어 5-메틸-사이토신 또는 6-메틸-아데닌을 염기-호출하도록 훈련될 수 있다.
중합체 단위와 관련하여 본원에서 사용되는 바와 같이, 중합체 단위 "유형"은 주어진 중합체 단위 화학 종을 지칭할 수 있다.
가장 간단한 형태로, 중합체는 단일중합체 단위 유형의 다중 중합체 단위를 포함할 수 있다(예를 들어, "N-N-N-N-N-N", 여기서 "N"은 주어진 중합체 단위 유형을 나타냄). 중합체는 하나 초과의 유형, 예를 들어 적어도 2개의 유형(예를 들어, "X-Y-X-Y-X-Y", 여기서 "X" 및 "Y"는 상이한 중합체 단위 유형을 나타냄), 적어도 3개의 유형(예를 들어, "X-Y-Z-X-Y-Z", 여기서 "X", "Y" 및 "Z"는 상이한 중합체 단위 유형을 나타냄), 또는 적어도 4개의 유형("A-B-C-D-A-B-C-D", 여기서, "A", "B", "C" 및 "D"는 상이한 중합체 단위 유형을 나타냄)의 중합체 단위를 포함할 수 있다. 중합체 단위는 중합체 단위 유형의 임의의 순서 및 임의의 비율로 중합체에 존재할 수 있다.
예를 들어, DNA 폴리뉴클레오타이드는 전형적으로 A, G, C 및 T의 네 가지 다른 표준 유형의 중합체 단위(염기)를 포함할 수 있다. RNA 폴리뉴클레오타이드는 전형적으로 네 가지 다른 표준 유형: A, G, C 및 U의 중합체 단위(염기)를 포함할 수 있다.
중합체(예를 들어, 폴리뉴클레오타이드)는 하나 이상의 유형의 비표준 중합체 단위를 포함할 수 있다. 본원에 기술된 바와 같이, 이러한 맥락에서 비표준 중합체 단위 유형은 주어진 비표준 중합체 단위 화학 종을 지칭할 수 있다.
따라서 폴리뉴클레오타이드와 관련하여, 중합체 단위는 폴리뉴클레오타이드 내의 뉴클레오타이드를 지칭할 수 있다.
예를 들어, 중합체(예를 들어, 폴리뉴클레오타이드)는 적어도 1개, 적어도 2개, 적어도 3개 또는 적어도 4개 또는 그 이상(예를 들어, 적어도 1, 2, 3, 4, 5, 6, 7, 또는 8개)의 유형의 비표준 중합체 단위를 포함할 수 있다.
중합체(예를 들어, 중합체가 폴리뉴클레오타이드인 경우, 폴리뉴클레오타이드임)는 적어도 2개, 적어도 3개, 적어도 4개, 또는 그 이상(예를 들어, 적어도 2, 3, 4, 5, 6, 7, 또는 8개) 유형의 비표준 중합체 단위(예를 들어, 중합체가 폴리뉴클레오타이드인 경우, 비표준 염기임)를 포함할 수 있다.
각각의 비표준 중합체 단위 유형은 다른 표준 중합체 단위 유형에 상응할 수 있다.
중합체(예를 들어, 폴리뉴클레오타이드)는 적어도 2개, 적어도 3개, 또는 적어도 4개의 비표준 중합체 단위 유형을 포함할 수 있으며, 여기서 각 유형의 비표준 중합체 단위는 상이한 표준 중합체 단위에 상응한다.
일 실시형태에서, 중합체는 폴리뉴클레오타이드이다. 일 실시형태에서, 폴리뉴클레오타이드는 적어도 4개 유형의 표준 염기 및 적어도 4개 유형의 비표준 염기를 포함하며, 여기서 각각의 비표준 염기 유형은 상이한 표준 염기 유형에 상응한다.
예를 들어, 폴리뉴클레오타이드는 표준 염기 유형 A, G, C 및 T(또는 A, G, C 및 U) 및 4개의 비표준 염기 유형을 포함할 수 있으며, 여기서 각각의 비표준 염기 유형은 서로 다른 표준 염기 유형에 상응한다. 따라서, 폴리뉴클레오타이드는 적어도 8개 유형의 염기, 즉 적어도 4개 유형의 표준 염기 및 적어도 4개의 상응하는 유형의 비-표준 염기를 포함할 수 있다.
비표준 중합체 단위 유형은 하나 초과의 표준 중합체 단위 유형에 상응할 수 있다.
중합체는 동일한 표준 중합체 단위 유형에 상응하는 하나 초과의 비표준 중합체 단위 유형을 포함할 수 있다.
일 실시형태에서, 폴리뉴클레오타이드는 적어도 2개(예를 들어, 적어도 2, 3, 4, 5, 6, 7, 또는 8개) 유형의 비표준 염기를 포함하고, 여기서 상기 적어도 2개의 비표준 염기 유형 중 적어도 2개는 동일한 표준 염기에 상응한다.
일 실시형태에서, 폴리뉴클레오타이드는 적어도 4개 유형의 표준 염기 및 적어도 5개 유형의 비표준 염기를 포함하고, 여기서 비표준 염기의 유형 중 적어도 2개는 동일한 유형의 표준 염기에 상응한다.
중합체 중의 비표준 중합체 단위의 비율은 다양할 수 있다. 예를 들어, 중합체는 비표준 중합체 단위를 포함할 수 있으며, 여기서 비표준 중합체 단위는 중합체의 총 중합체 단위 수의 백분율로 고려할 때 중합체의 적어도 약 10%, 적어도 약 20%, 적어도 약 30%, 적어도 약 40%, 적어도 약 50%, 적어도 약 60%, 적어도 약 70%, 적어도 약 80%, 또는 적어도 약 90%를 포함한다.
중합체 중의 표준 및 상응하는 비표준 중합체 단위 유형의 비율은 다양할 수 있으며, 따라서 주어진 중합체 단위 유형의 경우 상기 중합체 단위 유형의 경우의 적어도 약 10%, 적어도 약 20%, 적어도 약 30%, 적어도 약 40%, 적어도 약 50%, 적어도 약 60%, 적어도 약 70%, 적어도 약 80%, 또는 적어도 약 90%가 상응하는 비표준 중합체 단위 유형으로 표시된다.
본원에 기재된 바와 같이, 본 발명의 일 양태에서 복수의 중합체가 제공된다.
일 실시형태에서, 중합체(예를 들어, 폴리뉴클레오타이드)는 적어도 2개, 적어도 3개 또는 적어도 4개의 유형의 비표준 중합체 단위(예를 들어, 비표준 염기)를 포함한다. 일 실시형태에서, 각 유형의 비표준 중합체 단위(예를 들어, 비표준 염기)는 상이한 유형의 표준 중합체 단위(예를 들어, 표준 염기)에 상응한다.
일 실시형태에서, 중합체는 폴리뉴클레오타이드이다.
일 실시형태에서, 폴리뉴클레오타이드는 표준 염기 유형 A, G, C 및 T 및 적어도 4개의 상이한 비표준 염기 유형을 포함하고, 여기서 각각의 비표준 염기 유형은 상이한 표준 염기 유형에 상응한다. 따라서, 폴리뉴클레오타이드는 A에 상응하는 비표준 염기, G에 상응하는 비표준 염기, C에 상응하는 비표준 염기, 및 T에 상응하는 비표준 염기를 포함한다.
일 실시형태에서, 폴리뉴클레오타이드는 표준 염기 유형 A, G, C 및 U 및 적어도 4개의 상이한 비표준 염기 유형을 포함하고, 여기서 각각의 비표준 염기 유형은 상이한 표준 염기 유형에 상응한다. 따라서, 폴리뉴클레오타이드는 A에 상응하는 비표준 염기, G에 상응하는 비표준 염기, C에 상응하는 비표준 염기, 및 U에 상응하는 비표준 염기를 포함한다.
일 실시형태에서, 폴리뉴클레오타이드는 표준 염기 유형 A, G, C 및 T, 및 적어도 5개의 상이한 비표준 염기 유형(예를 들어, 적어도 5, 6, 7, 또는 8)을 포함하고, 여기서 상기 상이한 비표준 염기 유형 중 적어도 2개는 동일한 표준 염기 유형에 상응한다. 따라서, 폴리뉴클레오타이드는 A에 상응하는 비표준 염기, G에 상응하는 비표준 염기, C에 상응하는 비표준 염기 및 T에 상응하는 비표준 염기를 포함하고, A, G, C 및 T 중 하나에 상응하는 적어도 1개의 추가의 비표준 염기를 추가로 포함한다.
일 실시형태에서, 폴리뉴클레오타이드는 표준 염기 유형 A, G, C 및 U, 및 적어도 5개의 상이한 비표준 염기 유형(예를 들어, 적어도 5, 6, 7, 또는 8)을 포함하고, 여기서 상기 상이한 비표준 염기 유형 중 적어도 2개는 동일한 표준 염기 유형에 상응한다. 따라서, 폴리뉴클레오타이드는 A에 상응하는 비표준 염기, G에 상응하는 비표준 염기, C에 상응하는 비표준 염기, 및 U에 상응하는 비표준 염기를 포함하고, A, G, C 및 U 중 하나에 상응하는 적어도 1개의 추가의 비표준 염기를 추가로 포함한다.
복수의 중합체(예를 들어, 복수의 폴리뉴클레오타이드)는 비표준 중합체 단위(예를 들어, 비표준 염기)를 포함하는 중합체(예를 들어, 폴리뉴클레오타이드)를 제조하기 위해 당 업계에 공지된 임의의 방법에 의해 생성될 수 있다. 예를 들어, 본 발명에 따른 복수의 폴리뉴클레오타이드는 본원에 기재된 바와 같은 비-표준 염기를 포함하는 폴리뉴클레오타이드를 제조하는 방법에 의해 생성될 수 있다.
중합체 중의 비표준 중합체 단위의 분포는 비-결정적이다. 따라서, 복수의 중합체는 표준 중합체 단위의 비율(예를 들어, 적어도 약 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% 또는 90%)이 비-결정적 방식으로 상응하는 비표준 중합체 단위로 치환되는 중합체를 포함할 수 있다.
예로서, 복수의 폴리뉴클레오타이드가 제공될 수 있으며, 여기서 복수의 폴리뉴클레오타이드는 표적 폴리뉴클레오타이드 서열을 참조하여 생성되었다. 각각의 폴리뉴클레오타이드는 표적 폴리뉴클레오타이드의 영역에 상응하는 뉴클레오타이드의 영역을 포함한다. 각 폴리뉴클레오타이드 중의 뉴클레오타이드 위치의 일부는 비-결정적 방식으로 비표준 염기로 치환된다. 치환의 비-결정적 특성이 주어지면, 상이한 폴리뉴클레오타이드는 전형적으로 치환된 상이한 세트의 뉴클레오타이드 위치를 갖는다. 특정 표준 염기에 상응하는 하나 초과의 비표준 염기가 존재하는 일부 실시형태에서, 상이한 가닥은 주어진 뉴클레오타이드 위치에서 상이한 치환을 가질 수 있다. 치환의 비-결정적 특성이 주어지면, 일부 가닥은 동일한 비표준 염기로 치환된 동일한 위치를 가질 수도 있다.
치환의 비-결정적 특성으로 인해, 복수의 폴리뉴클레오타이드의 각 폴리뉴클레오타이드와 관련된 신호는 상이할 수 있다. 한가지 결과는 신호 분석에 존재하는 임의의 오류가 체계적이지 않아, 컨센서스 서열 결정을 개선한다는 것이다.
주어진 비표준 염기 유형이 하나 초과의 표준 염기 유형에 상응하는 실시형태에서(예를 들어, 비표준 염기가 범용 염기인 경우), 이러한 비표준 염기의 존재는 상응하는 표준 염기와 관련하여 특정 가닥에서 정보의 손실을 나타낼 수 있지만, 비표준 염기(예를 들어, 범용 염기)의 통합이 비-결정적이기 때문에, 상동성 가닥의 일부는 상응하는 표준 염기를 유지하므로 그의 정체성이 컨센서스를 통해 확립될 수 있게 되었다.
또 다른 추가 양태에서, 본 발명은 변형된 폴리뉴클레오타이드를 제공하며, 여기서 상기 변형된 폴리뉴클레오타이드는 적어도 4개 유형의 표준 염기 및 적어도 4개의 상응하는 유형의 비표준 염기를 포함하고, 여기서 변형된 폴리뉴클레오타이드는 약 40 내지 약 60% 비표준 염기, 선택적으로 약 45 내지 약 55% 비표준 염기, 선택적으로 약 50% 비표준 염기를 포함한다. 추가 양태에서, 방법은 상이한 유형의 중합체 단위를 포함하는 표적 중합체의 서열을 결정하는 방법을 제공한다.
a. 표적 중합체와 관련된 일련의 신호 측정하는 단계로서, 신호의 측정이 복수의 중합체 단위에 의존하고, 표적 중합체의 중합체 단위가 신호를 변조하고, 다른 유형의 중합체 단위가 신호를 서로 다르게 변조하는 단계
b. 한 유형의 중합체 단위의 측정을 다른 유형의 중합체 단위의 측정으로 간주하는 기계 학습 기술을 사용하여 일련의 측정을 분석하는 단계;
c. 분석된 일련의 측정으로부터 표적 중합체의 서열을 결정하는 단계로서, 서열이 감소된 수의 상이한 유형의 중합체 단위로 표현되는 단계.
중합체는 2개 이상의 상이한 유형, 예컨대 4개 이상의 상이한 유형의 중합체 단위를 포함할 수 있다. 중합체는 완전히 표준 중합체 단위, 비표준 중합체 단위 또는 표준 또는 비표준 단위의 조합으로 구성될 수 있다. 표준 단위의 측정은 또 다른 표준 단위의 측정으로 간주될 수 있다. 예를 들어, 중합체가 폴리뉴클레오타이드인 경우, 서열은 퓨린 및/또는 피리미딘을 포함하는 것으로 발현될 수 있다. 따라서, 아데닌의 측정은 구아닌의 측정으로 간주되거나 그 반대의 경우도 마찬가지이다. 유사하게, 사이토신, 티민 및 우라실의 측정은 피리미딘인 것으로 표현될 수 있다.
본 발명의 제1 예에 따르면, 나노포어에 대한 중합체의 전위 동안 일련의 중합체 단위를 포함하는 중합체로부터 취한 일련의 측정을 분석하는 방법으로서, 기계 학습 기술을 사용하여 일련의 측정을 분석하는 단계 및 각 측정 또는 각 측정 그룹에 해당하는 일련의 사후 확률 행렬을 도출하는 단계로서, 각각의 사후 확률 행렬은 각각의 측정 이전 또는 이후에 측정에 상응하는 중합체 단위의 상이한 각각의 히스토릭 서열에 대하여, 새로운 중합체 단위 서열을 생성하는 중합체 단위의 각각의 히스토릭 서열에 대한 복수의 상이한 변화의 사후 확률을 나타내는 단계를 포함하는 방법이 제공된다.
사후 확률을 나타내는 일련의 사후 확률 행렬은 측정이 수행된 일련의 중합체 단위에 대한 개선된 정보를 제공하며, 여러 용도에서 사용될 수 있다. 일련의 사후 확률 행렬은 중합체의 일련의 중합체 단위가 중합체 단위의 기준 시리즈일 확률을 나타내는 적어도 하나의 기준 일련의 중합체 단위에 대한 점수를 도출하는데 사용될 수 있다. 따라서, 일련의 사후 확률 행렬을 사용하면 예를 들어 하기와 같이 여러 용도를 가능하게 할 수 있다.
많은 용도에는 일련의 사후 확률 행렬에서 일련의 중합체 단위 추정 유도가 포함된다. 이것은 전체적으로 일련의 중합체 단위의 추정일 수 있다. 이는 가능한 모든 시리즈에서 가장 높은 점수를 받은 상기 시리즈를 찾아서 수행될 수 있다. 예를 들어, 이것은 일련의 사후 확률 행렬을 통해 가장 가능성이 높은 경로를 추정하여 수행될 수 있다.
대안적으로, 일련의 중합체 단위의 추정은, 예를 들어 점수에 기초하여 일련의 사후 확률 행렬이 가장 상응할 가능성이 높은 중합체 단위의 복수 기준 일련의 세트 중 하나를 선택함으로써 찾을 수 있다.
일련의 중합체 단위에 대한 또 다른 유형의 추정은 중합체의 일련의 중합체 단위와 기준 일련의 중합체 단위 간의 차이를 추정함으로써 찾을 수 있다. 이는 기준 시리즈의 변형을 채점하여 수행할 수 있다.
대안적으로, 추정은 일련의 중합체 단위의 일부에 대한 추정일 수 있다. 예를 들어, 일련의 중합체 단위의 일부가 기준 일련의 중합체 단위인지 여부를 추정할 수 있다. 이것은 일련의 일련의 사후 확률 행렬의 일부에 대해 기준 시리즈의 점수를 매김으로써 수행될 수 있다.
이러한 방법은 중합체 단위의 복수의 상이한 서열의 사후 확률을 나타내는 일련의 사후 확률 벡터를 유도하는 비교 방법에 비해 이점을 제공한다. 특히, 일련의 사후 확률 행렬은 더 정확한 방식으로 일련의 중합체 단위의 추정을 허용하는 이러한 사후 확률 벡터에 추가 정보를 제공한다. 예를 들어, 이 기술은 하나 이상의 중합체 단위의 짧은 서열이 반복되는 영역을 포함하여, 반복적인 서열의 영역을 더 잘 추정할 수 있다. 단일중합체의 더 나은 추정은 반복적인 영역에서의 이점의 특별한 예이다. 즉, 원래 중합체에서 반복적이고 낮은 복잡도를 갖는 표적 중합체의 영역에서의 복잡도 또는 변이의 증가는 서열의 결정을 향상시킨다.
이러한 이점이 존재하는 이유를 이해하려면 소포가 배달되는 날을 예측하는 문제를 고려한다. 각 소포의 도착은 예측된 중합체 서열을 한 단위 확장하는 것과 유사하다. 상태를 예측하는 모델(예를 들어, 문헌[Boza et al., DeepNano: Deep Recurrent Neural Networks for Base Calling in Minion Nanopore Reads, Cornell University Website, Mar. 2016])은 소포가 매일 배달될 확률을 생성할 것이다. 배송 날짜에 대한 불확실성이 큰 경우 특정 날짜에 소포가 배송될 확률은 50% 미만일 수 있으며, 이 경우 모델에 따라 가장 가능성있는 이벤트 순서는 소포가 절대 배송되지 않는 것이다. 반면, 히스토리 상태에 대한 변화를 예측하는 모델은 매일 2개 확률을 생성할 수 있다: 1) 소포가 아직 배송되지 않은 경우 소포가 배송될 확률로서, 이는 더 많은 날이 경과하면 증가할 것이며, 2) 소포가 이미 배송된 경우 소포가 배송될 확률로서, 이는 항상 0일 것이다. 이전 모델과 달리, 이 모델은 항상 소포가 최종 배송될 것으로 예측한다.
유사하게, 상태-기반 모델은 히스토리와 관련하여 변화를 예측하는 모델에 비해 반복적인 중합체 서열의 길이를 과소 평가하는 경향이 있다. 이는 단일중합체에 의해 생성된 측정 서열이 매우 유사한 경향이 있어 각 추가 중합체 단위에 측정을 할당하기 어렵기 때문에 단일중합체 서열에 특별한 이점을 제공한다.
단일중합체 영역의 결정은 예를 들어 효소 분자 모터에 의해 단계적 방식으로 나노포어를 통해 중합체 가닥, 예를 들어 폴리뉴클레오타이드 가닥의 전위를 포함하는 나노포어 시퀀싱의 맥락에서 특히 어렵다. 전위 동안 측정된 전류는 전형적으로 여러 뉴클레오타이드에 따라 다르며, 특정 수의 뉴클레오타이드에 근사할 수 있다. 효소 제어 하에 전위될 때 폴리뉴클레오타이드 가닥은 전형적으로 나노포어를 통해 한 번에 한 염기씩 이동한다. 따라서 전류 신호를 발생시키는 대략적인 뉴클레오타이드 수보다 긴 단일중합체 길이를 갖는 폴리뉴클레오타이드 가닥의 경우, 단일중합체 영역에서 중합체 단위의 수를 결정하는 것이 어려울 수 있다. 본 발명의 한 예는 단일중합체 영역의 결정을 개선하는 것을 추구한다.
기계 학습 기술은 선택적으로 양방향 순환 신경망일 수 있고/있거나 복수 층을 포함할 수 있는 순환 신경망을 사용할 수 있다.
사후 확률이 나타내는 변화에는 다양한 상이한 가능성이 있으며, 예를 들면 하기와 같다.
변화는 중합체 단위의 히스토릭 서열의 시작 또는 끝에서 단일중합체 단위를 제거하고 중합체 단위의 히스토릭 서열의 끝 또는 시작에 단일중합체 단위를 추가하는 변화를 포함할 수 있다.
변화는 중합체 단위의 히스토릭 서열의 시작 또는 끝에서 2개 이상의 중합체 단위를 제거하고 중합체 단위의 히스토릭 서열의 끝 또는 시작에 2개 이상의 중합체 단위를 추가하는 변화를 포함할 수 있다.
변화는 널(null) 변화를 포함할 수 있다.
이 방법은 이벤트 호출을 사용하고 각 이벤트에서 도출된 수량에 기계 학습 기술을 적용할 수 있다. 예를 들어, 방법은 공통 이벤트에 속하는 것으로 일련의 측정에서 연속 측정 그룹을 확인하는 단계; 확인된 각 측정 그룹에서 하나 이상의 수량을 도출하는 단계; 및 상기 기계 학습 기술을 사용하여 각각의 확인된 측정 그룹으로부터 도출된 하나 이상의 수량에 대해 연산하는 단계를 포함한다. 방법은 상기 수량의 윈도우에서 연산할 수 있다. 이 방법은 일반적으로 사전에 알려지지 않고 가변적일 수 있는 여러 측정을 포함하는, 각 확인된 측정 그룹에 해당하는 사후 확률 행렬을 도출할 수 있으므로 사후 확률 행렬과 측정치 간의 관계는 확인된 그룹의 측정 수에 따라 달라진다.
방법은 기계 학습 기술을 측정 자체에 대안적으로 적용할 수 있다. 이 경우, 상기 방법은 각각의 측정 또는 사전 설정된 수의 측정의 각 그룹에 상응하는 사후 확률 행렬을 도출할 수 있으므로, 사후 확률 행렬과 측정치 간의 관계가 미리 결정된다.
예를 들어, 일련의 측정의 분석은 각 윈도우에 대한 특징 벡터를 유도하기 위해 일련의 측정의 연속적인 윈도우에서 연속 측정의 합성곱을 수행하는 단계; 및 상기 기계 학습 기술을 사용하여 특징 벡터에 대해 연산하는 단계를 포함할 수 있다. 윈도우가 중첩 윈도우일 수 있다. 합성곱은 훈련된 특징 검출기, 예를 들어 합성곱 신경망을 사용하여 일련의 측정에 대해 연산함으로써 수행될 수 있다.
본 발명의 제2 예에 따르면, 나노포어에 대한 중합체의 전위 동안 일련의 중합체 단위를 포함하는 중합체로부터 취한 일련의 측정을 분석하는 방법으로서, 일련의 중합체 단위의 연속적인 중합체 단위의 아이덴티티(identity)에 대한 결정을 출력하는 순환 신경망을 사용하는 일련의 측정을 분석하는 단계로서, 후속 출력 결정을 알리기 위해 결정이 순환 신경망으로 피드백되는 단계를 포함하는 방법이 제공된다.
중합체 단위의 복수의 상이한 서열의 사후 확률을 나타내는 사후 확률 벡터를 도출한 후 사후 확률 벡터로부터 일련의 중합체 단위를 추정하는 비교 방법에 비해, 본 방법은 추정을 순환 신경망에 효과적으로 통합하기 때문에 이점을 제공한다. 그 결과, 본 방법은 더 정확할 수 있는 연속적인 중합체 단위의 아이덴티티에 대한 추정을 제공한다.
결정은 단방향으로 순환 신경망에 피드백될 수 있다.
순환 신경망은 양방향 순환 신경망일 수 있고/있거나 복수의 층을 포함할 수 있다.
이 방법은 이벤트 호출을 사용하고 각 이벤트에서 도출된 수량에 기계 학습 기술을 적용할 수 있다. 예를 들어, 방법은 공통 이벤트에 속하는 것으로 일련의 측정에서 연속 측정 그룹을 확인하는 단계; 확인된 각 측정 그룹에서 하나 이상의 수량을 도출하는 단계; 및 상기 순환 신경망을 사용하여 각각의 확인된 측정 그룹으로부터 도출된 하나 이상의 수량에 대해 연산하는 단계를 포함할 수 있다. 방법은 상기 수량의 윈도우에서 연산할 수 있다. 이 방법은 일반적으로 선험적으로 알려지지 않았고 가변적일 수 있는 복수의 측정을 포함하는 각각의 확인된 측정 그룹에 상응하는 연속적 중합체 단위의 아이덴티티에 대한 결정을 도출할 수 있으므로, 연속적 중합체 단위의 아이덴티티에 대한 결정과 측정 사이의 관계는 확인된 그룹의 측정 수에 따라 달라진다.
방법은 기계 학습 기술을 측정 자체에 대안적으로 적용할 수 있다. 이 경우, 방법은 각각의 측정 또는 사전 결정된 수의 측정의 각 그룹에 상응하는 연속적 중합체 단위의 아이덴티티에 대한 결정을 도출할 수 있으므로, 연속적 중합체 단위의 아이덴티티에 대한 결정과 측정 사이의 관계가 미리 결정된다.
예를 들어, 일련의 측정의 분석은 각 윈도우에 대한 특징 벡터를 유도하기 위해 일련의 측정의 연속적인 윈도우에서 연속 측정의 합성곱을 수행하는 단계; 및 상기 기계 학습 기술을 사용하여 특징 벡터에 대해 연산하는 단계를 포함할 수 있다. 윈도우가 중첩 윈도우일 수 있다. 합성곱은 훈련된 특징 검출기, 예를 들어 합성곱 신경망을 사용하여 일련의 측정에 대해 연산함으로써 수행될 수 있다.
본 발명의 제3 예에 따르면, 나노포어에 대한 중합체의 전위 동안 일련의 중합체 단위를 포함하는 중합체로부터 취한 일련의 측정을 분석하는 방법으로서, 각 윈도우에 대한 특징 벡터를 도출하기 위해 일련의 측정의 연속적 윈도우에서 연속적인 측정의 합성곱을 수행하는 단계; 및 일련의 중합체 단위에 대한 정보를 도출하기 위해 순환 신경망을 사용하여 특징 벡터에 대해 연산하는 단계를 포함하는 방법이 제공된다.
이 방법은 이벤트 호출을 적용하고 순환 신경망을 사용하여 각 이벤트에 대해 도출된 수량 또는 특징 벡터에 대해 연산하는 비교 방법보다 이점을 제공한다. 특히, 본 방법은 특히 일련의 측정이 쉽게 구별되는 이벤트를 나타내지 않을 때, 예를 들어 비교적 높은 시퀀싱 속도로 측정이 수행된 경우 더 높은 정확도를 제공한다.
윈도우가 중첩 윈도우일 수 있다. 합성곱은 훈련된 특징 검출기, 예를 들어 합성곱 신경망을 사용하여 일련의 측정에 대해 연산함으로써 수행될 수 있다.
순환 신경망은 양방향 순환 신경망일 수 있고/있거나 복수 층을 포함할 수 있다.
본 발명의 제3 예는 본 발명의 제1 또는 제2 예와 조합하여 적용될 수 있다.
하기 설명은 본 발명의 모든 예에 적용된다.
본 방법은 비교적 높은 시퀀싱 속도에서 수행된 일련의 측정에 대해 분석을 수행할 수 있는 방식으로 정확도를 향상시킨다. 예를 들어, 방법은 초당 적어도 10개의 중합체 단위, 바람직하게는 초당 100개의 중합체 단위, 더욱 바람직하게는 초당 500개의 중합체 단위, 또는 더욱 바람직하게는 초당 1000개의 중합체 단위의 속도로 취해진 일련의 측정에 적용될 수 있다.
나노포어는 생물학적 포어일 수 있다.
중합체는 중합체 단위가 뉴클레오타이드인 폴리뉴클레오타이드일 수 있다.
측정은 전류 측정, 임피던스 측정, 터널링 측정, FET 측정 및 광학 측정 중 하나 이상을 포함할 수 있다.
방법은 상기 일련의 측정을 수행하는 단계를 추가로 포함할 수 있다.
표적 중합체는 원래 중합체의 주형 또는 보체에서 유도될 수 있다. 표적 중합체의 상기 주형 또는 보체는 중합효소 필-인(fill-in)에 대해 3' 또는 5' 연결을 가질 수 있다. 연결은 어댑터일 수 있다. 여기서 표적 중합체의 주형, 보체 또는 중합효소 필-인 중 적어도 하나는 표준 및 비표준 중합체 단위를 포함할 수 있다.
비표준 염기는 비-결정적으로 표적 중합체에 통합될 수 있다.
폴리뉴클레오타이드는 중합효소 및 비표준 염기의 비율을 사용하여 그의 주형 또는 보체로부터 생성되는 하나 이상의 상이한 유형의 하나 이상의 비표준 염기를 포함할 수 있다.
생성된 폴리뉴클레오타이드는 2개의 헤어핀 어댑터를 통해 상응하는 주형 또는 보체에 공유적으로 부착될 수 있으며, 생성된 작제물은 원형이다.
2개의 헤어핀 어댑터는 비대칭일 수 있다.
중합체는 폴리뉴클레오타이드일 수 있다. 중합체 단위는 뉴클레오타이드 염기일 수 있으며, 표적 폴리뉴클레오타이드는 중합효소 및 비표준 염기의 비율을 사용하여 원형 작제물로부터 생성된 주형 폴리뉴클레오타이드 가닥의 반복 섹션을 포함할 수 있다.
표적 폴리뉴클레오타이드는 주형 폴리뉴클레오타이드 가닥 및 보체 폴리뉴클레오타이드의 반복 교번 섹션을 포함할 수 있다.
표적 폴리뉴클레오타이드는 중합효소 및 비표준 염기의 비율을 사용하여 원형 작제물로부터 생성될 수 있다.
보체는 이중 가닥 폴리뉴클레오타이드의 반대쪽 말단에 어댑터를 공유적으로 부착하는 단계; 및 이중 가닥 폴리뉴클레오타이드를 분리하여 각각 한쪽 말단에 어댑터 또는 양쪽 말단에 어댑터를 포함하는 보체 가닥을 제공하는 단계 중 적어도 하나에 의해 제조될 수 있다.
방법은 염기 호출을 개선하고/하거나 표적 중합체 또는 그 일부의 컨센서스를 결정하기 위한 추가 기술과 시너지적으로 결합될 수 있다. 표적 중합체는 원래 중합체의 주형 또는 보체에서 유도될 수 있다. 표적 중합체의 주형 및/또는 보체는 그의 역 보체에 대해 3' 또는 5' 연결을 가질 수 있다. 표적 중합체의 주형, 보체 또는 역 보체 중 적어도 하나는 표준 및 비표준 중합체 단위를 포함할 수 있다. 비표준 중합체 단위는 치환에 의해 제공될 수 있다. 비표준 중합체 단위는 중합효소 필-인 중에 제공될 수 있다. 비표준 염기는 비-결정적으로 표적 중합체에 통합될 수 있다.
이 방법은 일련의 측정을 수행하는 단계와는 별도로 컴퓨터 장치에서 수행될 수 있다.
본 발명의 추가 예에 따르면, 제1 내지 제3 예 중 임의의 것에 따른 방법을 수행하도록 배열된 분석 시스템이 제공될 수 있다. 이러한 분석 시스템은 컴퓨터 장치에서 구현될 수 있다.
본 발명의 또 다른 예에 따르면, 나노포어에 대한 중합체의 전위 동안 중합체로부터 일련의 측정을 수행하도록 배열된 측정 시스템과 조합된 이러한 분석 시스템이 제공될 수 있다.
또 다른 예에서, 핵산과 같은 중합체에서 중합체 단위의 표적 서열을 추정하기 위한 측정 시스템 유형이 제공된다. 이 시스템은 중합효소, 표지된 뉴클레오타이드 및 검출기를 사용한다. 시스템의 특성은 핵산 주형의 복제본에 통합될 때 표지된 뉴클레오타이드의 검출에 따라 달라진다. 예를 들어, 적합한 유형의 검출기는 제로-모드 도파관(문헌[Eid et al., 2009 Science]) 및 나노포어(문헌[Fuller et al., 2016 PNAS])이다.
단일 분자 시퀀싱의 오류 원인은 동일한 염기를 두 번 감지할 때 발생할 수 있다. 합성에 의한 시퀀싱에서 이는 하나의 통합 이벤트에 대해 뉴클레오타이드상의 라벨을 두 번 검출하는 것을 포함할 수 있다. 그러나 동족 및 비-동족 표지된 뉴클레오타이드가 혼합되어 있는 경우, 이 오류 원인이 완화될 수 있다. 예를 들어, 주형 핵산에서 다음 뉴클레오타이드의 서열은 AC 또는 AAC일 수 있다. 정확한 서열을 결정하는 것은 하기 중 적어도 하나로 인해 어려울 수 있다: (I) 본 서열(true sequence)이 AC인 경우, A 반대편에 통합된 T 염기의 표지가 한번 감지되면, 정확한 서열이 결정되며; (II) 본 서열이 AC인 경우, T 염기의 표지가 두 번 감지되면, 부정확한 서열이 결정되어, 삽입 오류(AAC)가 제공될 수 있고; 그리고 (III) 본 서열이 AAC인 경우 통합되는 2개의 독립적 T 염기의 표지를 검출하면, 정확한 서열이 결정될 수 있다.
따라서, (II) 또는 (III)이 발생했는지 쉽게 확인할 수 없으므로 서열을 쉽게 결정할 수 없다. 그러나 뉴클레오타이드 풀에 동족 및 비-동족 표지가 있는 상보적 염기의 혼합이 포함되어 있는 경우, 이 오류 원인이 최소화될 수 있다. 예를 들어: (I) 본 서열이 AC인 경우 T 염기의 표지가 두 번 감지되면 부정확한 서열이 결정되어 삽입 오류(AAC)가 발생하며; (II) 본 서열이 AAC인 경우, 통합되는 2개의 독립적인 T 염기로부터 2개의 다른 표지의 표지들을 감지하면 정확한 서열이 결정되며; 그리고 (III) T-T* 또는 T*-T를 감지하면, 서열이 AAC라는 확신이 더 높아진다. 그러나, T-T 또는 T*-T*를 감지하면, AC일 수 있고 삽입 이벤트를 관찰했기 때문에 서열이 AAC일 수 있는 다른 확률을 할당할 수 있다. 그런 다음 더 정확한 컨센서스를 얻기 위해 분자간 또는 분자내 서열 판독을 비교하거나 결합하는 데 사용될 수 있다.
더 나은 이해를 위해, 본 발명의 실시형태는 첨부된 도면을 참조하여 비-제한적인 예로서 설명될 것이다:
도 1은 나노포어 측정 및 분석 시스템의 개략도이며;
도 2는 분석 시스템에 입력되는 이벤트의 경계를 찾는 데 사용되는 분할 프로세스를 나타낸 것이며;
도 3은 확인된 이벤트의 요약 통계인 예시 수량에 대한 관계를 나타내는 원시 신호의 그래프이며;
도 4는 순환 신경망에 의해 구현된 분석 시스템의 구조를 예시하는 개략도이며;
도 5는 HMM(은닉 마르코프 모델) 아키텍처를 사용하는 분석 시스템의 비교예의 구조를 나타내는 개략도이며;
도 6 내지 도 9는 층의 단위가 시간순 일련의 입력 특징들에서 어떻게 연산하는지를 보여주는 신경망의 층들의 개략도이고, 도 6은 비-순환층을 보여주고, 도 7은 단방향층을 보여주며, 도 8은 '정방향' 및 '역방향' 순환층을 결합한 양방향 순환층을 보여주고, 그리고 도 9는 '정방향' 및 '역방향' 순환층을 교대 방식으로 결합한 대안적인 양방향 순환층을 보여주며;
도 10은 측정(미가공 데이터)에 대해 연산하도록 도 4의 분석 시스템에 대한 수정을 예시하며;
도 11은 도 4의 분석 시스템에 대한 수정을 예시하며;
도 12는 도 11을 수정한 분석 시스템의 샘플 출력을 보여주며;
도 13은 기본 방법이 일련의 중합체 단위의 모호한 추정을 초래하는 반면, 도 11의 변형에서 이동-상태의 서열 단편이 모호하지 않은 일부 샘플 사례를 보여주며;
도 14는 디코딩이 최하위 양방향 순환층으로 푸시백된 도 4의 분석 시스템에 대한 수정을 예시하며;
도 15는 비교를 통해 도 4의 분석 시스템의 최종층과 그의 디코더를 예시하며; 그리고
도 16 및 17은 혼란도 훈련(training by perplexity)을 가능하게 하기 위해 도 14의 분석 시스템에 대한 2개의 대안적인 수정을 예시하며;
도 17은 출력이 피드백되도록 네트워크에 다시 추가된 arg max 단위를 포함하는, 혼란도 훈련을 가능하게 하는 도 4의 분석 시스템에 대한 수정을 예시하며;
도 18a는 알려진 기술을 예시하는 반면, 도 18b 내지 18k는 분석을 위한 비표준 염기를 추가하는 단계 및 확인된 상응하는 비표준 염기에 대한 표준 염기 호출 출력을 나타내는 표를 예시하며;
도 19는 라벨링을 위한 3개의 가능한 경로를 보여주며;
도 20은 도 2에 그림으로 도시된 계산의 진행 상황을 예시하며;
도 21은 100% dGTAC 트리포스페이트를 사용하여 1x 주기로 증폭된 3.6 kb 가닥의 오버레이를 보여주며 - 청색은 중합효소가 없는 상태이며, 적색은 중합효소가 존재하는 상태이며 -, 적색 트레이스의 3 ~ 4 kb에서 피크의 존재는 성공적인 증폭을 나타내며; 여기 청색 트레이스에서 피크가 없음을 확인하며;
도 22는 중합효소 및 75% 7-데아자 dG, 75% 2-아미노 dA, 25% dG, 25% dA 및 100% dTC 트리포스페이트를 사용한 3.6 kb 가닥의 1x 주기 증폭을 보여주며 - 적색 트레이스의 3 ~ 4 kb에서 피크의 존재는 성공적인 증폭을 나타내며;
도 23은 중합효소 및 50% 7-데아자 dG, 50% 2-아미노 dA, 50% dG, 50% dA 및 100% dTC 트리포스페이트를 사용한 3.6 kb 가닥의 1x 주기 증폭을 보여주며 - 적색 트레이스의 3 ~ 4 kb에서 피크의 존재는 성공적인 증폭을 나타내며;
도 24는 중합효소 및 75% 5-프로피닐 dU, 75% 5-프로피닐 dC, 25% dT, 25% dC 및 100% dGA 트리포스페이트를 사용한 3.6 kb 가닥의 1x 주기 증폭을 보여주며, 적색 트레이스의 약 5 ~ 6 kb에서 피크의 존재는 성공적인 증폭을 나타내며 - 5-프로피닐기의 존재는 피크 크기를 증가시키며, 이는 여분의 크기로 인한 것일 수 있음을 확인하며;
도 25는 중합효소 및 50% 5-프로피닐 dU, 50% 5-프로피닐 dC, 50% dT, 50% dC 및 100% dGA 트리포스페이트를 사용한 3.6 kb 가닥의 1x 주기 증폭을 보여주며 - 적색 트레이스의 약 5 kb에서 피크의 존재는 성공적인 증폭을 나타내며;
도 26은 중합효소 및 75% 7-데아자 dG, 75% 5-프로피닐 dU, 75% 2-아미노 dA, 75% 5-프로피닐 dC 및 25% dGTAC 트리포스페이트를 사용한 3.6 kb 가닥의 1x 주기 증폭을 보여주며 - 적색 트레이스의 약 5 ~ 6 kb에서 피크의 존재는 성공적인 증폭을 나타내며;
도 27은 중합효소 및 50% 7-데아자 dG, 50% 5-프로피닐 dU, 50% 2-아미노 dA, 50% 5-프로피닐 dC 및 50% dGTAC 트리포스페이트를 사용한 3.6 kb 가닥의 1x 주기 증폭을 보여주며 - 적색 트레이스의 약 5 kb에서 피크의 존재는 성공적인 증폭을 나타내며;
도 28은 100% dGTAC 트리포스페이트를 사용하여 1x 주기 증폭된 이. 콜라이(E. coli) 라이브러리의 오버레이를 보여주며 - 청색은 중합효소의 부재이고, 적색은 중합효소의 존재이며 - 적색 트레이스의 4 ~ 10 kb에서 번진 피크의 존재는 성공적인 증폭을 나타내며; 여기 청색 트레이스에서 피크가 없음을 확인하며;
도 29는 75% 7-데아자 dG, 75% 5-프로피닐 dU, 75% 2-아미노 dA, 75% 5-프로피닐 dC 및 25% dGTAC 트리포스페이트를 사용하여 1x 주기 증폭된 이. 콜라이(E. coli) 라이브러리의 오버레이를 보여주며 - 청색은 중합효소의 부재이고, 적색은 중합효소의 존재이며 - 적색 트레이스의 6 ~ 20 kb에서 번진 피크의 존재는 성공적인 증폭을 나타내며; 여기 청색 트레이스에서 피크가 없음을 확인하며;
도 30은 50% 7-데아자 dG, 50% 5-프로피닐 dU, 50% 2-아미노 dA, 50% 5-프로피닐 dC 및 50% dGTAC 트리포스페이트를 사용하여 1x 주기 증폭된 이. 콜라이(E. coli) 라이브러리의 오버레이를 보여주며 - 청색은 중합효소의 부재이고, 적색은 중합효소의 존재이며 - 적색 트레이스의 6 ~ 20 kb에서 번진 피크의 존재는 성공적인 증폭을 나타내며; 여기 청색 트레이스에서 피크가 없음을 확인하며;
도 31은 도 21에 도시된 변형되지 않은 3.6 kb 생성물에서 얻은 전류 트레이스의 예를 보여준다. 각 트레이스의 중앙 부분(약 887.69 ~ 887.79 secs)은 포어와 상호작용하는 서열 TTTTTTTTTTTGGAATTTTTTTTTTGGAATTTTTTTTTT에 상응한다. 이 서열은 2개의 저 전류 레벨 k량체가 산재된 편평한 단일중합체 신호를 제공하도록 설계되었으며;
도 32는 도 26에 도시된 75% 변형된 염기 3.6 kb 생성물에서 얻은 예시적인 전류 트레이스를 보여준다. 동일한 표적 서열에 상응하는 전류 트레이스의 차이를 위와 도 31 사이에서 확인할 수 있다.
도 33은 도 27에 도시된 50% 변형된 염기 3.6 kb 생성물에서 얻은 예시적인 전류 트레이스를 보여준다. 동일한 표적 서열에 상응하는 전류 트레이스의 차이를 위와 도 31 사이에서 확인할 수 있다.
도 1은 측정 시스템 2 및 분석 시스템 3을 포함하는 나노포어 측정 및 분석 시스템 1을 도시한다. 측정 시스템 2는 나노포어에 대한 중합체의 전위 동안 일련의 중합체 단위를 포함하는 중합체로부터 일련의 측정을 수행한다. 분석 시스템 3은 중합체에 대한 추가 정보, 예를 들어 일련의 중합체 단위의 추정치를 얻기 위해 일련의 측정을 분석하는 방법을 수행한다. 일반적으로, 중합체는 임의의 유형, 예를 들어 폴리뉴클레오타이드(또는 핵산), 폴리펩타이드, 예컨대 단백질, 또는 다당류일 수 있다. 중합체는 천연 또는 합성일 수 있다. 폴리뉴클레오타이드는 단일중합체 영역을 포함할 수 있다. 단일중합체 영역은 5개 내지 15개의 뉴클레오타이드를 포함할 수 있다.
폴리뉴클레오타이드 또는 핵산의 경우, 중합체 단위는 뉴클레오타이드일 수 있다. 핵산은 전형적으로 데옥시리보핵산(DNA), 리보핵산(RNA), cDNA 또는 당 업계에 알려진 합성 핵산, 예컨대 펩타이드 핵산(PNA), 글리세롤 핵산(GNA), 트레오스 핵산(TNA), 잠긴 핵산(LNA) 또는 뉴클레오타이드 측쇄가 있는 기타 합성 중합체이다. PNA 백본은 펩타이드 결합으로 연결된 반복 N-(2-아미노에틸)-글리신 단위로 구성된다. GNA 백본은 포스포디에스테르 결합에 의해 연결된 반복 글리콜 단위로 구성된다. TNA 백본은 포스포디에스테르 결합에 의해 함께 연결된 반복 트레오스 당으로 구성된다. LNA는 리보스 모이어티에서 2' 산소와 4' 탄소를 연결하는 여분의 브릿지를 갖는 상기 논의된 바와 같은 리보뉴클레오타이드로부터 형성된다. 핵산은 단일-가닥이거나, 이중-가닥이거나, 단일-가닥 및 이중-가닥 영역 모두를 포함할 수 있다. 핵산은 DNA의 한 가닥에 혼성화된 RNA의 한 가닥을 포함할 수 있다. 전형적으로 cDNA, RNA, GNA, TNA 또는 LNA는 단일 가닥이다.
중합체 단위는 임의의 유형의 뉴클레오타이드일 수 있다. 뉴클레오타이드는 자연적으로 발생하거나 인위적일 수 있다. 예를 들어, 제조된 올리고뉴클레오타이드의 서열을 확인하기 위해 방법이 사용될 수 있다. 뉴클레오타이드는 전형적으로 핵 염기, 당 및 적어도 하나의 인산염 그룹을 함유한다. 핵 염기와 당은 뉴클레오사이드를 형성한다. 핵 염기는 전형적으로 헤테로사이클릭이다. 적합한 핵 염기는 퓨린 및 피리미딘, 보다 구체적으로 아데닌(A), 구아닌(G), 티민(T), 우라실(U) 및 사이토신(C)을 포함한다. 당은 전형적으로 5탄당이다. 적합한 당은 리보스 및 데옥시리보스를 포함하지만, 이들로 한정되지 않는다. 뉴클레오타이드는 전형적으로 리보뉴클레오타이드 또는 데옥시리보뉴클레오타이드이다. 뉴클레오타이드는 전형적으로 모노포스페이트, 디포스페이트 또는 트리포스페이트를 포함한다. 뉴클레오타이드는 3개 초과의 인산염, 예컨대 4개 또는 5개의 인산염을 포함할 수 있다. 인산염은 뉴클레오타이드의 5' 또는 3' 측에 부착될 수 있다. 뉴클레오타이드는 아데노신 모노포스페이트(AMP), 구아노신 모노포스페이트(GMP), 티미딘 모노포스페이트(TMP), 우리딘 모노포스페이트(UMP), 5-메틸사이티딘 모노포스페이트, 5-하이드록시메틸사이티딘 모노포스페이트, 사이티딘 모노포스페이트(CMP), 사이클릭 아데노신 모노포스페이트(cAMP), 사이클릭 구아노신 모노포스페이트(cGMP), 데옥시아데노신 모노포스페이트(dAMP), 데옥시구아노신 모노포스페이트(dGMP), 데옥시티미딘 모노포스페이트(dTMP), 데옥시우리딘 모노포스페이트(dUMP), 데옥시사이티딘 모노포스페이트(dCMP) 및 데옥시메틸사이티딘 모노포스페이트를 포함하지만, 이들로 한정되지 않는다.
뉴클레오타이드는 염기성일 수 있다(즉, 핵 염기 부족). 뉴클레오타이드는 또한 핵 염기와 당이 부족할 수 있다(즉, C3 스페이서임).
폴리뉴클레오타이드의 뉴클레오타이드는 임의의 방식으로 서로 부착될 수 있다. 뉴클레오타이드는 전형적으로 핵산에서와 같이 그들의 당 및 인산염기에 의해 부착된다. 뉴클레오타이드는 피리미딘 이량체에서와 같이 그들의 핵 염기를 통해 연결될 수 있다.
본 명세서에 사용된 바와 같이, 표준 중합체 단위는 특정 유형의 중합체에서 전형적으로 발견되는 유형의 중합체 단위이다. 예를 들어, 폴리뉴클레오타이드에 대한 표준 중합체 단위 유형은 전형적으로 핵 염기(및 상응하는 뉴클레오사이드 및 뉴클레오타이드) 아데닌(A), 구아닌(G), 티민(T), 우라실(U) 및 사이토신(C)이다.
본 명세서에서 사용되는 바와 같이, 비표준 중합체 단위는 중합체의 상응하는 부류에 대한 표준 중합체 단위 유형 중 임의의 것과 다른(예를 들어, 상이한 분자 구조를 갖는) 유형의 중합체 단위이다. 예를 들어, 폴리뉴클레오타이드에 대한 비표준 중합체 단위 유형은 전술한 바와 같이 A, G, T, U 및 C 이외의 임의의 핵 염기(및 상응하는 뉴클레오사이드 및 뉴클레오타이드)일 수 있다.
비표준 중합체 단위는 표준 중합체 단위에 상응할 수 있다. 예를 들어, 비표준 중합체 단위는 상응하는 표준 중합체 단위로부터 유도되거나 이에 대한 구조적 유사성을 공유할 수 있다.
본원에 기재된 본 발명의 방법에서 중합체를 구성하는 중합체 단위는 중합체와 관련된 신호를 변조할 수 있다. 비표준 중합체 단위는 상응하는 중합체 단위와 다르게 신호를 변조할 수 있으므로 표준 및 비표준 중합체 단위를 구분할 수 있게 된다.
본원에 사용된 용어 "표준 염기"는 전형적으로 핵 염기인 아데닌(A), 구아닌(G), 티민(T), 우라실(U) 및 사이토신(C)을 지칭한다. 표준 염기는 표준 뉴클레오사이드 및 표준 뉴클레오타이드의 일부를 형성할 수 있다. 따라서, 본원에서 사용된 용어 "표준 염기"는 표준 뉴클레오사이드 및 표준 뉴클레오타이드를 포함할 수 있다.
본원에 사용된 용어 "비-표준 염기"는 전형적으로 상기 기재된 바와 같은 표준 염기인 아데닌(A), 구아닌(G), 티민(T), 우라실(U) 및 사이토신(C)과 상이한 핵 염기를 지칭한다. 비표준 염기는 비표준 뉴클레오사이드 및 비표준 뉴클레오타이드의 일부를 형성할 수 있다. 따라서, 본원에 사용된 용어 "비표준 염기"는 비표준 뉴클레오사이드 및 비표준 뉴클레오타이드를 포함할 수 있다.
비표준염기는 표준염기에 상응할 수 있다. 예를 들어, 주어진 비표준 염기는 주어진 표준 염기와 실질적으로 동일한 상보적 결합 특성을 가질 수 있으며, 따라서 비표준 염기는 표준 염기에 상응하는 것으로 간주될 수 있다. 비표준 염기는 비표준 염기가 상응하는 표준 염기와 실질적으로 동일한 상보적 결합 특성을 갖도록 표준 염기로부터 유도되거나 이와 구조적 유사성을 공유할 수 있다. 따라서, 비표준 염기는 변형된 표준 염기일 수 있다.
비표준 염기는 비표준 염기가 상응하는 표준 염기에 상보적인 표준 염기에 특이적으로 혼성화하거나 특이적으로 결합(즉, 보완)할 수 있다. 예를 들어, 아데닌에 상응하는 비표준 염기는 티민에 특이적으로 혼성화하거나 특이적으로 결합할 수 있다. 전형적으로, 비표준 염기는 비표준 염기가 상응하는 표준 염기에 상보적이지 않은 표준 염기에 덜 강하게 혼성화하거나 결합한다.
비표준염기는 하나 초과의 표준염기에 상응할 수 있다. 따라서, 비표준 염기는 하나 초과의 표준 염기에 특이적으로 혼성화하거나 특이적으로 결합(즉, 보완)할 수 있다. 하나 초과의 표준 염기에 상응하는 비표준 염기의 예는 본원에 기재된 범용 염기(예를 들어, 이노신)이다.
많은 다른 비표준 염기가 당 업계에 알려져 있다. 당업자는 복수의 상이한 유형의 비표준 염기를 알고 있을 것이며, 여기서 "유형"은 주어진 비표준 염기 화학종을 지칭할 수 있다.
상업적으로 입수 가능한 비-표준 뉴클레오사이드는 2,6-디아미노퓨린-2'-데옥시리보사이드, 2-아미노퓨린-2'-데옥시리보사이드, 2,6- 디아미노퓨린-리보사이드, 2-아미노퓨린-리보사이드, 슈도우리딘, 퓨로마이신, 2,6-디아미노퓨린-2'-O-메틸리보사이드, 2-아미노퓨린-2'-O-메틸리보사이드 및 아라사이티딘을 포함하지만, 이들로 한정되지 않는다. 우라실은 전형적으로 DNA에서 발견되지 않으므로 이 맥락에서 2'-데옥시우리딘은 비표준 뉴클레오사이드로 간주될 수 있다.
비표준 염기는 범용 염기 또는 뉴클레오타이드일 수 있다. 범용 뉴클레오타이드는 주형 폴리뉴클레오타이드의 모든 염기에 어느 정도 혼성화하거나 결합하는 것이다. 범용 뉴클레오타이드는 바람직하게는 뉴클레오사이드 아데노신(A), 티민(T), 우라실(U), 구아닌(G) 및 사이토신(C)을 포함하는 뉴클레오타이드에 어느 정도 혼성화하거나 결합하는 것이다. 범용 뉴클레오타이드는 다른 뉴클레오타이드보다 일부 뉴클레오타이드에 더 강하게 혼성화하거나 결합할 수 있다. 예를 들어, 뉴클레오사이드, 2'-데옥시이노신을 포함하는 범용 뉴클레오타이드(I)는 I-C > I-A > I-G 대략 = I-T의 쌍의 우선적인 순서를 보여줄 것이다.
범용 뉴클레오타이드는 바람직하게는 하기 핵 염기들: 하이포잔틴, 4-니트로인돌, 5-니트로인돌, 6-니트로인돌, 포르밀린돌, 3-니트로피롤, 니트로이미다졸, 4-니트로피라졸, 4-니트로벤즈이미다졸, 5-니트로인다졸, 4-아미노벤즈이미다졸 또는 페닐(C6-방향족 고리) 중 하나를 포함한다. 범용 뉴클레오타이드는 보다 바람직하게는 하기 뉴클레오사이드들: 2'-데옥시이노신, 이노신, 7-데아자-2'-데옥시이노신, 7-데아자-이노신, 2-아자-데옥시이노신, 2-아자-이노신, 2-O'-메틸이노신, 4-니트로인돌 2'-데옥시리보뉴클레오사이드, 4-니트로인돌 리보뉴클레오사이드, 5-니트로인돌 2' 데옥시리보뉴클레오사이드, 5-니트로인돌 리보뉴클레오사이드, 6-니트로인돌 2' 데옥시리보뉴클레오사이드, 6-니트로인돌 리보뉴클레오사이드, 3-니트로피롤 2' 데옥시리보뉴클레오사이드, 3-니트로피롤 리보뉴클레오사이드, 하이포잔틴의 비환식 당 유사체, 니트로이미다졸 2' 데옥시리보뉴클레오사이드, 니트로이미다졸 리보뉴클레오사이드, 4-니트로피라졸 2' 데옥시리보뉴클레오사이드, 4-니트로피라졸 리보뉴클레오사이드, 4-니트로벤즈이미다졸 2' 데옥시리보뉴클레오사이드, 4-니트로벤즈이미다졸 리보뉴클레오사이드, 5-니트로인다졸 2' 데옥시리보뉴클레오사이드, 5-니트로인다졸 리보뉴클레오사이드, 4-아미노벤즈이미다졸 2' 데옥시리보뉴클레오사이드, 4-아미노벤즈이미다졸 리보뉴클레오사이드, 페닐 C-리보뉴클레오사이드, 페닐 C-2'-데옥시리보실 뉴클레오사이드, 2'-데옥시네불라린, 2'-데옥시이소구아노신, K-2'-데옥시리보스, P-2'-데옥시리보스 및 피롤리딘 중 하나를 포함한다. 범용 뉴클레오타이드는 2'-데옥시이노신을 포함할 수 있다. 범용 뉴클레오타이드는 IMP 또는 dIMP일 수 있다. 범용 뉴클레오타이드는 dPMP(2'-데옥시-P-뉴클레오사이드 모노포스페이트) 또는 dKMP(N6-메톡시-2,6-디아미노퓨린 모노포스페이트)일 수 있다.
비표준 염기는 관련 표준 염기에 없는 화학 원자 또는 기를 포함할 수 있다. 화학기는 프로피닐기, 티오기, 옥소기, 메틸기, 하이드록시메틸기, 포르밀기, 카르복시기, 카르보닐기, 벤질기, 프로파길기 또는 프로파길아민기일 수 있다. 화학기 또는 원자는 형광 분자, 비오틴, 디곡시게닌, DNP(디니트로페놀), 광-불안정기, 알킨, DBCO, 아지드, 유리 아미노기, 산화환원 염료, 수은 원자 또는 셀레늄 원자이거나 이를 포함할 수 있다.
표준 뉴클레오사이드가 없는 화학기를 포함하는 상업적으로 입수 가능한 비표준 뉴클레오사이드는 6-티오-2'-데옥시구아노신, 7-데아자-2'-데옥시아데노신, 7-데아자-2'-데옥시구아노신, 7-데아자-2'-데옥시크산토신, 7-데아자-8-아자-2'-데옥시아데노신, 8-5'(5'S)-사이클로-2'-데옥시아데노신, 8-아미노-2'-데옥시아데노신, 8-아미노-2'-데옥시구아노신, 8-중수소화-2'-데옥시구아노신, 8-옥소-2'-데옥시아데노신, 8-옥소-2'-데옥시구아노신, 에테노-2'-데옥시아데노신, N6-메틸-2'-데옥시아데노신, O6-메틸-2'-데옥시구아노신, O6-페닐-2'데옥시이노신, 2'-데옥시슈도우리딘, 2-티오티미딘, 4-티오-2'-데옥시우리딘, 4-티오티미딘, 5' 아미노티미딘, 5-(1-피레닐에티닐)-2'-데옥시우리딘, 5-(C2-EDTA)-2'-데옥시우리딘, 5-(카르복시)비닐-2'-데옥시우리딘, 5,6-디하이드로-2'-데옥시우리딘, 5.6-디하이드로티미딘, 5-브로모-2'-데옥시사이티딘, 5-브로모-2'-데옥시우리딘, 5-카르복시-2'-데옥시사이티딘, 5-플루오로-2'-데옥시우리딘, 5-포르밀-2'-데옥시사이티딘, 5-하이드록시-2'-데옥시사이티딘, 5-하이드록시-2'-데옥시우리딘, 5-하이드록시메틸-2'-데옥시사이티딘, 5-하이드록시메틸-2'-데옥시우리딘, 5-요오도-2'-데옥시사이티딘, 5-요오도-2'-데옥시우리딘, 5-메틸-2'-데옥시사이티딘, 5-메틸-2'-데옥시이소사이티딘, 5-프로피닐-2'-데옥시사이티딘, 5-프로피닐-2'-데옥시우리딘, 6-O-(TMP)-5-F-2'-데옥시우리딘, C4-(1,2,4-트리아졸-1-일)-2'-데옥시우리딘, C8-알킨-티미딘, dT-페로센, N4-에틸-2'-데옥시사이티딘, O4-메틸티미딘, 피롤로-2'-데옥시사이티딘, 티미딘 글리콜, 4-티오우리딘, 5-메틸사이티딘, 5-메틸우리딘, 피롤로사이티딘, 3-데아자-5-아자-2'-O-메틸사이티딘, 5-플루오로-2'-O-메틸우리딘, 5-플루오로-4-O-TMP-2'-O-메틸우리딘, 5-메틸-2'-O-메틸사이티딘, 5-메틸-2'-O-메틸티미딘, 2',3'-디데옥시아데노신, 2',3'-디데옥시사이티딘, 2',3'-디데옥시구아노신, 2',3'-디데옥시티미딘, 3'-데옥시아데노신, 3'-데옥시사이티딘, 3'-데옥시구아노신, 3'-데옥시티미딘 및 5'-O-메틸티미딘을 포함하지만, 이들로 한정되지 않는다.
비표준 염기에는 관련 표준 염기에 존재하는 화학기 또는 원자가 없을 수 있다.
비표준 염기는 관련 표준 염기와 비교하여 변경된 전기음성도를 가질 수 있다. 변경된 전기음성도를 갖는 비표준 염기는 할로겐 원자를 포함할 수 있다. 할로겐 원자는 비표준 염기, 뉴클레오사이드 또는 뉴클레오타이드, 예컨대 핵 염기 및/또는 당 상의 임의의 위치에 부착될 수 있다. 할로겐 원자는 바람직하게는 불소(F), 염소(Cl), 브롬(Br) 또는 요오드(I)이다. 할로겐 원자는 가장 바람직하게는 F 또는 I이다.
할로겐을 포함하는 상업적으로 입수 가능한 비표준 뉴클레오사이드는 8-브로모-2'-데옥시아데노신, 8-브로모-2'-데옥시구아노신, 5-브로모우리딘, 5-요오도우리딘, 5-브로모우리딘, 5-요오도우리딘, 5'-요오도티미딘 및 5-브로모-2'-O-메틸우리딘을 포함하지만, 이들로 한정되지 않는다.
비표준 염기는 자연-발생이거나 비-자연-발생일 수 있다.
자연-발생 비표준 염기는 생체 내 폴리뉴클레오타이드에서 발견될 수 있다. 자연-발생 비표준 염기의 예는 자연-발생 메틸화 염기, 예를 들어 5-메틸-사이토신 또는 6-메틸-아데닌이다.
비표준 염기를 포함하는 폴리뉴클레오타이드를 제조하기 위한 다양한 방법이 당 업계에 공지되어 있다.
예를 들어, 주형 폴리뉴클레오타이드를 주형으로 사용하여 중합효소가 변형된 폴리뉴클레오타이드를 형성하는 조건 하에서 주형 폴리뉴클레오타이드를 중합효소와 접촉시켜 하나 이상의 비표준 염기를 포함하는 폴리뉴클레오타이드가 제조될 수 있다. 적합한 중합효소의 예에는 Klenow 또는 9o North가 포함된다. 이러한 조건은 당 업계에 알려져 있다. 예를 들어, 폴리뉴클레오타이드는 전형적으로 New England Biolabs®의 완충액과 같은 상업적으로 이용 가능한 중합효소 완충액에서 중합효소와 접촉된다. 온도는 Klenow의 경우 20 내지 37℃, 9o North의 경우 60 내지 75℃가 바람직하다. 프라이머 또는 3' 헤어핀은 전형적으로 중합효소 확장을 위한 핵 형성 지점으로 사용된다. 헤어핀은 WO2013/014451호에 공지되어 있으며, 이는 그 전체가 본원에 참조로 포함된다.
주형 폴리뉴클레오타이드는 자유 뉴클레오타이드 집단과 접촉할 수 있다. 중합효소는 자유 뉴클레오타이드를 사용하여 주형 폴리뉴클레오타이드를 기반으로 변형된 폴리뉴클레오타이드를 형성한다. 집단에서 자유 뉴클레오타이드의 아이덴티티는 변형된 폴리뉴클레오타이드의 구성을 결정한다. 집단의 각 자유 뉴클레오타이드는 주형 폴리뉴클레오타이드 중의 뉴클레오타이드 종들 중 하나 이상에 혼성화하거나 결합할 수 있다. 집단의 각 자유 뉴클레오타이드는 전형적으로 주형 폴리뉴클레오타이드 중의 뉴클레오타이드 종들 중 하나 이상에 특이적으로 혼성화하거나 특이적으로 결합(즉, 보완)할 수 있다. 뉴클레오타이드는 주형 뉴클레오타이드의 다른 뉴클레오타이드보다 뉴클레오타이드에 더 강하게 혼성화하거나 결합하는 경우 주형 폴리뉴클레오타이드의 뉴클레오타이드에 특이적으로 혼성화하거나 특이적으로 결합한다(즉, 보체). 이는 중합효소가 상보성(즉, 염기 쌍)을 사용하여 주형 폴리뉴클레오타이드를 사용하여 변형된 폴리뉴클레오타이드를 형성하도록 한다. 전형적으로, 각각의 자유 뉴클레오타이드는 주형 폴리뉴클레오타이드의 뉴클레오타이드 중 하나에 특이적으로 혼성화하거나 특이적으로 결합한다(즉, 보체).
추가 예로서, 하나 이상의 비표준 염기를 포함하는 폴리뉴클레오타이드는 주형 폴리뉴클레오타이드를 주형으로 사용하여 중합효소가 변형된 폴리뉴클레오타이드를 형성하는 조건 하에서 주형 폴리뉴클레오타이드를 리가제와 접촉시킴으로써 제조될 수 있다. 적합한 리가제의 예는 Taq 또는 E. coli 및 T4를 포함한다. 이러한 조건은 당 업계에 알려져 있다. 예를 들어, 폴리뉴클레오타이드는 전형적으로 New England BiolabsTM의 완충액과 같은 상업적으로 이용 가능한 중합효소 완충액에서 리가제와 접촉된다. 온도는 바람직하게는 이. 콜라이(E. coli) 및 T4의 경우 12 내지 37℃, Taq의 경우 45 내지 75℃이다. 프라이머 또는 3' 헤어핀은 전형적으로 결찰 확장을 위한 핵 형성 지점으로 사용된다.
주형 폴리뉴클레오타이드는 자유 올리고뉴클레오타이드 집단과 접촉될 수 있다. 리가제는 자유 올리고뉴클레오타이드를 사용하여 주형 폴리뉴클레오타이드를 기반으로 변형된 폴리뉴클레오타이드를 형성한다. 집단에서 자유 올리고뉴클레오타이드의 아이덴티티는 변형된 폴리뉴클레오타이드의 구성을 결정한다. 집단의 각 자유 올리고뉴클레오타이드는 주형 폴리뉴클레오타이드에 있는 뉴클레오타이드 종들 중 4개 이상에 혼성화하거나 결합할 수 있다. 집단의 각 자유 뉴클레오타이드는 전형적으로 주형 폴리뉴클레오타이드에 있는 뉴클레오타이드 종들 중 4개 이상에 특이적으로 혼성화하거나 특이적으로 결합할 수 있다(즉, 보체). 뉴클레오타이드는 주형 뉴클레오타이드의 다른 뉴클레오타이드보다 뉴클레오타이드에 더 강하게 혼성화하거나 결합하는 경우 주형 폴리뉴클레오타이드의 뉴클레오타이드(즉, 보체)에 특이적으로 혼성화하거나 특이적으로 결합한다. 이는 리가제가 상보성(즉, 염기 쌍)을 사용하여 주형 폴리뉴클레오타이드를 사용하여 변형된 폴리뉴클레오타이드를 형성하도록 한다. 전형적으로, 각각의 자유 올리고뉴클레오타이드는 주형 폴리뉴클레오타이드 중 6개의 뉴클레오타이드(즉, 보체)에 특이적으로 혼성화하거나 특이적으로 결합한다.
주형 폴리뉴클레오타이드는 표적 폴리뉴클레오타이드일 수 있다. 주형 폴리뉴클레오타이드는 표적 폴리뉴클레오타이드의 보체일 수 있다. 주형 폴리뉴클레오타이드는 표적 폴리뉴클레오타이드에 부분적으로 또는 전체적으로 상응할 수 있다. 주형 폴리뉴클레오타이드는 표적 폴리뉴클레오타이드의 일부 또는 전체의 보체일 수 있다.
일부 실시형태에서, 하나 이상의 비표준 염기를 포함하는 폴리뉴클레오타이드는 하나 이상의 표준 염기를 상응하는 비표준 염기로 효소적 전환함에 의해 제조될 수 있다. 예를 들어, 표준 염기를 포함하는 폴리뉴클레오타이드는 하나 이상의 표준 염기 유형을 상응하는 비표준 염기 유형으로 전환할 수 있는 효소와 접촉될 수 있다. 이러한 효소의 예는 DNA- 및 RNA-메틸트랜스퍼라제 효소를 포함한다. 일부 실시형태에서, 하나 이상의 비표준 염기를 포함하는 폴리뉴클레오타이드는 하나 이상의 표준 염기를 상응하는 비표준 염기로 화학적 전환함에 의해 제조될 수 있다. 예를 들어, 표준 염기를 포함하는 폴리뉴클레오타이드는 하나 이상의 표준 염기 유형을 상응하는 비표준 염기 유형으로 전환할 수 있는 화학물질과 접촉될 수 있다. 이러한 화학물질의 예로는 포름산, 하이드라진, 디메틸 설페이트, 오스뮴 테트록사이드 및 일부 바나데이트 화합물을 포함한다.
비표준 염기는 또한 피리미딘 이량체, 예를 들어 티민 이량체를 포함할 수 있다. 이러한 이량체는 자외선의 작용에 의해 폴리뉴클레오타이드에 도입될 수 있다. 주형 의존성 합성의 생성물도 변형될 수 있다. 생성물은 표준 염기의 집단을 사용하여 형성된 다음, 비표준 염기를 함유하도록 생성물이 변형될 수 있다. 생성물은 표준 및 비표준 염기의 집단을 사용하여 형성될 수 있으며, 그 다음 생성물은 동일하거나 상이한 비표준 염기를 더 많이 함유하도록 추가로 변형된다.
나노포어 시퀀싱의 정확도는 표준 및 비표준 중합체 단위를 포함하는 중합체 또는 가닥을 분석하여 개선될 수 있다. 분석에 사용된 중합체는 표적 중합체 또는 표적 가닥이라고 한다. 이러한 표적 중합체는 기원 또는 디자인에 따라 공통 표준 서열을 갖는 원래 중합체 또는 가닥에서 유도된다. 이 원래의 중합체는 상동 가닥이라고 할 수 있다. 명확하게 말하면, 원래의 중합체는 인간의 뺨 안쪽으로부터 면봉과 같은 분석할 샘플에서 유래한다.
원래 중합체는 여러 번 복제되고 비표준 중합체 단위가 이러한 복제본에 추가되어 표적 중합체를 생성한다. 측정 신호는 Oxford Nanopore Technologies에서 생산한 것과 같은 시퀀싱 장치를 통해 표적 중합체를 통과시켜 얻을 수 있으며, 장치에서 판독하거나 처리된 신호를 처리하여 서열을 제공할 수 있다. 서열 추정은 염기 호출을 제공할 수 있다.
서열을 결정하기 위한 측정 분석은 아래에 설명된 대로 기계 학습을 사용할 수 있다.
공통 표준 서열을 갖는 원래 중합체 또는 가닥으로부터 표적 중합체의 생성은 표준 염기, 즉 A, C, G 및 T 중 하나 이상을 비표준일 수 있는 대체 염기로 치환함으로써 달성될 수 있다. 이러한 대체 염기는 나노포어를 통과할 때 상응하는 표준 염기와 비교하여 다른 신호를 생성한다. 표적 중합체의 대체 염기가 제공되고, 이후 비-결정적 방식으로 위치한다.
비특이적 결합을 갖는 대체 염기가 사용될 수 있다. 대체 염기는 변형, 형광단 기 또는 뚜렷한 핵 자기 공명을 가진 원자를 함유할 수 있으며, 이는 예를 들어 직교 측정과 같은 측정을 허용하여 그의 존재 및 위치를 측정할 수 있다. 추가적으로 또는 대안적으로, 표준 염기를 대체 염기로 치환하는 대신, 중합체에 대한 다른 변경이 기재된 것과 유사한 효과를 생성하도록 만들어질 수 있다. 예를 들어, UV 광선에 노출을 통해 의도적으로 피리미딘 이량체의 형성을 유도하거나 추가 예로서 핵 염기의 절제를 통해 유일한 백본을 남긴다.
염기의 치환 수준은 약 1% 내지 약 99%, 바람직하게는 약 30% 내지 약 70%, 더욱 바람직하게는 약 50%의 비율일 수 있다. 치환 비율은 각 치환 염기 및/또는 치환 유형에 대해 거의 동일할 수 있다. 치환 비율은 각각의 치환 염기 및/또는 치환 유형에 따라 다를 수 있다.
치환의 비-결정적 특성의 결과로, 다른 표적 중합체 또는 표적 가닥은 분석되는 복제된 원래 중합체의 원래 염기에 대해 다른 위치에 위치한 비표준 염기와 같은 대체 염기를 갖는다.
주어진 표준 염기에 대해 복수의 대체 염기를 제공함으로써, 상이한 표적 중합체는 주어진 위치에서 상이한 치환을 가질 수 있다. 치환의 비-결정적 특성에 비추어, 일부 표적 중합체는 동일한 대체물로 치환된 동일한 위치를 가질 것이며, 즉, 다른 가닥에 대한 위치 세트가 상호 배타적이지 않다.
나노포어를 통해 대체 중합체 가닥을 통과시켜 유도될 수 있는 표적 중합체와 관련된 신호의 일련의 측정을 수행함으로써 중합체 단위를 포함하는 표적 중합체의 서열을 결정하는 것은 복수의 중합체 단위에 의존하는 신호 측정을 포함한다.
표적 중합체는 신호를 변조하고, 표적 중합체의 비표준 중합체 단위는 상응하는 표준 중합체 단위와 다르게 신호를 변조하므로 정확도가 향상된다. 이 차이를 설명하기 위해 염기 CcAGT에서 유도된 표적 중합체의 신호는 염기 CCAGT를 갖는 원래 중합체의 다른 동일한 염기와 상이하다. 표준 염기를 대체 염기로 치환하면 측정된 신호가 대체 또는 비표준 단위를 선택하거나 확인한다. 예를 들어, 대체 염기 'c'는 표준 염기 'C'로 치환된다. 또 다른 예로서, 표준 염기는 이노신으로 치환될 수 있으며, 이는 염기 C, A, G 또는 T 중 어느 하나에 해당하지 않지만 그 자체로 인식되고, 후속 분석은 이 비표준 염기를 '비표준' 또는 A, C, G 또는 T 중 하나로 본다.
신호는 대체 염기를 인식하는 분석 방법을 사용하여 처리된다. 분석 방법은 염기 호출 방법, 컨센서스 방법 및 결과를 도출하는 데 필요한 임의의 보조 처리를 포함한다.
염기 호출 방법의 바람직한 예는 염기 호출 방법이 신호에 대한 대체 염기의 영향을 표준 염기에 부여하도록 훈련된 경우이다.
다중 표적 중합체 또는 가닥을 시퀀싱할 때, 상이한 가닥에서 상이한 치환 세트에 의해, 상이한 가닥에 대해 상이한 방식으로 신호가 조절된다는 것을 이해할 것이다. 많은 대체 염기의 존재로 인해 개별 염기 호출의 정확도가 떨어질 수 있지만, 임의의 염기 호출 오류는 덜 체계적이며 결과적으로 컨센서스 서열이 더 정확하다는 것도 인식할 것이다.
이 방법은 사용된 대체 염기가 비특이적 결합을 갖는 경우에도 적용될 수 있다. 비특이적은 표준 서열에 대한 각 가닥의 정보 손실을 나타내지만, 대체 염기의 통합이 비-결정적이기 때문에 일부 상동 가닥이 표준 염기를 유지하므로 그의 아이덴티티는 컨센서스에 의해 확립될 수 있다.
표적 중합체의 대체 염기는 이러한 대체 염기를 인식하기 위해 분석될 수 있는 일련의 측정을 생성할 수 있지만, 비표준 중합체 단위와 같은 대체 염기의 측정을 각각의 상응하는 표준 중합체 단위의 측정으로 부여하도록 바람직하게는 기계 학습 기술을 사용하여 분석될 수 있다.
표준 및 대체 염기를 표적 중합체에 비-결정적으로 통합하기 때문에 염기의 기본 서열은 알려지지 않았으며, 상기 가닥이 동일한 원래 중합체 또는 주형의 복제본이거나 동일한 게놈 영역의 생물학적 복제물인 경우에도 가닥별로 다양할 것이다. 각 가닥에 대체 염기가 포함되어 있더라도, 샘플 준비에 대체 염기가 없었더라면 어땠을 지에 대한 관련 표준 서열이 여전히 존재하며, 임의의 대안의 유형과 위치를 추론하기보다는 직접 호출하는 것이 좋다. 즉, 표적 중합체에 5개 이상의 염기가 있음에도 불구하고 분석은 결정된 서열이 A, C, G 및 T 그룹의 염기로 구성되도록 신호에 대한 표준 값만 부여한다.
기계 학습 기술은 바람직하게 훈련되고 모델을 사용한다. 훈련된 기계 학습 기술을 사용하여 하나 이상의 판독에서 표준 서열을 추정할 수 있다. 이러한 기술을 적용하기 전에 관련 표준 서열이 있는 대표적인 판독 세트에 대해 훈련되어야 한다. 이러한 세트를 얻을 수 있는 방법은 하기에 기재되어 있으며, 이제 이 문제의 고유한 특징을 고려하여 훈련을 수행할 수 있는 방법을 설명한다.
이 방법은 신경망, 순환 신경망, 랜덤 포레스트 또는 서포트 벡터 머신과 같은 기계 학습 방법을 사용할 수 있으며, 이 방법은 종종 감독 방식으로 훈련되며, 훈련 세트는 입력 신호와 출력 레이블 사이의 명시적 관계 또는 등록으로 구성된다. 입력 신호는 표준 염기와 대체 염기의 혼합물을 포함하는 표적 중합체에서 유도된다. 기계 학습 방법이 서열에 부여하는 출력 레이블 또는 염기의 아이덴티티는 표준 염기와 대체 염기의 혼합물이거나 표준 염기 단독일 수 있다.
염기의 혼합물을 갖는 출력은 연속된 표적 중합체의 후속 정렬 및 컨센서스 형성을 위해 상세한 데이터 세트를 제공할 수 있다.
컨센서스 방법은 당 업계에 잘 알려져 있으며, 쉽게 적용될 수 있다. 염기 호출자가 비표준 염기의 영향을 표준 염기에 부여하는 경우, 결과 염기 호출은 표준 서열을 포함하며, 거의 변형없이 방법들이 적용될 수 있다. 염기 호출에 비표준 염기가 있는 경우, 비표준 염기가 이들의 표준 파트너에 정렬되도록 컨센서스 방법이 변형될 수 있다. 비특이적 비표준 염기가 사용되는 경우, 비특이적 비표준 염기가 비특이적으로 정렬되도록 컨센서스 방법이 변형될 수 있다. 이러한 정렬은 예를 들어 맞춤형 대체 행렬 또는 채점 시스템을 사용하여 달성될 수 있다.
그러나, 이러한 상세한 데이터 세트는 표적 중합체의 서열을 정렬하고 컨센서스를 형성하는 데 필요한 계산 리소스 또는 비용을 증가시킬 수 있다. 따라서, 표준 염기만 출력하도록 측정을 분석하면, (i) 기계 학습 기술을 사용하여 세부 측정을 통합하여 정확도를 향상시키고/시키거나, (ii) 표적 중합체가 표준 중합체 단위와 대체 중합체 단위의 혼합물로 구성되어 있기 때문에 정확하게 결정된 4개의 염기이지만 4개의 표준 염기에만 상기 프로세스가 기반되어 있기 때문에 컨센서스의 정렬 및 형성을 단순화하는 효과가 있다.
도 18a 내지 18k는 판독될 표적 중합체 중의 비표준 염기의 통합에 대한 설명을 예로서 지원한다.
도 18a는 참조를 위해 알려진 것을 나타낸다. 표준 중합체 단위만을 포함하는 이중 가닥 DNA 분자는 원래 중합체의 주형 또는 보체 중 하나가 나노포어를 통과하여 원래 중합체의 개별 중합체 단위를 확인하도록 분할된다. 도 18a에서 주형은 포어를 통과한다. 주형은 염기호출될 수 있다. 추가 주형이 염기호출될 수 있으며, 염기호출이 정렬되어 컨센서스를 결정하는데 사용될 수 있다.
도 18b는 원래 중합체인 이중-가닥 DNA 분자가 변성 및 증폭되어 치환이 이루어지고, 표준 염기가 비표준 염기의 공급으로부터, 비표준 염기로 치환되어, 표적 중합체를 생성하는 본 발명의 예이다. 치환은 비-결정적이다. 도 18b의 예에서, 원래 중합체의 주형은 표적 중합체가 4개의 표준 염기 A, C, G 및 T와 4개의 상응하는 비표준 염기 a, c, g 및 t 즉 표준 염기와 비표준 염기의 혼합을 갖도록 치환된다. 포어를 통과한 후 염기 호출자는 표준 염기, 즉 8개에서 4개의 염기 또는 그의 변형만 호출할 수 있다. 포어로부터의 미가공 신호가 처리되는 방식은 다를 수 있다. 표준 염기와 비표준 염기가 혼합된 주형은 염기호출될 수 있는 표적 중합체가 된다. 추가 주형은 추가 표적 중합체가 될 수 있으며, 염기 호출될 수도 있다. 염기 호출이 정렬되어, 컨센서스를 결정하는 데 사용될 수 있다.
방법이 확률적으로 분포된 비표준 염기의 존재를 활용하는 방식은 다양할 수 있다. 본원에 제공된 예에서 표적 중합체는 염기호출된다. 추가적으로 또는 대안적으로, 주형 중합체를 통과시킨 후 포어로부터 수신된 미가공 신호는 표적 중합체의 서열을 결정하는데 사용될 수 있으며, 이러한 미가공 신호 분석은 그 전체가 본원에 참조로 포함된 WO13/041878호에 개시된 기술을 사용한다. 그러나 전반적으로 계산 효율성은 최종적으로 염기 호출함으로써 또는 표준 염기만 갖는 컨센서스를 결정함으로써 향상될 수 있으며/있거나 비표준 염기의 확률적 분포에 의해 체계적 오류가 감소될 수 있다.
도 18c는 염기호출자에 의해 확인된 '입력'을 보여주는 표이며, 표적 중합체에서 확인할 수 있는 표준 및 비표준 염기를 포함한다. 상응하는 '출력'은 표준 염기로 통합된다. 표준-전용 출력에 대한 입력 통합은 개별 염기호출 수준에서 발생할 수 있다. 표준 전용 출력에 대한 입력 통합은 표준 단위와 비표준 단위의 혼합물을 포함하는 복수의 염기호출에서 컨센서스를 결정할 때도 수행될 수 있다. 컨센서스가 형성되면, 비표준 염기가 그의 표준 파트너와 정렬될 수 있다. 비표준 염기의 비-결정적 위치와 후속 통합을 통해 체계적인 오류가 감소될 수 있다.
도 18d에서, 예를 들어, 2개의 대체 입력-출력 테이블이 도시되어 있다. 염기 호출자가 비표준 염기의 영향을 하나 이상의 표준 염기에 부여할 수 있음을 보여준다. 예는 임의의 표준 염기로 확인되는 비특이적 비표준 염기 "X"; 표준 "C"로 확인되는 메틸화된 "C"; 및 표준 "T"로 확인되는 "TT 이량체"를 포함한다. 본원의 표는 설명 목적으로만 제공되며, 맞춤형 치환 행렬 또는 채점 시스템을 사용하여 통합이 구현될 수 있다.
염기 호출 또는 컨센서스 결정으로부터의 최종 출력이 표준 염기의 확인이지만 중간 처리는 표적 중합체를 분석하는 센서에서 읽은 미가공 신호를 사용할 수 있다. 각각의 표준 및 비표준 입력은 고유한 방식으로 생성되는 미가공 신호에 영향을 줄 것이다. 염기 호출 및/또는 컨센서스 수준에서 출력을 결정하기 위해 기계 학습 기술이 미가공 신호를 분석하는 것이 유용할 수 있다.
본 발명은 염기 호출을 개선하고 컨센서스를 결정하기 위한 공지된 기술에 상승적으로 적용될 수 있다. 예를 들어, 표적 중합체는 서로 역 보체인 첫 번째 영역과 두 번째 영역을 가질 수 있어서, 이 주형과 보체는 헤어핀으로 연결될 수 있다. 표적 중합체는 원래 중합체의 주형 또는 보체로부터 유도될 수 있으며, 여기서 표적 중합체의 상기 주형 또는 보체는 중합효소 필-인을 사용하여 형성된 상응하는 역 보체에 3' 또는 5' 연결(어댑터)을 갖는다.
도 18b와 관련하여 기재된 바와 같이 표적 중합체를 생성하기 위해 이루어진 치환은 헤어핀 연결을 통해 연결된 주형, 보체 및/또는 역 보체에 다양한 방식으로 적용될 수 있다.
도 18e 및 18f에서 실선은 이중 가닥 DNA 분자의 원래 부분, 즉 원래 중합체의 일부인 그로부터 유래된 주형 또는 보체를 나타낸다. 도 18e 및 18f의 단계는 중합효소와 뉴클레오타이드를 사용하여 수행된다. 짧은 점선은 프라이머를 나타내고, 긴 점선은 중합효소로부터의 연장 생성물과 결합된 프라이머를 나타낸다.
도 18e는 중합효소 연쇄 반응(PCR)과 같은, 변형된 폴리뉴클레오타이드가 증폭을 통해 어떻게 제조될 수 있는지를 보여주는 4개의 전이(아래쪽 화살표로 표시)가 있는 5 단계를 보여준다. 이 방법은 중합효소, 주형 핵산 및 표준 뉴클레오타이드와 비표준 뉴클레오타이드의 풀을 포함한다. 이들은 표준 PCR 기술에 따라 순환된다.
도 18e의 제1 단계는 이중 가닥 DNA 분자로 시작하고 이는 제2 단계에서 변성되고, 각각이 한쪽 끝에 부착된 각각의 프라이머를 갖고, 각각이 표준 염기만을 포함하는, 별도의 주형과 보체를 생성하기 위해 프라이머를 추가한다. 그 다음, 제2 단계의 생산물은 중합효소 필-인에 사용되고, 상기 필-인은 풀을 사용하고, 상기 풀은 표준 및 비표준 뉴클레오타이드 또는 염기를 포함한다. 제2 단계는 제3 단계에서 (i) 표준 염기와 비표준 염기의 혼합을 갖는 보체에 프라이머를 통해 연결된 표준 염기만 갖는 주형, 및 (ii) 표준 염기와 비표준 염기의 혼합을 갖는 주형에 프라이머를 통해 연결된 표준 염기만 갖는 보체를 생성하도록 변환된다.
제3 단계의 생산물은 변성되고 프라이머를 추가하여 제4 단계에서 각각 프라이머가 부착된 4개의 단위를 생성한다. 이들 4개의 단위는 (i) 뉴클레오타이드 또는 염기의 혼합을 갖는 주형, (ii) 표준 염기만을 갖는 주형, (iii) 염기의 혼합을 갖는 보체, 및 (iv) 표준 염기만을 갖는 보체 주형이다. 제4 단계의 생산물, 즉 제4 단계의 각 단위는 중합효소 필-인에 사용되고, 상기 필-인은 표준 뉴클레오타이드와 비표준 뉴클레오타이드의 풀을 사용한다. 이것은 제5 단계에서, (i) 염기의 혼합을 갖는 보체에 프라이머를 통해 연결된 염기의 혼합을 갖는 주형, (ii) 염기의 혼합을 갖는 보체에 프라이머를 통해 연결된 표준 염기만을 갖는 주형, (iii) 염기의 혼합을 갖는 주형에 프라이머를 통해 연결된 염기의 혼합을 갖는 보체, 및 (iv) 염기의 혼합을 갖는 주형에 프라이머를 통해 연결된 표준 염기만을 갖는 보체 주형을 생성한다. 변성, 프라이머 추가 및 필-인의 주기가 반복될 수 있다.
도 18f는 도 18e의 처음 세 단계를 갖고 있다. 하나의 가닥이 표준 뉴클레오타이드로 구성된 원래 가닥이고 다른 가닥이 표준 뉴클레오타이드와 비표준 뉴클레오타이드의 혼합물로 구성된 합성 생성물인 표적 중합체로서 변형된 폴리뉴클레오타이드. 표준 단위만을 갖는 하나의 가닥과 그로부터 유도된 다른 가닥, 즉 보체 또는 역 보체를 갖는 것은 원래의 표준 염기와 확률적으로 위치된 비표준 염기 사이의 비교를 포함하는 염기의 결정을 허용한다.
대안적으로, 합성은 표적 핵산 주형에 혼성화된 리가제 및 랜덤 올리고뉴클레오타이드를 사용하여 수행될 수 있다. 이 대안은 분석을 위한 표적 중합체를 생성하기 위해 변형된 결찰 및 올리고뉴클레오타이드를 사용하는 방법을 보여주는 3개의 전이와 함께 4개의 단계를 갖는 도 18g에 표시된다. 도 18g의 제1 단계는 이중 가닥 DNA 분자로 시작하며, 이는 변성되고 올리고뉴클레오타이드가 추가된다. 도 18g에서 실선은 원래 중합체인 이중 가닥 DNA 분자의 원래 부분을 나타내며, 제2 단계에서는 하나만 "acgt"로 표시된다. 짧은 점선은 올리고뉴클레오타이드를 나타낸다. 제2 단계와 제3 단계 사이에 추가 올리고뉴클레오타이드가 추가된다. 제4 단계까지 올리고뉴클레오타이드는 리가제에 의해 공유 결합된다. 올리고뉴클레오타이드는 비표준 염기 또는 표준 염기와 비표준 염기의 혼합물로 구성될 수 있다.
또한, 어댑터 결찰 또는 5' 프라이머에의 통합과 같은 여러 기술을 통해 주형 핵산의 3' 말단에 추가된 3' 헤어핀인, 헤어핀을 사용하여 합성이 일어날 수 있다. 도 18h에는 헤어핀을 사용하여 합성을 시작하는 방법을 보여주는 3개의 전이가 있는 4개의 단계가 표시된다. 헤어핀은 갈고리 모양의 선으로 표시되며, 제2 단계에서는 표준 염기와 비표준 염기의 혼합으로 구성되어 있기 때문에 짧은 점선으로 표시되며 이들은 프라이머 역할을 한다. 도 18h의 제1 단계는 이중 가닥 DNA 분자로 시작하고, 헤어핀이 주형과 보체의 끝에 추가된다. 도 18h에서 실선은 원래 중합체인 이중-가닥 DNA 분자의 원래 부분을 나타낸다. 제2 단계와 제3 단계 사이에 DNA 분자가 변성되어 각각 헤어핀을 갖는 별도의 원래 주형과 원래의 보체를 생성한다. 제3 단계의 생산물, 즉 제3 단계의 각 단위는 중합효소 필-인을 거치며, 상기 필-인은 풀을 사용하며, 상기 풀은 표준 뉴클레오타이드와 비표준 뉴클레오타이드의 혼합물을 포함한다.
헤어핀에서 연장하거나 프라이머에 의해 시작된 합성 반응의 생성물에 헤어핀을 추가하면 원래 주형 핵산의 정보를 합성 생성물 가닥과 비교하거나 결합할 수 있다.
표준 및 비표준 뉴클레오타이드를 함유하는 합성된 생성물의 연쇄 동일 서열도 준비될 수 있다. 이것은 시작 주형 핵산으로서 단일 또는 이중 가닥 DNA로 수행될 수 있다. 연쇄 동일 서열 형성의 가장 일반적인 세 가지 기술은 도 18i, 18j 및 18k에 예를 들어 도시되어 있다.
도 18i에서 제1 단계는 표준 중합체 단위만 갖는 주형으로 시작한다. 그의 끝은 리가제를 통해 연결된다. 프라이머 역할을 하는 스플린트(splint)가 추가된다. 가닥 치환 합성과 표준 뉴클레오타이드와 비표준 뉴클레오타이드의 풀을 사용하는 중합효소 필-인을 사용하여 역 보체가 반복적으로 생성된다. 이 역 보체는 뉴클레오타이드의 혼합을 갖는다. 이 역 보체는 생성 중에 직접 분석될 수 있다. 대안적으로, 이 역 보체는 생성 후 분석될 수 있다. 예를 들어, 나노포어를 통과하여 분석될 수 있다.
도 18j에서, 4개의 단계들 중 제1 단계는 이중-가닥 DNA 분자로 시작된다. 헤어핀이 추가되어, 주형과 보체의 끝을 연결한다. 어닐링된 프라이머가 제2 단계에 추가되고, 그후 가닥 치환 중합효소가 주형과 보체의 반복 가닥을 생성하며, 상기 가닥은 표준 뉴클레오타이드와 비표준 뉴클레오타이드의 풀을 사용하여 필-인된다. 이 가닥은 생성 중에 직접 분석될 수 있다. 대안적으로, 이 가닥은 생성 후 분석될 수 있다. 예를 들어, 가닥은 나노포어를 통과하여 분석될 수 있다.
도 18k에서, 6개의 단계들 중 제1 단계는 이중-가닥 DNA 분자로 시작된다. 하나의 헤어핀이 주형에 추가되고 하나의 헤어핀이 보체에 추가되지만, 분자의 끝은 연결되어 있지 않다. 제2 단계와 제3 단계 사이에 헤어핀이 복제되고, 복제본은 표준 뉴클레오타이드와 비표준 뉴클레오타이드의 혼합을 포함한다. 그런 다음, 이중-가닥 DNA 분자가 변성되고 표준 염기만 갖는 원래의 주형과 보체가 표준 뉴클레오타이드와 비표준 뉴클레오타이드의 풀을 사용하여 필-인된다. 추가 핵 형성 지점과 헤어핀이 제4 단계와 제5 단계 사이에 추가되며, 여기서 PCT 필-인이 발생한다. 제5 단계의 생성물은 후속 필-인을 거쳐 표준 단위만을 갖는 첫 번째 부분(주형)을 가진 가닥을 갖는 표적 중합체를 생산하고, 이어서 교대하는 보체와 주형의 서열을 가지며, 상기 반복 서열은 표준 뉴클레오타이드와 예시된 바와 같은 비표준 뉴클레오타이드의 혼합을 갖는다.
18b 내지 18k의 각각의 예에서, 표적 중합체 중의 비표준 단위의 존재는 그로부터 유도된 신호의 복잡도 또는 변동 수준을 증가시킨다. 이것은 표적 중합체의 모든 영역에서 변동의 복잡도 수준을 증가시킬 수 있다. 특히, 단일중합체 영역과 같은 원래 중합체의 반복 영역으로부터 유도된 신호의 범위는 표적 중합체의 상응하는 영역에서 증가한다.
롤링-선형 증폭을 위해 원래의 주형 핵산이 시퀀싱 생성물에 통합된다. 이를 통해 표준 염기만 함유하는 가닥을 표준 염기와 비표준 염기의 혼합물을 함유하는 일련의 생성물과 비교할 수 있다.
위의 모든 방법의 출력은 데노보(de novo) 시퀀싱, 참조 게놈을 사용한 시퀀싱, 포어를 통해 보체가 주형을 따르는 1-차원 시퀀싱 또는 2-차원 시퀀싱을 포함한 기술을 사용하여 분석될 수 있다.
예를 들어, 표적 중합체의 제조는 US6087099호; WO2015/124935호; 또는 PCT/GB2019/051314호에 개시된 기술과 같은 다양한 방법을 사용할 수 있으며, 이들 모두는 전체가 본원에 참조로 포함된다.
본원의 모든 방법은 추가로 또는 대안적으로, 표준 염기만을 갖는 뉴클레오타이드 가닥을 생성하는 데 사용될 수 있으며, 이어서 표적 중합체 중의 표준 염기와 비표준 염기의 혼합을 제공하기 위해 합성 반응 후 효소적으로 또는 화학적으로 변형될 수 있다.
PCR 필-인 또는 올리고뉴클레오타이드 매칭의 비-결정적 특성으로 인해, 복수의 폴리뉴클레오타이드의 각 폴리뉴클레오타이드와 관련된 신호가 다를 수 있다. 한가지 결과는 신호 분석에 존재하는 임의의 오류가 체계적이지 않아, 컨센서스 서열 결정을 개선한다는 것이다.
표준 및 대체 염기를 표적 중합체에 비-결정적으로 통합하기 때문에 염기의 기본 서열은 알려지지 않았으며, 상기 가닥이 동일한 원래 중합체 또는 주형의 복제본이거나 동일한 게놈 영역의 생물학적 복제물인 경우에도 가닥별로 다양할 것이다. 각 가닥에 대체 염기가 포함되어 있더라도, 샘플 준비에 대체 염기가 없었더라면 어땠을 지에 대한 관련 표준 서열이 여전히 존재하며, 임의의 대안의 유형과 위치를 추론하기보다는 직접 호출하는 것이 좋다. 즉, 표적 중합체에 5개 이상의 염기가 있음에도 불구하고 분석은 결정된 서열이 A, C, G 및 T 그룹의 염기로 구성되도록 신호에 대한 표준 값만 부여한다.
위의 방법은 예를 들어 표준 및 비표준 중합체 단위를 갖는, 시퀀싱할 표적 중합체의 제조를 입증하기 위해 제공된다. 전형적으로 기계 학습 기술을 사용하여 표적 중합체로 이루어진 측정을 분석하는 동안, 이 방법은 비표준 중합체 단위의 측정을 각 상응하는 표준 중합체 단위의 측정으로 간주한다. 이 속성은 염기 호출 수준에서, 및/또는 컨센서스 형성 중에 적용될 수 있다. 그 다음, 표적 중합체의 서열은 분석된 일련의 측정으로부터 결정될 수 있다.
원래 중합체의 주형 또는 보체로부터 유래된 표적 중합체의 제조에서, 예를 들어 PCR 필-인 또는 결찰된 올리고뉴클레오타이드에 연결이 이루어진다. 표적 중합체에서 주형, 보체 또는 필-인 중 적어도 하나는 표준 및 비표준 중합체 단위를 포함한다. 비표준 염기는 표적 중합체에 비-결정적으로 통합된다.
본원의 예는 모든 표적 중합체의 분석에 적용될 수 있지만, 분석은 추가로 또는 대안적으로 표적 중합체의 특정 영역에 선택적으로 적용될 수 있다. 예를 들어, 표적 중합체의 서열 결정은 (i) 관심있는 것으로 결정된 특정 신호 간격, (ii) 예를 들어 관심 단일중합체로 확인된 중합체의 영역에 상응하는 특정 간격, (iii) 중합체 단위의 단순한 반복 패턴, 및 (iv) 중합체 단위의 특히 편향된 조성을 갖는 영역 중 적어도 하나를 갖는 특정 영역에 초점을 맞출 수 있다.
서열 결정은 여러 단계에서 수행될 수 있다. 비-제한적인 예로서, 결정은 반복 단위를 확인한 다음 반복 횟수에 초점을 맞출 수 있다.
전체 표적 중합체 또는 그의 일부에 대한 서열 결정은 복수의 일련의 측정을 고려하여 수행될 수 있으며, 각각은 관심 영역에서 동일한 표준 서열을 갖는 표적 중합체에서 나온 것으로 확인된다. 확인은 WO13/121224호에 기재된 것과 같은 기술을 사용하여 수행될 수 있으며, 이는 그 전체가 본원에 참조로 포함된다. 확인은 각 일련의 측정에 대한 중합체 단위 서열의 초기 결정을 수행하여 수행할 수 있다.
기계 학습 기술을 사용하여 표적 중합체의 일련의 측정을 분석하려면 훈련이 필요할 수 있으며, 이는 (i) 각 가닥에 대한 그라운드 트루스(ground truth) 서열에 대한 불완전한 지식 및 (ii) 입력 신호와 출력 표지 사이의 미지 등록을 수용하는 기계 학습 분야에서 염기 호출자를 훈련하는 것을 고려해야 한다.
각 가닥의 그라운드 트루스 서열에 대한 불완전한 지식은 원래 중합체에서 합성될 때 표적 중합체에서 형성되는 대체 염기의 비-결정적 존재 및 위치의 결과이다. 두 가닥이 동일한 원래 분자로부터의 합성된 보체인 경우에도 표준 및 대체 염기의 패턴이 여전히 다르며, 훈련할 때 사용할 '그라운드 트루스' 서열이 없다. 훈련에서 표적 중합체 간의 차이를 해결하기 위해 기계 학습 기술은 표준 서열 즉, 표적 중합체가 합성된 원래 중합체에 대해 훈련된다. 공통 주형 가닥, 즉 원래 중합체의 표준 염기 서열은 염기 호출 방법을 훈련하고 기존 DNA 염기 시퀀싱 기술과 동일한 용도에서 사용할 수 있는 유용한 출력을 생성한다.
입력 신호와 출력 표지 사이의 미지 등록과 관련된 문제는 "무-등록"이라고 할 수 있으며, 이러한 무-등록 훈련 방법은 신호를 서열에 정확하게 매핑하는 것이 특정될 필요가 없기 때문에 기존의 라벨링 전략에 비해 이점을 제공할 수 있다. 무-등록 접근 훈련 방법을 사용하지 않고 신호와 표지 사이의 등록 추정치를 얻어야 하며, 이 등록은 실수가 있더라도 정확한 것으로 간주되며; 그런 다음 이러한 실수는 기계 학습 접근 방식으로 훈련되어 염기 호출 정확도를 잃게 된다.
등록 추정치를 얻기 위해서는 등록이 규칙적인 방식으로 진행된다고 가정하거나, 정확한 표지 순서를 호출하도록 제한되어 있는 이전에 획득한 모델에서 생성된 표지와의 동의에 의해 진행될 수 있다. 또한, 이러한 추정치는 신호 또는 기타 마커의 독특한 패턴과 같은 시스템에 대한 추가 지식을 사용하여 더욱 제한될 수 있다.
관련 오류 및 문제가 설명된 등록 추정치에서 모델을 훈련하는 대신, 이 방법은 무-등록 훈련 방법을 사용할 수 있다. 목적 함수를 최소화하거나 대략적으로 최소화하여 훈련이 진행될 수 있다.
기계 학습 방법이 표적 중합체의 각 판독에 대한 서열을 얼마나 잘 예측하는지에 대한 점수가 주어지면, 바람직하게는 표적 중합체의 표준 서열인 적당한 목적 함수가 상기 점수를 결합하여 생성될 수 있으며 이러한 조합이 일부 기능을 적용함으로써 영향을 받을 수 있다. 중심 추세를 측정하는 함수가 바람직하다. 이러한 함수의 예는 평균 점수, 모든 점수의 합, 중앙값, 트림-평균 점수, 가중-평균 점수, 점수 분위수의 가중 합계(L-추정량), 위치에 대한 M-추정량을 포함한다.
판독과 표준 서열 사이의 등록이 알려진 경우, 새 표지가 방출될 때 표지로 구성되거나 그렇지 않으면 '공백' 상태로 구성된 판독과 동일한 길이의 표지의 증강 서열이 생성될 수 있다. 표지들의 이 증강 서열을 판독을 위한 '라벨링'이라고 한다. 이 라벨링에 대한 점수는 당 업계의 많은 표준 기술 중 하나를 사용하여 계산될 수 있다.
예를 들어 '판독'은 표준 서열과 일치하는 가능한 모든 라벨링에 대해 점수를 단일 점수로 결합하여 점수를 매길 수 있다. 등록이 알려져 있거나 알려진 것으로 간주되는 경우 훈련은 특정 라벨링에 대한 개별 점수인 목적 함수와 동일하다.
결합된 점수에 대한 각 개별 점수의 기여도에 가중치가 부여될 수 있으며, 가중치가 0인 경우 개별 점수 계산을 수행할 필요가 없으므로 전체 계산에 전체 계산의 경우보다 적은 연산 리소스가 필요하다. 가중치를 유용하게 할당할 수 있는 방법의 예는 신호와 표준 서열 사이의 등록이 정의된 영역 내에서 완전히 머무르는 표지 할당에 대해 0이 아닌 가중치만 사용하는 것이다.
대안적으로, 가중치를 사용하여 메트릭스가 시스템 동작 방식, 예를 들어, 포어를 통한 가닥의 전역 전위 속도 또는 운동 역학의 국부적 특성에 대한 기대치와 일치하는 표지 할당을 선호할 수 있다.
여러개 조합 방법의 경우, 동적 프로그래밍 기술을 사용하여 가능한 각 라벨링에 대한 개별 점수를 명시적으로 계산하지 않고도 판독 점수를 효율적인 방식으로 계산할 수 있다. 이 동적 프로그래밍의 그러한 용도 중 하나의 예는 분할되지 않은 서열 라벨링을 위한 연결성 시계열 분류기(CTC) 방법의 신경망 훈련에 있으며[https://www.cs.toronto.edu/~graves/icml_2006.pdf], 이 접근방식은 Chiron 염기 호출 소프트웨어에 의해 나노포어 시퀀싱에 직접 적용되었다[https://academic.oup.com/gigascience/article/7/5/giy037/4966989].
모든 라벨링에 대한 효율적인 합산 방법의 예에는 상응하는 위치와 다음 위치 사이의 상태 s에서 상태 t 로의 전이가 있다는 판독 r의 모든 위치에서 가중치 W r (s,t) 또는 상태 s에 있는 동안 공백을 방출하기 위한 W r (s,-)를 예측하는 기계 학습 기술이 포함될 수 있다. 가중치는 표준 서열에 관계없이 가능한 모든 라벨링에 대한 조합이 상수 값이 되도록 표준화된다.
표준 서열과 일치하는 모든 라벨링에 대한 점수를 결합하기 위해, 이 방법은 한 축에서 판독을 사용하고 다른 축에서 표준 서열을 사용하여 그리드를 통해 동적 프로그래밍을 수행할 수 있다. 이 그리드를 통한 단조로운 경로와 동일한 가능한 각 라벨링(판독 축을 통해 엄격하게 단조, 서열 축을 따라 감소하지 않음).
도 19는 간단한 경우에 이러한 3개의 경로가 어떻게 발생하는지 보여준다. 모든 라벨링에 대한 점수는 판독 위치를 통해 엄격한 연속으로 진행되는 프론티어를 사용하여 누적된다. 판독의 한 위치에서 누적되는 2개의 구성요소가 있다: 관련 가중치를 사용하여 표준 서열에서 다음 위치로 이동하거나, '공백'과 관련된 가중치와 동일한 위치에 머물러 있는 것. c s 를 표준 서열의 위치 s와 관련된 표지로 지정하면 결합된 점수는 다음과 같이 두 연산자 (oplus) 및 (otimes)를 사용하여 재귀적으로 계산할 수 있다.
Figure pct00001
계산 진행은 도 20에 도면으로 표시된다.
이 프레임워크에서 특정 라벨링 l1, …, ln에 대한 점수 S(l)는 적당한 가중치를 하기와 같이 결합하여 계산할 수 있다:
Figure pct00002
연산자 oplus 및 otimes를 사용하는 것은 각각 logsumexp 및 일반 합계이며, 여기서 logsumpexp는 하기와 같이 정의된다:
Figure pct00003
대안적으로, 조합을 위한 연산은 최대 및 합산일 수 있으며; 대안적으로, 연산자는 합산과 곱셈일 수 있으며; 대안적으로, logsumexp 연산에 선명화 요소가 포함될 수 있다:
Figure pct00004
수치적으로 더 안정적이지만 동등한 계산을 수행하는 것이 바람직하다:
Figure pct00005
효율적인 계산 방법을 사용할 수 없는 경우 목적 함수는 수치 기술이나 몬테카를로 기술 또는 낮은 불일치 서열을 사용하는 시뮬레이션에 의해 근사화될 수 있다.
기계 학습 기술을 훈련하려면 대표 세트로부터의 각 판독과 표준 서열을 연관시켜야 한다. 기본 표준 염기 서열을 확인하는 몇 개 방법이 훈련 과정에서 사용될 수 있다. 대부분의 경우 표준 서열의 확인은 참조 게놈과의 비교와 같은 추가 정보를 사용하여 강화될 수 있다.
예를 들어, 네트워크는 초기에 표준 서열이 알려진 소수의 고유한 DNA 단편으로부터 준비된 가닥의 판독을 사용하여 훈련될 수 있으며, 각 판독의 기원은 예를 들어 기본 메트릭스, 예를 들어 총 판독 길이로부터 추론될 수 있다.
대안적으로, 상보적 가닥이 표준 염기만을 포함하고 확립된 방법에 의해 염기 호출된 다음 대체 염기를 포함하는 가닥의 표준 서열을 추론하는 데 사용되는 1D2 시퀀싱 접근법을 사용하여 가닥을 표준 서열과 연관시킬 수 있다.
대안적으로, 기초적인 염기 호출자가 주어지면, 그것은 가닥의 서열이 예를 들어 참조 게놈에 대한 정렬을 통해 확인될 수 있도록 충분히 잘 기능하며, 이러한 방법은 보다 다양한 훈련 세트에서 보다 정확한 염기-호출자를 훈련하기 위해 "부트 스트랩"될 수 있다.
대안적으로, 더 낮은 비율의 대체 염기(예를 들어, 더 낮은 백분율의 각 염기 및/또는 더 적은 치환된 염기)를 포함하는 가닥이 변형을 인식하지 못하는 염기 호출자로 확인될 수 있도록 사용될 수 있다. 결과적으로 훈련된 염기-호출자를 사용하여 더 높은 비율의 대체 염기를 포함하는 가닥에서 판독의 표준 서열을 확인할 수 있으며, 여기에서 추가 염기 호출자가 훈련될 수 있다. 이 과정은 원하는 조성에 도달할 때까지 대체 염기의 비율을 증가시키면서 반복될 수 있다.
대체 염기의 위치에 대한 양호한 그라운드 트루스가 알려진 경우, 이들은 개시된 방법의 목적에 따라 표준 염기로 처리될 수 있다. 대체 염기의 치환이 가닥별로 다른 경우, 훈련 세트의 각 판독에 대해 맞춤형 표준 서열이 사용될 수 있다.
표준 서열을 추정하기 위해 기계 학습 접근방식을 훈련하는 대신 표준 서열의 인코딩을 추정하도록 훈련할 수 있다. 대안적으로, 염기 호출 방법은 예를 들어 mRNA 가닥으로부터 얻을 수 있는 단백질 생성물의 아미노산 서열인 관련 서열을 추정하도록 훈련될 수 있다.
이 방법은 원래의 중합체 또는 네이티브 중합체의 서열을 결정하는 단계를 포함할 수 있으며, 여기서 네이티브 변형은 호출되지 않는다. 방법의 이러한 양태는 염기 변형이 서열화될 가닥에 존재하는 상황에서 유용할 수 있지만 원하는 결과는 표준 염기 서열이다.
방법이 유리한 경우의 예는 복잡한 반복 영역에서 큰 게놈의 조립 및 분해를 위한 긴 가닥의 시퀀싱이다. 천연 DNA는 염기 변형, 5-메틸-사이토신 또는 6-메틸-아데닌을 포함하며, 예를 들어 표준 염기가 아니며, 이러한 변형의 존재와 위치는 개체마다 다를 수 있으며, 실제로 동일한 개체 내에서 세포마다 다를 수 있다. 현재로서는 표준 염기만을 포함하는 상보적 가닥을 합성하는 PCR과 같은 기술을 사용하여 DNA의 긴 단편을 복제하는 것이 불가능하므로 긴 단편의 시퀀싱에는 천연 DNA가 입력으로 필요하다. 천연 DNA에는 아직 과학에 알려지지 않은 염기의 가능성을 포함하여 많은 대체 염기가 포함되어 있으므로, 제시된 기술은 생성된 표준 서열의 추정을 개선하는 데 바람직하다.
추가 예는 발현 연구를 위한 RNA의 시퀀싱이다. 표준 염기만 포함하는 중복 가닥을 생성하는 것이 가능하지만, 이를 달성하는 데 사용되는 방법은 샘플 구성을 변경하여 연구 품질에 영향을 미치는 편향을 가지고 있다. 편향을 피하기 위해 천연 가닥을 염기 호출하는 것이 바람직하다.
사용된 훈련 세트의 구성에 따라, 훈련된 염기-호출 방법은 천연 샘플에 존재할 수 있는 대체 염기의 유형 및 발생할 가능성이 있는 컨텍스트에 대한 지식을 암시적으로 통합하며, 이 암시적 지식은 생성된 표준 서열의 추정을 개선하는 데 사용된다. 암시적 지식의 효과는 훈련 세트의 특성을 통해 강화될 수 있다: 예를 들어, 예측가능한 변형 패턴(예를 들어, 척추동물에서 CpG의 메틸화)으로 알려진 유기체 그룹에 대해 특정 염기 호출자가 훈련될 수 있다.
예를 들어 신경망의 활성화 패턴인, 훈련된 염기-호출자를 사용한 중간 계산을 조사하면 네트워크가 대체 염기에 대한 암시적 지식을 사용하는 위치를 알 수 있으므로 그의 존재와 위치를 추론하는 데 사용할 수 있다.
상기 기재된 바와 같이 나노포어 시퀀싱의 정확도는 표준 및 비표준 중합체 단위를 포함하는 중합체 또는 가닥을 분석함으로써 개선될 수 있다. 하기에 기재된 바와 같이 기계 학습을 사용하여 염기 호출을 개선하는 것은 설명되고 청구된대로 표준 및 비표준 중합체 단위를 갖는 중합체를 분석함으로써 추가로 개선될 수 있다.
폴리펩타이드의 경우, 중합체 단위는 자연적으로 발생하거나 합성되는 아미노산일 수 있다.
다당류의 경우 중합체 단위는 단당류일 수 있다.
특히 측정 시스템(2)이 나노포어를 포함하고 중합체가 폴리뉴클레오타이드를 포함하는 경우, 폴리뉴클레오타이드는 예를 들어 적어도 5 kB(킬로-염기), 즉 적어도 5,000 뉴클레오타이드, 또는 적어도 30 kB(킬로-염기), 즉 적어도 30,000 뉴클레오타이드, 또는 적어도 100 kB(킬로-염기), 즉 적어도 100,000 뉴클레오타이드만큼 길 수 있다.
측정 시스템(2)의 특성 및 결과 측정은 하기와 같다.
측정 시스템(2)은 하나 이상의 나노포어를 포함하는 나노포어 시스템이다. 단순한 유형에서, 측정 시스템(2)은 단일 나노포어만을 갖지만, 보다 실용적인 측정 시스템(2)은 병렬화된 정보 수집을 제공하기 위해 전형적으로 어레이에서 많은 나노포어를 사용한다.
측정은 일반적으로 나노포어를 통해 나노포어에 대한 중합체의 전위 동안 수행될 수 있다. 따라서, 연속 측정은 중합체의 연속 부분에서 유도된다.
나노포어는 전형적으로 나노미터 정도의 크기를 갖는 포어이며, 이를 통해 중합체의 통과를 허용할 수 있다.
포어에 대해 전위되는 중합체 단위에 의존하는 특성이 측정될 수 있다. 특성은 중합체와 포어 사이의 상호작용과 관련될 수 있다. 이러한 상호작용은 포어의 제한된 영역에서 발생할 수 있다.
나노포어는 생물학적 포어 또는 고체 상태 포어일 수 있다. 포어의 치수는 한 번에 하나의 중합체만이 포어를 전위시킬 수 있도록 할 수 있다.
포어는 국제공개 WO 2013/083983 호에 기재된 것과 같은 DNA 오르가미(origami) 포어일 수 있다.
나노포어가 생물학적 포어인 경우 하기 특성들을 가질 수 있다.
생물학적 포어는 막관통 단백질 포어일 수 있다. 본 발명에 따라 사용하기 위한 막관통 단백질 포어는 β-배럴 포어 또는 α-나선 번들 포어로부터 유래될 수 있다. β-배럴 포어는 β-가닥으로부터 형성된 배럴 또는 채널을 포함한다. 적합한 β-배럴 포어는 β-독소, 예컨대 α-헤몰리신, 탄저균 독소 및 류코시딘, 및 박테리아의 외막 단백질/포린, 예컨대 마이코박테리움 스메그마티스 포린(Mycobacterium smegmatis porin, Msp), 예를 들어 MspA, MspB, MspC 또는 MspD, 라이세닌, 외막 포린 F(OmpF), 외막 포린 G(OmpG), 외막 포스포리파제 A 및 나이세리아 자동수송 지질단백질(NalP)을 포함하지만, 이들로 한정되지 않는다. α-나선 번들 포어는 α-나선으로부터 형성된 배럴 또는 채널을 포함한다. 적합한 α-나선 번들 포어는 내막 단백질 및 α 외막 단백질, 예컨대 WZA 및 ClyA 독소를 포함하지만, 이들로 한정되지 않는다. 막관통 포어는 Msp 또는 α-헤몰리신(α-HL)으로부터 유래될 수 있다. 막관통 포어는 라이세닌으로부터 유래될 수 있다. 라이세닌으로부터 유래된 적합한 포어는 국제공개 WO 2013/153359 호에 개시되어 있다. MspA로부터 유래된 적합한 포어는 국제공개 WO-2012/107778 호에 개시되어 있다. CsgG로부터 유래된 포어는 국제공개 WO-2016/034591 호에 개시되어 있다.
생물학적 포어는 자연-발생 포어이거나 돌연변이 포어일 수 있다. 전형적인 포어는 국제공개 WO-2010/109197 호, 문헌[Stoddart D et al., Proc Natl Acad Sci, 12;106(19):7702-7], 문헌[Stoddart D et al., Angew Chem Int Ed Engl. 2010;49(3):556-9], 문헌[Stoddart D et al., Nano Lett. 2010 Sep 8;10(9):3633-7], 문헌[Butler TZ et al., Proc Natl Acad Sci 2008;105(52):20647-52], 및 국제공개 WO-2012/107778 호에 기재되어 있다.
생물학적 포어는 국제공개 WO-2015/140535 호에 기재된 생물학적 포어의 유형 중 하나일 수 있으며, 본원에 개시된 서열을 가질 수 있다.
생물학적 포어는 양친매성 층, 예컨대 생물학적 막, 예를 들어 지질 이중층에 삽입될 수 있다. 양친매성 층은 친수성 및 친유성 특성을 모두 갖는 양친매성 분자, 예컨대 인지질로부터 형성된 층이다. 양친매성 층은 단층 또는 이중층일 수 있다. 양친매성 층은 문헌[Gonzalez-Perez et al., Langmuir, 2009, 25, 10447-10450] 또는 국제공개 WO2014/064444 호에 개시된 것과 같은 공-블록 중합체일 수 있다. 대안적으로, 생물학적 포어는 예를 들어 국제공개 WO2012/005857 호에 개시된 바와 같이 고체 상태 층에 삽입될 수 있다.
나노포어 어레이를 제공하기 위한 적합한 장치는 국제공개 WO-2014/064443 호에 개시되어 있다. 나노포어는 각각의 웰에 걸쳐 제공될 수 있으며, 여기서 전극은 각 나노포어를 통한 전류 흐름을 측정하기 위해 ASIC와 전기적으로 연결되어 각각의 웰에 제공된다. 적합한 전류 측정 장치는 국제출원 PCT/GB2016/051319호에 개시된 전류 감지 회로를 포함할 수 있다.
나노포어는 고상 포어으로 지칭될 수 있는 고체 상태 층에 형성된 개구를 포함할 수 있다. 개구는 분석물이 통과하거나 통과할 수 있는 고체 상태 층에 제공된 웰, 갭, 채널, 트렌치 또는 슬릿일 수 있다. 이러한 고체 상태 층은 생물학적 기원이 아니다. 즉, 고체 상태 층은 유기체 또는 세포와 같은 생물학적 환경, 또는 생물학적으로 이용가능한 구조의 합성으로 제조된 버전에서 유래되거나 분리되지 않는다. 고체 상태 층은 유기 및 무기 재료로 형성될 수 있으며, 마이크로전자 재료, 절연 재료, 예컨대 Si3N4, A1203 및 SiO, 유기 및 무기 중합체, 예컨대 폴리아미드, 플라스틱, 예컨대 Teflon® 또는 엘라스토머, 예컨대 2성분 부가-경화형 실리콘 고무, 및 유리를 포함하지만 이들로 한정되지 않는다. 고체 상태 층은 그래핀으로 형성될 수 있다. 적합한 그래핀 층은 국제공개 WO-2009/035647 호, 국제공개 WO-2011/046706 호 또는 국제공개 WO-2012/138357 호에 개시되어 있다. 고체 상태 포어 어레이를 제조하는 적합한 방법은 국제공개 WO-2016/187519 호에 개시되어 있다.
이러한 고체 상태 포어는 전형적으로 고체 상태 층의 개구이다. 개구는 나노포어로서의 그의 특성들을 개선시키기 위해 화학적으로 또는 다르게 변형될 수 있다. 고체 상태 포어는 터널링 전극(문헌[Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85]), 또는 전계 효과 트랜지스터(FET) 장치(예를 들어, 국제공개 WO-2005/124888 호에 개시된 바와 같음)와 같은 중합체의 대체 또는 추가 측정을 제공하는 추가 구성요소와 함께 사용될 수 있다. 고체 상태 포어는 예를 들어 국제공개 WO-00/79257 호에 기재된 것을 포함하는 공지된 공정에 의해 형성될 수 있다.
한 유형의 측정 시스템(2)에서, 나노포어를 통해 흐르는 이온 전류의 측정이 사용될 수 있다. 이러한 및 기타 전기 측정은 문헌[Stoddart D et al., Proc Natl Acad Sci, 12;106(19):7702-7], 문헌[Lieberman KR et al, J Am Chem Soc. 2010;132(50):17961-72], 및 국제공개 WO-2000/28312 호에 기재된 대로 표준 단일 채널 기록 장비를 사용하여 수행될 수 있다. 대안적으로, 전기 측정은 예를 들어 국제공개 WO-2009/077734 호, 국제공개 WO-2011/067559 호 또는 국제공개 WO-2014/064443 호에 기재된 바와 같이, 다중-채널 시스템을 사용하여 수행될 수 있다.
이온 용액은 멤브레인 또는 고체 상태 층의 양쪽에 제공될 수 있으며, 이온 용액은 각 구획에 존재할 수 있다. 관심 중합체 분석물을 함유하는 샘플이 막의 한 면에 첨가되고, 예를 들어 퍼텐셜 차이 또는 화학적 구배 하에서 나노포어에 대해 이동할 수 있다. 측정은 포어에 대한 중합체의 이동 중에 취해질 수 있으며, 예를 들어 나노포어를 통한 중합체의 전위 중에 취해질 수 있다. 중합체는 나노포어를 부분적으로 전위시킬 수 있다.
중합체가 나노포어를 통해 전위될 때 측정이 이루어지도록 하기 위해, 전위 속도는 중합체 결합 모이어티에 의해 제어될 수 있다. 전형적으로, 모이어티는 적용된 필드와 함께 또는 그에 대해 나노포어를 통해 중합체를 이동시킬 수 있다. 모이어티는 예를 들어, 모이어티가 효소인 경우, 효소 활성 또는 분자 브레이크로서 사용하는 분자 모터일 수 있다. 중합체가 폴리뉴클레오타이드인 경우, 폴리뉴클레오타이드 결합 효소의 사용을 포함하여 전위 속도를 제어하기 위해 제안된 많은 방법들이 있다. 폴리뉴클레오타이드의 전위 속도를 제어하기 위한 적합한 효소는 중합효소, 헬리카제, 엑소뉴클레아제, 단일 가닥 및 이중 가닥 결합 단백질, 및 토포이소머라제, 예컨대 자이라제를 포함하지만, 이들로 한정되지 않는다. 다른 중합체 유형의 경우, 그 중합체 유형과 상호 작용하는 모이어티가 사용될 수 있다. 중합체 상호작용 모이어티는 국제공개 WO-2010/086603 호, 국제공개 WO-2012/107778 호, 및 문헌[Lieberman KR et al, J Am Chem Soc. 2010;132(50):17961-72])에 개시된 임의의 것, 및 전압 게이트 방식(문헌[Luan B et al., Phys Rev Lett. 2010;104(23):238103])일 수 있다.
중합체 결합 모이어티는 중합체 운동을 제어하기 위해 다양한 방식으로 사용될 수 있다. 모이어티는 적용된 필드와 함께 또는 이에 대해 나노포어를 통해 중합체를 이동시킬 수 있다. 모이어티는 예를 들어, 모이어티가 효소인 경우, 효소 활성 또는 분자 브레이크로서 사용하는 분자 모터로서 사용될 수 있다. 중합체의 전위는 포어를 통한 중합체의 이동을 제어하는 분자 래칫에 의해 제어될 수 있다. 분자 래칫은 중합체 결합 단백질일 수 있다. 폴리뉴클레오타이드의 경우, 폴리뉴클레오타이드 결합 단백질은 바람직하게는 폴리뉴클레오타이드 취급 효소이다. 폴리뉴클레오타이드 취급 효소는 폴리뉴클레오타이드의 적어도 하나의 특성과 상호작용하고 변형할 수 있는 폴리펩타이드이다. 효소는 폴리뉴클레오타이드를 절단하여 개개의 뉴클레오타이드 또는 더 짧은 뉴클레오타이드 사슬, 예컨대 디- 또는 트리뉴클레오타이드를 형성함으로써 폴리뉴클레오타이드를 변형시킬 수 있다. 효소는 폴리뉴클레오타이드를 배향하거나 특정 위치로 이동시켜 변형시킬 수 있다. 폴리뉴클레오타이드 취급 효소는 표적 폴리뉴클레오타이드에 결합하고 포어를 통한 그의 이동을 제어할 수 있는 한 효소 활성을 표시할 필요가 없다. 예를 들어, 효소는 효소 활성을 제거하기 위해 변형되거나, 효소로 작용하는 것을 방지하는 조건에서 사용될 수 있다. 이러한 조건은 아래에서 자세히 설명된다.
바람직한 폴리뉴클레오타이드 취급 효소는 중합효소, 엑소뉴클레아제, 헬리카제, 및 토포이소머라제, 예컨대 자이라제이다. 폴리뉴클레오타이드 취급 효소는 예를 들어 국제공개 WO-2015/140535 호 또는 국제공개 WO-2010/086603 호에 기재된 폴리뉴클레오타이드 취급 효소의 유형 중 하나일 수 있다.
나노포어를 통한 중합체의 전위는 인가된 퍼텐셜과 함께 또는 이에 반하여 시스에서 트랜스로 또는 트랜스에서 시스로 발생할 수 있다. 전위는 전위를 제어할 수 있는 인가된 퍼텐셜 하에서 발생할 수 있다.
이중 가닥 DNA에서 점진적으로 또는 프로세스적으로 작용하는 엑소뉴클레아제는 포어의 시스 측에서 사용되어 나머지 단일 가닥을 인가된 퍼텐셜 하에서 또는 역전위 하에서 트랜스 측으로 공급할 수 있다. 마찬가지로 이중 가닥 DNA를 풀어주는 헬리카제도 유사한 방식으로 사용될 수 있다. 또한 인가된 퍼텐셜에 대해 가닥 전위가 필요한 시퀀싱 용도의 가능성이 있지만, DNA는 역 퍼텐셜 또는 퍼텐셜이 없는 상태에서 먼저 효소에 의해 "포집"되어야 한다. 결합 후 퍼텐셜이 다시 전환되면 가닥은 포어를 통해 시스를 트랜스로 전달하고 전류 흐름에 의해 확장된 형태로 유지된다. 단일 가닥 DNA 엑소뉴클레아제 또는 단일 가닥 DNA 의존성 중합효소는 인가된 퍼텐셜에 대해 제어된 단계적 방식으로 트랜스에서 시스로 최근 전위된 단일 가닥을 포어를 통해 다시 끌어당기는 분자 모터 역할을 할 수 있다. 대안적으로, 단일 가닥 DNA 의존성 중합효소는 분자 브레이크 역할을 하여 포어를 통한 폴리뉴클레오타이드의 이동을 늦출 수 있다. 국제공개 WO-2012/107778 호 또는 국제공개 WO-2012/033524 호에 기재된 임의의 모이어티, 기술 또는 효소를 사용하여 중합체 운동을 제어할 수 있다.
그러나, 측정 시스템(2)은 하나 이상의 나노포어를 포함하는 대체 유형일 수 있다.
유사하게, 측정은 이온 전류 측정 이외의 유형일 수 있다. 대체 측정 유형의 일부 예는 전기 측정 및 광학 측정을 포함하지만, 이들로 한정되지 않는다. 형광 측정을 포함하는 적합한 광학 방법은 문헌[J. Am. Chem. Soc. 2009, 131 1652-1653]에 개시되어 있다. 가능한 전기 측정은 전류 측정, 임피던스 측정, 터널링 측정(예를 들어, 문헌[Ivanov AP et al., Nano Lett. 2011 Jan 12;11(1):279-85]에 개시됨), 및 FET 측정(예를 들어, 국제공개 WO2005/124888 호에 개시됨)을 포함한다. 광학 측정은 전기 측정(문헌[Soni GV et al., Rev Sci Instrum. 2010 Jan;81(1):014301])과 조합될 수 있다. 측정은 나노포어를 통한 이온 전류 흐름의 측정과 같은 막관통 전류 측정일 수 있다. 이온 전류는 전형적으로 DC 이온 전류일 수 있지만, 원칙적으로 대체 방법은 AC 전류 흐름을 사용하는 것이다(즉, AC 전압 인가 하에서 흐르는 AC 전류의 크기).
본원에서, 용어 'k량체'는 k-중합체 단위의 그룹을 지칭하며, 여기서 k는 양의 복수 정수이다. 많은 측정 시스템에서, 측정은 단일 중합체 단위보다 긴 중합체 부분, 예를 들어 k량체에 의존할 수 있지만, 측정이 의존하는 k량체의 길이는 알 수 없다. 많은 경우에, k량체 또는 상이한 아이덴티티를 갖는 중합체에 의해 생성된 측정은 분석할 수 없다.
많은 유형의 측정 시스템(2)에서, 일련의 측정은 일련의 이벤트로부터의 측정을 포함하는 것으로 특성화될 수 있으며, 여기서 각 이벤트는 측정 그룹을 제공한다. 각 이벤트로부터의 측정 그룹에는 약간의 차이가 있지만 유사한 수준을 갖는다. 이것은 이벤트에 해당하는 각 단계의 시끄러운 단계 파동으로 생각될 수 있다.
이벤트는 예를 들어 측정 시스템(2)의 주어진 상태 또는 상호작용에서 발생하는 생화학적 중요성을 가질 수 있다. 예를 들어, 일부 경우에 이벤트는 중합체의 특정 부분 또는 k-량체와 나노포어의 상호작용에 해당할 수 있으며, 이 경우 측정 그룹은 중합체 또는 k량체의 동일한 부분에 의존한다. 이것은 어떤 경우에는 래칫 방식으로 발생하는 나노포어를 통한 중합체의 전위로 인해 발생할 수 있다.
측정의 샘플링 속도와 신호의 노이즈 한계 내에서 상태 간 전환은 즉각적으로 고려될 수 있으므로, 신호는 이상적인 단계 트레이스로 근사화될 수 있다. 그러나 전위 속도가 측정 샘플링 속도에 가까워지면 예를 들어 중합체 단위의 전위 속도의 1배, 2배, 5배 또는 10배에서 측정을 수행하면, 이 근사는 느린 시퀀싱 속도 또는 더 빠른 샘플링 속도의 경우처럼 적용되지 않을 수 있다.
또한, 전형적으로 그룹의 측정 횟수에 대한 사전 지식이 없으며, 예측할 수 없을 정도로 다양하다.
이러한 2개의 변동 요인과 측정 횟수에 대한 지식 부족으로 인해 그룹 중 일부를 구별하기가 어려울 수 있으며, 예를 들어 그룹이 짧고/거나 연속된 두 그룹의 측정 수준이 서로 가까운 경우이다.
각 이벤트에 해당하는 측정 그룹은 전형적으로 이벤트의 시간 스케일에 걸쳐 일관된 수준을 갖지만, 대부분의 유형의 측정 시스템(2)에 대해 짧은 시간 스케일에 걸쳐 변동될 수 있다.
이러한 변동은 측정 노이즈, 예를 들어 전기 회로 및 신호 처리, 특히 전기 생리학의 경우 증폭기에서 발생하는 노이즈로 인해 발생할 수 있다. 이러한 측정 노이즈는 측정되는 속성의 크기가 작기 때문에 불가피하다.
이러한 변동은 또한 측정 시스템(2)의 기본 물리적 또는 생물학적 시스템에서의 내재적 변동 또는 확산, 예를 들어 중합체의 구조적 변화에 의해 야기될 수 있는 상호작용의 변화로 인해 발생할 수 있다.
대부분의 유형의 측정 시스템(2)은 이러한 내재적 변동을 더 크거나 작은 범위로 경험할 것이다. 임의의 주어진 유형의 측정 시스템(2)에 대해, 두 변동 소스가 기여할 수 있거나 이러한 노이즈 소스 중 하나가 우세할 수 있다.
중합체 단위가 나노포어에 대해 전위되는 속도인 시퀀싱 속도가 증가하면 이벤트가 덜 두드러져 확인하기가 더 어려워지거나 사라질 수 있다. 따라서, 이벤트 감지에 의존하는 분석 방법은 시퀀싱 속도가 증가함에 따라 효율성이 떨어질 수 있다.
측정 샘플링 속도를 높이면, 전환 측정의 어려움을 보상할 수 있지만 이러한 빠른 샘플링은 전형적으로 신호 대 잡음에 대한 패널티를 수반한다.
하기에 기재된 방법은 일련의 측정이 초당 적어도 10개의 중합체 단위, 바람직하게는 초당 100개의 중합체 단위, 더 바람직하게는 초당 500개의 중합체 단위, 또는 더 바람직하게는 초당 1,000개의 중합체 단위의 속도로 취해진 일련의 측정인, 시퀀싱 속도를 포함하는 비교적 높은 시퀀싱 속도에서도 효과적이다.
이제 분석 시스템(3)이 고려될 것이다.
본원에서, 중합체 단위의 상이한 서열 또는 중합체 단위의 서열에 대한 상이한 변화의 "사후 확률"을 나타내는 사후 확률 벡터 및 행렬을 참조한다. 사후 확률 벡터 및 행렬의 값은 실제 확률(즉, 합이 1이 되는 값)이거나 실제 확률은 아니지만 그럼에도 불구하고 사후 확률을 나타내는 가중치 또는 가중치 인자일 수 있다. 일반적으로, 사후 확률 벡터와 행렬의 값이 가중치 또는 가중치 인자로 표현되는 경우, 확률은 원칙적으로 가중치 또는 가중치 인자의 표준화를 고려하여 그로부터 결정될 수 있다. 이러한 결정은 여러 시간-단계를 고려할 수 있다. 비-제한적인 예로서, 로컬 표준화 및 전역 표준화라고 하는 두 방법들이 아래에 설명되어 있다.
유사하게, 측정되는 일련의 중합체 단위가 기준 일련의 중합체 단위일 확률을 나타내는 점수가 참조된다. 같은 방식으로, 점수의 값은 실제 확률이거나 실제 확률이 아닌 가중치일 수 있지만, 그럼에도 불구하고 측정되는 일련의 중합체 단위가 기준 일련의 중합체 단위인 확률을 나타낸다.
분석 시스템(3)은 측정 시스템(2)과 물리적으로 연관될 수 있고, 또한 측정 시스템(2)에 제어 신호를 제공할 수 있다. 이 경우, 측정 시스템(2) 및 분석 시스템(3)을 포함하는 나노포어 측정 및 분석 시스템(1)이 국제공개 WO-2008/102210 호, 국제공개 WO-2009/07734 호, 국제공개 WO-2010/122293 호, 국제공개 WO-2011/067559 호 또는 국제공개 WO2014/04443 호 중 어느 하나에 개시된 바와 같이 배열될 수 있다.
대안적으로, 분석 시스템(3)은 별도의 장치에서 구현될 수 있으며, 이 경우 일련의 측정은 임의의 적절한 수단, 전형적으로 데이터 네트워크에 의해 측정 시스템(2)에서 분석 시스템(3)으로 전송된다. 예를 들어, 하나의 편리한 클라우드-기반 구현은 분석 시스템(3)이 인터넷을 통해 입력 신호(11)가 공급되는 서버가 되는 것이다.
분석 시스템(3)은 컴퓨터 프로그램을 실행하는 컴퓨터 장치에 의해 구현될 수 있거나, 전용 하드웨어 장치에 의해, 또는 이들의 임의의 조합에 의해 구현될 수 있다. 두 경우 모두 분석법에서 사용하는 데이터는 분석 시스템(3)의 메모리에 저장된다.
컴퓨터 프로그램을 실행하는 컴퓨터 장치의 경우, 컴퓨터 장치는 임의의 유형의 컴퓨터 시스템일 수 있지만 전형적으로 종래의 구성이다. 컴퓨터 프로그램은 임의의 적합한 프로그래밍 언어로 작성될 수 있다. 컴퓨터 프로그램은 컴퓨터로 읽을 수 있는 저장 매체, 예를 들면, 컴퓨팅 시스템의 드라이브에 삽입될 수 있고 정보를 자기적으로, 광학적으로 또는 광자기적으로 저장할 수 있는 기록 매체; 하드 드라이브와 같은 컴퓨터 시스템의 고정 기록 매체; 또는 컴퓨터 메모리에 저장될 수 있다.
컴퓨터 장치가 전용 하드웨어 장치에 의해 구현되는 경우, FPGA(필드 프로그래밍 가능 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)와 같은 임의의 적절한 유형의 장치가 사용될 수 있다.
나노포어 측정 및 분석 시스템(1)을 사용하는 방법은 하기와 같이 수행된다.
먼저, 측정 시스템(2)을 사용하여 일련의 측정을 수행한다. 예를 들어, 중합체는 포어에 대해 예를 들어 포어를 통해 전위되고 일련의 측정은 중합체의 전위 동안 수행된다. 중합체는 중합체의 전위를 허용하는 조건을 제공함으로써 포어에 대해 전위되도록 야기될 수 있으며, 그 결과 전위는 자발적으로 발생할 수 있다.
둘째, 분석 시스템(3)은 이제 설명될 일련의 측정을 분석하는 방법을 수행한다. 먼저 기본 방법을 설명한 다음, 기본 방법에 대한 몇 개 변형 사항을 설명할 것이다.
기본 방법은 기계 학습 기술을 사용하여 일련의 측정을 분석하며, 이 예에서는 순환 신경망이다. 순환 신경망의 매개변수는 아래에서 더 설명되는 훈련 동안 값을 취하며, 따라서 순환 신경망은 특정 형태를 갖는 측정이나 특정 속성을 갖는 측정 시스템(2)에 의존하지 않는다. 예를 들어, 순환 신경망은 k량체에 의존하는 측정에 의존하지 않는다.
기본 방법은 하기와 같이 이벤트 감지를 사용한다.
기본 방법은 측정 시스템(2)의 측정(미가공 신호)에서 이미 결정된 일련의 이벤트로 입력을 처리한다. 따라서, 이 방법은 일련의 측정에서 연속 측정 그룹을 공통 이벤트에 속하는 것으로 확인하는 초기 단계, 그리고 다음과 같이 각각의 확인된 측정 그룹으로부터 하나 이상의 특징 수량을 포함하는 특징 벡터를 유도하는 단계를 포함한다.
미가공 샘플을 이벤트로 분할하는 것은 국제공개 WO 2015/140535 호에 설명된 것과 동일한 방법을 사용하지만, 기본 방법이 정확한 분할 방법에 민감하다고 생각하지 않는다.
그러나, 완전성을 위해, 적용될 수 있는 분할 프로세스의 개요는 도 2를 참조하여 하기와 같이 설명된다. 도 2는 계단식 '이벤트' 거동, 슬라이딩 윈도우 쌍(22), 국부적 피크 및 임계치(24)(점선)를 나타내는 미가공 신호(20)로부터 계산된 쌍별 t-통계의 서열(23), 그리고 피크에 상응하는 이벤트 경계 세트(25)를 갖는, 일련의 측정을 포함하는 미가공 신호(20)의 그래프를 도시한다.
연속 측정 그룹은 하기와 같이 공통 이벤트에 속하는 것으로 확인된다. 연속된 쌍의 윈도우(21)는 미가공 신호(20)를 가로질러 미끄러지고 하나의 윈도우(21)의 샘플(측정 값)이 다른 평균과 다른 평균을 갖는지에 대한 쌍별 t-통계가 각 위치에서 계산되어, 통계 서열(23)을 제공한다. 임계치(24)에 대한 임계화 기술은 이벤트 경계(25)로 간주되는 원래의 미가공 신호(20)의 레벨의 유의한 차이에 상응하는 통계(23)의 서열에서 피크(23)를 국지화하는 데 사용되며, 피크의 위치(23)는 표준 피크 찾기 루틴을 사용하여 결정되고, 이에 따라 미가공 신호(20)의 일련의 측정에서 이벤트를 확인한다.
각 이벤트는 확인된 각 측정 그룹에서 그의 기본 속성을 설명하는 하나 이상의 특징 수량 세트를 유도하여 요약된다. 사용될 수 있는 3개의 특징 수량의 예는 하기와 같으며, 도 3에 다이어그램으로 표시된다:
ㆍ 레벨 L: 이벤트에 대한 평균 전류 측정, 일반적으로 평균이지만 중앙값 또는 관련 통계일 수 있다.
ㆍ 분산 V: 샘플이 중앙 수준에서 얼마나 멀리 이동하는지, 일반적으로 이벤트의 표준 편차 또는 분산. 다른 대안은 중앙 절대 편차 또는 중앙값의 평균 편차를 포함한다.
ㆍ 길이(또는 드웰) D: 샘플 수 또는 초 단위로 이벤트가 지속되는 시간이다.
일반적으로, 임의의 하나 이상의 특징 수량이 유도되어 사용될 수 있다. 하나 이상의 특징 수량은 특징 벡터를 포함한다.
노이즈 프로세스의 분석과 마찬가지로, 세분화는 실수를 할 수 있다. 이벤트 경계가 누락되어 여러 레벨을 포함하는 이벤트가 발생하거나 존재하지 않아야 하는 추가 경계가 생성될 수 있다. 누락된 실제 경계보다 잘못된 경계의 증가를 선택하는 과도한 세분화는 더 나은 염기 호출을 초래하는 것으로 나타났다.
하나 이상의 특징 수량을 포함하는 특징 벡터는 하기와 같이 순환 신경망에 의해 연산된다.
기본 방법에 대한 기본 입력은 세분화 중에 발견된 이벤트에 해당하는 특징 벡터의 시간 순서 세트이다. 대부분의 기계 학습 절차의 표준 관행과 마찬가지로, 입력 특징은 훈련 프로세스를 안정화하고 가속화하는 데 도움이 되도록 표준화되지만, 기본 방법에는 두가지 눈에 띄는 차이점이 있다: 첫째, 유의한 이상치 이벤트의 존재로 인해 더 일반적인 최소-최대 스케일링보다는 스튜던트화 (평균 중심 및 표준 편차 스케일)가 사용되며; 두 번째, 더 큰 변화는 스케일링이 모든 훈련 데이터에 대해 계산된 다음 픽스되는 스케일링 매개변수가 아니라 판독 단위로 발생한다는 것이다.
극한 값에 견고하도록 설계된 최소-최대 스케일링에 대한 다른 대안도 적용될 수 있다. 이러한 방법의 예로는 값의 최저 및 최고 x%를 트리밍한 후 매개변수가 결정되는 최소-최대 스케일링 또는 중앙값 및 중앙값 절대 편차에 기반한 스케일링이 있다.
표준 훈련 프로토콜에서 이러한 편차가 발생하는 이유는 네트워크가 현장에서 접하게 될 여러 장치의 변화를 일반화하도록 돕기 위해서이다. 훈련될 수 있는 판독 수는 매우 많지만 시간 및 비용 고려사항은 적은 수의 장치에서 발생하므로 훈련 실행 조건은 외부에서 직면할 수 있는 작은 부분을 나타냄을 의미한다. 판독 별 표준화는 정확도가 잠재적으로 손실될 수 있지만 네트워크를 일반화하는 데 도움이 된다.
다른 것에서 유도된 네 번째 '델타' 특징은 기본 방법에 대한 입력으로도 사용되며, 서로 다른 인접 이벤트가 서로 얼마나 다른지를 나타내기 위해, 실제 레벨 변경이 있는지 또는 분할이 잘못되었는지 여부를 나타낸다. 델타 특징에 대한 정확한 설명은 기본 방법의 다른 구현에 따라 다르며, 몇 가지가 아래에 나열되어 있지만 특징의 의도는 동일하게 유지된다.
ㆍ 수준의 절대적인 차이에 이어 표준화.
ㆍ 레벨 차이를 제곱한 다음 표준화.
ㆍ 레벨 차이, 부분 표준화(스케일링되었지만 중앙화되지 않음).
기본 방법은 하위-샘플링에 의한 여러 양방향 순환 층으로 구성된 심층 신경망을 사용한다. 분석 시스템(3)에서 구현될 수 있는 순환 신경망(30)의 구조의 개요가 도 4에 도시되고, 하기와 같이 배열되어 HMM을 사용하여 수행된 분석과 구별되는 많은 특징을 강조한다.
개요에서, 순환 신경망(30)은 입력 이벤트에 대해 윈도우를 수행하는 윈도우 층(32); 순방향 및 역방향 모두에서 반복적으로 그들의 입력을 처리하는 양방향 순환 층(34); 순환 신경망(30)의 차원을 감소시키기 위해 서브샘플링 층으로서 구성될 수 있는 피드-포워드 층(35); 및 기호에 대한 확률 분포로 해석가능한 출력을 생성하기 위해 소프트맥스 프로세스를 사용하여 표준화를 수행하는 소프트맥스 층(36)을 포함한다. 분석 시스템(3)은 순환 신경망(30)의 출력이 공급되고 후속 디코딩 단계를 수행하는 디코더(37)를 더 포함한다.
특히, 순환 신경망(30)은 입력 특징 벡터(31)를 수신하고, 입력 특징 벡터(31)를 윈도우화하여 윈도우 특징 벡터(33)를 도출하는 윈도우화 층(32)을 통과한다. 윈도우화 특징 벡터(33)는 복수의 양방향 순환 층(34)의 스택에 공급된다. 따라서, 각각의 입력 이벤트의 영향은 첫 번째 단계에 의해 알려진 두 번째 통과와 함께 적어도 2회 순환 신경망(30)에 표현된 모델의 모든 단계를 통해 전파된다. 이러한 이중 양방향 아키텍처는 순환 신경망(30)이 HMM에 이용 불가능한 방식으로 정보를 축적하고 전파할 수 있게 한다. 이것의 한 결과는 순환 신경망(30)이 모델을 판독에 맞게 확장하기 위해 반복적인 절차를 필요로 하지 않는다는 것이다.
이 예에서는 2개의 양방향 순환 층(34)이 예시되어 있으며, 34-1 및 34-2로 구분되고, 각각 35-1 및 35-2로 구분되는 피드-포워드 층(35)이 뒤따르지만, 일반적으로 복수의 양방향 순환 층(34) 및 후속 피드-포워드 층(35)이 있을 수 있다.
최종 피드-포워드 층(35-2)의 출력은 디코더(37)에 공급되는 사후 확률을 나타내는 출력을 생성하는 소프트맥스 층(36)에 공급된다. 디코더(37)에 의한 이러한 사후 확률의 특성 및 처리는 아래에서 더 자세히 설명된다.
비교를 위해, HMM(50)은 도 5에 도시된 바와 같이 신경망과 유사한 형태로 설명될 수 있다. HMM(50)은 윈도우 및 델타 특징없이 입력 단일 이벤트를 포함하고, 특징 벡터(51)가 공급되고 밀접하게 결합된 매개변수로 네트워크의 정방향 및 역방향 통과를 수행하는 정방향-역방향 층(54); 정방향-역방향 층(54)의 출력이 공급되고 정방향 및 역방향 통과의 출력의 요소별 가산에 의해 서브샘플링을 수행하는 가산 조합 층(55); 기호에 대한 확률 분포로 해석가능한 출력을 생성하기 위해 표준화를 수행하는 표준화 층(56); 및 후속 디코딩 단계를 수행하는 디코더(57)를 포함한다.
HMM(50)의 방출이 히든 상태에 의해 완전히 설명된다는 가정으로 인해, HMM(50)은 윈도우 입력을 받아들일 수 없으며 어떤 이벤트에 대한 입력이 히든 상태에 대한 다른 주어진 지식과 통계적으로 독립적인 것으로 가정되기 때문에 델타-유사 특징을 받아들일 수 없다(선택적으로 이 가정은 자기회귀 HMM과 같은 확장을 사용하여 완화될 수 있음). 가장 가능성이 높은 상태 서열을 디코딩하기 위해 Viterbi 알고리즘을 직접 적용하는 대신, 나노포어 서열 추정 문제를 위한 HMM은 정방향/역방향 층(52)의 고전적인 정방향/역방향 알고리즘을 통해 진행되어 각각의 이벤트에 대한 각 히든 표지의 사후 확률을 계산한 다음, 디코더(57)에서 추가 비터비(Viterbi)-유사 디코딩 단계 추가는 히든 상태를 결정한다. 이 방법론은 문헌에서 사후-비터비(postior-Viterbi)라고 불리며, 비터비에 비해 더 많은 비율의 상태가 올바르게 할당되지만 여전히 일관된 경로를 형성하는 추정 서열을 생성하는 경향이 있다.
표 1은 HMM(50) 아키텍처의 유사한 층 유형과 기본 방법을 비교하여 기본 방법에서 사용되는 신경망 층에 의해 증가된 유연성을 강조하기 위해 이 방법과 기본 방법에서 비교가능한 층이 사용되는 방식 간의 주요 차이점을 요약한다.
Figure pct00006
이벤트가 있는 것과 동일한 수의 컬럼 출력이 있지만, 그 내용은 양방향 레이어의 존재로 인해 전체 입력 이벤트 세트에 의해 잠재적으로 정보를 받기 때문에, 각 컬럼이 네트워크 입력에서 단일 이벤트로 확인된다고 가정하는 것은 올바르지 않다. 입력 이벤트와 출력 컬럼 간의 임의의 상응은 훈련 세트의 기호로 표지하는 방법을 통해 이루어진다.
순환 신경망(30)의 양방향 순환 층(34)은 이제 설명되는 바와 같이 여러 유형의 신경망 단위를 사용할 수 있다. 단위 유형은 '순환' 여부에 따라 2개의 일반 범주로 나뉜다. 비-순환 단위는 서열의 각 단계를 독립적으로 처리하는 반면, 순환 단위는 서열에서 사용되고 한 단계에서 다음 단계로 상태 벡터를 전달하도록 설계되었다. 비-순환 단위와 순환 단위 사이의 차이를 도식적으로 보여주기 위해, 도 6은 비-순환 단위(61)의 비-순환층(60)을 도시하고, 도 7 내지 도 9는 각각의 비-순환 단위(64 내지 66)의 3개의 상이한 층(62 내지 64)을 도시한다. 도 6 내지 도 9에서 화살표는 벡터가 통과하는 연결을 나타내고, 분할된 화살표는 복제된 벡터이고, 결합된 화살표는 연결된 벡터이다.
도 6의 비-순환 층(60)에서, 비-순환 단위(61)는 분할 또는 연결되지 않는 별도의 입력 및 출력을 갖는다.
도 7의 순환 층(62)은 순환 단위(65)의 출력 벡터가 분할되어 순환 층의 다음 순환 단위(65)로 단방향으로 전달되는 단방향 순환 층이다.
그 자체로는 별개의 단위는 아니지만, 도 8 및 도 9의 양방향 순환 층(63, 64)은 각각 더 단순한 순환 단위(66, 67)로 만들어진 반복 단위-유사 구조를 갖는다.
도 8의 양방향 순환 층에서, 양방향 순환 층(63)은 도 7의 단방향 순환 층(62)과 동일한 구조를 갖는 정방향 서브-층(68) 및 시간이 역전된 것처럼 도 7의 단방향 순환 층(62)으로부터 반전된 구조를 갖는 역방향 서브-층(69)인, 순환 단위(66)의 2개의 서브-층(68, 69)으로 구성되며, 하나의 단위(66)로부터 이전 단위(66)로 상태 벡터를 전달한다. 정방향 및 역방향 서브-층(68, 69)은 모두 동일한 입력을 수신하고 상응하는 단위(66)로부터의 출력은 함께 연결되어 양방향 순환 층(63)의 출력을 형성한다. 정방향 서브-층(68) 내의 임의의 단위(66)와 역방향 서브-층(69) 내의 임의의 단위 사이에는 연결이 없음에 유의한다.
도 9의 대안적인 양방향 순환 층(64)은 유사하게, 도 7의 단방향 순환 층(62)과 동일한 구조를 갖는 정방향 서브 층(68) 및 마치 시간이 역전된 것처럼 도 7의 단방향 순환 층(62)으로부터 역전된 구조를 갖는 역방향 서브-층(69)인, 순환 단위(67)의 2개의 서브-층(70, 71)으로 구성된다. 다시 정방향 및 역방향 서브-층(68, 69)은 동일한 입력을 수신하지만, 도 8의 양방향 순환 층과 대조적으로, 정방향 서브-층(68)의 출력은 역방향 서브-층(69)의 입력이며 역방향 서브-층(69)의 출력은 양방향 순환 층(64)의 출력을 형성한다(정방향 및 역방향 서브-층(68, 69)은 반전될 수 있음).
도 9에 도시된 양방향 순환 층의 일반화는 복수의 '정방향' 및 '역방향' 순환 서브-층으로 구성된 순환 층의 스택이며, 여기서 각 층의 출력은 다음 층에 대한 입력이다.
도 3의 양방향 순환 층(34)은 도 8 및 도 9의 양방향 순환 층(63, 64) 중 어느 하나의 형태를 취할 수 있다. 일반적으로, 도 3의 양방향 순환 층(34)은 비-순환 층, 예를 들어 도 6의 비-순환 층(60) 또는 단방향 순환 층, 예를 들어 도 7의 순환 층(62)으로 대체될 수 있지만, 양방향 순환 층(34)을 사용함으로써 개선된 성능이 달성된다.
피드-정방향 층(35)이 이제 기재될 것이다.
피드-정방향 층(35)은 각각의 벡터를 처리하는 피드-정방향 단위(38)를 포함한다. 피드-정방향 단위(38)는 고전적인 신경망의 표준 단위이며, 즉, 아핀 변환이 입력 벡터에 적용된 다음 비선형 함수가 요소별로 적용된다. 피드-정방향 층(35)은 모두 비선형 함수에 대해 쌍곡선 탄젠트를 사용하지만, 네트워크의 전체 정확도에 거의 변동이 없는 다른 많은 것들이 사용될 수 있다.
단계
Figure pct00007
에서 입력 벡터가
Figure pct00008
이고, 아핀 변환에 대한 가중치 행렬 및 편향이 각각
Figure pct00009
Figure pct00010
이면, 출력 벡터
Figure pct00011
는 하기이다:
Figure pct00012
최종 피드-정방향 층(35)의 출력은 각각의 벡터를 처리하는 소프트맥스 단위(39)를 포함하는 소프트맥스 층(36)에 공급된다.
소프트맥스 단위(39)의 목적은 입력 벡터를 출력 기호에 대한 확률 분포로 해석할 수 있는 것으로 바꾸는 것이며, 출력 벡터 및 기호의 요소와 1:1 연관성이 있다. 아핀 변환이 입력 벡터에 적용된 다음, 요소별로 지수화되고 모든 요소의 합이 1이 되도록 표준화된다. 지수화는 모든 항목이 양수임을 보장하므로 표준화는 유효한 확률 분포를 생성한다.
단계
Figure pct00013
에서 입력 벡터가
Figure pct00014
이고, 아핀 변환에 대한 가중치 행렬 및 편향이 각각
Figure pct00015
Figure pct00016
이면, 출력 벡터
Figure pct00017
는 하기이다:
Figure pct00018
여기에서,
Figure pct00019
는 요소가 모두 단위 값과 같은 벡터의 전치이므로,
Figure pct00020
는 단순히
Figure pct00021
의 모든 요소의 (스칼라) 합이다.
소프트맥스 층(36)의 사용은 각 시간 단계에서 네트워크의 출력을 국부적으로 표준화한다. 대안적으로, 순환 신경망(30)은 모든 가능한 출력 서열에 대한 합이 1이 되도록 모든 시간 단계에 걸쳐 전역으로 표준화될 수 있다. 전역 표준화는 국부 표준화보다 엄격하게 나타내며, '표지 편향 문제'로 알려진 이슈를 방지한다.
국부 표준화에 비해 전역 표준화를 사용하는 것의 이점은 조건부 랜덤 필드(문헌[Lafferty et al., Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data, Proceedings of the International Conference on Machine Learning, June 2001])가 최대 엔트로피 마르코프 모델(문헌[McCallum et al., Maximum Entropy Markov Models for Information Extraction and Segmentation, Proceedings of ICML 2000, 591―598. Stanford, California, 2000])에 비해 갖고 있는 이점과 유사하다. 표지 편향 문제는 중합체 서열에 대한 확장과 같이 상태간 허용된 전이 행렬이 드문 모델에 영향을 준다.
국부 표준화를 사용하면 각 소스 상태에 대한 전환 확률이 1로 표준화되므로, 가능한 전환이 가장 적은 상태가 데이터에 적합하지 않더라도 높은 점수를 받게 된다. 이로 인해 가능한 전환 수가 적은 상태를 선택하는 편향이 생긴다.
전역 표준화는 전체 서열에 대해 표준화하여 이 문제를 완화하여, 서로 다른 시간에 전환이 서로 트레이드되도록 한다. 이러한 서열은 다른 서열과 비교하여 허용된 전이 수가 다를 수 있기 때문에(모델에 따라 더 많거나 적을 수 있음), 전역 표준화는 단일중합체 및 기타 낮은 복잡도 서열의 편향된 추정을 피하는 데 특히 유리하다.
비-순환 단위(62) 및 순환 단위(65 내지 67)는 각각의 이벤트를 독립적으로 취급하지만, 이제 설명되는 바와 같은 형태를 갖는 긴 단기 기억 단위로 대체될 수 있다.
긴 단기 기억(LSTM) 단위는 문헌[Hochreiter and Schmidhuber, Long short-term memory, Neural Computation, 9 (8): 1735―1780, 1997]에 도입되었다. LSTM 단위는 순환 단위이므로 다음에서 상태 벡터를 서열내 한 단계에서 다음 단계로 전달한다. LSTM은 단위가 메모리 셀이라는 표기법을 기반으로 하는데: 메모리의 내용을 포함하는 히든 상태가 한 단계에서 다음 단계로 전달되고, 메모리 업데이트 방법을 제어하는 일련의 게이트를 통해 연산된다. 하나의 게이트는 메모리의 각 요소가 삭제(잊혀짐)되는지 여부를 제어하고, 다른 게이트는 새 값으로 대체되는지 여부를 제어하고, 메모리를 읽고 출력하는지 여부를 결정하는 최종 게이트를 제어한다. 메모리 셀을 차별화할 수 있는 것은 개념적 컴퓨터 메모리 셀의 이진 온/오프 로직 게이트가 시그모이드 함수에 의해 생성된 개념적 확률로 대체되고 메모리 셀의 내용이 예상 값을 나타내는 것이다.
먼저 LSTM의 표준 구현에 대해 설명하고, 기본 방법에서 실제로 사용되는 '피프-홀(peep-hole)' 변형에 대해 설명한다.
표준 LSTM은 하기와 같다.
LSTM 장치에 대한 다양한 연산과 관련된 확률은 다음 방정식 세트로 정의된다.
Figure pct00022
가 단계
Figure pct00023
에 대한 입력 벡터가 되게 하고,
Figure pct00024
가 출력 벡터가 되고, 입력 및 이전 출력에 대해 각각 편향
Figure pct00025
및 가중치 행렬
Figure pct00026
Figure pct00027
를 갖는
Figure pct00028
에 의해 인덱싱된 아핀 변환이 되게 하여;
Figure pct00029
는 비-선형 시그모이드 변환이다.
Figure pct00030
위에 정의된 업데이트 벡터와
Figure pct00031
연산자가 요소별(아다마르) 곱셈을 나타내도록, 내부 상태
Figure pct00032
를 업데이트하고, 새로운 출력을 결정하는 식은 하기이다:
Figure pct00033
피프-홀 변형은 하기와 같다.
'피프-홀' 변형(Gers and Schmidhuber, 2000)은 LSTM 아키텍처에 몇 개의 추가 연결을 추가하여 메모리 셀의 히든 상태를 '훔쳐볼'(알려주는) 포겟(forget), 업데이트 및 출력 가능성을 허용한다. 네트워크에 대한 업데이트 식은 위와 같지만,
Figure pct00034
가 히든 상태와 같은 길이의 '피프(peep)' 벡터가 되도록 하면 확률 벡터에 대한 3개의 방정식은 하기와 같다:
Figure pct00035
비-순환 단위(62) 및 순환 단위(65 ~ 67)는 대안적으로 하기와 같은 형태를 갖는 게이트된 순환 단위로 대체될 수 있다.
게이트된 순환 단위(GRU)는 실행 속도가 더 빠르지만, 초기에는 정확도가 떨어지는 것으로 나타났다. GRU의 아키텍처는 LSTM만큼 직관적이지 않아, 히든 상태와 출력 사이의 분리를 없애고 '포겟'과 '입력 게이트'를 결합한다.
Figure pct00036
HMM은 하기와 같이 신경 단위로 설명될 수 있다.
기본 방법에서는 사용되지 않지만 완전성을 위해 본원에서는 순환 신경망 프레임워크를 사용하여 정방향(역방향) HMM 알고리즘을 설명할 수 있는 방법을 설명한다. 출력이 로그-공간에 있는 양식이 표시된다. HMM은
Figure pct00037
에 의해 매개변수화된 전이 행렬
Figure pct00038
및 로그 밀도 함수
Figure pct00039
로 설명된다. 로그 밀도 함수는 입력 특징을 취하고, 히든 상태를 조건으로 하는 상기 특징들의 로그-확률의 벡터를 반환하며, 이 함수의 정확한 형태는 매개변수
Figure pct00040
에 의해 특정된다.
Figure pct00041
상기 설명된 바와 같이, 순환 신경망(30)은 디코더(37)에 공급되는 사후 확률을 나타내는 출력을 생성한다. 기본 방법에서 출력은 복수의 사후 확률 벡터이며, 각각은 중합체 단위의 복수의 상이한 서열의 사후 확률을 나타낸다. 각각의 복수의 사후 확률 벡터는 각각의 확인된 측정 그룹(이벤트)에 해당한다.
디코더(37)는 하기와 같이 사후 확률 벡터로부터 일련의 중합체 단위의 추정치를 유도한다.
복수의 사후 확률 벡터는 각 단계에 대한 컬럼이 있는 행렬로 간주될 수 있으며, 각 컬럼은 미리 결정된 길이의 k량체를 나타내는 기호 세트에 대한 확률 분포이고, 불량 데이터를 나타내는 선택적 추가 기호이다(하기 '하기와 같이 처리되는 불량 이벤트' 참조). 인접 단계에 대한 k량체가 겹치기 때문에, 'argmax'와 같은 간단한 디코딩 프로세스와, 각 단계에서 최대 확률을 갖는 k량체를 선택하고, 결과를 연결하면 기본 주형 DNA 서열의 추정치가 좋지 않을 것이다. 예를 들어, 비터비(Viterbi) 알고리즘과 같은 양호한 방법은 발생할 수 있는 상태 간 전환 유형에 대한 제한에 따라 총 점수를 최대화하는 상태 서열을 찾기 위해 존재한다.
복수의 사후 확률 벡터가 행렬이고, 단계
Figure pct00042
에서 상태
Figure pct00043
에 할당된 확률이 p tj 이고 상태
Figure pct00044
에서 상태
Figure pct00045
로 이동하기 위한 전환 가중치 세트
Figure pct00046
이 있는 경우, 비터비(Viterbi) 알고리즘은 점수를 최대화하는 상태 서열을 찾는다.
Figure pct00047
비터비(Viterbi) 알고리즘은 먼저 네트워크 출력의 시작으로부터 끝까지 반복적인 방식으로 진행된다. 정방향 행렬의 요소
Figure pct00048
는 상태
Figure pct00049
에서 끝나는 단계
Figure pct00050
까지 최상의 상태 서열의 점수를 나타내며; 역방향 행렬의 요소
Figure pct00051
는 단계
Figure pct00052
가 상태
Figure pct00053
에 있는 경우 이전 상태를 저장한다.
Figure pct00054
최고 전체 점수는 정방향 행렬의 최종 컬럼
Figure pct00055
의 최대 요소를 찾아서 결정될 수 있으며; 이 점수를 달성하는 상태 서열을 찾는 것은 네트워크 출력의 끝에서 시작까지 반복적으로 진행된다.
Figure pct00056
전환 가중치는 허용된 상태 간 전환, 전환을 완전히 허용하지 않는 음의 무한대 가중치 및 해당 전환을 억제하는 패널티로 해석가능한 음수 값을 정의한다. 앞에서 설명한 'argmax' 디코딩은 모든 전환 가중치를 0으로 설정하는 것과 같다. 허용되지 않는 전환이 많은 경우, 허용된 전환만 고려되도록 희소 방식으로 계산을 수행하여 상당한 런타임 개선이 얻어질 수 있다.
비터비(Viterbi) 알고리즘을 적용한 후 네트워크에 의한 각 컬럼 출력(사후 확률 벡터)은 k량체를 나타내는 상태로 표지되며, 이 상태 세트는 일관된다. 주형 DNA 서열의 추정치는 기호가 나타내는 k량체 서열의 최대 중첩에 의해 형성되며, 전환 가중치는 중첩이 일관됨을 보장한다. 최대 중첩은 추정된 DNA 서열의 단편을 결정하는 데 충분하지만, 예를 들어 중첩이 모호하고 가능성을 명확하게 하기 위해 사전 정보를 사용해야 하는 경우, 단일중합체 또는 반복된 이량체가 있다. 현재의 나노포어 장치의 경우, 이벤트 감지는 입력을 과도하게 세분화하도록 매개변수화되므로 모호한 경우에 중첩될 가능성이 가장 높은 부분이 가장 완전하다.
불량 이벤트는 하기와 같이 처리된다.
기본 방법은 염기 호출에 도움이 되지 않는 것으로 간주되는 불량 이벤트를 표시하도록 훈련된 추가 기호를 포함하는 알파벳을 내보낸다. 이벤트는 '불량' 기호가 할당된 확률이 가장 높은 기호인지 또는 할당된 확률의 임계값에 의해 결정되는 지와 같은 프로세스를 사용하여 불량으로 표시되며, 상응하는 컬럼은 출력에서 제거된다. 나머지 컬럼에서 불량 기호가 제거된 다음, 나머지 기호에 대한 확률 분포를 형성하기 위해 개별적으로 재표준화된다. 그 다음, 상기 기재된 바와 같이 디코딩이 진행된다.
순환 신경망은 그 자체로 통상적인 기술을 사용하고 알려진 중합체에 대한 일련의 측정 형태로 훈련 데이터를 사용하여 특정 유형의 측정 시스템(2)에 대해 훈련된다.
이제 기본 방법에 대한 몇 개의 변형을 설명할 것이다.
제1 변형은 이벤트 호출 생략과 관련이 있다. 신호를 이벤트로 명시적으로 분할하면 염기 호출에 많은 문제가 발생한다: 잘못된 분할로 인해 이벤트가 누락되거나 초과 호출되고, 감지될 수 있는 이벤트 경계 유형은 지정된 필터에 따라 다르며, 각 이벤트를 나타내기 위한 합산 통계의 형식은 사전에 지정되며, 이벤트 호출의 불확실성에 대한 정보는 네트워크로 전파되지 않는다. 시퀀싱 속도가 증가함에 따라 단일 레벨의 이벤트 개념이 부적절해지고 적분 증폭기를 사용하여 여러 레벨에 걸쳐있는 많은 샘플로 신호가 흐려지므로 다른 방법론을 사용하여 미가공 신호의 대체 정보 특징을 찾을 수 있다.
따라서, 제1 변형은 이벤트 호출을 생략하고 대신 일련의 측정에서 분명할 수 있는 이벤트에 관계없이 각 윈도우에 대한 특징 벡터를 유도하기 위해 일련의 측정의 연속 윈도우에서 연속 측정의 합성곱을 수행하는 것이다. 그런 다음 순환 신경망은 상기 기계 학습 기술을 사용하여 특징 벡터에서 연산한다.
따라서, 가능하면 중첩될 가능성이 있는, 고정된 길이의 측정 윈도우는 순환 신경망 및 관련 디코더에 의해 결합되어 중합체 서열의 추정치를 생성하는 복수의 특징 수량을 포함하는 특징 벡터로 처리된다. 결과적으로, 각각의 측정 또는 미리 결정된 수의 측정의 각각의 그룹에 상응하는 출력 사후 확률 행렬은 네트워크의 다운-샘플링 정도에 따라 달라진다.
도 10은 제1 변형예를 도시한다. 특히, 도 10은 일련의 측정을 포함하는 미가공 신호(20) 및 위에서 설명된 순환 신경망(30) 앞에 배열될 수 있는 입력 스테이지(80)의 그래프를 도시한다.
입력 스테이지(80)는 중첩 윈도우(81)의 측정치를 특징 검출기 단위(82)에 공급한다. 따라서, 미가공 신호(20)는 특징 검출기 단위(82)에 의해 고정 길이 윈도우에서 처리되어, 각 윈도우에 대한 특징의 특징 벡터를 생성하며, 특징은 위에서 설명된 것과 동일한 형식을 취한다. 모든 윈도우에 동일한 특징 검출 단위가 사용된다. 생성된 특징 벡터의 서열은 위에 설명한 바와 같이 배열된 순환 신경망(30)에 순차적으로 공급되어, 서열 추정을 생성한다.
특징 검출기 단위(82)는 순환 신경망(30)과 함께 훈련된다.
특징 검출기 단위(82)에서 구현된 특징 검출기의 예는 가중치
Figure pct00057
및 편향
Figure pct00058
를 갖는 아핀 변환 및 활성화 함수
Figure pct00059
에 의해 정의되는, 단일층 컨벌루션 신경망이다. 여기에서,
Figure pct00060
Figure pct00061
내지
Figure pct00062
포괄적인 측정을 포함하는 미가공 신호(20)의 측정 윈도우를 나타내며,
Figure pct00063
는 출력 특징 벡터이다.
Figure pct00064
쌍곡선 탄젠트는 적합한 활성화 함수이지만, 정류 선형 유닛(ReLU), 지수 선형 유닛(ELU), 소프트플러스 유닛 및 시그모이드 유닛을 포함하지만 이들로 한정되지 않는 더 많은 대안이 당 업계에 알려져 있다. 다층 신경망은 또한 특징 탐지기로 사용될 수 있다.
설명된 바와 같이 직선 합성곱 네트워크는 미가공 신호에서 감지된 특징의 정확한 위치에 의존한다는 단점이 있으며, 이는 또한 특징 사이의 간격에 대한 의존성을 의미한다. 첫 번째 합성곱에 의해 생성된 특징 벡터의 출력 서열을 입력의 순서 통계에 따라 작용하는 두 번째 '풀링' 네트워크에 대한 입력으로 사용하여 종속성이 완화될 수 있다.
예를 들어, 풀링 네트워크가 단일층 신경망인 경우, 하기 식들은 출력이 입력 벡터와 관련되는 방식을 설명한다.
Figure pct00065
가 입력 특징에 대한 인덱스가 되게 하여,
Figure pct00066
가 특징
Figure pct00067
에 대한 가중치 행렬도 마찬가지로
Figure pct00068
도 그의 입력의 순서 통계의 일부 또는 전체를 반환하는 펑터(functor)가 되게 한다:
Figure pct00069
이러한 층의 유용하면서도 계산적으로 효율적인 한 예는 입력 특징의 수와 동일한 크기의 특징 벡터를 반환하는 것이며, 그 요소는 각 특징에 대해 얻은 최대 값이다. 펑터(functor)
Figure pct00070
이 그의 입력에서 얻은 최대 값인, 마지막 순서 통계만 반환하도록 하고,
Figure pct00071
가 그의
Figure pct00072
요소의 단위 값 외의 0으로만 구성된 (단일 컬럼) 행렬이 되도록 한다:
Figure pct00073
행렬
Figure pct00074
가 매우 희소하기 때문에, 계산 효율성의 이유로, 행렬 곱셈이 암시적으로 수행될 수 있으며: 여기서
Figure pct00075
의 효과는
Figure pct00076
에 대한 출력 특징 벡터의 요소
Figure pct00077
를 설정하는 것이다.
합성곱 및/또는 풀링은 매 n번째 위치(n의 보폭)에 대한 출력 계산만 수행하여 그들의 출력을 다운-샘플링할 수 있다. 나머지 네트워크가 유사한 정확도를 달성하기 위해 더 적은 수의 블록(더 빠른 계산)을 처리해야 하기 때문에 다운-샘플링이 계산 관점에서 유리할 수 있다.
합성곱 층 스택을 추가하면 위에 설명된 많은 문제가 해결된다: 합성곱에 의해 학습된 특징 탐지는 시스템에 대한 추가 가정을 하지 않고도 나노포어-특정 특징 탐지기와 합산 통계로 기능할 수 있으며; 특징 불확실성은 다른 특징의 상대적 가중치에 의해 나머지 네트워크로 전달되므로 추가 처리는 이 정보를 고려하여 더 정확한 예측과 불확실성의 정량화로 이어질 수 있다.
두 번째 변형은 순환 신경망(30)의 출력과 관련되며, 선택적으로 첫 번째 변형과 결합될 수 있다.
순환 신경망(30)에서 구현된 기본 방법의 출력을 디코딩하는 데 가능한 문제는 k량체를 통한 최고 점수 경로가 결정되면 중합체 서열의 추정이 여전히 중첩에 의해 결정되고, 이 방법이 모호할 수 있다는 점이다.
문제를 강조하기 위해, 공정의 역사가 단일중합체 영역을 통해 이동하는 경우를 고려한다: 2개의 k량체 사이의 모든 중첩이 가능하고 여러 염기가 예를 들어 0, 1 또는 2 염기 길이의 추가 서열 단편에 해당하는 것이 가능하다. k량체에 의존하는 전략은 서열 추정 문제를 부분적으로만 해결한다.
따라서, 두 번째 변형은 디코더(37)에 공급되는 사후 확률을 나타내는 순환 신경망(30)의 출력을 변형시키는 것이다. 특히, 디코딩의 가정을 k량체로 떨어뜨려 중합체 단위의 복수의 상이한 서열의 사후 확률을 나타내는 사후 확률 벡터를 출력하지 않음으로써 모호함을 해결한다. 대신에, 각각의 측정 이전 또는 이후, 측정에 상응하는 중합체 단위의 상이한 각각의 히스토릭 서열에 대해 이제 설명되는 바와 같이 새로운 일련의 중합체 단위의 새로운 서열을 생성하는 각각의 중합체 단위의 히스토릭 서열에 대한 복수의 상이한 변화의 사후 확률을 나타내는 출력 사후 확률 행렬이 존재한다.
중합체 단위의 히스토릭 서열은 현재 추정되는 서열에 대해 히스토릭한 서열에 대한 가능한 아이덴티티이고, 새로운 중합체 단위 서열은 히스토릭 서열에 대한 상이한 가능한 변경에 대해 현재 추정되는 서열에 대한 가능한 아이덴티티이다. 서로 다른 히스토릭 서열에서 다른 변경에 대한 사후 확률이 도출되므로, 히스토릭 서열에 대해 가능한 모든 아이덴티티를 나타내는 공간에 한 차원이 있고 가능한 모든 변경을 나타내는 공간에 한 차원이 있는 행렬을 형성한다.
용어 "히스토릭"의 사용에도 불구하고, 공정이 효과적으로 가역적이고 중합체를 따라 어느 방향으로든 진행될 수 있기 때문에, 각각의 측정 이전 또는 이후의 측정에 상응하는 중합체 단위의 히스토릭 서열.
고려할 수 있는 가능한 변경은 하기와 같다:
ㆍ 중합체 단위 및 단일중합체 단위의 히스토릭 서열의 시작 또는 끝으로부터 중합체 단위의 히스토릭 서열의 끝 또는 시작까지 단일중합체 단위를 제거하는 변경.
ㆍ 중합체 단위의 히스토릭 서열의 시작으로부터 둘 이상의 중합체 단위를 제거하고 중합체 단위의 히스토릭 서열의 끝에 둘 이상의 중합체 단위를 추가하는 변경.
ㆍ 널(null) 변경.
이것은 이제 더 자세히 고려될 것이다.
제2 변경은 본원에서 순환 신경망(30)의 출력 단계에서 "변환기"를 구현하는 것으로 지칭될 것이다. 일반적으로, 각 단계에서 변환기에 대한 입력은 사후 확률을 나타내는 값을 포함하는 사후 확률 행렬이며, 값은 가중치일 수 있으며, 각각은 특정 이동 상태를 사용하여 특정 히스토리-상태에서 이동하는 것과 관련된다. 미리 결정된 두 번째 행렬은 소스 히스토리-상태 및 이동 상태가 주어진 대상 히스토리 상태를 지정한다. 따라서 디코더(37)에서 구현된 변환기의 디코딩은 이동이 허용된 행렬에 의해 정의된 일관성있는 일관된 경로인 히스토리-상태에 따른 가중치를 최대화하는 각 단계에 대한 (히스토리-상태, 이동-상태)의 할당을 찾을 수 있다.
예를 들어, 도 11은 디코더(36)에 입력되는 순환 신경망의 출력이 순환 신경망(30)에 입력되는 특징 벡터(31)로부터 사후 확률 행렬(40)의 형태로 생성될 수 있는 방법을 보여준다. 도 12는 히스토리-상태의 공간이 3량체이고 이동-상태(42)의 공간이 서열 단편인 경우 히스토리-상태(41) 및 이동-상태(42)의 튜플(tuple)로 디코딩한 결과의 예를 도시한다. 특히, 도 12는 4개의 연속적인 히스토리-상태(41) 및 이동-상태(42)를 도시하고 있으며, 히스토리 상태(41)가 이동-상태(42)에 의해 표현되는 변경에 따라 어떻게 변경되는지 알 수 있다.
두 번째 변형은 히스토리-상태(41)(기본 방법에서 단독으로 간주됨)가 일련의 중합체 단위에 대해 모호한 반면 이동 상태(42)가 모호하지 않은 경우가 있기 때문에 기본 방법에 비해 이점을 제공한다. 예로서, 도 13은 기본 방법과 유사하게 가장 높은 점수 경로에 있는 상태 간의 겹침만을 고려하면 일련의 중합체 단위에 대한 모호한 추정이 발생하는 반면 두 번째 약물에 사용된 이동 상태(42)의 서열 단편은 모호하지 않는 일부 샘플 사례를 보여준다.
디코딩에 사용될 수 있는 비터비(Viterbi) 알고리즘의 변형은 아래에 있지만, 명확성을 위해 변환기가 소프트맥스 층(56)의 출력에서 사용될 수 있는 방법과 히스토리-상태(41) 및 이동 상태(42)의 세트에 대한 구체적인 예를 먼저 고려한다.
변환기의 한 용도에서, 히스토리 상태(41) 세트는 고정된 길이의 짧은 서열 단편이고, 이동-상태는 가능한 다른 고정 길이까지의 모든 서열 단편, 예를 들어 길이가 3이고 최대 2인 단편은 각 단계에서 디코딩에 대한 입력이 크기
Figure pct00078
의 가중치 행렬임을 의미한다. 히스토리-상태(41)는 {AAA, AAC, …TTT}이며, 이동 상태(42)는 {-, A, C, G, T, AA, …TT}이며, 여기서 '-'는 널 서열 단편을 나타낸다. 주어진 히스토리-상태 및 이동-상태 쌍에 대한 목적지 히스토리 상태를 정의하는 행렬은 하기와 같다:
Figure pct00079
특정 히스토리-상태(41)로부터, 동일한 목적지 히스토리-상태를 제공하는 여러 이동-상태(42)가 있을 수 있음에 유의한다. 이것은 이동-상태(42)에 대한 지식이 변환기를 히스토리-상태(41)의 세트에서만 정의되거나 유한 상태 기계의 용어로 각각 Moore 기계와 Mealy 기계인, (소스-히스토리-상태, 목적지-히스토리-상태)의 튜플에 정의된 것을 해결하고 이와 구별한다는 모호성의 표현이다. 방출될 수 있는 가능한 가장 긴 서열 단편의 길이가 히스토리-상태(41)의 길이보다 짧아야 한다는 요구 사항은 없다.
디코더(37)로 입력되는 사후 확률 행렬은 더 작은 매개변수 세트에 의해 결정될 수 있으며, 히스토리-상태(41)의 크기가 동일한 수의 매개변수에 대해 상대적으로 클 수 있도록 하면서 최종 호출을 어셈블할 서열 단편을 유연하게 방출할 수 있게 한다.
유용한 것으로 입증된 한 예는 빈 서열 단편에 상응하는 이동을 사용하여 모든 전환을 나타내는 단일 가중치를 갖고 다른 모든 전환은 목적지 히스토리 상태에만 의존하는 가중치를 갖는 것이다. 길이
Figure pct00080
의 단편의 히스토리-상태-공간과 최대 2개의 염기 출력을 허용하기 위해서는, 이것은 상기 정의된 분명한 명시적 변환기의
Figure pct00081
보다는
Figure pct00082
매개변수를 필요로 한다. 변환기에 대한 이 형식은 변환기가 제거하도록 설계된 모호성을 부분적으로만 해결하며, 점수가 동일할 것이기 때문에 일부 경우에 최대 겹침을 가정할 필요가 있지만 완전히 겹치는 것은 아니며; 이 제한은 1보다 긴 서열 단편에 상응하는 이동 상태가 거의 사용되지 않을 때 실제로 발생하는 많은 경우에 충분하다.
변환기의 히스토리-상태는 k량체 초과일 필요가 없으며, 일부 다른 기호 세트에 있을 수 있다. 한 예는 특정 염기, 퓨린(A 또는 G) 또는 피리미딘(C 또는 T)을 구별하는 정보가 극히 국부적이고, 일부 염기를 구별할 수 없는 더 긴 히스토리를 고려하는 것이 유리할 수 있다. 동일한 수의 히스토리-상태에 대해 퓨린과 피리미딘만의 구성된 알파벳을 사용하는 변환기는 4^k=2^2k 이므로 2배 긴 문자열을 가질 수 있다. P가 퓨린 Y 피리미딘을 나타내는 경우, 주어진 히스토리-상태 및 이동-상태 쌍에 대한 목적지 히스토리-상태를 정의하는 행렬은 하기와 같다:
Figure pct00083
변환기의 히스토리-상태(41)는 히스토리 서열의 하나 이상의 단편으로 확인 가능할 필요가 없으며, 순환 신경망(30)이 훈련 동안 자신의 표현을 학습하게 하는 것이 유리하다. 인덱스된 히스토리-상태 세트, {S1, S2, …, SH} 및 서열 단편 세트가 주어지면, 이동-상태는 히스토리-상태와 서열 단편의 모든 가능한 쌍이다. 예를 들어, 서열 단편 세트는 {-, A, C, G, T, AA, …TT}일 수 있으므로, 이동-상태 세트는 {S1-, S1A, …, S1TT, S2-, S2A, …, SHTT}이다. 순환 신경망(30)은 이전과 같이 이러한 히스토리-상태 및 이동-상태에 대해 사후 확률 행렬을 방출하고, 각 항목은 특정 서열 단편의 방출에 의해 하나의 히스토리-상태에서 다른 히스토리-상태로 이동할 수 있는 사후 확률을 나타낸다.
제2 변형예에서 디코더(37)에 의해 수행되는 디코딩은 하기와 같이 수행될 수 있다. 제1 용도에서, 디코더는 예를 들어 사후 확률 행렬을 통해 가장 가능성이 높은 경로를 추정함으로써 사후 확률 행렬로부터 일련의 중합체 단위의 추정치를 유도할 수 있다. 추정치는 전반적으로 일련의 중합체 단위의 추정치일 수 있다. 디코딩의 세부 사항은 하기와 같다.
당 업계에 알려진 임의의 방법이 일반적으로 사용될 수 있지만, 변환기에 대한 가중치 서열을 최종 서열로 디코딩하기 위해 비터비(Viterbi) 알고리즘의 변형을 사용하는 것이 유리하다. 표준 비터비(Viterbi) 디코딩 방법과 마찬가지로, 역-트레이스 행렬은 정방향 패스 중에 구축되며, 이것은 가능한 가장 높은 점수를 생성하는 경로(각 단계에 히스토리-상태 할당)를 계산하는 데 사용되지만, 변환기 변형도 가장 높은 점수 경로를 따라 한 히스토리-상태에서 다른 히스토리-상태로 전환하는 데 실제로 사용되는 이동-상태를 기록하는 추가 행렬을 필요로 한다.
이동-상태
Figure pct00084
를 통해 히스토리-상태
Figure pct00085
로부터 이동을 위한 단계
Figure pct00086
에서 순환 신경망(30)에 의해 출력된 가중치가 텐서(tensor)
Figure pct00087
이고, 행렬
Figure pct00088
가 목적지 히스토리-상태를 저장하면 비터비(Viterbi) 알고리즘의 정방향 반복은 하기와 같다.
Figure pct00089
변형된 비터비(Viterbi)의 역방향 '디코딩' 반복은 끝부터 단계적으로 진행된다. 먼저 가장 높은 점수 경로에 대한 마지막 히스토리-상태가 최종 점수 벡터에서 결정된 다음, 역-트레이스 정보를 사용하여 해당 경로의 모든 히스토리-상태를 결정한다. 단계
Figure pct00090
에서 히스토리-상태
Figure pct00091
가 결정되면, 이동-상태
Figure pct00092
이 결정될 수 있다.
Figure pct00093
각 이동 상태는 서열 단편으로 해석되므로, 이러한 단편을 연결하여 중합체 서열의 추정치가 결정될 수 있다. 디코딩에는 이동 상태만 필요하기 때문에 히스토리-상태의 서열이 명시적으로 결정될 필요가 없다.
이러한 방법에서, 가장 가능성이 높은 경로의 추정은 사후 확률 행렬을 사용하여 중합체의 일련의 중합체 단위가 중합체 단위의 참조 시리즈일 확률을 나타내는 가장 높은 점수를 가진 모든 가능한 시리즈로부터의 시리즈를 추정할 때 효과적으로 찾는다. 실제로 비터비(Viterbi) 알고리즘은 실제로 모든 항목에 점수를 매기는 것을 피하지만, 이것은 개념적으로 모든 가능한 시리즈에 대한 점수를 참조로 매기는 것으로 생각할 수 있다. 보다 일반적으로, 디코더(37)는 하나 또는 참조 시리즈의 중합체 단위에 대한 점수의 생성을 유사하게 포함하는 다른 유형의 분석을 수행하도록 배열되며, 이 점수는 사후 확률 행렬을 사용하여 중합체의 일련의 중합체 단위가 중합체 단위의 참조 시리즈일 확률을 나타낸다. 이러한 점수는 하기와 같은 여러 다른 용도를 가능하게 한다. 하기 용도에서, 중합체 단위의 참조 시리즈는 메모리에 저장될 수 있다. 이들은 공지된 중합체 및/또는 라이브러리로부터 유도되거나 실험적으로 유도된 일련의 중합체 단위일 수 있다.
제1 대안에서, 디코더(36)는 예를 들어 참조 시리즈에 대한 사후 확률 행렬의 점수를 기반으로 한, 일련의 사후 확률 행렬이 가장 상응할 가능성이 높은 중합체 단위의 복수 참조 시리즈 세트 중 하나를 선택함으로써 전체로서 일련의 중합체 단위의 추정치를 유도할 수 있다.
제2 대안에서, 디코더(36)는 중합체의 일련의 중합체 단위와 참조 일련의 중합체 단위 사이의 차이의 추정치를 유도할 수 있다. 이는 기준 시리즈의 변형을 채점하여 수행할 수 있다. 이것은 참조와의 차이의 위치와 아이덴티티를 추정하여 측정이 이루어지는 일련의 중합체를 효과적으로 추정한다. 이러한 유형의 용도는 예를 들어 공지된 유형의 중합체에서 돌연변이를 확인하는 데 유용할 수 있다.
제3 대안에서, 추정치는 일련의 중합체 단위의 일부에 대한 추정치일 수 있다. 예를 들어, 일련의 중합체 단위의 일부가 기준 일련의 중합체 단위인지 여부를 추정할 수 있다. 이것은 예를 들어 적합한 검색 알고리즘을 사용하여 일련의 일련의 사후 확률 행렬의 일부에 대해 참조 시리즈를 채점함으로써 수행될 수 있다. 이러한 유형의 용도는 예를 들어 중합체에서 마커를 감지하는 데 유용할 수 있다.
제3 변형은 또한 순환 신경망(30)의 출력과 관련되며, 선택적으로 제1 변형과 결합될 수 있다.
상기 설명된 바와 같이 분석 시스템(3)에서 구현된 기본 방법의 한계 중 하나는 순환 신경망(30)의 출력의 각 컬럼에 기호를 할당하고 기호 서열에서 일련의 중합체 단위를 추정하기 위해 순환 신경망(30) 외부의 디코더(36)에 의존하는 것이다. 디코더(36)는 그 자체로 순환 신경망(30)의 일부가 아니기 때문에, 미리 지정되어야 하며, 복잡한 전략에 의존하지 않고는 네트워크의 나머지 부분과 함께 어떤 매개변수도 훈련될 수 없다. 또한, 기본 방법에서 사용되는 비터비-스타일 디코더의 구조는 전류 호출의 히스토리가 표현되는 방식을 규정하고 순환 신경망(30) 자체의 출력을 제한한다.
제3 변형은 이러한 한계를 해결하고, 순환 신경망(30)의 출력을 자체적으로 일련의 중합체 단위의 연속적 중합체 단위의 아이덴티티에 대한 결정을 출력하도록 변경하는 것을 포함한다. 그 경우에, 결정은 바람직하게는 단방향으로 순환 신경망(30)으로 피드백된다. 순환 신경망에 다시 피드백된 결과, 결정은 이후 출력 결정에 영향을 미친다.
이러한 변형은 디코딩이 디코더(36)로부터 순환 신경망(30)으로 이동될 수 있게 하여, 디코딩 프로세스가 순환 신경망(30)의 다른 모든 매개변수와 함께 훈련될 수 있게 하여 나노포어 감지를 사용하여 측정으로부터 호출하도록 최적화된다. 이 제3 변형의 또 다른 장점은 순환 신경망(30)에 의해 사용된 히스토리의 표현이 훈련 중에 학습되고 일련의 측정을 추정하는 문제에 적응된다는 것이다. 결정을 순환 신경망(30)으로 되돌림으로써, 과거 결정은 미래 중합체 단위의 예측을 개선하기 위해 순환 신경망(30)에 의해 사용될 수 있다.
나중에 불량으로 보이는 과거 결정을 수정하기 위해 이 방법과 함께 여러 개의 알려진 검색 방법이 사용될 수 있다. 이러한 방법의 한 예는 역 추적이며, 여기서 낮은 점수 결정을 내리는 순환 신경망(30)에 응답하여, 프로세스는 여러 단계를 되감고 대안 선택을 시도한다. 다른 상기 방법은 빔 검색이며, 이는 높은 점수의 히스토리 상태 목록이 유지되고 각 단계에서 순환 신경망(30)이 가장 좋은 것의 다음 중합체 단위를 예측하는 데 사용된다.
디코딩이 어떻게 수행될 수 있는지를 설명하기 위해, 도 14는 순환 신경망(30)의 최종 층에서 제3 변형의 구현을 도시하고, 도 4에 도시된 바와 같은 기본 방법을 구현할 때 순환 신경망(30)의 최종 층을 보여주는 도 15와 비교될 수 있다. 도 14 및 도 15 각각은 비-제한적인 예로서 도 8에 도시된 순환 단위(66)의 구조를 갖는 최종 양방향 순환 층(34)을 도시한다. 간결함을 위해 도 14 및 도 15에서, 다음 순환 단위(66)으로 전달되기 전에 순환 단위(66)의 출력을 히든 상태와 결합하는 라인은 도시되지 않는다.
그러나, 도 4에 도시된 순환 신경망(30)의 최종 피드-정방향 층(35) 및 소프트맥스 층(36)은 일련의 중합체 단위의 연속 중합체 단위의 아이덴티티에 대한 결정을 출력하는 결정 층(45)으로 대체된다. 결정 층(45)은 각각 결정을 출력하는 argmax 단위(46)에 의해 구현될 수 있다.
즉, argmax 단위(46)에 의한 결정의 출력은 순차적으로 진행되고, 일련의 중합체 단위의 최종 출력 추정은 각 단계에서 새로운 단편을 추가하여 구성된다.
기본 방법과 달리, 각 결정은 순환 신경망(30)으로 피드백되며, 이 예에서는 최종 양방향 순환 층(34), 특히 정방향 서브-층(68)(대안적으로 역방향 서브-층(69)일 수 있음)으로 피드백된다. 이것은 정방향 서브-층(68)의 내부 표현이 이미 생성된 실제 결정에 의해 통보될 수 있게 한다. 피드백의 동기는 입력 특징과 호환되는 여러 서열이 있을 수 있으며 순환 신경망(30)의 출력에 대한 직접적인 사후 디코딩은 잠재적으로 일관성이 없는 이러한 서열의 평균을 생성하므로 일반적으로 그에 기여하는 어떤 개체보다 더 불량하다. 피드백 메커니즘은 순환 신경망(30)이 실제 호출에 대한 내부 상태를 조건하도록 하여 비터비 디코딩을 더 연상시키는 방식으로 일관된 개별 시리즈를 선택하게 한다.
프로세싱은 효과적으로 가역적이며 중합체를 따라 어느 방향으로도 진행될 수 있으므로 순환 신경망(30)을 따라 어느 방향으로든 진행될 수 있다.
피드백은 각 기호에 특정한 벡터를 방출하는 임베딩 단위(47)로 각 결정(호출된 기호)을 전달함으로써 수행될 수 있다.
각 단계에서 가장 낮은 양방향 순환 층(34)의 출력이 출력 공간으로 투영되고, 각 차원은 일련의 측정의 단편과 연관되고, argmax 디코딩은 (단편의 아이덴티티에 대해) 출력 결정을 선택하기 위해 각 argmax 단위(46)에서 사용된다. 그런 다음 결정은 임베딩 단위(47)를 통해 양방향으로 다음 순환 단위(66)로 피드백된다. 모든 가능한 결정은 임베딩 공간의 벡터와 연관되며, 방금 내린 결정에 상응하는 벡터는 다음 순환 단위(66)에 입력되기 전에 전류 순환 단위(66)에 의해 생성된 히든 상태와 결합된다.
결정을 순환 신경망(30)으로 피드백함으로써, 순환 신경망(30)의 내부 표현은 추정된 서열 단편의 히스토리 및 측정 모두에 의해 통보된다. 피드백의 다른 공식은 추정된 서열 단편의 히스토리가 별도의 단방향 순환 신경망을 사용하여 표현되는 경우이며, 단계에서 이 순환 신경망에 대한 입력은 결정의 임베딩이고, 출력은 각 결정에 대한 가중치이다. 이 가중치는 다음 서열 단편에 대한 argmax 결정을 내리기 전에 순환 신경망에서 측정을 처리한 가중치와 결합된다. 이러한 방식으로 별도의 순환 신경망을 사용하는 것은 문헌[Graves, Sequence Transduction with Recurrent Neural Networks, In International Conference on Machine Learning: Representation Learning Workshop, 2012]에 개시된 '서열 변환' 방법과 유사하며, 제3 변형의 특수한 경우이다.
결정의 임베딩이 피드백되는 순환 단위(66)의 매개변수는 그의 상태가 2개 부분으로 팩터링되도록 제한되며, 그의 상태는 최종 양방향 순환 층(34) 또는 임베디드 결정 이전에 순환 신경망(30)의 상위 층의 출력에만 업데이트가 의존한다.
제3 변형의 훈련은 하기와 같이 수행될 수 있다.
혼란도 또는 다른 확률 또는 엔트로피 기반 목적 함수를 사용하는 훈련과 호환되는 순환 신경망(30)의 출력을 만들기 위해, 도 14에 도시된 순환 신경망(30)은 소프트맥스 단위(48)의 추가에 의해 도 16 또는 도 17 중 어느 하나에 도시된 바와 같이 훈련 목적에 적합할 수 있다. 소프트맥스 단위(48)는 소프트맥스 펑터를 최종 양방향 순환 층(34)의 출력(소프트맥스 단위는 이전에 설명된 바와 같지만 아핀 변환을 적용하지 않음)에 적용한다. 그 다음, 요소(49)에 의해 도시된 바와 같이 혼란도에 의해 소프트맥스 단위(48)의 출력에 대해 훈련이 수행된다. 도 16의 예에서, 소프트맥스 단위(48)는 argmax 단위(46)를 대체하고 소프트맥스 단위(48)에 의해 출력된 트레이닝 표지는 피드백되는 반면, 도 17의 예에서는, 소프트맥스 단위(48)는 argmax 단위(46)와 병렬로 배열되고 argmax 단위(46)에 의해 출력된 결정이 피드백된다.
argmax 단위(46)에 의해 제조된 일련의 중합체의 단편에 대한 어려운 결정보다는, 소프트맥스 단위(48)는 일련의 중합체의 단편에 대한 확률 분포로 해석될 수 있는 출력을 생성하고, 따라서 혼란도 훈련될 수 있다. 소프트맥스 단위(48)에 구현된 소프트맥스 펑터는 그 입력의 순서를 보존하기 때문에, 이 단위의 argmax는 순환 신경망(30)에 추가되지 않았다면 얻어졌을 것과 동일하다. 순환 신경망(30)이 훈련되는 경우에도, 결정에 대한 신뢰의 척도를 제공하기 때문에 순환 신경망(30)에 소프트맥스 단위를 남겨 두는 것이 유리할 수 있다.
주어진 단계까지의 출력에 대한 순환 신경망(30)의 의존성은 임의의 단계에서 출력 결정을 야기하는 매개변수의 변경이 미분할 수 없는 경계를 넘어 최적화를 요구하기 때문에 훈련에 문제를 야기할 수 있다. 비-미분성 문제를 피하는 한 방법은 혼란도 목표를 사용하여 순환 신경망(30)을 훈련하지만 그 시점까지 호출이 완벽하다고 가정하고 훈련 표지를 만들어진 결정보다는 임베딩 단위(47)에 공급하는 것이다. 이러한 방식으로 훈련하면 서열 단편 호출이 정확하지만 불량 호출에서 복구하도록 훈련되지 않았으므로 오류에 매우 민감할 수 있는 네트워크가 생성된다.
훈련은 2-단계 접근 방식으로 수행될 수 있다. 첫째로, 훈련 표지는 위에서 설명되고 도 16에 도시된 바와 같이 순환 신경망(30)으로 피드백된다. 둘째, 실제 호출이 피드백되지만, 도 17에 도시된 바와 같이 소프트맥스 단위(48)를 통해 여전히 혼란도를 계산한다. 이 두 단계 프로세스의 동기는 첫 번째 단계가 두 번째 단계에 대한 좋은 시작 매개변수를 찾아서 앞서 언급한 비-미분성으로 인해 훈련이 불량 매개변수 영역에 멈출 가능성을 줄이는 것이다.
본 발명은 이제 하기 비-제한적인 실시예에 의해 추가로 설명될 것이다.
실시예
PCA 결찰을 위한 프로토콜:
1,000 ng의 표적 DNA를 말단-복구하고 dA-테일링한 후, PCR 시퀀싱 키트(SQK-PSK004)에서 PCA에 결찰하였다.
모든 반응 및 정제는 제조업체의 지침에 따라 수행되었다: 말단-복구 및 dA 테일링을 위한 NEB 및 결찰을 위한 ONT.
1x 사이클 증폭을 위한 프로토콜:
50 ul 반응액은: 250 ng PCA 결찰 표적 DNA, 1x ThermoPol 버퍼(NEB), 200 nM 프라이머, 400 uM dNTPs, 0.1 단위 ul-1 9oNm 중합효소로 구성되었다.
사용된 프라이머는 Oxford Nanopore의 PCR 시퀀싱 키트(SQK-PSK004)로부터의 WGP이었다.
그에 따라 순환되었다: 95℃에서 45초 동안, 56℃에서 45초 동안, 68℃에서 35분 동안.
증폭 후, 10 단위의 엑소뉴클레아제 I(NEB)을 첨가한 다음, 샘플을 37℃에서 추가 15분 동안 인큐베이션하였다.
Beckman Coulters Agencourt AMPure XP 비드(0.4x)를 사용하여 샘플을 정제하고, 30 ul의 TE로 용리시켰다.
시퀀싱 어댑터 부착을 위한 프로토콜:
회수된 증폭된 표적 DNA를 RAP, LLB 및 SQB와 혼합한 후, R9.4.1 Flowcell(FLO-MIN106)에 로드하였다.
제조업체의 지침에 따라 Oxford Nanopore의 PCR 시퀀싱 키트(SQK-PSK004)를 사용하여 모든 단계를 수행하였다.
실시예 1:
상기 프로토콜을 사용하여, 표준 염기만 포함하거나 표준 염기와 비표준 염기의 혼합물을 포함하는 약 3.6 kb 길이의 폴리뉴클레오타이드 가닥이 생성되고, 증폭되었다.
표준 염기 G, T, A 및 C로만 구성된 대조군 가닥이 생성되었으며; 도 1 및 첨부된 범례를 참조한다. 비표준 염기의 비율이 다른 추가 테스트 가닥이 생성되었으며; 도 2 내지 도 7 및 첨부된 범례를 참조한다.
대조군 및 시험 가닥은 나노포어 시퀀싱을 받았다. 변형된 가닥은 수득된 전류 트레이스를 기반으로 대조군 가닥과 구별될 수 있었으며; 도 11 및 도 12 및 첨부된 범례를 참조한다.
실시예 2:
이 콜라이(E. coli) 라이브러리가 2개의 개별 증폭을 받았다: 1개의 증폭은 표준 염기 G, T, A 및 C를 사용하고; 1개의 증폭은 비-표준 염기를 사용함. 도 9 내지 도 10 및 첨부된 범례를 참조한다. 두 경우 모두 증폭에 성공하여, 비표준 염기를 사용하여 라이브러리를 증폭할 수 있는 능력을 입증하였다.

Claims (42)

  1. 표준 및 비표준 중합체 단위를 포함하는 중합체 단위를 포함하는, 표적 중합체 또는 그의 일부의 서열을 결정하는 방법으로서, 상기 방법은,
    표적 중합체와 관련된 신호의 일련의 측정을 수행하는 단계로서, 여기서 신호의 측정은 복수의 중합체 단위에 의존하고, 여기서 표적 중합체의 중합체 단위는 신호를 변조하고, 여기서 비표준 중합체 단위는 상응하는 표준 중합체 단위와는 다르게 신호를 변조하는, 단계;
    기계 학습 기술을 사용하여 일련의 측정을 분석하여 비표준 중합체 단위를 각각의 상응하는 표준 중합체 단위의 측정으로 간주하는 단계; 및
    분석된 일련의 측정으로부터 표적 중합체, 또는 그의 일부의 서열을 결정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 분석으로부터 확인된 비표준 중합체 단위가 추가적으로 또는 대안적으로 결정되는, 방법.
  3. 제1항 또는 제2항에 있어서, 상기 표적 중합체가 2개 이상의 유형의 표준 중합체 단위에 상응하는 2개 이상의 유형의 비표준 중합체 단위를 포함하는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 비표준 중합체 단위의 아이덴티티 및 서열 위치가 결정되는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 표적 중합체는 각 유형의 표준 중합체 단위에 상응하는 비표준 중합체 단위를 포함하는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 기계 학습 기술은 중합체 단위가 비표준인지 또는 상응하는 표준 중합체 단위인지 사이에서 결정하지 않는, 방법.
  7. 제1항에 있어서, 상기 표적 중합체는 존재하는 하나 이상의 유형의 비표준 중합체 단위 각각에 대해 복수의 비표준 중합체 단위를 포함하는, 방법.
  8. 제1항에 있어서, 비표준 중합체 단위가 하나 초과의 표준 중합체 단위에 상응할 수 있는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 표적 중합체는 약 50%의 비표준 중합체 단위를 포함하는, 방법.
  10. 제1항에 있어서, 비표준 중합체 단위는 변형된 표준 중합체 단위인, 방법.
  11. 제1항에 있어서, 비표준 중합체 단위는 자연적으로 변형되는, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 일련의 측정은 나노포어에 대한 표적 중합체의 이동 중에 수행되는, 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 측정은 나노포어를 통한 이온 전류 흐름을 나타내는 측정 또는 표적 중합체의 전위 동안 나노포어를 가로 지르는 전압의 측정인, 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 상기 기계 학습 기술은:
    표적 중합체의 다양한 서열 위치에서 등가 표준 단위로 치환된 비표준 단위를 포함하는 복수의 표적 중합체를 제공하는 단계;
    표적 중합체와 관련된 일련의 신호 측정을 수행하는 단계;
    기계 학습 기술을 사용하여 일련의 측정을 분석하는 단계; 및
    중합체 훈련 가닥의 상응하는 표준 중합체 단위를 추정하는 단계를 포함하는 방법에 의해 훈련가능한, 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 상기 기계 학습 기술은 순환 신경망인, 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 중합체가 폴리뉴클레오타이드이고, 중합체 단위가 뉴클레오타이드 염기인, 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서, 하나 이상의 비표준 염기가 효소에 의해 변형된, 방법.
  18. 제1항에 있어서, 표준 중합체를 변형시켜, 하나 이상의 상이한 유형의 하나 이상의 하나 이상의 비표준 염기를 포함하는 표적 중합체를 제공하는 단계를 추가로 포함하는, 방법.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서, 하나 이상의 상이한 유형의 하나 이상의 비표준 염기를 포함하는 폴리뉴클레오타이드가 중합 효소의 사용 및 비표준 염기의 비율에 의해 그의 보체로부터 생성되는, 방법.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서, 상기 폴리뉴클레오타이드가 DNA인, 방법.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서, 나노포어에 대한 폴리뉴클레오타이드의 이동은 효소에 의해 제어되는, 방법.
  22. 제21항에 있어서, 효소는 헬리케이즈인, 방법.
  23. 제14항에 있어서, 폴리뉴클레오타이드 훈련 가닥은 하나 초과의 유형의 비표준 중합체 단위를 포함하는, 방법.
  24. 표적 중합체, 또는 그의 일부의 컨센서스 서열을 결정하는 방법으로서,
    복수의 중합체를 제공하는 단계로서, 중합체가 표준 중합체 단위 및 비표준 중합체 단위를 포함하고, 각각의 중합체가 표적 중합체의 영역에 해당하는 중합체 단위의 영역을 포함하는 단계;
    복수의 중합체와 관련된 신호의 측정을 분석하는 단계로서, 측정이 복수의 중합체 단위에 의존하고, 표적 중합체의 중합체 단위가 신호를 변조하고, 비표준 중합체 단위가 상응하는 표준 중합체 단위와 상이하게 신호를 변조하는 단계; 및
    복수의 중합체의 분석된 일련의 측정으로부터 컨센서스 서열을 결정하는 단계를 포함하는, 방법.
  25. 제24항에 있어서, 일련의 측정을 분석하는 것은 비표준 중합체 단위의 측정을 각각의 상응하는 표준 중합체 단위의 측정으로 간주하는 기계 학습 기술을 포함하는, 방법.
  26. 제24항에 있어서, 분석에서 확인된 비표준 중합체 단위는 각각의 상응하는 표준 중합체 단위의 측정으로서 비표준 중합체 단위의 측정으로서 추가로 또는 대안적으로 유지되는, 방법.
  27. 제24항 내지 제26항 중 어느 한 항에 있어서, 비표준 뉴클레오타이드는 상응하는 표준 염기 대신 폴리뉴클레오타이드에 도입되는, 방법.
  28. 제24항 내지 제26항 중 어느 한 항에 있어서, 폴리뉴클레오타이드 가닥 중 하나 이상은 각각 4개 이상의 상이한 유형의 비표준 염기를 포함하는, 방법.
  29. 제24항 내지 제26항 중 어느 한 항에 있어서, 비표준 염기를 폴리뉴클레오타이드 가닥에 도입하는 단계를 추가로 포함하는, 방법.
  30. 제25항 내지 제29항 중 어느 한 항에 있어서, 하나 이상의 유형의 비표준 염기가 각각 하나 이상의 상응하는 표준 염기로 대체된 것, 컨센서스 서열의 추정이 제공되는 것, 여기서 하나 이상의 유형의 비표준 염기가 상응하는 하나 이상의 유형의 표준 염기로 결정되는 것을 제외하고는, 뉴클레오타이드 영역 중의 하나 이상의 비표준 염기의 존재와 관련된 측정을 동등한 영역의 측정으로 간주하기 위해 훈련된 기계 학습 기술을 사용하여 일련의 측정이 분석되는, 방법.
  31. 제24항 내지 제30항 중 어느 한 항에 있어서, 둘 이상의 유형의 비표준 중합체 단위가 폴리뉴클레오타이드 가닥 중 하나 이상에 도입되는, 방법.
  32. 제24항 내지 제31항 중 어느 한 항에 있어서, 각각의 폴리뉴클레오타이드 가닥은 30% 내지 80% 비표준 중합체 단위를 포함하는, 방법.
  33. 제24항 내지 제31항 중 어느 한 항에 있어서, 나노포어에 대한 중합체 단위의 이동 중에 일련의 측정이 수행되는, 방법.
  34. 제1항 내지 제33항 중 어느 한 항에 있어서, 상기 표적 중합체는
    원래 중합체의 주형 또는 보체로부터 유도되고, 표적 중합체의 상기 주형 또는 보체는 중합효소 필-인(fill-in)에 대해 3' 또는 5' 연결을 가지고, 표적 중합체의 주형, 보체 또는 중합효소 필-인 중 적어도 하나는 표준 및 비표준 중합체 단위를 포함하는, 방법.
  35. 제34항, 제1항 내지 제34항 중 어느 한 항에 있어서, 비표준 염기는 비-결정적으로 표적 중합체에 통합되는, 방법.
  36. 제1항 내지 제35항 중 어느 한 항에 있어서, 하나 이상의 상이한 유형의 하나 이상의 비표준 염기를 포함하는 폴리뉴클레오타이드는 중합효소 및 비표준 염기의 비율을 사용하여 그의 주형 또는 보체로부터 생성되는, 방법.
  37. 제36항에 있어서, 생성된 폴리뉴클레오타이드는 2개의 헤어핀 어댑터를 통해 상응하는 주형 또는 보체에 공유적으로 부착되며, 생성된 작제물은 원형인, 방법.
  38. 제37항에 있어서, 2개의 헤어핀 어댑터는 비대칭인, 방법.
  39. 제1항 내지 제38항 중 어느 한 항에 있어서, 중합체는 폴리뉴클레오타이드이고, 중합체 단위는 뉴클레오타이드 염기이며, 표적 폴리뉴클레오타이드는 중합효소 및 비표준 염기의 비율을 사용하여 원형 작제물로부터 생성된 주형 폴리뉴클레오타이드 가닥의 반복 섹션을 포함하는, 방법.
  40. 제39항에 있어서, 표적 폴리뉴클레오타이드는 주형 폴리뉴클레오타이드 가닥 및 보체 폴리뉴클레오타이드의 반복 교번 섹션을 포함하는, 방법.
  41. 제37항에 있어서, 표적 폴리뉴클레오타이드는 중합효소 및 비표준 염기의 비율을 사용하여 원형 작제물로부터 생성되는, 방법.
  42. 제19항에 있어서, 보체는 이중 가닥 폴리뉴클레오타이드의 반대쪽 말단에 어댑터를 공유적으로 부착하는 단계; 및 이중 가닥 폴리뉴클레오타이드를 분리하여 각각 한쪽 말단에 어댑터 또는 양쪽 말단에 어댑터를 포함하는 보체 가닥을 제공하는 단계 중 적어도 하나에 의해 제조되는, 방법.
KR1020217006275A 2018-09-04 2019-09-04 중합체 서열을 결정하는 방법 KR20210055690A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1814369.3 2018-09-04
GBGB1814369.3A GB201814369D0 (en) 2018-09-04 2018-09-04 Method for determining a polymersequence
PCT/GB2019/052456 WO2020049293A1 (en) 2018-09-04 2019-09-04 Method for determining a polymer sequence

Publications (1)

Publication Number Publication Date
KR20210055690A true KR20210055690A (ko) 2021-05-17

Family

ID=63921006

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217006275A KR20210055690A (ko) 2018-09-04 2019-09-04 중합체 서열을 결정하는 방법

Country Status (7)

Country Link
US (1) US20220213541A1 (ko)
EP (1) EP3847278A1 (ko)
JP (1) JP7408665B2 (ko)
KR (1) KR20210055690A (ko)
CN (1) CN112703256A (ko)
GB (1) GB201814369D0 (ko)
WO (1) WO2020049293A1 (ko)

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6087099A (en) 1997-09-08 2000-07-11 Myriad Genetics, Inc. Method for sequencing both strands of a double stranded DNA in a single sequencing reaction
US6267872B1 (en) 1998-11-06 2001-07-31 The Regents Of The University Of California Miniature support for thin films containing single channels or nanopores and methods for using same
US6627067B1 (en) 1999-06-22 2003-09-30 President And Fellows Of Harvard College Molecular and atomic scale evaluation of biopolymers
WO2005124888A1 (en) 2004-06-08 2005-12-29 President And Fellows Of Harvard College Suspended carbon nanotube field effect transistor
US20080113833A1 (en) 2006-11-15 2008-05-15 Francisco Fernandez Methods of playing soccer games
CA2684801C (en) * 2007-04-04 2017-10-10 The Regents Of The University Of California Compositions, devices, systems, and methods for using a nanopore
GB0713402D0 (en) 2007-07-11 2007-08-22 Cardiff & Vale Nhs Trust A method of diagnosing a condition using a neural network
EP3540436B1 (en) 2007-09-12 2023-11-01 President And Fellows Of Harvard College High-resolution molecular sensor
GB0724736D0 (en) 2007-12-19 2008-01-30 Oxford Nanolabs Ltd Formation of layers of amphiphilic molecules
US8486630B2 (en) * 2008-11-07 2013-07-16 Industrial Technology Research Institute Methods for accurate sequence data and modified base position determination
EP2391655B1 (en) 2009-01-30 2017-10-11 Oxford Nanopore Technologies Limited Hybridization linkers
GB0905140D0 (en) 2009-03-25 2009-05-06 Isis Innovation Method
AU2010240670B2 (en) 2009-04-20 2015-08-20 Oxford Nanopore Technologies Limited Lipid bilayer sensor array
CA2772789C (en) 2009-09-18 2018-10-30 President And Fellows Of Harvard College Bare single-layer graphene membrane having a nanopore enabling high-sensitivity molecular detection and analysis
WO2011067559A1 (en) 2009-12-01 2011-06-09 Oxford Nanopore Technologies Limited Biochemical analysis instrument
US8828211B2 (en) 2010-06-08 2014-09-09 President And Fellows Of Harvard College Nanopore device with graphene supported artificial lipid membrane
CN103392008B (zh) 2010-09-07 2017-10-20 加利福尼亚大学董事会 通过持续性酶以一个核苷酸的精度控制dna在纳米孔中的移动
WO2012107778A2 (en) 2011-02-11 2012-08-16 Oxford Nanopore Technologies Limited Mutant pores
CN103842519B (zh) 2011-04-04 2018-02-06 哈佛大学校长及研究员协会 通过局部电位测量进行的纳米孔感测
AU2012288629B2 (en) 2011-07-25 2017-02-02 Oxford Nanopore Technologies Limited Hairpin loop method for double strand polynucleotide sequencing using transmembrane pores
JP6457811B2 (ja) 2011-09-23 2019-01-23 オックスフォード ナノポール テクノロジーズ リミテッド ポリマー単位を含むポリマーの解析
GB201120910D0 (en) 2011-12-06 2012-01-18 Cambridge Entpr Ltd Nanopore functionality control
EP3736339B1 (en) 2012-02-16 2022-07-27 Oxford Nanopore Technologies plc Analysis of measurements of a polymer
EP2836506B1 (en) 2012-04-10 2017-04-19 Oxford Nanopore Technologies Limited Mutant lysenin pores
GB2517875A (en) * 2012-06-08 2015-03-04 Pacific Biosciences California Modified base detection with nanopore sequencing
US20140006308A1 (en) 2012-06-28 2014-01-02 Google Inc. Portion-by-portion feedback for electronic books
GB201313121D0 (en) 2013-07-23 2013-09-04 Oxford Nanopore Tech Ltd Array of volumes of polar medium
WO2014064444A1 (en) 2012-10-26 2014-05-01 Oxford Nanopore Technologies Limited Droplet interfaces
AU2014312020B2 (en) * 2013-08-30 2018-11-01 Illumina, Inc. Selective modification of polymer subunits to improve nanopore-based analysis
GB201403096D0 (en) * 2014-02-21 2014-04-09 Oxford Nanopore Tech Ltd Sample preparation method
WO2015140535A1 (en) 2014-03-21 2015-09-24 Oxford Nanopore Technologies Limited Analysis of a polymer from multi-dimensional measurements
KR20170042794A (ko) 2014-09-01 2017-04-19 브이아이비 브이지더블유 돌연변이체 csgg 포어
GB201508669D0 (en) 2015-05-20 2015-07-01 Oxford Nanopore Tech Ltd Methods and apparatus for forming apertures in a solid state membrane using dielectric breakdown
EP3535404A2 (en) * 2016-11-07 2019-09-11 Ibis Biosciences, Inc. Modified nucleic acids for nanopore analysis
US10011872B1 (en) * 2016-12-22 2018-07-03 10X Genomics, Inc. Methods and systems for processing polynucleotides
GB2559319B (en) * 2016-12-23 2019-01-16 Cs Genetics Ltd Reagents and methods for the analysis of linked nucleic acids

Also Published As

Publication number Publication date
US20220213541A1 (en) 2022-07-07
JP7408665B2 (ja) 2024-01-05
WO2020049293A1 (en) 2020-03-12
JP2021534831A (ja) 2021-12-16
CN112703256A (zh) 2021-04-23
EP3847278A1 (en) 2021-07-14
GB201814369D0 (en) 2018-10-17

Similar Documents

Publication Publication Date Title
JP7512218B2 (ja) ポリマー単位を含むポリマーの解析
CN110546655B (zh) 纳米孔测量结果的机器学习分析
Wang et al. Nanopore sequencing technology, bioinformatics and applications
US11959906B2 (en) Analysis of measurements of a polymer
US11085077B2 (en) Analysis of a polynucleotide via a nanopore system
JP7277054B2 (ja) ホモポリマーコード化核酸メモリ
US9051609B2 (en) Biopolymer Sequencing By Hybridization of probes to form ternary complexes and variable range alignment
JP2023126856A (ja) 機械学習技術を使用するナノ細孔シグナルの分析
US20170096703A1 (en) Analysis of a polymer from multi-dimensional measurements
EP4014238B1 (en) Multiplex similarity search in dna data storage
CN118120017A (zh) 纳米孔测量信号分析
JP7408665B2 (ja) ポリマー配列を決定する方法
Brinkerhoff Getting the most out of nanopores
Rand Methods for Analysis of Nanopore DNA Sequencing Data
Nygren Investigations into practical DNA computing

Legal Events

Date Code Title Description
A201 Request for examination