KR20220019778A - 머신 학습을 이용한 단백질 식별을 위한 기법들 및 관련된 시스템들 및 방법들 - Google Patents

머신 학습을 이용한 단백질 식별을 위한 기법들 및 관련된 시스템들 및 방법들 Download PDF

Info

Publication number
KR20220019778A
KR20220019778A KR1020227000689A KR20227000689A KR20220019778A KR 20220019778 A KR20220019778 A KR 20220019778A KR 1020227000689 A KR1020227000689 A KR 1020227000689A KR 20227000689 A KR20227000689 A KR 20227000689A KR 20220019778 A KR20220019778 A KR 20220019778A
Authority
KR
South Korea
Prior art keywords
data
learning model
machine learning
amino acids
training
Prior art date
Application number
KR1020227000689A
Other languages
English (en)
Inventor
마이클 메이어
브라이언 리드
즈줘 장
사브리나 라시드
브래들리 로버트 패리
Original Assignee
퀀텀-에스아이 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀀텀-에스아이 인코포레이티드 filed Critical 퀀텀-에스아이 인코포레이티드
Publication of KR20220019778A publication Critical patent/KR20220019778A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0445
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • G06N3/0481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • G06N7/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Physiology (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 명세서에서 설명된 것은 단백질 서열화 디바이스에 의해 수집된 데이터를 이용하여 폴리펩티드들을 식별하기 위한 시스템들 및 기법들이다. 단백질 서열화 디바이스는 폴리펩티드의 아미노산들과 시약들의 결합 상호작용들 동안에 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 데이터를 수집할 수 있다. 광 방출들은 발광성 표지들에 대한 여기 에너지의 인가로부터 기인할 수 있다. 디바이스는 폴리펩티드를 식별하기 위하여 이용될 수 있는 출력을 획득하기 위하여 데이터를 훈련된 머신 학습 모델에 대한 입력으로서 제공할 수 있다. 출력은 폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 위치에서 존재할 하나 이상의 우도들을 표시할 수 있다. 출력은 단백질을 특정하는 아미노산 서열에 정합될 수 있다.

Description

머신 학습을 이용한 단백질 식별을 위한 기법들 및 관련된 시스템들 및 방법들
본 개시내용은 일반적으로 단백질(protein)들의 식별에 관한 것이다. 단백질체학(proteomics)은 생물학적 시스템들의 연구에서 유전체학(genomics) 및 전사체학(transcriptomics)에 대한 중요하고 필요한 보완으로서 등장하였다. 개별적인 유기체의 단백질체학적 분석은 세포 프로세스들 및 응답 패턴들에 대한 통찰력을 제공할 수 있고, 이는 개선된 진단적 및 치료적 전략들을 초래한다. 단백질 구조, 조성, 및 변형의 복잡도는 단백질들의 식별 시에 도전들을 제시한다.
본 명세서에서 설명된 것은 단백질 서열화 디바이스(protein sequencing device)에 의해 수집된 데이터를 이용하여 단백질들을 식별하기 위한 시스템들 및 기법들이다. 단백질 서열화 디바이스는 단백질의 아미노산(amino acid)들과 시약(reagent)들의 결합 상호작용(binding interaction)들을 위한 데이터를 수집할 수 있다. 예를 들어, 데이터는 발광성 표지(luminescent label)들로의 여기 에너지의 인가로부터 기인하는 광 방출들로부터 검출된 데이터를 포함할 수 있다. 디바이스는 폴리펩티드(polypeptide)를 식별하기 위하여 이용될 수 있는 출력을 획득하기 위하여 데이터를 훈련된 머신 학습 모델(trained machine learning model)에 대한 입력으로서 제공할 수 있다. 출력은 폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 위치에서 존재할 하나 이상의 우도(likelihood)들을 표시할 수 있다. 출력은 단백질을 특정하는 아미노산 서열에 정합(match)될 수 있다.
일부 양태들에 따르면, 폴리펩티드를 식별하기 위한 방법이 제공되고, 방법은 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 데이터를 액세스하는 것, 폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 위치에서 존재할 하나 이상의 우도들을 표시하는 출력을 획득하기 위하여, 데이터를 훈련된 머신 학습 모델에 대한 입력으로서 제공하는 것, 및 훈련된 머신 학습 모델로부터 획득된 출력에 기초하여 폴리펩티드를 식별하는 것을 수행하기 위하여 적어도 하나의 컴퓨터 하드웨어 프로세서를 이용하는 단계를 포함한다.
일부 양태들에 따르면, 폴리펩티드를 식별하기 위한 시스템이 제공되고, 시스템은 적어도 하나의 프로세서, 및 명령들을 저장하는 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체를 포함하고, 명령들은, 적어도 하나의 프로세서에 의해 실행될 때, 적어도 하나의 프로세서로 하여금 방법을 수행하게 하고, 방법은 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 데이터를 액세스하는 단계, 폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 위치에서 존재할 하나 이상의 우도들을 표시하는 출력을 획득하기 위하여, 데이터를 훈련된 머신 학습 모델에 대한 입력으로서 제공하는 단계, 및 훈련된 머신 학습 모델로부터 획득된 출력에 기초하여 폴리펩티드를 식별하는 단계를 포함한다.
일부 양태들에 따르면, 명령들을 저장하는 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체가 제공되고, 명령들은, 적어도 하나의 프로세서에 의해 실행될 때, 적어도 하나의 프로세서로 하여금 방법을 수행하게 하고, 방법은 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 데이터를 액세스하는 단계, 폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 위치에서 존재할 하나 이상의 우도들을 표시하는 출력을 획득하기 위하여, 데이터를 훈련된 머신 학습 모델에 대한 입력으로서 제공하는 단계, 및 훈련된 머신 학습 모델로부터 획득된 출력에 기초하여 폴리펩티드를 식별하는 단계를 포함한다.
일부 양태들에 따르면, 폴리펩티드들의 아미노산들을 식별하기 위한 머신 학습 모델을 훈련시키는 방법이 제공되고, 방법은 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 훈련 데이터를 액세스하는 것, 및 폴리펩티드들의 아미노산들을 식별하기 위한 훈련된 머신 학습 모델을 획득하기 위하여 훈련 데이터를 이용하여 머신 학습 모델을 훈련시키는 것을 수행하기 위하여 적어도 하나의 컴퓨터 하드웨어 프로세서를 이용하는 단계를 포함한다.
일부 양태들에 따르면, 폴리펩티드들의 아미노산들을 식별하기 위한 머신 학습 모델을 훈련시키기 위한 시스템이 제공되고, 시스템은 적어도 하나의 프로세서, 및 명령들을 저장하는 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체를 포함하고, 명령들은, 적어도 하나의 프로세서에 의해 실행될 때, 적어도 하나의 프로세서로 하여금, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 훈련 데이터를 액세스하는 것, 및 폴리펩티드들의 아미노산들을 식별하기 위한 훈련된 머신 학습 모델을 획득하기 위하여 훈련 데이터를 이용하여 머신 학습 모델을 훈련시키는 것을 수행하게 한다.
일부 양태들에 따르면, 명령들을 저장하는 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체가 제공되고, 명령들은, 적어도 하나의 프로세서에 의해 실행될 때, 적어도 하나의 프로세서로 하여금, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 훈련 데이터를 액세스하는 것, 및 폴리펩티드들의 아미노산들을 식별하기 위한 훈련된 머신 학습 모델을 획득하기 위하여 훈련 데이터를 이용하여 머신 학습 모델을 훈련시키는 것을 수행하게 한다.
상기한 장치 및 방법 실시예들은 위에서 또는 이하에서 더 상세하게 설명된 양태들, 특징들, 및 액트들의 임의의 적당한 조합으로 구현될 수 있다. 본 교시내용들의 이러한 그리고 다른 양태들, 실시예들, 및 특징들은 첨부 도면들과 함께 다음의 설명으로부터 더 완전히 이해될 수 있다.
출원의 다양한 양태들 및 실시예들은 다음의 도면들을 참조하여 설명될 것이다. 도면들은 반드시 일정한 비율로 그려지지는 않는다는 것이 인식되어야 한다. 다수의 도면들에서 출현하는 항목들은 이들이 출현하는 모든 도면들에서 동일한 참조 번호에 의해 표시된다. 명확함의 목적들을 위하여, 매 컴포넌트가 매 도면에서 표기되지 않을 수도 있다.
도 1a는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 하나 이상의 유형들의 아미노산들과 선택적으로 결합하는 표지화된 효소(labeled enzyme)들 및 표지화된 압타머(labeled aptamer)들을 포함하는 표지화된 친화도 시약(labeled affinity reagent)들의 일 예의 구성들을 도시하고;
도 1b는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 표지화된 친화도 시약들을 이용하는 폴리펩티드 서열화의 분해-기반 프로세스(degradation-based process)를 도시하고;
도 1c는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 표지화된 폴리펩티드를 이용하는 폴리펩티드 서열화의 프로세스를 도시하고;
도 2a 내지 도 2b는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 발광성 표지들로 표지화된 친화도 시약들 사이의 연관성 이벤트들로부터의 광 방출에 의해 생성된 일련의 신호 펄스들을 검출하는 것에 의한 폴리펩티드 서열화를 예시하고;
도 2c는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 반복적 말단 아미노산(terminal amino acid) 검출 및 분열(cleavage)에 의한 폴리펩티드 서열화의 예를 도시하고;
도 2d는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 상이한 유형의 말단 아미노산을 각각 선택적으로 결합하고 분열시키는 표지화된 엑소펩티다제(exopeptidase)들을 이용하는 실시간 폴리펩티드 서열화의 예를 도시하고;
도 3은 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 표지화된 친화도 시약들 및 표지화된 비-특정적(non-specific) 엑소펩티다제와 말단 아미노산들의 결합 상호작용들을 평가하는 것에 의한 실시간 폴리펩티드 서열화의 예를 도시하고;
도 4는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 표지화된 친화도 시약들 및 표지화된 비-특정적 엑소펩티다제와 말단 및 내부 아미노산들의 결합 상호작용들을 평가하는 것에 의한 실시간 폴리펩티드 서열화의 예를 도시하고;
도 5a는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 본 명세서에서 설명된 기술의 양태들이 구현될 수 있는 예시적인 시스템을 도시하고;
도 5b 내지 도 5c는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 도 5a에서 도시된 단백질 서열화 디바이스(502)의 컴포넌트들을 도시하고;
도 6a는 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 아미노산들을 식별하기 위한 머신 학습 모델을 훈련시키기 위한 일 예의 프로세스이고;
도 6b는 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 폴리펩티드를 식별하기 위한 도 6a의 프로세스로부터 획득된 머신 학습 모델을 이용하기 위한 일 예의 프로세스이고;
도 7은 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 머신 학습 모델에 대한 입력을 제공하기 위한 일 예의 프로세스이고;
도 8은 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 폴리펩티드를 식별할 시의 이용을 위한 머신 학습 모델로부터 획득된 출력의 예이고;
도 9a는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 아미노산들과 시약들의 결합 상호작용들로부터 획득될 수 있는 예시적인 데이터를 도시하고;
도 9b는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 도 9a의 데이터를 배열하기 위한 일 예의 데이터 구조를 도시하고;
도 10a는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 머신 학습 모델의 클러스터(cluster)들의 식별을 위한 클러스터링된 데이터 포인트들의 도표를 도시하고;
도 10b는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 도 10a의 클러스터링된 데이터 포인트들로부터 식별된 클러스터들의 도표를 도시하고;
도 10c는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 도 10a의 클러스터들의 각각을 위한 일 예의 가우시안 혼합 모델(Gaussian mixture model)(GMM)들의 도표를 도시하고;
도 11은 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 아미노산들을 식별하기 위한 예시적인 콘볼루션 신경망(convolutional neural network)(CNN)의 구조이고;
도 12는 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 아미노산들을 식별하기 위한 예시적인 연결주의 시간적 분류(connectionist temporal classification)(CTC)-피팅된 모델(fitted model)의 블록도이고;
도 13은 본 명세서에서 설명된 기술의 일부 실시예들을 구현하기 위하여 이용될 수 있는 예시적인 컴퓨팅 디바이스의 블록도이고;
도 14a 내지 도 14c는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 신호 트레이스(signal trace)를 위한 웨이블렛 계수(wavelet coefficient)들을 계산함으로써 관심 영역(region of interest)(ROI)들을 식별하기 위한 예시적인 접근법을 도시하고;
도 15는 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 위에서 개요가 서술된 웨이블렛 접근법을 이용하여 ROI들을 식별하는 방법의 플로우차트이고;
도 16a 내지 도 16b는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 알려진 친화도 시약들로부터 생성된 데이터를 파라미터화된 분포로 피팅(fitting)하기 위한 예시적인 접근법들을 도시하고;
도 17a 내지 도 17b는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 펄스 기간 값들이 3 개의 지수 함수(exponential function)들의 합으로 피팅되고, 각각의 맞추어진 분포는 보편적인 지수 함수를 포함하는 접근법을 도시하고;
도 18은 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 일부 실시예들에 따른, 샘플 웰(sample well)로부터의 광 방출들을 측정함으로써 획득된 데이터를 표현하는 다수의 신호 트레이스들을 도시하고;
도 19a 내지 도 19e는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 3 개의 아미노산들을 위한 신호 트레이스들에 기초하여 GMM-기반 머신 학습 모델을 훈련시키는 프로세스를 도시하고; 그리고
도 20a 내지 도 20d는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 아미노산들을 식별하기 위한 2-단계 접근법을 도시한다.
발명자들은 단백질들을 식별하기 위하여 머신 학습 기법들을 이용하는 단백질 식별 시스템을 개발하였다. 일부 실시예들에서, 단백질 식별 시스템은: (1) 실시간 단백질 서열화 디바이스를 이용하여 단백질의 폴리펩티드에 대한 데이터를 수집하고; (2) 어떤 아미노산들이 각자의 위치들에서 폴리펩티드의 일부일 확률들을 식별하기 위하여 머신 학습 모델 및 수집된 데이터를 이용하고; (3) 단백질을 식별하기 위하여 식별된 확률들을 "확률적 지문(probabilistic fingerprint)"으로서 이용함으로써 동작한다. 일부 실시예들에서, 단백질의 폴리펩티드에 대한 데이터는 아미노산들과 선택적으로 결합하는 시약들을 이용하여 획득될 수 있다. 예로서, 시약들 및/또는 아미노산들은 여기 에너지의 인가에 응답하여 광을 방출하는 발광성 표지들(예컨대, 발광성 분자(luminescent molecule)들)로 표지화될 수 있다. 이 예에서, 단백질 서열화 디바이스는 샘플에서의 아미노산들과 시약들의 결합 상호작용들 동안에 여기 에너지를 단백질(예컨대, 폴리펩티드)의 샘플에 인가할 수 있다. 일부 실시예들에서, 서열화 디바이스에서의 하나 이상의 센서들(예컨대, 광검출기, 전기적 센서, 및/또는 임의의 다른 적당한 유형의 센서)은 결합 상호작용들을 검출할 수 있다. 궁극적으로, 검출된 광 방출들로부터 수십된 및/또는 유도된 데이터는 머신 학습 모델에 제공될 수 있다.
발명자들은 일부 기존의 단백질 식별 시스템들이 폴리펩티드를 식별하기 위하여 폴리펩티드에서의 각각의 아미노산의 식별을 요구한다는 것을 인식하였다. 그러나, 폴리펩티드에서의 각각의 아미노산을 정확하게 식별하는 것은 어렵다. 예를 들어, 제1 표지화된 시약이 제1 아미노산과 선택적으로 결합하는 상호작용으로부터 수집된 데이터는, 2 개의 아미노산들 사이를 차별화하기 위하여 제2 표지화된 시약이 제2 아미노산과 선택적으로 결합하는 상호작용으로부터 수집된 데이터와 충분히 상이하지 않을 수 있다. 발명자들은 기존의 단백질 식별 시스템들과 달리, 단백질에서의 각각의 아미노산의 식별을 요구하지 않는(그러나 배제하지는 않는) 단백질 식별 시스템을 개발함으로써 이 문제를 해결하였다.
본 명세서에서 지칭된 바와 같이, 폴리펩티드는 단백질의 폴리펩티드, 단백질의 변형된 버전, 돌연변이된 단백질(mutated protein), 융합 단백질(fusion protein), 또는 그 파편(fragment)을 포함할 수 있다. 일부 실시예들은 특정한 유형의 단백질로 제한되지 않는다. 폴리펩티드는 하나 이상의 펩티드들(또한, "펩티드 파편들"로서 지칭됨)을 포함할 수 있다.
본 명세서에서 설명된 일부 실시예들은 발명자들이 기존의 단백질 식별 시스템들로 인식한 위에서 설명된 쟁점들의 전부를 해결한다. 그러나, 본 명세서에서 설명된 모든 실시예가 이 쟁점들의 모든 것을 해결하는 것은 아니라는 것이 인식되어야 한다. 또한, 본 명세서에서 설명된 기술의 실시예들은 기존의 단백질 식별 시스템들의 위에서 논의된 쟁점들을 해결하는 것 이외의 목적들을 위하여 이용될 수 있다는 것이 인식되어야 한다.
일부 실시예들에서, 단백질 식별 시스템은 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들(예컨대, 검출된 광 방출들, 전기적 신호들, 및/또는 임의의 다른 유형의 신호들)을 위한 데이터를 (예컨대, 서열화 디바이스의 센서 부분에 의해) 액세스할 수 있다. 단백질 식별 시스템은 각자의 출력을 획득하기 위하여 (프리-프로세싱을 갖거나 갖지 않는) 액세스된 데이터를 머신 학습 모델에 대한 입력으로서 제공할 수 있다. 출력은 폴리펩티드에서의 다수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 위치에서 존재할 하나 이상의 우도들을 표시할 수 있다. 일부 실시예들에서, 하나 이상의 각자의 아미노산들이 위치에서 존재할 하나 이상의 우도들은 제1 아미노산이 위치에서 존재할 제1 우도; 및 제2 아미노산이 위치에서 존재할 제2 우도를 포함한다. 다수의 위치들은 폴리펩티드 내에서의 상대적인 위치들(예컨대, 다른 출력들에 대한 위치들) 및/또는 폴리펩티드 내에서의 절대적인 위치들을 포함할 수 있다. 출력은 예를 들어, 다수의 위치들의 각각에 대하여, 상이한 유형들의 아미노산들이 위치에서 존재할 확률들을 식별할 수 있다. 단백질 식별 시스템은 폴리펩티드를 식별하기 위하여 머신 학습 모델의 출력을 이용할 수 있다.
일부 실시예들에서, 단백질 식별 시스템은 폴리펩티드가 대응하는 단백질을 식별함으로써 폴리펩티드를 식별하도록 구성될 수 있다. 예를 들어, 단백질 식별 시스템은 폴리펩티드를 (예컨대, 알려진 단백질들의 데이터베이스에서 저장된) 단백질들의 미리 결정된 세트로부터의 단백질에 정합할 수 있다. 일부 실시예들에서, 단백질 식별 시스템은 획득된 출력을 각자의 단백질들과 연관된 다수의 아미노산 서열들 중의 하나에 정합함으로써 폴리펩티드가 대응하는 단백질을 식별하도록 구성될 수 있다. 예로서, 단백질 식별 시스템은 출력을 UniProt 데이터베이스 및/또는 인간 프로테옴 프로젝트(Human Proteome Project)(HPP) 데이터베이스에서 저장된 아미노산 서열에 정합할 수 있다. 일부 실시예들에서, 단백질 식별 시스템은 (1) 머신 학습 모델로부터 획득된 출력에 기초하여 은닉된 마코브 모델(hidden Markov model)(HMM)을 생성하고; (2) HMM을 아미노산 서열에 정합함으로써, 출력을 아미노산 서열에 정합하도록 구성될 수 있다. 예로서, 단백질 식별 시스템은 HMM이 정합된 아미노산 서열로서 가장 근접하게 정렬하는 UniProt 데이터베이스로부터의 아미노산 서열을 식별할 수 있다. 정합된 아미노산 서열은 폴리펩티드가 그 일부를 형성하는 단백질을 특정할 수 있다. 일부 실시예들에서, 단백질 식별 시스템은 획득된 출력을 데이터베이스에서의 다수의 아미노산 서열들에 정합함으로써 머신 학습 모델로부터 획득된 출력에 기초하여 폴리펩티드를 식별하도록 구성될 수 있다. 예를 들어, 단백질 식별 시스템은 머신 학습 모델로부터 획득된 출력이 데이터베이스에서의 제1 아미노산 서열 및 제2 아미노산 서열과 정렬하는 것으로 결정할 수 있다. 일부 실시예들에서, 단백질 식별 시스템은 폴리펩티드가 데이터베이스에서의 각자의 하나 이상의 아미노산 서열들과 정렬할 우도들을 식별함으로써 훈련된 머신 학습 모델로부터 획득된 출력에 기초하여 폴리펩티드를 식별하도록 구성될 수 있다. 예를 들어, 단백질 식별 시스템은 폴리펩티드가 제1 아미노산 서열과 정렬할 50 % 확률, 및 폴리펩티드가 제2 아미노산 서열과 정렬할 50 % 확률이 있는 것으로 결정할 수 있다.
일부 실시예들에서, 단백질 식별 시스템은 폴리펩티드가 그 일부일 수 있는 하나 이상의 단백질들을 제거함으로써 훈련된 머신 학습 모델로부터 획득된 출력에 기초하여 폴리펩티드를 식별하도록 구성될 수 있다. 단백질 식별 시스템은 머신 학습 모델로부터 획득된 출력을 이용하여, 폴리펩티드가 하나 이상의 단백질들의 일부가 되는 것이 가능하지 않은 것으로 결정하도록 구성될 수 있어서, 이에 따라, 후보 단백질들의 세트로부터 단백질(들)을 제거할 수 있다. 예를 들어, 단백질 식별 시스템은: (1) 머신 학습 모델로부터 획득된 출력을 이용하여, 폴리펩티드가 하나 이상의 아미노산들의 세트를 포함하는 것으로 결정할 수 있고; (2) 아미노산(들)의 세트를 포함하지 않는 데이터베이스(예컨대, Uniprot 및/또는 HPP)로부터 아미노산 서열들을 제거할 수 있다.
일부 실시예들에서, 단백질 식별 시스템은 폴리펩티드의 하나 이상의 부분들(예컨대, 펩티드들)의 서열을 획득하기 위하여 새롭게(de novo) 서열화에 의해 폴리펩티드를 식별하도록 구성될 수 있다. 단백질 식별 시스템은 폴리펩티드의 펩티드들의 서열을 획득하기 위하여 머신 학습 모델의 출력을 이용하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템은 폴리펩티드의 아미노산 서열의 부분 또는 전부를 결정함으로써 머신 학습 모델로부터 획득된 출력에 기초하여 폴리펩티드를 식별하도록 구성될 수 있다. 일부 사례들에서, 단백질 식별 시스템은 결정된 서열에서의 하나 이상의 위치들에서 아미노산을 식별하지 않을 수 있다. 예를 들어, 단백질 식별 시스템은 아미노산 서열에서의 하나 이상의 위치들에서의 아미노산들이 식별되지 않는 폴리펩티드의 아미노산 서열의 부분 또는 전부를 결정할 수 있다. 일부 사례들에서, 단백질 식별 시스템은 아미노산 서열 또는 그 부분에서의 각각의 위치에서 아미노산을 식별할 수 있다. 일부 실시예들에서, 단백질 식별 시스템은 폴리펩티드의 아미노산 서열의 다수의 부분들을 결정함으로써 머신 학습 모델로부터 획득된 출력에 기초하여 폴리펩티드를 식별하도록 구성될 수 있다. 일부 사례들에서, 단백질 식별 시스템은 폴리펩티드의 아미노산 서열의 비-인접 부분들을 결정할 수 있다. 예를 들어, 단백질 식별 시스템은 아미노산 서열의 제1 부분, 및 제1 부분이 아미노산 서열에서의 적어도 하나의 아미노산에 의해 제2 부분으로부터 분리되는 아미노산 서열의 제2 부분을 결정할 수 있다. 일부 사례들에서, 단백질 식별 시스템은 폴리펩티드의 아미노산 서열의 인접 부분들을 결정할 수 있다. 예를 들어, 단백질 식별 시스템은 제1 및 제2 부분들이 인접한, 아미노산 서열의 제1 부분 및 아미노산 서열의 제2 부분을 결정할 수 있다. 일부 사례들에서, 단백질 식별 시스템은 폴리펩티드의 아미노산 서열의 인접 및 비-인접 부분들의 둘 모두를 결정할 수 있다. 예를 들어, 단백질 식별 시스템은: (1) 제1 및 제2 부분들이 인접 부분들이고; (2) 제3 부분이 아미노산 서열에서의 적어도 하나의 아미노산에 의해 제1 및 제2 부분들로부터 분리되는, 아미노산 서열의 3 개의 부분을 결정할 수 있다.
일부 실시예들에서, 단백질 식별 시스템은 폴리펩티드에서 발생하는 아미노산 서열들의 자연적 패턴을 식별함으로써 펩티드들의 서열을 획득하도록 구성될 수 있다. 예를 들어, 단백질 식별 시스템은 식별된 아미노산 서열이 (예컨대, 데이터베이스에서의) 아미노산 서열들의 자연적 패턴들을 따르는 것으로 결정하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템은 아미노산들의 학습된 패턴을 식별함으로써 펩티드들의 서열을 획득하도록 구성될 수 있다. 예를 들어, 단백질 식별 시스템은 하나 이상의 단백질 데이터베이스들(예컨대, Uniprot 데이터베이스 및/또는 HPP 데이터베이스)로부터 아미노산들의 패턴들을 학습할 수 있다. 단백질 식별 시스템은 아미노산 서열 패턴들이 어느 펩티드들에서 발생할 가능성이 있는지를 학습하고, 펩티드들의 서열을 획득하기 위한 정보를 이용하도록 구성될 수 있다.
일부 실시예들에서, 머신 학습 모델은 폴리펩티드에서의 다수의 위치들의 각각에 대하여, 아미노산이 위치에서 존재할 확률을 다수의 아미노산들의 각각에 대하여 표시하는 확률 분포를 출력하도록 구성될 수 있다. 예로서, 머신 학습 모델은 폴리펩티드에서의 15 개의 위치들의 각각에 대하여, 20 개의 상이한 아미노산들의 각각이 폴리펩티드에서의 위치에서 존재할 확률들을 출력할 수 있다. 일부 실시예들에서, 머신 학습 모델이 출력을 생성하도록 구성되는 폴리펩티드에서의 위치들은 폴리펩티드의 아미노산 서열에서의 실제적인 위치들에 반드시 대응하지 않을 수 있다. 예로서, 머신 학습 모델이 출력을 생성하는 제1 위치는 폴리펩티드의 아미노산 서열에서의 제2 위치에 대응할 수 있고, 머신 학습 모델이 출력을 생성하는 제2 위치는 폴리펩티드의 아미노산 서열에서의 제5 아미노산 위치에 대응할 수 있다.
일부 실시예들에서, 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들을 설명하는 데이터는 복수의 광 강도(light intensity) 값들(예컨대, 시간에 걸쳐 측정된 값들)을 포함할 수 있다. 시간에 걸친 이러한 측정된 광 강도 값들을 표시하는 데이터는 "신호 트레이스"로서 본 명세서에서 지칭되고, 신호 트레이스들의 예시적인 예들은 이하에서 추가로 설명된다. 일부 경우들에는, 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들을 설명하는 데이터가 하나 이상의 광 펄스 기간들, 펄스 폭들, 펄스 강도들, 펄스간 기간, 또는 그 조합들과 같은, 신호 트레이스의 성질들을 설명하는 값들을 포함할 수 있다. 예를 들어, 펄스 기간 값은 아미노산과 시약의 결합 상호작용을 위하여 검출된 신호 펄스의 기간을 표시할 수 있는 반면, 펄스간 기간 값은 결합 상호작용을 위하여 검출된 연속적인 신호 펄스들 사이의 시간의 기간을 표시할 수 있다.
일부 실시예들에서, 단백질 식별 시스템은 다음과 같이 하나 이상의 단백질들 및/또는 폴리펩티드들을 식별하도록 구성될 수 있다. 먼저, 단백질/폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들을 설명하는 데이터는: (1) 데이터의 복수의 부분들을 식별하고 - 각각의 부분은 결합 상호작용들의 각자의 하나에 대응함 -; (2) 부분에 대응하는 출력을 획득하기 위하여 복수의 부분들의 각각의 하나를 훈련된 머신 학습 모델에 대한 입력으로서 제공함으로써, 훈련된 머신 학습 모델로 입력될 수 있다. 데이터의 각각의 부분에 대응하는 머신 학습 모델에 의해 생성된 출력은 하나 이상의 각자의 아미노산들이 폴리펩티드에서의 각자의 위치에서 존재할 하나 이상의 우도들을 표시할 수 있다. 출력은 일부 경우들에 있어서, 데이터의 단일 부분에 기초하여 폴리펩티드 내에서의 단일 위치에 대한 우도들을 표시할 수 있다. 다른 경우들에는, 출력이 데이터의 단일 부분이 폴리펩티드 내에서의 하나 초과의 위치와 연관된다는 것을 표시할 수 있는데, 그 이유는 부분(예컨대, 호모폴리머(homopolymer))에 의해 표현된 연속적인 동일한 아미노산들이 있기 때문이거나, 다수의 구별불가능한 아미노산들이 부분에 의해 표현될 수 있기 때문이다. 후자의 경우, 출력은 하나 초과의 위치에서의 폴리펩티드에서의 아미노산들의 특정 수 및/또는 아이덴티티(identity)에서의 확률적 불확실성을 포함할 수 있다.
일부 실시예들에서, 단백질 식별 시스템은 다음과 같이: (1) (예컨대, 폴리펩티드로부터) 아미노산들 중의 하나 이상의 아미노산의 분열에 대응하는 데이터에서의 하나 이상의 포인트들을 식별하고; (2) 하나 이상의 아미노산들의 분열에 대응하는 식별된 하나 이상의 포인트들에 기초하여 데이터의 복수의 부분들을 식별하여, 결합 상호작용들 중의 하나에 각각 대응하는 데이터의 복수의 부분들을 식별하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템은: (1) 데이터로부터, 발광성 표지들에 의해 결합 상호작용들의 하나 이상의 성질들(예컨대, 펄스 기간, 펄스간 기간, 발광 강도, 및/또는 발광 수명)에 대한 요약 통계(summary statistic)의 값을 결정하고; (2) 적어도 하나의 성질의 값이 임계량만큼 요약 통계(예컨대, 평균)의 값으로부터 이탈하는 데이터에서의 하나 이상의 포인트들을 식별하고; 식별된 하나 이상의 포인트들에 기초하여 데이터의 복수의 부분들을 식별함으로써, 데이터의 복수의 부분들을 식별하도록 구성될 수 있다.
일부 실시예들에서, 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들을 위한 데이터는 (예컨대, 결합 상호작용들로부터 기인하는) 하나 이상의 발광성 표지들에 의한 검출된 광 방출들을 포함할 수 있다. 일부 실시예들에서, 발광성 표지(들)는 시약(들)과 연관될 수 있다. 예로서, 발광성 표지(들)는 시약(들)에 링크되는 분자들일 수 있다. 일부 실시예들에서, 발광성 표지(들)는 폴리펩티드의 적어도 일부 아미노산들과 연관될 수 있다. 예로서, 발광성 표지(들)는 아미노산들의 하나 이상의 클래스(class)들에 링크되는 분자들일 수 있다.
일부 실시예들에서, 결합 상호작용들을 위한 데이터는 결합 상호작용들 동안에 생성될 수 있다. 예를 들어, 서열화 디바이스 센서는 결합 상호작용들이 발생할 때에 결합 상호작용들을 검출할 수 있고, 검출된 상호작용들로부터 데이터를 생성할 수 있다. 일부 실시예들에서, 결합 상호작용들을 위한 데이터는 상호작용들 전 및/또는 후에 생성될 수 있다. 예를 들어, 서열화 디바이스 센서는 결합 상호작용들이 발생하기 전 및/또는 후에 정보를 수집할 수 있고, 수집된 정보를 이용하여 데이터를 생성할 수 있다. 일부 실시예들에서, 결합 상호작용들을 위한 데이터는 상호작용들 전, 그 동안, 그리고 그 후에 생성될 수 있다.
일부 실시예들에서, 결합 상호작용들을 위한 데이터는 발광성 표지(들)에 의한 광 방출들의 발광 강도 값들 및/또는 발광 수명 값들을 포함할 수 있다. 일부 실시예들에서, 데이터는 발광성 표지(들)에 의한 광 방출들의 파장 값들을 포함할 수 있다. 일부 실시예들에서, 데이터는 하나 이상의 광 방출 펄스 기간 값들, 하나 이상의 광 방출 펄스간 기간 값들, 하나 이상의 광 방출 발광 수명 값들, 하나 이상의 광 방출 발광 강도 값들, 및/또는 하나 이상의 광 방출 파장 값들을 포함할 수 있다.
일부 실시예들에서, 발광성 표지들은, 예를 들어, 여기 광의 일련의 펄스들을 포함할 수 있는 여기 광에 응답하여 광을 방출할 수 있다. 예로서, 레이저 방출기는 발광성 표지들이 광을 방출하게 하는 레이저 광을 적용할 수 있다. 발광성 표지들에 의한 광 방출들로부터 수집된 데이터는 여기 광의 다수의 펄스들의 각각에 대하여, 여기 광의 펄스 후의 시간 주기의 일부인 복수의 시간 간격들의 각각에서 검출된 각자의 광자 수(number of photons)를 포함할 수 있다. 광 방출들로부터 수집된 데이터는 위에서 논의된 바와 같은 신호 트레이스를 형성할 수 있다.
일부 실시예들에서, 단백질 식별 시스템은 데이터를 머신 학습 모델에 대한 입력으로서 제공하기 위한 데이터 구조 내로 데이터를 배열하도록 구성될 수 있다. 일부 실시예들에서, 데이터 구조는: (1) 일련의 광 펄스들에서의 제1 광 펄스 후의 제1 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하는 제1 열(column); 및 (2) 일련의 광 펄스들에서의 제2 광 펄스 후의 제2 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하는 제2 열을 포함할 수 있다. 일부 실시예들에서, 데이터 구조는 행(row)들의 각각이 광 펄스들에 대응하는 각자의 시간 간격에서의 광자 수들을 유지하는 행들을 포함할 수 있다. 일부 실시예들에서, 행들 및 열들은 상호 교환될 수 있다. 예로서, 일부 실시예들에서, 데이터 구조는: (1) 일련의 광 펄스들에서의 제1 광 펄스 후의 제1 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하는 제1 열; 및 (2) 일련의 광 펄스들에서의 제2 광 펄스 후의 제2 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하는 제2 열을 포함할 수 있다. 이 예에서, 데이터 구조는 열들의 각각이 광 펄스들에 대응하는 각자의 시간 간격에서의 광자 수들을 유지하는 열들을 포함할 수 있다.
일부 실시예들에서, 단백질 식별 시스템은 이미지에서 데이터를 배열함으로써 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들을 위한 데이터를 훈련된 머신 학습 모델로 입력하도록 구성될 수 있고, 여기서, 이미지의 각각의 픽셀은 다수의 광 펄스들의 광 펄스 후의 시간 주기의 각자의 시간 간격에서 검출된 광자 수를 특정한다. 일부 실시예들에서, 단백질 식별 시스템은 이미지에서 데이터를 배열함으로써 데이터를 훈련된 머신 학습 모델로의 입력으로서 제공하도록 구성될 수 있고, 여기서, 이미지의 제1 픽셀은 다수의 펄스들의 제1 펄스 후의 제1 시간 주기의 제1 시간 간격에서 검출된 제1 광자 수를 특정한다. 일부 실시예들에서, 이미지의 제2 픽셀은 다수의 펄스들의 제1 펄스 후의 제1 시간 주기의 제2 시간 간격에서 검출된 제2 광자 수를 특정한다. 일부 실시예들에서, 이미지의 제2 픽셀은 다수의 펄스들의 제2 펄스 후의 제2 시간 주기의 제1 시간 간격에서의 제2 광자 수를 특정한다.
일부 실시예들에서, 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들을 위한 데이터는 전기적 센서(예컨대, 전류계, 전압 센서 등)에 의해 검출된 전기적 신호들을 포함할 수 있다. 예로서, 단백질 서열화 디바이스는 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들로부터 기인하는 전기적 신호들을 검출하는 하나 이상의 전기적 센서들을 포함할 수 있다. 단백질 식별 시스템은 펄스 기간 값들을 결합 상호작용들을 위하여 검출된 전기적 펄스들의 기간들인 것으로 결정하고, 펄스간 기간들 값들을 결합 상호작용을 위하여 검출된 연속적인 전기적 펄스들 사이의 기간들인 것으로 결정하도록 구성될 수 있다.
일부 실시예들에서, 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들을 위한 데이터는 나노포어 센서(nanopore sensor)를 이용하여 검출될 수 있다. 하나 이상의 프로브들(예컨대, 전기적 프로브들)은 나노포어 내에 내장될 수 있다. 프로브(들)는 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들로부터 기인하는 신호들(예컨대, 전기적 신호들)을 검출할 수 있다. 예로서, 나노포어 센서는 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들로부터 기인하는 전압 및/또는 전기적 전류 변화들을 측정하는 생물학적 나노포어(biological nanopore)일 수 있다. 또 다른 예로서, 나노포어 센서는 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들로부터 기인하는 전압 및/또는 전기적 전류 변화들을 측정하는 솔리드 스테이트 나노포어(solid state nanopore)일 수 있다. 나노포어 센서들의 예들은 International Journal of Advances in Scientific Research, Vol. 3, August 2017에서 출판된 "Nano pore Sequencing Technology: A Review"에서, 그리고 Frontiers in Genetics, Vol. 5, January 2015에서 출판된 "The Evolution of Nanopore Sequencing"에서 설명되고, 둘 모두는 참조로 본 명세서에 편입된다. 일부 실시예들에서, 친화도 시약은 ClpS 단백질일 수 있다. 예를 들어, 친화도 시약은 아그로박테리움 투메파시엔스(Agrobacterium tumefaciens) 또는 시네코코커스 일롱게투스(Synechococcus elongates)로부터의 ClpS1 또는 ClpS2 단백질일 수 있다. 또 다른 예에서, 친화도 시약은 대장균(Escherichia coli), 카울로박터 크레센투스(Caulobacter crescentus), 또는 플라스모듐 팔시파룸(Plasmodium falciparum)으로부터의 ClspS 단백질일 수 있다. 일부 실시예들에서, 친화도 시약은 핵산 압타머(nucleic acid aptamer)일 수 있다.
본 명세서에서 설명된 기술의 양태들은 폴리펩티드의 아미노산들과 시약들의 결합 상호작용들을 위한 데이터를 획득하는 특정한 기법으로 제한되지 않는데, 그 이유는 본 명세서에서 설명된 머신 학습 기법들이 다양한 기법들을 통해 획득된 데이터로 적용될 수 있기 때문이라는 것이 인식되어야 한다.
위에서 설명된 단백질 식별 시스템에 추가적으로, 단백질을 식별 시의 이용을 위한 머신 학습 모델을 훈련시키기 위한 시스템의 실시예들이 또한 본 명세서에서 설명된다. 훈련 시스템은 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 훈련 데이터를 액세스하도록 구성될 수 있다. 훈련 시스템은 폴리펩티드들의 아미노산들을 식별하기 위한 훈련된 머신 학습 모델을 획득하기 위하여 훈련 데이터를 이용하여 머신 학습 모델을 훈련시킬 수 있다. 여기서, 훈련된 머신 학습 모델은 위에서 설명된 바와 같은 단백질 식별 시스템에 제공되고, 단백질 식별 시스템 및 훈련 시스템은 동일한 시스템일 수 있거나, 상이한 시스템들일 수 있다.
일부 실시예들에서, 훈련 시스템은 감독된 학습(supervised learning)을 훈련 데이터에 적용함으로써 머신 학습 모델을 훈련시키도록 구성될 수 있다. 예로서, 훈련 데이터는 훈련 시스템으로 입력될 수 있고, 여기서, 데이터의 다수의 세트들의 각각은 데이터의 세트에 대응하는 결합 상호작용에 관여된 아미노산으로 표지화된다. 일부 실시예들에서, 훈련 시스템은 비감독된 훈련 알고리즘(unsupervised training algorithm)을 훈련 데이터에 적용함으로써 머신 학습 모델을 훈련시키도록 구성될 수 있다. 예로서, 훈련 시스템은 데이터의 분류를 위한 클러스터들을 식별할 수 있다. 클러스터들의 각각은 하나 이상의 아미노산들과 연관될 수 있다. 일부 실시예들에서, 훈련 시스템은 반-감독된 학습 알고리즘(semi-supervised learning algorithm)을 훈련 데이터에 적용함으로써 머신 학습 모델을 훈련시키도록 구성될 수 있다. 비감독된 학습 알고리즘은 비표지화된 훈련 데이터(unlabeled training data)를 표지화하기 위하여 이용될 수 있다. 표지화된 훈련 데이터는 그 다음으로, 감독된 학습 알고리즘을 표지화된 훈련 데이터에 적용함으로써 머신 학습 모델을 훈련시키기 위하여 이용될 수 있다.
일부 실시예들에서, 훈련 데이터는 하나 이상의 펄스 기간 값들, 하나 이상의 펄스간 기간 값들, 및/또는 하나 이상의 발광 수명 값들을 포함할 수 있다.
일부 실시예들에서, 머신 학습 모델은 각각이 하나 이상의 아미노산들과 연관된 다수의 그룹들(예컨대, 클러스터들 또는 클래스들)을 포함할 수 있다. 훈련 시스템은 클래스의 아미노산(들) 사이를 구별하기 위하여 각각의 클래스에 대한 머신 학습 모델을 훈련시키도록 구성될 수 있다. 예로서, 훈련 시스템은 클래스와 연관된 다수의 상이한 아미노산들을 표현하는 클래스들의 각각에 대한 혼합 모델(예컨대, 가우시안 혼합 모델(GMM))을 훈련시킬 수 있다. 머신 학습 모델은 데이터를 클래스로 분류할 수 있고, 그 다음으로, 클래스와 연관된 아미노산들 각각이 데이터에 의해 표현된 결합 상호작용에 관여되었을 우도들의 표시를 출력할 수 있다. 일부 실시예들에서, 머신 학습 모델은 클러스터링 모델을 포함할 수 있고, 여기서, 각각의 클래스는 클러스터링 모델의 클러스터에 의해 정의된다. 클러스터링 모델의 클러스터들의 각각은 하나 이상의 아미노산들과 연관될 수 있다.
일부 실시예들에서, 머신 학습 모델은 심층 학습 모델(deep learning model)일 수 있거나 이를 포함할 수 있다. 일부 실시예들에서, 심층 학습 모델은 콘볼루션 신경망(CNN)일 수 있다. 예로서, 콘볼루션 신경망은 입력 데이터의 세트에 기초하여 아미노산을 식별하도록 훈련될 수 있다. 일부 실시예들에서, 심층 학습 모델은 연결주의 시간적 분류(CTC)-피팅된 신경망(fitted neural network)일 수 있다. CTC-피팅된 신경망은 입력 데이터의 세트에 기초하여 아미노산 서열을 출력하도록 훈련될 수 있다. 예로서, CTC-피팅된 신경망은 아미노산 서열을 식별하는 글자들의 서열을 출력할 수 있다.
일부 실시예들에서, 훈련 시스템은: (1) 데이터의 복수의 부분들을 식별하고 - 각각의 부분은 결합 상호작용들의 각자의 하나에 대응함 -; (2) 데이터의 각각의 하나의 부분에 대응하는 출력을 획득하기 위하여 복수의 부분들의 각각의 하나를 머신 학습 모델에 대한 입력으로서 제공하고; (3) 복수의 부분들에 대응하는 출력들을 이용하여 머신 학습 모델을 훈련시킴으로써, 폴리펩티드의 아미노산들과 시약(들)의 결합 상호작용들을 설명하는 데이터에 기초하여 머신 학습 모델을 훈련시키도록 구성될 수 있다. 일부 실시예들에서, 데이터의 부분에 대응하는 출력은 하나 이상의 각자의 아미노산들이 복수의 위치들의 각자의 하나에서 존재할 하나 이상의 우도들을 표시한다.
일부 실시예들에서, 아미노산들과 시약(들)의 결합 상호작용들을 위하여 획득된 훈련 데이터는 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터의 데이터를 포함한다. 일부 실시예들에서, 발광성 표지(들)는 시약(들)과 연관될 수 있다. 예로서, 발광성 표지(들)는 시약(들)에 링크되는 분자들일 수 있다. 일부 실시예들에서, 발광성 표지(들)는 적어도 일부 아미노산들과 연관될 수 있다. 예로서, 발광성 표지(들)는 아미노산들의 하나 이상의 클래스들에 링크되는 분자들일 수 있다.
일부 실시예들에서, 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 훈련 데이터는 발광 수명 값들, 발광 강도 값들, 및/또는 파장 값들을 포함할 수 있다. 파장 값은 (예컨대, 결합 상호작용 동안에) 발광성 표지에 의해 방출된 광의 파장을 표시할 수 있다. 일부 실시예들에서, 광 방출들은 일련의 광 펄스들에 응답하고, 데이터는 광 펄스들의 적어도 일부의 각각에 대하여, 광 펄스 후의 시간 주기의 일부인 복수의 시간 간격들의 각각에서 검출된 각자의 광자 수(또한, "카운트(count)들"로서 지칭됨)를 포함한다.
일부 실시예들에서, 훈련 시스템은 데이터를, 열들을 가지는 데이터 구조 내로 배열하는 것에 의해 데이터를 머신 학습 모델에 대한 입력으로서 제공함으로써 머신 학습 모델을 훈련시키도록 구성될 수 있고, 여기서: 제1 열은 일련의 광 펄스들에서의 제1 광 펄스 후의 제1 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하고; 제2 열은 일련의 광 펄스들에서의 제2 광 펄스 후의 제2 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지한다. 일부 실시예들에서, 훈련 시스템은 데이터를, 행들을 가지는 데이터 구조 내로 배열하는 것에 의해 데이터를 머신 학습 모델에 대한 입력으로서 제공함으로써 머신 학습 모델을 훈련시키도록 구성될 수 있고, 여기서, 행들의 각각은 적어도 일부 광 펄스들에 대응하는 각자의 시간 간격에서의 광자 수들을 유지한다. 일부 실시예들에서, 데이터 구조의 행들은 열들과 상호 교환될 수 있다.
일부 실시예들에서, 훈련 시스템은 이미지에서 데이터를 배열함으로써 데이터를 머신 학습 모델로의 입력으로서 제공하도록 구성될 수 있고, 여기서, 이미지의 각각의 픽셀은 다수의 광 펄스들 중의 하나 후의 시간 주기의 각자의 시간 간격에서 검출된 광자 수를 특정한다. 일부 실시예들에서, 훈련 시스템은 이미지에서 데이터를 배열함으로써 데이터를 머신 학습 모델에 대한 입력으로서 제공하도록 구성될 수 있고, 여기서, 이미지의 제1 픽셀은 다수의 광 펄스들의 제1 펄스 후의 제1 시간 주기의 제1 시간 간격에서 검출된 제1 광자 수를 특정한다. 일부 실시예들에서, 이미지의 제2 픽셀은 다수의 펄스들의 제1 펄스 후의 제1 시간 주기의 제2 시간 간격에서 검출된 제2 광자 수를 특정한다. 일부 실시예들에서, 이미지의 제2 픽셀은 다수의 펄스들의 제2 펄스 후의 제2 시간 주기의 제1 시간 간격에서의 제2 광자 수를 특정한다.
일부 실시예들에서, 아미노산들과 시약들의 결합 상호작용들을 위한 훈련 데이터는 알려진 단백질들을 위한 전기적 센서(예컨대, 전류계, 및/또는 전압 센서)에 의해 검출된 검출된 전기적 신호들을 포함할 수 있다. 예로서, 단백질 서열화 디바이스는 아미노산들과 시약들의 결합 상호작용들로부터 기인하는 전기적 신호들을 검출하는 하나 이상의 전기적 센서들을 포함할 수 있다.
일부 실시예들은 폴리펩티드의 아미노산들의 식별을 위한 머신 학습 기법들을 사용하지 않을 수 있다. 단백질 식별 시스템은 아미노산들과 시약들의 결합 상호작용들을 위한 데이터를 액세스하고, 폴리펩티드를 식별하기 위하여 액세스된 데이터를 이용하도록 구성될 수 있다. 예로서, 단백질 식별 시스템은 특정 아미노산들에 선택적으로 결합하는 시약들을 이용할 수 있다. 시약들은 또한, "밀접-결합 프로브(tight-binding probe)들"로서 지칭될 수 있다. 단백질 식별 시스템은 어느 시약이 결합 상호작용에 관여되었는지를 결정함으로써 아미노산을 식별하기 위하여 결합 상호작용들의 하나 이상의 성질들(예컨대, 펄스 기간, 펄스간 기간)의 값들을 이용할 수 있다. 일부 실시예들에서, 단백질 식별 시스템은 아미노산에 선택적으로 결합하는 시약과 연관된 발광성 표지를 식별함으로써 아미노산을 식별하도록 구성될 수 있다. 예로서, 단백질 식별 시스템은 펄스 기간 값들 및/또는 펄스간 기간 값들을 이용하여 아미노산을 식별할 수 있다. 또 다른 예로서, 단백질 식별 시스템이 발광성 표지들의 광 방출들을 검출하는 실시예들에서, 단백질 식별 시스템은 광 방출들의 발광 강도 값들 및/또는 발광 수명 값들을 이용하여 아미노산을 식별할 수 있다.
일부 실시예들에서, 단백질 식별 시스템은 머신 학습 기법들을 이용하여 하나 이상의 아미노산들의 제1 세트를, 그리고 머신 학습 기법들을 이용하지 않으면서 하나 이상의 아미노산들의 제2 세트를 식별하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템은 아미노산(들)의 제1 세트의 다수의 아미노산들과 결합하는 시약들을 이용하도록 구성될 수 있다. 이 시약들은 "약한-결합 프로브(weak-binding probe)들"로서 본 명세서에서 지칭될 수 있다. 단백질 식별 시스템은 제1 세트로부터 아미노산을 식별하기 위하여 본 명세서에서 설명된 머신 학습 기법들을 이용하도록 구성될 수 있다. 단백질 식별 시스템은 아미노산(들)의 제2 세트를 위한 밀접-결합 프로브들을 이용하도록 구성될 수 있다. 단백질 식별 시스템은 머신 학습 기법들을 이용하지 않으면서 제2 세트로부터 아미노산을 식별하도록 구성될 수 있다. 예로서, 단백질 식별 시스템은 펄스 기간 값들, 펄스간 기간 값들, 발광 강도 값들, 발광 수명 값들, 파장 값들, 및/또는 그로부터 유도된 값들에 기초하여 제2 세트로부터 아미노산을 식별할 수 있다.
기법들은 주로 단백질들의 식별을 참조하여 본 명세서에서 설명되지만, 일부 실시예들에서, 기법들은 뉴클레오티드(nucleotide)들의 식별을 위하여 이용될 수 있다. 예로서, 본 명세서에서 설명된 기법들은 DNA 및/또는 RNA 샘플을 식별하기 위하여 이용될 수 있다. 단백질 식별 시스템은 친화도 시약들이 식별되어야 하는 핵산 샘플과 혼합되는 분해 반응 동안에 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 데이터를 액세스할 수 있다. 단백질 식별 시스템은 각자의 출력을 획득하기 위하여 (프리-프로세싱을 갖거나 갖지 않는) 액세스된 데이터를 머신 학습 모델에 대한 입력으로서 제공할 수 있다. 출력은 핵산에서의 다수의 위치들의 각각에 대하여, 하나 이상의 각자의 뉴클레오티드들이 핵산의 위치로 편입되었을 하나 이상의 우도들을 표시할 수 있다. 일부 실시예들에서, 하나 이상의 각자의 뉴클레오티드들이 핵산에서의 위치에서 편입되었을 하나 이상의 우도들은 제1 뉴클레오티드가 위치에서 존재할 제1 우도; 및 제2 뉴클레오티드가 위치에서 존재할 제2 우도를 포함한다. 예로서, 출력은 다수의 위치들의 각각에 대하여, 상이한 뉴클레오티드들이 위치에서 존재할 확률들을 식별할 수 있다. 단백질 식별 시스템은 핵산을 식별하기 위하여 머신 학습 모델의 출력을 이용할 수 있다.
일부 실시예들에서, 단백질 식별 시스템은 출력을 각자의 핵산들과 연관된 다수의 뉴클레오티드 서열들 중의 하나에 정합하도록 구성될 수 있다. 예로서, 단백질 식별 시스템은 출력을 GenBank 데이터베이스에서 저장된 뉴클레오티드 서열에 정합할 수 있다. 일부 실시예들에서, 단백질 식별 시스템은 (1) 머신 학습 모델로부터 획득된 출력에 기초하여 HMM을 생성하고; (2) HMM을 뉴클레오티드 서열에 정합함으로써, 출력을 뉴클레오티드 서열에 정합하도록 구성될 수 있다. 예로서, 단백질 식별 시스템은 HMM이 정합된 뉴클레오티드 서열로서 가장 근접하게 정렬하는 GenBank 데이터베이스로부터의 뉴클레오티드 서열을 식별할 수 있다. 정합된 뉴클레오티드 서열은 식별되어야 할 핵산의 아이덴티티(identity)를 특정할 수 있다.
시약들에 의한 서열화
위에서 논의된 바와 같이, 단백질 식별 시스템은 단백질들 및/또는 폴리펩티드들의 아미노산들과 시약(들)의 결합 상호작용들을 설명하는 데이터에 기초하여 하나 이상의 단백질들 및/또는 폴리펩티드들을 식별하도록 구성될 수 있다. 이 섹션에서는, 이러한 데이터를 생성하기 위한 예시적인 접근법이 설명된다.
일부 실시예들에서, 폴리펩티드는 하나 이상의 유형들의 아미노산들과 선택적으로 결합하는 표지화된 친화도 시약과 접촉될 수 있다. 친화도 시약은 또한, "시약"으로서 본 명세서에서 지칭될 수 있다. 일부 실시예들에서, 표지화된 친화도 시약들은 말단 아미노산들과 선택적으로 결합할 수 있다. 본 명세서에서 이용된 바와 같이, 일부 실시예들에서, 말단 아미노산은 폴리펩티드의 아미노-말단 아미노산(amino-terminal amino acid) 또는 폴리펩티드의 카르복시-말단 아미노산(carboxy-terminal amino acid)을 지칭할 수 있다. 일부 실시예들에서, 표지화된 친화도 시약은 다른 유형들의 말단 아미노산들 상에서 하나의 유형의 말단 아미노산과 선택적으로 결합한다. 일부 실시예들에서, 표지화된 친화도 시약은 동일한 유형의 내부 아미노산 상에서 하나의 유형의 말단 아미노산과 선택적으로 결합한다. 또 다른 실시예들에서, 표지화된 친화도 시약은 폴리펩티드의 임의의 포지션(position)에서 하나의 유형의 아미노산, 예컨대, 말단 아미노산 및 내부 아미노산과 동일한 유형의 아미노산과 선택적으로 결합한다.
본 명세서에서 이용된 바와 같이, 아미노산의 "유형"은 20 개의 자연적으로 발생하는 아미노산들 중의 하나의 아미노산, 그 유형들의 서브세트, 20 개의 자연적으로 발생하는 아미노산들 중의 하나의 아미노산의 변형된 변종, 또는 그 비변형된 및/또는 변형된 변종들의 서브세트를 지칭할 수 있다. 변형된 아미노산 변종들의 예들은 번역후-변형된 변종(post-translationally-modified variant)들, 화학적으로 변형된 변종들, 비자연적 아미노산들, 및 셀레노시스테인(selenocysteine) 및 피롤라이신(pyrrolysine)과 같은 단백질생성 아미노산(proteinogenic amino acid)들을 제한 없이 포함한다. 일부 실시예들에서, 아미노산들의 유형들의 서브세트는 하나 이상의 유사한 생화학적 성질들을 가지는 하나 초과 및 20 개보다 더 적은 아미노산들을 포함할 수 있다. 예로서, 일부 실시예들에서, 아미노산의 유형은 하전된 측쇄(charged side chain)들(예컨대, 포지티브 및/또는 네거티브 하전된 측쇄들)을 갖는 아미노산들, 극성 측쇄(polar side chain)들(예컨대, 극성 비하전된 측쇄들)을 갖는 아미노산들, 비극성 측쇄들(예컨대, 비극성 지방족(aliphatic) 및/또는 방향족(aromatic) 측쇄들)을 갖는 아미노산들, 및 소수성 측쇄(hydrophobic side chain)들을 갖는 아미노산들로부터 선택된 하나의 유형을 지칭한다.
일부 실시예들에서, 데이터는 친화도 시약의 발광성 표지의 검출된 광 방출들(예컨대, 발광)로부터 수집된다. 일부 실시예들에서, 표지화된 또는 태그된(tagged) 친화도 시약은 (1) 하나 이상의 유형들의 아미노산들과 선택적으로 결합하는 친화도 시약; 및 (2) 친화도 시약과 연관되는 발광을 가지는 발광성 표지를 포함한다. 이러한 방식으로, 발광(예컨대, 발광 수명, 발광 강도, 및 본 명세서에서 설명된 다른 광 방출 성질들)은 폴리펩티드의 아미노산을 식별하기 위한 친화도 시약의 선택적인 결합의 특성일 수 있다. 일부 실시예들에서, 복수의 유형들의 표지화된 친화도 시약들이 이용될 수 있고, 여기서, 각각의 유형은 복수 중으로부터 고유하게 식별가능한 발광을 가지는 발광성 표지를 포함한다. 적당한 발광성 표지들은 형광단 염료(fluorophore dye)와 같은 발광성 분자들을 포함할 수 있다.
일부 실시예들에서, 데이터는 아미노산의 발광성 표지의 검출된 광 방출들(예컨대, 발광)로부터 수집된다. 일부 실시예들에서, 표지화된 아미노산은 (1) 아미노산; 및 (2) 아미노산과 연관되는 발광을 가지는 발광성 표지를 포함한다. 발광은 폴리펩티드의 아미노산을 식별하기 위하여 이용될 수 있다. 일부 실시예들에서, 복수의 유형들의 아미노산들이 표지화될 수 있고, 여기서, 각각의 발광성 표지는 복수의 유형들 중으로부터 고유하게 식별가능한 발광을 가진다.
본 명세서에서 이용된 바와 같이, 용어들 "선택적" 및 "특정적"(그리고 그 변동들, 예컨대, 선택적으로, 구체적으로, 선택성, 특정성(specificity))은 우선적인 결합 상호작용을 지칭할 수 있다. 예로서, 일부 실시예들에서, 하나의 유형의 아미노산과 선택적으로 결합하는 표지화된 친화도 시약은 또 다른 유형의 아미노산에 비해 하나의 유형과 우선적으로 결합한다. 선택적인 결합 상호작용은 하나의 유형의 아미노산(예컨대, 하나의 유형의 말단 아미노산)과 다른 유형들의 아미노산들(예컨대, 다른 유형들의 말단 아미노산들) 사이를 전형적으로 약 10 배 초과 내지 100 배 또는 그 초과(예컨대, 약 1,000 배 또는 10,000 배 초과)만큼 판별할 것이다. 일부 실시예들에서, 표지화된 친화도 시약은 다른 유형들의 아미노산들에 상당히 결합하지 않으면서, 약 10-6 M 미만(예컨대, 약 10-7 M 미만, 약 10-8 M 미만, 약 10-9 M 미만, 약 10-10 M 미만, 약 10-11 M 미만, 약 10-12 M 미만, 10-16 M만큼 낮을 때까지)의 해리 상수(dissociation constant)(KD)로 하나의 유형의 아미노산과 선택적으로 결합한다. 일부 실시예들에서, 표지화된 친화도 시약은 약 100 nM 미만, 약 50 nM 미만, 약 25 nM 미만, 약 10 nM 미만, 또는 약 1 nM 미만의 KD로 하나의 유형의 아미노산(예컨대, 하나의 유형의 말단 아미노산)과 선택적으로 결합한다. 일부 실시예들에서, 표지화된 친화도 시약은 약 50 nM의 KD로 하나의 유형의 아미노산과 선택적으로 결합한다.
도 1a는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 표지화된 친화도 시약들의 다양한 예의 구성들 및 이용들을 도시한다. 일부 실시예들에서, 표지화된 친화도 시약(100)은 발광성 표지(110)(예컨대, 표지), 및 폴리펩티드(120)의 하나 이상의 유형들의 말단 아미노산들과 선택적으로 결합하는 (점묘화된 형상(stippled shape)들로서 도시된) 친화도 시약을 포함한다. 일부 실시예들에서, 친화도 시약은 말단 포지션에서 또는 말단 및 내부 포지션들의 둘 모두에서 하나의 유형의 아미노산 또는 아미노산들의 유형들의 서브세트(예컨대, 20 개보다 더 적은 보편적인 유형들의 아미노산들)에 대하여 선택적일 수 있다.
본 명세서에서 설명된 바와 같이, 친화도 시약은 또 다른 분자 상의 하나의 분자(예컨대, 또 다른 유형의 아미노산 상의 하나의 유형의 아미노산)과 선택적으로 또는 특이적으로 결합할 수 있는 임의의 생체분자(biomolecule)일 수 있다. 친화도 시약들은 예로서, 단백질들 및 핵산들을 포함한다. 일부 실시예들에서, 친화도 시약은 항체(antibody) 또는 항체의 항원-결합 부분(antigen-binding portion), 또는 효소 생체분자(enzymatic biomolecule), 예컨대, 펩티다제(peptidase), 리보자임(ribozyme), 압타자임(aptazyme), 또는 "MOLECULES AND METHODS FOR ITERATIVE POLYPEPTIDE ANALYSIS AND PROCESSING"라는 명칭으로 2016년 9월 2일자로 출원된 미국 특허 출원 제15/255,433호에서 설명된 아미노아실(aminoacyl)-tRNA 합성효소(synthetase)들 및 관련된 분자들을 포함하는 tRNA 합성효소일 수 있다. 프로테아제(protease) 또는 프로테이나제(proteinase)로서 또한 지칭된 펩티다제는 펩티드 결합의 가수분해(hydrolysis)를 촉매화(catalyze)하는 효소일 수 있다. 펩티다제들은 폴리펩티드들을 더 짧은 파편들로 소화시키고, 폴리펩티드 사슬(polypeptide chain)을 각각 내부적으로 그리고 말단적으로 분열시키는 엔도펩티다제(endopeptidase)들 및 엑소펩티다제들로 일반적으로 분류될 수 있다. 일부 실시예들에서, 친화도 시약은 Biochimica et Biophysica Acta (BBA) - Molecular Cell Research, Vol. 1823, Issue 1, January 2012에서 출판된 "The N-end rule pathway: From Recognition by N-recognins, to Destruction by AAA+ Proteases"에서 설명된 바와 같은 원핵생물(prokaryote)들 및 진핵생물(eukaryote)들에서의 N-데그론(degron) 경로에서 관여된 N-리코그닌(recognin)일 수 있다.
일부 실시예들에서, 표지화된 친화도 시약(100)은 엑소펩티다제 또는 엔도펩티다제 활성을 비활성화도록 변형된 펩티다제를 포함한다. 이러한 방식으로, 표지화된 친화도 시약(100)은 폴리펩티드로부터 아미노산을 또한 분열시키지 않으면서 선택적으로 결합한다. 일부 실시예들에서는, 엑소펩티다제 또는 엔도펩티다제 활성을 비활성화도록 변형되지 않은 펩티다제가 이용될 수 있다. 예로서, 일부 실시예들에서, 표지화된 친화도 시약은 표지화된 엑소펩티다제(101)를 포함한다.
일부 실시예들에서, 단백질 서열화 방법들은 폴리펩티드의 말단 단부에서의 반복적 검출 및 분열을 포함할 수 있다. 일부 실시예들에서, 표지화된 엑소펩티다제(101)는 아미노산의 검출 및 분열의 두 단계들을 수행하는 단일 시약으로서 이용될 수 있다. 포괄적으로 도시된 바와 같이, 일부 실시예들에서, 표지화된 엑소펩티다제(101)는 그것이 폴리펩티드로부터 N-말단 또는 C-말단 아미노산과 각각 선택적으로 결합하고 이들을 분열시키도록, 아미노펩티다제(aminopeptidase) 또는 카르복시펩티다제(carboxypeptidase) 활성을 가진다. 어떤 실시예들에서, 표지화된 엑소펩티다제(101)가 본 명세서에서 설명된 바와 같이, 비-분열 표지화된 친화도 시약(100)으로서의 이용을 위한 선택적 결합 성질들을 보유하도록, 표지화된 엑소펩티다제(101)는 본 기술분야에서의 통상의 기술자에 의해 촉매적으로 비활성화될 수 있다는 것이 인식되어야 한다. 일부 실시예들에서, 표지화된 친화도 시약은 결합-유도된 발광을 가지는 표지를 포함한다. 아미노산과 표지화된 친화도 시약의 결합 상호작용은 시약이 표지화되는 발광성 표지의 발광을 유도할 수 있다.
일부 실시예들에서, 서열화는 폴리펩티드 말단이 말단 아미노산 검출 및 말단 아미노산 분열의 반복된 사이클들을 받게 하는 것을 수반할 수 있다. 예로서, 단백질 서열화 디바이스는 폴리펩티드를 하나 이상의 표지화된 친화도 시약들과 접촉함으로써 폴리펩티드의 아미노산 서열에 대한 데이터를 수집할 수 있다.
도 1b는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 표지화된 친화도 시약들을 이용하는 서열화의 예를 도시한다. 일부 실시예들에서, 서열화는 링커(linker)(122)를 통해 고체 지지체(solid support)의 표면(130)에 부동화(immobilize)되는(예컨대, 샘플 웰의 하부 또는 측벽 표면에 부동화되는) 폴리펩티드(121)를 제공하는 것을 포함한다. 일부 실시예들에서, 폴리펩티드(121)는 다른 말단이 말단 아미노산의 검출 및 균열을 위하여 자유롭도록, 하나의 말단(예컨대, 아미노-말단 아미노산)에서 부동화될 수 있다. 따라서, 일부 실시예들에서, 시약들은 폴리펩티드(121)의 비-부동화된(예컨대, 자유로운) 말단에서 말단 아미노산들과 상호작용한다. 이러한 방식으로, 폴리펩티드(121)는 검출 및 분열의 반복된 사이클들 상에서 부동화된 상태로 남아 있다. 이 목적을 위하여, 일부 실시예들에서, 링커(122)는 예컨대, 화학적 분열 조건들 하에서 표면(130)으로부터의 폴리펩티드(121)의 탈착(detachment)을 제한하기 위하여, 검출 및 분열을 위하여 이용된 조건들의 희망된 세트에 따라 설계될 수 있다.
일부 실시예들에서, 서열화는 폴리펩티드(121)를 하나 이상의 유형들의 말단 아미노산들과 선택적으로 결합하는 하나 이상의 표지화된 친화도 시약들과 접촉시키는 단계 (1)을 포함한다. 도시된 바와 같이, 일부 실시예들에서, 표지화된 친화도 시약(104)은 말단 아미노산과 선택적으로 결합함으로써 폴리펩티드(121)와 상호작용한다. 일부 실시예들에서, 단계 (1)은 폴리펩티드(121)의 말단 아미노산(예컨대, 자유로운 말단 아미노산)과 선택적으로 결합하지 않는 하나 이상의 표지화된 친화도 시약들 중의 임의의 것을 제거하는 것을 더 포함한다. 일부 실시예들에서, 서열화는 폴리펩티드(121)의 말단 아미노산을 제거하는 단계 (2)를 포함한다. 일부 실시예들에서, 단계 (2)는 폴리펩티드(121)로부터 표지화된 친화도 시약(104)(예컨대, 말단 아미노산과 선택적으로 결합하는 하나 이상의 표지화된 친화도 시약들 중의 임의의 것)을 제거하는 것을 포함한다.
일부 실시예들에서, 서열화는 말단 아미노산 분열에 후속하여 폴리펩티드(121)를 세척(wash)하는 단계 (3)을 포함한다. 일부 실시예들에서, 세척하는 것은 프로테아제(140)를 제거하는 것을 포함한다. 일부 실시예들에서, 세척하는 것은 (예컨대, 산성 또는 염기성 조건들에 의한 화학적 분열에 후속하여) 폴리펩티드(121)를 중성 pH 조건들로 복원하는 것을 포함한다. 일부 실시예들에서, 서열화는 복수의 사이클들에 대하여 단계들 (1) 내지 (3)을 반복시키는 것을 포함한다.
도 1c는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 표지화된 단백질 샘플을 이용하는 서열화의 예를 도시한다. 도 1c의 일 예의 실시예에서 예시된 바와 같이, 표지화된 단백질 샘플은 표지화된 아미노산들을 갖는 폴리펩티드(140)를 포함한다. 일부 실시예들에서, 표지화된 폴리펩티드(140)는 발광성 표지로 표지화된 하나 이상의 아미노산들을 갖는 폴리펩티드를 포함한다. 일부 실시예들에서, 폴리펩티드(140)의 하나 이상의 유형들의 아미노산들이 표지화될 수 있는 반면, 폴리펩티드(140)의 하나 이상의 다른 유형들의 아미노산들은 표지화되지 않을 수 있다. 일부 실시예들에서, 폴리펩티드(140)의 모든 아미노산들은 표지화될 수 있다.
일부 실시예들에서, 서열화는 하나 이상의 시약들과의 접촉의 반복된 사이클들을 받게 되는 표지화된 폴리펩티드의 발광을 검출하는 것을 포함한다. 도 1c의 일 예의 실시예에서, 서열화는 폴리펩티드(140)의 하나 이상의 아미노산들에 결합하는 시약(142)과 폴리펩티드(140)를 접촉시키는 단계를 포함한다. 예로서, 시약(142)은 표지화된 폴리펩티드의 말단 아미노산과 상호작용할 수 있다. 일부 실시예들에서, 서열화는 폴리펩티드(140)를 시약(142)과 접촉시킨 후에 말단 아미노산을 제거하는 단계를 포함한다. 일부 실시예들에서, 시약(142)은 폴리펩티드(140)와의 접촉을 행한 후에 말단 아미노산을 분열시킬 수 있다. 폴리펩티드(142)의 표지화된 아미노산과 시약(142)의 상호작용은 단백질 서열화 디바이스에 의해 검출될 수 있는 하나 이상의 광 방출들(예컨대, 펄스들)을 유발한다.
광 방출들을 생성하는 위에서 설명된 프로세스는 도 2a에서 추가로 예시된다. 일 예의 신호 트레이스 (I)는 신호에서의 변화들에 대응하는 시간들에서 상이한 연관성 이벤트들을 도시하는 일련의 패널들 (II)로 도시된다. 도시된 바와 같이, (스트링-상-비드들(beads-on-a-string)로서 도시된) 폴리펩티드의 말단에서의 친화도 시약(점묘화된 형상)과 아미노산 사이의 연관성 이벤트는, 수신된 여기 광의 측정들인, 시간의 기간에 대하여 지속되는 신호 트레이스의 크기에서의 변화를 생성한다.
위에서 논의된 바와 같이, 발광성 표지로 표지화된 친화도 시약은 친화도 시약에 인가되는 여기 광에 응답하여 광을 방출할 수 있다. 친화도 시약들이 아미노산과 연관될 때, 이 광은 아미노산에 인접하게 방출될 수 있다. 친화도 시약이 추후에 아미노산과 더 이상 연관되지 않는 반면, 그 발광성 표지는 여기 광에 응답하여 광을 여전히 방출할 수 있을 경우에, 이 광은 상이한 공간적 위치로부터 방출될 수 있고, 이에 의해, 연관성 동안에 방출된 광과 동일한 강도로 측정되지 않을 수 있다(또는 전혀 측정되지 않을 수 있음). 그 결과, 아미노산으로부터 방출된 광을 측정함으로써, 연관성 이벤트들이 신호 트레이스 내에서 식별될 수 있다.
예를 들어, 도 2a의 패널들 (A) 및 (B)에서 도시된 바와 같이, 친화도 시약과 폴리펩티드의 말단에서 노출된 제1 아미노산(예컨대, 제1 말단 아미노산) 사이의 2 개의 상이한 연관성 이벤트들은 각각 별도의 광 방출들을 생성한다. 각각의 연관성 이벤트는 광의 "펄스"를 생성하고, 이러한 광의 "펄스"는 신호 트레이스 (I)에서 측정되고, 연관성 이벤트의 기간에 대하여 지속되는 신호의 크기에서의 변화에 의해 특징지어진다. 패널들 (A) 및 (B)의 연관성 이벤트들 사이의 시간 기간은 폴리펩티드가 친화도 시약과 검출가능하게 연관되지 않는 시간의 기간에 대응할 수 있다.
패널들 (C) 및 (D)는 친화도 시약과 폴리펩티드의 말단에서 노출된 제2 아미노산(예컨대, 제2 말단 아미노산) 사이의 상이한 연관성 이벤트들을 도시한다. 본 명세서에서 설명된 바와 같이, 폴리펩티드의 말단에서 "노출되는" 아미노산은, 폴리펩티드에 여전히 부착되고, (예컨대, 단독으로 또는 하나 이상의 추가적인 아미노산들과 함께) 분해 동안의 이전의 말단 아미노산의 제거 시에 말단 아미노산이 되는 아미노산이다. 따라서, 일련의 패널들 (II)의 제1 및 제2 아미노산들은 폴리펩티드의 말단에서 노출된 연속적인 아미노산들의 예시적인 예들을 제공하고, 여기서, 제2 아미노산은 제1 아미노산의 제거 시에 말단 아미노산이 되었다.
포괄적으로 도시된 바와 같이, 패널들 (C) 및 (D)의 연관성 이벤트들은 별개의 광 펄스들을 생성하고, 이러한 별개의 광 펄스들은 신호 트레이스 (I)에서 측정되고, 패널들 (A) 및 (B)의 시간 기간보다 상대적으로 더 짧은 시간 시간들에 대하여 지속되는 크기에서의 변화들에 의해 특징지어지고, 패널들 (C) 및 (D)의 연관성 이벤트들 사이의 시간 기간은 패널들 (A) 및 (B)의 시간 기간보다 상대적으로 더 짧다. 위에서 언급된 바와 같이, 일부 실시예들에서, 신호에서의 이러한 구분되는 변화들은 상이한 유형들의 아미노산들 사이를 판별할 수 있는 신호 트레이스 (I)에서의 특성 패턴들을 결정하기 위하여 이용될 수 있다.
일부 실시예들에서, 하나의 특성 패턴으로부터 또 다른 것으로의 전이(transition)는 아미노산 분열을 표시한다. 본 명세서에서 이용된 바와 같이, 일부 실시예들에서, 아미노산 분열은 폴리펩티드의 말단으로부터의 적어도 하나의 아미노산의 제거(예컨대, 폴리펩티드로부터의 적어도 하나의 말단 아미노산의 제거)를 지칭한다. 일부 실시예들에서, 아미노산 분열은 특징 패턴들 사이의 시간 기간에 기초하여 추론에 의해 결정된다. 일부 실시예들에서, 아미노산 분열은 폴리펩티드의 말단에서의 아미노산과 표지화된 분열 시약의 연관성에 의해 생성된 신호에서의 변화를 검출함으로써 결정된다. 아미노산들이 분해 동안에 폴리펩티드의 말단으로부터 순차적으로 분열될 때, 크기에서의 일련의 변화들 또는 일련의 신호 펄스들이 검출된다. 일부 실시예들에서, 신호 펄스 데이터는 도 2b에서 예시된 바와 같이 분석될 수 있다.
일부 실시예들에서, 신호 트레이스는 임계 레벨들을 신호 데이터의 하나 이상의 파라미터들에 적용함으로써 신호 펄스 정보를 추출하기 위하여 분석될 수 있다. 예를 들어, 패널 (III)은 일 예의 신호 트레이스 (I)의 신호 데이터에 적용된 임계 크기 레벨("ML")을 도시한다. 일부 실시예들에서, ML은 시간 포인트에서 검출된 신호와 주어진 데이터의 세트에 대하여 결정된 기준선 사이의 최소 차이이다. 일부 실시예들에서, 신호 펄스("sp")는 ML을 초과하고 시간의 기간에 대하여 지속되는 크기에서의 변화를 표시하는 데이터의 각각의 부분에 배정된다. 일부 실시예들에서, 임계 시간 기간은 신호 펄스가 그 부분에 배정되는지 여부를 결정하기 위하여, ML을 만족시키는 데이터의 부분에 적용될 수 있다. 예를 들어, 실험적 아티팩트(experimental artifact)들은 희망된 신뢰도(confidence)를 갖는 신호 펄스를 배정하기 위하여 충분한 시간의 기간에 대하여 지속되지 않는 ML을 초과하는 크기에서의 변화를 유발할 수 있다(예컨대, 아미노산 유형에 대하여 비-판별적일 수 있는 순시적 연관성 이벤트들, 관찰 영역으로의 확산과 같은 비-특정적 검출 이벤트들, 또는 관찰 영역 내에서의 시약 고착). 따라서, 일부 실시예들에서, 펄스는 임계 크기 레벨 및 임계 시간 기간에 기초하여 신호 트레이스로부터 식별될 수 있다.
추출된 신호 펄스 정보는 예시적인 목적들을 위하여 중첩된 일 예의 신호 트레이스 (I)와 함께 패널 (III)에서 도시된다. 일부 실시예들에서, 신호 펄스의 크기에서의 피크는 ML위로 지속되는 시간의 기간 동안에 검출된 크기를 평균화함으로써 결정된다. 일부 실시예들에서, 본 명세서에서 이용된 바와 같은 "신호 펄스" 또는 "펄스"는 기준선 위로 시간의 기간에 대하여 지속되는 신호 데이터(예컨대, 일 예의 신호 트레이스 (I)에 의해 예시된 바와 같은 원시 신호 데이터(raw signal data))에서의 변화, 또는 그로부터 추출된 신호 펄스 정보(예컨대, 패널 (IV)에서 예시된 바와 같은 프로세싱된 신호 데이터)를 지칭할 수 있다는 것이 인식되어야 한다.
패널 (IV)은 일 예의 신호 트레이스 (I)로부터 추출된 펄스 정보를 도시한다. 일부 실시예들에서, 신호 펄스 정보는 일련의 신호 펄스들에서의 상이한 특성 패턴들에 기초하여 서열에서 상이한 유형들의 아미노산들을 식별하기 위하여 분석될 수 있다. 예를 들어, 패널 (IV)에서 도시된 바와 같이, 신호 펄스 정보는 제1 특성 패턴("CP1")에 기초한 아미노산의 제1 유형 및 제2 특성 패턴("CP2")에 기초한 아미노산의 제2 유형을 표시한다. 예로서, 더 이전의 시간 포인트들에서 검출된 2 개의 신호 펄스들은 CP1에 기초한 폴리펩티드의 말단에서의 제1 아미노산을 표시하는 정보를 제공하고, 더 이후의 시간 포인트들에서 검출된 2 개의 신호 펄스들은 CP2에 기초한 폴리펩티드의 말단에서의 제2 아미노산을 표시하는 정보를 제공한다.
또한, 패널 (IV)에서 도시된 바와 같이, 각각의 신호 펄스는 친화도 시약과 특성 패턴의 아미노산 사이의 연관성 이벤트에 대응하는 펄스 기간("pd")을 포함한다. 일부 실시예들에서, 펄스 기간은 결합의 해리 레이트(dissociation rate)의 특성이다. 또한 도시된 바와 같이, 특성 패턴의 각각의 신호 펄스는 펄스간 기간("ipd")만큼 특성 패턴의 또 다른 신호 펄스로부터 분리된다. 일부 실시예들에서, 펄스간 기간은 결합의 연관성 레이트의 특성이다. 일부 실시예들에서, 크기에서의 변화("ΔM")는 기준선과 신호 펄스의 피크 사이의 차이에 기초하여 신호 펄스에 대하여 결정될 수 있다. 일부 실시예들에서, 특성 패턴은 펄스 기간에 기초하여 결정된다. 일부 실시예들에서, 특성 패턴은 펄스 기간 및 펄스간 기간에 기초하여 결정된다. 일부 실시예들에서, 특성 패턴은 펄스 기간, 펄스간 기간, 및 크기에서의 변화 중의 임의의 하나 이상에 기초하여 결정된다.
따라서, 도 2a 내지 도 2b에 의해 예시된 바와 같이, 일부 실시예들에서, 폴리펩티드 서열화는 발광성 표지들로 표지화된 친화도 시약들 사이의 연관성 이벤트들로부터의 광 방출에 의해 생성된 일련의 신호 펄스들을 검출함으로써 수행될 수 있다. 일련의 신호 펄스들은 일련의 신호 펄스들에서 특성 패턴들을 결정하기 위하여 분석될 수 있고, 특성 패턴들의 시간 경로는 폴리펩티드의 아미노산 서열을 결정하기 위하여 이용될 수 있다.
일부 실시예들에서, 단백질 또는 폴리펩티드는 복수의 더 작은 폴리펩티드들로 소화될 수 있고, 서열 정보는 (예컨대, 폴리펩티드의 말단 아미노산을 순차적으로 액세스하고 말단에서 다음 아미노산을 노출시키기 위하여 그 아미노산을 제거하는 것을 수반하는 방법을 이용하여) 이 더 작은 폴리펩티드들 중의 하나 이상으로부터 획득될 수 있다. 일부 실시예들에서, 펩티드 서열화의 방법은 폴리펩티드 말단이 말단 아미노산 검출 및 말단 아미노산 분열의 반복된 사이클들을 받게 하는 것을 수반할 수 있다.
반복적 말단 아미노산 검출 및 분열에 의한 폴리펩티드 서열화의 비-제한적인 예는 도 2c에서 도시된다. 일부 실시예들에서, 폴리펩티드 서열화는 연쇄군(linkage group)(252)을 통해 고체 지지체의 표면(254)에 부동화되는(예컨대, 샘플 웰의 하부 또는 측벽 표면에 부착되는) 폴리펩티드(250)를 제공하는 것을 포함한다. 일부 실시예들에서, 연쇄군(252)은 폴리펩티드(250)의 작용화된 말단 단부와 표면(254)의 상보적인 작용 모이어티(functional moiety) 사이의 공유 또는 비-공유 결합에 의해 형성된다. 예를 들어, 일부 실시예들에서, 연쇄군(252)은 (예컨대, 개시내용에 따라 작용화된) 폴리펩티드(250)의 비오틴 모이어티(biotin moiety)와 표면(254)의 아비딘 단백질(avidin protein) 사이의 비-공유 결합에 의해 형성된다. 일부 실시예들에서, 연쇄군(252)은 핵산을 포함한다.
일부 실시예들에서, 폴리펩티드(250)는 다른 말단 단부가 서열화 반응에서 말단 아미노산의 검출 및 분열을 위하여 자유롭도록, 하나의 말단 단부에서 작용화 모이어티(functionalization moiety)를 통해 표면(254)에 부동화된다. 따라서, 일부 실시예들에서, 어떤 폴리펩티드 서열화 반응들에서 이용된 시약들은 폴리펩티드(250)의 비-부동화된(예컨대, 자유로운) 말단에서 말단 아미노산들과 우선적으로 상호작용한다. 이러한 방식으로, 폴리펩티드(250)는 검출 및 분열의 반복된 사이클들 상에서 부동화된 상태로 남아 있다. 이 목적을 위하여, 일부 실시예들에서, 연쇄군(252)은 예컨대, 표면(254)으로부터의 폴리펩티드(250)의 탈착을 제한하기 위하여, 검출 및 분열을 위하여 이용된 조건들의 희망된 세트에 따라 설계될 수 있다. (예컨대, 폴리펩티드를 표면에 부동화하기 위하여 이용될 수 있는) 폴리펩티드들을 작용화하기 위한 적당한 링커 조성들 및 기법들은 본 명세서에서의 다른 곳에서 상세하게 설명된다.
일부 실시예들에서, 도 2c에서 도시된 바와 같이, 폴리펩티드 서열화는 (1) 폴리펩티드(250)를 하나 이상의 유형들의 말단 아미노산들과 연관시키는 하나 이상의 친화도 시약들과 접촉시킴으로써 진행할 수 있다. 도시된 바와 같이, 일부 실시예들에서, 표지화된 친화도 시약(256)은 말단 아미노산과 연관시킴으로써 폴리펩티드(250)와 상호작용한다.
일부 실시예들에서, 방법은 표지화된 친화도 시약(256)을 검출함으로써 폴리펩티드(250)의 아미노산(말단 또는 내부 아미노산)을 식별하는 것을 더 포함한다. 일부 실시예들에서, 검출하는 것은 표지화된 친화도 시약(256)으로부터 발광을 검출하는 것을 포함한다. 일부 실시예들에서, 발광은 표지화된 친화도 시약(256)과 고유하게 연관되고, 발광은 이에 의해, 표지화된 친화도 시약(256)이 선택적으로 결합하는 아미노산의 유형과 연관된다. 이와 같이, 일부 실시예들에서, 아미노산의 유형은 표지화된 친화도 시약(256)의 하나 이상의 발광 성질들을 결정함으로써 식별된다.
일부 실시예들에서, 폴리펩티드 서열화는 (2) 폴리펩티드(250)를, 폴리펩티드(250)의 말단 아미노산과 결합하고 이를 분열시키는 엑소펩티다제(258)와 접촉시키는 것에 의해 말단 아미노산을 제거함으로써 진행한다. 엑소펩티다제(258)에 의한 말단 아미노산의 제거 시에, 폴리펩티드 서열화는 (3) (n-1 아미노산들을 가지는) 폴리펩티드(250)가 말단 아미노산 인식 및 분열의 추가적인 사이클들을 받게 함으로써 진행한다. 일부 실시예들에서, 단계들 (1) 내지 (3)은 예컨대, 동적 펩티드 서열화 반응에서와 같이, 동일한 반응 혼합물에서 발생한다. 일부 실시예들에서, 단계들 (1) 내지 (3)은 에드만 분해(Edman degradation)에 의한 펩티드 서열화와 같은, 본 기술분야에서 공지된 다른 방법들을 이용하여 수행될 수 있다.
에드만 분해는 폴리펩티드의 말단 아미노산을 변형시키고 분열시키는 반복된 사이클들을 수반하고, 여기서, 각각의 연속적으로 분열된 아미노산은 폴리펩티드의 아미노산 서열을 결정하기 위하여 식별된다. 도 2c를 참조하면, 기존의 에드만 분해에 의한 펩티드 서열화는 (1) 폴리펩티드(250)를, 하나 이상의 유형들의 말단 아미노산들과 선택적으로 결합하는 하나 이상의 친화도 시약들과 접촉시킴으로써 수행될 수 있다. 일부 실시예들에서, 단계 (1)은 폴리펩티드(250)와 선택적으로 결합하지 않는 하나 이상의 표지화된 친화도 시약들 중의 임의의 것을 제거하는 것을 더 포함한다. 일부 실시예들에서, 단계 (2)는 이소티오시아네이트(isothiocyanate)-변형된 말단 아미노산을 형성하기 위하여 말단 아미노산을 이소티오시아네이트(예컨대, PITC)와 접촉시키는 것에 의해 폴리펩티드(250)의 말단 아미노산(예컨대, 자유로운 말단 아미노산)을 변형시키는 것을 포함한다. 일부 실시예들에서, 이소티오시아네이트-변형된 말단 아미노산은 미변형된 말단 아미노산보다 분열 시약(예컨대, 화학적 또는 효소적 분열 시약)에 의한 제거가 더 쉽다.
일부 실시예들에서, 에드만 분해는 (2) 폴리펩티드(250)를, 이소티오시아네이트-변형된 말단 아미노산과 구체적으로 결합하고 이를 분열시키는 엑소펩티다제(258)와 접촉시키는 것에 의해 말단 아미노산을 제거함으로써 진행한다. 일부 실시예들에서, 엑소펩티다제(258)는 변형된 시스테인 프로테아제(cysteine protease)를 포함한다. 일부 실시예들에서, 엑소펩티다제(258)는 트리파노소마 크루지(Trypanosoma cruzi)(예컨대, Borgo 등 (2015) Protein Science 24:571-579 참조)로부터의 시스테인 프로테아제와 같은 변형된 시스테인 프로테아제를 포함한다. 또 다른 실시예들에서, 단계 (2)는 폴리펩티드(250)가, 이소티오시아네이트-변형된 말단 아미노산을 분열시키기 위하여 충분한 화학적(예컨대, 산성, 염기성) 조건들을 받게 함으로써 말단 아미노산을 제거하는 것을 포함한다. 일부 실시예들에서, 에드만 분해는 (3) 말단 아미노산 분열에 후속하여 폴리펩티드(250)를 세척함으로써 진행한다. 일부 실시예들에서, 세척하는 것은 엑소펩티다제(258)를 제거하는 것을 포함한다. 일부 실시예들에서, 세척하는 것은 (예컨대, 산성 또는 염기성 조건들에 의한 화학적 분열에 후속하여) 폴리펩티드(250)를 중성 pH 조건들로 복원하는 것을 포함한다. 일부 실시예들에서, 에드만 분해에 의한 서열화는 복수의 사이클들에 대하여 단계들 (1) 내지 (3)을 반복시키는 것을 포함한다.
일부 실시예들에서, 펩티드 서열화는 동적 펩티드 서열화 반응에서 수행될 수 있다. 일부 실시예들에서, 도 2c를 다시 참조하면, 단계 (1) 및 단계 (2)를 수행하기 위하여 요구된 시약들은 단일 반응 혼합물 내에서 조합된다. 예를 들어, 일부 실시예들에서, 단계들 (1) 및 (2)는 하나의 반응 혼합물을 또 다른 것과 교환하지 않으면서, 그리고 기존의 에드만 분해에서와 같은 세척 단계 없이 발생할 수 있다. 따라서, 이 실시예들에서, 단일 반응 혼합물은 표지화된 친화도 시약(256) 및 엑소펩티다제(258)를 포함한다. 일부 실시예들에서, 엑소펩티다제(258)는 표지화된 친화도 시약(256)의 농도 미만인 농도에서의 혼합물에서 존재한다. 일부 실시예들에서, 엑소펩티다제(258)는 표지화된 친화도 시약(256)의 결합 친화도 미만인 결합 친화도로 폴리펩티드(250)와 결합한다.
도 2d는 표지화된 엑소펩티다제들(200)의 세트를 이용하는 폴리펩티드 서열화의 예를 도시하고, 여기서, 각각의 표지화된 엑소펩티다제는 상이한 유형의 말단 아미노산과 선택적으로 결합하고 이를 분열시킨다.
도 2d의 예에서 예시된 바와 같이, 표지화된 엑소펩티다제들(200)은 제1 발광성 표지를 포함하는 라이신(lysine)-특이적 엑소펩티다제, 제2 발광성 표지를 포함하는 글리신(glycine)-특이적 엑소펩티다제, 제3 발광성 표지를 포함하는 아스파테이트(aspartate)-특이적 엑소펩티다제, 및 제4 발광성 표지를 포함하는 류신(leucine)-특이적 엑소펩티다제를 포함한다. 일부 실시예들에서, 표지화된 엑소펩티다제들(200)의 각각은 그 아미노산이 폴리펩티드의 아미노-말단 또는 카르복시-말단에 있을 때에만, 그 각자의 아미노산과 선택적으로 결합하고 이를 분열시킨다. 따라서, 이 접근법에 의한 서열화가 펩티드의 하나의 말단으로부터 다른 것을 향해 진행함에 따라, 표지화된 엑소펩티다제들(200)은 세트의 모든 시약들이 아미노펩티다제 또는 카르복시펩티다제 활성의 어느 하나를 소유하도록 가공되거나 선택된다.
도 2d에서 추가로 도시된 바와 같이, 프로세스(201)는 표지화된 엑소펩티다제들(200)을 이용하는 실시간 서열화 반응을 개랴적으로 예시한다. 패널들 (I) 내지 (IX)은 이하에서 도시되고 각각의 패널에서 도시된 이벤트에 대응하는 신호 트레이스에 관련하여 폴리펩티드의 말단 단부에서의 반복적 검출 및 분열을 수반하는 이벤트들의 진전을 예시한다. 예시적인 목적들을 위하여, (하나의 말단으로부터 다른 것을 향해 진행하는) "KLDG..."의 무작위적으로 선택된 아미노산 서열을 가지는 폴리펩티드가 도시된다.
패널 (I)은 서열화 반응의 시작을 도시하고, 여기서, 폴리펩티드는 샘플 웰의 하부 또는 측벽 표면과 같은 고체 지지체의 표면에 부동화된다. 일부 실시예들에서, 출원에 따른 서열화 방법들은 실시간 단일 분자 서열화를 포함한다. 일부 실시예들에서, 복수의 단일 분자 서열화 반응들은 샘플 웰들의 어레이에서 동시에 수행된다. 이러한 실시예들에서, 폴리펩티드 부동화(polypeptide immobilization)는 단일 분자 분석을 위하여 샘플 웰 내에서 폴리펩티드를 앵커링(anchoring)함으로써 샘플 웰로부터의 폴리펩티드의 확산을 방지한다.
패널 (II)는 검출 이벤트를 도시하고, 여기서, 표지화된 친화도 시약들(200)의 세트로부터의 라이신-특이적 엑소펩티다제는 폴리펩티드의 말단 라이신 잔기(terminal lysine residue)와 선택적으로 결합한다. 패널들 (I) 및 (II) 아래의 신호 트레이스에서 도시된 바와 같이, 신호는 센서(예컨대, 광검출기)에 의해 검출될 수 있는 신호 강도에서의 증가를 디스플레이함으로써 이 결합 이벤트에 대해 표시한다. 패널 (III)은, 말단 아미노산과 선택적으로 결합한 후에, 표지화된 펩티다제(labeled peptidase)가 말단 아미노산을 분열시키는 것을 예시한다. 그 결과, 이 컴포넌트들은 발광 검출을 위한 관찰 영역으로부터 멀어지도록 자유롭게 확산하고, 이는 패널 (III) 아래의 트레이스에서 도시된 바와 같이, 신호 강도에서의 하락에 의해 신호 출력에서 보고된다. 패널들 (IV) 내지 (IX)는 패널들 (I) 내지 (III)에 대하여 설명된 바와 같은 프로세스와 유사하게 진행한다. 즉, 표지화된 엑소펩티다제는 신호 출력에서 각각 대응하는 증가 또는 감소를 생성하기 위하여 대응하는 말단 아미노산과 결합하고 이를 분열시킨다.
도 2a 내지 도 2d의 예는 말단 아미노산들, 내부 아미노산들, 및 변형된 아미노산들의 인식을 포함한다. 신호 트레이스는 이 유형들의 아미노산들의 임의의 조합 뿐만 아니라 개별적으로 각각의 유형의 인식을 허용할 수 있다는 것이 인식될 수 있다. 예를 들어, 말단 아미노산 및 뒤따르는 내부 아미노산은 하나 이상의 친화도 시약들과 동시에 상호작용할 수 있고, 한 쌍의 아미노산들을 표시하는 광을 생성할 수 있다.
일부 양태들에서, 출원은 친화도 시약들 및 표지화된 비-특정 엑소펩티다제과 말단 아미노산들의 결합 상호작용들을 평가함으로써 실시간 폴리펩티드 서열화의 방법들을 제공한다. 일부 실시예들에서, 친화도 시약들은 (예컨대, 발광성 표지로) 표지화될 수 있다. 일부 실시예들에서, 친화도 시약들은 표지화되지 않을 수 있다. 일 예의 친화도 시약들이 본 명세서에서 설명된다. 도 3은 별개의 결합 이벤트들이 신호 트레이스(300)의 신호 펄스들을 유발하는 서열화의 방법의 예를 도시한다. 도 3의 삽화 패널은 이 접근법에 의한 실시간 서열화의 일반적인 방식을 예시한다. 도시된 바와 같이, 표지화된 친화도 시약(310)은 말단 아미노산(라이신으로서 여기에서 도시됨)에 선택적으로 결합하고 이러한 말단 아미노산으로부터 해리하고, 이는 센서에 의해 검출될 수 있는 신호 트레이스(300)에서의 일련의 펄스들을 유발한다. 일부 실시예들에서, 시약(들)은 결합의 타겟 성질들을 가지도록 가공될 수 있다. 예로서, 시약들은 펄스 기간, 펄스간 기간, 발광 강도, 및/또는 발광 수명의 타겟 값들을 달성하도록 가공될 수 있다.
본 명세서에서 설명된 펄스들의 수들, 펄스 기간 값들, 및/또는 펄스간 기간 값들은 예시적인 목적들을 위한 것이다. 일부 실시예들은 본 명세서에서 설명된 펄스들의 특정한 수들, 펄스 기간 값들, 및/또는 펄스간 기간 값들로 제한되지 않는다. 또한, 본 명세서에서 설명된 아미노산들은 예시적인 목적들을 위한 것이다. 일부 실시예들은 임의의 특정한 아미노산으로 제한되지 않는다.
삽화 패널에서 도시된 바와 같이, 서열화 반응 혼합물은 표지화된 친화도 시약(310)의 발광성 표지와 상이한 발광성 표지를 포함하는 표지화된 비-특정적 엑소펩티다제(320)를 더 포함한다. 일부 실시예들에서, 표지화된 비-특정적 엑소펩티다제(320)는 표지화된 친화도 시약(310)의 농도 미만인 농도에서의 혼합물에서 존재한다. 일부 실시예들에서, 표지화된 비-특정적 엑소펩티다제(320)는 대부분 또는 모든 유형들의 말단 아미노산들을 분열시키도록 폭넓은 특정성을 디스플레이한다.
신호 트레이스(300)의 진전에 의해 예시된 바와 같이, 일부 실시예들에서, 표지화된 비-특정적 엑소펩티다제(320)에 의한 말단 아미노산 분열은 신호 펄스를 유발하고, 이 이벤트들은 표지화된 친화도 시약(310)의 결합 펄스들보다 더 낮은 주파수로 발생한다. 신호 트레이스(300)에서 추가로 예시된 바와 같이, 일부 실시예들에서, 각각이 진단성 펄스화 패턴(diagnostic pulsing pattern)을 갖는 복수의 표지화된 친화도 시약들이 이용될 수 있고, 진단성 펄스화 패턴은 대응하는 말단 아미노산을 식별하기 위하여 이용될 수 있다.
도 4는 도 3에서의 접근법에 대하여 설명되고 예시된 방법이 말단 및 내부 포지션들(도 4, 삽화 패널)에서 하나의 유형의 아미노산(라이신으로서 여기에서 도시됨)에 선택적으로 결합하고 이러한 하나의 유형의 아미노산으로부터 해리하는 표지화된 친화도 시약(410)을 이용함으로써 변형되는 서열화의 일 예의 기법을 도시한다. 이전의 접근법에서 설명된 바와 같이, 선택적 결합은 신호 트레이스(400)에서의 일련의 펄스들을 유발한다. 그러나, 이 접근법에서, 일련의 펄스들은 폴리펩티드 전반에 걸쳐 아미노산의 유형의 수에 의해 결정될 수 있는 레이트에서 발생한다. 따라서, 일부 실시예들에서, 결합 이벤트들에 대응하는 펄스화의 레이트는 폴리펩티드에서 현재 존재하는 동족(cognate) 아미노산들의 수에 대해 진단할 것이다.
이전의 접근법에서와 같이, 표지화된 비-특정적 펩티다제(420)는 예컨대, 분열 이벤트들(도 4, 삽화 패널) 사이에서 최적의 시간 윈도우들을 부여하기 위하여, 표지화된 친화도 시약(410)보다 상대적으로 더 낮은 농도에서 존재할 것이다. 일부 실시예들에서, 표지화된 비-특정적 펩티다제(420)의 고유하게 식별가능한 발광성 표지는 분열 이벤트들이 언제 발생하였는지를 표시할 수 있다. 폴리펩티드는 반복적 분열을 거치므로, 표지화된 친화도 시약(410)에 의한 결합에 대응하는 펄스화의 레이트는 말단 아미노산이 표지화된 비-특정적 펩티다제(420)에 의해 분열될 때마다 스텝별(step-wise) 방식으로 하락할 것이다. 이 개념은 도표(401)에 의해 예시되고, 이 도표(401)는 펄스 레이트를 시간의 함수로서 일반적으로 도시하고, 시간에서의 분열 이벤트들은 화살표들에 의해 나타내어진다. 따라서, 일부 실시예들에서, 아미노산들은 펄스화 패턴 및/또는 분열 이벤트들 사이에서 검출된 패턴 내에서 발생하는 펄스화의 레이트에 기초하여 이 접근법에서 식별될 수 있고, 폴리펩티드들은 이에 의해 서열화될 수 있다.
단백질 식별을 위한 머신 학습 기법들
도 5a는 설명된 기술의 양태들이 구현될 수 있는 시스템(500)을 도시한다. 시스템(500)은 단백질 서열화 디바이스(502), 모델 훈련 시스템(504), 및 데이터 저장소(506)를 포함하고, 그 각각은 네트워크(508)에 접속된다.
일부 실시예들에서, 단백질 서열화 디바이스(502)는 (예컨대, 도 1 내지 도 4를 참조하여 위에서 설명된 바와 같은) 단백질들의 폴리펩티드들의 서열화로부터 획득된 데이터를 저장을 위한 데이터 저장소(506)로 송신하도록 구성될 수 있다. 단백질 서열화 디바이스(502)에 의해 수집될 수 있는 데이터의 예들은 본 명세서에서 설명된다. 단백질 서열화 디바이스(502)는 네트워크(508)를 통해 모델 훈련 시스템(504)으로부터 머신 학습 모델을 획득하도록 구성될 수 있다. 일부 실시예들에서, 단백질 서열화 디바이스(502)는 훈련된 머신 학습 모델을 이용하여 폴리펩티드를 식별하도록 구성될 수 있다. 단백질 서열화 디바이스(502)는 (1) 폴리펩티드의 아미노산 서열화로부터 수집된 데이터를 액세스하고; (2) 출력을 획득하기 위하여 데이터를 훈련된 머신 학습 모델에 대한 입력으로서 제공하고; (3) 폴리펩티드를 식별하기 위하여 대응하는 출력을 이용함으로써, 알려지지 않은 폴리펩티드를 식별하도록 구성될 수 있다. 단백질 서열화 디바이스(502)의 컴포넌트들은 도 5b 내지 도 5c를 참조하여 본 명세서에서 설명된다.
도 5a에서 예시된 예시적인 시스템(500)은 단일 단백질 서열화 디바이스를 도시하지만, 일부 실시예들에서, 시스템(500)은 다수의 단백질 서열화 디바이스들을 포함할 수 있다.
일부 실시예들에서, 모델 훈련 시스템(504)은, 데이터 저장소(506)에서 저장된 데이터를 액세스하고, 폴리펩티드들을 식별할 시의 이용을 위한 머신 학습 모델을 훈련시키기 위하여 액세스된 데이터를 이용하도록 구성된 컴퓨팅 디바이스일 수 있다. 일부 실시예들에서, 모델 훈련 시스템(504)은 다수의 단백질 서열화 디바이스들의 각각에 대한 별도의 머신 학습 모델을 훈련시키도록 구성될 수 있다. 예로서, 모델 훈련 시스템(504)은 (1) 아미노산 서열화로부터 제1 단백질 서열화 디바이스에 의해 수집된 데이터를 이용하여 제1 단백질 서열화 디바이스에 대한 제1 머신 학습 모델을 훈련시킬 수 있고; (2) 아미노산 서열화로부터 제2 단백질 서열화 디바이스에 의해 수집된 데이터를 이용하여 제2 단백질 서열화 디바이스에 대한 제2 머신 학습 모델을 훈련시킬 수 있다. 디바이스들의 각각에 대한 별도의 머신 학습 모델은 각자의 단백질 서열화 디바이스들의 고유한 특성들로 맞추어질 수 있다. 일부 실시예들에서, 모델 훈련 시스템(504)은 단일 훈련된 머신 학습 모델을 다수의 단백질 서열화 디바이스들에 제공하도록 구성될 수 있다. 예로서, 모델 훈련 시스템(504)은 다수의 단백질 서열화 디바이스들에 의해 수행된 아미노산 서열화로부터 수집된 데이터를 집합시킬 수 있고, 단일 머신 학습 모델을 훈련시킬 수 있다. 단일 머신 학습 모델은 디바이스 변동으로부터 기인하는 모델 파라미터들을 완화시키기 위하여 다수의 단백질 서열화 디바이스들에 대해 정규화(normalize)될 수 있다.
일부 실시예들에서, 모델 훈련 시스템(504)은 이전에 훈련된 머신 학습 모델을 주기적으로 업데이팅하도록 구성될 수 있다. 일부 실시예들에서, 모델 훈련 시스템(504)은 새로운 훈련 데이터를 이용하여 머신 학습 모델의 하나 이상의 파라미터들의 값들을 업데이팅함으로써 이전에 훈련된 모델을 업데이팅하도록 구성될 수 있다. 일부 실시예들에서, 모델 훈련 시스템(504)은 이전에 획득된 훈련 데이터 및 새로운 훈련 데이터의 조합을 이용하여 새로운 머신 학습 모델을 훈련시킴으로써 머신 학습 모델을 업데이팅하도록 구성될 수 있다.
모델 훈련 시스템(504)은 상이한 유형들의 이벤트들 중의 임의의 하나에 응답하여 머신 학습 모델을 업데이팅하도록 구성될 수 있다. 예를 들어, 일부 실시예들에서, 모델 훈련 시스템(504)은 사용자 커맨드에 응답하여 머신 학습 모델을 업데이팅하도록 구성될 수 있다. 예로서, 모델 훈련 시스템(504)은 사용자가 훈련 프로세스의 성능을 이를 통해 명령할 수 있는 사용자 인터페이스를 제공할 수 있다. 일부 실시예들에서, 모델 훈련 시스템(504)은 자동적으로(즉, 사용자 커맨드에 응답하지 않음), 예를 들어, 소프트웨어 커맨드에 응답하여 머신 학습 모델을 업데이팅하도록 구성될 수 있다. 또 다른 예로서, 일부 실시예들에서, 모델 훈련 시스템(504)은 하나 이상의 조건들을 검출하는 것에 응답하여 머신 학습 모델을 업데이팅하도록 구성될 수 있다. 예를 들어, 모델 훈련 시스템(504)은 시간의 주기의 만료를 검출하는 것에 응답하여 머신 학습 모델을 업데이팅할 수 있다. 또 다른 예로서, 모델 훈련 시스템(504)은 새로운 훈련 데이터의 임계량을 수신하는 것에 응답하여 머신 학습 모델을 업데이팅할 수 있다.
일부 실시예들에서, 모델 훈련 시스템(504)은 감독된 학습 훈련 알고리즘을 표지화된 훈련 데이터에 적용함으로써 머신 학습 모델을 훈련시키도록 구성될 수 있다. 예로서, 모델 훈련 시스템(504)은 확률론적 경도 하강(stochastic gradient descent)을 이용함으로써 심층 학습 모델(예컨대, 신경망)을 훈련시키도록 구성될 수 있다. 또 다른 예로서, 모델 훈련 시스템(504)은 비용 함수(cost function)를 최적화함으로써 SVM의 판정 경계(decision boundary)들을 식별하기 위하여 지원 벡터 머신(support vector machine)(SVM)을 훈련시킬 수 있다. 일부 실시예들에서, 모델 훈련 시스템(504)은 비감독된 학습 알고리즘을 훈련 데이터에 적용함으로써 머신 학습 모델을 훈련시키도록 구성될 수 있다. 예로서, 모델 훈련 시스템(504)은 k-평균 클러스터링(k-means clustering)을 수행함으로써 클러스터링 모델의 클러스터들을 식별할 수 있다. 일부 실시예들에서, 모델 훈련 시스템(504)은 반-감독된 학습 알고리즘을 훈련 데이터에 적용함으로써 머신 학습 모델을 훈련시키도록 구성될 수 있다. 예로서, 모델 훈련 시스템(504)은 (1) 비감독된 학습 알고리즘(예컨대, 클러스터링)을 훈련 데이터에 적용하고; (2) 감독된 학습 알고리즘을 표지화된 훈련 데이터에 적용함으로써, 비표지화된 훈련 데이터의 세트를 표지화할 수 있다.
일부 실시예들에서, 머신 학습 모델은 심층 학습 모델(예컨대, 신경망)을 포함할 수 있다. 예로서, 심층 학습 모델은 콘볼루션 신경망(CNN), 순환 신경망(recurrent neural network)(RNN), 멀티-계층 퍼셉트론(multi-layer perceptron), 오토인코더(autoencoder), 및/또는 CTC-피팅된 신경망 모델을 포함할 수 있다. 일부 실시예들에서, 머신 학습 모델은 클러스터링 모델을 포함할 수 있다. 예로서, 클러스터링 모델은 다수의 클러스터들을 포함할 수 있고, 클러스터들의 각각은 하나 이상의 아미노산들과 연관될 수 있다.
일부 실시예들에서, 머신 학습 모델은 하나 이상의 혼합 모델들을 포함할 수 있다. 모델 훈련 시스템(504)은 머신 학습 모델의 그룹들(예컨대, 클래스들 또는 그룹들)의 각각에 대한 혼합 모델을 훈련시키도록 구성될 수 있다. 예로서, 머신 학습 모델은 6 개의 상이한 그룹들을 포함할 수 있다. 모델 훈련 시스템(504)은 그룹들의 각각을 위한 가우시안 혼합 모델(GMM)을 훈련시킬 수 있다. 모델 훈련 시스템(504)은 각자의 그룹과 연관된 아미노산(들)을 수반하는 결합 상호작용들을 위한 훈련 데이터를 이용하여 각자의 그룹을 위한 GMM을 훈련시킬 수 있다. 본 명세서에서 설명된 기술의 양태들은 이 점에서 제한되지 않으므로, 머신 학습 모델들의 상기한 예들은 비-제한적인 예들이고, 임의의 다른 적당한 유형의 머신 학습 모델은 다른 실시예들에서 이용될 수 있다는 것이 인식되어야 한다.
일부 실시예들에서, 데이터 저장소(506)는 데이터를 저장하기 위한 시스템일 수 있다. 일부 실시예들에서, 데이터 저장소(506)는 하나 이상의 컴퓨터들(예컨대, 서버들)에 의해 호스팅된 하나 이상의 데이터베이스들을 포함할 수 있다. 일부 실시예들에서, 데이터 저장소(508)는 하나 이상의 물리적 저장 디바이스들을 포함할 수 있다. 예로서, 물리적 저장 디바이스(들)는 하나 이상의 솔리드 스테이트 드라이브들, 하드 디스크 드라이브들, 플래시 드라이브들, 및/또는 광학 드라이브들을 포함할 수 있다. 일부 실시예들에서, 데이터 저장소(506)는 데이터를 저장하는 하나 이상의 파일들을 포함할 수 있다. 예로서, 데이터 저장소(506)는 데이터를 저장하는 하나 이상의 텍스트 파일들을 포함할 수 있다. 또 다른 예로서, 데이터 저장소(506)는 하나 이상의 XML 파일들을 포함할 수 있다. 일부 실시예들에서, 데이터 저장소(506)는 컴퓨팅 디바이스의 스토리지(예컨대, 하드 드라이브)일 수 있다. 일부 실시예들에서, 데이터 저장소(506)는 클라우드 저장 시스템일 수 있다.
일부 실시예들에서, 네트워크(508)는 무선 네트워크, 유선 네트워크, 또는 그 임의의 적합한 조합일 수 있다. 하나의 예로서, 네트워크(508)는 인터넷과 같은 광역 네트워크(Wide Area Network)(WAN)일 수 있다. 일부 실시예들에서, 네트워크(508)는 로컬 영역 네트워크(local area network)(LAN)일 수 있다. 로컬 영역 네트워크는 단백질 서열화 디바이스(502), 모델 훈련 시스템(504), 및 데이터 저장소(506) 사이의 유선 및/또는 무선 접속들에 의해 형성될 수 있다. 일부 실시예들은 본 명세서에서 설명된 임의의 특정한 유형의 네트워크로 제한되지 않는다.
도 5b는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 도 5a에서 도시된 단백질 서열화 디바이스(502)의 컴포넌트들을 도시한다. 단백질 서열화 디바이스(502)는 하나 이상의 여기 소스들(502A), 하나 이상의 웰들(502B), 하나 이상의 센서들(502C), 및 단백질 식별 시스템(502D)을 포함한다.
일부 실시예들에서, 여기 소스(들)(502A)는 여기 에너지(예컨대, 광의 펄스들)를 다수의 상이한 웰들(502B)에 인가하도록 구성된다. 일부 실시예들에서, 여기 소스(들)(502A)는 하나 이상의 광 방출기들일 수 있다. 예로서, 여기 소스(들)(502A)는 레이저 광의 펄스들을 방출하는 하나 이상의 레이저 광 방출기들을 포함할 수 있다. 또 다른 예로서, 여기 소스(들)(502A)는 광의 펄스들을 방출하는 하나 이상의 발광 다이오드(light emitting diode)(LED) 광원들을 포함할 수 있다. 일부 실시예들에서, 여기 소스(들)(502A)는 방사선(radiation)을 생성하는 하나 이상의 디바이스들일 수 있다. 예로서, 여기 소스(들)(502A)는 자외선(ultra violet)(UV) 광선들을 방출할 수 있다.
일부 실시예들에서, 여기 소스(들)(502A)는 웰들(502B)에 인가되는 여기 펄스들을 생성하도록 구성될 수 있다. 일부 실시예들에서, 여기 펄스들은 광(예컨대, 레이저 광)의 펄스들일 수 있다. 여기 소스(들)(502A)는 여기 펄스들을 웰들(502B)에 지향하도록 구성될 수 있다. 일부 실시예들에서, 여기 소스(들)(502A)는 여기 펄스들을 각자의 웰에 반복적으로 인가하도록 구성될 수 있다. 예로서, 여기 소스(들)(502A)는 100 MHz의 주파수에서 레이저 펄스들을 방출할 수 있다. 발광성 표지로의 광 펄스의 인가는 발광성 표지가 광을 방출하게 할 수 있다. 예로서, 발광성 표지는 인가된 광 펄스들의 하나 이상의 광자들을 흡수할 수 있고, 이에 응답하여, 하나 이상의 광자들을 방출할 수 있다. 상이한 유형들의 발광성 표지들(예컨대, 발광성 분자들)은 여기 에너지의 인가에 상이하게 응답할 수 있다. 예로서, 상이한 유형들의 발광성 표지들은 광의 펄스에 응답하여 상이한 수들의 광자들을 배출할 수 있고/있거나 광의 펄스에 응답하여 상이한 주파수들에서 광자들을 배출할 수 있다.
일부 실시예들에서, 웰(들)(502B)의 각각은 검체의 하나 이상의 샘플들(예컨대, 단백질 폴리펩티드들의 샘플들)을 유지하도록 구성된 컨테이너(container)를 포함할 수 있다. 일부 실시예들에서, 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들은 (예컨대, 도 1 내지 도 4를 참조하여 위에서 설명된 바와 같이) 웰(들)(502B)에서 발생할 수 있다. 시약(들)은 발광성 표지들로 표지화될 수 있다. 여기 소스(들)(502A)에 의해 인가된 여기 에너지에 응답하여, 발광성 표지들은 광을 방출할 수 있다.
도 5b의 일 예의 실시예에서 도시된 바와 같이, 일부 실시예들에서, 웰(들)(502B)은 웰들의 매트릭스(matrix)로 배열될 수 있다. 매트릭스에서의 각각의 웰은 검체의 하나 이상의 샘플들을 유지하도록 구성된 컨테이너를 포함할 수 있다. 일부 실시예들에서, 웰(들)(502B)은 도 5b에서 예시된 것과 상이한 배열로 배치될 수 있다. 예로서, 웰(들)(502B)은 중심 축 주위에서 방사상으로 배열될 수 있다. 일부 실시예들은 웰(들)(502B)의 특정한 배열로 제한되지 않는다.
일부 실시예들에서, 센서(들)(502C)는 웰(들)(502B)로부터의 (예컨대, 발광성 표지들에 의한) 광 방출들을 검출하도록 구성될 수 있다. 일부 실시예들에서, 센서(들)(502C)는 검출된 광 방출들을 전기적 신호들로 변환하도록 구성된 하나 이상의 광검출기들일 수 있다. 예로서, 센서(들)(502C)는 광 방출들을 전기적 전압 또는 전류로 변환할 수 있다. 전기적 전압 또는 전류는 디지털 신호로 추가로 변환될 수 있다. 생성된 신호는 폴리펩티드의 식별을 위하여 (예컨대, 단백질 식별 시스템(502C)에 의해) 이용될 수 있다. 일부 실시예들에서, 센서(들)(502C)에 의해 생성된 신호들은 광 방출들의 다양한 성질들의 값들을 획득하기 위하여 프로세싱될 수 있다. 예로서, 신호들은 광 방출의 강도들, 광 방출의 기간, 광 방출들 사이의 기간들, 및 광 방출들의 수명의 값들을 획득하기 위하여 프로세싱될 수 있다.
일부 실시예들에서, 센서(들)(502C)는 측정 주기에 걸쳐 발광성 표지들에 의한 광 방출들을 측정하도록 구성될 수 있다. 예로서, 센서(들)(502C)는 10 ms 측정 주기에 걸쳐 광자 수를 측정할 수 있다. 일부 실시예들에서, 발광성 표지는 각자의 확률로 여기에 응답하여 광자들을 방출할 수 있다. 예로서, 발광성 표지는 매 10,000 여기들 내에 1 광자를 방출할 수 있다. 발광성 표지가 10 ms 측정 주기 내에서 1 백만 회 여기될 경우에, 대략 100 개의 광자들이 이 예에서 센서(들)(502C)에 의해 검출될 수 있다. 상이한 발광성 표지들은 상이한 확률들로 광자들을 방출할 수 있다. 본 명세서에서 설명된 값들은 예시적인 목적들을 위한 것이므로, 일부 실시예들은 본 명세서에서 설명된 광자 방출의 임의의 특정한 확률로 제한되지 않는다.
일부 실시예들에서, 센서(들)(502C)는 여기 펄스(예컨대, 레이저 펄스)의 인가에 후속하여, 시간 주기의 다수의 시간 간격들의 각각에서 검출된 광자 수("광자 카운트")를 결정하도록 구성될 수 있다. 시간 간격은 또한, "간격", "빈(bin)", 또는 "시간 빈(time bin)"으로서 본 명세서에서 지칭될 수 있다. 예로서, 센서(들)(502C)는 여기 펄스의 인가 후의 대략 3 ns의 제1 시간 간격에서 검출된 광자 수, 및 레이저 펄스의 인가 후의 대략 3 ns의 제2 간격에서 검출된 광자 수를 결정할 수 있다. 일부 실시예들에서, 시간 간격들은 실질적으로 동일한 기간을 가질 수 있다. 일부 실시예들에서, 시간 간격들은 상이한 기간들을 가질 수 있다. 일부 실시예들에서, 센서(들)(502C)는 여기 펄스의 인가에 후속하여, 시간 주기의 2, 3, 4, 5, 6, 또는 7 개의 시간 간격들에서 검출된 광자 수를 결정하도록 구성될 수 있다. 일부 실시예들은 센서(들)(502C)가 검출된 광자 수를 결정하도록 구성되는 시간 간격들의 임의의 수로 제한되지 않는다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 센서(들)(502C)에 의해 수집된 데이터에 기초하여 폴리펩티드를 식별하도록 구성된 컴퓨팅 디바이스일 수 있다. 단백질 식별 시스템(502D)은 폴리펩티드를 식별하기 위하여 단백질 식별 시스템(502D)에 의해 이용되는 머신 학습 모델을 포함한다. 일부 실시예들에서, 훈련된 머신 학습 모델은 도 5a를 참조하여 위에서 설명된 모델 훈련 시스템(504)으로부터 획득될 수 있다. 단백질 식별 시스템(502D)에 의해 이용될 수 있는 머신 학습 모델들의 예들이 본 명세서에서 설명된다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 폴리펩티드를 식별할 시의 이용을 위한 출력을 획득하기 위하여 센서(들)(502C)에 의해 수집된 데이터를 이용하여 머신 학습 모델에 대한 입력을 생성하도록 구성될 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 머신 학습 모델에 대한 (추가적인 프리-프로세싱을 갖거나 갖지 않는) 입력으로서 제공하기 위한 데이터를 생성하기 위하여 센서(들)(502C)에 의해 수집된 데이터를 프로세싱하도록 구성될 수 있다. 예로서, 단백질 식별 시스템(502D)은 센서(들)(502C)에 의해 검출된 결합 상호작용들의 하나 이상의 성질들의 값들을 결정함으로써 머신 학습 모델에 대한 입력으로서 제공하기 위한 데이터를 생성할 수 있다. 결합 상호작용들의 일 예의 성질들이 본 명세서에서 설명된다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 데이터를 데이터 구조(예컨대, 행렬 또는 이미지) 내로 배열함으로써 머신 학습 모델에 대한 입력으로서 제공하기 위한 데이터를 생성하도록 구성될 수 있다. 예로서, 단백질 식별 시스템(502D)은 하나 이상의 여기 펄스들(예컨대, 레이저 펄스들)의 인가에 후속하여, 시간 주기들의 시간 간격들에서 검출된 광자 카운트들을 식별할 수 있다. 단백질 식별 시스템(502D)은 광자 카운트들을 머신 학습 모델로 입력하기 위한 데이터 구조 내로 배열하도록 구성될 수 있다. 예로서, 단백질 식별 시스템(502D)은 여기 펄스들을 뒤따르는 광자 카운트들을 행렬의 열(column)들 또는 행(row)들로 배열할 수 있다. 또 다른 예로서, 단백질 식별 시스템(502D)은 머신 학습 모델로의 입력을 위한 이미지를 생성할 수 있고, 여기서, 이미지의 픽셀들은 각자의 광자 카운트들을 특정한다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 "발광 강도"로서 본 명세서에서 지칭될 수 있는, 발광성 표지에 의한 광 방출들의 강도의 표시를 결정하도록 구성될 수 있다. 발광 강도는 여기 에너지(예컨대, 레이저 펄스들)의 인가에 응답하여 발광성 표지에 의해 시간 단위 당 방출된 광자 수일 수 있다. 예로서, 단백질 식별 시스템(502D)이 5 개의 총 광자들이 여기 펄스의 인가 후의 10 ns 측정 시간 주기에서 검출된 것으로 결정할 경우에, 단백질 식별 시스템(502D)은 발광 강도 값을 0.5 광자들/ns인 것으로 결정할 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 다수의 여기 펄스들 중의 각각의 여기 펄스의 인가 후에 검출된 총 광자 수에 기초하여 발광 강도의 표시를 결정하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 다수의 여기 펄스들의 인가 후에 검출된 평균 광자 수를 발광 강도의 표시인 것으로 결정할 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 "발광 수명"으로서 본 명세서에서 지칭될 수 있는, 발광성 표지에 의한 광 방출들의 수명의 표시를 결정하도록 구성될 수 있다. 발광 수명은 광자 방출의 확률이 시간에 걸쳐 감쇠(decay)하는 레이트일 수 있다. 예로서, 단백질 식별 시스템(502D)이 여기 펄스의 인기 후의 시간 주기의 2 개의 간격들에서 검촐된 광자 수를 결정할 경우에, 단백질 식별 시스템(502D)은 제1 간격에서의 광자 수에 대한 제2 간격에서의 광자 수의 비율을 시간에 걸친 광자 방출들의 감쇠의 표시인 것으로 결정할 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 아미노산과 시약의 결합 상호작용을 위하여 검출된 하나 이상의 신호 펄스들 중의 각각의 신호 펄스의 기간의 표시를 결정하도록 구성될 수 있다. 신호 펄스의 기간은 또한, "펄스 기간"으로서 본 명세서에서 지칭될 수 있다. 예를 들어, 아미노산과 시약의 결합 상호작용 동안에, 시약 및/또는 아미노산이 표지화되는 발광성 표지는 광의 하나 이상의 펄스들을 방출할 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 광 펄스의 기간을 펄스 기간 값인 것으로 결정하도록 구성될 수 있다. 예로서, 위에서 논의된 도 3은 아미노산(K)과 표지화된 시약(310)의 결합 상호작용 동안에 방출된 광의 일련의 펄스들을 예시한다. 단백질 식별 시스템(502D)은 펄스 기간 값들을, 도 3에서 도시된 아미노산(K)을 수반하는 결합 상호작용을 위한 광의 펄스들의 기간들인 것으로 결정하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 펄스 기간 값을, 전기적 센서(예컨대, 전압 센서)에 의해 검출된 전기적 펄스의 기간인 것으로 결정하도록 구성될 수 있다. 일부 실시예들은 펄스 기간을 검출하는 특정한 기법으로 제한되지 않는다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 아미노산과 시약의 결합 상호작용을 위하여 검출된 연속적인 신호 펄스들 사이의 시간의 기간의 표시를 결정하도록 구성될 수 있다. 연속적인 신호 펄스들 사이의 시간의 기간은 또한, "펄스간 기간"으로서 본 명세서에서 지칭될 수 있다. 결합 상호작용들의 각각 동안에, 발광성 표지는 광의 다수의 펄스들을 방출할 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 펄스간 기간 값을 광의 2 개의 연속적인 펄스들 사이의 시간의 기간인 것으로 결정하도록 구성될 수 있다. 예로서, 단백질 식별 시스템(502D)은 펄스간 기간 값들을, 도 3에서 도시된 아미노산(K)과 시약의 결합 상호작용을 위한 광 펄스들 사이의 시간의 기간들인 것으로 결정할 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 펄스간 기간 값을, 전기적 센서(예컨대, 전압 센서)에 의해 검출된 전기적 펄스들 사이의 기간인 것으로 결정하도록 구성될 수 있다. 일부 실시예들은 펄스 기간을 검출하는 특정한 기법으로 제한되지 않는다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 본 명세서에서 설명된 결합 상호작용들의 하나 이상의 성질들로부터 결정된 하나 이상의 파라미터들의 값들을 결정하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 성질의 값들의 세트를 가로질러서 요약 통계를 결정하도록 구성될 수 있다. 예로서, 시스템은 펄스 기간 값들, 펄스간 기간 값들, 발광 강도 값들, 발광 수명 값들, 및/또는 파장 값들의 세트의 평균(mean), 중위(median), 표준 편차(standard deviation), 및/또는 범위(range)를 결정할 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 결합 반응을 위한 평균 펄스 기간 값을 결정하도록 구성될 수 있다. 예로서, 단백질 식별 시스템(502D)은 도 3에서 도시된 아미노산(K)의 결합 상호작용의 평균 펄스 기간 값을, 결합 상호작용 동안에 방출된 광 펄스의 평균 기간인 것으로 결정할 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 결합 반응을 위한 평균 펄스간 기간 값을 결정하도록 구성될 수 있다. 예로서, 단백질 식별 시스템(502D)은 도 3에서 도시된 아미노산(K)의 결합 상호작용을 위한 평균 펄스간 기간 값을, 결합 상호작용 동안에 방출된 연속적인 광 펄스들 사이의 기간의 평균인 것으로 결정할 수 있다. 일부 실시예들에서, 파라미터들은 시약들 및/또는 발광성 표지들의 성질들을 포함할 수 있다. 일부 실시예들에서, 성질들은 성질들의 값들을 이용하는 시약들 및/또는 발광성 표지들의 운동 상수(kinetic constant)들을 포함할 수 있다. 예로서, 시스템은 펄스 기간 및/또는 펄스간 기간 값들을 이용하여 결합 친화도(KD), 결합의 온 레이트(on rate)(kon), 및/또는 결합의 오프 레이트(off rate)(koff)를 결정할 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 펄스간 기간에 대한 펄스 기간의 비율, 발광 강도에 대한 발광 수명의 비율, 및/또는 성질들의 값들로부터 결정될 수 있는 임의의 다른 값을 표시하는 값들을 결정하도록 구성될 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 제공된 입력에 응답하여 훈련된 머신 학습 모델로부터의 출력을 획득하도록 구성될 수 있다. 단백질 식별 시스템(502D)은 폴리펩티드를 식별하기 위하여 출력을 이용하도록 구성될 수 있다. 일부 실시예들에서, 출력은 폴리펩티드에서의 다수의 위치들의 각각에 대하여, 하나 이상의 아미노산들이 폴리펩티드에서의 위치에 있을 하나 이상의 우도들을 표시할 수 있다. 예로서, 출력은 위치들의 각각에 대하여, 20 개의 자연적으로 발생하는 아미노산들의 각각이 위치에서 존재할 우도를 표시할 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 정규화될 수 있거나 비-정규화될 수 있는 우도들을 정규화하도록 구성될 수 있다. 일부 실시예들에서, 정규화된 우도는 "확률" 또는 "정규화된 우도"로서 지칭될 수 있다. 일부 실시예들에서, 확률들은 1로 합산될 수 있다. 예를 들어, 4 개의 아미노산들이 위치에서 존재할 우도들은 5, 5, 5, 및 5일 수 있다. 이 예의 확률들(또는 정규화된 우도들)은 0.25, 0.25, 0.25, 및 0.25일 수 있다.
일부 실시예들에서, 폴리펩티드에서의 다수의 위치들의 각각에 대하여, 출력은 아미노산(들)의 각각에 대하여, 아미노산이 위치에서 존재할 확률을 표시하는 확률 분포일 수 있다. 출력은 각각의 아미노산에 대한 확률을 다른 아미노산들에 대한 위치로서 표시할 수 있거나, 폴리펩티드 내에서의 아미노산의 절대적인 위치에 대한 확률을 표시할 수 있다. 각각의 위치에 대하여, 예를 들어, 출력은 아미노산이 위치에서 존재할 확률을 표시하는, 20 개의 아미노산들의 각각에 대한 값을 특정한다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 폴리펩티드의 아미노산 서열을 식별하는 출력을 획득하도록 구성될 수 있다. 예로서, 머신 학습 모델의 출력은 폴리펩티드의 부분을 형성하는 아미노산들의 사슬을 식별하는 글자들의 서열일 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 폴리펩티드를 식별하기 위하여 머신 학습 모델로부터 획득된 출력을 이용하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 머신 학습 모델로부터 획득된 출력을 단백질들의 데이터베이스에서의 단백질에 정합하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 각자의 단백질들을 특정하는 알려진 아미노산 서열들의 데이터 저장소를 액세스할 수 있다. 단백질 식별 시스템(502D)은 머신 학습 모델로부터의 출력이 최상으로 정렬하는 데이터 저장소로부터의 아미노산 서열을 식별함으로써 머신 학습 모델의 출력을 단백질에 정합하도록 구성될 수 있다. 예로서, 출력이 다양한 아미노산들이 폴리펩티드에서의 위치들에서 존재할 우도들을 표시할 때, 시스템은 출력이 데이터 저장소에서의 서열들로부터 가장 근접하게 정렬하는 아미노산 서열을 식별할 수 있다. 단백질 식별 시스템(502D)은 식별된 아미노산 서열에 의해 단백질인 것으로 특정된 각자의 단백질을 식별할 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 머신 학습 시스템으로부터의 획득된 출력에 기초하여 은닉된 마코브 모델(HMM)을 생성하고, HMM을 알려진 아미노산 서열들에 정합하도록 구성될 수 있다. 단백질 식별 시스템(502D)은 단백질을, HMM이 정합되는 아미노산 서열과 연관된 것으로서 식별할 수 있다. 또 다른 예로서, 머신 학습 시스템의 출력은 아미노산 서열을 식별할 수 있다. 단백질 식별 시스템(502D)은 데이터 저장소로부터, 머신 학습 시스템의 출력에 의해 식별된 아미노산 서열과 가장 근접하게 정합하는 아미노산 서열을 선택할 수 있다. 단백질 식별 시스템(502D)은 머신 학습 시스템의 출력에 의해 식별된 아미노산 서열로부터 어느 알려진 아미노산 서열이 가정 적은 불일치들을 가지는지를 결정함으로써 가장 근접한 정합을 결정할 수 있다. 단백질 식별 시스템(502D)은 단백질을 데이터 저장소로부터 선택된 아미노산 서열과 연관된 것으로서 식별할 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 단백질 서열화 디바이스(502)를 교정(calibrate)하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 머신 학습 모델을 훈련시킴으로써 단백질 서열화 디바이스(502)를 교정하도록 구성될 수 있다. 단백질 식별 시스템(502D)은 모델 훈련 시스템(504)을 참조하여 설명된 접근법들 중의 하나 이상을 이용하여 머신 학습 모델을 훈련시키도록 구성될 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 하나 이상의 알려진 폴리펩티드들(예컨대, 아미노산 서열(들)은 부분적으로 또는 전체적으로 알려져 있음)과 연관된 데이터를 이용하여 머신 학습 모델을 훈련시킴으로써 단백질 서열화 디바이스(502)를 교정하도록 구성될 수 있다. 알려진 폴리펩티드 서열들과 연관된 데이터로 훈련을 수행함으로써, 단백질 식별 시스템(502D)은 상이한 아미노산들 및/또는 단백질들 사이를 더 정확하게 구별하는 출력을 제공하는 머신 학습 모델을 획득할 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 아미노산 서열들이 부분적으로 또는 전체적으로 알려져 있는 폴리펩티드들의 아미노산들과 시약들의 결합 상호작용들 동안에 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 데이터를 이용하도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 출력을 생성하기 위하여 머신 학습 모델에 의해 이용될 수 있는 하나 이상의 그룹들(예컨대, 클래스들 및/또는 클러스터들)을 식별하기 위하여 훈련 알고리즘을 데이터에 적용하도록 구성될 수 있다.
일부 실시예들에서, 머신 학습 모델은 클러스터링 모델을 포함할 수 있고, 단백질 식별 시스템(502D)은 클러스터링 모델의 클러스터들을 식별하기 위하여 비감독된 학습 알고리즘(예컨대, k-평균)을 적용함으로써 단백질 서열화 디바이스(502)를 교정하도록 구성될 수 있다. 식별된 클러스터들은 그 다음으로, 알려지지 않은 폴리펩티드들을 식별 시의 이용을 위한 출력들을 생성하기 위하여 머신 학습 모델에 의해 이용될 수 있다. 예로서, 단백질 식별 시스템(502D)은 머신 학습 모델로 입력된 데이터를 위한 출력을 생성하기 위하여 머신 학습 모델에 의해 이용될 수 있는 클러스터들의 도심(centroid)들을 식별할 수 있다. 또 다른 예로서, 단백질 식별 시스템(502D)은 (예컨대, 펄스 기간, 펄스간 기간, 파장, 발광 강도, 발광 수명, 및/또는 이러한 및/또는 다른 성질들로부터 유도된 임의의 다른 값에 기초하여) 아미노산들의 상이한 그룹들 사이의 경계들을 식별할 수 있다. 경계들에 대한 데이터 포인트의 포지션은 그 다음으로, 머신 학습 모델에 대한 각자의 입력을 위한 출력을 생성하기 위하여 머신 학습 모델에 의해 이용될 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 웰들(502B)의 각각을 위한 단백질 서열화 디바이스(502)를 교정하도록 구성될 수 있다. 단백질 식별 시스템(502D)은 각각의 개별적인 웰에 대하여, 개별적인 웰에서 발생한 결합 상호작용들을 위하여 획득된 데이터를 이용하여 각자의 머신 학습 모델을 훈련시키도록 구성될 수 있다. 이것은 개별적인 웰들(502B)에 대해 미세-조율되는 단백질 서열화 디바이스(502)를 제공할 것이다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 다수의 웰들을 위한 단백질 서열화 디바이스(502)를 교정하도록 구성될 수 있다. 단백질 식별 시스템(502D)은 서열화기의 다수의 웰들을 가로질러서 발생한 결합 상호작용들을 위하여 획득된 데이터를 이용하여 머신 학습 모델을 훈련시키도록 구성될 수 있다. 일부 실시예들에서, 단백질 식별 시스템(502D)은 다수의 웰들을 위하여 이용될 수 있는 일반화된 모델을 획득하도록 구성될 수 있다. 일반화된 모델은 개별적인 웰로부터 획득된 데이터에서의 특이성(idiosyncrasy)들을 평균화할 수 있거나 그렇지 않을 경우에 평활화할 수 있고 다수의 웰들을 가로질러서 양호한 성능을 가질 수 있는 반면, 특정한 웰에 맞추어진 모델은 특정한 웰로부터 획득된 미래의 데이터에 대해 더 양호하게 수행될 수 있지만, 다수의 상이한 웰들로부터의 미래의 데이터에 대해 더 양호하게 수행하지 않을 수 있다.
일부 실시예들에서, 단백질 식별 시스템(502D)은 개별적인 웰로부터 획득된 데이터를 이용함으로써 다수의 웰들을 위하여 생성된 일반화된 모델을 특정한 개별적인 웰에 적응시키도록 구성될 수 있다. 예로서, 단백질 식별 시스템(502D)은 웰에서의 결합 상호작용들을 위하여 획득된 데이터에 기초하여 각자의 웰에 대한 일반화된 모델의 클러스터 도심들을 변형할 수 있다.
다수의 웰들에 대한 단일 모델을 교정하는 것은 각각의 개별적인 웰로부터의 더 적은 데이터를 요구하는 장점을 가질 수 있고, 이에 따라, 각각의 개별적인 웰에 대한 별도의 모델을 훈련시키기 위하여 요구된 것보다, 교정을 위하여 이용하기 위한 데이터를 수집하기 위한 더 적은 작동 시간을 요구할 수 있다. 일반화된 모델을 이용하는 또 다른 장점은 단일 모델을 저장하는 것이 단백질 서열화 디바이스(502)의 각각의 웰을 위한 별도의 모델들을 저장하기 위하여 요구되는 것보다 더 적은 메모리를 요구할 수 있다는 것이다.
교정은 임의의 적당한 시간에서 수행될 수 있다. 예를 들어, 교정은 단백질 서열화 디바이스(502)를 먼저 이용하기 이전에, 표지들의 새로운 세트를 이용할 시에, 단백질 서열화 디바이스(502)가 이용되는 환경적 조건들에서의 변화 시에, 또는 단백질 서열화 디바이스(502)의 컴포넌트들의 노후화를 참작하기 위한 이용의 주기 후에 바람직할 수 있다. 교정은 또한, 기기 상의 버튼을 누르는 것 또는 교정 커맨드를 또 다른 디바이스로부터 기기로 전송하는 것에 의해, 또는 자동적으로 스케줄에 기초하는 것, 또는 소프트웨어 커맨드에 응답하여 필요한 바에 기초하는 것과 같이, 사용자로부터의 요청에 응답하여 수행될 수 있다.
도 5c는 단백질 서열화 디바이스(502)의 웰들(502B) 부분의 일 예의 웰을 예시한다. 도 5c의 예시된 예에서, 웰은 서열화되고 있는 단백질의 샘플(502F), 및 샘플(502F)의 아미노산들과 결합하는 시약들(502G)을 유지한다.
일부 실시예들에서, 단백질의 샘플(502F)은 단백질의 하나 이상의 폴리펩티드들을 포함할 수 있다. 폴리펩티드(들)는 도 5c에서 예시된 바와 같은 웰의 표면에 부동화될 수 있다. 일부 실시예들에서, 샘플(502F) 데이터는 샘플(502F)의 말단 아미노산과 시약들(502G) 중의 하나 이상의 시약의 연속적인 결합 및 분열 상호작용들에 기초하여 센서(들)에 의해 수집될 수 있다. 일부 실시예들에서, 시약들(502G)은 실질적으로 동시에 샘플(502F)의 아미노산들과 결합할 수 있다. 일부 실시예들에서, 다수의 유형들의 시약들은 아미노산들의 전부 또는 서브세트와 결합하도록 가공될 수 있다. 아미노산과 결합하는 하나 이상의 시약들의 조합은 폴리펩티드를 식별하기 위하여 이용될 수 있는 결합 상호작용들의 성질들(예컨대, 발광 강도, 발광 수명, 펄스 기간, 펄스간 기간, 파장, 및/또는 이로부터 유도된 임의의 값)의 검출된 값들로 귀착될 수 있다. 일부 실시예들에서, 시약들(예컨대, 분자들)의 조합의 각각은 상이한 성질들을 가질 수 있다. 예로서, 시약들의 각각은 상이한 결합 친화도들(KD), 결합의 레이트들(kon), 및/또는 결합의 오프 레이트(koff)를 가질 수 있다. 또 다른 예로서, 시약들 및/또는 아미노산들과 연관된 발광성 표지들은 상이한 형광 성질(fluorescence property)들을 가질 수 있다. 시약들 및 아미노산들과 시약들의 결합 상호작용들의 예들은 도 1 내지 도 4를 참조하여 본 명세서에서 설명된다.
일부 실시예들에서, 시약들(502G)은 발광성 표지들로 태그될 수 있다. 시약들은 도 1 내지 도 4를 참조하여 위에서 설명된 바와 같이, 하나 이상의 아미노산들에 선택적으로 결합하도록 가공될 수 있다. 일부 실시예들에서, 폴리펩티드(502F)의 하나 이상의 아미노산들은 발광성 표지들로 태그될 수 있다. 예로서, 하나 이상의 유형들의 아미노산들은 발광성 표지들로 태그될 수 있다. 여기 소스(들)(502A)는 결합 상호작용들이 시약들(502G) 중의 하나 이상과 폴리펩티드(502F)의 아미노산들 사이에서 발생할 때, 여기 에너지(예컨대, 광 펄스들)를 웰에 인가할 수 있다. 여기 에너지의 인가는 시약들(502G) 및/또는 아미노산들이 태그되는 발광성 표지들에 의한 광 방출들로 귀착될 수 있다. 광 방출들은 데이터를 생성하기 위하여 센서(들)(502C)에 의해 검출될 수 있다. 데이터는 그 다음으로, 본 명세서에서 설명된 바와 같이 폴리펩티드를 식별하기 위하여 이용될 수 있다.
도 5a 내지 도 5c의 일 예의 실시예는 발광성 표지들에 의한 광 방출들의 검출로부터 획득된 결합 상호작용 데이터의 이용을 설명하지만, 일부 실시예들은 다른 기법들을 이용하여 결합 상호작용 데이터를 획득할 수 있다. 일부 실시예들에서, 단백질 서열화 디바이스는 결합 상호작용들을 위하여 검출된 전기적 신호들의 검출로부터 획득된 결합 상호작용 데이터를 액세스하도록 구성될 수 있다. 예를 들어, 단백질 서열화 디바이스는 결합 상호작용들에 민감한 전압 신호를 검출하는 전기적 신호들을 포함할 수 있다. 단백질 식별 시스템(502D)은 펄스 기간 값들 및/또는 펄스간 기간 값들을 결정하기 위하여 전압 신호를 이용하도록 구성될 수 있다. 일부 실시예들은 아미노산들과 시약들의 결합 상호작용들을 검출하는 특정한 기법으로 제한되지 않는다.
도 6a는 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 폴리펩티드를 식별하기 위한 머신 학습 모델을 훈련시키기 위한 일 예의 프로세스(600)를 예시한다. 프로세스(600)는 임의의 적당한 컴퓨팅 디바이스(들)에 의해 수행될 수 있다. 예로서, 프로세스(600)는 도 5a를 참조하여 설명된 모델 훈련 시스템(504)에 의해 수행될 수 있다. 프로세스(600)는 본 명세서에서 설명된 머신 학습 모델들을 훈련시키기 위하여 수행될 수 있다. 예로서, 프로세스(600)는 도 10a 내지 도 10c를 참조하여 설명된 바와 같이, 클러스터링 모델 및/또는 가우시안 혼합 모델(GMM)을 훈련시키기 위하여 수행될 수 있다. 또 다른 예로서, 프로세스(600)는 도 11을 참조하여 설명된 콘볼루션 신경망(CNN)(1100)을 훈련시키기 위하여 수행될 수 있다. 또 다른 예로서, 프로세스(600)는 도 12를 참조하여 설명된 연결주의 시간적 분류(CTC)-피팅된 신경망 모델(1200)을 훈련시키기 위하여 수행될 수 있다.
일부 실시예들에서, 머신 학습 모델은 클러스터링 모델일 수 있다. 일부 실시예들에서, 모델의 각각의 클러스터는 하나 이상의 아미노산들과 연관될 수 있다. 예시적인 예로서, 클러스터링 모델은 5 개의 클러스터들을 포함할 수 있고, 여기서, 각각의 클러스터는 아미노산들의 각자의 세트와 연관된다. 예를 들어, 제1 클러스터는 알라닌(alanine), 이소류신(isoleucine), 류신(leucine), 메티오닌(methionine), 및 발린(valine)과 연관될 수 있고; 제2 클러스터는 아스파라긴(asparagine), 시스테인(cysteine), 글루타민(glutamine), 세린(serine), 및 트레오닌(threonine)과 연관될 수 있고; 제3 클러스터는 아르기닌(arginine), 히스티딘(histidine), 및 라이신과 연관될 수 있고; 제4 클러스터는 아스파트산(aspartic acid) 및 글루탐산(glutamic acid)과 연관될 수 있고; 제5 클러스터는 페닐알라닌(phenylalanine), 트립토판(tryptophan), 및 타이로신(tyrosine)과 연관될 수 있다. 일 예의 클러스터들의 수들 및 연관된 아미노산들은 예시적인 목적들을 위하여 본 명세서에서 설명된다. 일부 실시예들은 임의의 특정한 클러스터들의 수 또는 본 명세서에서 설명된 아미노산들의 특정한 세트들과의 연관성들로 제한되지 않는다.
일부 실시예들에서, 머신 학습 모델은 심층 학습 모델일 수 있다. 일부 실시예들에서, 심층 학습 모델은 신경망일 수 있다. 예로서, 머신 학습 모델은 CNN에 대한 입력으로서 제공된 데이터의 세트에 대한 폴리펩티드의 하나 이상의 아미노산들을 식별하는 출력을 생성하는 콘볼루션 신경망(CNN)일 수 있다. 또 다른 예로서, 머신 학습 모델은 CTC-피팅된 신경망일 수 있다. 일부 실시예들에서, 심층 학습 모델의 부분들은 별도로 훈련될 수 있다. 예로서, 심층 학습 모델은 하나 이상의 특징들의 값들에서의 입력 데이터를 인코딩하는 제1 부분, 및 폴리펩티드의 하나 이상의 아미노산들을 식별하는 출력을 생성하기 위한 입력으로서 특징(들)의 값들을 수신하는 제2 부분을 가질 수 있다.
일부 실시예들에서, 머신 학습 모델은 다수의 그룹들(예컨대, 클래스들 또는 클러스터들)을 포함할 수 있고, 머신 학습 모델은 각각의 그룹에 대한 별도의 모델을 포함할 수 있다. 일부 실시예들에서, 각각의 그룹에 대한 모델은 혼합 모델일 수 있다. 예로서, 모델은 그룹과 연관된 아미노산들이 폴리펩티드에서의 위치에서 존재할 우도들을 결정하기 위하여 그룹들의 각각을 위한 가우시안 혼합 모델(GMM)을 포함할 수 있다. 각자의 그룹을 위한 GMM의 각각의 컴포넌트 분포는 각자의 그룹과 연관된 아미노산들을 표현할 수 있다. 예로서, 위의 예에서 설명된 제1 클러스터를 위한 GMM은 5 개의 컴포넌트 분포들: 알라닌을 위한 제1 분포, 이소류신을 위한 제2 분포, 류신을 위한 제3 분포, 메티오닌을 위한 제4 분포, 및 트레오닌을 위한 제5 분포를 포함할 수 있다.
프로세스(600)는 블록(602)에서 시작되고, 여기서, 프로세스(600)를 실행하는 시스템은 폴리펩티드의 아미노산들과 시약들의 결합 상호작용들 동안에 발광성 표지들에 의한 광 방출들로부터 획득된 훈련 데이터를 액세스한다. 일부 실시예들에서, 데이터는 단백질 서열화 디바이스(예컨대, 디바이스(502))의 하나 이상의 웰들에서의 아미노산들과 시약들의 결합 상호작용들을 위하여 하나 이상의 센서들(예컨대, 도 5b를 참조하여 설명된 센서(들)(502C))에 의해 수집될 수 있다. 일부 실시예들에서, 광 방출들은 하나 이상의 광 펄스들(예컨대, 레이저 펄스들)에 응답하여 방출될 수 있다.
일부 실시예들에서, 시스템은 센서(들)에 의해 수집된 데이터로부터 결합 상호작용들의 하나 이상의 성질들의 값들을 결정함으로써 훈련 데이터를 액세스하도록 구성될 수 있다. 결합 상호작용들의 성질들의 예들이 본 명세서에서 설명된다. 일부 실시예들에서, 시스템은 머신 학습 모델을 위한 입력 특징들로서 결합 상호작용들의 하나 이상의 성질들을 이용하도록 구성될 수 있다. 일부 실시예들에서, 시스템은 광 펄스들의 각각 후의 시간 주기의 다수의 시간 간격들에서 검출된 광자 수를 액세스함으로써 훈련 데이터를 액세스하도록 구성될 수 있다. 일부 실시예들에서, 시스템은 데이터를 하나 이상의 데이터 구조들(예컨대, 행렬 또는 이미지)에서 배열하도록 구성될 수 있고, 데이터 구조들의 예시적인 예들은 본 명세서에서 설명된다.
다음으로, 프로세스(600)는 블록(604)으로 진행하고, 여기서, 시스템은 블록(602)에서 액세스된 훈련 데이터를 이용하여 머신 학습 모델을 훈련시킨다.
일부 실시예들에서, 블록(602)에서 액세스된 데이터는 비표지화될 수 있고, 시스템은 머신 학습 모델을 훈련시키기 위하여 비감독된 훈련 알고리즘을 훈련 데이터에 적용하도록 구성될 수 있다. 일부 실시예들에서, 머신 학습 모델은 클러스터링 모델일 수 있고, 시스템은 비감독된 학습 알고리즘을 훈련 데이터에 적용함으로써 클러스터링 모델의 클러스터들을 식별하도록 구성될 수 있다. 각각의 클러스터는 하나 이상의 아미노산들과 연관될 수 있다. 예로서, 시스템은 블록(602)에서 액세스된 훈련 데이터를 이용하여 클러스터들(예컨대, 클러스터 도심들)을 식별하기 위하여 k-평균 클러스터링을 수행할 수 있다.
일부 실시예들에서, 시스템은 감독된 훈련을 수행하도록 구성될 수 있다. 시스템은 블록(602)에서 액세스된 데이터와 연관된 하나 이상의 미리 결정된 아미노산들을 특정하는 정보를 이용하여 모델을 훈련시키도록 구성될 수 있다. 일부 실시예들에서, 시스템은 (1) 하나 이상의 아미노산들을 식별하는 출력을 획득하기 위하여 머신 학습 모델에 대한 입력으로서 블록(602)에서 액세스된 데이터를 제공하고; (2) 출력에 의해 식별된 아미노산(들)과 미리 결정된 아미노산들 사이의 차이에 기초하여 머신 학습 모델을 훈련시킴으로써, 머신 학습 모델을 훈련시키도록 구성될 수 있다. 예로서, 시스템은 결정된 차이에 기초하여 머신 학습 모델의 하나 이상의 파라미터들을 업데이팅하도록 구성될 수 있다. 일부 실시예들에서, 하나 이상의 아미노산들을 특정하는 정보는 블록(602)에서 획득된 데이터에 대한 표지들일 수 있다. 일부 실시예들에서, 블록(602)에서 획득된 데이터의 부분은 머신 학습 모델에 대한 입력으로서 제공될 수 있고, 데이터의 부분에 대응하는 머신 학습 모델의 출력은 데이터의 부분에 대한 표지와 비교될 수 있다. 궁극적으로, 머신 학습 모델의 하나 이상의 파라미터들은 머신 학습 모델의 출력과 머신 학습 모델에 대한 입력으로서 제공된 데이터의 부분에 대한 표지 사이의 차이에 기초하여 업데이팅될 수 있다. 차이는 파라미터들의 그 현재의 세트로 구성될 때, 머신 학습 모델이 표지를 재현함에 있어서 얼마나 양호하게 수행하는지의 척도(measure)를 제공할 수 있다. 예로서, 머신 학습 모델의 파라미터들은 확률론적 경도 하강 및/또는 신경망들을 훈련시키기 위하여 적당한 임의의 다른 반복적 최적화 기법을 이용하여 업데이팅될 수 있다.
일부 실시예들에서, 시스템은 반-감독된 학습 알고리즘을 훈련 데이터에 적용하도록 구성될 수 있다. 모델 훈련 시스템(504)은 (1) 비감독된 학습 알고리즘(예컨대, 클러스터링)을 훈련 데이터에 적용하고; (2) 감독된 학습 알고리즘을 표지화된 훈련 데이터에 적용함으로써, 비표지화된 훈련 데이터의 세트를 표지화할 수 있다. 예로서, 시스템은 데이터를 클러스터링하기 위하여, k-평균 클러스터링을 블록(602)에서 액세스된 훈련 데이터에 적용할 수 있다. 시스템은 그 다음으로, 클러스터 자격(cluster membership)에 기초한 분류로 데이터의 세트들을 표지화할 수 있다. 시스템은 그 다음으로, 확률론적 경도 하강 알고리즘 및/또는 임의의 다른 반복적 최적화 기법을 표지화된 데이터에 적용함으로써 머신 학습 모델을 훈련시킬 수 있다.
일부 실시예들에서, 머신 학습 모델은 데이터 입력을 다수의 그룹들(예컨대, 클래스들 또는 클러스터들)로 분류할 수 있고, 여기서, 각각의 그룹은 하나 이상의 아미노산들과 연관된다. 일부 실시예들에서, 시스템은 각각의 그룹에 대한 모델을 훈련시키도록 구성될 수 있다. 일부 실시예들에서, 시스템은 각각의 그룹에 대한 혼합 모델을 훈련시키도록 구성될 수 있다. 시스템은 각자의 그룹과 연관된 아미노산(들)을 수반하는 결합 상호작용들을 위하여 획득된 훈련 데이터를 이용함으로써 각자의 그룹에 대한 혼합 모델을 훈련시키도록 구성될 수 있다. 예로서, 시스템은 예를 들어, 각자의 그룹과 연관된 아미노산(들)을 수반하는 결합 상호작용들을 위하여 획득된 훈련 데이터에 기초하여 GMM의 컴포넌트 분포들의 파라미터들을 식별하기 위하여 예상 최소화 또는 임의의 다른 적당한 최대 우도 또는 근사적인 최대 우도 알고리즘을 이용함으로써, 각자의 그룹을 위한 가우시안 혼합 모델(GMM)을 훈련시킬 수 있다.
블록(604)에서 머신 학습 모델을 훈련시킨 후에, 프로세스(600)는 블록(606)으로 진행하고, 여기서, 시스템은 훈련된 머신 학습 모델을 저장한다. 시스템은 머신 학습 모델의 하나 이상의 훈련된 파라미터들의 값(들)을 저장할 수 있다. 예로서, 머신 학습 모델은 하나 이상의 도심들을 갖는 클러스터링 모델을 포함할 수 있다. 시스템은 도심들의 식별들(예컨대, 좌표들)을 저장할 수 있다. 또 다른 예로서, 머신 학습 모델은 머신 학습 모델의 그룹들에 대한 혼합 모델들(예컨대, GMM들)을 포함할 수 있다. 시스템은 컴포넌트 모델들을 정의하는 파라미터들을 저장할 수 있다. 또 다른 예로서, 머신 학습 모델은 하나 이상의 신경망들을 포함할 수 있다. 시스템은 신경망(들)의 훈련된 가중치들의 값들을 저장할 수 있다. 일부 실시예들에서, 시스템은 본 명세서에서 설명된 기법들에 따라, 폴리펩티드들을 식별할 시의 이용을 위한 훈련된 머신 학습 모델을 저장하도록 구성될 수 있다.
일부 실시예들에서, 시스템은 새로운 훈련 데이터를 이용하여 머신 학습 모델을 업데이팅하기 위한 새로운 데이터를 획득하도록 구성될 수 있다. 일부 실시예들에서, 시스템은 새로운 훈련 데이터를 이용하여 새로운 머신 학습 모델을 훈련시킴으로써 머신 학습 모델을 업데이팅하도록 구성될 수 있다. 예로서, 시스템은 새로운 훈련 데이터를 이용하여 새로운 머신 학습 모델을 훈련시킬 수 있다. 일부 실시예들에서, 시스템은 머신 학습 모델의 하나 이상의 파라미터들을 업데이팅하기 위하여 새로운 훈련 데이터를 이용하여 머신 학습 모델을 재훈련시킴으로써 머신 학습 모델을 업데이팅하도록 구성될 수 있다. 예로서, 모델에 의해 생성된 출력(들) 및 대응하는 입력 데이터는 이전에 획득된 훈련 데이터와 함께, 훈련 데이터로서 이용될 수 있다. 일부 실시예들에서, 시스템은 데이터, 및 (예컨대, 도 6b를 참조하여 이하에서 설명된 프로세스(610)를 수행하는 것으로부터 획득된) 아미노산들을 식별하는 출력들을 이용하여 훈련된 머신 학습 모델을 반복적으로 업데이팅하도록 구성될 수 있다. 예로서, 시스템은 제1 훈련된 머신 학습 모델(예컨대, 교사 모델(teacher model))에 대한 입력 데이터를 제공하고 하나 이상의 아미노산들을 식별하는 출력을 획득하도록 구성될 수 있다. 시스템은 그 다음으로, 제2 훈련된 머신 학습 모델(예컨대, 학생 모델(student model))을 획득하기 위하여 입력 데이터 및 대응하는 출력을 이용하여 머신 학습 모델을 재훈련시킬 수 있다.
일부 실시예들에서, 시스템은 단백질 서열화 디바이스(예컨대, 단백질 서열화 디바이스(502))의 각각의 웰에 대한 별도의 머신 학습 모델을 훈련시키도록 구성될 수 있다. 머신 학습 모델은 웰로부터 획득된 데이터를 이용하여 각자의 웰에 대하여 훈련될 수 있다. 머신 학습 모델은 웰의 특성들에 대하여 조율될 수 있다. 일부 실시예들에서, 시스템은 서열화기의 다수의 웰들에서의 아미노산들을 식별하기 위하여 이용되어야 할 일반화된 머신 학습 모델을 훈련시키도록 구성될 수 있다. 일반화된 머신 학습 모델은 다수의 웰들로부터 집합된 데이터를 이용하여 훈련될 수 있다.
도 6b는 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 폴리펩티드를 식별하기 위한 프로세스(600)로부터 획득되는 훈련된 머신 학습 모델을 이용하기 위한 일 예의 프로세스(610)를 예시한다. 프로세스(610)는 임의의 적당한 컴퓨팅 디바이스에 의해 수행될 수 있다. 예로서, 프로세스(610)는 도 5b를 참조하여 위에서 설명된 단백질 식별 시스템(502D)에 의해 수행될 수 있다.
프로세스(610)는 블록(612)에서 시작되고, 여기서, 시스템은 폴리펩티드의 아미노산들과 시약들의 결합 상호작용들로부터의 발광성 표지들에 의한 광 방출들로부터 획득된 데이터를 액세스한다. 일부 실시예들에서, 데이터는 단백질 서열화 디바이스(예컨대, 디바이스(502))에 의해 수행된 아미노산 서열화 동안에 하나 이상의 센서들(예컨대, 광검출기(들))에 의해 수집된 데이터로부터 획득될 수 있다. 예로서, 시스템은 데이터를 생성하기 위하여 센서(들)에 의해 수집된 데이터를 프로세싱할 수 있다.
일부 실시예들에서, 데이터는 센서(들)에 의해 수집된 데이터로부터 결정된 결합 상호작용들의 하나 이상의 성질들의 값들 및 그로부터 결정된 값들을 포함할 수 있다. 성질들 및 그로부터 결정된 파라미터들의 예들이 본 명세서에서 설명된다. 일부 실시예들에서, 광 방출들은 일련의 광 펄스들에 응답할 수 있다. 데이터는 광 펄스들 후의 시간 주기들의 하나 이상의 시간 간격들에서 검출된 광자 수들을 포함할 수 있다. 예로서, 데이터는 도 9a를 참조하여 이하에서 설명된 데이터(900)일 수 있다. 일부 실시예들에서, 시스템은 데이터를 도 9b를 참조하여 이하에서 설명된 데이터 구조(910) 내로 배열하도록 구성될 수 있다.
일부 실시예들에서, 블록(612)은 신호 트레이스와 같은 액세스된 데이터에 대해 하나 이상의 신호 프로세싱 동작들을 수행하는 것을 포함할 수 있다. 신호 프로세싱 동작들은 예를 들어, 잡음으로 인한 데이터 내의 관찰된 펄스들을 제거할 수 있는, 하나 이상의 필터링 및/또는 서브샘플링 동작들을 포함할 수 있다.
다음으로, 프로세스(600)는 블록(614)으로 진행하고, 여기서, 시스템은 훈련된 머신 학습 모델에 대한 입력으로서 블록(606)에서 액세스된 데이터를 제공한다. 일부 실시예들에서, 시스템은 데이터를 입력으로서 제공하고, 폴리펩티드의 아미노산들을 식별하는 출력을 획득하도록 구성될 수 있다. 예로서, 시스템은 CTC-피팅된 신경망 모델에 대한 입력으로서 블록(612)에서 획득된 데이터를 제공할 수 있고, 폴리펩티드의 아미노산 서열을 식별하는 출력(예컨대, 글자들의 서열)을 획득할 수 있다. 일부 실시예들에서, 시스템은 데이터를 다수의 부분들로 분할하고, (예컨대, 도 7을 참조하여 이하에서 설명된 바와 같은) 대응하는 출력을 획득하기 위하여 훈련된 머신 학습 모델에 대한 별도의 입력으로서 부분들의 각각에 대한 데이터를 제공하도록 구성될 수 있다. 예로서, 시스템은 폴리펩티드의 아미노산과 시약의 각자의 결합 상호작용과 연관된 데이터의 부분들을 식별할 수 있다.
다음으로, 프로세스(600)는 블록(616)으로 진행하고, 여기서, 시스템은 머신 학습 모델로부터의 출력을 획득된다. 일부 실시예들에서, 시스템은 폴리펩티드에서의 다수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 폴리펩티드에서의 위치에서 존재할 하나 이상의 우도들을 표시하는 출력을 획득하도록 구성될 수 있다. 예로서, 출력은 각각의 위치에 대하여, 20 개의 아미노산들의 각각이 위치에서 존재할 우도들을 표시할 수 있다. 머신 학습 시스템으로부터 획득된 출력의 일 예의 도시가 도 8을 참조하여 이하에서 설명된다.
일부 실시예들에서, 시스템은 머신 학습 모델에 제공된 데이터의 다수의 부분들의 각각에 대한 출력을 획득하도록 구성될 수 있다. 데이터의 각자의 부분에 대한 출력은 폴리펩티드에서의 특정한 위치에서 아미노산을 표시할 수 있다. 일부 실시예들에서, 출력은 하나 이상의 각자의 아미노산들이 데이터의 부분과 연관된 폴리펩티드에서의 위치에서 존재할 우도들을 표시할 수 있다. 예로서, 머신 학습 모델에 대한 입력으로서 제공된 데이터의 부분에 대응하는 출력은 다수의 아미노산들의 각각에 대하여, 아미노산이 폴리펩티드에서의 각자의 위치에서 존재할 확률을 특정하는 확률 분포일 수 있다.
일부 실시예들에서, 시스템은 데이터의 부분과 연관된 폴리펩티드에서의 위치에서 존재하는 아미노산을 식별하도록 구성될 수 있다. 예로서, 시스템은 머신 학습 모델에 제공된 데이터를 위한 출력에 기초하여 아미노산을 특정하는 분류를 결정할 수 있다. 일부 실시예들에서, 시스템은 각자의 아미노산(들)이 폴리펩티드에서의 위치에서 존재할 우도들에 기초하여 아미노산을 식별하도록 구성될 수 있다. 예로서, 시스템은 아미노산을, 폴리펩티드에서의 위치에서 존재할 가장 큰 우도를 가지는 각자의 아미노산(들) 중의 하나인 것으로 식별할 수 있다. 일부 실시예들에서, 시스템은 머신 학습 모델을 이용하지 않으면서, 결합 상호작용들의 하나 이상의 성질들 및/또는 다른 파라미터들의 값(들)에 기초하여 아미노산을 식별하도록 구성될 수 있다. 예로서, 시스템은 데이터의 부분에 대한 펄스 기간 및/또는 펄스간 기간이 특정한 유형의 단백질에 선택적으로 결합하는 시약과 연관되는 것으로 결정할 수 있고, 위치에서 존재하는 아미노산을 그 유형의 아미노산인 것으로 식별할 수 있다.
일부 실시예들에서, 시스템은 폴리펩티드의 아미노산들을 식별하는 단일 출력을 획득하도록 구성될 수 있다. 예로서, 시스템은 예를 들어, 시스템은 폴리펩티드의 아미노산들을 식별하는 글자들의 서열을 수신할 수 있다. 또 다른 예로서, 시스템은 폴리펩티드에서의 다수의 위치들의 각각에 대한 일련의 값들을 수신할 수 있다. 일련의 각각의 값은 각자의 아미노산이 폴리펩티드에서의 각자의 위치에서 존재할 우도를 표시할 수 있다.
일부 실시예들에서, 시스템은 머신 학습 모델로부터 획득된 출력을 정규화하도록 구성될 수 있다. 일부 실시예들에서, 시스템은 머신 학습 모델로부터 일련의 값들을 수신하도록 구성될 수 있고, 여기서, 각각의 값은 각자의 아미노산이 폴리펩티드에서의 각자의 위치에서 존재할 우도를 표시한다. 시스템은 일련의 값들을 정규화하도록 구성될 수 있다. 일부 실시예들에서, 시스템은 1로 합산되는 확률 값들의 세트를 획득하기 위하여 softmax 함수를 적용함으로써 일련의 값들을 정규화하도록 구성될 수 있다. 예로서, 시스템은 신경망으로부터 일련의 출력 값들을 수신할 수 있고, 1로 합산되는 확률 값들의 세트를 획득하기 위하여 softmax 함수를 값들에 적용할 수 있다. 일부 실시예들에서, 시스템은 다수의 모델들(예컨대, GMM들)로부터 출력들을 수신하도록 구성될 수 있고, 여기서, 각각의 모델은 아미노산들의 각자의 세트와 연관된다. 각각의 모델로부터의 출력은 모델과 연관된 아미노산들의 세트의 각각에 대하여, 아미노산이 폴리펩티드에서의 위치에서 존재할 우도를 표시하는 값일 수 있다. 시스템은 출력을 획득하기 위하여 모든 다수의 모델들로부터 수신된 값들을 정규화하도록 구성될 수 있다. 예로서, 시스템은 (1) 제1 GMM으로부터의 아미노산들의 제1 세트에 대한 확률 값들의 제1 세트, 및 제2 GMM으로부터의 아미노산들의 제2 세트에 대한 확률 값들을 수신할 수 있고; (2) 정규화된 출력을 획득하기 위하여 softmax 함수를 확률 값들의 공동의 제1 및 제2 세트들에 적용할 수 있다. 이 예에서, 정규화된 출력은 아미노산들의 제1 및 제2 세트들에서의 각각의 아미노산에 대하여, 아미노산이 폴리펩티드에서의 위치에서 존재할 확률을 표시할 수 있고, 여기서, 확률 값들은 1로 합산된다.
블록(616)에서 훈련된 머신 학습 모델로부터 출력을 획득한 후에, 프로세스(610)는 블록(618)으로 진행하고, 여기서, 시스템은 머신 학습 모델로부터 획득된 출력을 이용하여 폴리펩티드를 식별한다. 일부 실시예들에서, 시스템은 블록(616)에서 획득된 출력을, 데이터 저장소에서 저장된(예컨대, 단백질 서열화 디바이스(502)에 의해 액세스가능한) 아미노산 서열들의 알려진 세트 및 연관된 단백질들 중의 하나에 정합하도록 구성될 수 있다. 시스템은 폴리펩티드를, 출력이 정합되는 아미노산 서열과 연관된 단백질의 일부인 것으로 식별할 수 있다. 예로서, 데이터 저장소는 인간 게놈(human genome)으로부터의 아미노산 서열들의 데이터베이스(예컨대, UniProt 및/또는 HPP 데이터베이스들)일 수 있다.
일부 실시예들에서, 시스템은 (1) 출력에 기초하여 은닉된 마코브 모델(HMM)을 생성하고, (2) 다수의 아미노산 서열들 중으로부터, 데이터가 가장 근접하게 정렬하는 아미노산 서열을 식별하기 위하여 HMM을 이용함으로써, 출력을 아미노산 서열에 정합하도록 구성될 수 있다. 일부 실시예들에서, 출력은 폴리펩티드에서의 복수의 위치들의 각각에 대하여, 각자의 아미노산들이 위치에서 존재할 우도들을 표시할 수 있다. 머신 학습 모델로부터의 획득된 출력의 일 예의 도시가 도 8을 참조하여 이하에서 설명된다. 시스템은 HMM의 파라미터들의 값들을 결정하기 위하여 출력을 이용하도록 구성될 수 있다. 예로서, HMM의 각각의 상태는 폴리펩티드에서의 위치를 표현할 수 있다. HMM은 아미노산들이 상이한 위치들에 있을 확률들을 포함할 수 있다. 일부 실시예들에서, HMM은 삽입 및 삭제 레이트들을 포함할 수 있다. 일부 실시예들에서, 삽입들 및 삭제 레이트들은 미리 구성된 값들일 수 있다. HMM에서. 일부 실시예들에서, 시스템은 블록(616)에서 머신 학습 모델로부터 획득된 출력에 기초하여 삽입 및 삭제 레이트들의 값들을 결정하도록 구성될 수 있다. 일부 실시예들에서, 시스템은 하나 이상의 이전의 폴리펩티드 식별 프로세스들의 결과들에 기초하여 삽입 및 삭제 레이트들을 결정하도록 구성될 수 있다. 예로서, 시스템은 하나 이상의 이전의 폴리펩티드 식별들 및/또는 프로세스(610)를 수행하는 것으로부터 획득된 머신 학습 모델의 출력들에 기초하여 삽입 및 삭제 레이트들을 결정할 수 있다.
일부 실시예들에서, 시스템은 (1) 머신 학습 모델로부터 획득된 출력에 기초하여 아미노산들의 서열을 결정하고; (2) 아미노산들의 서열에 기초하여 폴리펩티드를 식별함으로써, 머신 학습 모델로부터 획득된 출력을 이용하여 폴리펩티드를 식별하도록 구성될 수 있다. 아미노산들의 결정된 서열은 폴리펩티드의 부분(예컨대, 펩티드)일 수 있다. 일부 실시예들에서, 출력은 폴리펩티드에서의 다수의 위치들의 각각에 대하여, 각자의 아미노산들이 위치에서 존재할 우도들을 표시할 수 있다. 시스템은 (1) 위치들의 각각에 대하여, 위치에서 존재할 가장 큰 우도를 가지는 각자의 아미노산들 중의 하나를 식별하고; (2) 아미노산들의 서열을 위치들에 대하여 식별된 아미노산들의 세트인 것으로 결정함으로써, 아미노산들의 서열을 결정하도록 구성될 수 있다. 예로서, 시스템은 가능한 20 개의 아미노산들 중에서, 알라닌(A)이 폴리펩티드에서의 제1 위치에서 존재할 최대 우도를 가지고, 글루탐산(E)이 폴리펩티드에서의 제2 위치에서 존재할 최대 우도를 가지고, 아스파트산(D)이 제3 위치에서 존재할 최대 우도를 가지는 것으로 결정할 수 있다. 이 예에서, 시스템은 아미노산들의 서열의 적어도 부분을 알라닌(A), 글루탐산(E), 및 아스파트산(D)인 것으로 결정할 수 있다. 일부 실시예들에서, 시스템은 아미노산 서열을, 단백질들을 특정하는 아미노산 서열들의 세트로부터의 하나에 정합함으로써, 아미노산들의 결정된 서열에 기초하여 폴리펩티드를 식별하도록 구성될 수 있다. 예로서, 시스템은 아미노산들의 결정된 서열을 Uniprot 및/또는 HPP 데이터베이스들로부터의 서열에 정합할 수 있고, 폴리펩티드를 정합된 서열과 연관된 단백질의 일부인 것으로 식별할 수 있다.
일부 실시예들에서, 시스템은 아미노산들의 결정된 서열을 미리 선택된 패널에 정합함으로써, 블록(618)에서 머신 학습 모델로부터 획득된 출력을 이용하여 폴리펩티드를 식별할 수 있다. 시스템이 아미노산들의 결정된 서열을 알려진 폴리펩티드들의 데이터베이스로부터의 서열에 정합하는 접근법과 대조적으로, 일부 경우들에는, 시스템이 서열을, 예를 들어, 이러한 데이터베이스의 서브세트일 수 있는 미리 선택된 패널에 정합할 수 있다. 예를 들어, 폴리펩티드는 알려진 임상적 중요도를 갖는 폴리펩티드들의 세트 중의 하나일 수 있고, 결과적으로, 모든 가능한 폴리펩티드들을 포함하는 전체 데이터베이스를 검색하는 것보다, 아미노산들의 결정된 서열을 폴리펩티드들의 세트 중의 하나에 정합하는 것이 더 정확하고/하거나 더 효율적일 수 있다. 일부 실시예들에서, 머신 학습 모델로 입력된 데이터는 폴리펩티드들의 미리 선택된 패널 중의 하나에 알려지는 폴리펩티드와 상호작용하는 친화도 시약으로부터의 광 방출을 측정함으로써 생성될 수 있다. 즉, 데이터를 생성하기 위한 실험적 절차는 데이터를 생성하기 위하여 이용된 폴리펩티드가 머신 학습 모델에 의한 정합을 위하여 고려되는 폴리펩티드들의 세트 중의 하나인 것을 보장할 수 있다.
일부 실시예들에서, 시스템은 블록(618)에서 머신 학습 모델로부터 획득된 출력을 이용하여 복수의 폴리펩티드들에 대한 상대적인 확률들의 리스트를 생성할 수 있다. 위에서 설명된 바와 같은 특정한 폴리펩티드를 식별하는 것이 아니라, 각각이 올바른 정합일 확률들과 함께, 몇몇 폴리펩티드들의 리스트를 생성하는 것이 바람직할 수 있다. 일부 실시예들에서, 특정한 단백질이 샘플에서 존재하고/하거나 특정한 단백질이 샘플의 적어도 일부 임계 분율(threshold fraction)을 포함하는 신뢰도 점수와 같은, 데이터의 양태들에 관련되는 신뢰도 점수(confidence score)들은 이러한 확률들에 기초하여 생성될 수 있다.
일부 실시예들에서, 시스템은 블록(618)에서 머신 학습 모델로부터 획득된 출력을 이용하여 폴리펩티드의 변종을 식별할 수 있다. 특히, 일부 경우들에는, 시스템이 가장 가능성 있는 서열이 참조 서열(예컨대, 데이터베이스에서의 서열)의 변종인 것으로 결정할 수 있다. 이러한 변종들은 폴리펩티드의 자연적으로 발생하는 또는 자연적인 변종들, 및/또는 아미노산이 변형된(예컨대, 인산화된(phosphorylated)) 폴리펩티드를 포함할 수 있다. 이와 같이, 블록(618)에서, 복수의 참조 서열들의 변종들은 참조 서열들 자체의 고려에 추가적으로, 머신 학습 모델로부터의 출력을 정합하기 위하여 고려될 수 있다.
도 7은 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 머신 학습 모델에 대한 입력을 제공하기 위한 일 예의 프로세스(700)를 예시한다. 프로세스(700)는 임의의 적당한 컴퓨팅 디바이스에 의해 수행될 수 있다. 예로서, 프로세스(700)는 도 5b를 참조하여 위에서 설명된 단백질 식별 시스템(502D)에 의해 수행될 수 있다. 프로세스(700)는 도 6b를 참조하여 위에서 설명된 프로세스(610)의 블록(616)의 일부로서 수행될 수 있다.
프로세스(700)를 수행하기 이전에, 프로세스(700)를 수행하는 시스템은 아미노산들과 시약들의 결합 상호작용들로부터의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 데이터를 액세스할 수 있다. 예로서, 시스템은 도 6b를 참조하여 위에서 설명된 프로세스(610)의 블록(612)에서 수행된 바와 같이 데이터를 액세스할 수 있다.
프로세스(700)는 블록(702)에서 시작되고, 여기서, 시스템은 관심 영역(region of interest)(ROI)들로서 또한 본 명세서에서 지칭된 데이터의 부분들을 식별한다. 일부 실시예들에서, 시스템은 각자의 결합 상호작용들에 대응하는 데이터의 부분들을 식별하도록 구성될 수 있다. 예로서, 데이터의 각각의 식별된 부분은 폴리펩티드의 아미노산과 시약의 각자의 결합 상호작용으로부터의 데이터를 포함할 수 있다. 일부 실시예들에서, 시스템은 폴리펩티드로부터의 아미노산들의 분열에 대응하는 데이터 포인트들을 식별함으로써 데이터의 부분들을 식별하도록 구성될 수 있다. 도 1 내지 도 3을 참조하여 위에서 논의된 바와 같이, 단백질 서열화 디바이스는 폴리펩티드(예컨대, 도 5c에서 도시된 폴리펩티드(502F))의 말단 단부로부터 아미노산들을 반복적으로 검출하고 분열시킴으로써 샘플을 서열화할 수 있다. 일부 실시예들에서, 분열은 각자의 발광성 표지로 태그된 분열 시약에 의해 수행될 수 있다. 시스템은 분열 시약이 태그되는 발광성 표지에 의한 광 방출들에 대응하는 데이터 포인트들을 식별함으로써 데이터의 부분들을 식별하도록 구성될 수 있다. 예로서, 시스템은 하나 이상의 발광 강도들, 발광 수명 값들, 펄스 기간 값들, 펄스간 기간 값들, 및/또는 광자 빈 카운트들을 식별할 수 있다. 시스템은 그 다음으로, 식별된 데이터 포인트들에 기초하여 데이터를 부분들로 구획화(segment)할 수 있다. 일부 실시예들에서, 분열은 비태그된 분열 시약(untagged cleaving reagent)에 의해 수행될 수 있다. 시스템은 분열의 주기들에 대응하는 데이터 포인트들을 식별함으로써 데이터의 부분들을 식별하도록 구성될 수 있다. 시스템은 그 다음으로, 식별된 데이터 포인트들에 기초하여 데이터를 부분들로 구획화할 수 있다.
일부 실시예들에서, 시스템은 광 방출들의 시간 주기들 사이의 시간 간격들을 식별함으로써 데이터의 부분들을 식별하도록 구성될 수 있다. 예로서, 시스템은 광 펄스들이 그 동안에 방출되는 2 개의 시간의 주기들 사이의 시간 간격을 식별할 수 있다. 시스템은 식별된 시간 간격들에 기초하여 각자의 결합 상호작용들에 대응하는 데이터의 부분들을 식별하도록 구성될 수 있다. 예로서, 시스템은 광 방출(예컨대, 광 펄스들) 사이의 시간 간격의 기간이 임계 시간의 기간을 초과하는지 여부를 결정함으로써 연속적인 결합 상호작용들 사이의 경계를 식별할 수 있다. 시스템은 식별된 시간 간격들로부터 결정된 경계들에 기초하여 데이터를 부분들로 구획화할 수 있다.
일부 실시예들에서, 시스템은 (1) 데이터에서의 요약 통계를 추적하고; (2) 요약 통계가 이탈하는 포인트들에 기초하여 데이터의 부분들을 식별함으로써, 각자의 결합 상호작용들에 대응하는 데이터의 부분들을 식별하도록 구성될 수 있다. 일부 실시예들에서, 데이터는 시계열 데이터일 수 있고, 여기서, 각각의 포인트는 특정한 시간 포인트에서 취해진 하나 이상의 파라미터들의 값들을 표현한다. 시스템은 (1) 시간에 대한 데이터에서의 요약 통계를 추적하고; (2) 요약 통계가 임계량만큼 이탈하는 데이터 포인트들을 식별하고; (3) 식별된 포인트들에 기초하여 데이터의 부분들을 식별하도록 구성될 수 있다. 예로서, 시스템은 데이터에서의 시간에 대한 이동 평균 펄스 기간 값을 추적할 수 있다. 시스템은 평균 펄스 기간 값이 임계량만큼 증가하는 포인트들에 기초하여 결합 상호작용을 갖는 반응에 대응하는 하나 이상의 포인트들을 식별할 수 있다. 또 다른 예로서, 시스템은 데이터에서의 시간에 대한 이동 평균 발광 강도 값을 추적할 수 있다. 시스템은 평균 발광 강도 값이 임계량만큼 증가하는 포인트들에 기초하여 결합 상호작용에 대응하는 하나 이상의 포인트들을 식별할 수 있다.
일부 실시예들에서, 시스템은 데이터를 동일한 크기의 부분들로 분할함으로써 데이터의 부분들을 식별하도록 구성될 수 있다. 일부 실시예들에서, 데이터는 다수의 프레임들을 포함할 수 있고, 여기서, 각각의 프레임은 여기 펄스의 인가 후의 시간 주기에서의 하나 이상의 시간 간격들의 각각에서 검출된 광자 수들을 포함한다. 시스템은 데이터를 동일한 크기의 프레임들로 분할함으로써 데이터의 부분들을 식별하도록 구성될 수 있다. 예로서, 시스템은 데이터를 1000, 5000, 10,000, 50,000, 100,000, 1,000,000, 및/또는 1000 내지 1,000,000 사이의 임의의 적당한 수의 프레임 부분들로 분할할 수 있다. 일부 실시예들에서, 시스템은 2 개의 결합 상호작용들 사이의 전이를 결정하는 것에 기초하여 데이터를 프레임들로 분할하도록 구성될 수 있다. 예로서, 시스템은 2 개의 결합 상호작용들 사이의 전이를 표시하는 빈들에서의 광자 카운트들의 값들을 식별할 수 있다. 시스템은 데이터에서의 식별된 전이들에 기초하여 프레임들을 부분들에 할당할 수 있다. 일부 실시예들에서, 시스템은 각각의 부분의 크기를 감소시키도록 구성될 수 있다. 예로서, 시스템은 데이터의 부분의 스트라이드(stride)들(예컨대, 매 10 또는 100 프레임들)에 대한 하나 이상의 요약 통계들을 결정할 수 있다.
일부 실시예들에서, 시스템은 신호 트레이스의 웨이블렛 변환을 수행함으로써, 그리고 웨이블렛 변환으로부터 생성된 웨이블렛 계수들에 기초하여 신호의 부분들의 선두 및/또는 하강 에지들을 식별함으로써, 데이터의 부분들을 식별하도록 구성될 수 있다. 이 프로세스는 도 14a 내지 도 14c 및 도 15에 관련하여 이하에서 상세하게 논의된다.
일부 실시예들에서, 시간 주기의 일부인 시간 간격들은 비-중첩하고 있다. 다른 실시예들에서, 시간 주기의 일부인 시간 간격들은 서로 중첩할 수 있다. 2 개의 시간 간격들의 중첩하는 영역에서의 광자 카운트들은 둘 모두의 시간 간격들을 위한 광자 카운트에 추가될 수 있다. 중첩하는 시간 간격들에서의 데이터는 이웃하는 시간 간격에서의 데이터에 통계적으로 종속적 수 있다. 일부 실시예들에서, 이러한 종속성은 데이터(예컨대, 훈련 데이터)를 프로세싱하기 위하여 이용될 수 있다. 예로서, 통계적 종속성은 데이터를 규칙화하고/하거나 평활화하기 위하여 이용될 수 있다.
블록(702)에서 데이터의 부분들을 식별한 후에, 프로세스(700)는 블록(704)으로 진행하고, 여기서, 시스템은 식별된 부분들에 기초하여 머신 학습 모델에 대한 입력을 제공한다. 일부 실시예들에서, 시스템은 검출된 결합 상호작용들의 하나 이상의 성질들의 값들을 결정하도록 구성될 수 있다. 이 값들은 펄스 기간, 펄스간 기간, 파장, 발광 강도, 발광 수명 값들, 단위 시간 당 펄스 카운트, 또는 그 조합들과 같은, 그러나 이것으로 제한되지는 않는 임의의 수의 펄스 파라미터들을 포함할 수 있다. 이 값들은 데이터의 주어진 부분들에 대한 복수의 측정된 펄스 파라미터들을 제공함으로써 평균, 중위, 또는 모드(mode)로서 표현될 수 있다. 예를 들어, 블록(704)에서의 머신 학습 모델에 대한 입력은 데이터의 식별된 부분에 대한 평균 펄스 기간을 포함할 수 있다.
일부 실시예들에서, 머신 학습 모델에 대한 입력을 위한 값들은 블록(702)에서 식별된 데이터의 부분으로부터 유도된 임의의 파라미터들을 포함할 수 있다. 그렇게 유도된 파라미터들은 예를 들어, 적당한 함수들 및/또는 분포들을 펄스 파라미터들에 대한 측정들에 맞추는 것을 포함할 수 있다. 예를 들어, 블록(702)에서 식별된 데이터의 부분에 대하여 측정된 상이한 펄스 기간들의 범위는 지수 함수, 가우시안 분포(Gaussian distribution), 푸아송 분포(Poisson distribution)에 맞추어질 수 있고, 이 함수들 또는 분포들을 설명하는 값들은 블록(704)에서 머신 학습 모델로 입력될 수 있다. 이와 같이, 값들은 예를 들어, 블록(702)에서 식별된 데이터의 부분으로 관찰된 상이한 펄스들의 수를 특성화하는 가우시안 분포의 평균 및 분산(variance)을 포함할 수 있다. 복수의 지수 함수들을 펄스 파라미터에 맞추는 예는 도 16a 내지 도 16b 및 도 17a 내지 도 17b에 관련하여 이하에서 추가로 설명된다.
값들이 블록(704)에서 어떻게 계산되는지에 관계 없이, 이 값들은 또한, 블록(704)에서 머신 학습 모델에 대한 입력으로서 제공될 수 있다. 결정된 값들은 머신 학습 모델로 입력되는 각자의 결합 상호작용의 특징 세트를 형성할 수 있다. 일부 경우들에는, 데이터의 부분은 하나 이상의 프레임들에 대응할 수 있고, 결정된 값들은 프레임(들)에 대한 특징 세트를 형성할 수 있다.
일부 실시예들에서, 시스템은 결합 상호작용들의 성질들의 값들 및/또는 성질들로부터 결정된 파라미터들의 값들을 결정하지 않으면서, 데이터의 각각의 식별된 부분을 머신 학습 모델에 대한 입력으로서 제공하도록 구성될 수 있다. 예로서, 시스템은 데이터가 분할된 프레임들의 각각의 세트(예컨대, 각각은 하나 이상의 빈 카운트들을 포함함)를 머신 학습 모델에 대한 입력으로서 제공할 수 있다.
다음으로, 프로세스(700)는 블록(706)으로 진행하고, 여기서, 시스템은 훈련된 머신 학습 모델로 입력된 데이터의 각각의 부분에 대응하는 출력을 획득한다. 일부 실시예들에서, 각각의 출력은 폴리펩티드에서의 각자의 위치에 대응할 수 있다. 예로서, 출력은 단백질의 폴리펩티드에서의 위치에 대응할 수 있다. 일부 실시예들에서, 각각의 출력은 하나 이상의 아미노산들이 폴리펩티드에서의 위치에 있을 우도들을 표시할 수 있다. 예시적인 예로서, 도 8에서 예시된 머신 학습 시스템의 출력의 도시(800)에서의 행들의 각각은 데이터의 식별된 부분들 중의 하나에 대응하는 머신 학습 모델의 출력일 수 있다. 일부 실시예들에서, 각각의 출력은 머신 학습 모델로 입력된 데이터의 부분에 대응하는 각자의 결합 상호작용에 관여된 아미노산을 식별할 수 있다. 일부 실시예들에서, 시스템은 폴리펩티드를 식별하기 위하여 블록(706)에서 획득된 출력들을 이용하도록 구성될 수 있다. 예로서, 시스템은 도 6b를 참조하여 위에서 설명된 프로세스(610)의 블록(618)에서 수행된 바와 같이, 폴리펩티드를 식별하기 위하여 출력들을 이용할 수 있다.
도 8은 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 머신 학습 모델로부터 획득된 출력을 도시하는 표(800)를 도시한다. 예로서, 도 8에서 도시된 출력은 도 6b를 참조하여 위에서 설명된 프로세스(610)의 블록(616)에서 획득될 수 있다.
도 8의 일 예의 표(800)에서, 머신 학습 시스템으로부터 획득된 출력은 (예컨대, 단백질의) 폴리펩티드에서의 다수의 위치들(804)의 각각에 대하여, 각자의 아미노산들(802)이 위치에서 존재할 확률들을 포함한다. 도 8의 일 예의 도시(800)에서, 출력은 20 개의 아미노산들에 대한 확률들을 포함한다. 표(800)의 각각의 열은 20 개의 아미노산들의 각자의 하나에 대응한다. 각각의 아미노산은 도 8에서의 그 각자의 단일 글자 약어(예컨대, A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W)로 표지화된다. 표(800)의 각각의 행은 20 개의 아미노산들의 각각이 폴리펩티드에서의 위치들 중의 하나에서 존재할 확률들을 특정한다. 하나의 예로서, 수 1에 의해 인덱싱된 위치에 대하여, 출력은 아스파트산(D)이 위치에서 존재할 50 % 확률 및 글루탐산(E)이 위치에서 존재할 50 % 확률이 있다는 것을 표시한다. 또 다른 예로서, 수 10에 의해 인덱싱된 위치에 대하여, 출력은 글루탐산(D)이 위치에서 존재할 30 % 확률, 글리신(G)이 위치에서 존재할 5 % 확률, 라이신(K)이 위치에서 존재할 25 % 확률, 및 아스파라긴(N)이 위치에서 존재할 40 % 확률이 있다는 것을 표시한다.
도 8의 일 예의 실시예는 폴리펩티드에서의 15 개의 위치들에서 20 개의 아미노산들에 대한 우도들을 도시하지만, 일부 실시예들은 임의의 수의 포지션들 또는 아미노산들로 제한되지 않는다. 본 명세서에서 설명된 기술의 양태들이 이 점에서 제한되지 않으므로, 일부 실시예들은 폴리펩티드에서의 임의의 수의 위치들에 대한 우도들을 포함할 수 있다. 본 명세서에서 설명된 기술의 양태들이 이 점에서 제한되지 않으므로, 일부 실시예들은 임의의 수의 아미노산들에 대한 우도들을 포함할 수 있다.
도 9a는 본 명세서에서 설명된 기술의 일부 실시예들에 따라, 발광성 표지들에 의한 광 방출들로부터 획득될 수 있는 데이터(900)의 예를 예시한다. 예로서, 데이터(900)는 도 5a 내지 도 5c를 참조하여 위에서 설명된 단백질 서열화 디바이스(502)의 센서(들)(502C)에 의해 획득될 수 있다.
데이터(900)는 여기 광 펄스 후의 다수의 시간 간격들의 각각에서 검출된 광자 수를 표시한다. 광자 수는 "광자 카운트"로서 본 명세서에서 또한 지칭될 수 있다. 도 9a에서 예시된 예에서, 데이터(900)는 여기 광의 3 개의 펄스들 후의 시간 간격들 동안에 검출된 광자 수들을 포함한다. 도 9a에서 예시된 예에서, 데이터(900)는: (1) 제1 여기 광 펄스 후의 시간 주기(902)의 제1 시간 간격(902A), 제2 시간 간격(902B), 및 제3 시간 간격(902C)에서 검출된 광자 수; (2) 제2 여기 광 펄스 후의 시간 주기(904)의 제1 시간 간격(904A), 제2 시간 간격(904B), 및 제3 시간 간격(904C)에서 검출된 광자 수; 및 (3) 제3 여기 광 펄스 후의 시간 주기(906)의 제1 시간 간격(906A), 제2 시간 간격(906B), 및 제3 시간 간격(906C)에서 검출된 광자 수를 포함한다.
일부 실시예들에서, 여기 광의 펄스 후의 시간의 주기에서의 시간 간격들의 각각은 동일하거나 실질적으로 동일한 기간일 수 있다. 일부 실시예들에서, 여기 광의 펄스 후의 시간의 주기에서의 시간 간격들은 변동되는 기간을 가질 수 있다. 일부 실시예들에서, 데이터는 여기 광의 각각의 펄스 후의 고정된 수의 시간 간격들에서 검출된 광자 수들을 포함할 수 있다. 데이터는 여기 광의 펄스를 후속하는 각각의 시간 주기에서의 3 개의 시간 간격들을 포함하지만, 본 명세서에서 설명된 기술의 양태들은 이 점에서 제한되지 않으므로, 데이터는 임의의 적당한 수의 시간 간격들로 비닝(bin)될 수 있다. 또한, 도 9a의 예는 여기 광의 3 개의 펄스들을 후속하는 3 개의 시간 주기들에 대한 데이터를 도시하지만, 본 명세서에서 설명된 기술의 양태들은 이 점에서 제한되지 않으므로, 데이터(900)는 임의의 적당한 수의 여기 광 펄스들 후의 시간 주기들 동안에 수집된 데이터를 포함할 수 있다. 또한, 도 9a의 예는 시간 주기의 간격들이 분리되는 것을 도시하지만, 일부 실시예들에서는, 간격들이 중첩할 수 있다.
도 9b는 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 머신 학습 모델에 대한 입력으로서 제공될 수 있는 도 9a로부터의 데이터(900)의 일 예의 배열을 예시한다. 예로서, 데이터 구조(910)는 아미노산들을 식별하는 출력을 획득하기 위하여 심층 학습 모델(예컨대, 신경망)에 대한 입력으로서 생성될 수 있다.
도 9b에서 예시된 바와 같이, 데이터(900)로부터의 광자 수들은 다수의 일련의 값들을 포함하는 데이터 구조(910) 내로 배열될 수 있다. 일부 실시예들에서, 데이터 구조(910)는 행렬을 인코딩하는 2 차원 데이터 구조(예컨대, 어레이, 링크된 리스트들의 세트 등)일 수 있다. 일련의 값들의 각각은 행렬의 행 또는 열을 형성할 수 있다. 인식될 수 있는 바와 같이, 데이터 구조(910)는 이미지의 값들을 저장하는 것으로서 고려될 수 있고, 여기서, 이미지의 각각의 "픽셀"은 대응하는 여기 광 펄스 후의 특정한 시간 주기에서의 각자의 시간 간격에 대응하고, 픽셀의 값은 시간 간격 동안에 검출된 광자 수를 표시한다.
도 9b에서 예시된 예에서, 데이터 구조(910)는 열들로 된 다수의 일련의 데이터를 포함한다. 각각의 열은 "프레임"으로서 본 명세서에서 또한 지칭될 수 있다. 데이터 구조(910)는: (1) 여기 광의 제1 펄스 후의 시간 주기(902)의 시간 간격들(902A 내지 902C)에서 검출된 광자 수들(N11, N12, N13)을 특정하는 제1 프레임; (2) 여기 광의 제2 펄스 후의 시간 주기(904)의 시간 간격들(904A 내지 904C)에서 검출된 광자 수들(N21, N22, N23)을 특정하는 제2 프레임; 및 (3) 여기 광의 제3 펄스 후의 시간 주기(906)의 시간 간격들(906A 내지 906C)에서 검출된 광자 수들(N31, N32, N33)을 특정하는 제3 프레임을 포함한다. 도 9b에서 예시된 예는 3 개의 프레임들을 도시하지만, 본 명세서에서 설명된 기술의 양태들은 이 점에서 제한되지 않으므로, 데이터 구조(910)는 임의의 적당한 수의 프레임들로부터의 데이터를 유지할 수 있다.
도 9b에서 예시된 예에서, 데이터 구조(910)는 행들로 된 다수의 일련의 데이터를 포함한다. 각각의 행은 여기 광의 각각의 펄스에 대한 특정한 빈에서 검출된 광자 수들을 특정한다. 데이터 구조(910)는: (1) 여기 광의 제1 펄스 후의 시간 주기(902)에서의 제1 간격(902A)에서의 광자 수(N11); (2) 여기 광의 제2 펄스 후의 시간 주기(904)에서의 제1 간격(904A)에서의 광자 수(N21); 및 (3) 여기 광의 제3 펄스 후의 시간 주기(906)에서의 제1 간격(906A)에서의 광자 수(N31)를 포함하는 제1 일련의 값들을 포함한다. 데이터 구조(910)는: (1) 여기 광의 제1 펄스 후의 시간 주기(902)에서의 제2 간격(902B)에서의 광자 수(N12); (2) 여기 광의 제2 펄스 후의 시간 주기(904)에서의 제2 간격(904B)에서의 광자 수(N22); 및 (3) 여기 광의 제3 펄스 후의 시간 주기(906)에서의 제2 간격(906B)에서의 광자 수(N32)를 포함하는 제2 일련의 값들을 포함한다. 데이터 구조(910)는: (1) 여기 광의 제1 펄스 후의 시간 주기(902)에서의 제3 간격(902C)에서의 광자 수(N13); (2) 여기 광의 제2 펄스 후의 시간 주기(904)에서의 제3 간격(904C)에서의 광자 수(N23); 및 (3) 여기 광의 제3 펄스 후의 시간 주기(906)에서의 제3 간격(906C)에서의 광자 수(N33)를 포함하는 제3 일련의 값들을 포함한다.
도 10a 내지 도 10c는 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 머신 학습 시스템을 훈련시키기 위한 단계들을 예시한다. 예로서, 도 10a 내지 도 10c는 도 5a를 참조하여 위에서 설명된 모델 훈련 시스템(504)에 의해 도 6a를 참조하여 위셍서 설명된 프로세스(600)의 일부로서 수행될 수 있는 머신 학습 모델을 훈련시키는 다양한 단계들을 예시한다.
도 10a는 아미노산들과 시약들의 결합 상호작용들로부터의 발광성 표지들에 의한 검출된 광 방출들로부터 액세스된 데이터의 클러스터링의 도표(1000)를 도시한다. 도 10a의 예에서, 도표(1000)는 6 개의 클러스터들 사이의 데이터의 클러스터링의 결과들을 도시한다. 일부 실시예들에서, 시스템(예컨대, 모델 훈련 시스템(504))은 클러스터들(예컨대, 도심들 및/또는 클러스터들 사이의 경계들)을 식별하기 위하여 데이터 포인트들을 클러스터링하도록 구성될 수 있다. 일부 실시예들에서, 클러스터링은 클러스터링 모델을 훈련시키기 위하여, 도 6a를 참조하여 설명된 프로세스(600)의 일부로서 수행될 수 있다. 예로서, 시스템은 도 10a의 예에서 도시된 클러스터링 결과를 획득하기 위하여 반복적 알고리즘(예컨대, k-평균)을 데이터 포인트들에 적용할 수 있다.
일부 실시예들에서, 데이터 클러스터들은 아미노산들의 알려진 서열을 가지는 알려진 펩티드를 서열화함으로써, 그리고 알려진 아미노산들의 각각에 대응하는 데이터(예컨대, 펄스 기간 및 펄스간 기간 데이터)를 생성함으로써 식별될 수 있다. 이 프로세스는 특정한 알려진 아미노산들에 대한 데이터가 평가되고 있는 다양한 펄스 특성들에 대하여 어디에서 클러스터링할 것인지의 이해를 생성하기 위하여 다수 회 반복될 수 있다.
도 10b는 도 10a의 도표(1000)에서 도시된 클러스터링된 포인트들로부터 식별된 클러스터들(예컨대, 클러스터 도심들의 좌표들)의 도표(1010)를 도시한다. 예로서, 도표 (1010)에서 도시된 도심들의 각각은 각자의 클러스터에서의 데이터 포인트들의 평균 펄스 기간 및 펄스간 기간 값인 것으로 결정될 수 있다. 도 10a의 예에서, 각각의 도심은 아미노산들의 상이한 세트와 연관된다. 도표(1010)는 (1) 아미노산들(A, I, L, M, 및 V)과 연관된 제1 도심; (2) 아미노산들(N, C, Q, S, 및 T)과 연관된 제2 도심; (3) 아미노산들(R, H, 및 K)과 연관된 제3 도심; (4) 아미노산들(D 및 E)과 연관된 제4 도심; (5) F, W, 및 Y와 연관된 제5 도심; 및 (6) 아미노산들(G 및 P)와 연관된 제6 도심을 도시한다.
도 10c는 도표들(1000 및 1010)에서 도시된 클러스터들의 각각을 위한 가우시안 혼합 모델(GMM)을 훈련시키는 결과의 도표(1020)를 도시한다. 도표(1020)에서 도시된 각각의 동심 원은 동등한 확률들의 경계들을 표기한다. 일부 실시예들에서, 각자의 클러스터에 대하여 훈련된 GMM 모델의 각각의 컴포넌트는 각자의 클러스터와 연관된 아미노산을 표현한다. 클러스터링 모델은, 각각의 클러스터에 대하여 훈련된 GMM 모델과 함께, 그 다음으로, 도 6b를 참조하여 위에서 설명된 바와 같이 폴리펩티드를 식별하기 위하여 이용될 수 있다. 예로서, 알려지지 않은 폴리펩티드의 아미노산들과 시약들의 결합 상호작용들로부터의 발광성 표지들에 의한 검출된 광 방출들로부터 액세스된 데이터는 모델로 입력될 수 있다. 일부 실시예들에서, 머신 학습 모델에 대한 각각의 입력은 폴리펩티드에서의 각자의 위치에서의 아미노산과 시약의 각자의 결합 상호작용에 대응할 수 있다. 데이터의 부분은 도표(1020)에서 도시된 클러스터들 중의 하나로 분류될 수 있고, 클러스터에 대하여 훈련된 GMM은 클러스터와 연관된 하나 이상의 아미노산들이 폴리펩티드에서의 위치에 있을 우도들을 결정하기 위하여 이용될 수 있다. 일부 실시예들에서, 시스템은 공동 확률 공간에서의 GMM들로부터 획득된 우도들을 정규화하도록 구성될 수 있다. 예로서, 시스템은 다수의 아미노산들의 각각에 대한 확률 값을 획득하기 위하여 softmax 함수를 GMM들로부터 획득된 우도들에 적용할 수 있고, 여기서, 확률 값들은 1로 합산된다.
도 10c에서 도시된 바와 같이 클러스터들의 각각에 대한 GMM을 훈련시키는 것에 대한 대안으로서, 일부 실시예들에서, 단일 GMM은 모든 클러스터들에 대한 가우시안들의 혼합에 맞추어질 수 있다. 일부 경우들에는, 이러한 맞춤이 클러스터들의 수와 같은 식별된 클러스터들의 특성들, 및 그 도심들이 어디에 위치되는지에 기초할 수 있다. 대안적으로, 표지들이 데이터 포인트들의 각각에 대하여 알려질 경우에, 단일 GMM의 파라미터들은 각각의 클러스터의 측정된 분산들 및 도심들을 이용하여 직접적으로 초기화될 수 있다.
도 10a 내지 도 10c의 예들은 각각의 클러스터에 대한 GMM 모델의 이용을 설명하지만, 실시예들은 이 점에서 제한되지 않으므로, 일부 실시예들은 또 다른 유형의 모델을 이용할 수 있다. 예로서, 지원 벡터 머신(support vector machine)(SVM)은 클러스터들의 각각에 대하여 훈련될 수 있고(또는 단일 SVM은 클러스터들의 전부에 대하여 함께 훈련될 수 있음), 데이터의 부분을 클러스터와 연관된 다수의 아미노산들 중의 하나로서 분류하기 위하여 이용될 수 있다. 또 다른 예로서, 신경망은 클러스터들의 각각에 대하여 훈련될 수 있고(또는 단일 신경망은 클러스터들의 전부에 대하여 함께 훈련될 수 있음), 클러스터와 연관된 아미노산들의 각각이 폴리펩티드에서의 위치에서 존재할 우도들을 획득하기 위하여 이용될 수 있다.
GMM 모델을 이용하여 머신 학습 모델을 훈련시키고 하나 이상의 아미노산들을 식별하기 위하여 머신 학습 모델을 사용하는 위에서 설명된 프로세스는 도 18 및 도 19a 내지 도 19e에 의해 추가로 예시된다. 도 18은 위에서 설명된 바와 같은 샘플 웰로부터의 광 방출들을 측정함으로써 획득된 데이터를 표현하는 다수의 신호 트레이스들을 도시한다. 도 18의 예에서, 도시된 신호 트레이스들은 펩티드의 N-말단 포지션에서의 3 개의 상이한 아미노산 잔기들과 친화도 시약의 상호작용에 의해 생성되었고: 4 개의 신호 트레이스들의 제1 열은 "F" 아미노산과의 상호작용에 의해 생성된 것으로, 제2 열은 "W" 아미노산과의 상호작용에 의해 생성된 것으로, 그리고 제3 열은 "Y" 아미노산과의 상호작용에 의해 생성된 것으로 알려져 있다. 그 결과, 이 신호 트레이스들은 도 6에 관련하여 위에서 설명된 바와 같이 머신 학습 모델을 훈련시키기 위하여 이용될 수 있다. 일반적으로, 도 18에서 도시된 약간보다 많이 더 많은 신호 트레이스들은 머신 학습 모델을 훈련시키기 위한 입력으로서 이용될 수 있다.
도 19a 내지 도 19e는 도 18에서 도시된 것들과 같은 3 개의 아미노산들을 위한 신호 트레이스들에 기초하여 GMM-기반 머신 학습 모델을 훈련시키는 프로세스를 도시한다. 도 19a는 일부 실시예들에 따른, 알려진 아미노산들, F, W, 또는 Y 중의 어느 하나와 친화도 시약의 상호작용으로부터 생성되었던 신호 트레이스들로부터 획득된 데이터를 도시한다. 특히, 도 19a에서 도시된 데이터는 신호 트레이스들로부터의 펄스들의 특성들을 도시하고, 각각의 신호 트레이스에 대한 펄스들의 평균 특성들은 데이터 포인트에 의해 표현된다. Y 아미노산(어두운 원들)에 대한 데이터 포인트는 예를 들어, Y 아미노산과의 반응들로부터 생성된 것으로 알려진 신호 트레이스에서의 펄스들에 대한 평균 펄스 기간 및 평균 펄스간 기간을 표현한다.
도 19b에서 도시된 바와 같이, 그리고 위에서 논의된 바와 같이, GMM은 알려진 아미노산에 대응하는 각각의 데이터세트(dataset)에 대응하는 클러스터들을 식별함으로써 이러한 데이터에 대하여 생성될 수 있다. 이 3 개의 클러스터들은 도 19a에서 도시된 데이터에 대하여 도 19b에서 도시되고, 도 19c에서 이 데이터 포인트들 없이 도시된다.
일단 훈련되면, 도 19b 및 도 19c에 의해 표현된 GMM을 포함하는 머신 학습 모델은 도 19d에서 도시된 것과 같은 비표지화된 데이터에 적용될 수 있다. 도 19d의 예에서는, 다수의 상이한 아미노산들로부터(또는 그와 연관된 친화도 시약들로부터) 생성되었을 수 있는 데이터를 포함하는 신호 트레이스가 도시된다. 도 7에 관련하여 위에서 논의된 바와 같이, 데이터의 부분들은 펄스 특성들에 기초하여 식별될 수 있거나, 그렇지 않을 경우에, 상이한 상호작용들을 통해 생성되었을 수 있는 부분들을 식별할 수 있다. 이 부분들(또는 그 특성들)의 각각은 어느 아미노산이 각각의 부분과 연관되는지를 결정하기 위하여 훈련된 머신 학습 모델로 입력될 수 있다. 도 19e에서 도시된 바와 같이, 이것은 평균 펄스 기간 및 평균 펄스간 기간에 의해 정의된 2 차원 공간에서의 포지션이 각각의 부분에 대하여 결정되는 것으로 귀착될 수 있다. 공간에서의 각각의 포지션과 연관될 가능성이 가장 높은 아미노산은 이에 의해, 훈련된 머신 학습 모델에 기초하여 결정될 수 있다. 예를 들어, 도 19e에서 도시된 바와 같이, 부분 3은 F 아미노산과 연관될 가능성이 높은 것으로 결정될 수 있다.
도 20a 내지 도 20d는 일부 실시예들에 따라, 아미노산들을 식별하는 것에 대안적인 2-단계 접근법을 도시한다. 도 20a 내지 도 20d의 예에서, 제1 클러스터링 모델은 친화도 시약들로부터 생성된 데이터의 특성 성질들을 식별하고, 이에 의해, 이 시약들이 서로 구별되는 것을 허용하도록 개발될 수 있다. 이 기법은 다수의 친화도 시약들이 신호 트레이스에서 동시에 데이터를 생성하고 있을 경우에 유익할 수 있다. 추후에, 추가적인 클러스터링 모델들은 데이터의 어느 부분들이 다양한 친화도 시약들에 의해 생성된 데이터를 포함하는 것으로 결정되는지에 기초하여 적용될 수 있다.
도 20a에서 도시된 바와 같이, 신호 트레이스는 분석되고, 도면에서 이에 따라 표지화되는 5 개의 부분들을 포함하는 것으로 결정된다. 이 부분들의 적어도 일부가 하나 초과의 친화도 시약에 의해 생성된 데이터를 포함하는 경우에는, 단일 친화도 시약으로부터의 데이터에 대해 훈련된 머신 학습 모델이 데이터의 이러한 부분들을 정확하게 범주화(categorize)하지 않을 수 있다. 이와 같이, 초기에, 제1 클러스터링 모델은 신호 트레이스에서의 부분들의 전부로부터의 데이터에 기초하여 개발된다. 이 제1 클러스터링 모델은 도 20b에서 표현되고, 도 20b는 부분들 1 내지 5의 전부에서의 펄스들에 대한 발광 수명 및 펄스 강도를 도시한다. 제1 클러스터링 모델은 이에 의해, 도 20b에서 도시된 바와 같이, 친화도 시약들의 특성 성질들을 식별할 수 있고, 2 개의 상이한 클러스터들은 2 개의 상이한 친화도 시약들로부터의 데이터를 표현하는 것으로 식별된다.
추후에, 도 20a에서 도시된 데이터의 5 개의 부분들의 각각으로부터의 펄스들에 대한 펄스 수명 및 강도 데이터는 도 20c에서 도시된 바와 같이 별도로 배열될 수 있다. 이 데이터를 배열할 시에, 제1 클러스터링 모델로부터의 펄스들의 클러스터링 배정들이 사용될 수 있다. 언급될 수 있는 바와 같이, 일부 부분들, 즉, 부분들 1, 3, 4, 및 5로부터의 펄스들은 제1 클러스터링 모델의 2 개의 클러스터들의 둘 모두로부터의 데이터를 포함한다. 대조적으로, 부분 2는 단일 클러스터로부터의 데이터를 오직 주로 포함한다.
제1 클러스터링 모델을 사용하여 클러스터들 중의 어느 것이 각각의 부분에서 존재하는지를 식별함으로써, 상이한 GMM 모델은 어느 클러스터들이 존재하는지에 기초하여 선택될 수 있다. 예를 들어, 부분들 1, 3, 4, 및 5에 대한 데이터는 제1 클러스터링 모델에서의 각각의 클러스터에 대응하는 친화도 시약들의 성질들에 대하여 구체적으로 훈련된 GMM 모델에 기초하여 아미노산을 배정받을 수 있다. 이 결과는 도 20d에서 도시되고, 도 20d는 제2 클러스터로부터의 데이터 포인트들에 대한 평균 펄스 기간에 대하여 제1 클러스터로부터의 데이터 포인트들에 대한 평균 펄스 기간을 도표화한다(부분 3에 대한 데이터 포인트는 도 20d에서의 가시적인 영역 내에서 도시되지 않음). 이와 같이, 각각의 부분은 적절하게 범주화될 수 있다. 대조적으로, 부분 2는 그 대신에, 그 각자의 바인더(binder)들의 성질들에 대해 오직 훈련된 별도의 GMM 모델들에 의해 분류될 수 있다.
도 11은 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 아미노산들을 식별하기 위한 콘볼루션 신경망(CNN)(1100)의 일 예의 구조를 예시한다. 일부 실시예들에서, CNN(1100)은 도 6a를 참조하여 위에서 설명된 프로세스(600)를 수행함으로써 훈련될 수 있다. 일부 실시예들에서, 프로세스(600)로부터 획득되는 훈련된 CNN(1100)은 도 6b를 참조하여 위에서 설명된 프로세스(610)를 수행하기 위하여 이용될 수 있다.
도 11의 일 예의 실시예에서, CNN(1100)은 입력(1102A)을 수신한다. 일부 실시예들에서, 입력(1102A)은 광 펄스들 후의 시간 주기들의 시간 간격들에서의 광자 수들을 특정하는 프레임들의 집합일 수 있다. 일부 실시예들에서, 입력(1102A)은 도 9b를 참조하여 위에서 설명된 데이터 구조(910)와 같은 데이터 구조에서 배열될 수 있다. 도 11의 일 예의 실시예에서, 입력(1102A)은 2x1000 입력 행렬을 형성하는 2 개의 시간 간격들에 대한 데이터의 1000 개의 프레임들을 포함한다. 일부 실시예들에서, 입력(1102A)은 (예컨대, 프로세스(700) 동안에 식별된 바와 같은) 아미노산과 시약의 결합 상호작용과 연관된 프레임들의 세트를 포함할 수 있다. 일부 실시예들에서, 입력(1102A)은 검출된 결합 상호작용들의 하나 이상의 성질들(예컨대, 펄스 기간, 펄스간 기간, 파장, 발광 강도, 및/또는 발광 수명)의 값들, 및/또는 성질들로부터 유도된 하나 이상의 파라미터들의 값들일 수 있다.
일부 실시예들에서, CNN(1100)은 입력(1102A)이 하나 이상의 필터들과 콘볼루션되는 하나 이상의 콘볼루션 계층들(1102)을 포함한다. 도 11의 일 예의 실시예에서, 입력(1102A)은 제1 콘볼루션 계층에서의 16 개의 2x50 필터들의 제1 시리즈와 콘볼루션된다. 16 개의 필터들과의 콘볼루션은 16x951 출력(1102B)으로 귀착된다. 일부 실시예들에서, CNN(1100)은 제1 콘볼루션 계층 후의 풀링 계층(pooling layer)을 포함할 수 있다. 예로서, CNN(1100)은 출력(1102B)을 획득하기 위하여 제1 콘볼루션 계층의 출력의 윈도우들에서의 최대 값을 취함으로써 풀링(pooling)을 수행할 수 있다.
도 11의 일예의 실시예에서, 제1 콘볼루션 계층의 출력(1102B)은 그 다음으로, 제2 콘볼루션 계층에서의 하나 이상의 필터들의 제2 세트와 콘볼루션된다. 출력(1102C)을 획득하기 위하여, 출력(1102B)은 하나 이상의 1x6 필터들의 세트와 콘볼루션된다. 일부 실시예들에서, CNN(1100)은 제2 콘볼루션 계층 후의 풀링 계층(예컨대, 최대 풀링 계층)을 포함할 수 있다.
도 11의 일 예의 실시예에서, CNN(1100)은 평탄화된 출력(1106A)을 생성하기 위하여 콘볼루션(1102)의 출력이 평탄화되는 평탄화 단계(1104)를 포함한다. 일부 실시예들에서, CNN(1100)은 8x946 출력 행렬을 1 차원 벡터로 변환함으로써 출력(1102C)을 평탄화하도록 구성될 수 있다. 도 11의 일 예의 실시예에서, 8x43 출력(1102C)은 1x7568 벡터(1106A)로 변환된다. 벡터(1106A)는 각각의 가능한 클래스에 대한 점수를 생성하기 위하여 완전히 접속된 계층으로 입력될 수 있다. 도 11의 일 예의 실시예에서, 가능한 클래스들은 20 개의 보편적인 아미노산들, 및 블랭크 (-)이다. softmax 동작(1106)은 그 다음으로, 출력(1110)을 획득하기 위하여 완전히 접속된 계층의 출력에 대해 수행된다. 일부 실시예들에서, softmax 동작(1106)은 클래스들의 각각에 대한 점수를 각자의 확률로 변환할 수 있다. argmax 동작(1108)은 그 다음으로, 분류를 획득하기 위하여 출력(1110)에 대해 수행된다. argmax 동작(1108)은 출력(1110)에서 가장 높은 확률을 가지는 클래스를 선택할 수 있다. 예로서, 출력은 입력(1102A)에 의해 표현된 시간 주기 동안의 시약과의 결합 반응에서 아미노산을 식별할 수 있다. 또 다른 예로서, 출력은 블랭크(-)의 분류를 출력함으로써, 시간 주기 동안에 아미노산과 시약의 결합 상호작용이 없었다는 것을 식별할 수 있다.
도 12는 본 명세서에서 설명된 기술의 일부 실시예들에 따른, 폴리펩티드의 아미노산들을 식별하기 위한 연결주의 시간적 분류(CTC)-피팅된 신경망 모델(1200)의 예를 예시한다. 일부 실시예들에서, CTC-피팅된 신경망 모델(1200)은 도 6a를 참조하여 위에서 설명된 프로세스(600)를 수행함으로써 훈련될 수 있다. 일부 실시예들에서, 프로세스(600)로부터 획득되는 훈련된 CTC-피팅된 신경망 모델(1200)은 도 6b를 참조하여 위에서 설명된 프로세스(610)를 수행하기 위하여 이용될 수 있다.
도 12의 일 예의 실시예에서, 모델(1200)은 단백질 서열화 디바이스(예컨대, 단백질 서열화 디바이스(502))에 의해 수집된 데이터를 수신하도록 구성된다. 예로서, 모델(1200)은 단백질 서열화 디바이스(502)의 단백질 식별 시스템(502C)에 의해 이용된 머신 학습 모델일 수 있다. 데이터는 아미노산들과 시약들의 상호작용들 동안에 발광성 표지들에 의한 검출된 광 방출들로부터 액세스될 수 있다. 일부 실시예들에서, 데이터는 도 9b를 참조하여 위에서 설명된 바와 같은 다수의 일련의 수들의 광자들 및/또는 프레임들로서 배열될 수 있다. 일부 실시예들에서, 단백질 서열화 디바이스(1220)에 의해 수집된 데이터의 부분들은 모델(1200)에 대한 일련의 입력들로서 제공될 수 있다. 예로서, 모델(1200)은 400 개의 광 펄스들의 각각 후의 2 개의 시간 간격들에서 검출된 광자 수들을 특정하는 제1 2x400 입력을 수신하도록 구성될 수 있다.
도 12의 일 예의 실시예에서, 모델(1200)은 특징 추출기(1204)를 포함한다. 일부 실시예들에서, 특징 추출기는 훈련된 오토인코더(autoencoder)의 인코더일 수 있다. 오토인코더는 훈련될 수 있고, 오토인코더로부터의 디코더는 특징 추출기(1204)로서 구현될 수 있다. 인코더는 하나 이상의 특징들(1206)의 값들로서의 입력을 인코딩하도록 구성될 수 있다.
도 12의 일 예의 실시예에서, 특징 추출기(1204)에 의해 결정된 특징 값들(1206)은 각각의 가능한 클래스에 대한 일련의 확률 값들을 표시하는 확률 행렬(1210)을 출력하는 예측기(1208)로 입력된다. 도 12의 일 예의 실시예에서, 클래스들은 시약들이 결합할 수 있는 아미노산들(예컨대, 20 개의 보편적인 아미노산들, 및 블랭크 (-))을 포함한다. 예로서, 예측기(1208)는 클래스들의 각각에 대한 일련의 50 개의 확률 값들을 표시하는 21x50 행렬을 출력할 수 있다. 확률 행렬(1210)은 단백질 서열화 디바이스(1220)에 의해 수집된 데이터에 대응하는 아미노산 서열을 식별하는 출력(1230)을 생성하기 위하여 이용될 수 있다. 일부 실시예들에서, 아미노산 서열은 확률 행렬(1210)로부터 결정될 수 있다. 예로서, 빔 검색은 아미노산 서열의 출력(1230)을 획득하기 위하여 수행될 수 있다. 일부 실시예들에서, 출력은 (예컨대, 프로세스(610)의 블록(618)에서 수행된 바와 같이) 각자의 단백질들을 특정하는 아미노산들의 다수의 서열들 중의 하나에 정합될 수 있다. 예로서, 출력은 다수의 아미노산 서열들의 세트로부터, 단백질들의 다수의 서열들의 HMM과 가장 근접하게 정렬되는 아미노산 서열을 선택하기 위하여 이용되는 은닉된 마코브 모델(HMM)을 생성하기 위하여 이용될 수 있다.
일부 실시예들에서, 특징 추출기(1204)는 예측기(1208)와는 별도로 훈련될 수 있다. 예로서, 특징 추출기(1204)는 오토인코더를 훈련시킴으로써 획득될 수 있다. 오토인코더로부터의 인코더는 그 다음으로, 특징 추출기(1204)로서 이용될 수 있다. 일부 실시예들에서, 예측기(1208)는 CTC 손실 함수(1212)를 이용하여 별도로 훈련될 수 있다. CTC 손실 함수(1212)는 출력(1230)을 생성하기 위하여 이용될 수 있는 출력을 생성하기 위한 예측기(1208)를 훈련시킬 수 있다.
일부 실시예들에서는, 다수의 확률 행렬들이 조합될 수 있다. 제2 입력은 단백질 서열화 디바이스(1220)에 의해 획득된 데이터로부터 액세스될 수 있다. 제2 입력은 단백질 서열화 디바이스(1220)에 의해 획득된 데이터의 제2 부분일 수 있다. 일부 실시예들에서, 제2 입력은 단백질 서열화 디바이스(1220)에 의해 획득된 데이터에서의 포인트 수만큼 시프팅함으로써 획득될 수 있다. 예로서, 제2 입력은 서열화기(420)로부터 획득된 데이터에서 8 개의 포인트들을 시프팅함으로써 획득된 제2 400x2 입력 행렬일 수 있다. 제2 입력에 대응하는 확률 행렬은 예측기(1208)로부터 획득될 수 있고, 제1 입력에 대응하는 제1 확률 행렬과 조합될 수 있다. 예로서, 제2 확률 행렬은 제1 확률 행렬에 추가될 수 있다. 또 다른 예로서, 제2 확률 행렬은 시프팅될 수 있고, 제1 확률 행렬에 추가될 수 있다. 조합된 확률 행렬들은 그 다음으로, 아미노산 서열을 식별하는 출력(1230)을 획득하기 위하여 이용될 수 있다.
일부 실시예들에서, 특징 추출기(1204)는 신경망일 수 있다. 일부 실시예들에서, 신경망은 콘볼루션 신경망(CNN)일 수 있다. 일부 실시예들에서, CNN은 하나 이상의 콘볼루션 계층들 및 하나 이상의 풀링 계층들을 포함할 수 있다. CNN은 단백질 서열화 디바이스(1220)로부터의 입력이 필터들의 세트와 콘볼루션되는 제1 콘볼루션 계층을 포함할 수 있다. 예로서, 입력은 16x400x2 출력을 생성하기 위하여 1x1의 스트라이드를 이용하여 16 개의 10x2 필터들의 세트와 콘볼루션될 수 있다. 활성화 함수는 제1 콘볼루션 계층의 출력에 적용될 수 있다. 예로서, ReLU 활성화 함수는 제1 콘볼루션 계층의 출력에 적용될 수 있다. 일부 실시예들에서, CNN은 제1 콘볼루션 계층 후의 제1 풀링 계층을 포함할 수 있다. 일부 실시예들에서, CNN은 제1 콘볼루션 계층의 출력에 대해 maxpool 동작을 적용할 수 있다. 예로서, 1x1 스트라이드를 갖는 2x2 필터는 200x1 출력을 획득하기 위하여 16x400x2 출력에 적용될 수 있다.
일부 실시예들에서, CNN은 제2 콘볼루션 계층을 포함할 수 있다. 제2 콘볼루션 계층은 입력으로서 제1 풀링 계층의 출력을 수신할 수 있다. 예로서, 제2 콘볼루션 계층은 입력으로서 제1 풀링 계층의 200x1 출력을 수신할 수 있다. 제2 콘볼루션 계층은 필터들의 제2 세트와의 콘볼루션을 수반할 수 있다. 예로서, 제2 콘볼루션 계층에서, 200x1 입력은 16x200 출력을 생성하기 위하여 1x1의 스트라이드를 갖는 16 개의 10x1 필터들의 제2 세트와 콘볼루션될 수 있다. 활성화 함수는 제2 콘볼루션 계층의 출력에 적용될 수 있다. 예로서, ReLU 활성화 함수는 제2 콘볼루션 계층의 출력에 적용될 수 있다. 일부 실시예들에서, CNN은 제2 콘볼루션 계층 후의 제2 풀링 계층을 포함할 수 있다. 일부 실시예들에서, CNN은 제2 콘볼루션 계층의 출력에 대해 maxpool 동작을 적용할 수 있다. 예로서, 4x1 스트라이드를 갖는 4x1 필터는 16x50 출력을 획득하기 위하여 제2 콘볼루션 계층의 16x200 출력에 적용될 수 있다.
일부 실시예들에서, 특징 추출기(1204)는 순환 신경망(RNN)일 수 있다. 예로서, 특징 추출기(1204)는 하나 이상의 특징들의 값들로서 단백질 서열화 디바이스(1220)로부터 수신된 데이터를 인코딩하기 위하여 훈련된 RNN일 수 있다. 일부 실시예들에서, 특징 추출기(1204)는 장단기 메모리(long short-term memory)(LSTM) 네트워크일 수 있다. 일부 실시예들에서, 특징 추출기(1204)는 게이팅된 순환 유닛(gated recurrent unit)(GRU) 네트워크일 수 있다.
일부 실시예들에서, 예측기(1208)는 신경망일 수 있다. 일부 실시예들에서, 신경망은 GRU 네트워크일 수 있다. 일부 실시예들에서, GRU 네트워크는 양방향성일 수 있다. 예로서, GRU 네트워크는 GRU 네트워크에 대한 입력으로서 제공되는, 특징 추출기(1204)의 16x50 출력을 수신할 수 있다. 예로서, GRU 네트워크는 50x128 출력을 생성하는 64 개의 은닉된 계층들을 가질 수 있다. 일부 실시예들에서, GRU 네트워크는 tanh 활성화 함수를 이용할 수 있다. 일부 실시예들에서, 예측기(1208)는 완전히 접속된 계층을 포함할 수 있다. GRU 네트워크의 출력은 21x50 출력 행렬을 생성하는 완전히 접속된 계층에 대한 입력으로서 제공될 수 있다. 21x50 행렬은 각각의 가능한 출력 클래스에 대한 일련의 값들을 포함할 수 있다. 일부 실시예들에서, 예측기(1208)는 확률 행렬(1210)을 획득하기 위하여 완전히 접속된 계층의 출력에 대해 softmax 함수를 적용하도록 구성될 수 있다.
도 7에 관련하여 위에서 논의된 바와 같이, 값들을 훈련된 머신 학습 모델로의 입력인 것으로 식별하기 위하여 신호 트레이스의 부분들이 식별돌 수 있다. 각각의 부분 또는 관심 영역(ROI)은 ROI에서 생성된 신호의 특성들이 시약을 표시한다는 점에서, 특정한 발광성 시약과 연관될 수 있다. 예를 들어, 도 3에서, K, F, 및 Q로 나타내어진 3 개의 ROI들은 분열 이벤트들 사이에서 식별된다. 그러므로, 이들 ROI들을 식별하는 것은 훈련된 머신 학습 모델에 대한 입력에 대하여 각각의 ROI로부터 특징들을 추출하기 이전에, 도 7의 방법에서와 같이, 데이터의 부분들을 선택하는 초기 단계를 표현할 수 있다.
ROI들을 식별하기 위한 예시적인 접근법은 도 14a 내지 도 14c에서 예시된다. 설명의 목적들을 위하여, 도 14a는 위에서 설명된 바와 같은 큰 수의 펄스들(측정된 광 방출들)을 포함하는 예시적인 신호 트레이스를 도시한다. 일반적으로, 이러한 신호 트레이스는 특정한 친화도 시약에 의해 생성된 펄스들에 각각 대응하는 다수의 ROI들을 포함할 수 있다. 이하에서 추가로 설명되어야 할 접근법에서, 웨이블렛 변환은 도 14b에서 도시되는 복수의 웨이블렛 계수들을 생성하기 위하여 신호 트레이스의 일부 또는 전부에 적용될 수 있다. 이 웨이블렛 계수들은 도 14b에서의 다양한 특징들의 포지션들을 도 14a에서의 펄스들에서의 대응하는 변화들과 비교함으로써 언급될 수 있는 바와 같이, 원래의 신호 트레이스의 성질들을 표현한다.
도 14c에서 도시된 바와 같이, 웨이블렛 계수들은 후보 ROI들을 식별하기 위하여 분석될 수 있다. 도 14c에서의 어두운 수직 막대들은 ROI의 시작 또는 종료가 그 포지션에서 존재할 수 있다는 것을 표시하는 웨이블렛 계수들의 측정을 표현한다. 일부 경우들에는, 이하에서 논의된 바와 같이, 후보 ROI들은 후보가 얼마나 실제의 ROI일 가능성이 있는지의 신뢰도의 척도에 기초하여 일부 후보 ROI들을 제외하기 위하여 추가로 분석될 수 있다.
도 15는 일부 실시예들에 따른, 위에서 개요가 서술된 웨이블렛 접근법을 이용하여 ROI들을 식별하는 방법의 플로우차트이다. 방법(1500)은 예를 들어, 도 7의 방법(700)에서의 블록(702)에서 사용될 수 있고, 여기서, 데이터의 부분들(ROI들)은 데이터를 각각의 부분에 대한 머신 학습 모델에 제공하기 이전에 식별된다.
방법(1500)은 액트(1502)에서 시작되고, 여기서, 펄스를 포함하는 신호 트레이스의 일부 또는 전부의 웨이블렛 분해가 수행된다. 일부 실시예들에서, 웨이블렛 분해는 임의의 적당한 레벨의 분해까지 수행될 수 있는 이산 웨이블렛 변환(discrete wavelet transformation)(DWT)을 포함할 수 있다. 일부 실시예들에서, 액트(1502)는 적어도 10, 또는 10 내지 20 사이, 또는 15 내지 20 사이, 또는 17 내지 18 사이의 분해 레벨로 계수들을 생성하는 것을 포함할 수 있다. 일부 실시예들에서, 분해 레벨은 신호 트레이스의 하나 이상의 성질들(예컨대, 프레임 기간, 펄스간 기간 등)에 기초하여 동적으로 선택될 수 있다.
일부 실시예들에 따르면, 액트(1502)에서 수행된 웨이블렛 분해는 임의의 적당한 이산 웨이블렛 및/또는 하르(Haar), 다우베치즈(Daubechies), 쌍직교(biorthogonal), 코이플렛(coiflet), 또는 심렛(symlet)을 포함하지만, 이것으로 제한되지는 않는 웨이블렛 패밀이를 이용하여 수행될 수 있다.
웨이블렛 변환은 신호 트레이스에서 측정들(프레임들)이 있는 것보다 더 적은 수의 계수들을 생성할 수 있으므로, 하나 이상의 동작들은 웨이블렛 계수들과 신호 트레이스 사이에서 비교되어야 할 동일한 수의 값들이 있도록, 생성된 웨이블렛 계수들 사이의 추가적인 데이터 값들을 생성하기 위하여 액트(1502)에서 수행될 수 있다. 예를 들어, 데이터 값들은 임의의 적당한 보간 방법 또는 방법들을 통해 웨이블렛 계수들 사이의 보간에 의해 생성될 수 있다. 예를 들어, 데이터 값들은 최근접-이웃 보간(nearest-neighbor interpolation)을 통해, 선형 보간(linear interpolation)을 통해, 다항식 보간(polynomial interpolation)을 통해, 스플라인 보간(spline interpolation)을 통해, 또는 그 조합들을 통해 생성될 수 있다.
웨이블렛 계수들이 액트(1502)에서 어떻게 계산되는지에 관계 없이, 그리고 추가적인 데이터 값들이 위에서 설명된 바와 같이 생성되는지 또는 그렇지 않은지 여부에 관계 없이, 액트(1504)에서, 에지들은 웨이블렛 계수들에 기초하여 검출된다. 추후의 설명에서, 이 설명은 액트(1502)에서의 웨이블렛 변환으로부터 생성된 웨이블렛 계수들의 세트에만, 그리고 보간된 데이터 값들과 조합된 웨이블렛 계수들의 조합에 모두 적용가능하다는 것이 인식될 것이지만, 액트(1504)는 웨이블렛 계수들에 기초하여 수행된 동작들을 포함하는 것으로서 설명된다.
일부 실시예들에서, 에지들은 액트(1504)에서 웨이블렛 계수들의 기울기를 측정함으로써 검출될 수 있다. 예를 들어, 계수들 내의 하나 이상의 이웃하는 값들 상에서의 평균 기울기가 계산될 수 있고, 평균 기울기가 적당한 임계 값을 초과할 때에 에지가 검출된다. 일부 실시예들에서, 임계 값은 제로일 수 있고, 즉, 계수들의 기울기가 제로로부터 제로를 초과하여 갈 때, 에지가 검출될 수 있고, 계수들의 기울기가 음수이고 제로로 상승할 때, 에지가 또한 검출될 수 있다. 이것은 ROI의 선두 및 하강 에지들이 검출되는 것을 허용할 수 있다.
일부 실시예들에서, 검출된 에지의 크기는 액트(1504)에서 계산될 수 있다. 크기는 예를 들어, 검출된 에지에 바로 인접한 웨이블렛 계수들의 기울기의 크기일 수 있다. 따라서, 신속하게 상승하는 에지는 더 느리게 상승하는 에지와는 상이한 크기를 가지는 것으로서 식별될 수 있다.
액트(1506)에서, 하나 이상의 후보 ROI들은 액트(1504)에서 검출된 에지들에 기초하여 신호 트레이스 내에서 식별될 수 있다. 일부 실시예들에서, 후보 ROI들은 시작 및 종료 에지들 사이의 영역으로서 식별될 수 있다. 예를 들어, 도 14c의 예에서, 식별된 초기 2 개의 에지들은 제1 ROI의 시작 및 종료인 것으로 고려될 수 있고, 이에 의해, 영역(1405)이 후보 ROI로서 식별되는 것을 허용할 수 있다.
일부 실시예들에 따르면, 액트(1506)는 펄스들의 펄스 기간에서의 상당한 변화가 후보 ROI 내에서 발생하는지를 결정하기 위한 중요도 테스트를 포함할 수 있다. 펄스 기간에서의 변화가 일부 척도에 의해 상당한 것으로 발견될 경우에, 후보 ROI는 상이한 펄스 기간들을 각각 나타내는 2 개 이상의 ROI들로 분할될 수 있다. 예를 들어, 후보 ROI 내의 시간 포지션 및/또는 펄스 포지션은 ROI를 2 개의 새로운 ROI들로 분할하기 위한 포인트로서 식별될 수 있다(따라서, 제1 새로운 ROI는 분할 포인트에서 종료될 수 있고, 제2 새로운 ROI는 분할 포인트에서 시작할 수 있음). 이 프로세스는 ROI가 분할될 수 있고, 그 다음으로, 새로운 ROI들이 초기 ROI를 분할함으로써 생성될 수 있고, 다시 검사되고 분할될 수 있는 등의 점에서 순환적일 수 있다. 이 접근법은 오직 펄스 기간의 이용으로 제한되지 않으므로, 임의의 펄스 특성 또는 특성들은 후보 ROI를 분할할 것인지 여부를 결정하기 위하여 검사될 수 있다는 것이 또한 인식될 것이다.
후보 ROI들이 액트(1506)에서 검출된 에지들로부터 어떻게 식별되지는지에 관계 없이, 액트(1508)에서, 후보 ROI들은 임의적으로 점수화될 수 있고, 낮은-점수 ROI들은 고려사항으로부터 제외될 수 있다. 액트(1508)는 이에 의해, 액트(1506)에서 식별되지만, 실제적인 ROI를 표현할 가능성이 없는 위조 ROI들의 도태를 허용할 수 있다.
일부 실시예들에 따르면, 점수화 함수의 값은 액트(1508)에서 각각의 ROI에 대하여 계산될 수 있다. 점수화 함수는: 후보 ROI의 선두 및/또는 후미 에지들에서의 웨이블렛 계수들의 평균 기울기; ROI 내의 웨이블렛 계수들의 평균 또는 중위 진폭; ROI 내의 펄스 레이트; 전체 신호 트레이스 내의 잡음 레벨의 추정치; 전체 신호 트레이스 내의 펄스 레이트; 또는 그 조합들을 포함하지만, 이것으로 제한되지는 않는 몇몇 변수들의 함수일 수 있다.
일부 실시예들에 따르면, 점수화 함수는 i 번째 후보 ROI에 대한 신뢰도 점수 Ci를 계산하기 위하여 다음의 형태를 취할 수 있고:
Figure pct00001
여기서, Ei는 후보 ROI의 선두 및 후미 에지들에서의 웨이블렛 계수들의 기울기의 평균이고, Mi은 ROI 내의 웨이블렛 계수들의 중위 진폭이고, Pri은 ROI 내의 펄스 레이트이고, Nt는 전체 신호 트레이스 내의 잡음 레벨의 추정치(예컨대, 신호 트레이스의 전체 웨이블렛 엔트로피)이고, PR은 전체 신호 트레이스 내의 펄스 레이트이다.
일부 실시예들에 따르면, 액트(1508)는 임계 값 미만인 계산된 점수를 가지는 임의의 ROI들을 제외하는 것을 포함할 수 있다. 예를 들어, 점수가 위의 수학식에 의해 주어질 경우에, 일부 임계 값 미만으로 점수화하는 후보 ROI들은 후속 고려사항으로부터 제외될 수 있다.
도 7에 관련하여 위에서 논의된 바와 같이, 머신 학습 모델에 대한 입력을 위한 값들은 펄스 파라미터들에 맞추어진 분포를 설명하는 파라미터들을 포함하는, 데이터의 부분으로부터 유도된 임의의 파라미터들을 포함할 수 있다. 또한, 머신 학습 모델의 훈련 동안에, 알려진 친화도 시약들로부터 생성된 데이터는 머신 학습 모델이 시약들이 나타내는 분포의 파라미터들에 기초하여 친화도 시약들을 인식하기 위하여 훈련되도록, 적당한 분포에 맞추어질 수 있다.
도 16a 내지 도 16b는 일부 실시예들에 따른, 이러한 방식으로 적용될 수 있는 2 개의 예시적인 접근법들을 도시한다. 도 16a의 예에서, 알려진 아미노산과 연관된 친화도 시약에 대응하는 신호 트레이스의 부분에 대한 펄스 기간들은 거듭제곱 법칙 분포(power law distribution)에 맞추어진다. 어두운 라인(1601)은 관련된 신호 트레이스 데이터에 의해 나타내어진 펄스 기간들의 분포를 표현하고, 밝은 라인(1602)은 거듭제곱 법칙
Figure pct00002
에 의해 설명된 라인을 표현하고, 여기서, C 및 a는 상수들이고, x는 펄스 기간이다. 이러한 방식으로 머신 학습 모델을 훈련시킴으로써, 각각의 친화도 시약은 C 및 a의 그 자신의 값들(또는 값들의 자신의 분포들)과 연관될 수 있다.
도 16a에서 예시된 접근법 및 추후의 논의는 단일 펄스 기간 값(또는 다른 펄스 파라미터)이 특정한 친화도 시약에 의해 생성된 측정들의 유형들을 완전히 표현하지 않을 수 있을 가능성에 기초한다. 오히려, 각각의 친화도 시약은 펄스 파라미터 값들의 범위를 당연히 생성할 수 있다. 그러나, 범위의 특성들은 각각의 친화도 시약에 대하여 상이할 수 있고, 이 때문에, 분포들은 특정한 값이 아니라 시약들의 특성이다.
도 16b는 주어진 친화도 시약에 의해 생성된 데이터를 표현하기 위하여 지수 함수들(또한, 지수 상태들로서 지칭됨)의 합을 이용하는 예이다. 도 16b에서 도시된 바와 같이, 알려진 아미노산과 연관된 친화도 시약에 대응하는 신호 트레이스의 부분에 대한 펄스 기간들은 지수 함수들의 합에 맞추어진다. 어두운 라인(1611)은 관련된 신호 트레이스 데이터에 의해 나타내어진 펄스 기간들의 분포를 표현하고, 중간-회색 라인(1612)은 지수 함수들의 합에 의해 설명된 라인을 표현한다. 이 지수 함수들은 밝은 회색 라인들(1615 및 1616)로서 예시된다. 수학적으로, 지수 함수들의 합은 다음에 의해 주어질 수 있다:
Figure pct00003
여기서, ai 및 bi는 i 번째 지수 함수에 대한 값들이다. 그러므로, 도 16b에서 도시된 경우에는, 데이터(1611)에 맞추어질 수 있는 값들이 a1, a2, b1, 및 b2이다.
도 17a 내지 도 17b는 일부 실시예들에 따른, 펄스 기간 값들이 3 개의 지수 함수들의 합으로 맞추어지고, 각각의 맞추어진 분포는 공통적인 지수 함수를 포함하는 접근법을 도시한다. 도 17a 내지 도 17b의 예에서, 3 개의 지수 함수들의 합은 2 개의 예시적인 디펩티드들(FA 및 YA)의 각각에 대한 펄스 기간 분포에 맞추어진다. 지수 함수들의 합은 위의 수학식에서와 같이 주어질 수 있고, 여기서, a0 및 b0의 동일한 값들은 분포들의 각각을 맞추기 위하여 이용되고, 나머지 값들 a1, a2, b1, 및 b2는 별도로 각각의 분포에 대하여 맞추어진다. 특히, 도 17a는 지수 함수들(1705, 1715, 및 1716)의 합(1702)에 맞추어지는 데이터(1701)를 도시하고, 함수(1705)는 공통적인 지수 함수이다. 도 17b는 지수 함수들(1705, 1718, 및 1719)의 합(1712)에 맞추어지는 데이터(1711)를 도시한다.
도 17a 내지 도 17b의 접근법은 값들 a0 및 b0에 의해 표현된 공통적인 상태가 모든 디펩티드(dipeptide)들에 대하여 존재하는 분포들의 공통적인 컴포넌트를 표현할 수 있다는 장점을 가질 수 있다. 이 공통적인 컴포넌트는 예를 들어, 측정 디바이스에 내재적인 잡음 및/또는 신호 트레이스들을 생성하기 위한 친화도 시약들의 이용에 내재적인 잡음을 표현할 수 있다.
일부 실시예들에 따르면, 이 접근법을 이용하여 머신 학습 모델을 훈련시키는 것은 다음을 포함할 수 있다. 첫째, 시스템의 동역학을 펄스 기간들의 함수인 3-컴포넌트 시스템으로서 모델링한다:
Figure pct00004
여기서,
Figure pct00005
의 값은 모든 디펩티드들에 걸쳐 공유되지만, 나머지 파라미터들 A, B, C, β0, 및 β1는 인덱스 n에 의해 참조된 특정한 디펩티드에 특이적이다.
함수 G(x)는 관찰된 펄스 기간들의 범위에 걸쳐 1로 합산되도록 제약될 수 있다:
Figure pct00006
여기서, d0 및 d1은 관찰된 가능한 펄스 기간들의 하부 및 상부 범위이다.
머신 학습 모델의 훈련 동안에, G(x)의 파라미터들은 모델의 음의 로그 우도(negative log likelihood)를 최소화함으로써 결정될 수 있다. 즉, 다음을 최소화하고:
Figure pct00007
여기서, p(n)는 모델 파라미터들이 주어질 경우에 데이터를 관찰하는 확률이고:
Figure pct00008
X(n)는 훈련 데이터에 대하여 관찰된 펄스 기간들의 세트이다.
단백질 식별을 수행할 때, 이 모델은 모든 n에 걸쳐 p(n)를 계산함으로써 적용될 수 있다. 모델 예측은 그 다음으로,
Figure pct00009
의 최대 값들을 갖는 n에 의해 표현된 디펩티드이다.
지수 함수들의 합을 이용하여 펄스 기간들의 분포를 모델링하는 위에서 설명된 예는 특정한 친화도 시약 및/또는 디펩티드에 의해 생성된 데이터의 펄스 특성들을 설명하는 하나의 예로서 제공된다는 것이 인식될 것이다. 다른 접근법들은 상이한 펄스 특성들의 다수의 분포들에 의존할 수 있고, 다수의 분포들로부터의 파라미터들에 기초하여 단백질들을 식별하기 위한 머신 학습 모델을 훈련시키기 위하여 다양한 머신 학습 기법들을 적용할 수 있다.
일부 실시예들에서, 분포들은 관찰된 펄스들을 생성하기 위하여 단백질과 상호작용하는 특정한 친화도 시약이 주어질 경우에 특정한 펄스 특성 또는 특성들을 측정할 확률들에 기초할 수 있다. 일부 실시예들에서, 분포들은 관찰된 펄스들이 관찰되었을 때에 존재하는 특정한 말단 디펩티드가 주어질 경우에 특정한 펄스 특성 또는 특성들을 측정할 확률들에 기초할 수 있다. 위의 2 개의 경우들은 반드시 동일하지는 않는데, 그 이유는 특정한 친화도 시약이 하나의 디펩티드 대 또 다른 디펩티드와 상호작용할 때에 펄스 특성들의 상이한 분포를 생성할 수 있기 때문이다. 유사하게, 동일한 디펩티드는 하나의 친화도 시약 대 또 다른 친화도 시약과 상호작용할 때에 상이한 펄스 특성들이 생성되게 할 수 있다.
이 발명의 적어도 하나의 실시예의 몇몇 양태들을 이와 같이 설명하였지만, 다양한 변경들, 변형들, 및 개선들이 본 기술분야에서의 통상의 기술자들에게 용이하게 발생할 것이라는 것이 인식되어야 한다.
이러한 변경들, 변형들, 및 개선들은 이 개시내용의 일부가 되도록 의도되고, 발명의 사상 및 범위 내에 있도록 의도된다. 또한, 본 발명의 장점들이 표시되지만, 본 명세서에서 설명된 기술의 모든 실시예가 모든 설명된 장점을 포함하지는 않을 것이라는 것이 인식되어야 한다. 일부 실시예들은 본 명세서에서 유리한 것으로서 설명된 임의의 특징들을 구현하지 않을 수 있고, 일부 사례들에서, 설명된 특징들 중의 하나 이상은 추가의 실시예들을 달성하기 위하여 구현될 수 있다. 따라서, 상기한 설명 및 도면들은 오직 예이다.
예를 들어, 펩티드들, 폴리펩티드들, 및/또는 단백질들과 같은 생물학적 폴리머들을 서열화하기 위한 기법들이 본 명세서에서 설명된다. 설명된 기법들은 아미노산들의 임의의 적당한 폴리머에 적용될 수 있고, 아마노산을 서열화하고, 식별하는 것 등에 대한 본 명세서에서의 임의의 참조들은 특정한 폴리머에 대해 제한적인 것으로서 간주되지 않아야 한다는 것이 인식될 것이다. 이와 같이, 본 명세서에서의 단백질, 폴리펩티드들, 펩티드들 등에 대한 임의의 참조들은 이와 다르게 표시되지 않으면, 예시적인 예들로서 제공되고, 이러한 참조들은 명백하게 식별되지 않은 아미노산들의 다른 폴리머들에 동일하게 적용할 수 있다는 것이 이해될 것이다. 또한, 임의의 생물학적 폴리머는 DNA 및/또는 RNA를 포함하지만, 이것으로 제한되지는 않는 본 명세서에서 설명된 기법들을 이용하여 서열화될 수 있다.
또한, 본 명세서에서 이용된 바와 같이, 폴리펩티드 또는 단백질을 참조하는 "서열화", "서열 결정", "서열을 결정함" 등의 용어들은 부분적인 서열 정보 뿐만 아니라, 폴리펩티드 또는 단백질의 전체 서열 정보의 결정을 포함한다. 즉, 용어는 타겟 분자에 대한 정보의 서열 비교들, 핑거프린팅(fingerprinting), 확률적 핑커프린팅 등의 레벨들 뿐만 아니라, 관심 영역 내에서의 타겟 분자의 각각의 아미노산의 명백한 식별 및 순서화를 포함한다. 일부 실시예들에서, 용어는 폴리펩티드의 단일 아미노산을 식별하는 것을 포함한다. 또 다른 실시예들에서는, 폴리펩티드의 하나 초과의 아미노산이 식별된다. 본 명세서에서 이용된 바와 같이, 일부 실시예들에서, 아미노산을 참조하는 "식별", "아이덴티티를 결정함" 등의 용어들은 아미노산의 명백한 아이덴티티의 결정 뿐만 아니라, 아미노산의 명백한 아이덴티티의 확률의 결정을 포함한다. 예를 들어, 일부 실시예들에서, 아미노산이 특정 유형일 확률(예컨대, 0 %로부터 100 %까지)을 결정함으로써, 또는 복수의 특정 유형들의 각각에 대한 확률을 결정함으로써 아미노산이 식별된다. 따라서, 일부 실시예들에서, 본 명세서에서 이용된 바와 같은 용어들 "아미노산 서열", "폴리펩티드 서열", 및 "단백질 서열"은 폴리펩티드 또는 단백질 재료 자체를 지칭할 수 있고, 특정 폴리펩티드 또는 단백질을 생화학적으로 특성화하는 특정 서열 정보(예컨대, 하나의 말단으로부터 또 다른 말단으로의 아미노산들의 순서를 표현하는 글자들의 연속)로 한정되지 않는다.
일부 실시예들에서, 본 명세서에서 설명된 시스템들 및 기법들은 하나 이상의 컴퓨팅 디바이스들을 이용하여 구현될 수 있다. 그러나, 실시예들은 임의의 특정한 유형의 컴퓨팅 디바이스로 동작하는 것으로 제한되지는 않는다. 추가의 예시로서, 도 13은 예시적인 컴퓨팅 디바이스(1300)의 블록도이다. 컴퓨팅 디바이스(1300)는 하나 이상의 프로세서들(1302) 및 하나 이상의 유형(tangible)의 비-일시적 컴퓨터-판독가능 저장 매체들(예컨대, 메모리(1304))을 포함할 수 있다. 메모리(1304)는 유형의 비-일시적 컴퓨터-기록가능 매체 내에, 실행될 때, 위에서 설명된 기능성 중의 임의의 것을 구현하는 컴퓨터 프로그램 명령들을 저장할 수 있다. 프로세서(들)(1302)는 메모리(1304)에 커플링될 수 있고, 기능성이 실현되고 수행되게 하기 위하여 이러한 컴퓨터 프로그램 명령들을 실행할 수 있다.
컴퓨팅 디바이스(1300)는, 컴퓨팅 디바이스가 (예를 들어, 네트워크를 통해) 다른 컴퓨팅 디바이스들과 통신할 수 있게 하는 네트워크 입/출력(I/O) 인터페이스(1306)를 또한 포함할 수 있고, 컴퓨팅 디바이스가 출력을 사용자에게 제공할 수 있게 하고 입력을 사용자로부터 수신할 수 있게 하는 하나 이상의 사용자 I/O 인터페이스(1308)을 또한 포함할 수 있다. 사용자 I/O 인터페이스들은 키보드, 마우스, 마이크로폰, 디스플레이 디바이스(예컨대, 모니터 또는 터치 스크린), 스피커들, 카메라, 및/또는 다양한 다른 유형들의 I/O 디바이스들과 같은 디바이스들을 포함할 수 있다.
위에서 설명된 실시예들은 수 많은 방식들 중의 임의의 것으로 구현될 수 있다. 예로서, 실시예들은 하드웨어, 소프트웨어, 또는 그 조합을 이용하여 구현될 수 있다. 소프트웨어로 구현될 때, 소프트웨어 코드는 단일 컴퓨팅 디바이스에서 제공되든지 또는 다수의 컴퓨팅 디바이스들 사이에서 분산되든지 간에, 임의의 적당한 프로세서(예컨대, 마이크로프로세서) 또는 프로세서들의 집합 상에서 실행될 수 있다. 위에서 설명된 기능들을 수행하는 임의의 컴포넌트 또는 컴포넌트들의 집합은 위에서 논의된 기능들을 제어하는 하나 이상의 제어기들로서 일반적으로 고려될 수 있다는 것이 인식되어야 한다. 하나 이상의 제어기들은 전용 하드웨어, 또는 위에서 인용된 기능들을 수행하기 위하여 마이크로코드 또는 소프트웨어를 이용하여 프로그래밍되는 범용 하드웨어(예컨대, 하나 이상의 프로세서들)와 같은 수 많은 방식들로 구현될 수 있다.
이 점에서, 본 명세서에서 설명된 실시예들의 하나의 구현예는, 하나 이상의 프로세서들 상에서 실행될 때, 하나 이상의 실시예들의 위에서 논의된 기능들을 수행하는 컴퓨터 프로그램(즉, 복수의 실행가능 명령들)으로 인코딩된 적어도 하나의 컴퓨터-판독가능 저장 매체(예컨대, RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크들(DVD) 또는 다른 광 디스크 스토리지, 자기 카세트들, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 다른 유형의 비-일시적 컴퓨터-판독가능 저장 매체)를 포함한다는 것이 인식되어야 한다. 컴퓨터-판독가능 매체는 그 상에 저장된 프로그램이 본 명세서에서 설명된 기법들의 양태들을 구현하기 위하여 임의의 컴퓨팅 디바이스 상으로 로딩될 수 있도록 이송가능할 수 있다. 추가적으로, 실행될 때, 위에서 논의된 기능들 중의 임의의 것을 수행하는 컴퓨터 프로그램에 대한 참조는 호스트 컴퓨터 상에서 작동되는 애플리케이션 프로그램으로 제한되지는 않는다는 것이 인식되어야 한다. 오히려, 용어들 컴퓨터 프로그램 및 소프트웨어는, 본 명세서에서 논의된 기법들의 양태들을 구현하기 위하여 하나 이상의 프로세서들을 프로그래밍하도록 채용될 수 있는 임의의 유형의 컴퓨터 코드(예컨대, 애플리케이션 소프트웨어, 펌웨어, 마이크로코드, 또는 임의의 다른 형태의 컴퓨터 명령)를 참조하기 위하여 일반적인 의미로 본 명세서에서 이용된다.
본 개시내용의 다양한 특징들 및 양태들은 단독으로, 2 개 이상의 임의의 조합으로, 또는 상기에서 설명된 실시예들에서 구체적으로 논의되지 않은 다양한 배열들로 이용될 수도 있고, 그러므로, 그 응용에 있어서, 상기한 설명에서 기재되거나 도면들에서 예시된 컴포넌들의 세부사항들 및 배열로 제한되지는 않는다. 예로서, 하나의 실시예에서 설명된 양태들은 다른 실시예들에서 설명된 양태들과 임의의 방식으로 조합될 수 있다.
또한, 본 명세서에서 개시된 개념들은 그 예가 제공되었던 방법으로서 구체화될 수도 있다. 방법의 일부로서 수행된 액트(act)들은 임의의 적당한 방식으로 순서화될 수 있다. 따라서, 예시적인 실시예들에서 순차적인 액트들로서 도시되어 있지만, 일부 액트들을 동시에 수행하는 것을 포함할 수 있는, 예시된 것과 상이한 순서로 액트들이 수행되는 실시예들이 구성될 수 있다.
또한, 일부 액션들은 "사용자"에 의해 취해진 바와 같이 설명된다. "사용자"는 단일 개인일 필요가 없고, 일부 실시예들에서, "사용자"에 기인하는 액션들은 개인들의 팀 및/또는 컴퓨터-보조된 툴 또는 다른 메커니즘들과 조합한 개인에 의해 수행될 수 있다는 것이 인식되어야 한다.
청구항 요소를 변형하기 위한 청구항들에서의 "제1", "제2", "제3" 등과 같은 서수 용어들의 이용은 자체적으로는 방법의 액트들이 수행되는 시간적 순서 또는 하나의 청구항 요소의 다른 청구항 요소에 대한 임의의 우선순위, 선행(precedence), 또는 순서를 내포하는 것이 아니라, 청구항 요소들을 구별하기 위하여, 어떤 명칭을 가지는 하나의 청구항 요소를, (서수 용어의 이용을 위한 것을 제외하고는) 동일한 명칭을 가지는 또 다른 요소로부터 구별하기 위한 표지들로서 단지 이용된다.
또한, 본 명세서에서 이용된 어구 및 전문용어는 설명의 목적을 위한 것이고, 제한적인 것으로서 간주되지 않아야 한다. "포함하는(including)", "포함하는(comprising)", "가지는(having)", "포함하는(containing)", "수반하는(involving)", 및 본 명세서에서의 그 변동들의 이용은 그 후에 열거된 항목들 및 그 등가물들뿐만 아니라, 추가적인 항목들도 망라하는 것으로 의도된다.
용어들 "대략적으로" 및 "약"은 일부 실시예들에서 타겟 값의 ±20% 이내, 일부 실시예들에서 타겟 값의 ±10% 이내, 일부 실시예들에서 타겟 값의 ±5% 이내, 그리고 일부 실시예들에서 타겟 값의 ±2% 이내를 의미하기 위하여 이용될 수 있다. 용어들 "대략적으로" 및 "약"은 타겟 값을 포함할 수 있다. 용어 "대략적으로 동일한"은 일부 실시예들에서 서로의 ±20% 이내, 일부 실시예들에서 서로의 ±10% 이내, 일부 실시예들에서 서로의 ±5% 이내, 그리고 일부 실시예들에서 서로의 ±2% 이내인 값들을 지칭하기 위하여 이용될 수 있다.
용어 "실질적으로"는 일부 실시예들에서 비교 척도의 ±20% 이내, 일부 실시예들에서 ±10% 이내, 일부 실시예들에서 ±5% 이내, 그리고 일부 실시예들에서 ±2% 이내인 값들을 지칭하기 위하여 이용될 수 있다. 예를 들어, 제2 방향에 "실질적으로" 수직인 제1 방향은 일부 실시예들에서 제2 방향과 90° 각도를 이루는 것의 ±20% 이내, 일부 실시예들에서 제2 방향과 90° 각도를 이루는 것의 ±10% 이내, 일부 실시예들에서 제2 방향과 90° 각도를 이루는 것의 ±5% 이내, 그리고 일부 실시예들에서 제2 방향과 90° 각도를 이루는 것의 ±2% 이내인 제1 방향을 지칭할 수 있다.

Claims (183)

  1. 폴리펩티드를 식별하기 위한 방법으로서,
    상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 데이터를 액세스하는 것;
    상기 폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 상기 위치에서 존재할 하나 이상의 우도(likelihood)들을 표시하는 출력을 획득하기 위하여 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 것; 및
    상기 훈련된 머신 학습 모델로부터 획득된 상기 출력에 기초하여 상기 폴리펩티드를 식별하는 것을
    수행하기 위하여 적어도 하나의 컴퓨터 하드웨어 프로세서를 이용하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서, 상기 하나 이상의 각자의 아미노산들이 상기 위치에서 존재할 상기 하나 이상의 우도들은:
    제1 아미노산이 상기 위치에서 존재할 제1 우도; 및
    제2 아미노산이 상기 위치에서 존재할 제2 우도를 포함하는, 방법.
  3. 제1항 또는 제2항에 있어서, 상기 폴리펩티드를 식별하는 것은 상기 획득된 출력을 각자의 단백질들과 연관된 복수의 아미노산 서열들 중의 하나에 정합하는 것을 포함하는, 방법.
  4. 제3항에 있어서, 상기 획득된 출력을 각자의 단백질들을 특정하는 상기 복수의 아미노산 서열들 중의 하나에 정합하는 것은:
    상기 획득된 출력에 기초하여 은닉된 마코브 모델(hidden Markov model)(HMM)을 생성하는 것; 및
    상기 HMM을 상기 복수의 아미노산 서열들 중의 하나에 정합하는 것을 포함하는, 방법.
  5. 제1항에 있어서, 상기 머신 학습 모델은:
    가우시안 혼합 모델(Gaussian Mixture Model)(GMM);
    다수의 클러스터들 - 상기 클러스터들의 각각은 하나 이상의 아미노산들과 연관됨 - 을 포함하는 클러스터링 모델;
    심층 학습 모델;
    콘볼루션 신경망(convolutional neural network); 또는
    연결주의 시간적 분류(connectionist temporal classification)(CTC)-피팅된 신경망 중의 하나를 포함하는, 방법.
  6. 제1항에 있어서, 상기 훈련된 머신 학습 모델은 감독된 훈련 알고리즘을 훈련 데이터에 적용함으로써 생성되는, 방법.
  7. 제1항에 있어서, 상기 훈련된 머신 학습 모델은 반-감독된 훈련 알고리즘을 훈련 데이터에 적용함으로써 생성되는, 방법.
  8. 제1항에 있어서, 상기 훈련된 머신 학습 모델은 비감독된 훈련 알고리즘을 적용함으로써 생성되는, 방법.
  9. 제1항에 있어서, 상기 훈련된 머신 학습 모델은 상기 폴리펩티드에서의 상기 복수의 위치들의 적어도 일부의 각각에 대하여:
    다수의 아미노산들의 각각에 대하여, 상기 아미노산이 상기 위치에서 존재할 확률을 표시하는 확률 분포를 출력하도록 구성되는, 방법.
  10. 제1항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 펄스 기간 값들을 포함하고, 각각의 펄스 기간 값은 결합 상호작용을 위하여 검출된 신호 펄스의 기간을 표시하는, 방법.
  11. 제1항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 펄스간 기간 값들을 포함하고, 각각의 펄스간 기간 값은 결합 상호작용을 위하여 검출된 연속적인 신호 펄스들 사이의 시간의 기간을 표시하는, 방법.
  12. 제1항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 하나 이상의 펄스 기간 값들 및 하나 이상의 펄스간 기간 값들을 포함하는, 방법.
  13. 제1항에 있어서, 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 것은:
    상기 데이터의 복수의 부분들을 식별하는 것 - 각각의 부분은 상기 결합 상호작용들의 각자의 하나에 대응함 -; 및
    상기 데이터의 각각의 하나의 부분에 대응하는 출력을 획득하기 위하여 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 복수의 부분들의 각각의 하나를 제공하는 것을 더 포함하는, 방법.
  14. 제13항에 있어서, 상기 데이터의 부분에 대응하는 상기 출력은 하나 이상의 각자의 아미노산들이 상기 복수의 위치들의 각자의 하나에서 존재할 하나 이상의 우도들을 표시하는, 방법.
  15. 제13항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 것은:
    상기 아미노산들 중의 하나 이상의 아미노산의 분열(cleavage)에 대응하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 것; 및
    상기 하나 이상의 아미노산들의 상기 분열에 대응하는 상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 것을 포함하는, 방법.
  16. 제13항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 것은 상기 데이터의 이산 웨이블렛 변환(discrete wavelet transformation)을 생성하는 것을 포함하는, 방법.
  17. 제13항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 것은:
    상기 데이터로부터, 상기 결합 상호작용들의 적어도 하나의 성질에 대한 요약 통계(summary statistic)의 값을 결정하는 것;
    상기 적어도 하나의 성질의 값이 임계량만큼 상기 통계의 값으로부터 이탈하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 것; 및
    상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 것을 포함하는, 방법.
  18. 제1항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 데이터를 포함하는, 방법.
  19. 제18항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 파장 값들을 포함하고, 각각의 파장 값은 결합 상호작용 동안에 방출된 광의 파장을 표시하는, 방법.
  20. 제18항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 발광 수명 값들을 포함하는, 방법.
  21. 제18항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들의 상기 데이터는 발광 강도 값들을 포함하는, 방법.
  22. 제18항에 있어서, 상기 광 방출들은 일련의 광 펄스들에 응답하고, 상기 데이터는 상기 광 펄스들의 적어도 일부의 각각에 대하여, 상기 광 펄스 후의 시간 주기의 일부인 복수의 시간 간격들의 각각에서 검출된 각자의 광자 수를 포함하는, 방법.
  23. 제1항에 있어서, 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 것은 상기 데이터를, 열(column)들을 가지는 데이터 구조 내로 배열하는 것을 포함하고:
    제1 열은 일련의 광 펄스들에서의 제1 광 펄스 후의 제1 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하고; 그리고
    제2 열은 상기 일련의 광 펄스들에서의 제2 광 펄스 후의 제2 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하는, 방법.
  24. 제18항에 있어서, 상기 하나 이상의 발광성 표지들은 상기 하나 이상의 시약들 중의 적어도 하나와 연관되는, 방법.
  25. 제18항에 있어서, 상기 하나 이상의 발광성 표지들은 상기 폴리펩티드의 상기 아미노산들의 적어도 일부와 연관되는, 방법.
  26. 제1항에 있어서,
    상기 복수의 위치들은 상기 폴리펩티드 내의 적어도 하나의 상대적인 위치를 포함하는, 방법.
  27. 폴리펩티드를 식별하기 위한 시스템으로서,
    적어도 하나의 프로세서; 및
    명령들을 저장하는 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체
    를 포함하고, 상기 명령들은, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금 방법을 수행하게 하고, 상기 방법은:
    상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 데이터를 액세스하는 단계;
    상기 폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 상기 위치에서 존재할 하나 이상의 우도들을 표시하는 출력을 획득하기 위하여 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계; 및
    상기 훈련된 머신 학습 모델로부터 획득된 상기 출력에 기초하여 상기 폴리펩티드를 식별하는 단계를 포함하는, 시스템.
  28. 제27항에 있어서, 상기 하나 이상의 각자의 아미노산들이 상기 위치에서 존재할 상기 하나 이상의 우도들은:
    제1 아미노산이 상기 위치에서 존재할 제1 우도; 및
    제2 아미노산이 상기 위치에서 존재할 제2 우도를 포함하는, 시스템.
  29. 제27항 또는 제28항에 있어서, 상기 폴리펩티드를 식별하는 단계는 상기 획득된 출력을 각자의 단백질들과 연관된 복수의 아미노산 서열들 중의 하나에 정합하는 단계를 포함하는, 시스템.
  30. 제29항에 있어서, 상기 획득된 출력을 각자의 단백질들을 특정하는 상기 복수의 아미노산 서열들 중의 하나에 정합하는 단계는:
    상기 획득된 출력에 기초하여 은닉된 마코브 모델(HMM)을 생성하는 단계; 및
    상기 HMM을 상기 복수의 아미노산 서열들 중의 하나에 정합하는 단계를 포함하는, 시스템.
  31. 제27항에 있어서, 상기 머신 학습 모델은:
    가우시안 혼합 모델(GMM);
    다수의 클러스터들 - 상기 클러스터들의 각각은 하나 이상의 아미노산들과 연관됨 - 을 포함하는 클러스터링 모델;
    심층 학습 모델;
    콘볼루션 신경망; 또는
    연결주의 시간적 분류(CTC)-피팅된 신경망 중의 하나를 포함하는, 시스템.
  32. 제27항에 있어서, 상기 훈련된 머신 학습 모델은 감독된 훈련 알고리즘을 훈련 데이터에 적용함으로써 생성되는, 시스템.
  33. 제27항에 있어서, 상기 훈련된 머신 학습 모델은 반-감독된 훈련 알고리즘을 훈련 데이터에 적용함으로써 생성되는, 시스템.
  34. 제27항에 있어서, 상기 훈련된 머신 학습 모델은 비감독된 훈련 알고리즘을 적용함으로써 생성되는, 시스템.
  35. 제27항에 있어서, 상기 훈련된 머신 학습 모델은 상기 폴리펩티드에서의 상기 복수의 위치들의 적어도 일부의 각각에 대하여:
    다수의 아미노산들의 각각에 대하여, 상기 아미노산이 상기 위치에서 존재할 확률을 표시하는 확률 분포를 출력하도록 구성되는, 시스템.
  36. 제27항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 펄스 기간 값들을 포함하고, 각각의 펄스 기간 값은 결합 상호작용을 위하여 검출된 신호 펄스의 기간을 표시하는, 시스템.
  37. 제27항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 펄스간 기간 값들을 포함하고, 각각의 펄스간 기간 값은 결합 상호작용을 위하여 검출된 연속적인 신호 펄스들 사이의 시간의 기간을 표시하는, 시스템.
  38. 제27항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 하나 이상의 펄스 기간 값들 및 하나 이상의 펄스간 기간 값들을 포함하는, 시스템.
  39. 제27항에 있어서, 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계는:
    상기 데이터의 복수의 부분들을 식별하는 단계 - 각각의 부분은 상기 결합 상호작용들의 각자의 하나에 대응함 -; 및
    상기 데이터의 각각의 하나의 부분에 대응하는 출력을 획득하기 위하여 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 복수의 부분들의 각각의 하나를 제공하는 단계를 더 포함하는, 시스템.
  40. 제39항에 있어서, 상기 데이터의 부분에 대응하는 상기 출력은 하나 이상의 각자의 아미노산들이 상기 복수의 위치들의 각자의 하나에서 존재할 하나 이상의 우도들을 표시하는, 시스템.
  41. 제39항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 단계는:
    상기 아미노산들 중의 하나 이상의 아미노산의 분열에 대응하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 단계; 및
    상기 하나 이상의 아미노산들의 상기 분열에 대응하는 상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 단계를 포함하는, 시스템.
  42. 제39항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 단계는 상기 데이터의 이산 웨이블렛 변환을 생성하는 단계를 포함하는, 시스템.
  43. 제39항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 단계는:
    상기 데이터로부터, 상기 결합 상호작용들의 적어도 하나의 성질에 대한 요약 통계의 값을 결정하는 단계;
    상기 적어도 하나의 성질의 값이 임계량만큼 상기 통계의 값으로부터 이탈하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 단계; 및
    상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 단계를 포함하는, 시스템.
  44. 제27항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 데이터를 포함하는, 시스템.
  45. 제44항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 파장 값들을 포함하고, 각각의 파장 값은 결합 상호작용 동안에 방출된 광의 파장을 표시하는, 시스템.
  46. 제44항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 발광 수명 값들을 포함하는, 시스템.
  47. 제44항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들의 상기 데이터는 발광 강도 값들을 포함하는, 시스템.
  48. 제44항에 있어서, 상기 광 방출들은 일련의 광 펄스들에 응답하고, 상기 데이터는 상기 광 펄스들의 적어도 일부의 각각에 대하여, 상기 광 펄스 후의 시간 주기의 일부인 복수의 시간 간격들의 각각에서 검출된 각자의 광자 수를 포함하는, 시스템.
  49. 제27항에 있어서, 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계는 상기 데이터를, 열들을 가지는 데이터 구조 내로 배열하는 단계를 포함하고:
    제1 열은 일련의 광 펄스들에서의 제1 광 펄스 후의 제1 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하고; 그리고
    제2 열은 상기 일련의 광 펄스들에서의 제2 광 펄스 후의 제2 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하는, 시스템.
  50. 제44항에 있어서, 상기 하나 이상의 발광성 표지들은 상기 하나 이상의 시약들 중의 적어도 하나와 연관되는, 시스템.
  51. 제44항에 있어서, 상기 하나 이상의 발광성 표지들은 상기 폴리펩티드의 상기 아미노산들의 적어도 일부와 연관되는, 시스템.
  52. 제27항에 있어서, 상기 복수의 위치들은 상기 폴리펩티드 내의 적어도 하나의 상대적인 위치를 포함하는, 시스템.
  53. 명령들을 저장하는 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체로서,
    상기 명령들은, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금 방법을 수행하게 하고, 상기 방법은:
    폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 데이터를 액세스하는 단계;
    상기 폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 상기 위치에서 존재할 하나 이상의 우도들을 표시하는 출력을 획득하기 위하여 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계; 및
    상기 훈련된 머신 학습 모델로부터 획득된 상기 출력에 기초하여 상기 폴리펩티드를 식별하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  54. 제53항에 있어서, 상기 하나 이상의 각자의 아미노산들이 상기 위치에서 존재할 상기 하나 이상의 우도들은:
    제1 아미노산이 상기 위치에서 존재할 제1 우도; 및
    제2 아미노산이 상기 위치에서 존재할 제2 우도를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  55. 제53항 또는 제54항에 있어서, 상기 폴리펩티드를 식별하는 단계는 상기 획득된 출력을 각자의 단백질들과 연관된 복수의 아미노산 서열들 중의 하나에 정합하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  56. 제55항에 있어서, 상기 획득된 출력을 각자의 단백질들을 특정하는 상기 복수의 아미노산 서열들 중의 하나에 정합하는 단계는:
    상기 획득된 출력에 기초하여 은닉된 마코브 모델(HMM)을 생성하는 단계; 및
    상기 HMM을 상기 복수의 아미노산 서열들 중의 하나에 정합하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  57. 제53항에 있어서, 상기 머신 학습 모델은:
    가우시안 혼합 모델(GMM);
    다수의 클러스터들 - 상기 클러스터들의 각각은 하나 이상의 아미노산들과 연관됨 - 을 포함하는 클러스터링 모델;
    심층 학습 모델;
    콘볼루션 신경망; 또는
    연결주의 시간적 분류(CTC)-피팅된 신경망 중의 하나를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  58. 제53항에 있어서, 상기 훈련된 머신 학습 모델은 감독된 훈련 알고리즘을 훈련 데이터에 적용함으로써 생성되는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  59. 제53항에 있어서, 상기 훈련된 머신 학습 모델은 반-감독된 훈련 알고리즘을 훈련 데이터에 적용함으로써 생성되는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  60. 제53항에 있어서, 상기 훈련된 머신 학습 모델은 비감독된 훈련 알고리즘을 적용함으로써 생성되는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  61. 제53항에 있어서, 상기 훈련된 머신 학습 모델은 상기 폴리펩티드에서의 상기 복수의 위치들의 적어도 일부의 각각에 대하여:
    다수의 아미노산들의 각각에 대하여, 상기 아미노산이 상기 위치에서 존재할 확률을 표시하는 확률 분포를 출력하도록 구성되는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  62. 제53항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 펄스 기간 값들을 포함하고, 각각의 펄스 기간 값은 결합 상호작용을 위하여 검출된 신호 펄스의 기간을 표시하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  63. 제53항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 펄스간 기간 값들을 포함하고, 각각의 펄스간 기간 값은 결합 상호작용을 위하여 검출된 연속적인 신호 펄스들 사이의 시간의 기간을 표시하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  64. 제53항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 하나 이상의 펄스 기간 값들 및 하나 이상의 펄스간 기간 값들을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  65. 제53항에 있어서, 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계는:
    상기 데이터의 복수의 부분들을 식별하는 단계 - 각각의 부분은 상기 결합 상호작용들의 각자의 하나에 대응함 -; 및
    상기 데이터의 각각의 하나의 부분에 대응하는 출력을 획득하기 위하여 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 복수의 부분들의 각각의 하나를 제공하는 단계를 더 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  66. 제65항에 있어서, 상기 데이터의 부분에 대응하는 상기 출력은 하나 이상의 각자의 아미노산들이 상기 복수의 위치들의 각자의 하나에서 존재할 하나 이상의 우도들을 표시하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  67. 제65항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 단계는:
    상기 아미노산들 중의 하나 이상의 아미노산의 분열에 대응하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 단계; 및
    상기 하나 이상의 아미노산들의 상기 분열에 대응하는 상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  68. 제65항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 단계는 상기 데이터의 이산 웨이블렛 변환을 생성하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  69. 제65항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 단계는:
    상기 데이터로부터, 상기 결합 상호작용들의 적어도 하나의 성질에 대한 요약 통계의 값을 결정하는 단계;
    상기 적어도 하나의 성질의 값이 임계량만큼 상기 통계의 값으로부터 이탈하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 단계; 및
    상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  70. 제53항에 있어서, 상기 폴리펩티드의 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 데이터를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  71. 제70항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 파장 값들을 포함하고, 각각의 파장 값은 결합 상호작용 동안에 방출된 광의 파장을 표시하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  72. 제70항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 발광 수명 값들을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  73. 제70항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들의 상기 데이터는 발광 강도 값들을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  74. 제70항에 있어서, 상기 광 방출들은 일련의 광 펄스들에 응답하고, 상기 데이터는 상기 광 펄스들의 적어도 일부의 각각에 대하여, 상기 광 펄스 후의 시간 주기의 일부인 복수의 시간 간격들의 각각에서 검출된 각자의 광자 수를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  75. 제53항에 있어서, 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계는 상기 데이터를, 열들을 가지는 데이터 구조 내로 배열하는 단계를 포함하고:
    제1 열은 일련의 광 펄스들에서의 제1 광 펄스 후의 제1 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하고; 그리고
    제2 열은 상기 일련의 광 펄스들에서의 제2 광 펄스 후의 제2 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  76. 제70항에 있어서, 상기 하나 이상의 발광성 표지들은 상기 하나 이상의 시약들 중의 적어도 하나와 연관되는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  77. 제70항에 있어서, 상기 하나 이상의 발광성 표지들은 상기 폴리펩티드의 상기 아미노산들의 적어도 일부와 연관되는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  78. 제53항에 있어서, 상기 복수의 위치들은 상기 폴리펩티드 내의 적어도 하나의 상대적인 위치를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  79. 폴리펩티드들의 아미노산들을 식별하기 위한 머신 학습 모델을 훈련시키는 방법으로서,
    아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 훈련 데이터를 액세스하는 것; 및
    폴리펩티드들의 아미노산들을 식별하기 위한 훈련된 머신 학습 모델을 획득하기 위하여 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 것을
    수행하기 위하여 적어도 하나의 컴퓨터 하드웨어 프로세서를 이용하는 단계를 포함하는, 방법.
  80. 제79항에 있어서, 상기 머신 학습 모델은 혼합 모델을 포함하는, 방법.
  81. 제80항에 있어서, 상기 혼합 모델은 가우시안 혼합 모델(GMM)을 포함하는, 방법.
  82. 제79항에 있어서, 상기 머신 학습 모델은 심층 학습 모델을 포함하는, 방법.
  83. 제82항에 있어서, 상기 심층 학습 모델은 콘볼루션 신경망을 포함하는, 방법.
  84. 제82항에 있어서, 상기 심층 학습 모델은 연결주의 시간적 분류(CTC)-피팅된 신경망을 포함하는, 방법.
  85. 제79항에 있어서, 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 것은 감독된 훈련 알고리즘을 상기 훈련 데이터에 적용하는 것을 포함하는, 방법.
  86. 제79항에 있어서, 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 것은 반-감독된 훈련 알고리즘을 상기 훈련 데이터에 적용하는 것을 포함하는, 방법.
  87. 제79항에 있어서, 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 것은 비감독된 훈련 알고리즘을 상기 훈련 데이터에 적용하는 것을 포함하는, 방법.
  88. 제79항에 있어서, 상기 머신 학습 모델은 클러스터링 모델을 포함하고, 상기 머신 학습 모델을 훈련시키는 것은 상기 클러스터링 모델의 복수의 클러스터들을 식별하는 것을 포함하고, 상기 복수의 클러스터들의 각각은 하나 이상의 아미노산들과 연관되는, 방법.
  89. 제79항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 펄스 기간 값들을 포함하고, 각각의 펄스 기간 값은 결합 상호작용을 위하여 검출된 신호 펄스의 기간을 표시하는, 방법.
  90. 제79항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 상기 데이터는 펄스간 기간 값들을 포함하고, 각각의 펄스간 기간 값은 결합 상호작용을 위하여 검출된 연속적인 신호 펄스들 사이의 시간의 기간을 표시하는, 방법.
  91. 제79항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 상기 데이터는 하나 이상의 펄스 기간 값들 및 하나 이상의 펄스간 기간 값들을 포함하는, 방법.
  92. 제79항에 있어서, 폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 상기 위치에서 존재할 하나 이상의 우도들을 출력하기 위하여 상기 머신 학습 모델을 훈련시키는 것을 더 포함하는, 방법.
  93. 제79항에 있어서, 상기 머신 학습 모델을 훈련시키는 것은:
    상기 데이터의 복수의 부분들을 식별하는 것 - 각각의 부분은 상기 결합 상호작용들의 각자의 하나에 대응함 -;
    상기 데이터의 각각의 하나의 부분에 대응하는 출력을 획득하기 위하여 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 복수의 부분들의 각각의 하나를 제공하는 것; 및
    상기 복수의 부분들에 대응하는 출력들을 이용하여 상기 머신 학습 모델을 훈련시키는 것을 포함하는, 방법.
  94. 제93항에 있어서, 상기 데이터의 부분에 대응하는 상기 출력은 하나 이상의 각자의 아미노산들이 복수의 위치들의 각자의 하나에서 존재할 하나 이상의 우도들을 표시하는, 방법.
  95. 제93항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 것은:
    상기 아미노산들 중의 하나 이상의 아미노산의 분열에 대응하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 것; 및
    상기 하나 이상의 아미노산들의 상기 분열에 대응하는 상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 것을 포함하는, 방법.
  96. 제93항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 것은:
    상기 데이터로부터, 상기 결합 상호작용들의 적어도 하나의 성질에 대한 요약 통계의 값을 결정하는 것;
    상기 적어도 하나의 성질의 값이 임계량만큼 상기 요약 통계의 상기 값으로부터 이탈하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 것; 및
    상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 것을 포함하는, 방법.
  97. 제79항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 데이터를 포함하는, 방법.
  98. 제97항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 발광 수명 값들을 포함하는, 방법.
  99. 제97항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 발광 강도 값들을 포함하는, 방법.
  100. 제97항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 파장 값들을 포함하고, 각각의 파장 값은 결합 상호작용 동안에 방출된 광의 파장을 표시하는, 방법.
  101. 제97항에 있어서, 상기 광 방출들은 일련의 광 펄스들에 응답하고, 상기 데이터는 상기 광 펄스들의 적어도 일부의 각각에 대하여, 상기 광 펄스 후의 시간 주기의 일부인 복수의 시간 간격들의 각각에서 검출된 각자의 광자 수를 포함하는, 방법.
  102. 제101항에 있어서, 상기 머신 학습 모델을 훈련시키는 것은 상기 데이터를, 열들을 가지는 데이터 구조 내로 배열함으로써 상기 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 것을 포함하고:
    제1 열은 일련의 광 펄스들에서의 제1 광 펄스 후의 제1 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하고; 그리고
    제2 열은 상기 일련의 광 펄스들에서의 제2 광 펄스 후의 제2 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하는, 방법.
  103. 제101항에 있어서, 상기 머신 학습 모델을 훈련시키는 것은 상기 데이터를, 행들을 가지는 데이터 구조 내로 배열함으로써 상기 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 것을 포함하고, 상기 행들의 각각은 상기 적어도 일부 광 펄스들에 대응하는 각자의 시간 간격에서의 광자 수들을 유지하는, 방법.
  104. 제101항에 있어서, 상기 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 것은 이미지에서 상기 데이터를 배열하는 것을 포함하고, 상기 이미지의 제1 픽셀은 상기 적어도 일부 펄스들 중의 제1 펄스 후의 제1 시간 주기의 제1 시간 간격에서 검출된 제1 광자 수를 특정하는, 방법.
  105. 제104항에 있어서, 상기 이미지의 제2 픽셀은 상기 적어도 일부 펄스들의 상기 제1 펄스 후의 상기 제1 시간 주기의 제2 시간 간격에서 검출된 제2 광자 수를 특정하는, 방법.
  106. 제104항에 있어서, 상기 이미지의 제2 픽셀은 상기 적어도 일부 펄스들의 제2 펄스 후의 제2 시간 주기의 제1 시간 간격에서의 제2 광자 수를 특정하는, 방법.
  107. 제101항에 있어서, 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 것은 이미지에서 상기 데이터를 배열하는 것을 포함하고, 상기 이미지의 각각의 픽셀은 상기 적어도 일부 펄스들 중의 펄스 후의 시간 주기의 각자의 시간 간격에서 검출된 광자 수를 특정하는, 방법.
  108. 제97항에 있어서, 상기 하나 이상의 발광성 표지들은 상기 하나 이상의 시약들 중의 적어도 하나와 연관되는, 방법.
  109. 제97항에 있어서, 상기 발광성 표지들은 상기 아미노산들의 적어도 일부와 연관되는, 방법.
  110. 제79항에 있어서, 상기 훈련 데이터는 단일 분자의 아미노산들과 상기 하나 이상의 시약들의 결합 상호작용들을 표현하는, 방법.
  111. 제79항에 있어서, 상기 훈련 데이터는 복수의 분자들의 아미노산들과 상기 하나 이상의 시약들의 결합 상호작용들을 표현하는, 방법.
  112. 제79항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 결합 상호작용을 위하여 검출된 신호 펄스들의 적어도 하나의 성질의 분포를 설명하는 하나 이상의 파라미터들을 포함하는, 방법.
  113. 제79항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 결합 상호작용을 위하여 검출된 신호 펄스들의 적어도 하나의 성질로부터 유도된 하나 이상의 파라미터들을 포함하는, 방법.
  114. 폴리펩티드들의 아미노산들을 식별하기 위한 머신 학습 모델을 훈련시키기 위한 시스템으로서,
    적어도 하나의 프로세서; 및
    명령들을 저장하는 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체
    를 포함하고, 상기 명령들은, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금 방법을 수행하게 하고, 상기 방법은:
    아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 훈련 데이터를 액세스하는 단계; 및
    폴리펩티드들의 아미노산들을 식별하기 위한 훈련된 머신 학습 모델을 획득하기 위하여 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 단계를 포함하는, 시스템.
  115. 제114항에 있어서, 상기 머신 학습 모델은 혼합 모델을 포함하는, 시스템.
  116. 제115항에 있어서, 상기 혼합 모델은 가우시안 혼합 모델(GMM)을 포함하는, 시스템.
  117. 제114항에 있어서, 상기 머신 학습 모델은 심층 학습 모델을 포함하는, 시스템.
  118. 제117항에 있어서, 상기 심층 학습 모델은 콘볼루션 신경망을 포함하는, 시스템.
  119. 제117항에 있어서, 상기 심층 학습 모델은 연결주의 시간적 분류(CTC)-피팅된 신경망을 포함하는, 시스템.
  120. 제114항에 있어서, 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 단계는 감독된 훈련 알고리즘을 상기 훈련 데이터에 적용하는 단계를 포함하는, 시스템.
  121. 제114항에 있어서, 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 단계는 반-감독된 훈련 알고리즘을 상기 훈련 데이터에 적용하는 단계를 포함하는, 시스템.
  122. 제114항에 있어서, 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 단계는 비감독된 훈련 알고리즘을 상기 훈련 데이터에 적용하는 단계를 포함하는, 시스템.
  123. 제114항에 있어서, 상기 머신 학습 모델은 클러스터링 모델을 포함하고, 상기 머신 학습 모델을 훈련시키는 단계는 상기 클러스터링 모델의 복수의 클러스터들을 식별하는 단계를 포함하고, 상기 복수의 클러스터들의 각각은 하나 이상의 아미노산들과 연관되는, 시스템.
  124. 제114항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 펄스 기간 값들을 포함하고, 각각의 펄스 기간 값은 결합 상호작용을 위하여 검출된 신호 펄스의 기간을 표시하는, 시스템.
  125. 제114항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 상기 데이터는 펄스간 기간 값들을 포함하고, 각각의 펄스간 기간 값은 결합 상호작용을 위하여 검출된 연속적인 신호 펄스들 사이의 시간의 기간을 표시하는, 시스템.
  126. 제114항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 상기 데이터는 하나 이상의 펄스 기간 값들 및 하나 이상의 펄스간 기간 값들을 포함하는, 시스템.
  127. 제114항에 있어서, 상기 명령들은, 상기 적어도 하나의 프로세서에 의해 실행될 때, 추가로 상기 적어도 하나의 프로세서로 하여금:
    폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 상기 위치에서 존재할 하나 이상의 우도들을 출력하기 위하여 상기 머신 학습 모델을 훈련시키는 것을 수행하게 하는, 시스템.
  128. 제114항에 있어서, 상기 머신 학습 모델을 훈련시키는 단계는:
    상기 데이터의 복수의 부분들을 식별하는 단계 - 각각의 부분은 상기 결합 상호작용들의 각자의 하나에 대응함 -;
    상기 데이터의 각각의 하나의 부분에 대응하는 출력을 획득하기 위하여 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 복수의 부분들의 각각의 하나를 제공하는 단계; 및
    상기 복수의 부분들에 대응하는 출력들을 이용하여 상기 머신 학습 모델을 훈련시키는 단계를 포함하는, 시스템.
  129. 제128항에 있어서, 상기 데이터의 부분에 대응하는 상기 출력은 하나 이상의 각자의 아미노산들이 복수의 위치들의 각자의 하나에서 존재할 하나 이상의 우도들을 표시하는, 시스템.
  130. 제128항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 단계는:
    상기 아미노산들 중의 하나 이상의 아미노산의 분열에 대응하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 단계; 및
    상기 하나 이상의 아미노산들의 상기 분열에 대응하는 상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 단계를 포함하는, 시스템.
  131. 제128항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 단계는:
    상기 데이터로부터, 상기 결합 상호작용들의 적어도 하나의 성질에 대한 요약 통계의 값을 결정하는 단계;
    상기 적어도 하나의 성질의 값이 임계량만큼 상기 요약 통계의 상기 값으로부터 이탈하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 단계; 및
    상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 단계를 포함하는, 시스템.
  132. 제114항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 데이터를 포함하는, 시스템.
  133. 제132항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 발광 수명 값들을 포함하는, 시스템.
  134. 제132항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 발광 강도 값들을 포함하는, 시스템.
  135. 제132항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 파장 값들을 포함하고, 각각의 파장 값은 결합 상호작용 동안에 방출된 광의 파장을 표시하는, 시스템.
  136. 제132항에 있어서, 상기 광 방출들은 일련의 광 펄스들에 응답하고, 상기 데이터는 상기 광 펄스들의 적어도 일부의 각각에 대하여, 상기 광 펄스 후의 시간 주기의 일부인 복수의 시간 간격들의 각각에서 검출된 각자의 광자 수를 포함하는, 시스템.
  137. 제136항에 있어서, 상기 머신 학습 모델을 훈련시키는 단계는 상기 데이터를, 열들을 가지는 데이터 구조 내로 배열함으로써 상기 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계를 포함하고:
    제1 열은 일련의 광 펄스들에서의 제1 광 펄스 후의 제1 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하고; 그리고
    제2 열은 상기 일련의 광 펄스들에서의 제2 광 펄스 후의 제2 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하는, 시스템.
  138. 제136항에 있어서, 상기 머신 학습 모델을 훈련시키는 단계는 상기 데이터를, 행들을 가지는 데이터 구조 내로 배열함으로써 상기 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계를 포함하고, 상기 행들의 각각은 상기 적어도 일부 광 펄스들에 대응하는 각자의 시간 간격에서의 광자 수들을 유지하는, 시스템.
  139. 제136항에 있어서, 상기 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계는 이미지에서 상기 데이터를 배열하는 단계를 포함하고, 상기 이미지의 제1 픽셀은 상기 적어도 일부 펄스들 중의 제1 펄스 후의 제1 시간 주기의 제1 시간 간격에서 검출된 제1 광자 수를 특정하는, 시스템.
  140. 제139항에 있어서, 상기 이미지의 제2 픽셀은 상기 적어도 일부 펄스들의 상기 제1 펄스 후의 상기 제1 시간 주기의 제2 시간 간격에서 검출된 제2 광자 수를 특정하는, 시스템.
  141. 제139항에 있어서, 상기 이미지의 제2 픽셀은 상기 적어도 일부 펄스들의 제2 펄스 후의 제2 시간 주기의 제1 시간 간격에서의 제2 광자 수를 특정하는, 시스템.
  142. 제139항에 있어서, 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계는 이미지에서 상기 데이터를 배열하는 것을 포함하고, 상기 이미지의 각각의 픽셀은 상기 적어도 일부 펄스들 중의 펄스 후의 시간 주기의 각자의 시간 간격에서 검출된 광자 수를 특정하는, 시스템.
  143. 제132항에 있어서, 상기 하나 이상의 발광성 표지들은 상기 하나 이상의 시약들 중의 적어도 하나와 연관되는, 시스템.
  144. 제132항에 있어서, 상기 발광성 표지들은 상기 아미노산들의 적어도 일부와 연관되는, 시스템.
  145. 제114항에 있어서, 상기 훈련 데이터는 단일 분자의 아미노산들과 상기 하나 이상의 시약들의 결합 상호작용들을 표현하는, 시스템.
  146. 제114항에 있어서, 상기 훈련 데이터는 복수의 분자들의 아미노산들과 상기 하나 이상의 시약들의 결합 상호작용들을 표현하는, 시스템.
  147. 제114항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 결합 상호작용을 위하여 검출된 신호 펄스들의 적어도 하나의 성질의 분포를 설명하는 하나 이상의 파라미터들을 포함하는, 시스템.
  148. 제114항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 결합 상호작용을 위하여 검출된 신호 펄스들의 적어도 하나의 성질로부터 유도된 하나 이상의 파라미터들을 포함하는, 시스템.
  149. 명령들을 저장하는 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체로서,
    상기 명령들은, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금 방법을 수행하게 하고, 상기 방법은:
    아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 훈련 데이터를 액세스하는 단계; 및
    폴리펩티드들의 아미노산들을 식별하기 위한 훈련된 머신 학습 모델을 획득하기 위하여 상기 훈련 데이터를 이용하여 머신 학습 모델을 훈련시키는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  150. 제149항에 있어서, 상기 머신 학습 모델은 혼합 모델을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  151. 제150항에 있어서, 상기 혼합 모델은 가우시안 혼합 모델(GMM)을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  152. 제149항에 있어서, 상기 머신 학습 모델은 심층 학습 모델을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  153. 제152항에 있어서, 상기 심층 학습 모델은 콘볼루션 신경망을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  154. 제152항에 있어서, 상기 심층 학습 모델은 연결주의 시간적 분류(CTC)-피팅된 신경망을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  155. 제149항에 있어서, 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 단계는 감독된 훈련 알고리즘을 상기 훈련 데이터에 적용하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  156. 제149항에 있어서, 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 단계는 반-감독된 훈련 알고리즘을 상기 훈련 데이터에 적용하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  157. 제149항에 있어서, 상기 훈련 데이터를 이용하여 상기 머신 학습 모델을 훈련시키는 단계는 비감독된 훈련 알고리즘을 상기 훈련 데이터에 적용하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  158. 제149항에 있어서, 상기 머신 학습 모델은 클러스터링 모델을 포함하고, 상기 머신 학습 모델을 훈련시키는 단계는 상기 클러스터링 모델의 복수의 클러스터들을 식별하는 단계를 포함하고, 상기 복수의 클러스터들의 각각은 하나 이상의 아미노산들과 연관되는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  159. 제149항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 펄스 기간 값들을 포함하고, 각각의 펄스 기간 값은 결합 상호작용을 위하여 검출된 신호 펄스의 기간을 표시하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  160. 제149항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 상기 데이터는 펄스간 기간 값들을 포함하고, 각각의 펄스간 기간 값은 결합 상호작용을 위하여 검출된 연속적인 신호 펄스들 사이의 시간의 기간을 표시하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  161. 제149항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위하여 획득된 상기 데이터는 하나 이상의 펄스 기간 값들 및 하나 이상의 펄스간 기간 값들을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  162. 제149항에 있어서, 상기 명령들은, 적어도 하나의 프로세서에 의해 실행될 때, 추가로 상기 적어도 하나의 프로세서로 하여금:
    폴리펩티드에서의 복수의 위치들의 각각에 대하여, 하나 이상의 각자의 아미노산들이 상기 위치에서 존재할 하나 이상의 우도들을 출력하기 위하여 상기 머신 학습 모델을 훈련시키는 것을 수행하게 하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  163. 제149항에 있어서, 상기 머신 학습 모델을 훈련시키는 단계는:
    상기 데이터의 복수의 부분들을 식별하는 단계 - 각각의 부분은 상기 결합 상호작용들의 각자의 하나에 대응함 -;
    상기 데이터의 각각의 하나의 부분에 대응하는 출력을 획득하기 위하여 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 복수의 부분들의 각각의 하나를 제공하는 단계; 및
    상기 복수의 부분들에 대응하는 출력들을 이용하여 상기 머신 학습 모델을 훈련시키는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  164. 제163항에 있어서, 상기 데이터의 부분에 대응하는 상기 출력은 하나 이상의 각자의 아미노산들이 복수의 위치들의 각자의 하나에서 존재할 하나 이상의 우도들을 표시하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  165. 제163항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 단계는:
    상기 아미노산들 중의 하나 이상의 아미노산의 분열에 대응하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 단계; 및
    상기 하나 이상의 아미노산들의 상기 분열에 대응하는 상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  166. 제163항에 있어서, 상기 데이터의 상기 복수의 부분들을 식별하는 단계는:
    상기 데이터로부터, 상기 결합 상호작용들의 적어도 하나의 성질에 대한 요약 통계의 값을 결정하는 단계;
    상기 적어도 하나의 성질의 값이 임계량만큼 상기 요약 통계의 상기 값으로부터 이탈하는 상기 데이터에서의 하나 이상의 포인트들을 식별하는 단계; 및
    상기 식별된 하나 이상의 포인트들에 기초하여 상기 데이터의 상기 복수의 부분들을 식별하는 단계를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  167. 제149항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 데이터를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  168. 제167항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 발광 수명 값들을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  169. 제167항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 발광 강도 값들을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  170. 제167항에 있어서, 상기 하나 이상의 발광성 표지들에 의한 검출된 광 방출들로부터 획득된 상기 데이터는 파장 값들을 포함하고, 각각의 파장 값은 결합 상호작용 동안에 방출된 광의 파장을 표시하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  171. 제167항에 있어서, 상기 광 방출들은 일련의 광 펄스들에 응답하고, 상기 데이터는 상기 광 펄스들의 적어도 일부의 각각에 대하여, 상기 광 펄스 후의 시간 주기의 일부인 복수의 시간 간격들의 각각에서 검출된 각자의 광자 수를 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  172. 제171항에 있어서, 상기 머신 학습 모델을 훈련시키는 단계는 상기 데이터를, 열들을 가지는 데이터 구조 내로 배열함으로써 상기 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계를 포함하고:
    제1 열은 일련의 광 펄스들에서의 제1 광 펄스 후의 제1 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하고; 그리고
    제2 열은 상기 일련의 광 펄스들에서의 제2 광 펄스 후의 제2 시간 주기의 일부인 제1 및 제2 시간 간격의 각각에서의 각자의 광자 수를 유지하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  173. 제171항에 있어서, 상기 머신 학습 모델을 훈련시키는 단계는 상기 데이터를, 행들을 가지는 데이터 구조 내로 배열함으로써 상기 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계를 포함하고, 상기 행들의 각각은 상기 적어도 일부 광 펄스들에 대응하는 각자의 시간 간격에서의 광자 수들을 유지하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  174. 제171항에 있어서, 상기 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계는 이미지에서 상기 데이터를 배열하는 단계를 포함하고, 상기 이미지의 제1 픽셀은 상기 적어도 일부 펄스들 중의 제1 펄스 후의 제1 시간 주기의 제1 시간 간격에서 검출된 제1 광자 수를 특정하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  175. 제174항에 있어서, 상기 이미지의 제2 픽셀은 상기 적어도 일부 펄스들의 상기 제1 펄스 후의 상기 제1 시간 주기의 제2 시간 간격에서 검출된 제2 광자 수를 특정하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  176. 제174항에 있어서, 상기 이미지의 제2 픽셀은 상기 적어도 일부 펄스들의 제2 펄스 후의 제2 시간 주기의 제1 시간 간격에서의 제2 광자 수를 특정하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  177. 제171항에 있어서, 상기 훈련된 머신 학습 모델에 대한 입력으로서 상기 데이터를 제공하는 단계는 이미지에서 상기 데이터를 배열하는 것을 포함하고, 상기 이미지의 각각의 픽셀은 상기 적어도 일부 펄스들 중의 펄스 후의 시간 주기의 각자의 시간 간격에서 검출된 광자 수를 특정하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  178. 제167항에 있어서, 상기 하나 이상의 발광성 표지들은 상기 하나 이상의 시약들 중의 적어도 하나와 연관되는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  179. 제149항에 있어서, 상기 발광성 표지들은 상기 아미노산들의 적어도 일부와 연관되는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  180. 제149항에 있어서, 상기 훈련 데이터는 단일 분자의 아미노산들과 상기 하나 이상의 시약들의 결합 상호작용들을 표현하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  181. 제149항에 있어서, 상기 훈련 데이터는 복수의 분자들의 아미노산들과 상기 하나 이상의 시약들의 결합 상호작용들을 표현하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  182. 제149항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 결합 상호작용을 위하여 검출된 신호 펄스들의 적어도 하나의 성질의 분포를 설명하는 하나 이상의 파라미터들을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
  183. 제149항에 있어서, 아미노산들과 하나 이상의 시약들의 결합 상호작용들을 위한 상기 데이터는 결합 상호작용을 위하여 검출된 신호 펄스들의 적어도 하나의 성질로부터 유도된 하나 이상의 파라미터들을 포함하는, 적어도 하나의 비-일시적 컴퓨터-판독가능 저장 매체.
KR1020227000689A 2019-06-12 2020-06-12 머신 학습을 이용한 단백질 식별을 위한 기법들 및 관련된 시스템들 및 방법들 KR20220019778A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962860750P 2019-06-12 2019-06-12
US62/860,750 2019-06-12
PCT/US2020/037541 WO2020252345A1 (en) 2019-06-12 2020-06-12 Techniques for protein identification using machine learning and related systems and methods

Publications (1)

Publication Number Publication Date
KR20220019778A true KR20220019778A (ko) 2022-02-17

Family

ID=71409529

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227000689A KR20220019778A (ko) 2019-06-12 2020-06-12 머신 학습을 이용한 단백질 식별을 위한 기법들 및 관련된 시스템들 및 방법들

Country Status (10)

Country Link
US (1) US20200395099A1 (ko)
EP (1) EP3966824A1 (ko)
JP (1) JP2022536343A (ko)
KR (1) KR20220019778A (ko)
CN (1) CN115989545A (ko)
AU (1) AU2020290510A1 (ko)
BR (1) BR112021024915A2 (ko)
CA (1) CA3142888A1 (ko)
MX (1) MX2021015347A (ko)
WO (1) WO2020252345A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3117889A1 (en) 2018-11-15 2020-05-22 Quantum-Si Incorporated Methods and compositions for protein sequencing
US11126890B2 (en) * 2019-04-18 2021-09-21 Adobe Inc. Robust training of large-scale object detectors with a noisy dataset
US20210148921A1 (en) * 2019-10-28 2021-05-20 Quantum-Si Incorporated Methods of preparing an enriched sample for polypeptide sequencing
JP2023517309A (ja) 2020-03-06 2023-04-25 ボストンジーン コーポレイション 多重免疫蛍光イメージングを使用する組織特性の決定
CN114093415B (zh) * 2021-11-19 2022-06-03 中国科学院数学与系统科学研究院 肽段可检测性预测方法及系统
CN117744748B (zh) * 2024-02-20 2024-04-30 北京普译生物科技有限公司 一种神经网络模型训练、碱基识别方法及装置、电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050119454A1 (en) * 2000-01-24 2005-06-02 The Cielo Institute, Inc. Algorithmic design of peptides for binding and/or modulation of the functions of receptors and/or other proteins
CA2466792A1 (en) * 2003-05-16 2004-11-16 Affinium Pharmaceuticals, Inc. Evaluation of spectra
EP2389585A2 (en) * 2009-01-22 2011-11-30 Li-Cor, Inc. Single molecule proteomics with dynamic probes
US20120015825A1 (en) * 2010-07-06 2012-01-19 Pacific Biosciences Of California, Inc. Analytical systems and methods with software mask
KR102490720B1 (ko) * 2013-01-31 2023-01-27 코덱시스, 인코포레이티드 상호작용 성분을 이용하여 생체분자를 확인하기 위한 방법, 시스템, 및 소프트웨어
US9212996B2 (en) * 2013-08-05 2015-12-15 Tellspec, Inc. Analyzing and correlating spectra, identifying samples and their ingredients, and displaying related personalized information
HUE048104T2 (hu) * 2013-09-27 2020-05-28 Codexis Inc Szerkezet alapú prediktív modellezés
JP6930911B2 (ja) * 2014-08-08 2021-09-01 クアンタム−エスアイ インコーポレイテッドQuantum−Si Incorporated 分子の探索、検出、および解析のための外部光源を備える集積装置
US10545153B2 (en) * 2014-09-15 2020-01-28 Board Of Regents, The University Of Texas System Single molecule peptide sequencing
EP3568782A1 (en) * 2017-01-13 2019-11-20 Massachusetts Institute Of Technology Machine learning based antibody design
EA201992476A1 (ru) * 2017-04-18 2020-02-25 Икс-Чем, Инк. Способы идентификации соединений
US11573239B2 (en) * 2017-07-17 2023-02-07 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning
US11587644B2 (en) * 2017-07-28 2023-02-21 The Translational Genomics Research Institute Methods of profiling mass spectral data using neural networks
US20210043273A1 (en) * 2018-02-02 2021-02-11 Arizona Board Of Regents On Behalf Of Arizona State University Methods, systems, and media for predicting functions of molecular sequences
IL311528A (en) * 2018-02-17 2024-05-01 Regeneron Pharma GAN-CNN for MHC peptide binding prediction
US20210151123A1 (en) * 2018-03-08 2021-05-20 Jungla Inc. Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework
CA3117889A1 (en) * 2018-11-15 2020-05-22 Quantum-Si Incorporated Methods and compositions for protein sequencing

Also Published As

Publication number Publication date
BR112021024915A2 (pt) 2022-01-18
WO2020252345A9 (en) 2022-02-10
CA3142888A1 (en) 2020-12-17
US20200395099A1 (en) 2020-12-17
CN115989545A (zh) 2023-04-18
EP3966824A1 (en) 2022-03-16
MX2021015347A (es) 2022-04-06
AU2020290510A1 (en) 2022-02-03
JP2022536343A (ja) 2022-08-15
WO2020252345A1 (en) 2020-12-17

Similar Documents

Publication Publication Date Title
US20200395099A1 (en) Techniques for protein identification using machine learning and related systems and methods
US20230207062A1 (en) Machine learning enabled pulse and base calling for sequencing devices
US11587644B2 (en) Methods of profiling mass spectral data using neural networks
CN110249082B (zh) 测定蛋白质的方法
Pierleoni et al. PredGPI: a GPI-anchor predictor
CN111788633A (zh) 用于蛋白质鉴定的解码方法
CN110139702B (zh) 利用基质辅助激光解吸/离子化飞行时间质谱仪进行分类数据操控
CN113506596B (zh) 嗅觉受体筛选、模型训练、酒类产品鉴定的方法与装置
JP2007093582A (ja) 品質スペクトルの自動検出
US20230114905A1 (en) Highly multiplexable analysis of proteins and proteomes
NL2023311B9 (en) Artificial intelligence-based generation of sequencing metadata
Yilmaz et al. Sequence-to-sequence translation from mass spectra to peptides with a transformer model
Egertson et al. A theoretical framework for proteome-scale single-molecule protein identification using multi-affinity protein binding reagents
KR102048599B1 (ko) 판정 방법, 판정 장치, 판정 시스템 및 프로그램
Supek et al. Enhanced analytical power of SDS‐PAGE using machine learning algorithms
US20230360732A1 (en) Systems and methods for assessing and improving the quality of multiplex molecular assays
Chin et al. Optimized local protein structure with support vector machine to predict protein secondary structure
US20230087698A1 (en) Compressed state-based base calling
US20240094215A1 (en) Characterizing accessibility of macromolecule structures
US20240087679A1 (en) Systems and methods of validating new affinity reagents
KR20240074839A (ko) 단백질 및 프로테옴의 고도로 다중화 가능한 분석
Fai et al. Protein secondary structure prediction using optimal local protein structure and support vector machine
Hesse et al. Data Valuation: A novel approach for analyzing high throughput screen data using machine learning
Steier et al. Joint analysis of transcriptome and proteome measurements in single cells with totalVI: a practical guide
Kitaygorodsky et al. Predicting localized affinity of RNA binding proteins to transcripts with convolutional neural networks

Legal Events

Date Code Title Description
A201 Request for examination