KR20210091243A - 단백질 시퀀싱을 위한 방법 및 조성물 - Google Patents

단백질 시퀀싱을 위한 방법 및 조성물 Download PDF

Info

Publication number
KR20210091243A
KR20210091243A KR1020217017806A KR20217017806A KR20210091243A KR 20210091243 A KR20210091243 A KR 20210091243A KR 1020217017806 A KR1020217017806 A KR 1020217017806A KR 20217017806 A KR20217017806 A KR 20217017806A KR 20210091243 A KR20210091243 A KR 20210091243A
Authority
KR
South Korea
Prior art keywords
amino acid
protein
molecule
polypeptide
terminal
Prior art date
Application number
KR1020217017806A
Other languages
English (en)
Inventor
브라이언 리드
제레미 래키
토마스 크리스티안
로저 나니
데이비드 도드
카스렌 크로치
알렉산더 고리아이노프
조나단 엠. 로스버그
Original Assignee
퀀텀-에스아이 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀀텀-에스아이 인코포레이티드 filed Critical 퀀텀-에스아이 인코포레이티드
Publication of KR20210091243A publication Critical patent/KR20210091243A/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6818Sequencing of polypeptides
    • G01N33/6824Sequencing of polypeptides involving N-terminal degradation, e.g. Edman degradation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/58Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving labelled substances
    • G01N33/581Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving labelled substances with enzyme label (including co-enzymes, co-factors, enzyme inhibitors or substrates)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K19/00Hybrid peptides, i.e. peptides covalently bound to nucleic acids, or non-covalently bound protein-protein complexes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N1/00Sampling; Preparing specimens for investigation
    • G01N1/28Preparing specimens for investigation including physical details of (bio-)chemical methods covered elsewhere, e.g. G01N33/50, C12Q
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6428Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/58Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving labelled substances
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/58Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving labelled substances
    • G01N33/582Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving labelled substances with fluorescent label
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6818Sequencing of polypeptides
    • G01N33/6821Sequencing of polypeptides involving C-terminal degradation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6428Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
    • G01N2021/6439Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes" with indicators, stains, dyes, tags, labels, marks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2458/00Labels used in chemical analysis of biological material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Microbiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Food Science & Technology (AREA)
  • Cell Biology (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Zoology (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

본 출원의 측면은 단백질, 폴리펩티드, 및 아미노산을 확인하고 시퀀싱하는 방법, 및 그에 유용한 조성물을 제공한다. 일부 측면에서, 본 출원은 폴리펩티드의 분해 프로세스 동안 데이터를 수득하고, 폴리펩티드를 대표하는 서열을 출력하는 방법을 제공한다. 일부 측면에서, 본 출원은 폴리펩티드 시퀀싱 반응에서 광안정성을 향상시키는 차폐 요소를 포함하는 아미노산 인식 분자를 제공한다.

Description

단백질 시퀀싱을 위한 방법 및 조성물
관련 출원에 대한 상호 참조
본 출원은 2019년 9월 27일에 출원된 미국 가특허 출원 번호 62/907,507, 및 2018년 11월 15일에 출원된 미국 가특허 출원 번호 62/768,076에 대해 35 U.S.C. § 119(e) 하의 우선권을 주장하며, 이들의 각각은 그 전문이 본원에 참조로 포함된다.
단백질체학은 생물학적 시스템의 연구에서 게놈학 및 전사체학에 대한 중요하고 필수적인 보완물로서 부상되었다. 개별적인 유기체의 프로테옴 분석은 개선된 진단 및 치료 전략을 발생시키는 세포적 프로세스 및 반응 패턴으로의 통찰을 제공할 수 있다. 단백질 구조, 조성, 및 변형을 둘러싼 복잡성은 생물학적 샘플에 대한 대규모 단백질 시퀀싱 정보를 결정하는데 있어서 도전을 제시한다.
일부 측면에서, 본 출원은 폴리펩티드로부터 아미노산 서열 정보를 결정하기 위한 (예를 들어, 1개 이상의 폴리펩티드를 시퀀싱하기 위한) 방법 및 조성물을 제공한다. 일부 실시양태에서, 아미노산 서열 정보는 단일 폴리펩티드 분자에 대해 결정될 수 있다. 일부 실시양태에서, 예를 들어 단일 폴리펩티드 분자에 대해 폴리펩티드에서의 2개 이상의 아미노산의 상대 위치가 결정된다. 일부 실시양태에서, 폴리펩티드의 1개 이상의 아미노산은 표지되고 (예를 들어, 직접적으로 또는 간접적으로), 폴리펩티드에서의 표지된 아미노산의 상대 위치가 결정된다.
일부 측면에서, 본 출원은 폴리펩티드의 분해 프로세스 동안 데이터를 수득하는 것을 포함하는 방법을 제공한다. 일부 실시양태에서, 방법은 데이터를 분석하여 분해 프로세스 동안 폴리펩티드의 말단에서 순차적으로 노출된 아미노산에 상응하는 데이터의 부분을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 폴리펩티드를 대표하는 아미노산 서열을 출력하는 것을 추가로 포함한다. 일부 실시양태에서, 데이터는 분해 프로세스 동안 폴리펩티드의 말단에서의 아미노산 동일성을 지시한다. 일부 실시양태에서, 데이터는 분해 프로세스 동안 말단에서의 말단 아미노산의 상이한 유형에 결합하는 1개 이상의 아미노산 인식 분자에 의해 생성된 신호를 지시한다. 일부 실시양태에서, 데이터는 분해 프로세스 동안 생성된 발광 신호를 지시한다. 일부 실시양태에서, 데이터는 분해 프로세스 동안 생성된 전기 신호를 지시한다.
일부 실시양태에서, 데이터를 분석하는 것은 일련의 절단 사건을 검출하고, 연속적인 절단 사건 사이의 데이터의 부분을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 데이터를 분석하는 것은 개별적인 부분의 각각에 대한 아미노산의 유형을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 개별적인 부분의 각각은 펄스 패턴 (예를 들어, 특징적인 패턴)을 포함하고, 데이터를 분석하는 것은 그의 각각의 펄스 패턴에 기반하여 부분 중 1개 이상에 대한 아미노산의 유형을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 아미노산의 유형을 결정하는 것은 데이터가 역치 값 초과인 경우에 부분 내의 시간의 양을 확인하고, 시간의 양을 부분에 대한 시간의 지속기간과 비교하는 것을 추가로 포함한다. 일부 실시양태에서, 아미노산의 유형을 결정하는 것은 1개 이상의 부분의 각각에 대한 적어도 하나의 펄스 지속기간을 확인하는 것을 추가로 포함한다. 일부 실시양태에서, 아미노산의 유형을 결정하는 것은 1개 이상의 부분의 각각에 대한 적어도 하나의 펄스간 지속기간을 확인하는 것을 추가로 포함한다. 일부 실시양태에서, 아미노산 서열은 부분에 상응하는 일련의 아미노산을 포함한다.
일부 측면에서, 본 출원은 적어도 1개의 하드웨어 프로세서, 및 적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 본 출원에 따른 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체를 포함하는 시스템을 제공한다. 일부 측면에서, 본 출원은 적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 본 출원에 따른 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체를 제공한다.
일부 측면에서, 본 출원은 폴리펩티드 시퀀싱의 방법을 제공한다. 일부 실시양태에서, 방법은 단일 폴리펩티드 분자를 1개 이상의 말단 아미노산 인식 분자와 접촉시키는 것을 포함한다. 일부 실시양태에서, 방법은 1개 이상의 말단 아미노산 인식 분자와, 그것이 분해되고 있는 동안 단일 폴리펩티드 분자의 말단에서 노출된 연속적인 아미노산의 회합을 지시하는 일련의 신호 펄스를 검출하며, 그에 의해 단일 폴리펩티드 분자에 관한 서열 정보를 수득하는 것을 추가로 포함한다. 일부 실시양태에서, 단일 폴리펩티드 분자의 대부분 또는 전부의 아미노산 서열이 결정된다. 일부 실시양태에서, 일련의 신호 펄스는 일련의 실시간 신호 펄스이다.
일부 실시양태에서, 1개 이상의 말단 아미노산 인식 분자와 말단에서 노출된 아미노산의 각각의 유형의 회합은 말단에서 노출된 아미노산의 다른 유형과는 상이한 일련의 신호 펄스에서의 특징적인 패턴을 생성한다. 일부 실시양태에서, 특징적인 패턴의 신호 펄스는 말단 아미노산 인식 분자 및 말단에서 노출된 아미노산 사이의 개별적인 회합 사건에 상응한다. 일부 실시양태에서, 특징적인 패턴은 단일 폴리펩티드 분자의 말단에서 노출된 아미노산과의 일련의 가역적인 말단 아미노산 인식 분자 결합 상호작용에 상응한다. 일부 실시양태에서, 특징적인 패턴은 단일 폴리펩티드 분자의 말단에서 노출된 아미노산 및 인접 위치에서의 아미노산 (예를 들어, 동일한 유형 또는 상이한 유형의 아미노산)을 지시한다.
일부 실시양태에서, 단일 폴리펩티드 분자는 단일 폴리펩티드 분자의 말단으로부터 1개 이상의 아미노산을 제거하는 절단 시약에 의해 분해된다. 일부 실시양태에서, 방법은 절단 시약과 말단의 회합을 지시하는 신호를 검출하는 것을 추가로 포함한다. 일부 실시양태에서, 절단 시약은 검출가능한 표지 (예를 들어, 발광 표지, 전도율 표지)를 포함한다. 일부 실시양태에서, 단일 폴리펩티드 분자는 표면에 고정화된다. 일부 실시양태에서, 단일 폴리펩티드 분자는 1개 이상의 말단 아미노산 인식 분자가 회합하는 말단에 대해 원위인 말단 단부를 통해 표면에 고정화된다. 일부 실시양태에서, 단일 폴리펩티드 분자는 링커 (예를 들어, 생체분자를 포함하는 가용화 링커)를 통해 표면에 고정화된다.
일부 측면에서, 본 출원은 반응 혼합물 중의 단일 폴리펩티드 분자를 1개 이상의 말단 아미노산 인식 분자 및 절단 시약를 포함하는 조성물과 접촉시키는 것을 포함하는 폴리펩티드를 시퀀싱하는 방법을 제공한다. 일부 실시양태에서, 방법은 절단 시약의 존재 하에서 1개 이상의 말단 아미노산 인식 분자와 단일 폴리펩티드 분자의 말단의 회합을 지시하는 일련의 신호 펄스를 검출하는 것을 추가로 포함한다. 일부 실시양태에서, 일련의 신호 펄스는 절단 시약에 의한 말단 아미노산 절단의 결과로서 시간 경과에 따른 말단에서 노출된 일련의 아미노산을 지시한다.
일부 측면에서, 본 출원은 (a) 단일 폴리펩티드 분자의 말단에서 제1 아미노산을 확인하고, (b) 제1 아미노산을 제거하여 단일 폴리펩티드 분자의 말단에서 제2 아미노산을 노출시키고, (c) 단일 폴리펩티드 분자의 말단에서 제2 아미노산을 확인하는 것을 포함하는, 폴리펩티드를 시퀀싱하는 방법을 제공한다. 일부 실시양태에서, (a)-(c)는 단일 반응 혼합물에서 수행된다. 일부 실시양태에서, (a)-(c)는 순차적으로 일어난다. 일부 실시양태에서, (c)는 (a) 및 (b) 전에 일어난다. 일부 실시양태에서, 단일 반응 혼합물은 1개 이상의 말단 아미노산 인식 분자를 포함한다. 일부 실시양태에서, 단일 반응 혼합물은 절단 시약을 포함한다. 일부 실시양태에서, 제1 아미노산은 절단 시약에 의해 제거된다. 일부 실시양태에서, 방법은 단일 폴리펩티드 분자의 말단에서 1개 이상의 아미노산을 제거하고 확인하는 단계를 반복하며, 그에 의해 단일 폴리펩티드 분자의 서열 (예를 들어, 부분적 서열 또는 완전한 서열)을 결정하는 것을 추가로 포함한다.
일부 측면에서, 본 출원은 단일 폴리펩티드 분자를 단일 폴리펩티드 분자에 결합하는 1개 이상의 아미노산 인식 분자와 접촉시키는 것을 포함하는, 폴리펩티드의 아미노산을 확인하는 방법을 제공한다. 일부 실시양태에서, 방법은 폴리펩티드 분해 조건 하에서 1개 이상의 아미노산 인식 분자와 단일 폴리펩티드 분자의 회합을 지시하는 일련의 신호 펄스를 검출하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 일련의 신호 펄스에서의 제1 특징적인 패턴에 기반하여 단일 폴리펩티드 분자에서의 아미노산의 제1 유형을 확인하는 것을 추가로 포함한다.
일부 측면에서, 본 출원은 폴리펩티드의 말단 아미노산 (예를 들어, N-말단 또는 C-말단 아미노산)을 확인하는 방법을 제공한다. 일부 실시양태에서, 방법은 폴리펩티드를 폴리펩티드의 말단에서 말단 아미노산의 1개 이상의 유형에 선택적으로 결합하는 1개 이상의 표지된 친화도 시약 (예를 들어, 1개 이상의 아미노산 인식 분자)과 접촉시키는 것을 포함한다. 일부 실시양태에서, 방법은 폴리펩티드와 1개 이상의 표지된 친화도 시약의 상호작용을 검출함으로써 폴리펩티드의 말단에서 말단 아미노산을 확인하는 것을 추가로 포함한다.
추가의 다른 측면에서, 본 출원은 에드만(Edman)-유형 분해 반응에 의한 폴리펩티드 시퀀싱의 방법을 제공한다. 일부 실시양태에서, 에드만-유형 분해 반응은 검출 또는 절단 중 어느 하나의 목적을 위해 (예를 들어, 단일 반응 혼합물을 사용한 검출 및 절단을 포함할 수 있는 동적 시퀀싱 반응에 비해) 폴리펩티드를 상이한 반응 혼합물과 접촉시킴으로써 수행될 수 있다.
따라서, 일부 측면에서, 본 출원은 (i) 폴리펩티드를 폴리펩티드의 말단에서 말단 아미노산의 1개 이상의 유형에 선택적으로 결합하는 1개 이상의 표지된 친화도 시약과 접촉시키는 것을 포함하는, 폴리펩티드의 아미노산 서열을 결정하는 방법을 제공한다. 일부 실시양태에서, 방법은 (ii) 폴리펩티드와 1개 이상의 표지된 친화도 시약의 상호작용을 검출함으로써 폴리펩티드의 말단에서 말단 아미노산 (예를 들어, N-말단 또는 C-말단 아미노산)을 확인하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 (iii) 말단 아미노산을 제거하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 (iv) (i) 내지 (iii)을 폴리펩티드의 말단에서 1회 이상 반복하여 폴리펩티드의 아미노산 서열을 결정하는 것을 추가로 포함한다.
일부 실시양태에서, 방법은 (i) 후에 및 (ii) 전에, 말단 아미노산에 선택적으로 결합하지 않는 1개 이상의 표지된 친화도 시약 중 임의의 것을 제거하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 (ii) 후에 및 (iii) 전에, 말단 아미노산에 선택적으로 결합하는 1개 이상의 표지된 친화도 시약 중 임의의 것을 제거하는 것을 추가로 포함한다.
일부 실시양태에서, 말단 아미노산을 제거하는 것 (예를 들어, (iii))은 말단 아미노산을 이소티오시아네이트 (예를 들어, 페닐 이소티오시아네이트)와 접촉시킴으로써 말단 아미노산을 변형시키고, 변형된 말단 아미노산을 변형된 말단 아미노산에 특이적으로 결합하고 이를 제거하는 프로테아제와 접촉시키는 것을 포함한다. 일부 실시양태에서 말단 아미노산을 절단하는 것 (예를 들어, (iii))은 말단 아미노산을 이소티오시아네이트와 접촉시킴으로써 말단 아미노산을 변형시키고, 변형된 말단 아미노산을 변형된 말단 아미노산을 제거하는데 충분한 산성 또는 염기성 조건으로 처리하는 것을 포함한다.
일부 실시양태에서, 말단 아미노산을 확인하는 것은 말단 아미노산을 1개 이상의 표지된 친화도 시약이 결합하는 말단 아미노산의 1개 이상의 유형 중 하나의 유형인 것으로서 확인하는 것을 포함한다. 일부 실시양태에서, 말단 아미노산을 확인하는 것은 말단 아미노산을 1개 이상의 표지된 친화도 시약이 결합하는 말단 아미노산의 1개 이상의 유형 이외의 유형인 것으로서 확인하는 것을 포함한다.
일부 측면에서, 본 출원은 예를 들어, 폴리펩티드 시퀀싱 반응에서 향상된 광안정성을 위한 차폐 요소를 포함하는 아미노산 인식 분자를 제공한다. 일부 측면에서, 본 출원은 화학식 (I)의 아미노산 인식 분자를 제공한다:
A-(Y)n-D
(I)
여기서: A는 적어도 1개의 아미노산 인식 분자를 포함하는 아미노산 결합 성분이고; Y의 각각의 경우는 공유 또는 비-공유 연결기를 형성하는 중합체이고; n은 1 내지 10 (경계값 포함)의 정수이고; D는 적어도 1개의 검출가능한 표지를 포함하는 표지 성분이다. 일부 실시양태에서, D는 200 Å 미만의 직경이다. 일부 실시양태에서, -(Y)n-은 적어도 2 nm의 길이 (예를 들어, 적어도 5 nm, 적어도 10 nm, 적어도 20 nm, 적어도 30 nm, 적어도 50 nm, 또는 그 초과의 길이)이다. 일부 실시양태에서, -(Y)n-은 is 약 2 nm 내지 약 200 nm의 길이 (예를 들어, 약 2 nm 내지 약 100 nm, 약 5 nm 내지 약 50 nm, 또는 약 10 nm 내지 약 100 nm의 길이)이다. 일부 실시양태에서, Y의 각각의 경우는 독립적으로 생체분자 또는 수지상 중합체 (예를 들어, 폴리올, 덴드리머)이다. 일부 실시양태에서, 본 출원은 화학식 (I)의 아미노산 인식 분자를 포함하는 조성물을 제공한다. 일부 실시양태에서, 아미노산 인식 분자는 조성물에서 가용성이다.
일부 측면에서, 본 출원은 화학식 (II)의 아미노산 인식 분자를 제공한다:
A-Y1-D
(II)
여기서: A는 적어도 1개의 아미노산 인식 분자를 포함하는 아미노산 결합 성분이고; Y1은 핵산 또는 폴리펩티드이고; D는 적어도 1개의 검출가능한 표지를 포함하는 표지 성분이다. 일부 실시양태에서, Y1이 핵산인 경우, 핵산은 공유 또는 비-공유 연결기를 형성한다. 일부 실시양태에서, 단, Y1이 폴리펩티드인 경우, 폴리펩티드는 50 × 10-9 M 미만의 해리 상수 (KD)를 특징으로 하는 비-공유 연결기를 형성한다. 일부 실시양태에서, KD는 1 × 10-9 M 미만, 1 × 10-10 M 미만, 1 × 10-11 M 미만, 또는 1 × 10-12 M 미만이다.
일부 측면에서, 본 출원은 핵산; 핵산 상의 제1 부착 부위에 부착된 적어도 1개의 아미노산 인식 분자; 및 핵산 상의 제2 부착 부위에 부착된 적어도 1개의 검출가능한 표지를 포함하고, 여기서 핵산이 적어도 1개의 아미노산 인식 분자 및 적어도 1개의 검출가능한 표지 사이에 공유 또는 비-공유 연결기를 형성하는 것인 아미노산 인식 분자를 제공한다. 일부 실시양태에서, 핵산은 제1 올리고뉴클레오티드 가닥을 포함한다. 일부 실시양태에서, 핵산은 제1 올리고뉴클레오티드 가닥과 혼성화된 제2 올리고뉴클레오티드 가닥을 추가로 포함한다.
일부 측면에서, 본 출원은 적어도 2개의 리간드-결합 부위를 포함하는 다가 단백질; 단백질 상의 제1 리간드-결합 부위에 결합된 제1 리간드 모이어티를 통해 단백질에 부착된 적어도 1개의 아미노산 인식 분자; 및 단백질 상의 제2 리간드-결합 부위에 결합된 제2 리간드 모이어티를 통해 단백질에 부착된 적어도 1개의 검출가능한 표지를 포함하는 아미노산 인식 분자를 제공한다. 일부 실시양태에서, 다가 단백질은 아비딘 단백질이다.
일부 실시양태에서, 차폐된 아미노산 인식 분자는 본 출원에 따른 폴리펩티드 시퀀싱 방법, 또는 관련 기술분야에 공지된 임의의 방법에 사용될 수 있다. 따라서, 일부 측면에서, 본 출원은 폴리펩티드 분자를 본 출원의 1개 이상의 차폐된 아미노산 인식 분자와 접촉시키는 것을 포함하는, 폴리펩티드 시퀀싱의 방법 (예를 들어, 에드만-유형 분해 반응에서, 동적 시퀀싱 반응, 또는 관련 기술분야에 공지된 다른 방법에서)을 제공한다. 예를 들어, 일부 실시양태에서, 방법은 폴리펩티드 분자를 본 출원에 따른 차폐물 또는 차폐 요소를 포함하는 적어도 1개의 아미노산 인식 분자와 접촉시키고, 적어도 1개의 아미노산 인식 분자와 폴리펩티드 분자의 회합을 검출하는 것을 포함한다.
일부 측면에서, 본 출원은 혼합된 샘플에서 관심의 단백질을 확인하는 방법을 제공한다. 일부 실시양태에서, 방법은 혼합된 단백질 샘플을 절단하여 복수개의 폴리펩티드 단편을 생성하는 것을 포함한다. 일부 실시양태에서, 방법은 본 출원의 방법에 따른 방법에서 복수개 중 적어도 1개의 폴리펩티드 단편의 아미노산 서열을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 아미노산 서열이 관심의 단백질에 대해 고유하게 확인가능한 경우, 혼합된 샘플에서 관심의 단백질을 확인하는 것을 추가로 포함한다.
일부 실시양태에서, 혼합된 샘플에서 관심의 단백질을 확인하는 방법은 혼합된 단백질 샘플을 절단하여 복수개의 폴리펩티드 단편을 생성하는 것을 포함한다. 일부 실시양태에서, 방법은 복수개의 폴리펩티드 단편에서의 아미노산의 1개 이상의 유형을 1개 이상의 상이한 발광 표지로 표지하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 복수개 중 적어도 1개의 표지된 폴리펩티드에 대해 시간 경과에 따라 발광을 측정하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 검출된 발광에 기반하여 적어도 1개의 표지된 폴리펩티드의 아미노산 서열을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 아미노산 서열이 관심의 단백질에 대해 고유하게 확인가능한 경우, 혼합된 샘플에서 관심의 단백질을 확인하는 것을 추가로 포함한다.
따라서, 일부 실시양태에서, 본 출원에 따라 분석되는 관심의 폴리펩티드 분자 또는 단백질은 혼합된 또는 정제된 샘플의 것일 수 있다. 일부 실시양태에서, 관심의 폴리펩티드 분자 또는 단백질은 생물학적 샘플 (예를 들어, 혈액, 조직, 타액, 소변, 또는 다른 생물학적 공급원)로부터 수득된다. 일부 실시양태에서, 관심의 폴리펩티드 분자 또는 단백질은 환자 샘플 (예를 들어, 인간 샘플)로부터 수득된다.
본 발명의 특정 실시양태의 상세사항은 하기 기재된 바와 같은 특정 실시양태의 상세한 설명에 제시된다. 본 발명의 다른 특색, 목적, 및 이점은 정의, 실시예, 도면, 및 청구범위로부터 명백할 것이다.
통상의 기술자는 본원에 기재된 도면이 단지 예시 목적을 위한 것임을 이해할 것이다. 일부의 경우, 본 발명의 다양한 측면은 본 발명의 이해를 용이하게 하기 위해 과장되거나 확대되어 나타내어질 수 있음이 이해되어야 한다. 도면에서, 비슷한 참조 부호는 일반적으로 다양한 도면 전반에 걸쳐 비슷한 특색, 기능적으로 유사하고/거나 구조적으로 유사한 요소를 지칭한다. 도면은 반드시 일정한 비율이지는 않으며, 본 개시내용의 원리를 예시할 때 대신 강조가 두어진다. 도면은 본 교시내용의 범주를 어떠한 식으로도 제한하는 것으로 의도되지 않는다.
본 발명의 특색 및 이점은 도면과 함께 취할 경우에 하기 제시된 상세한 설명으로부터 보다 명백하게 될 것이다.
도면을 참조로 실시양태를 기재할 때, 방향 언급 ("위", "아래", "상부", "하부", "좌측", "우측", "수평", "수직" 등)이 사용될 수 있다. 이러한 언급은 단지 정상적인 배향에서 도면을 보는 독자에게 보조인 것으로 의도된다. 이들 방향적 언급은 구현된 장치의 바람직한 또는 유일한 배향을 기재하는 것으로 의도되지 않는다. 장치는 다른 배향에서 구현될 수 있다.
상세한 설명으로부터 명백한 바와 같이, 도면에 도시되고 본 출원 전반에 걸쳐 예시의 목적을 위해 추가로 기재된 실시예는 비-제한적 실시양태를 기재하며, 일부의 경우에 보다 명백한 예시의 목적을 위해 특정 프로세스를 단순화하거나 특색 또는 단계를 생략할 수 있다.
도 1a-1b는 단일 분자 결합 상호작용의 검출 (도 1a) 및 분석 (도 1b)에 의한 폴리펩티드 시퀀싱의 예를 나타낸다.
도 1c-1e는 본 출원에 따른 표지된 친화도 시약 및 사용 방법의 다양한 예를 나타낸다. 도 1c는 말단 아미노산의 1개 이상의 유형에 선택적으로 결합하는 표지된 효소 및 표지된 압타머를 비롯한 표지된 친화도 시약의 예시 배열을 도시한다. 도 1d는 표지된 친화도 시약을 사용한 폴리펩티드 시퀀싱의 분해-기반 프로세스를 일반적으로 도시한다. 도 1e는 말단 아미노산 검출, 변형, 및 절단의 반복된 사이클에 의한 표지된 압타머를 사용한 폴리펩티드 시퀀싱의 예를 나타낸다.
도 2는 각각 말단 아미노산의 상이한 유형에 선택적으로 결합하고 이를 절단하는 표지된 엑소펩티다제를 사용한 실시간으로의 폴리펩티드 시퀀싱의 예를 나타낸다.
도 3a-3b는 말단 및/또는 내부 아미노산과 표지된 친화도 시약 및 표지된 절단 시약 (예를 들어, 표지된 비-특이적 엑소펩티다제)의 결합 상호작용을 평가하는 것에 의한 실시간으로의 폴리펩티드 시퀀싱의 예를 나타낸다. 도 3a는 신호 출력에서 일련의 펄스를 검출하는 것에 의한 실시간 시퀀싱의 예를 나타낸다. 도 3b는 온도-의존성 시퀀싱 프로세스를 개략적으로 도시한다.
도 4는 말단 및 내부 아미노산과 표지된 친화도 시약 및 표지된 비-특이적 엑소펩티다제의 결합 상호작용을 평가하는 것에 의한 실시간으로의 폴리펩티드 시퀀싱의 예를 나타낸다.
도 5a-5e는 차폐 요소를 통해 표지된 친화도 시약의 비-제한적 예를 나타낸다. 도 5a는 통상적인 공유 연결을 통해 표지된 친화도 시약으로의 단일-분자 펩티드 시퀀싱을 예시한다. 도 5b는 차폐 요소를 포함하는 친화도 시약으로의 단일-분자 펩티드 시퀀싱을 예시한다. 도 5c-5e는 본 출원에 따른 차폐 요소의 다양한 예를 예시한다.
도 6은 표지된 폴리펩티드에서 검출된 아미노산의 고유한 조합에 기반하여 폴리펩티드를 확인하는 것의 예를 나타낸다.
도 7은 말단 아미노산 변형 및 절단의 반복된 사이클로 처리된 표지된 폴리펩티드의 발광을 측정하는 것에 의한 폴리펩티드 시퀀싱의 예를 나타낸다.
도 8a-8c는 표지된 폴리펩티드의 진행적인 효소적 절단에 의한 폴리펩티드 시퀀싱의 예를 나타낸다. 도 8a는 고정화된 말단 펩티다제에 의한 표지된 폴리펩티드의 진행적인 효소적 절단에 의한 시퀀싱의 예를 나타낸다. 도 8b는 말단 펩티다제에 의한 고정화된 표지된 폴리펩티드의 진행적인 효소적 절단에 의한 시퀀싱의 예를 나타낸다. 도 8c는 도 8b에 따라 수행된 실시간 시퀀싱 프로세스의 예를 개략적으로 예시한다.
도 9는 고정화된 ATP-의존성 프로테아제, 공여자-표지된 ATP, 및 폴리펩티드 기질의 수용자-표지된 아미노산을 사용한 보조인자-기반 FRET에 의한 시퀀싱의 예를 개략적으로 예시한다.
도 10a-10c는 본 출원에 따른 폴리펩티드 및 단백질의 분석을 위한 샘플 및 샘플 웰 표면을 제조하는 것의 다양한 예를 나타낸다. 도 10a는 단백질 샘플로부터 말단 변형된 폴리펩티드를 제조하는 것의 예시 프로세스를 일반적으로 도시한다. 도 10b는 가용화 링커를 폴리펩티드에 접합시키는 것의 예시 프로세스를 일반적으로 도시한다. 도 10c는 하부 표면에의 단일 분자 고정화를 촉진시키는데 사용될 수 있는 변형된 표면을 갖는 샘플 웰의 예시 개략도를 나타낸다.
도 11은 본원에 기재된 기술의 일부 실시양태에 따른, 폴리펩티드 분해 프로세스 동안 수득된 데이터를 분석하기 위한 예시적인 서열 데이터 프로세싱 파이프라인의 도해이다.
도 12는 본원에 기재된 기술의 일부 실시양태에 따른, 폴리펩티드 분자의 아미노산 서열을 결정하기 위한 예시적인 프로세스의 흐름도이다.
도 13은 본원에 기재된 기술의 일부 실시양태에 따른, 폴리펩티드를 대표하는 아미노산 서열을 결정하기 위한 예시적인 프로세스의 흐름도이다.
도 14는 본원에 기재된 기술의 일부 실시양태를 실행하는데 사용될 수 있는 예시적인 컴퓨터 시스템의 블록 도해이다.
도 15a-15c는 상이한 가용화 링커에 의해 제공된 향상된 용해도에 대해 제조되고 평가된 선택 펩티드-링커 접합체에 대한 실험 데이터를 나타낸다. 도 15a는 합성되고 평가된 펩티드-링커 접합체의 예시 구조를 나타낸다. 도 15b는 N-말단에서의 펩티드 절단을 입증하는 LCMS로부터의 결과를 나타낸다. 도 15c는 로딩 실험으로부터의 결과를 나타낸다.
도 16은 실험 결과에 기반한 선택 엑소펩티다제에 대한 아미노산 절단 활성의 요약을 나타낸다.
도 17a-17c는 말단 아미노산을 검출하고 절단하기 위한 염료/펩티드 접합체 검정에 대한 실험 데이터를 나타낸다. 도 17a는 염료/펩티드 접합체 검정을 수행하는데 사용되는 예시 스킴 및 구조를 나타낸다. 도 17b는 칩상 검정에서 샘플 웰 내로의 펩티드-링커 접합체 로딩에 대한 영상화 결과를 나타낸다. 도 17c는 펩티드-접합체 로딩 및 말단 아미노산 절단을 검출한 예시 신호 트레이스를 나타낸다.
도 18a-18f는 말단 아미노산을 검출하고 절단하기 위한 FRET 염료/펩티드 접합체 검정에 대한 실험 데이터를 나타낸다. 도 18a는 FRET 염료/펩티드 접합체 검정을 수행하는데 사용되는 예시 스킴 및 구조를 나타낸다. 도 18b는 상이한 시점에 대한 FRET 영상화 결과를 나타낸다. 도 18c는 상이한 시점에서의 커팅 효율을 나타낸다. 도 18d는 상이한 시점의 각각에서 제시된 커팅을 나타낸다. 도 18e는 예르시니아 페스티스(Yersinia pestis)로부터의 프롤린 이미노펩티다제 (yPIP)로의 상이한 시점에 대한 추가적인 FRET 영상화 결과를 나타낸다. 도 18f는 비브리오 프로테올리티쿠스(Vibrio proteolyiticus)로부터의 아미노펩티다제 (VPr)로의 상이한 시점에 대한 FRET 영상화 결과를 나타낸다.
도 19a-19h는 표지된 친화도 시약에 의한 말단 아미노산 식별에 대한 실험 데이터를 나타낸다. 도 19a는 이들 실험을 위해 표지된 ClpS2 단백질의 결정 구조를 나타낸다. 도 19b는 표지된 ClpS2 단백질에 의한 N-말단 아미노산 식별을 예시하는 단일 분자 강도 트레이스를 나타낸다. 도 19c는 상이한 말단 아미노산에 대한 평균 펄스 지속기간을 나타내는 플롯이다. 도 19d는 상이한 말단 아미노산에 대한 평균 펄스간 지속기간을 나타내는 플롯이다. 도 19e는 상이한 말단 아미노산 중에서의 식별자 펄스 지속기간을 추가로 예시하는 플롯을 나타낸다. 도 19f, 19g, 및 19h는 써모시노코쿠스 엘론가투스(Thermosynochoccus elongatus)로부터의 ClpS 단백질 (teClpS)에 의한 류신 인식을 입증하는 체류 시간 분석으로부터의 예시 결과를 나타낸다. 도 19i는 에이. 투메파시엔스(A. tumefaciens) ClpS1에 의한 페닐알라닌, 류신, 트립토판, 및 티로신의 구별가능한 인식을 입증하는 체류 시간 분석으로부터의 예시 결과를 나타낸다. 도 19j는 에스. 엘론가투스 ClpS2에 의한 류신 인식을 입증하는 체류 시간 분석으로부터의 예시 결과를 나타낸다. 도 19k-19l은 GID4에 의한 프롤린 인식을 입증하는 체류 시간 분석으로부터의 예시 결과를 나타낸다.
도 20a-20d는 동일한 반응 혼합물 중의 표지된 ClpS2 인식 단백질 및 아미노펩티다제 절단 시약을 사용하여 실시간으로 수행된 폴리펩티드 시퀀싱 반응으로부터의 예시 결과를 나타낸다. 도 20a는 제1 시퀀싱 반응에 대한 신호 트레이스 데이터를 나타낸다. 도 20b는 도 20a에 나타내어진 신호 트레이스 데이터에 대한 펄스 지속기간 통계를 나타낸다. 도 20c는 제2 시퀀싱 반응에 대한 신호 트레이스 데이터를 나타낸다. 도 20d는 도 20c에 나타내어진 신호 트레이스 데이터에 대한 펄스 지속기간 통계를 나타낸다.
도 21a-21f는 표지된 엑소펩티다제에 의한 말단 아미노산 확인 및 절단에 대한 실험 데이터를 나타낸다. 도 21a는 이들 실험을 위해 부위-특이적으로 표지된 프롤린 이미노펩티다제 (yPIP)의 결정 구조를 나타낸다. 도 21b는 정제된 단백질 생성물에 대한 표지화의 정도를 나타낸다. 도 21c는 yPIP의 부위-특이적 표지화를 확인하는 SDS 페이지의 영상이다. 도 21d는 부위-특이적 표지화를 확인하는 SDS 페이지 겔의 과노출된 영상이다. 도 21e는 표지된 단백질 생성물의 순도를 확인하는 쿠마시(Coomassie) 염색된 겔의 영상이다. 도 21f는 표지된 엑소펩티다제의 절단 활성을 입증하는 HPLC 트레이스이다. 서열 YPYPYPK는 서열식별번호(SEQ ID NO): 82에 상응한다. 서열 PYPYPK는 서열식별번호: 83에 상응한다.
도 22a-22f는 특이적 번역후 변형을 함유하는 아미노산의 인식을 평가하는 실험으로부터의 데이터를 나타낸다. 도 22a는 SH2 도메인-함유 단백질에 의한 포스포-티로신 인식을 입증한 대표적인 트레이스를 나타내고; 도 22b는 도 22a의 트레이스에 상응하는 펄스 지속기간 데이터를 나타내고; 도 22c는 트레이스에 대해 결정된 통계를 나타낸다. 도 22d-22f는 음성 대조군 실험으로부터의 대표적인 트레이스를 나타낸다.
도 23은 펄스 지속기간에 대한 전종단 아미노산의 효과를 평가하는 실험으로부터의 중위 펄스 지속기간을 나타내는 플롯이다.
도 24a-24c는 차등적으로 표지된 인식 분자에 의한 동시 아미노산 인식을 평가하는 실험으로부터의 데이터를 나타낸다. 도 24a는 대표적인 트레이스를 나타낸다. 도 24b는 각각의 인식 분자에 대한 이들 실험 동안 수득된 펄스 지속기간 데이터를 비교하는 플롯이다. 도 24c는 이들 실험에 대한 펄스 지속기간 통계를 나타낸다.
도 25a-25c는 단일-분자 인식 동안 펩티드의 광안정성을 평가하는 실험으로부터의 데이터를 나타낸다. 도 25a는 아미노산 결합 부위로부터 ~2 nm인 염료로 표지된 atClpS2-V1을 사용한 인식으로부터의 대표적인 트레이스를 나타낸다. 도 25b는 이들 실험에 사용된 ClpS2 단백질의 구조의 가시화를 나타낸다. 도 25c는 DNA/단백질 링커를 통해 아미노산 결합 부위로부터 >10 nm인 염료로 표지된 ClpS2를 사용한 인식으로부터의 대표적인 트레이스를 나타낸다.
도 26a-26d는 아미노펩티다제 절단 시약의 존재 하에서 DNA/스트렙타비딘 링커를 통해 표지된 ClpS2 인식 단백질을 사용하여 상보적인 금속-옥시드-반도체 (CMOS) 칩 상에서 실시간으로 수행된 폴리펩티드 시퀀싱 반응으로부터의 대표적인 트레이스를 나타낸다.
도 27은 피로코쿠스 호리코쉬이(Pyrococcus horikoshii) TET 아미노펩티다제 절단 시약의 존재 하에서 DNA/스트렙타비딘 링커를 통해 표지된 atClpS2-V1 인식 단백질을 사용하여 실시간으로 수행된 폴리펩티드 시퀀싱 반응으로부터의 대표적인 트레이스를 나타낸다.
도 28a-28j는 차등적인 절단 특이성을 갖는 엑소펩티다제의 다중 유형을 사용하여 실시간으로 수행된 폴리펩티드 시퀀싱 반응으로부터의 대표적인 트레이스 데이터를 나타낸다. 도 28a는 hTET 엑소펩티다제로 수행된 반응으로부터의 대표적인 트레이스를 나타내며, 확대된 펄스 패턴 영역은 도 28b에 나타내어진다. 도 28a에서의 서열 YAAWAAFADDDWK는 서열식별번호: 78에 상응한다. 도 28c는 hTET 및 yPIP 엑소펩티다제 둘 다로 수행된 반응으로부터의 대표적인 트레이스를 나타내며, 확대된 펄스 패턴 영역은 도 28d에 나타내어지고, 추가적인 대표적인 트레이스는 도 28e에 나타내어진다. 도 28c에서의 서열 FYPLPWPDDDYK는 서열식별번호: 80에 상응한다. 도 28f는 hTET 및 yPIP 엑소펩티다제 둘 다로 수행된 추가의 반응으로부터의 대표적인 트레이스를 나타내며, 확대된 펄스 패턴 영역은 도 28g에 나타내어지고, 추가적인 대표적인 트레이스는 도 28h에 나타내어진다. 도 28i는 PfuTET 및 yPIP 엑소펩티다제 둘 다로 수행된 반응으로부터의 대표적인 트레이스를 나타내며, 확대된 펄스 패턴 영역은 도 28j에 나타내어진다. 도 28f 및 28i에서의 서열 YPLPWPDDDYK는 서열식별번호: 81에 상응한다.
본 출원의 측면은 단백질 시퀀싱 및 확인 방법, 폴리펩티드 시퀀싱 및 확인 방법, 아미노산 확인 방법, 및 이러한 방법을 수행하기 위한 조성물에 관한 것이다.
일부 측면에서, 본 출원은 소수의 장치 변형을 갖거나 전혀 갖지 않는 기존의 분석 기기를 사용하여 실행될 수 있는 폴리펩티드 시퀀싱 기법의 발견에 관한 것이다. 예를 들어, 이전의 폴리펩티드 시퀀싱 전략은 분석되는 폴리펩티드를 함유하는 반응 용기를 통한 상이한 시약 혼합물의 반복적인 사이클링을 포함하였다. 이러한 전략은 시약 사이클링이 가능한 유동 셀 또는 유사한 장치가 구비되지 않을 수 있는, 기존의 분석 기기, 예컨대 핵산 시퀀싱 기기의 변형을 요구할 수 있다. 본 발명자들은 본 출원의 특정 폴리펩티드 시퀀싱 기법이 반복적인 시약 사이클링을 요구하지 않으며, 그에 의해 기기 크기를 증가시킬 수 있는 상당한 변형 없이 기존의 기기의 사용을 허용함을 인식하고 인지하였다. 따라서, 일부 측면에서, 본 출원은 보다 작은 시퀀싱 기기의 사용을 허용하는 폴리펩티드 시퀀싱 방법을 제공한다. 일부 측면에서, 본 출원은 게놈 및 프로테옴 분석 둘 다가 동일한 시퀀싱 기기를 사용하여 수행되는 것을 허용하는 폴리펩티드 시퀀싱 기법의 발견에 관한 것이다.
본 발명자들은 차등적인 결합 상호작용이 폴리펩티드 시퀀싱에서 통상적인 표지화 전략에 대한 추가적인 또는 대안적인 접근법을 제공할 수 있음을 추가로 인식하고 인지하였다. 통상적인 폴리펩티드 시퀀싱은 아미노산의 각각의 유형을 고유하게 확인가능한 표지로 표지하는 것을 포함할 수 있다. 이 프로세스는 그의 다중 번역후 변이 외에도 천연 발생 아미노산의 적어도 20가지 상이한 유형이 있기 때문에, 수고롭고 오류를 유발할 수 있다. 일부 측면에서, 본 출원은 아미노산의 상이한 유형과 차등적으로 회합하여 폴리펩티드의 아미노산 서열을 지시하는 검출가능한 특징적인 특징을 생성하는 아미노산 인식 분자의 사용을 포함하는 기법의 발견에 관한 것이다. 따라서, 본 출원의 측면은 특정 통상적인 폴리펩티드 시퀀싱 접근법에 사용되는 폴리펩티드 표지화 및/또는 가혹한 화학 시약을 요구하지 않으며, 그에 의해 샘플로부터 수득된 서열 정보의 처리량 및/또는 정확도를 증가시키는 기법을 제공한다.
일부 측면에서, 본 출원은 폴리펩티드 시퀀싱 반응이 단지 단일 반응 혼합물을 사용하여 (예를 들어, 반응 용기를 통한 반복적인 시약 사이클링을 요구하지 않으면서) 실시간으로 모니터링될 수 있다는 발견에 관한 것이다. 상기 상세화된 바와 같이, 통상적인 폴리펩티드 시퀀싱 반응은 폴리펩티드를 상이한 시약 혼합물에 노출시켜 아미노산 검출 및 아미노산 절단의 단계 사이를 사이클링하는 것을 포함할 수 있다. 따라서, 일부 측면에서, 본 출원은 실시간으로 진행중인 분해 반응 전반에 걸친 아미노산 검출에 의한 폴리펩티드의 분석을 허용하는 차세대 시퀀싱에 있어서의 진보에 관한 것이다. 동적 시퀀싱에 의한 이러한 폴리펩티드 분석을 위한 접근법은 하기 기재된다.
본원에 기재된 바와 같이, 일부 측면에서, 본 출원은 폴리펩티드 분해 프로세스 동안 데이터를 수득하고, 데이터를 분석하여 분해 프로세스 동안 폴리펩티드의 말단에서 순차적으로 노출된 아미노산에 상응하는 데이터의 부분을 결정함으로써 폴리펩티드를 시퀀싱하는 방법을 제공한다. 일부 실시양태에서, 데이터의 부분은 1개 이상의 아미노산 인식 분자와 (예를 들어, 분해 동안) 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 회합을 지시하는 일련의 신호 펄스를 포함한다. 일부 실시양태에서, 일련의 신호 펄스는 분해 프로세스 동안 폴리펩티드의 말단에서의 일련의 가역적인 단일 분자 결합 상호작용에 상응한다.
폴리펩티드 분해 프로세스 동안 단일 분자 결합 상호작용을 검출하는 것에 의한 폴리펩티드 시퀀싱의 비-제한적 예는 도 1a에 개략적으로 예시된다. 예시 신호 트레이스 (I)는 신호의 변화에 상응하는 시간에서의 상이한 회합 사건을 도시하는 일련의 패널 (II)로 나타내어진다. 나타내어진 바와 같이, 아미노산 인식 분자 (반점 형상) 및 폴리펩티드의 말단에서의 아미노산 (줄 상의 비드로서 나타내어짐) 사이의 회합 사건은 시간의 지속기간 동안 지속하는 신호의 규모의 변화를 생성한다.
패널 (A) 및 (B)는 아미노산 인식 분자 및 폴리펩티드의 말단에서 노출된 제1 아미노산 (예를 들어, 제1 말단 아미노산) 사이의 상이한 회합 사건을 도시한다. 각각의 회합 사건은 회합 사건의 지속기간 동안 지속하는 신호의 규모의 변화를 특징으로 하는 신호 트레이스 (I)의 변화를 생성한다. 따라서, 패널 (A) 및 (B)의 회합 사건 사이의 시간 지속기간은 폴리펩티드가 아미노산 인식 분자와 검출가능하게 회합되지 않는 시간의 지속기간에 상응할 수 있다.
패널 (C) 및 (D)는 아미노산 인식 분자 및 폴리펩티드의 말단에서 노출된 제2 아미노산 (예를 들어, 제2 말단 아미노산) 사이의 상이한 회합 사건을 도시한다. 본원에 기재된 바와 같이, 폴리펩티드의 말단에서 "노출된" 아미노산은 폴리펩티드에 여전히 부착되고, 분해 동안 앞의 말단 아미노산의 제거 시 말단 아미노산이 되는 (예를 들어, 단독으로 또는 1개 이상의 추가적인 아미노산과 함께) 아미노산이다. 따라서, 일련의 패널 (II)의 제1 및 제2 아미노산은 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 예시적인 예를 제공하고, 여기서 제2 아미노산은 제1 아미노산의 제거 시 말단 아미노산이 되었다.
일반적으로 도시된 바와 같이, 패널 (C) 및 (D)의 회합 사건은 패널 (A) 및 (B)의 그것보다 상대적으로 더 짧은 시간 지속기간 동안 지속하는 규모의 변화를 특징으로 하는 신호 트레이스 (I)의 변화를 생성하고, 패널 (C) 및 (D)의 회합 사건 사이의 시간 지속기간은 패널 (A) 및 (B)의 그것보다 상대적으로 더 짧다. 본원에 기재된 바와 같이, 일부 실시양태에서, 신호의 이러한 독특한 변화 중 하나 또는 둘 다는 아미노산의 상이한 유형 사이에 식별할 수 있는 신호 트레이스 (I)에서의 특징적인 패턴을 결정하는데 사용될 수 있다. 일부 실시양태에서, 하나의 특징적인 패턴으로부터 또 다른 것으로의 전이는 아미노산 절단을 지시한다. 본원에 사용된 바와 같이, 일부 실시양태에서, 아미노산 절단은 폴리펩티드의 말단으로부터의 적어도 1개의 아미노산의 제거 (예를 들어, 폴리펩티드로부터의 적어도 1개의 말단 아미노산의 제거)를 지칭한다. 일부 실시양태에서, 아미노산 절단은 특징적인 패턴 사이의 시간 지속기간에 기반한 추론에 의해 결정된다. 일부 실시양태에서, 아미노산 절단은 표지된 절단 시약과 폴리펩티드의 말단에서의 아미노산의 회합에 의해 생성된 신호의 변화를 검출함으로써 결정된다. 아미노산은 분해 동안 폴리펩티드의 말단으로부터 순차적으로 절단되기 때문에, 규모의 일련의 변화, 또는 일련의 신호 펄스가 검출된다. 일부 실시양태에서, 신호 펄스 데이터는 도 1b에 예시된 바와 같이 분석될 수 있다.
일부 실시양태에서, 역치 수준을 신호 데이터의 1개 이상의 파라미터에 적용함으로써, 신호 데이터를 분석하여 신호 펄스 정보를 추출할 수 있다. 예를 들어, 패널 (III)은 예시 신호 트레이스 (I)의 신호 데이터에 적용된 역치 규모 수준 ("ML")을 도시한다. 일부 실시양태에서, ML은 시간의 지점에서 검출된 신호 및 데이터의 주어진 세트에 대해 결정된 기준선 사이의 최소 차이이다. 일부 실시양태에서, 신호 펄스 ("sp")는 ML을 초과하고 시간의 지속기간 동안 지속하는 규모의 변화를 지시하는 데이터의 각각의 부분에 할당된다. 일부 실시양태에서, 역치 시간 지속기간은 신호 펄스가 그 부분에 할당되는지 여부를 결정하기 위해 ML을 충족시키는 데이터의 부분에 적용될 수 있다. 예를 들어, 실험 인공물은 요망되는 신뢰도로 신호 펄스를 할당하는데 충분한 시간의 지속기간 동안 지속하지 않는 ML을 초과하는 규모의 변화를 발생시킬 수 있다 (예를 들어, 아미노산 유형에 대해 비-차별적일 수 있는 일시적 회합 사건, 비-특이적 검출 사건, 예컨대 관찰 영역 내로의 확산 또는 관찰 영역 내에서의 시약 적층). 따라서, 일부 실시양태에서, 신호 펄스는 역치 규모 수준 및 역치 시간 지속기간에 기반하여 신호 데이터로부터 추출된다.
추출된 신호 펄스 정보는 예시적인 목적을 위해 덧붙여진 예시 신호 트레이스 (I)를 갖는 패널 (III)에 나타내어진다. 일부 실시양태에서, 신호 펄스의 규모에서의 피크는 ML 초과로 지속하는 시간의 지속기간에 걸쳐 검출된 규모를 평균함으로써 결정된다. 일부 실시양태에서, 본원에 사용된 바와 같은 "신호 펄스"는 기준선 초과의 시간의 지속기간 동안 지속하는 신호 데이터 (예를 들어, 예시 신호 트레이스 (I)에 의해 예시된 바와 같은 원시 신호 데이터)의 변화, 또는 그로부터 추출된 신호 펄스 정보 (예를 들어, 패널 (IV)에 예시된 바와 같이 프로세싱된 신호 데이터)를 지칭할 수 있음이 인지되어야 한다.
패널 (IV)는 예시 신호 트레이스 (I)로부터 추출된 신호 펄스 정보를 나타낸다. 일부 실시양태에서, 신호 펄스 정보를 분석하여 일련의 신호 펄스에서의 상이한 특징적인 패턴에 기반하여 서열에서 아미노산의 상이한 유형을 확인할 수 있다. 예를 들어, 패널 (IV)에 나타내어진 바와 같이, 신호 펄스 정보는 제1 특징적인 패턴 ("CP1")에 기반한 아미노산의 제1 유형 및 제2 특징적인 패턴 ("CP2")에 기반한 아미노산의 제2 유형을 지시한다. 예로서, 보다 이른 시점에서 검출된 2개의 신호 펄스는 CP1에 기반한 폴리펩티드의 말단에서의 제1 아미노산을 지시하는 정보를 제공하고, 보다 나중의 시점에서 검출된 2개의 신호 펄스는 CP2에 기반한 폴리펩티드의 말단에서의 제2 아미노산을 지시하는 정보를 제공한다.
또한 패널 (IV)에 나타내어진 바와 같이, 각각의 신호 펄스는 아미노산 인식 분자 및 특징적인 패턴의 아미노산 사이의 회합 사건에 상응하는 펄스 지속기간 ("pd")을 포함한다. 일부 실시양태에서, 펄스 지속기간은 결합의 해리 속도의 특징이다. 또한 나타내어진 바와 같이, 특징적인 패턴의 각각의 신호 펄스는 펄스간 지속기간 ("ipd")에 의한 특징적인 패턴의 또 다른 신호 펄스로부터 분리된다. 일부 실시양태에서, 펄스간 지속기간은 결합의 회합 속도의 특징이다. 일부 실시양태에서, 규모의 변화 ("ΔM")는 기준선 및 신호 펄스의 피크 사이의 차이에 기반하여 신호 펄스에 대해 결정될 수 있다. 일부 실시양태에서, 특징적인 패턴은 펄스 지속기간에 기반하여 결정된다. 일부 실시양태에서, 특징적인 패턴은 펄스 지속기간 및 펄스간 지속기간에 기반하여 결정된다. 일부 실시양태에서, 특징적인 패턴은 펄스 지속기간, 펄스간 지속기간, 및 규모의 변화 중 임의의 하나 이상에 기반하여 결정된다.
따라서, 도 1a-1b에 의해 예시된 바와 같이, 일부 실시양태에서, 폴리펩티드 시퀀싱은 1개 이상의 아미노산 인식 분자와 진행중인 분해 반응에서 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 회합을 지시하는 일련의 신호 펄스를 검출함으로써 수행된다. 일련의 신호 펄스를 분석하여 일련의 신호 펄스에서 특징적인 패턴을 결정할 수 있으며, 특징적인 패턴의 시간 과정은 폴리펩티드의 아미노산 서열을 결정하는데 사용될 수 있다.
일부 실시양태에서, 일련의 신호 펄스는 시간 경과에 따른 광학 신호의 규모의 일련의 변화를 포함한다. 일부 실시양태에서, 광학 신호의 일련의 변화는 회합 사건 동안 생성된 발광의 일련의 변화를 포함한다. 일부 실시양태에서, 발광은 시퀀싱 반응의 1개 이상의 시약과 회합된 검출가능한 표지에 의해 생성된다. 예를 들어, 일부 실시양태에서, 1개 이상의 아미노산 인식 분자의 각각은 발광 표지를 포함한다. 일부 실시양태에서, 절단 시약은 발광 표지를 포함한다. 본 출원에 따른 발광 표지의 예 및 그들의 용도는 본원의 다른 곳에서 제공된다.
일부 실시양태에서, 일련의 신호 펄스는 시간 경과에 따른 전기 신호의 규모의 일련의 변화를 포함한다. 일부 실시양태에서, 전기 신호의 일련의 변화는 회합 사건 동안 생성된 전도도의 일련의 변화를 포함한다. 일부 실시양태에서, 전도율은 시퀀싱 반응의 1개 이상의 시약과 회합된 검출가능한 표지에 의해 생성된다. 예를 들어, 일부 실시양태에서, 1개 이상의 아미노산 인식 분자의 각각은 전도율 표지를 포함한다. 본 출원에 따른 전도율 표지의 예 및 그들의 용도는 본원의 다른 곳에서 제공된다. 전도율 표지를 사용하여 단일 분자를 확인하는 방법은 기재되었다 (예를 들어, 미국 특허 공개 번호 2017/0037462 참조).
일부 실시양태에서, 전도도의 일련의 변화는 나노포어를 통한 전도도의 일련의 변화를 포함한다. 예를 들어, 나노포어를 사용하여 수용체-리간드 상호작용을 평가하는 방법은 기재되었다 (예를 들어, 문헌 [Thakur, A.K. & Movileanu, L. (2019) Nature Biotechnology 37(1)] 참조). 본 발명자들은 이러한 나노포어가 본 출원에 따른 폴리펩티드 시퀀싱 반응을 모니터링하는데 사용될 수 있음을 인식하고 인지하였다. 따라서, 일부 실시양태에서, 본 출원은 단일 폴리펩티드 분자를 1개 이상의 아미노산 인식 분자와 접촉시키는 것을 포함하고, 여기서 단일 폴리펩티드 분자가 나노포어에 고정화된 것인 폴리펩티드 시퀀싱의 방법을 제공한다. 일부 실시양태에서, 방법은 1개 이상의 말단 아미노산 인식 분자와, 단일 폴리펩티드가 분해되고 있는 동안 단일 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 회합을 지시하는 나노포어를 통해 전도도의 일련의 변화를 검출하며, 그에 의해 단일 폴리펩티드 분자를 시퀀싱하는 것을 추가로 포함한다.
일부 측면에서, 본 출원은 혼합물로부터 폴리펩티드의 아미노산의 1개 이상의 유형을 확인함으로써 단백질의 복합체 혼합물에서 개별적인 단백질을 시퀀싱 및/또는 확인하는 방법을 제공한다. 일부 실시양태에서, 폴리펩티드의 1개 이상의 아미노산 (예를 들어, 말단 아미노산 및/또는 내부 아미노산)은 표지되고 (예를 들어, 직접적으로 또는 간접적으로, 예를 들어 결합제, 예컨대 아미노산 인식 분자를 사용하여), 폴리펩티드에서의 표지된 아미노산의 상대 위치가 결정된다. 일부 실시양태에서, 폴리펩티드에서의 아미노산의 상대 위치는 일련의 아미노산 표지화 및 절단 단계를 사용하여 결정된다. 그러나, 일부 실시양태에서, 폴리펩티드에서의 표지된 아미노산의 상대 위치는 폴리펩티드 분자에서의 표지된 아미노산의 상대 위치를 결정하기 위해, 폴리펩티드로부터 아미노산을 제거하지 않으면서, 그러나 기공 (예를 들어, 단백질 채널)을 통해 표지된 폴리펩티드를 전위시키고, 기공을 통한 전위 동안 표지된 아미노산(들)으로부터 신호 (예를 들어, FRET 신호)를 검출함으로써 결정될 수 있다.
일부 실시양태에서, 말단 아미노산 (예를 들어, N-말단 또는 C-말단 아미노산)의 동일성이 평가되고, 그 후 말단 아미노산이 제거되고, 말단에서의 다음 아미노산의 동일성이 평가되고, 이 프로세스는 폴리펩티드에서의 복수개의 연속적인 아미노산이 평가될 때까지 반복된다. 일부 실시양태에서, 아미노산의 동일성을 평가하는 것은 존재하는 아미노산의 유형을 결정하는 것을 포함한다. 일부 실시양태에서, 아미노산의 유형을 결정하는 것은 예를 들어 천연-발생 20가지 아미노산의 어느 것이 말단 아미노산인지 결정함으로써 (예를 들어, 개별적인 말단 아미노산에 대해 특이적인 결합제를 사용하여), 실제 아미노산 동일성을 결정하는 것을 포함한다. 일부 실시양태에서, 아미노산의 유형은 알라닌, 아르기닌, 아스파라긴, 아스파르트산, 시스테인, 글루타민, 글루탐산, 글리신, 히스티딘, 이소류신, 류신, 리신, 메티오닌, 페닐알라닌, 프롤린, 셀레노시스테인, 세린, 트레오닌, 트립토판, 티로신, 및 발린으로부터 선택된다.
그러나, 일부 실시양태에서 말단 아미노산 유형의 동일성을 평가하는 것은 폴리펩티드의 말단에 존재할 수 있는 잠재적인 아미노산의 하위세트를 결정하는 것을 포함할 수 있다. 일부 실시양태에서, 이는 아미노산이 1개 이상의 특이적 아미노산이 아님 (및 따라서 다른 아미노산 중 임의의 것일 수 있음)을 결정함으로써 달성될 수 있다. 일부 실시양태에서, 이는 아미노산의 특정된 하위세트의 어느 것이 (예를 들어, 크기, 전하, 소수성, 번역후 변형, 결합 특성에 기반하여) 폴리펩티드의 말단에 있을 수 있는지를 (예를 들어 2개 이상의 말단 아미노산의 특정된 하위세트에 결합하는 결합제를 사용하여) 결정함으로써 달성될 수 있다.
일부 실시양태에서, 말단 아미노산 유형의 동일성을 평가하는 것은 아미노산이 번역후 변형을 포함함을 결정하는 것을 포함한다. 번역후 변형의 비-제한적 예는 아세틸화, ADP-리보실화, 카스파제 절단, 시트룰린화, 포르밀화, N-연결된 글리코실화, O-연결된 글리코실화, 히드록실화, 메틸화, 미리스토일화, 네딜화, 니트로화, 산화, 팔미토일화, 인산화, 프레닐화, S-니트로실화, 황산화, 수모일화, 및 유비퀴틴화를 포함한다.
일부 실시양태에서, 말단 아미노산 유형의 동일성을 평가하는 것은 아미노산이 하나 이상의 생화학적 특성을 특징으로 하는 측쇄를 포함함을 결정하는 것을 포함한다. 예를 들어, 아미노산은 비극성 지방족 측쇄, 양으로 하전된 측쇄, 음으로 하전된 측쇄, 비극성 방향족 측쇄, 또는 극성 비하전된 측쇄를 포함할 수 있다. 비극성 지방족 측쇄를 포함하는 아미노산의 비-제한적 예는 알라닌, 글리신, 발린, 류신, 메티오닌, 및 이소류신을 포함한다. 양으로 하전된 측쇄를 포함하는 아미노산의 비-제한적 예는 리신, 아르기닌, 및 히스티딘을 포함한다. 음으로 하전된 측쇄를 포함하는 아미노산의 비-제한적 예는 아스파르테이트 및 글루타메이트를 포함한다. 비극성, 방향족 측쇄를 포함하는 아미노산의 비-제한적 예는 페닐알라닌, 티로신, 및 트립토판을 포함한다. 극성 비하전된 측쇄를 포함하는 아미노산의 비-제한적 예는 세린, 트레오닌, 시스테인, 프롤린, 아스파라긴, 및 글루타민을 포함한다.
일부 실시양태에서, 단백질 또는 폴리펩티드는 복수개의 보다 작은 폴리펩티드로 소화될 수 있고, 서열 정보는 이들 보다 작은 폴리펩티드 중 1종 이상으로부터 수득될 수 있다 (예를 들어, 폴리펩티드의 말단 아미노산을 순차적으로 평가하고, 그 아미노산을 제거하여 말단에서 다음 아미노산을 노출시키는 것을 포함하는 방법을 사용하여).
일부 실시양태에서, 폴리펩티드는 그의 아미노 (N) 말단으로부터 시퀀싱된다. 일부 실시양태에서, 폴리펩티드는 그의 카르복시 (C) 말단으로부터 시퀀싱된다. 일부 실시양태에서, 폴리펩티드의 제1 말단 (예를 들어, N 또는 C 말단)은 고정화되고, 다른 말단 (예를 들어, C 또는 N 말단)은 본원에 기재된 바와 같이 시퀀싱된다.
본원에 사용된 바와 같이, 폴리펩티드를 시퀀싱하는 것은 폴리펩티드에 대한 서열 정보를 결정하는 것을 지칭한다. 일부 실시양태에서, 이는 폴리펩티드의 부분 (또는 전부)에 대한 각각의 순차적인 아미노산의 동일성을 결정하는 것을 포함할 수 있다. 그러나, 일부 실시양태에서, 이는 폴리펩티드 내의 아미노산의 하위세트의 동일성을 평가하는 것 (예를 들어, 그리고 폴리펩티드에서의 각각의 아미노산의 동일성을 결정하지 않으면서 1개 이상의 아미노산 유형의 상대 위치를 결정하는 것)을 포함할 수 있다. 그러나, 일부 실시양태에서 아미노산 함량 정보는 폴리펩티드에서의 아미노산의 상이한 유형의 상대 위치를 직접적으로 결정하지 않으면서 폴리펩티드로부터 수득될 수 있다. 아미노산 함량 단독은 존재하는 폴리펩티드의 동일성을 추론하는데 사용될 수 있다 (예를 들어, 아미노산 함량을 폴리펩티드 정보의 데이터베이스와 비교하고, 어느 폴리펩티드(들)가 동일한 아미노산 함량을 갖는지를 결정함으로써).
일부 실시양태에서, 보다 긴 폴리펩티드 또는 단백질로부터 수득된 복수개의 폴리펩티드 생성물에 대한 서열 정보 (예를 들어, 효소적 및/또는 화학적 절단을 통해)는 보다 긴 폴리펩티드 또는 단백질의 서열을 재구축하거나 추론하기 위해 분석될 수 있다.
따라서, 일부 실시양태에서, 아미노산의 1개 이상의 유형은 아미노산의 1개 이상의 유형에 선택적으로 결합하는 1개 이상의 표지된 친화도 시약의 발광을 검출함으로써 확인된다. 일부 실시양태에서, 아미노산의 1개 이상의 유형은 표지된 폴리펩티드의 발광을 검출함으로써 확인된다.
본 발명자들은 본원에 기재된 폴리펩티드 시퀀싱 기법이 특히 통상적인 폴리펩티드 시퀀싱 기법과 대조적으로 신규한 폴리펩티드 시퀀싱 데이터를 생성하는 것을 포함할 수 있음을 추가로 인식하고 인지하였다. 따라서, 폴리펩티드 시퀀싱 데이터를 분석하기 위한 통상적인 기법은 본원에 기재된 폴리펩티드 시퀀싱 기법을 사용하여 생성된 데이터에 적용될 경우에 충분하지 않을 수 있다.
예를 들어, 반복적인 시약 사이클링을 포함하는 통상적인 폴리펩티드 시퀀싱 기법은 시퀀싱되는 폴리펩티드의 개별적인 아미노산과 연관된 데이터를 생성할 수 있다. 이러한 경우, 생성된 데이터를 분석하는 것은, 검출되는 데이터가 단지 1개의 아미노산에 상응하기 때문에, 단순히 어느 아미노산이 특정한 시간에 검출되고 있는지를 결정하는 것을 포함할 수 있다. 대조적으로, 본원에 기재된 폴리펩티드 시퀀싱 기법은 폴리펩티드 분자의 다중 아미노산이 검출되고 있는 동안 폴리펩티드 분해 프로세스 동안 데이터를 생성할 수 있어, 폴리펩티드의 상이한 아미노산에 상응하는 데이터의 섹션 사이에 식별하는 것이 곤란할 수 있는 데이터를 발생시킨다. 따라서, 본 발명자들은 예컨대 데이터를 각각의 아미노산 회합 사건에 상응하는 부분으로 절편화함으로써, 개별적인 아미노산에 상응하는 데이터의 섹션을 결정하는 것을 포함하는 본원에 기재된 폴리펩티드 시퀀싱 기법에 의해 생성된 이러한 데이터를 분석하기 위한 새로운 컴퓨터 기법을 개발하였다. 그러한 섹션은 그 후 그러한 개별적인 섹션 동안 검출되고 있는 아미노산을 확인하기 위해 추가로 분석될 수 있다.
또 다른 예로서, 아미노산의 각각의 유형에 대한 고유하게 확인가능한 표지를 사용하는 것을 포함하는 통상적인 시퀀싱 기법은 어떻게 개별적인 아미노산이 다른 분자와 상호작용하는지에 있어서 임의의 역학을 고려하지 않으면서 어느 표지가 특정한 시간에 검출되고 있는지를 간단히 분석하는 것을 포함할 수 있다. 대조적으로, 본원에 기재된 폴리펩티드 시퀀싱 기법은 어떻게 아미노산이 인식 분자와 상호작용하는지를 지시하는 데이터를 생성한다. 상기 논의된 바와 같이, 데이터는 아미노산 및 그들의 각각의 인식 분자 사이의 회합 사건에 상응하는 일련의 특징적인 패턴을 포함할 수 있다. 따라서, 본 발명자들은 일련의 상이한 특징적인 패턴을 분석함으로써 폴리펩티드의 아미노산 서열이 결정되는 것을 허용하는, 특징적인 패턴을 분석하여 데이터의 그 부분에 상응하는 아미노산의 유형을 결정하는 새로운 컴퓨터 기법을 개발하였다.
표지된 친화도 시약 및 사용 방법
일부 실시양태에서, 본원에서 제공된 방법은 폴리펩티드를 말단 아미노산의 하나의 유형에 선택적으로 결합하는 표지된 친화도 시약 (또한 본원에서 표지를 포함할 수 있거나 그렇지 않을 수 있는 아미노산 인식 분자로 지칭됨)과 접촉시키는 것을 포함한다. 본원에 사용된 바와 같이, 일부 실시양태에서, 말단 아미노산은 폴리펩티드의 아미노-말단 아미노산 또는 폴리펩티드의 카르복시-말단 아미노산을 지칭할 수 있다. 일부 실시양태에서, 표지된 친화도 시약은 말단 아미노산의 다른 유형에 비해 말단 아미노산의 하나의 유형에 선택적으로 결합한다. 일부 실시양태에서, 표지된 친화도 시약은 동일한 유형의 내부 아미노산에 비해 말단 아미노산의 하나의 유형에 선택적으로 결합한다. 추가의 다른 실시양태에서, 표지된 친화도 시약은 폴리펩티드의 임의의 위치에서의 아미노산의 하나의 유형, 예를 들어, 말단 아미노산 및 내부 아미노산과 동일한 유형의 아미노산에 선택적으로 결합한다.
본원에 사용된 바와 같이, 일부 실시양태에서, 아미노산의 유형은 20가지 천연 발생 아미노산 또는 그의 유형의 하위세트 중 하나를 지칭한다. 일부 실시양태에서, 아미노산의 유형은 20가지 천연 발생 아미노산 또는 그의 비변형된 및/또는 변형된 변이체의 하위세트 중 하나의 변형된 변이체를 지칭한다. 변형된 아미노산 변이체의 예는 제한 없이, 번역후-변형된 변이체 (예를 들어, 아세틸화, ADP-리보실화, 카스파제 절단, 시트룰린화, 포르밀화, N-연결된 글리코실화, O-연결된 글리코실화, 히드록실화, 메틸화, 미리스토일화, 네딜화, 니트로화, 산화, 팔미토일화, 인산화, 프레닐화, S-니트로실화, 황산화, 수모일화, 및 유비퀴틴화), 화학적으로 변형된 변이체, 비천연 아미노산, 및 단백질생성 아미노산, 예컨대 셀레노시스테인 및 피로리신을 포함한다. 일부 실시양태에서, 아미노산의 유형의 하위세트는 하나 이상의 유사한 생화학적 특성을 갖는 1종 초과 및 20종 미만의 아미노산을 포함한다. 예를 들어, 일부 실시양태에서, 아미노산의 유형은 하전된 측쇄 (예를 들어, 양으로 및/또는 음으로 하전된 측쇄)를 갖는 아미노산, 극성 측쇄 (예를 들어, 극성 비하전된 측쇄)를 갖는 아미노산, 비극성 측쇄 (예를 들어, 비극성 지방족 및/또는 방향족 측쇄)를 갖는 아미노산, 및 소수성 측쇄를 갖는 아미노산으로부터 선택되는 하나의 유형을 지칭한다.
일부 실시양태에서, 본원에서 제공된 방법은 폴리펩티드를 말단 아미노산의 1개 이상의 유형에 선택적으로 결합하는 1개 이상의 표지된 친화도 시약과 접촉시키는 것을 포함한다. 예시적인 및 비-제한적 예로서, 4개의 표지된 친화도 시약이 본 출원의 방법에 사용되는 경우, 임의의 1개의 시약은 다른 3개 중 임의의 것이 선택적으로 결합하는 아미노산의 또 다른 유형과는 상이한 말단 아미노산의 하나의 유형에 선택적으로 결합한다 (예를 들어, 제1 시약은 말단 아미노산의 제1 유형에 결합하고, 제2 시약은 제2 유형에 결합하고, 제3 시약은 제3 유형에 결합하고, 제4 시약은 제4 유형에 결합한다). 이 논의의 목적을 위해, 본원에 기재된 방법의 맥락에서 1개 이상의 표지된 친화도 시약은 대안적으로 표지된 친화도 시약의 세트로 지칭될 수 있다.
일부 실시양태에서, 표지된 친화도 시약의 세트는 적어도 1개 및 최대 6개의 표지된 친화도 시약을 포함한다. 예를 들어, 일부 실시양태에서, 표지된 친화도 시약의 세트는 1, 2, 3, 4, 5, 또는 6개의 표지된 친화도 시약을 포함한다. 일부 실시양태에서, 표지된 친화도 시약의 세트는 10개 이하의 표지된 친화도 시약을 포함한다. 일부 실시양태에서, 표지된 친화도 시약의 세트는 8개 이하의 표지된 친화도 시약을 포함한다. 일부 실시양태에서, 표지된 친화도 시약의 세트는 6개 이하의 표지된 친화도 시약을 포함한다. 일부 실시양태에서, 표지된 친화도 시약의 세트는 4개 이하의 표지된 친화도 시약을 포함한다. 일부 실시양태에서, 표지된 친화도 시약의 세트는 3개 이하의 표지된 친화도 시약을 포함한다. 일부 실시양태에서, 표지된 친화도 시약의 세트는 2개 이하의 표지된 친화도 시약을 포함한다. 일부 실시양태에서, 표지된 친화도 시약의 세트는 4개의 표지된 친화도 시약을 포함한다. 일부 실시양태에서, 표지된 친화도 시약의 세트는 적어도 2개 및 20개 이하 (예를 들어, 적어도 2개 및 최대 10개, 적어도 2개 및 최대 8개, 적어도 4개 및 최대 20개, 적어도 4개 및 최대 10개)의 표지된 친화도 시약을 포함한다. 일부 실시양태에서, 표지된 친화도 시약의 세트는 20개 초과 (예를 들어, 20 내지 25개, 20 내지 30개)의 친화도 시약을 포함한다. 그러나, 임의의 수의 친화도 시약은 요망되는 용도를 제공하기 위해 본 출원의 방법에 따라 사용될 수 있음이 인지되어야 한다.
본 출원에 따르면, 일부 실시양태에서, 아미노산의 1개 이상의 유형은 표지된 친화도 시약 (예를 들어, 발광 표지를 포함하는 아미노산 인식 분자)의 발광을 검출함으로써 확인된다. 일부 실시양태에서, 표지된 친화도 시약은 아미노산의 하나의 유형에 선택적으로 결합하는 친화도 시약 및 친화도 시약과 회합되는 발광을 갖는 발광 표지를 포함한다. 이렇게 하여, 발광 (예를 들어, 본원의 다른 곳에 기재된 발광 수명, 발광 강도, 및 다른 발광 특성)은 폴리펩티드의 아미노산을 확인하기 위해 친화도 시약의 선택적 결합과 연관될 수 있다. 일부 실시양태에서, 표지된 친화도 시약의 복수개의 유형은 본 출원에 따른 방법에 사용될 수 있고, 여기서 각각의 유형은 복수개 중에서로부터 고유하게 확인가능한 발광을 갖는 발광 표지를 포함한다. 적합한 발광 표지는 발광 분자, 예컨대 형광단 염료를 포함할 수 있으며, 본원의 다른 곳에 기재되어 있다.
일부 실시양태에서, 아미노산의 1개 이상의 유형은 표지된 친화도 시약의 하나 이상의 전기적 특징을 검출함으로써 확인된다. 일부 실시양태에서, 표지된 친화도 시약은 아미노산의 하나의 유형에 선택적으로 결합하는 친화도 시약 및 친화도 시약과 회합되는 전도율 표지를 포함한다. 이렇게 하여, 하나 이상의 전기적 특징 (예를 들어, 전하, 전류 진동 색상, 및 다른 전기적 특징)은 폴리펩티드의 아미노산을 확인하기 위해 친화도 시약의 선택적 결합과 연관될 수 있다. 일부 실시양태에서, 표지된 친화도 시약의 복수개의 유형은 본 출원에 따른 방법에 사용될 수 있고, 여기서 각각의 유형은 복수개 중에서로부터 고유하게 확인가능한 전기 신호의 변화 (예를 들어, 전도도의 변화, 예컨대 특징적인 패턴의 전도율 및 전도율 전이의 진폭의 변화)를 생성하는 전도율 표지를 포함한다. 일부 실시양태에서, 표지된 친화도 시약의 복수개의 유형은 각각 상이한 수의 하전된 기 (예를 들어, 상이한 수의 음으로 및/또는 양으로 하전된 기)를 갖는 전도율 표지를 포함한다. 따라서, 일부 실시양태에서, 전도율 표지는 전하 표지이다. 전하 표지의 예는 다중 하전된 기를 갖는 덴드리머, 나노입자, 핵산 및 다른 중합체를 포함한다. 일부 실시양태에서, 전도율 표지는 그의 순전하 (예를 들어, 순양전하 또는 순음전하)에 의해, 그의 전하 밀도에 의해, 및/또는 그의 하전된 기의 수에 의해 고유하게 확인가능하다.
일부 실시양태에서, 친화도 시약 (예를 들어, 아미노산 인식 분자)은 통상적으로 공지된 기법을 사용하여 관련 기술분야의 통상의 기술자에 의해 조작될 수 있다. 일부 실시양태에서, 요망되는 특성은 단지 그것이 폴리펩티드의 말단 (예를 들어, N-말단 또는 C-말단)에 위치하는 경우에 아미노산의 하나의 유형에 선택적으로 및 고 친화도로 결합하는 능력을 포함할 수 있다. 추가의 다른 실시양태에서, 요망되는 특성은 그것이 폴리펩티드의 말단 (예를 들어, N-말단 또는 C-말단)에 위치하는 경우에 및 그것이 폴리펩티드의 내부 위치에 위치하는 경우에 아미노산의 하나의 유형에 선택적으로 및 고 친화도로 결합하는 능력을 포함할 수 있다. 일부 실시양태에서, 요망되는 특성은 아미노산의 1개 초과의 유형에 선택적으로 및 저 친화도로 (예를 들어, 약 50 nM 이상, 예를 들어, 약 50 nM 내지 약 50 μM, 약 100 nM 내지 약 10 μM, 약 500 nM 내지 약 50 μM의 KD로) 결합하는 능력을 포함한다. 예를 들어, 일부 측면에서, 본 출원은 폴리펩티드 분해 프로세스 동안 가역적인 결합 상호작용을 검출하는 것에 의한 시퀀싱의 방법을 제공한다. 유리하게는, 이러한 방법은 아미노산의 1개 초과의 유형 (예를 들어, 아미노산 유형의 하위세트)에 저 친화도로 가역적으로 결합하는 친화도 시약을 사용하여 수행될 수 있다.
본원에 사용된 바와 같이, 일부 실시양태에서, 용어 "선택적" 및 "특이적" (및 그의 파생어, 예를 들어, 선택적으로, 특이적으로, 선택성, 특이성)은 우선적인 결합 상호작용을 지칭한다. 예를 들어, 일부 실시양태에서, 아미노산의 하나의 유형에 선택적으로 결합하는 표지된 친화도 시약은 아미노산의 또 다른 유형에 비해 하나의 유형에 우선적으로 결합한다. 선택적 결합 상호작용은 아미노산의 하나의 유형 (예를 들어, 말단 아미노산의 하나의 유형) 및 아미노산의 다른 유형 (예를 들어, 말단 아미노산의 다른 유형) 사이에, 전형적으로 약 10배 내지 100배 이상 초과 (예를 들어, 약 1,000배 또는 10,000배 초과) 식별할 것이다. 따라서, 선택적 결합 상호작용은 아미노산의 다른 유형에 비해 아미노산의 하나의 유형에 대해 고유하게 확인가능한 임의의 결합 상호작용을 지칭할 수 있음이 인지되어야 한다. 예를 들어, 일부 측면에서, 본 출원은 1개 이상의 아미노산 인식 분자와 폴리펩티드 분자의 회합을 지시하는 데이터를 수득하는 것에 의한 폴리펩티드 시퀀싱의 방법을 제공한다. 일부 실시양태에서, 데이터는 폴리펩티드 분자의 아미노산과의 일련의 가역적인 아미노산 인식 분자 결합 상호작용에 상응하는 일련의 신호 펄스를 포함하고, 데이터는 아미노산의 동일성을 결정하는데 사용될 수 있다. 따라서, 일부 실시양태에서, "선택적" 또는 "특이적" 결합 상호작용은 아미노산의 하나의 유형 및 아미노산의 다른 유형 사이에 식별하는 검출된 결합 상호작용을 지칭한다.
일부 실시양태에서, 표지된 친화도 시약 (예를 들어, 아미노산 인식 분자)은 아미노산의 다른 유형에 유의하게 결합하지 않으면서 약 10-6 M 미만 (예를 들어, 약 10-7 M 미만, 약 10-8 M 미만, 약 10-9 M 미만, 약 10-10 M 미만, 약 10-11 M 미만, 약 10-12 M 미만, 내지 10-16 M만큼 낮은) 해리 상수 (KD)로 아미노산의 하나의 유형에 선택적으로 결합한다. 일부 실시양태에서, 표지된 친화도 시약은 약 100 nM 미만, 약 50 nM 미만, 약 25 nM 미만, 약 10 nM 미만, 또는 약 1 nM 미만의 KD로 아미노산의 하나의 유형 (예를 들어, 말단 아미노산의 하나의 유형)에 선택적으로 결합한다. 일부 실시양태에서, 표지된 친화도 시약은 약 50 nM 내지 약 50 μM (예를 들어, 약 50 nM 내지 약 500 nM, 약 50 nM 내지 약 5 μM, 약 500 nM 내지 약 50 μM, 약 5 μM 내지 약 50 μM, 또는 약 10 μM 내지 약 50 μM)의 KD로 아미노산의 하나의 유형에 선택적으로 결합한다. 일부 실시양태에서, 표지된 친화도 시약은 약 50 nM의 KD로 아미노산의 하나의 유형에 선택적으로 결합한다.
일부 실시양태에서, 표지된 친화도 시약 (예를 들어, 아미노산 인식 분자)은 약 10-6 M 미만 (예를 들어, 약 10-7 M 미만, 약 10-8 M 미만, 약 10-9 M 미만, 약 10-10 M 미만, 약 10-11 M 미만, 약 10-12 M 미만, 내지 10-16 M만큼 낮은)의 해리 상수 (KD)로 아미노산의 2개 이상의 유형에 선택적으로 결합한다. 일부 실시양태에서, 표지된 친화도 시약은 약 100 nM 미만, 약 50 nM 미만, 약 25 nM 미만, 약 10 nM 미만, 또는 약 1 nM 미만의 KD로 아미노산의 2개 이상의 유형에 선택적으로 결합한다. 일부 실시양태에서, 표지된 친화도 시약은 약 50 nM 내지 약 50 μM (예를 들어, 약 50 nM 내지 약 500 nM, 약 50 nM 내지 약 5 μM, 약 500 nM 내지 약 50 μM, 약 5 μM 내지 약 50 μM, 또는 약 10 μM 내지 약 50 μM)의 KD로 아미노산의 2개 이상의 유형에 선택적으로 결합한다. 일부 실시양태에서, 표지된 친화도 시약은 약 50 nM의 KD로 아미노산의 2개 이상의 유형에 선택적으로 결합한다.
본원에서 제공된 방법 및 조성물에 따르면, 도 1c는 표지된 친화도 시약의 다양한 예시 배열 및 용도를 나타낸다. 일부 실시양태에서, 표지된 친화도 시약 (100)은 발광 표지 (110) (예를 들어, 표지) 및 폴리펩티드 (120)의 말단 아미노산의 1개 이상의 유형에 선택적으로 결합하는 친화도 시약 (반점 형상으로서 나타내어짐)을 포함한다. 일부 실시양태에서, 친화도 시약은 말단 위치에서의 또는 말단 및 내부 위치 둘 다에서의 아미노산의 하나의 유형 또는 아미노산의 유형의 하위세트 (예를 들어, 아미노산의 20종 미만의 통상적인 유형)에 대해 선택적이다.
본원에 기재된 바와 같이, 친화도 시약 (또한 "인식 분자"로 공지됨)은 또 다른 분자에 비해 하나의 분자 (예를 들어, 본원에서 지칭된 "아미노산 인식 분자"와 같이, 아미노산의 또 다른 유형에 비해 아미노산의 하나의 유형)에 선택적으로 또는 특이적으로 결합할 수 있는 임의의 생체분자일 수 있다. 일부 실시양태에서, 친화도 시약은 펩티다제가 아니거나, 펩티다제 활성을 갖지 않는다. 예를 들어, 일부 실시양태에서, 본 출원의 폴리펩티드 시퀀싱의 방법은 폴리펩티드 분자를 1개 이상의 친화도 시약 및 절단 시약과 접촉시키는 것을 포함한다. 이러한 실시양태에서, 1개 이상의 친화도 시약은 펩티다제 활성을 갖지 않고, 폴리펩티드 분자로부터의 1개 이상의 아미노산의 제거 (예를 들어, 폴리펩티드 분자의 말단으로부터의 아미노산 제거)는 절단 시약에 의해 수행된다.
친화도 시약 (예를 들어, 인식 분자)은 예를 들어, 합성 또는 재조합일 수 있는 단백질 및 핵산을 포함한다. 일부 실시양태에서, 친화도 시약 또는 인식 분자는 항체 또는 항체의 항원-결합 부분, SH2 도메인-함유 단백질 또는 그의 단편, 또는 효소적 생체분자, 예컨대 펩티다제, 아미노트랜스퍼라제, 리보자임, 압타자임, 또는 아미노아실-tRNA 신테타제를 비롯한 tRNA 신테타제 및 발명의 명칭이 "반복적인 폴리펩티드 분석 및 프로세싱을 위한 분자 및 방법"인 2016년 9월 2일에 출원된 미국 특허 출원 번호 15/255,433에 기재된 관련된 분자일 수 있다.
일부 실시양태에서, 본 출원의 친화도 시약 또는 인식 분자는 분해 경로 단백질이다. 인식 분자로서 사용하기에 적합한 분해 경로 단백질의 예는 제한 없이, N-단부 규칙 경로 단백질, 예컨대 Arg/N-단부 규칙 경로 단백질, Ac/N-단부 규칙 경로 단백질, 및 Pro/N-단부 규칙 경로 단백질을 포함한다. 일부 실시양태에서, 인식 분자는 Gid 단백질 (예를 들어, Gid4 또는 Gid10 단백질), UBR 박스 단백질 (예를 들어, UBR1, UBR2) 또는 그의 UBR 박스 도메인-함유 단백질 단편, p62 단백질 또는 그의 ZZ 도메인-함유 단편, 및 ClpS 단백질 (예를 들어, ClpS1, ClpS2)로부터 선택되는 N-단부 규칙 경로 단백질이다.
일부 실시양태에서, 본 출원의 친화도 시약 또는 인식 분자는 ClpS 단백질, 예컨대 아그로박테리움 투미파시엔스(Agrobacterium tumifaciens) ClpS1, 아그로박테리움 투미파시엔스 ClpS2, 시네코코쿠스 엘론가투스(Synechococcus elongatus) ClpS1, 시네코코쿠스 엘론가투스 ClpS2, 써모시네코코쿠스 엘론가투스(Thermosynechococcus elongatus) ClpS, 에스케리키아 콜라이(Escherichia coli) ClpS, 또는 플라스모디움 팔시파룸(Plasmodium falciparum) ClpS이다. 일부 실시양태에서, 인식 분자는 L/F 트랜스퍼라제, 예컨대 에스케리키아 콜라이 류실/페닐알라닐-tRNA-단백질 트랜스퍼라제이다. 일부 실시양태에서, 인식 분자는 D/E 류실트랜스퍼라제, 예컨대 비브리오 불니피쿠스(Vibrio vulnificus) 아스파르테이트/글루타메이트 류실트랜스퍼라제 Bpt이다. 일부 실시양태에서, 인식 분자는 UBR 단백질 또는 UBR-박스 도메인, 예컨대 인간 UBR1 및 UBR2 또는 사카로미세스 세레비지아에(Saccharomyces cerevisiae) UBR1의 UBR 단백질 또는 UBR-박스 도메인이다. 일부 실시양태에서, 인식 분자는 p62 단백질, 예컨대 에이치. 사피엔스(H. sapiens) p62 단백질 또는 라투스 노르베기쿠스(Rattus norvegicus) p62 단백질, 또는 ZZ 도메인을 최소로 포함하는 그의 말단절단 변이체이다. 일부 실시양태에서, 인식 분자는 Gid4 단백질, 예컨대 에이치. 사피엔스 GID4 또는 사카로미세스 세레비지아에 GID4이다. 일부 실시양태에서, 인식 분자는 Gid10 단백질, 예컨대 사카로미세스 세레비지아에 GID10이다. 일부 실시양태에서, 인식 분자는 N-메리스토일트랜스퍼라제, 예컨대 리슈마니아 메이저(Leishmania major) N-메리스토일트랜스퍼라제 또는 에이치. 사피엔스 N-메리스토일트랜스퍼라제 NMT1이다. 일부 실시양태에서, 인식 분자는 BIR2 단백질, 예컨대 드로소필라 멜라노가스터(Drosophila melanogaster) BIR2이다. 일부 실시양태에서, 인식 분자는 티로신 키나제 또는 티로신 키나제의 SH2 도메인, 예컨대 에이치. 사피엔스 Fyn SH2 도메인, 에이치. 사피엔스 Src 티로신 키나제 SH2 도메인, 또는 그의 변이체, 예컨대 에이치. 사피엔스 Fyn SH2 도메인 삼중 돌연변이체 초결합제이다. 일부 실시양태에서, 인식 분자는 항체 또는 항체 단편, 예컨대 포스포티로신에 대한 단일-쇄 항체 가변 단편 (scFv) 또는 본원에 기재된 또 다른 번역후 변형된 아미노산 변이체이다.
표 1은 아미노산 인식 분자의 예시 서열의 목록을 제공한다. 또한, 표 1에서 달리 특정되지 않는 한, 폴리펩티드의 말단 위치에서의 아미노산 동일성에 관하여 각각의 분자의 아미노산 결합 선호도가 나타내어진다. 이들 서열 및 본원에 기재된 다른 예는 비-제한적인 것으로 의미되며, 본 출원에 따른 인식 분자는 펩티드 인식을 담당하는 도메인 또는 서브도메인을 최소로 함유하는 임의의 동족체, 그의 변이체, 또는 그의 단편을 포함할 수 있음이 인지되어야 한다.
표 1. 아미노산 인식 단백질의 비-제한적 예.
Figure pct00001
Figure pct00002
Figure pct00003
Figure pct00004
Figure pct00005
따라서, 일부 실시양태에서, 본 출원은 표 1로부터 선택되는 아미노산 서열을 갖는 (또는 표 1로부터 선택되는 아미노산 서열과 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 80-90%, 90-95%, 95-99%, 또는 그 초과의 아미노산 서열 동일성을 갖는 아미노산 서열을 갖는) 아미노산 인식 분자를 제공한다. 일부 실시양태에서, 아미노산 인식 분자는 표 1에 열거된 아미노산 인식 분자와 25-50%, 50-60%, 60-70%, 70-80%, 80-90%, 90-95%, 또는 95-99%, 또는 그 초과의 아미노산 서열 동일성을 갖는다. 일부 실시양태에서, 아미노산 인식 분자는 변형된 아미노산 인식 분자이고, 표 1에 제시된 서열에 비해 1개 이상의 아미노산 돌연변이를 포함한다.
일부 실시양태에서, 아미노산 인식 분자는 아미노산 결합 이외의 하나 이상의 기능을 제공하는 태그 서열을 포함한다. 예를 들어, 일부 실시양태에서, 태그 서열은 인식 분자의 비오티닐화 (예를 들어, 비오틴 및 비스-비오틴 모이어티를 비롯한 1개 이상의 비오틴 분자의 혼입)를 허용하는 비오틴 리가제 인식 서열을 포함한다. 태그 서열에서의 기능적 서열의 추가적인 예는 인식 분자의 정제 및/또는 변형에 유용한 정제 태그, 절단 부위, 및 다른 모이어티를 포함한다. 표 2는 말단 태그 서열의 비-제한적 서열의 목록을 제공하며, 그 중 임의의 1개 이상은 본 출원의 아미노산 인식 분자 중 어느 하나와 조합으로 (예를 들어, 표 1에 제시된 서열과 조합으로) 사용될 수 있다. 표 2에 나타내어진 태그 서열은 비-제한적인 것으로 의미되며, 본 출원에 따른 인식 분자는 N- 및 C-말단 사이에 분할된, 또는 다르게는 관련 기술분야에서 실시되는 바와 같이 재배열된 인식 분자 폴리펩티드의 N- 또는 C-말단에 태그 서열 (예를 들어, His-태그 및/또는 비오티닐화 태그) 중 임의의 1개 이상을 포함할 수 있음이 인지되어야 한다.
표 2. 말단 태그 서열의 비-제한적 예.
Figure pct00006
일부 실시양태에서, 본 출원의 인식 분자 또는 친화도 시약은 펩티다제이다. 또한 프로테아제 또는 프로테이나제로 지칭되는 펩티다제는 펩티드 결합의 가수분해를 촉매하는 효소이다. 펩티다제는 폴리펩티드를 보다 짧은 단편으로 소화시키며, 일반적으로 각각 내부로 및 말단으로 폴리펩티드 쇄를 절단하는 엔도펩티다제 및 엑소펩티다제로 분류될 수 있다. 일부 실시양태에서, 표지된 친화도 시약 (100)은 엑소펩티다제 또는 엔도펩티다제 활성을 불활성화시키도록 변형된 펩티다제를 포함한다. 이렇게 하여, 표지된 친화도 시약 (100)은 또한 폴리펩티드로부터 아미노산을 절단하지 않으면서 선택적으로 결합한다. 추가의 다른 실시양태에서, 엑소펩티다제 또는 엔도펩티다제 활성을 불활성화시키도록 변형되지 않은 펩티다제가 사용될 수 있다. 예를 들어, 일부 실시양태에서, 표지된 친화도 시약은 표지된 엑소펩티다제 (102)를 포함한다.
본 출원의 특정 실시양태에 따르면, 단백질 시퀀싱 방법은 폴리펩티드의 말단 단부에서의 반복적인 검출 및 절단을 포함할 수 있다. 일부 실시양태에서, 표지된 엑소펩티다제 (102)는 아미노산의 검출 및 절단의 둘 다의 단계를 수행하는 단일 시약으로서 사용될 수 있다. 일반적으로 도시된 바와 같이, 일부 실시양태에서, 표지된 엑소펩티다제 (102)는 그것이 폴리펩티드로부터 각각 N-말단 또는 C-말단 아미노산에 결합하고 이를 절단하도록 아미노펩티다제 또는 카르복시펩티다제 활성을 갖는다. 특정 실시양태에서, 표지된 엑소펩티다제 (102)는 표지된 엑소펩티다제 (102)가 본원에 기재된 바와 같이 비-절단 표지된 친화도 시약 (100)으로서 사용하기 위한 선택적 결합 특성을 보유하도록 관련 기술분야의 통상의 기술자에 의해 촉매적으로 불활성화될 수 있음이 인지되어야 한다.
엑소펩티다제는 일반적으로 폴리펩티드 기질이 그의 아미노-말단에 유리 아미노 기 또는 그의 카르복시-말단에 유리 카르복실 기 중 적어도 하나를 포함할 것을 요구한다. 일부 실시양태에서, 본 출원에 따른 엑소펩티다제는 폴리펩티드의 말단에서 또는 부근에서 결합을 가수분해한다. 일부 실시양태에서, 엑소펩티다제는 폴리펩티드 말단으로부터 3개 이하의 잔기에서 결합을 가수분해한다. 예를 들어, 일부 실시양태에서, 엑소펩티다제에 의해 촉매되는 단일 가수분해 반응은 폴리펩티드 말단 단부로부터 단일 아미노산, 디펩티드, 또는 트리펩티드를 절단한다.
일부 실시양태에서, 본 출원에 따른 엑소펩티다제는 각각 아미노- 또는 카르복시-말단으로부터 단일 아미노산을 절단하는 아미노펩티다제 또는 카르복시펩티다제이다. 일부 실시양태에서, 본 출원에 따른 엑소펩티다제는 각각 아미노- 또는 카르복시-말단으로부터 디펩티드를 절단하는 디펩티딜-펩티다제 또는 펩티딜-디펩티다제이다. 추가의 다른 실시양태에서, 본 출원에 따른 엑소펩티다제는 아미노-말단으로부터 트리펩티드를 절단하는 트리펩티딜-펩티다제이다. 펩티다제 분류 및 그의 각각의 부류 및 하위부류의 활성은 널리 공지되어 있으며, 문헌에 기재되어 있다 (예를 들어, 문헌 [Gurupriya, V. S. & Roy, S. C. Proteases and Protease Inhibitors in Male Reproduction. Proteases in Physiology and Pathology 195-216 (2017)]; 및 [Brix, K. & Stoecker, W. Proteases: Structure and Function. Chapter 1] 참조). 일부 실시양태에서, 본 출원에 따른 펩티다제는 폴리펩티드 말단으로부터 3개 초과의 아미노산을 제거한다. 따라서, 일부 실시양태에서, 펩티다제는 예를 들어, 특정한 위치에서 (예를 들어, 특정한 아미노산의 앞 또는 뒤에서) 우선적으로 절단하는 엔도펩티다제이다. 일부 실시양태에서, 엔도펩티다제 활성의 폴리펩티드 절단 생성물의 크기는 분석되는 폴리펩티드 내의 절단 부위 (예를 들어, 아미노산)의 분포에 의존할 것이다.
본 출원에 따른 엑소펩티다제는 시퀀싱 반응의 방향성에 기반하여 선택되거나 조작될 수 있다. 예를 들어, 폴리펩티드의 아미노-말단으로부터 카르복시-말단으로의 시퀀싱의 실시양태에서, 엑소펩티다제는 아미노펩티다제 활성을 포함한다. 반대로, 폴리펩티드의 카르복시-말단으로부터 아미노-말단으로의 시퀀싱의 실시양태에서, 엑소펩티다제는 카르복시펩티다제 활성을 포함한다. 표지된 엑소펩티다제로서 사용되거나, 본원에 기재된 비-절단 표지된 친화도 시약으로서 사용되도록 불활성화될 수 있는 특이적 카르복시-말단 아미노산을 인식하는 카르복시펩티다제의 예는 문헌에 기재되었다 (예를 들어, 문헌 [Garcia-Guerrero, M.C., et al. (2018) PNAS 115(17)] 참조).
절단 시약 및/또는 친화도 시약 (예를 들어, 인식 분자)으로서 사용하기 위한 적합한 펩티다제는 아미노산의 1개 이상의 유형에 선택적으로 결합하는 아미노펩티다제를 포함한다. 일부 실시양태에서, 아미노펩티다제 인식 분자는 아미노펩티다제 활성을 불활성화시키도록 변형된다. 일부 실시양태에서, 아미노펩티다제 절단 시약은 그것이 폴리펩티드의 말단 단부로부터 아미노산의 대부분의 또는 모든 유형을 절단하도록 비-특이적이다. 일부 실시양태에서, 아미노펩티다제 절단 시약은 폴리펩티드의 말단 단부에서의 아미노산의 다른 유형에 비해 폴리펩티드의 말단 단부로부터 아미노산의 1개 이상의 유형을 절단하는데 있어서 보다 효율적이다. 예를 들어, 본 출원에 따른 아미노펩티다제는 알라닌, 아르기닌, 아스파라긴, 아스파르트산, 시스테인, 글루타민, 글루탐산, 글리신, 히스티딘, 이소류신, 류신, 리신, 메티오닌, 페닐알라닌, 프롤린, 셀레노시스테인, 세린, 트레오닌, 트립토판, 티로신, 및/또는 발린을 특이적으로 절단한다. 일부 실시양태에서, 아미노펩티다제는 프롤린 아미노펩티다제이다. 일부 실시양태에서, 아미노펩티다제는 프롤린 이미노펩티다제이다. 일부 실시양태에서, 아미노펩티다제는 글루타메이트/아스파르테이트-특이적 아미노펩티다제이다. 일부 실시양태에서, 아미노펩티다제는 메티오닌-특이적 아미노펩티다제이다. 일부 실시양태에서, 아미노펩티다제는 표 3에 제시된 아미노펩티다제이다. 일부 실시양태에서, 아미노펩티다제 절단 시약은 표 3에 제시된 바와 같은 펩티드 기질을 절단한다.
일부 실시양태에서, 아미노펩티다제는 비-특이적 아미노펩티다제이다. 일부 실시양태에서, 비-특이적 아미노펩티다제는 아연 메탈로프로테아제이다. 일부 실시양태에서, 비-특이적 아미노펩티다제는 표 4에 제시된 아미노펩티다제이다. 일부 실시양태에서, 비-특이적 아미노펩티다제는 표 4에 제시된 바와 같은 펩티드 기질을 절단한다.
따라서, 일부 실시양태에서, 본 출원은 표 3 또는 표 4로부터 선택되는 아미노산 서열을 갖는 (또는 표 3 또는 표 4로부터 선택되는 아미노산 서열과 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 80-90%, 90-95%, 95-99%, 또는 그 초과의 아미노산 서열 동일성을 갖는 아미노산 서열을 갖는) 아미노펩티다제 (예를 들어, 아미노펩티다제 인식 분자, 아미노펩티다제 절단 시약)를 제공한다. 일부 실시양태에서, 아미노펩티다제는 표 3 또는 표 4에 열거된 아미노펩티다제와 25-50%, 50-60%, 60-70%, 70-80%, 80-90%, 90-95%, 또는 95-99%, 또는 그 초과의 아미노산 서열 동일성을 갖는다. 일부 실시양태에서, 아미노펩티다제는 변형된 아미노펩티다제이고, 표 3 또는 표 4에 제시된 서열에 비해 1개 이상의 아미노산 돌연변이를 포함한다.
표 3. 아미노펩티다제의 비-제한적 예.
Figure pct00007
Figure pct00008
표 4. 비-특이적 아미노펩티다제의 비-제한적 예.
Figure pct00009
Figure pct00010
Figure pct00011
Figure pct00012
Figure pct00013
2개 이상의 아미노산 서열을 비교하는 목적을 위해, 제1 아미노산 서열 및 제2 아미노산 서열 사이의 "서열 동일성"의 백분율 (또한 본원에서 "아미노산 동일성"으로 지칭됨)은 [제2 아미노산 서열 중의 상응하는 위치에서의 아미노산 잔기와 동일한 제1 아미노산 서열 중의 아미노산 잔기의 수]를 [제1 아미노산 서열 중의 아미노산 잔기의 총 수]로 나누고, [100]을 곱함으로써 계산될 수 있으며, 여기서 제1 아미노산 서열에 비해 제2 아미노산 서열 중의 아미노산 잔기의 각각의 결실, 삽입, 치환 또는 부가는 단일 아미노산 잔기 (위치)에서의 차이로 간주된다. 대안적으로, 2개의 아미노산 서열 사이의 서열 동일성의 정도는 공지된 컴퓨터 알고리즘 (예를 들어, 문헌 [Smith and Waterman (1970) Adv. Appl. Math. 2:482c]의 국소 상동성 알고리즘에 의해, 문헌 [Needleman and Wunsch, J. Mol. Biol. (1970) 48:443]의 상동성 정렬 알고리즘에 의해, 문헌 [Pearson and Lipman. Proc. Natl. Acad. Sci. USA (1998) 85:2444]의 유사성에 대한 검색 방법에 의해, 또는 블라스트(Blast), 클러스탈 오메가(Clustal Omega)로서 이용가능한 알고리즘의 컴퓨터화 실행, 또는 다른 서열 정렬 알고리즘에 의해), 및 예를 들어, 표준 설정을 사용하여 계산될 수 있다. 통상적으로, 상기 개요된 계산 방법에 따른 2개의 아미노산 서열 사이의 "서열 동일성"의 백분율을 결정하는 목적을 위해, 최대 수의 아미노산 잔기를 갖는 아미노산 서열은 "제1" 아미노산 서열로서 취해질 것이고, 다른 아미노산 서열은 "제2" 아미노산 서열로서 취해질 것이다.
추가적으로, 또는 대안적으로, 2개 이상의 서열은 서열 사이의 동일성에 대해 평가될 수 있다. 2개 이상의 핵산 또는 아미노산 서열의 맥락에서 용어 "동일한" 또는 퍼센트 "동일성"은 동일한 2개 이상의 서열 또는 하위서열을 지칭한다. 2개의 서열은, 2개의 서열이 비교 창, 또는 상기 서열 비교 알고리즘 중 하나를 사용하여 측정된 바와 같이 지정된 영역에 비해 또는 수동 정렬 및 육안 검사에 의해 최대 상응성에 대해 비교되고 정렬되는 경우, 특정된 영역에 비해 또는 전체 서열에 비해 동일한 (예를 들어, 적어도 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 99.5%, 99.6%, 99.7%, 99.8%, 또는 99.9% 동일한) 아미노산 잔기 또는 뉴클레오티드의 특정된 백분율을 갖는 경우에 "실질적으로 동일하다". 임의로, 동일성은 적어도 약 25, 50, 75, 또는 100개의 아미노산의 길이인 영역에 걸쳐, 또는 100 내지 150개, 150 내지 200개, 100 내지 200개, 또는 200개 이상의 아미노산의 길이인 영역에 걸쳐 존재한다.
추가적으로, 또는 대안적으로, 2개 이상의 서열은 서열 사이의 정렬에 대해 평가될 수 있다. 2개 이상의 핵산 또는 아미노산 서열의 맥락에서 용어 "정렬" 또는 퍼센트 "정렬"은 동일한 2개 이상의 서열 또는 하위서열을 지칭한다. 2개의 서열은, 2개의 서열이 비교 창, 또는 상기 서열 비교 알고리즘 중 하나를 사용하여 측정된 바와 같이 지정된 영역에 비해 또는 수동 정렬 및 육안 검사에 의해 최대 상응성에 대해 비교되고 정렬되는 경우, 특정된 영역에 비해 또는 전체 서열에 비해 동일한 (예를 들어, 적어도 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 99.5%, 99.6%, 99.7%, 99.8% 또는 99.9% 동일한) 아미노산 잔기 또는 뉴클레오티드의 특정된 백분율을 갖는 경우에 "실질적으로 정렬된다". 임의로, 정렬은 적어도 약 25, 50, 75, 또는 100개의 아미노산의 길이인 영역에 걸쳐, 또는 100 내지 150개, 150 내지 200개, 100 내지 200개, 또는 200개 이상의 아미노산의 길이인 영역에 걸쳐 존재한다.
단백질 분자 외에도, 핵산 분자는 본 출원에 따른 친화도 시약 (예를 들어, 아미노산 인식 분자)으로서 사용하기 위한 다양한 유리한 특성을 갖는다.
핵산 압타머는 높은 친화도 및 선택성으로 요망되는 표적에 결합하도록 조작된 핵산 분자이다. 따라서, 핵산 압타머는 관련 기술분야에 공지된 선택 및/또는 풍부화 기법을 사용하여 아미노산의 요망되는 유형에 선택적으로 결합하도록 조작될 수 있다. 따라서, 일부 실시양태에서, 친화도 시약은 핵산 압타머 (예를 들어, DNA 압타머, RNA 압타머)를 포함한다. 도 1c에 나타내어진 바와 같이, 일부 실시양태에서, 표지된 친화도 시약은 말단 아미노산의 하나의 유형에 선택적으로 결합하는 표지된 압타머 (104)이다. 예를 들어, 일부 실시양태에서, 표지된 압타머 (104)는 본원에 기재된 바와 같이 폴리펩티드의 말단에서 아미노산의 하나의 유형 (예를 들어, 아미노산의 단일 유형 또는 아미노산의 유형의 하위세트)에 선택적으로 결합한다. 나타내어지지는 않았지만, 표지된 압타머 (104)는 본 출원의 방법에 따라 폴리펩티드의 임의의 위치에서 (예를 들어, 폴리펩티드의 말단 위치에서 또는 말단 및 내부 위치에서) 아미노산의 하나의 유형에 선택적으로 결합하도록 조작될 수 있음이 인지되어야 한다.
일부 실시양태에서, 표지된 친화도 시약은 결합-유도된 발광을 갖는 표지를 포함한다. 예를 들어, 일부 실시양태에서, 표지된 압타머 (106)는 공여자 표지 (112) 및 수용자 표지 (114)를 포함하며, 도 1c의 패널 (I) 및 (II)에 예시된 바와 같이 기능한다. 패널 (I)에 도시된 바와 같이, 유리 분자로서 표지된 압타머 (106)는 공여자 표지 (112) 및 수용자 표지 (114)가 표지 사이에 검출가능한 FRET를 제한하는 거리 (예를 들어, 약 10 nm 이상)에 의해 분리된 형태를 채택한다. 패널 (II)에 도시된 바와 같이, 선택적으로 결합된 분자로서 표지된 압타머 (106)는 공여자 표지 (112) 및 수용자 표지 (114)가 표지 사이에 검출가능한 FRET를 촉진시키는 거리 (예를 들어, 약 10 nm 이하) 내인 형태를 채택한다. 추가의 다른 실시양태에서, 표지된 압타머 (106)는 켄칭 모이어티를 포함하고, 분자 신호등과 유사하게 기능하며, 여기서 표지된 압타머 (106)의 발광은 유리 분자로서 내부적으로 켄칭되고, 선택적으로 결합된 분자로서 복원된다 (예를 들어, 문헌 [Hamaguchi, et al. (2001) Analytical Biochemistry 294, 126-131] 참조). 이론에 구애되기를 원하지는 않지만, 결합-유도된 발광을 위한 메커니즘의 이들 및 다른 유형은 유리하게는 배경 발광을 감소시키거나 제거하여 본원에 기재된 방법의 전체 민감도 및 정확도를 증가시킬 수 있다.
폴리펩티드의 말단 아미노산을 확인하는 방법 외에도, 본 출원은 표지된 친화도 시약을 사용하여 폴리펩티드를 시퀀싱하는 방법을 제공한다. 일부 실시양태에서, 시퀀싱의 방법은 폴리펩티드 말단을 말단 아미노산 검출 및 말단 아미노산 절단의 반복된 사이클로 처리하는 것을 포함할 수 있다. 예를 들어, 일부 실시양태에서, 본 출원은 폴리펩티드를 본원에 기재된 1개 이상의 표지된 친화도 시약과 접촉시키고, 폴리펩티드를 에드만 분해로 처리하는 것을 포함하는, 폴리펩티드의 아미노산 서열을 결정하는 방법을 제공한다.
통상적인 에드만 분해는 폴리펩티드의 말단 아미노산을 변형시키고 절단하는 반복된 사이클을 포함하고, 여기서 각각의 연속적으로 절단된 아미노산을 확인하여 폴리펩티드의 아미노산 서열을 결정한다. 통상적인 에드만 분해의 예시적인 예로서, 폴리펩티드의 N-말단 아미노산은 페닐 이소티오시아네이트 (PITC)를 사용하여 변형되어 PITC-유도체화된 N-말단 아미노산을 형성한다. 그 후, PITC-유도체화된 N-말단 아미노산은 산성 조건, 염기성 조건, 및/또는 승온을 사용하여 절단된다. 또한, PITC-유도체화된 N-말단 아미노산을 절단하는 단계는 중성 또는 중성 부근의 pH에서의 상대적으로 보다 온건한 절단 조건을 포함하는 원충 트리파노소마 크루지(Trypanosoma cruzi)로부터의 변형된 시스테인 프로테아제를 사용하여 효소적으로 달성될 수 있음이 보여졌다. 유용한 효소의 비-제한적 예는 발명의 명칭이 "반복적인 폴리펩티드 분석 및 프로세싱을 위한 분자 및 방법"인 2016년 9월 2일에 출원된 미국 특허 출원 번호 15/255,433에 기재되어 있다.
본 출원에 따른 표지된 친화도 시약을 사용한 에드만 분해에 의한 시퀀싱의 예는 도 1d에 도시된다. 일부 실시양태에서, 에드만 분해에 의한 시퀀싱은 링커 (124)를 통해 고체 지지체의 표면 (130)에 고정화된 (예를 들어, 샘플 웰의 바닥 또는 측벽 표면에 고정화된) 폴리펩티드 (122)를 제공하는 것을 포함한다. 일부 실시양태에서, 본원에 기재된 바와 같이, 폴리펩티드 (122)는 다른 말단이 말단 아미노산의 검출 및 절단에 자유롭도록 하나의 말단 (예를 들어, 아미노-말단 아미노산 또는 카르복시-말단 아미노산)에서 고정화된다. 따라서, 일부 실시양태에서, 본원에 기재된 에드만 분해 방법에 사용되는 시약은 폴리펩티드 (122)의 비-고정화된 (예를 들어, 유리) 말단에서 말단 아미노산과 우선적으로 상호작용한다. 이렇게 하여, 폴리펩티드 (122)는 검출 및 절단의 반복된 사이클에 걸쳐 고정화되어 잔류한다. 이 목적으로, 일부 실시양태에서, 링커 (124)는 예를 들어, 화학적 절단 조건 하에서 표면 (130)으로부터 폴리펩티드 (122)의 탈착을 제한하기 위해, 검출 및 절단에 사용되는 조건의 요망되는 세트에 따라 디자인될 수 있다. 폴리펩티드를 표면에 고정화하기 위한 적합한 링커 조성물 및 기법은 본원의 다른 곳에 상세하게 기재되어 있다.
본 출원에 따르면, 일부 실시양태에서, 에드만 분해에 의한 시퀀싱의 방법은 (1) 폴리펩티드 (122)를 말단 아미노산의 1개 이상의 유형에 선택적으로 결합하는 1개 이상의 표지된 친화도 시약과 접촉시키는 단계를 포함한다. 나타내어진 바와 같이, 일부 실시양태에서, 표지된 친화도 시약 (108)은 말단 아미노산에 선택적으로 결합함으로써 폴리펩티드 (122)와 상호작용한다. 일부 실시양태에서, 단계 (1)은 폴리펩티드 (122)의 말단 아미노산 (예를 들어, 유리 말단 아미노산)에 선택적으로 결합하지 않는 1개 이상의 표지된 친화도 시약 중 임의의 것을 제거하는 것을 추가로 포함한다.
일부 실시양태에서, 방법은 표지된 친화도 시약 (108)을 검출함으로써 폴리펩티드 (122)의 말단 아미노산을 확인하는 것을 추가로 포함한다. 일부 실시양태에서, 검출은 표지된 친화도 시약 (108)으로부터 발광을 검출하는 것을 포함한다. 본원에 기재된 바와 같이, 일부 실시양태에서, 발광은 표지된 친화도 시약 (108)과 고유하게 회합되고, 발광은 그에 의해 표지된 친화도 시약 (108)이 선택적으로 결합하는 아미노산의 유형과 회합된다. 따라서, 일부 실시양태에서, 아미노산의 유형은 표지된 친화도 시약 (108)의 하나 이상의 발광 특성을 결정함으로써 확인된다.
일부 실시양태에서, 에드만 분해에 의한 시퀀싱의 방법은 폴리펩티드 (122)의 말단 아미노산을 제거하는 단계 (2)를 포함한다. 일부 실시양태에서, 단계 (2)는 폴리펩티드 (122)로부터 표지된 친화도 시약 (108) (예를 들어, 말단 아미노산에 선택적으로 결합하는 1개 이상의 표지된 친화도 시약 중 임의의 것)을 제거하는 것을 포함한다. 일부 실시양태에서, 단계 (2)는 말단 아미노산을 이소티오시아네이트 (예를 들어, PITC)와 접촉시켜 이소티오시아네이트-변형된 말단 아미노산을 형성함으로써 폴리펩티드 (122)의 말단 아미노산 (예를 들어, 유리 말단 아미노산)을 변형시키는 것을 포함한다. 일부 실시양태에서, 이소티오시아네이트-변형된 말단 아미노산은 비변형된 말단 아미노산보다 절단 시약 (예를 들어, 화학적 또는 효소적 절단 시약)에 의한 제거에 더 감수성이다.
일부 실시양태에서, 단계 (2)는 폴리펩티드 (122)를 이소티오시아네이트-변형된 말단 아미노산에 특이적으로 결합하고 이를 절단하는 프로테아제 (140)와 접촉시킴으로써 말단 아미노산을 제거하는 것을 포함한다. 일부 실시양태에서, 프로테아제 (140)는 변형된 시스테인 프로테아제를 포함한다. 일부 실시양태에서, 프로테아제 (140)는 변형된 시스테인 프로테아제, 예컨대 트리파노소마 크루지로부터의 시스테인 프로테아제를 포함한다 (예를 들어, 문헌 [Borgo, et al. (2015) Protein Science 24:571-579] 참조). 추가의 다른 실시양태에서, 단계 (2)는 폴리펩티드 (122)를 이소티오시아네이트-변형된 말단 아미노산을 절단하는데 충분한 화학적 (예를 들어, 산성, 염기성) 조건으로 처리함으로써 말단 아미노산을 제거하는 것을 포함한다.
일부 실시양태에서, 에드만 분해에 의한 시퀀싱의 방법은 말단 아미노산 절단 후 폴리펩티드 (122)를 세척하는 단계 (3)을 포함한다. 일부 실시양태에서, 세척은 프로테아제 (140)를 제거하는 것을 포함한다. 일부 실시양태에서, 세척은 폴리펩티드 (122)를 중성 pH 조건으로 복원하는 것 (예를 들어, 산성 또는 염기성 조건에 의한 화학적 절단 후)을 포함한다. 일부 실시양태에서, 에드만 분해에 의한 시퀀싱의 방법은 복수개의 사이클 동안 단계 (1) 내지 (3)을 반복하는 것을 포함한다.
에드만 분해에 의한 시퀀싱의 예시 방법은 도 1e에 나타내어진다. 일부 실시양태에서, 폴리펩티드의 복합체 혼합물 (예를 들어, 단백질의 혼합물)을 함유하는 샘플은 통상적인 효소를 사용하여 대략 6 내지 40개의 아미노산의 짧은 폴리펩티드 단편으로 분해될 수 있다. 일부 실시양태에서, 본 출원의 방법에 따른 이 폴리펩티드 라이브러리의 시퀀싱은 원래 복합체 혼합물에 존재하는 폴리펩티드의 각각의 동일성 및 풍부도를 밝힐 것이다. 본원에 및 문헌에 기재된 바와 같이, 6 내지 40개의 아미노산의 크기 범위의 대부분의 폴리펩티드는 폴리펩티드 쇄 내의 단지 4개의 아미노산의 수 및 위치를 결정함으로서 고유하게 확인될 수 있다.
따라서, 일부 실시양태에서, 에드만 분해에 의한 시퀀싱의 방법은 4가지 DNA 압타머 유형을 포함하는 표지된 압타머 (150)의 세트를 사용하여 수행될 수 있으며, 각각의 유형은 상이한 N-말단 아미노산을 인식한다. 각각의 압타머 유형은, 상이한 압타머 유형이 하나 이상의 발광 특성에 기반하여 구별될 수 있도록, 상이한 발광 표지로 표지될 수 있다. 예시적인 목적을 위해, 표지된 압타머 (150)의 예시 세트는 제1 발광 표지 ("염료 1")로 표지된 시스테인-특이적 압타머; 제2 발광 표지 ("염료 2")로 표지된 리신-특이적 압타머; 제3 발광 표지 ("염료 3")로 표지된 트립토판-특이적 압타머; 및 제4 발광 표지 ("염료 4")로 표지된 글루타메이트-특이적 압타머를 포함한다.
일부 실시양태에서, 본 출원에 따른 에드만 분해에 의한 시퀀싱의 방법은 도 1e에 나타내어진 프로세스 (152)에 따라 진행된다. 일부 실시양태에서, 단계 (1) 전에, 폴리펩티드 라이브러리로부터의 단일 폴리펩티드 분자는 고체 지지체의 표면에, 예를 들어, 샘플 웰의 어레이의 샘플 웰의 바닥 또는 측벽 표면에서 고정화된다. 일부 실시양태에서, 본원의 다른 곳에 기재된 바와 같이, 표면 고정화를 가능하게 하거나 (예를 들어, 비오틴), 용해도를 개선시키는 (예를 들어, 올리고뉴클레오티드) 모이어티는 폴리펩티드의 C-말단에 화학적으로 또는 효소적으로 부착될 수 있다. 각각의 폴리펩티드의 서열을 결정하기 위해, 일부 실시양태에서, 고정화된 폴리펩티드는 프로세스 (152)에 의해 예시된 바와 같이, N-말단 아미노산 검출 및 N-말단 아미노산 절단의 반복된 사이클로 처리된다. 일부 실시양태에서, 프로세스 (152)는 자동화된 유체 시스템을 사용하여 검출 표면 위의 플로우셀 내로의 주사에 의해 수행되는 시약 첨가 및 세척 단계를 포함한다. 일부 실시양태에서, 단계 (1) 내지 (4)는 표지된 압타머 (150)를 사용한 검출 및 절단의 하나의 사이클을 예시한다.
일부 실시양태에서, 프로세스 (152)에 따른 에드만 분해에 의한 시퀀싱의 방법은 4개의 직교로 표지된 DNA 압타머의 혼합물에서 유동시키고, 압터머가 N-말단에 4개의 정확한 아미노산 중 하나를 함유하는 임의의 고정화된 폴리펩티드 (예를 들어, 어레이의 샘플 웰 내에 고정화된 폴리펩티드)에 결합하는 것을 허용하도록 인큐베이션하는 단계 (1)을 포함한다. 일부 실시양태에서, 방법은 고정화된 폴리펩티드를 세척하여 비결합된 압타머를 제거하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 고정화된 폴리펩티드를 영상화하는 것 ("영상화 단계 1")을 추가로 포함한다. 일부 실시양태에서, 획득된 영상은 압타머-결합된 폴리펩티드의 위치 (예를 들어, 샘플 웰의 어레이 내의 위치) 및 4개의 압타머 중 어느 것이 각각의 위치에 결합되는지를 결정하는데 충분한 정보를 함유한다. 일부 실시양태에서, 방법은 고정화된 폴리펩티드를 적절한 버퍼를 사용하여 세척하여 고정화된 폴리펩티드로부터 압타머를 제거하는 것을 추가로 포함한다.
일부 실시양태에서, 프로세스 (152)에 따른 시퀀싱의 방법은 N-말단 아민 기를 특이적으로 변형시키는 반응성 분자 (예를 들어, 나타내어진 바와 같은 PITC)를 함유하는 용액에서 유동시키는 단계 (2)를 포함한다. 이소티오시아네이트 분자, 예컨대 PITC는 일부 실시양태에서, N-말단 아미노산을 변형된 프로테아제, 예컨대 트리파노소마 크루지로부터의 시스테인 프로테아제 크루자인에 의해 절단을 위한 기질로 변형시킨다.
일부 실시양태에서, 프로세스 (152)에 따른 시퀀싱의 방법은 고정화된 폴리펩티드를 세척한 후, 고정화된 폴리펩티드로부터 변형된 N-말단 아미노산을 인식하고 절단하는 적합한 변형된 프로테아제에서 유동시키는 단계 (3)을 포함한다. 일부 실시양태에서, 방법은 효소적 절단 후에 고정화된 폴리펩티드를 세척하는 단계 (4)를 포함한다. 일부 실시양태에서, 단계 (1) 내지 (4)는 에드만 분해의 하나의 사이클을 도시한다. 따라서, 나타내어진 바와 같은 단계 (1')는 단계 (1) 내지 (4)에 대해 상기 기재된 바와 같이 수행되는 단계 (1') 내지 (4')로서 진행되는 다음 반응 사이클의 시작이다. 일부 실시양태에서, 단계 (1) 내지 (4)는 대략 20-40 사이클 동안 반복된다.
일부 실시양태에서, 표지된 이소티오시아네이트 (예를 들어, 염료-표지된 PITC)는 샘플 로딩을 모니터링하는데 사용될 수 있다. 예를 들어, 일부 실시양태에서, 폴리펩티드 샘플을 프로세스 (152)에 나타내어진 바와 같은 시퀀싱의 방법으로 처리하기 전에, 폴리펩티드 샘플은 염료-표지된 PITC를 사용한 말단 단부의 변형에 의해 말단 단부에서 발광 표지로 사전-접합된다. 이렇게 하여, 샘플 웰의 어레이 내로의 폴리펩티드 샘플의 로딩은 프로세스 (152)을 개시하기 전에 표지로부터 발광을 검출함으로써 모니터링될 수 있다. 일부 실시양태에서, 발광은 어레이 중 샘플 웰의 단일 점유도 (예를 들어, 단일 폴리펩티드 분자을 함유하는 샘플 웰의 분율)를 결정하는데 사용되며, 이는 유리하게는 주어진 샘플에 대해 신뢰성 있게 수득되는 정보의 양을 증가시킬 수 있다. 요망되는 샘플 로딩 상태가 발광에 의해 결정되면, 프로세스 (152)는 단계 (1)로 진행하기 전에, 기재된 바와 같이 화학적 또는 효소적 절단에 의해 개시될 수 있다.
일부 실시양태에서, 표지된 이소티오시아네이트 (예를 들어, 염료-표지된 PITC)는 어레이 중의 폴리펩티드 샘플에 대한 반응 진행을 모니터링하는데 사용될 수 있다. 예를 들어, 일부 실시양태에서, 단계 (2)는 샘플 중의 폴리펩티드의 N-말단 아민 기를 특이적으로 변형시키고 표지하는 염료-표지된 PITC를 함유하는 용액에서 유동시키는 것을 포함한다. 일부 실시양태에서, 표지로부터의 발광을 단계 (2) 동안 또는 후에 검출하여 샘플 중의 폴리펩티드의 N-말단 PITC 변형을 평가할 수 있다. 따라서, 일부 실시양태에서, 발광은 단계 (2)로부터 단계 (3)으로 진행하는지 여부 또는 시기를 결정하는데 사용된다. 일부 실시양태에서, 표지로부터의 발광을 단계 (3) 동안 또는 후에 검출하여 샘플 중의 폴리펩티드의 N-말단 아미노산 절단을 평가할 - 예를 들어, 단계 (3)으로부터 단계 (4)로 진행하는지 여부 또는 시기를 결정할 수 있다.
프로세스 (152)에 따른 시퀀싱의 방법은 폴리펩티드의 말단 아미노산을 검출하고 절단하기 위한 별개의 시약을 이용한다. 그럼에도 불구하고, 일부 측면에서, 본 출원은 펩티다제를 포함하는 단일 시약이 폴리펩티드의 말단 아미노산을 검출하고 절단하는데 사용될 수 있는 시퀀싱의 방법을 제공한다. 도 2는 표지된 엑소펩티다제 (200)의 세트를 사용한 폴리펩티드 시퀀싱의 예를 나타내고, 여기서 각각의 표지된 엑소펩티다제는 말단 아미노산의 상이한 유형에 선택적으로 결합하고 이를 절단한다.
도 2의 예에 일반적으로 예시된 바와 같이, 표지된 엑소펩티다제 (200)는 제1 발광 표지를 포함하는 리신-특이적 엑소펩티다제, 제2 발광 표지를 포함하는 글리신-특이적 엑소펩티다제, 제3 발광 표지를 포함하는 아스파르테이트-특이적 엑소펩티다제, 및 제4 발광 표지를 포함하는 류신-특이적 엑소펩티다제를 포함한다. 본원에 기재된 특정 실시양태에 따르면, 표지된 엑소펩티다제 (200)의 각각은 단지 그 아미노산이 폴리펩티드의 아미노- 또는 카르복시-말단에 있는 경우에만 그의 각각의 아미노산에 선택적으로 결합하고 이를 절단한다. 따라서, 이 접근법에 의한 시퀀싱은 펩티드의 하나의 말단으로부터 다른 것을 향해 진행하기 때문에, 표지된 엑소펩티다제 (200)는 세트의 모든 시약이 아미노펩티다제 또는 카르복시펩티다제 활성 중 어느 하나를 가질 것이도록 조작되거나 선택된다.
도 2에 추가로 나타내어진 바와 같이, 프로세스 (202)는 표지된 엑소펩티다제 (200)를 사용한 실시간 시퀀싱 반응을 개략적으로 예시한다. 패널 (I) 내지 (IX)는 하기 나타내어진, 및 각각의 패널에 도시된 사건에 상응하는 신호 출력에 관한 폴리펩티드의 말단 단부에서의 반복적인 검출 및 절단을 포함하는 사건의 진행을 예시한다. 예시적인 목적을 위해, "KLDG..."의 임의적으로 선택된 아미노산 서열 (하나의 말단으로부터 다른 것을 향해 진행함)을 갖는 폴리펩티드가 나타내어진다.
패널 (I)은 시퀀싱 반응의 시작을 도시하고, 여기서 폴리펩티드는 고체 지지체의 표면, 예컨대 샘플 웰의 바닥 또는 측벽 표면에 고정화된다. 일부 실시양태에서, 본 출원에 따른 시퀀싱 방법은 실시간으로의 단일 분자 시퀀싱을 포함한다. 일부 실시양태에서, 복수개의 단일 분자 시퀀싱 반응은 샘플 웰의 어레이에서 동시에 수행된다. 이러한 실시양태에서, 폴리펩티드 고정화는 단일 분자 분석을 위해 폴리펩티드를 샘플 웰 내에 고정시킴으로써 샘플 웰 외부로의 폴리펩티드의 확산을 방지한다.
패널 (II)는 검출 사건을 도시하고, 여기서 표지된 친화도 시약 (200)의 세트로부터의 리신-특이적 엑소펩티다제는 폴리펩티드의 말단 리신 잔기에 선택적으로 결합한다. 패널 (I) 및 (II) 아래의 신호 트레이스에 나타내어진 바와 같이, 신호 출력은 리신-특이적 엑소펩티다제의 발광 표지를 확인하며, 그에 의해 말단 아미노산을 확인하는데 사용될 수 있는 신호 강도의 증가를 표시함으로써 이 결합 사건에 대해 보고한다. 패널 (III)은 말단 아미노산에 선택적으로 결합한 후, 표지된 펩티다제가 말단 아미노산을 절단하는 것을 예시한다. 그 결과, 이들 성분은 패널 (III) 아래의 트레이스에 나타내어진 바와 같이, 신호 강도의 강하에 의해 신호 출력에서 보고되는 발광 검출에 대한 관찰 영역으로부터 확산되는데 자유롭다. 패널 (IV) 내지 (IX)는 패널 (I) 내지 (III)에 대해 기재된 바와 같은 프로세스와 유사하게 진행된다. 즉, 표지된 엑소펩티다제는 상응하는 말단 아미노산에 결합하고 이를 절단하여 신호 출력에서 각각 상응하는 증가 및 감소를 생성한다.
일부 측면에서, 본 출원은 말단 아미노산과 표지된 아미노산 인식 분자 (예를 들어, 표지된 친화도 시약) 및 표지된 절단 시약 (예를 들어, 표지된 비-특이적 엑소펩티다제)의 결합 상호작용을 평가하는 것에 의한 실시간으로의 폴리펩티드 시퀀싱의 방법을 제공한다. 도 3a는 별개의 결합 사건이 신호 출력 (300)의 신호 펄스를 발생시키는 시퀀싱의 방법의 예를 나타낸다. 도 3a의 삽도 패널은 이 접근법에 의한 실시간 시퀀싱의 일반적 스킴을 예시한다. 나타내어진 바와 같이, 표지된 친화도 시약 (310)은 말단 아미노산을 확인하는데 사용될 수 있는 신호 출력 (300)에서 일련의 펄스를 발생시키는 말단 아미노산 (여기서 리신으로 나타내어짐)과 선택적으로 회합하고 (예를 들어, 그에 결합하고), 그로부터 해리된다. 일부 실시양태에서, 일련의 펄스는 상응하는 말단 아미노산의 동일성의 진단제일 수 있는 펄싱 패턴 (예를 들어, 특징적인 패턴)을 제공한다.
이론에 구애되기를 원하지는 않지만, 표지된 친화도 시약 (310)은 결합의 회합 속도, 또는 "온" 레이트 (kon) 및 결합의 해리 속도, 또는 "오프" 레이트 (koff)에 의해 정의되는 결합 친화도 (KD)에 따라 선택적으로 결합한다. 속도 상수 koff 및 kon은 각각 펄스 지속기간 (예를 들어, 검출가능한 결합 사건에 상응하는 시간) 및 펄스간 지속기간 (예를 들어, 검출가능한 결합 사건 사이의 시간)의 중요한 결정자이다. 일부 실시양태에서, 이들 속도는 가장 양호한 시퀀싱 정확도를 제공하는 펄스 지속기간 및 펄스 속도 (예를 들어, 신호 펄스의 빈도)를 달성하도록 조작될 수 있다.
삽도 패널에 나타내어진 바와 같이, 시퀀싱 반응 혼합물은 표지된 친화도 시약 (310)의 그것과는 상이한 발광 표지를 포함하는 표지된 비-특이적 엑소펩티다제 (320)를 추가로 포함한다. 일부 실시양태에서, 표지된 비-특이적 엑소펩티다제 (320)는 표지된 친화도 시약 (310)의 그것 미만인 농도로 혼합물에 존재한다. 일부 실시양태에서, 표지된 비-특이적 엑소펩티다제 (320)는 그것이 말단 아미노산의 대부분 또는 모든 유형을 절단하도록 폭넓은 특이성을 나타낸다. 따라서, 동적 시퀀싱 접근법은 엑소펩티다제 절단 활성에 의해 촉매되는 분해 반응의 과정에 걸쳐 폴리펩티드의 말단에서 친화도 시약 결합을 모니터링하는 것을 포함할 수 있다.
신호 출력 (300)의 진행에 의해 예시된 바와 같이, 일부 실시양태에서, 표지된 비-특이적 엑소펩티다제 (320)에 의한 말단 아미노산 절단은 신호 펄스를 발생시키고, 이들 사건은 표지된 친화도 시약 (310)의 결합 펄스보다 더 낮은 빈도로 일어난다. 이렇게 하여, 폴리펩티드의 아미노산은 실시간 시퀀싱 프로세스에서 카운팅되고/거나 확인될 수 있다. 신호 출력 (300)에서 추가로 예시된 바와 같이, 일부 실시양태에서, 각각 상응하는 말단 아미노산을 확인하는데 사용될 수 있는 진단 펄싱 패턴 (예를 들어, 특징적인 패턴)을 갖는 복수개의 표지된 친화도 시약이 사용될 수 있다. 예를 들어, 일부 실시양태에서, 상이한 특징적인 패턴 (신호 출력 (300)에서 리신, 페닐알라닌, 및 글루타민의 각각에 의해 예시된 바와 같이)은 1개 초과의 표지된 친화도 시약과 말단 아미노산의 상이한 유형의 회합에 상응한다. 본원에 기재된 바와 같이, 아미노산의 1개 초과의 유형과 회합하는 단일 친화도 시약이 본 출원에 따라 사용될 수 있음이 인지되어야 한다. 따라서, 일부 실시양태에서, 상이한 특징적인 패턴은 하나의 표지된 친화도 시약과 말단 아미노산의 상이한 유형의 회합에 상응한다.
본원에 기재된 바와 같이, 신호 펄스 정보는 일련의 신호 펄스에서의 특징적인 패턴에 기반하여 아미노산을 확인하는데 사용될 수 있다. 일부 실시양태에서, 특징적인 패턴은 복수개의 신호 펄스를 포함하며, 각각의 신호 펄스는 펄스 지속기간을 포함한다. 일부 실시양태에서, 복수개의 신호 펄스는 특징적인 패턴에서의 펄스 지속기간의 분포의 요약 통계 (예를 들어, 평균, 중위값, 시간 분해 상수)를 특징으로 할 수 있다. 일부 실시양태에서, 특징적인 패턴의 평균 펄스 지속기간은 약 1 밀리초 내지 약 10 초 (예를 들어, 약 1 ms 내지 약 1 s, 약 1 ms 내지 약 100 ms, 약 1 ms 내지 약 10 ms, 약 10 ms 내지 약 10 s, 약 100 ms 내지 약 10 s, 약 1 s 내지 약 10 s, 약 10 ms 내지 약 100 ms, 또는 약 100 ms 내지 약 500 ms)이다. 일부 실시양태에서, 단일 폴리펩티드 중의 아미노산의 상이한 유형에 상응하는 상이한 특징적인 패턴은 요약 통계에서의 통계적으로 유의한 차이에 기반하여 서로로부터 구별될 수 있다. 예를 들어, 일부 실시양태에서, 하나의 특징적인 패턴은 적어도 10 밀리초 (예를 들어, 약 10 ms 내지 약 10 s, 약 10 ms 내지 약 1 s, 약 10 ms 내지 약 100 ms, 약 100 ms 내지 약 10 s, 약 1 s 내지 약 10 s, 또는 약 100 ms 내지 약 1 s)의 평균 펄스 지속기간의 차이에 기반하여 또 다른 특징적인 패턴으로부터 구별가능할 수 있다. 일부 실시양태에서, 상이한 특징적인 패턴 사이의 평균 펄스 지속기간의 보다 작은 차이는 통계적 신뢰도를 갖고 하나를 또 다른 것으로부터 구별하는 각각의 특징적인 패턴 내의 보다 큰 수의 펄스 지속기간을 요구할 수 있음이 인지되어야 한다.
상기 상세화된 바와 같이, 도 3a에 의해 예시된 바와 같은 실시간 시퀀싱 프로세스는 일반적으로 말단 아미노산 인식 및 말단 아미노산 절단의 사이클을 포함할 수 있고, 여기서 인식 및 절단의 상대적 발생은 표지된 친화도 시약 (310) 및 표지된 비-특이적 엑소펩티다제 (320) 사이의 농도 격차에 의해 제어될 수 있다. 일부 실시양태에서, 농도 격차는 개별적인 아미노산의 인식 동안 검출되는 신호 펄스의 수가 확인을 위한 요망되는 신뢰 구간을 제공하도록 최적화될 수 있다. 예를 들어, 초기 시퀀싱 반응이 요망되는 신뢰 구간을 갖는 특징적인 패턴의 결정을 허용하기에는 너무 적은 절단 사건 사이의 신호 펄스를 갖는 신호 데이터를 제공하는 경우, 시퀀싱 반응은 친화도 시약에 비해 비-특이적 엑소펩티다제의 감소된 농도를 사용하여 반복될 수 있다.
일부 실시양태에서, 본 출원에 따른 폴리펩티드 시퀀싱은 폴리펩티드를 1개 이상의 아미노산 인식 분자 (예를 들어, 친화도 시약) 및/또는 1개 이상의 절단 시약 (예를 들어, 엑소펩티다제)를 포함하는 시퀀싱 반응 혼합물과 접촉시킴으로써 수행될 수 있다. 일부 실시양태에서, 시퀀싱 반응 혼합물은 약 10 nM 내지 약 10 μM의 농도로 아미노산 인식 분자를 포함한다. 일부 실시양태에서, 시퀀싱 반응 혼합물은 약 500 nM 내지 약 500 μM의 농도로 절단 시약을 포함한다.
일부 실시양태에서, 시퀀싱 반응 혼합물은 약 100 nM 내지 약 10 μM, 약 250 nM 내지 약 10 μM, 약 100 nM 내지 약 1 μM, 약 250 nM 내지 약 1 μM, 약 250 nM 내지 약 750 nM, 또는 약 500 nM 내지 약 1 μM의 농도로 아미노산 인식 분자를 포함한다. 일부 실시양태에서, 시퀀싱 반응 혼합물은 약 100 nM, 약 250 nM, 약 500 nM, 약 750 nM, 또는 약 1 μM의 농도로 아미노산 인식 분자를 포함한다.
일부 실시양태에서, 시퀀싱 반응 혼합물은 약 500 nM 내지 약 250 μM, 약 500 nM 내지 약 100 μM, 약 1 μM 내지 약 100 μM, 약 500 nM 내지 약 50 μM, 약 1 μM 내지 약 100 μM, 약 10 μM 내지 약 200 μM, 또는 약 10 μM 내지 약 100 μM의 농도로 절단 시약을 포함한다. 일부 실시양태에서, 시퀀싱 반응 혼합물은 약 1 μM, 약 5 μM, 약 10 μM, 약 30 μM, 약 50 μM, 약 70 μM, 또는 약 약 100 μM의 농도로 절단 시약을 포함한다.
일부 실시양태에서, 시퀀싱 반응 혼합물은 약 10 nM 내지 약 10 μM의 농도로 아미노산 인식 분자, 및 약 500 nM 내지 약 500 μM의 농도로 절단 시약을 포함한다. 일부 실시양태에서, 시퀀싱 반응 혼합물은 약 100 nM 내지 약 1 μM의 농도로 아미노산 인식 분자, 및 약 1 μM 내지 약 100 μM의 농도로 절단 시약을 포함한다. 일부 실시양태에서, 시퀀싱 반응 혼합물은 약 250 nM 내지 약 1 μM의 농도로 아미노산 인식 분자, 및 약 10 μM 내지 약 100 μM의 농도로 절단 시약을 포함한다. 일부 실시양태에서, 시퀀싱 반응 혼합물은 약 500 nM의 농도로 아미노산 인식 분자, 및 약 25 μM 내지 약 75 μM의 농도로 절단 시약을 포함한다.
일부 실시양태에서, 시퀀싱 반응 혼합물은 약 500:1, 약 400:1, 약 300:1, 약 200:1, 약 100:1, 약 75:1, 약 50:1, 약 25:1, 약 10:1, 약 5:1, 약 2:1, 또는 약 1:1의 비로 아미노산 인식 분자 및 절단 시약을 포함한다. 일부 실시양태에서, 시퀀싱 반응 혼합물은 약 10:1 내지 약 200:1의 비로 아미노산 인식 분자 및 절단 시약을 포함한다. 일부 실시양태에서, 시퀀싱 반응 혼합물은 약 50:1 내지 약 150:1의 비로 아미노산 인식 분자 및 절단 시약을 포함한다.
도 3a에 의해 예시된 예는 표지된 절단 시약을 사용한 시퀀싱 프로세스에 관한 것이지만, 시퀀싱 프로세스는 이 점에 제한되는 것으로 의도되지 않는다. 본원의 다른 곳에 기재된 바와 같이, 본 발명자들은 비표지된 절단 시약을 사용한 단일-분자 시퀀싱을 입증하였다. 일부 실시양태에서, 절단 시약이 연속적인 말단 아미노산을 제거하는 대략적 빈도는 예를 들어, 사용되는 효소의 공지된 활성 및/또는 농도에 기반하여 공지되어 있다. 일부 실시양태에서, 시약에 의한 말단 아미노산 절단은 예를 들어, 아미노산 인식을 위해 검출되는 신호 또는 검출되는 신호의 결여에 기반하여 추론된다. 본 발명자들은 기재된 바와 같은 농도 격차 접근법과 조합으로, 또는 그에 대해 대안적으로 사용될 수 있는 실시간 시퀀싱 반응을 제어하기 위한 추가의 기법을 인식하였다.
온도-의존성 실시간 시퀀싱 프로세스의 예는 도 3b에 나타내어진다. 패널 (I) 내지 (III)은 온도-의존성 말단 아미노산 인식 및 말단 아미노산 절단의 사이클을 포함하는 시퀀싱 반응을 예시한다. 시퀀싱 반응의 각각의 사이클은 2가지 온도 범위에 걸쳐 수행된다: 엑소펩티다제 활성에 비해 친화도 시약 활성에 대해 최적인 (예를 들어, 말단 아미노산 인식을 촉진시키기 위한) 제1 온도 범위 ("T1"), 및 친화도 시약 활성에 비해 엑소펩티다제 활성에 대해 최적인 (예를 들어, 말단 아미노산 절단을 촉진시키기 위한) 제2 온도 범위 ("T2"). 시퀀싱 반응은 제1 온도 범위 T1 (아미노산 인식을 개시하기 위한) 및 제2 온도 범위 T2 (아미노산 절단을 개시하기 위한) 사이에 반응 혼합물 온도를 교대시킴으로써 진행된다. 따라서, 온도-의존성 시퀀싱 프로세스의 진행은 온도에 의해 제어가능하고, 상이한 온도 범위 사이에 (예를 들어, T1 및 T2 사이에) 교대시키는 것은 수동 또는 자동화된 프로세스를 통해 수행될 수 있다. 일부 실시양태에서, 제2 온도 범위 T2에 비해 제1 온도 범위 T1 내의 친화도 시약 활성 (예를 들어, 아미노산에 대한 결합 친화도 (KD))은 적어도 10배, 적어도 100배, 적어도 1,000배, 적어도 10,000배, 적어도 100,000배, 또는 그 초과 증가된다. 일부 실시양태에서, 제1 온도 범위 T1에 비해 제2 온도 범위 T2 내의 엑소펩티다제 활성 (예를 들어, 절단 생성물로의 기질 전환의 속도)은 적어도 2배, 10배, 적어도 25배, 적어도 50배, 적어도 100배, 적어도 1,000배, 또는 그 초과 증가된다.
일부 실시양태에서, 제1 온도 범위 T1은 제2 온도 범위 T2보다 더 낮다. 일부 실시양태에서, 제1 온도 범위 T1은 약 15℃ 내지 약 40℃ (예를 들어, 약 25℃ 내지 약 35℃, 약 15℃ 내지 약 30℃, 약 20℃ 내지 약 30℃)이다. 일부 실시양태에서, 제2 온도 범위 T2는 약 40℃ 내지 약 100℃ (예를 들어, 약 50℃ 내지 약 90℃, 약 60℃ 내지 약 90℃, 약 70℃ 내지 약 90℃)이다. 일부 실시양태에서, 제1 온도 범위 T1은 약 20℃ 내지 약 40℃ (예를 들어, 대략 30℃)이고, 제2 온도 범위 T2는 약 60℃ 내지 약 100℃ (예를 들어, 대략 80℃)이다.
일부 실시양태에서, 제1 온도 범위 T1은 제2 온도 범위 T2보다 더 높다. 일부 실시양태에서, 제1 온도 범위 T1은 약 40℃ 내지 약 100℃ (예를 들어, 약 50℃ 내지 약 90℃, 약 60℃ 내지 약 90℃, 약 70℃ 내지 약 90℃)이다. 일부 실시양태에서, 제2 온도 범위 T2는 약 15℃ 내지 약 40℃ (예를 들어, 약 25℃ 내지 약 35℃, 약 15℃ 내지 약 30℃, 약 20℃ 내지 약 30℃)이다. 일부 실시양태에서, 제1 온도 범위 T1은 약 60℃ 내지 약 100℃ (예를 들어, 대략 80℃)이고, 제2 온도 범위 T2는 약 20℃ 내지 약 40℃ (예를 들어, 대략 30℃)이다.
패널 (I)은 엑소펩티다제 활성에 비해 친화도 시약 활성에 대해 최적인 제1 온도 범위 T1 내인 온도에서의 시퀀싱 반응 혼합물을 도시한다. 예시적인 목적을 위해, 아미노산 서열 "KFVAG..."의 폴리펩티드가 나타내어진다. 반응 혼합물 온도가 제1 온도 범위 T1 내인 경우, 혼합물 중의 표지된 친화도 시약은 폴리펩티드 말단과 회합함으로써 아미노산 인식을 개시하도록 활성화된다 (예를 들어, 재생된다). 또한 제1 온도 범위 T1 내에서, 혼합물 중의 표지된 엑소펩티다제는 인식 동안 아미노산 절단을 방지하도록 불활성화된다 (예를 들어, 변성된다). 패널 (I)에서, 제1 친화도 시약은 폴리펩티드 말단에서 리신과 가역적으로 회합하는 것으로 나타내어진 반면, 표지된 엑소펩티다제 (예를 들어, Pfu 아미노펩티다제 I (Pfu API))는 변성된 것으로 나타내어진다. 일부 실시양태에서, 아미노산 인식은 아미노산의 절단을 개시하기 전의 시간의 미리 결정된 지속기간 동안 일어난다. 일부 실시양태에서, 아미노산 인식은 아미노산의 절단을 개시하기 전에 확인을 위해 요망되는 신뢰 구간에 도달할 것이 요구되는 시간의 지속기간 동안 일어난다. 아미노산 인식 후, 반응은 혼합물의 온도를 제2 온도 범위 T2 내로 변화시킴으로써 진행된다.
패널 (II)는 친화도 시약 활성에 비해 엑소펩티다제 활성에 대해 최적인 제2 온도 범위 T2 내인 온도에서의 시퀀싱 반응 혼합물을 도시한다. 이 예의 예시적인 목적을 위해, 제2 온도 범위 T2는 제1 온도 범위 T1보다 더 높지만, 시약 활성은 임의의 요망되는 온도 범위에 대해 최적일 수 있음이 인지되어야 한다. 따라서, 패널 (I)로부터 패널 (II)로의 진행은 적합한 열의 공급원을 사용하여 반응 혼합물 온도를 상승시킴으로써 수행된다. 반응 혼합물이 제2 온도 범위 T2 내인 온도에 도달할 경우, 혼합물 중의 표지된 엑소펩티다제는 엑소펩티다제 활성에 의해 말단 아미노산 절단을 개시하도록 활성화된다 (예를 들어, 재생된다). 또한 제2 온도 범위 T2 내에서, 혼합물 중의 표지된 친화도 시약은 절단 동안 아미노산 인식을 방지하도록 불활성화된다 (예를 들어, 변성된다). 패널 (II)에서, 표지된 엑소펩티다제는 말단 리신 잔기를 절단하는 것으로 나타내어진 반면, 표지된 친화도 시약은 변성된다. 일부 실시양태에서, 아미노산 절단은 폴리펩티드 말단에서 연속적인 아미노산의 인식을 개시하기 전의 시간의 미리 결정된 지속기간 동안 일어난다. 일부 실시양태에서, 아미노산 절단은 연속적인 아미노산의 인식을 개시하기 전에 절단을 검출하는데 요구되는 시간의 지속기간 동안 일어난다. 아미노산 절단 후, 반응은 혼합물의 온도를 제1 온도 범위 T1 내로 변화시킴으로써 진행된다.
패널 (III)은 시퀀싱 반응에서의 다음 사이클의 시작을 도시하고, 여기서 반응 혼합물 온도는 제1 온도 범위 T1 내로 다시 감소되었다. 따라서, 이 예에서, 패널 (II)로부터 패널 (III)으로의 진행은 열의 공급원으로부터 반응 혼합물을 제거하거나, 다르게는 반응 혼합물을 제1 온도 범위 T1 내로 냉각시킴으로써 (예를 들어, 능동적으로 또는 수동적으로) 수행될 수 있다. 나타내어진 바와 같이, 폴리펩티드 말단에서 페닐알라닌과 가역적으로 회합하는 제2 친화도 시약을 비롯한 표지된 친화도 시약은 재생되는 반면, 표지된 엑소펩티다제는 변성되는 것으로 나타내어진다. 시퀀싱 반응은 이 예에 의해 예시된 바와 같이 아미노산 인식 및 아미노산 절단 사이에 온도-의존성 방식으로 추가로 사이클링함으로써 계속된다.
따라서, 동적 시퀀싱 접근법은 반응 혼합물 내에서 1개 이상의 단백질의 단백질 활성 또는 기능의 수준에서 제어되는 반응 사이클링을 포함할 수 있다. 도 3b에 도시되고 상기 기재된 온도-의존성 폴리펩티드 시퀀싱 프로세스는 조건-의존성 인식 및 절단의 제어가능한 사이클링에 의한 폴리펩티드 시퀀싱에 대한 일반적인 접근법을 예시할 수 있음이 인지되어야 한다. 예를 들어, 일부 실시양태에서, 본 출원은 발광-활성화된 시약을 사용한 발광-의존성 시퀀싱 프로세스를 제공한다. 일부 실시양태에서, 발광-의존성 시퀀싱 프로세스는 발광-의존성 아미노산 인식 및 절단의 사이클을 포함한다. 시퀀싱 반응의 각각의 사이클은 시퀀싱 반응 혼합물을 2가지 상이한 발광 조건에 노출시킴으로써 수행될 수 있다: 엑소펩티다제 활성에 비해 친화도 시약 활성에 대해 최적인 (예를 들어, 아미노산 인식을 촉진시키기 위한) 제1 발광 조건, 및 친화도 시약 활성에 비해 엑소펩티다제 활성에 대해 최적인 (예를 들어, 아미노산 절단을 촉진시키기 위한) 제2 발광 조건. 시퀀싱 반응은 반응 혼합물을 제1 발광 조건에 노출시키는 것 (아미노산 인식을 개시하기 위한) 및 반응 혼합물을 제2 발광 조건에 노출시키는 것 (아미노산 절단을 개시하기 위한) 사이에 교대시킴으로써 진행된다. 제한으로서가 아니라 예로서, 일부 실시양태에서, 2가지 상이한 발광 조건은 제1 파장 및 제2 파장을 포함한다.
일부 측면에서, 본 출원은 1개 이상의 표지된 친화도 시약과 말단 및 내부 아미노산의 결합 상호작용 및 표지된 비-특이적 엑소펩티다제와 말단 아미노산의 결합 상호작용을 평가하는 것에 의한 실시간으로의 폴리펩티드 시퀀싱의 방법을 제공한다. 도 4는 도 3a-3b에서의 접근법에 대해 기재되고 예시된 방법이 말단 및 내부 위치 둘 다에서 아미노산의 하나의 유형 (여기서 리신으로서 나타내어짐)에 선택적으로 결합하고 그로부터 해리되는 표지된 친화도 시약 (410)을 사용함으로써 변형된 시퀀싱의 방법의 예를 나타낸다 (도 4, 삽도 패널). 이전의 접근법에 기재된 바와 같이, 선택적 결합은 신호 출력 (400)에서 일련의 펄스를 발생시킨다. 그러나, 이 접근법에서, 일련의 펄스는 폴리펩티드 전반에 걸쳐 아미노산의 유형의 수에 의해 결정되는 속도에서 발생한다. 따라서, 일부 실시양태에서, 결합 사건에 상응하는 펄싱의 속도는 폴리펩티드에서 현재 존재하는 동종체 아미노산의 수의 진단제일 것이다.
이전의 접근법에서와 같이, 표지된 비-특이적 펩티다제 (420)는 예를 들어, 절단 사건 사이에 최적 시간 창을 제공하기 위해, 표지된 친화도 시약 (410)보다 상대적으로 더 낮은 농도로 존재할 것이다 (도 4, 삽도 패널). 추가적으로, 특정 실시양태에서, 표지된 비-특이적 펩티다제 (420)의 고유하게 확인가능한 발광 표지는 언제 절단 사건이 발생하였는지를 지시할 것이다. 폴리펩티드가 반복적인 절단을 겪음에 따라, 표지된 친화도 시약 (410)에 의한 결합에 상응하는 펄싱의 속도는 말단 아미노산이 표지된 비-특이적 펩티다제 (420)에 의해 절단될 때마다 단계적 방식으로 강하할 것이다. 이 개념은 플롯 (402)에 의해 예시되며, 이는 일반적으로 시간의 함수로서 펄스 속도를 도시하고, 시간에서의 절단 사건은 화살표로 표시된다. 따라서, 일부 실시양태에서, 아미노산은 절단 사건 사이에 검출되는 패턴 내에서 발생하는 펄싱 패턴 및/또는 펄싱의 속도에 기반하여 이 접근법에서 확인될- 및 그에 의해 폴리펩티드가 시퀀싱될- 수 있다.
일부 실시양태에서, 말단 폴리펩티드 서열 정보 (예를 들어, 본원에 기재된 바와 같이 결정됨)는 1개 이상의 다른 공급원으로부터 수득된 폴리펩티드 서열 정보와 조합될 수 있다. 예를 들어, 말단 폴리펩티드 서열 정보는 내부 폴리펩티드 서열 정보와 조합될 수 있다. 일부 실시양태에서, 내부 폴리펩티드 서열 정보는 본원에 기재된 바와 같이 내부 아미노산과 회합하는 1개 이상의 아미노산 인식 분자를 사용하여 수득될 수 있다. 내부 또는 다른 폴리펩티드 서열 정보는 폴리펩티드 분해 프로세스 전에 또는 동안 수득될 수 있다. 일부 실시양태에서, 이들 방법으로부터 수득된 서열 정보는 다른 기법을 사용한 폴리펩티드 서열 정보, 예를 들어, 1개 이상의 내부 아미노산 인식 분자를 사용하여 수득된 서열 정보와 조합될 수 있다.
차폐된 인식 분자
본원에 기재된 실시양태에 따르면, 단일-분자 폴리펩티드 시퀀싱 방법은 표면-고정화된 폴리펩티드를 여기 광으로 조광하고, 아미노산 인식 분자에 부착된 표지 (예를 들어, 표지된 친화도 시약)에 의해 생성된 발광을 검출함으로써 수행될 수 있다. 일부의 경우, 표지에 의해 생성된 방사성 및/또는 비-방사성 붕괴는 폴리펩티드에 대한 광손상을 발생시킬 수 있다. 예를 들어, 도 5a는 인식 분자가 표면에 고정화된 폴리펩티드와 회합된 것으로 나타내어진 예시 시퀀싱 반응을 예시한다.
여기 조명의 존재 하에서, 표지는 검출가능한 회합 사건을 발생시키는 방사성 붕괴를 통해 형광을 생성할 수 있다. 그러나, 일부의 경우, 표지는 반응성 산소 종 (500)의 형성을 발생시킬 수 있는 비-방사성 붕괴를 생성한다. 반응성 산소 종 (500)은 반응이 폴리펩티드에 대한 완전한 서열 정보를 수득하기 전에 종료하도록, 결국 고정화된 펩티드를 손상시킬 수 있다. 이 광손상은 예를 들어, 노출된 폴리펩티드 말단 (상부 개방 화살표)에서, 내부 위치 (중간 개방 화살표)에서, 또는 폴리펩티드를 표면에 부착시키는 표면 링커 (하부 개방 화살표)에서 발생할 수 있다.
본 발명자들은 아미노산 인식 분자 내로의 차폐 요소의 혼입에 의해 광손상이 완화될 수 있고, 인식 시간이 연장되었음을 발견하였다. 도 5b는 차폐물 (502)을 포함하는 차폐된 인식 분자를 사용한 예시 시퀀싱 반응을 예시한다. 차폐물 (502)은 반응성 산소 종 (500)으로부터의 손상 효과가 표지-폴리펩티드 분리 거리 초과의 자유 라디칼 붕괴로 인해 감소될 수 있도록, 표지 및 폴리펩티드 사이의 증가된 거리를 제공하는 공유 또는 비-공유 연결기를 형성한다. 차폐물 (502)은 또한 반응성 산소 종 (500) 및 방사성 및/또는 비-방사성 붕괴로부터의 손상을 흡수함으로써 표지로부터 폴리펩티드를 차폐하는 입체적 장벽을 제공할 수 있다.
이론에 구애되기를 원하지는 않지만, 인식 성분 및 표지 성분 사이에 위치된 차폐물은 표지 성분에 의해 방출되는 방사성 및/또는 비-방사성 붕괴를 흡수하거나, 편향시키거나, 따르게는 차단할 수 있다고 생각된다. 일부 실시양태에서, 차폐물은 1개 이상의 표지 (예를 들어, 발광 표지)가 1개 이상의 아미노산 인식 분자와 상호작용하는 정도를 방지하거나 제한한다. 일부 실시양태에서, 차폐물은 1개 이상의 표지가 아미노산 인식 분자와 회합된 1개 이상의 분자 (예를 들어, 인식 분자와 회합된 폴리펩티드)와 상호작용하는 정도를 방지하거나 제한한다. 따라서, 일부 실시양태에서, 용어 차폐물은 일반적으로 인식 성분 및 표지 성분 사이에 형성된 연결기의 일부 부분에 의해 제공되는 보호 또는 차폐 효과를 지칭할 수 있다.
일부 실시양태에서, 차폐물은 1개 이상의 아미노산 인식 분자 (예를 들어, 인식 성분)에 및 1개 이상의 표지 (예를 들어, 표지 성분)에 부착된다. 일부 실시양태에서, 인식 및 표지 성분은 차폐물 상의 비-인접한 부위에서 부착된다. 예를 들어, 1개 이상의 아미노산 인식 분자는 차폐물의 제1 측면에 부착될 수 있고, 1개 이상의 표지는 차폐물의 제2 측면에 부착될 수 있으며, 여기서 차폐물의 제1 및 제2 측면은 서로로부터 멀다. 일부 실시양태에서, 부착 부위는 차폐물의 대략 반대 측면 상에 있다.
차폐물이 인식 분자에 부착되는 부위 및 차폐물이 표지에 부착되는 부위 사이의 거리는 공간을 통한 선형 측정 또는 차폐물의 표면에 걸친 비-선형 측정일 수 있다. 차폐물 상의 인식 분자 및 표지 부착 부위 사이의 거리는 차폐물의 3차원 구조를 모델링함으로써 측정될 수 있다. 일부 실시양태에서, 이 거리는 적어도 2 nm, 적어도 4 nm, 적어도 6 nm, 적어도 8 nm, 적어도 10 nm, 적어도 12 nm, 적어도 15 nm, 적어도 20 nm, 적어도 30 nm, 적어도 40 nm, 또는 그 초과일 수 있다. 대안적으로, 차폐물 상의 인식 분자 및 표지의 상대 위치는 차폐물의 구조를 2차 표면 (예를 들어, 타원체, 타원 기둥)으로서 처리함으로써 기재될 수 있다. 일부 실시양태에서, 인식 분자 및 표지 부착 부위는 차폐물을 나타내는 타원체 형상 주위의 거리의 적어도 1/8인 거리에 의해 분리된다. 일부 실시양태에서, 인식 분자 및 표지는 차폐물을 나타내는 타원체 형상 주위의 거리의 적어도 1/4인 거리에 의해 분리된다. 일부 실시양태에서, 인식 분자 및 표지는 차폐물을 나타내는 타원체 형상 주위의 거리의 적어도 1/3인 거리에 의해 분리된다. 일부 실시양태에서, 인식 분자 및 표지는 차폐물을 나타내는 타원체 형상 주위의 거리의 적어도 1/2인 거리에 의해 분리된다.
차폐물의 크기는 아미노산 인식 분자가 폴리펩티드와 회합되는 경우에 표지가 폴리펩티드와 직접적으로 접촉할 수 없거나 그럴 가능성이 적도록 해야 한다. 차폐물의 크기는 또한 아미노산 인식 분자가 폴리펩티드와 회합되는 경우에 부착된 표지가 검출가능하도록 해야 한다. 예를 들어, 크기는 부착된 발광 표지가 여기되는 조명 부피 내이도록 해야 한다.
실시자가 차폐 효과를 평가할 수 있는 다양한 파라미터가 있음이 인지되어야 한다. 일반적으로, 차폐 요소의 효과는 차폐 요소를 갖는 조성물 및 차폐 요소를 결여한 조성물 사이의 비교 평가를 수행함으로써 평가될 수 있다. 예를 들어, 차폐 요소는 아미노산 인식 분자의 인식 시간을 증가시킬 수 있다. 일부 실시양태에서, 인식 시간은 인식 분자 및 폴리펩티드 사이의 회합 사건이 본원에 기재된 바와 같은 폴리펩티드 시퀀싱 반응에서 관찰가능한 시간의 길이를 지칭한다. 일부 실시양태에서, 인식 시간은 아미노산 인식 분자이 차폐 요소를 결여하지만, 그렇지 않다면 유사하거나 동일한 것을 제외하고는 동일한 조건 하에서 수행된 폴리펩티드 시퀀싱 반응에 비해, 약 10-25%, 25-50%, 50-75%, 75-100%, 또는 100% 초과, 예를 들어 약 2배, 3배, 4배, 5배, 또는 그 초과 증가된다. 일부 실시양태에서, 차폐 요소는 시퀀싱 정확도 및/또는 서열 판독 길이를 증가시킬 수 있다 (예를 들어, 상기 기재된 바와 같은 비교 조건 하에서 수행된 시퀀싱 반응에 비해, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 25% 또는 그 초과).
따라서, 일부 측면에서, 본 출원은 적어도 1개의 아미노산 인식 분자, 적어도 1개의 검출가능한 표지, 및 인식 분자 및 표지 사이에 공유 또는 비-공유 연결기를 형성하는 차폐 요소 (예를 들어, "차폐물")를 포함하는 차폐된 인식 분자를 제공한다. 일부 실시양태에서, 차폐 요소는 적어도 2 nm, 적어도 5 nm, 적어도 10 nm, 적어도 12 nm, 적어도 15 nm, 적어도 20 nm, 또는 그 초과의 길이 (예를 들어, 수용액 중에서)이다. 일부 실시양태에서, 차폐 요소는 약 2 nm 내지 약 100 nm의 길이 (예를 들어, 약 2 nm 내지 약 50 nm, 약 10 nm 내지 약 50 nm, 약 20 nm 내지 약 100 nm)이다.
일부 실시양태에서, 차폐물 (예를 들어, 차폐 요소)은 1개 이상의 아미노산 인식 분자 (예를 들어, 인식 성분) 및 1개 이상의 표지 (예를 들어, 표지 성분) 사이에 공유 또는 비-공유 연결기를 형성한다. 본원에 사용된 바와 같이, 일부 실시양태에서, 공유 및 비-공유 연결 또는 연결기는 차폐물에의 인식 및 표지 성분의 부착의 성질을 지칭한다.
일부 실시양태에서, 공유 연결, 또는 공유 연결기는 공유 결합 또는 일련의 인접 공유 결합을 통해 인식 및 표지 성분의 각각에 부착된 차폐물을 지칭한다. 공유 부착 하나 또는 둘 다의 성분은 관련 기술분야에 공지된 공유 접합 방법에 의해 달성될 수 있다. 예를 들어, 일부 실시양태에서, 클릭 화학 기법 (예를 들어, 구리-촉매된, 변형-촉진된, 구리-무함유 클릭 화학 등)은 하나 또는 둘 다의 성분을 차폐물에 부착시키는데 사용될 수 있다. 이러한 방법은 일반적으로 하나의 반응성 모이어티를 또 다른 반응성 모이어티에 접합시켜 반응성 모이어티 사이에 1개 이상의 공유 결합을 형성하는 것을 포함한다. 따라서, 일부 실시양태에서, 차폐물의 제1 반응성 모이어티는 인식 또는 표지 성분의 제2 반응성 모이어티와 접촉되어 공유 부착을 형성할 수 있다. 반응성 모이어티의 예는 제한 없이, 반응성 아민, 아지드, 알킨, 니트론, 알켄 (예를 들어, 시클로알켄), 테트라진, 테트라졸, 및 클릭 반응 및 유사한 커플링 기법에 적합한 다른 반응성 모이어티를 포함한다.
일부 실시양태에서, 비-공유 연결, 또는 비-공유 연결기는 수용체-리간드 상호작용 및 올리고뉴클레오티드 가닥 혼성화를 포함하지만 이에 제한되지는 않는 1개 이상의 비-공유 커플링 수단을 통해 인식 및 표지 성분 중 하나 또는 둘 다에 부착된 차폐물을 지칭한다. 수용체-리간드 상호작용의 예는 본원에서 제공되며, 제한 없이, 단백질-단백질 복합체, 단백질-리간드 복합체, 단백질-압타머 복합체, 및 압타머-핵산 복합체를 포함한다. 올리고뉴클레오티드 가닥 혼성화를 위한 다양한 배열 및 전략은 본원에 기재되어 있으며, 관련 기술분야에 공지되어 있다 (예를 들어, 미국 특허 공개 번호 2019/0024168 참조).
일부 실시양태에서, 차폐물 (502)은 중합체, 예컨대 생체분자 또는 수지상 중합체를 포함한다. 도 5c는 중합체 차폐물 및 본 출원의 차폐된 인식 분자의 배열의 예를 도시한다. 제1 차폐된 구축물 (504)은 단백질 차폐물 (530)의 예를 나타낸다. 일부 실시양태에서, 단백질 차폐물 (530)은 인식 분자 및 표지 사이에 공유 연결기를 형성한다. 예를 들어, 일부 실시양태에서, 단백질 차폐물 (530)은 1개 이상의 공유 결합을 통해, 예를 들어, 단백질 차폐물 (530)의 천연 또는 비천연 아미노산의 측쇄를 통한 공유 부착에 의해 인식 분자 및 표지의 각각에 부착된다. 일부 실시양태에서, 단백질 차폐물 (530)은 인식 분자 및 표지 사이에 비-공유 연결기를 형성한다. 예를 들어, 일부 실시양태에서, 단백질 차폐물 (530)은 1개 이상의 리간드-결합 부위를 포함하는 단량체성 또는 다량체성 단백질이다. 일부 실시양태에서, 비-공유 연결기는 1개 이상의 리간드-결합 부위에 결합된 1개 이상의 리간드 모이어티를 통해 형성된다. 단백질 차폐물에 의해 형성된 비-공유 연결의 추가적인 예는 본원의 다른 곳에 기재되어 있다.
제2 차폐된 구축물 (506)은 제2 올리고뉴클레오티드 가닥 (534)과 혼성화된 제1 올리고뉴클레오티드 가닥 (532)을 포함하는 이중-가닥 핵산 차폐물의 예를 나타낸다. 나타내어진 바와 같이, 일부 실시양태에서, 이중-가닥 핵산 차폐물은 제1 올리고뉴클레오티드 가닥 (532)에 부착된 인식 분자, 및 제2 올리고뉴클레오티드 가닥 (534)에 부착된 표지를 포함할 수 있다. 이렇게 하여, 이중-가닥 핵산 차폐물은 올리고뉴클레오티드 가닥 혼성화를 통해 인식 분자 및 표지 사이에 비-공유 연결기를 형성한다. 일부 실시양태에서, 인식 분자 및 표지는 올리고뉴클레오티드 가닥에 부착될 수 있으며, 이는 단일-가닥 핵산 차폐물 또는 또 다른 올리고뉴클레오티드 가닥과의 혼성화를 통한 이중-가닥 핵산 차폐물을 제공할 수 있다. 일부 실시양태에서, 가닥 혼성화는 연결기 내의 증가된 강성을 제공하여 인식 분자 및 표지 사이의 분리를 추가로 향상시킬 수 있다.
차폐 요소 (502)가 핵산을 포함하는 경우, 표지 및 인식 분자 사이의 분리 거리는 핵산 상의 부착 부위 (예를 들어, 직접적 부착 또는 간접적 부착, 예컨대 1개 이상의 추가적인 차폐물 중합체를 통해) 사이의 거리에 의해 측정될 수 있다. 일부 실시양태에서, 핵산 상의 부착 부위 사이의 거리는 표지 및 인식 분자 사이에 발생하는 핵산 내의 뉴클레오티드의 수에 의해 측정될 수 있다. 뉴클레오티드의 수는 단일-가닥 핵산에서 뉴클레오티드 염기의 수 또는 이중-가닥 핵산에서 뉴클레오티드 염기 쌍의 수 중 어느 하나를 지칭할 수 있음이 이해되어야 한다.
따라서, 일부 실시양태에서, 인식 분자의 부착 부위 및 표지의 부착 부위는 5 내지 200개의 뉴클레오티드 (예를 들어, 5 내지 150개의 뉴클레오티드, 5 내지 100개의 뉴클레오티드, 5 내지 50개의 뉴클레오티드, 10 내지 100개의 뉴클레오티드)에 의해 분리될 수 있다. 핵산에서의 임의의 위치는 인식 분자, 표지, 또는 1개 이상의 추가적인 중합체 차폐물에 대한 부착 부위로서 기능할 수 있음이 인지되어야 한다. 일부 실시양태에서, 부착 부위는 5' 또는 3' 단부에 또는 대략 그에, 또는 핵산의 가닥을 따라 내부 위치에 있을 수 있다.
제2 차폐된 구축물 (506)의 비-제한적 배열은 가닥 혼성화를 통해 비-공유 연결을 형성하는 차폐물의 예를 예시한다. 비-공유 연결의 추가의 예는 올리고뉴클레오티드 차폐물 (536)을 포함하는 제3 차폐된 구축물 (508)에 의해 예시된다. 일부 실시양태에서, 올리고뉴클레오티드 차폐물 (536)은 인식 분자에 결합하여 비-공유 연결을 형성하는 핵산 압타머이다. 일부 실시양태에서, 인식 분자는 핵산 압타머이고, 올리고뉴클레오티드 차폐물 (536)은 압타머와 혼성화하여 비-공유 연결을 형성하는 올리고뉴클레오티드 가닥을 포함한다.
제4 차폐된 구축물 (510)은 수지상 중합체 차폐물 (538)의 예를 나타낸다. 본원에 사용된 바와 같이, 일부 실시양태에서, 수지상 중합체는 일반적으로 폴리올 또는 덴드리머를 지칭한다. 폴리올 및 덴드리머는 관련 기술분야에 기재되었으며, 특정한 배열에 대해 최적화된 분지된 수지상 구조를 포함할 수 있다. 일부 실시양태에서, 수지상 중합체 차폐물 (538)은 폴리에틸렌 글리콜, 테트라에틸렌 글리콜, 폴리(아미도아민), 폴리(프로필렌이민), 폴리(프로필렌아민), 카르보실란, 폴리(L-리신), 또는 이들 중 하나 이상의 조합을 포함한다.
덴드리머, 또는 덴드론은 전형적으로 코어 주위에 대칭이며, 구형 3차원 형태를 채택할 수 있는 반복적으로 분지된 분자이다. 예를 들어, 문헌 [Astruc et al. (2010) Chem. Rev. 110:1857]을 참조한다. 본 출원의 차폐물 내로의 이러한 구조의 혼입은 표지 및 그와 회합된 1개 이상의 생체분자 (예를 들어, 인식 분자 및/또는 인식 분자와 회합된 폴리펩티드) 사이의 접촉의 입체적 억제를 통한 보호 효과를 제공할 수 있다. 덴드리머 표면의 잠재적 관능화를 비롯한 분자의 1차 구조에서의 변이를 통한 덴드리머의 화학적 및 물리적 특성의 개량은 차폐 효과가 요망되는 바와 같이 조정되는 것을 허용한다. 덴드리머는 관련 기술분야에 공지된 바와 같이 폭넓은 범위의 물질 및 분지화 반응을 사용한 다양한 기법에 의해 합성될 수 있다. 이러한 합성 변이는 필요에 따라 맞춤제작되는 덴드리머의 특성을 허용한다. 본 출원의 차폐물에 따라 사용될 수 있는 폴리올 및 덴드리머 화합물의 예는 제한 없이, 미국 특허 공개 번호 20180346507에 기재된 화합물을 포함한다.
도 5d는 본 출원의 차폐된 인식 분자의 추가의 예시 배열을 도시한다. 단백질-핵산 구축물 (512)은 단백질 및 이중-가닥 핵산의 형태의 1개 초과의 중합체를 포함하는 차폐물을 나타낸다. 일부 실시양태에서, 차폐물의 단백질 부분은 공유 연결을 통해 차폐물의 핵산 부분에 부착된다. 일부 실시양태에서, 부착은 비-공유 연결을 통해서이다. 예를 들어, 일부 실시양태에서, 차폐물의 단백질 부분은 1가 또는 다가 단백질의 리간드-결합 부위에 부착된 리간드 모이어티를 통해 적어도 1개의 비-공유 연결을 형성하는 1가 또는 다가 단백질이다. 일부 실시양태에서, 차폐물의 단백질 부분은 아비딘 단백질을 포함한다.
일부 실시양태에서, 본 출원의 차폐된 인식 분자는 아비딘-핵산 구축물 (514)이다. 일부 실시양태에서, 아비딘-핵산 구축물 (514)은 아비딘 단백질 (540) 및 이중-가닥 핵산을 포함하는 차폐물을 포함한다. 본원에 기재된 바와 같이, 아비딘 단백질 (540)은 예컨대 본원에 기재된 1개 이상의 추가적인 차폐물 중합체를 통해 직접적으로 또는 간접적으로 1개 이상의 아미노산 인식 분자 및 1개 이상의 표지 사이에 비-공유 연결을 형성하는데 사용될 수 있다.
아비딘 단백질은 일반적으로 아비딘 단백질의 4개의 서브유닛의 각각에 비오틴 결합 부위를 갖는 비오틴-결합 단백질이다. 아비딘 단백질은 예를 들어, 아비딘, 스트렙타비딘, 트랍타비딘, 타마비딘, 브라다비딘, 크세나비딘, 및 그의 동족체 및 변이체를 포함한다. 일부의 경우, 아비딘 단백질의 단량체성, 이량체성, 또는 사량체성 형태가 사용될 수 있다. 일부 실시양태에서, 아비딘 단백질 복합체의 아비딘 단백질은 사량체성 형태 (예를 들어, 동종사량체)의 스트렙타비딘이다. 일부 실시양태에서, 아비딘 단백질의 비오틴 결합 부위는 본원에 기재된 1개 이상의 아미노산 인식 분자, 1개 이상의 표지, 및/또는 1개 이상의 추가적인 차폐물 중합체에 대한 부착 부위를 제공한다.
아비딘 단백질 복합체의 예시적인 도해는 도 5d의 삽도 패널에 나타내어진다. 삽도 패널에 나타내어진 바와 같이, 아비딘 단백질 (540)은 비오틴 모이어티 (흰색 원으로서 나타내어짐)에 결합될 수 있는 단백질의 4개의 서브유닛의 각각에 결합 부위 (542)를 포함할 수 있다. 아비딘 단백질 (540)의 다가성은 일반적으로 예시적인 목적을 위해 나타내어지는 다양한 연결 배열을 허용할 수 있다. 예를 들어, 일부 실시양태에서, 비오틴 연결 모이어티 (544)는 아비딘 단백질 (540)에 대한 단일 부착 점을 제공하는데 사용될 수 있다. 일부 실시양태에서, 비스-비오틴 연결 모이어티 (546)는 아비딘 단백질 (540)에 대한 2개의 부착 점을 제공하는데 사용될 수 있다. 아비딘-핵산 구축물 (514)에 의해 예시된 바와 같이, 아비딘 단백질 복합체는 2개의 비스-비오틴 연결 모이어티에 의해 형성될 수 있으며, 이는 인식 분자 및 표지 사이에 증가된 분리 거리를 제공하는 트랜스-배열을 형성한다.
아비딘 단백질 차폐물 배열의 다양한 추가의 예가 나타내어진다. 제1 아비딘 구축물 (516)은 비스-비오틴 연결 모이어티를 통해 인식 분자에 및 별개의 비오틴 연결 모이어티를 통해 2개의 표지에 부착된 아비딘 차폐물의 예를 나타낸다. 제2 아비딘 구축물 (518)은 별개의 비오틴 연결 모이어티를 통해 2개의 인식 분자에 및 비스-비오틴 연결 모이어티를 통해 표지에 부착된 아비딘 차폐물의 예를 나타낸다. 제3 아비딘 구축물 (520)은 별개의 비오틴 연결 모이어티를 통해 2개의 인식 분자에 및 핵산의 각각의 가닥의 비오틴 연결 모이어티를 통해 표지된 핵산에 부착된 아비딘 차폐물의 예를 나타낸다. 제4 아비딘 구축물 (522)은 별개의 비스-비오틴 연결 모이어티를 통해 인식 분자에 및 표지된 핵산에 부착된 아비딘 차폐물의 예를 나타낸다. 나타내어진 바와 같이, 표지는 표지 및 핵산 사이의 수지상 중합체에 의해 인식 분자로부터 추가로 차폐된다.
도 5a-5d에 나타내어진 차폐된 인식 분자의 예시 배열은 예시적인 목적을 위해 제공됨이 인지되어야 한다. 본 발명자들은 차폐된 인식 분자의 인식 및 표지 성분 사이에 공유 또는 비-공유 연결을 형성하는 1개 이상의 상이한 중합체를 사용하여 다양한 다른 차폐물 배열을 생각하였다. 예로서, 도 5e는 본 출원에 따른 차폐물 배열의 모듈성을 예시한다.
도 5e의 상부에 나타내어진 바와 같이, 차폐된 인식 분자는 일반적으로 인식 성분 (550), 차폐 요소 (552), 및 표지 성분 (554)을 포함한다. 예시의 용이성을 위해, 인식 성분 (550)은 하나의 아미노산 인식 분자로서 도시되고, 표지 성분 (554)은 하나의 표지로서 도시된다. 본 출원의 차폐된 인식 분자는 1개 이상의 아미노산 인식 분자 및 1개 이상의 표지에 부착된 차폐 요소 (552)를 포함할 수 있음이 인지되어야 한다. 인식 성분 (550)이 1개 초과의 인식 분자를 포함하는 경우, 각각의 인식 분자는 차폐 요소 (552) 상의 1개 이상의 부착 부위에서 차폐 요소 (552)에 부착될 수 있다. 표지 성분 (554)이 1개 초과의 표지를 포함하는 경우, 각각의 표지는 차폐 요소 (552) 상의 1개 이상의 부착 부위에서 차폐 요소 (552)에 부착될 수 있다.
일부 실시양태에서, 차폐 요소 (552)는 단백질 (560)을 포함한다. 일부 실시양태에서, 단백질 (560)은 1가 또는 다가 단백질이다. 일부 실시양태에서, 단백질 (560)은 단량체성 또는 다량체성 단백질, 예컨대 단백질 동종이량체, 단백질 이종이량체, 단백질 올리고머, 또는 다른 단백질성 분자이다. 일부 실시양태에서, 차폐 요소 (552)는 적어도 1개의 다른 분자에 비-공유 결합된 단백질에 의해 형성된 단백질 복합체를 포함한다. 예를 들어, 일부 실시양태에서, 차폐 요소 (552)는 단백질-단백질 복합체 (562)를 포함한다. 일부 실시양태에서, 단백질-단백질 복합체 (562)는 또 다른 단백질성 분자에 특이적으로 결합된 1개의 단백질성 분자를 포함한다. 일부 실시양태에서, 단백질-단백질 복합체 (562)는 항원에 결합된 항체 또는 항체 단편 (예를 들어, scFv)을 포함한다. 일부 실시양태에서, 단백질-단백질 복합체 (562)는 단백질 리간드에 결합된 수용체를 포함한다. 단백질-단백질 복합체의 추가적인 예는 제한 없이, 트립신-아프로티닌, 바르나제-바르스타, 및 콜리신 E9-Im9 면역 단백질을 포함한다.
일부 실시양태에서, 차폐 요소 (552)는 단백질-리간드 복합체 (564)를 포함한다. 일부 실시양태에서, 단백질-리간드 복합체 (564)는 1가 단백질 및 비-단백질성 리간드 모이어티를 포함한다. 예를 들어, 일부 실시양태에서, 단백질-리간드 복합체 (564)는 소분자 억제제 모이어티에 결합된 효소를 포함한다. 일부 실시양태에서, 단백질-리간드 복합체 (564)는 비-단백질성 리간드 모이어티에 결합된 수용체를 포함한다.
일부 실시양태에서, 차폐 요소 (552)는 1개 이상의 리간드 모이어티에 비-공유 결합된 다가 단백질에 의해 형성된 다가 단백질 복합체를 포함한다. 일부 실시양태에서, 차폐 요소 (552)는 1개 이상의 비오틴 연결 모이어티에 비-공유 결합된 아비딘 단백질에 의해 형성된 아비딘 단백질 복합체를 포함한다. 구축물 (566, 568, 570, 및 572)은 아비딘 단백질 복합체의 예시적인 예를 제공하며, 이들 중 1개 이상은 차폐 요소 (552) 내로 혼입될 수 있다.
일부 실시양태에서, 차폐 요소 (552)는 2개의 비스-비오틴 연결 모이어티에 결합된 아비딘 단백질을 포함하는 2-원 아비딘 복합체 (566)를 포함한다. 일부 실시양태에서, 차폐 요소 (552)는 2개의 비오틴 연결 모이어티 및 비스-비오틴 연결 모이어티에 결합된 아비딘 단백질을 포함하는 3-원 아비딘 복합체 (568)를 포함한다. 일부 실시양태에서, 차폐 요소 (552)는 4개의 비오틴 연결 모이어티에 결합된 아비딘 단백질을 포함하는 4-원 아비딘 복합체 (570)를 포함한다.
일부 실시양태에서, 차폐 요소 (552)는 아비딘 단백질 내로 조작된 1 또는 2개의 비-기능적 결합 부위를 포함하는 아비딘 단백질을 포함한다. 예를 들어, 일부 실시양태에서, 차폐 요소 (552)는 2개의 서브유닛의 각각에서 비오틴 연결 모이어티에 결합된 아비딘 단백질을 포함하는 2가 아비딘 복합체 (572)를 포함하고, 여기서 아비딘 단백질은 2개의 다른 서브유닛의 각각에 비-기능적 리간드-결합 부위 (548)를 포함한다. 나타내어진 바와 같이, 일부 실시양태에서, 2가 아비딘 복합체 (572)는 트랜스-2가 아비딘 단백질을 포함하지만, 시스-2가 아비딘 단백질은 요망되는 실행에 따라 사용될 수 있다. 일부 실시양태에서, 아비딘 단백질은 3가 아비딘 단백질이다. 일부 실시양태에서, 3가 아비딘 단백질은 하나의 서브유닛에 비-기능적 리간드-결합 부위 (548)를 포함하고, 3개의 비오틴 연결 모이어티, 또는 다른 서브유닛에서 1개의 비오틴 연결 모이어티 및 1개의 비스-비오틴 연결 모이어티에 결합된다.
일부 실시양태에서, 차폐 요소 (552)는 수지상 중합체 (574)를 포함한다. 일부 실시양태에서, 수지상 중합체 (574)는 본원의 다른 곳에 기재된 바와 같은 폴리올 또는 덴드리머이다. 일부 실시양태에서, 수지상 중합체 (574)는 분지된 폴리올 또는 분지된 덴드리머이다. 일부 실시양태에서, 수지상 중합체 (574)는 모노사카라이드-TEG, 디사카라이드, N-아세틸 모노사카라이드, TEMPO-TEG, 트롤록스-TEG, 또는 글리세롤 덴드리머를 포함한다. 본 출원의 차폐된 인식 분자에 따라 유용한 폴리올의 예는 폴리에테르 폴리올 및 폴리에스테르 폴리올, 예를 들어, 폴리에틸렌 글리콜, 풀리프로필렌 글리콜, 및 관련 기술분야에 널리 공지된 유사한 이러한 중합체를 포함한다. 일부 실시양태에서, 수지상 중합체 (574)는 하기 화학식의 화합물을 포함한다: -(CH2CH2O)n-, 여기서 n은 1 내지 500 (경계값 포함)의 정수이다. 일부 실시양태에서, 수지상 중합체 (574)는 하기 화학식의 화합물을 포함한다: -(CH2CH2O)n-, 여기서 n은 1 내지 100 (경계값 포함)의 정수이다.
일부 실시양태에서, 차폐 요소 (552)는 핵산을 포함한다. 일부 실시양태에서, 핵산은 단일-가닥이다. 일부 실시양태에서, 표지 성분 (554)은 단일-가닥 핵산의 하나의 단부 (예를 들어, 5' 단부 또는 3' 단부)에 직접적으로 또는 간접적으로 부착되고, 인식 성분 (550)은 단일-가닥 핵산의 다른 단부 (예를 들어, 3' 단부 또는 5' 단부)에 직접적으로 또는 간접적으로 부착된다. 예를 들어, 단일-가닥 핵산은 핵산의 5' 단부에 부착된 표지 및 핵산의 3' 단부에 부착된 아미노산 인식 분자를 포함할 수 있다.
일부 실시양태에서, 차폐 요소 (552)는 이중-가닥 핵산 (576)을 포함한다. 나타내어진 바와 같이, 일부 실시양태에서, 이중-가닥 핵산 (576)은 가닥 혼성화를 통해 인식 성분 (550) 및 표지 성분 (554) 사이에 비-공유 연결을 형성할 수 있다. 그러나, 일부 실시양태에서, 이중-가닥 핵산 (576)은 동일한 올리고뉴클레오티드 가닥에의 부착을 통해 인식 성분 (550) 및 표지 성분 (554) 사이에 공유 연결을 형성할 수 있다. 일부 실시양태에서, 표지 성분 (554)은 이중-가닥 핵산의 하나의 단부에 직접적으로 또는 간접적으로 부착되고, 인식 성분 (550)은 이중-가닥 핵산의 다른 단부에 직접적으로 또는 간접적으로 부착된다. 예를 들어, 이중-가닥 핵산은 하나의 가닥의 5' 단부에 부착된 표지 및 다른 가닥의 5' 단부에 부착된 아미노산 인식 분자를 포함할 수 있다.
일부 실시양태에서, 차폐 요소 (552)는 차폐물의 입체적 벌크를 증가시키는데 유용할 수 있는 1개 이상의 구조적 모티프를 형성하는 핵산을 포함한다. 핵산 구조적 모티프의 예는 제한 없이, 줄기-루프, 3-원 연접부 (예를 들어, 2개 이상의 줄기-루프 모티프에 의해 형성됨), 4-원 연접부 (예를 들어, 홀리데이(Holliday) 연접부), 및 벌지 루프를 포함한다.
일부 실시양태에서, 차폐 요소 (552)는 줄기-루프 (578)를 형성하는 핵산을 포함한다. 줄기-루프, 또는 헤어핀 루프는 올리고뉴클레오티드 가닥이 폴딩되고, 동일한 가닥의 또 다른 섹션과 염기 쌍을 형성할 때 형성되는 올리고뉴클레오티드 가닥 상의 뉴클레오티드의 쌍형성되지 않은 루프이다. 일부 실시양태에서, 줄기-루프 (578)의 쌍형성되지 않은 루프는 3 내지 10개의 뉴클레오티드를 포함한다. 따라서, 줄기-루프 (578)는 혼성화하여 줄기를 형성하는 반전된 상보적인 서열을 갖는 올리고뉴클레오티드 가닥의 2개의 영역에 의해 형성될 수 있고, 여기서 2개의 영역은 쌍형성되지 않은 루프를 형성하는 3 내지 10개의 뉴클레오티드에 의해 분리된다. 일부 실시양태에서, 줄기-루프 (578)의 줄기는 A/T 뉴클레오티드에 비해 형성되는 첨가 수소 결합 상호작용에 첨가된 안정성을 제공할 수 있는 1개 이상의 G/C 뉴클레오티드를 갖도록 디자인될 수 있다. 일부 실시양태에서, 줄기-루프 (578)의 줄기는 쌍형성되지 않은 루프 서열에 바로 인접한 G/C 뉴클레오티드를 포함한다. 일부 실시양태에서, 줄기-루프 (578)의 줄기는 쌍형성되지 않은 루프 서열에 인접한 최초 2, 3, 4, 또는 5개의 뉴클레오티드 내에 G/C 뉴클레오티드를 포함한다. 일부 실시양태에서, 줄기-루프 (578)의 쌍형성되지 않은 루프는 1개 이상의 부착 부위를 포함한다. 일부 실시양태에서, 부착 부위는 쌍형성되지 않은 루프 중의 무염기 부위에서 발생한다. 일부 실시양태에서, 부착 부위는 쌍형성되지 않은 루프의 염기에서 발생한다.
일부 실시양태에서, 줄기-루프 (578)는 이중-가닥 핵산에 의해 형성된다. 본원에 기재된 바와 같이, 일부 실시양태에서, 이중-가닥 핵산은 제1 및 제2 올리고뉴클레오티드 가닥의 가닥 혼성화를 통해 비-공유 연결기를 형성할 수 있다. 그러나, 일부 실시양태에서, 차폐 요소 (552)는 예를 들어, 공유 연결기를 제공하는 줄기-루프 모티프를 형성하는 단일-가닥 핵산을 포함한다. 일부 실시양태에서, 차폐 요소 (552)는 2개 이상의 줄기-루프 모티프를 형성하는 핵산을 포함한다. 예를 들어, 일부 실시양태에서, 핵산은 2개의 줄기-루프 모티프를 포함한다. 일부 실시양태에서, 하나의 줄기-루프 모티프의 줄기는, 모티프가 함께 3-원 연접부를 형성하도록, 다른 것의 줄기에 인접한다. 일부 실시양태에서, 차폐 요소 (552)는 4-원 연접부 (578)를 형성하는 핵산을 포함한다. 일부 실시양태에서, 4-원 연접부 (578)는 2개 이상의 올리고뉴클레오티드 가닥 (예를 들어, 2, 3, 또는 4개의 올리고뉴클레오티드 가닥)의 혼성화를 통해 형성된다.
일부 실시양태에서, 차폐 요소 (552)는 도 5e의 560, 562, 564, 566, 568, 570, 572, 574, 576, 578, 및 580으로부터 선택되는 1개 이상의 중합체를 포함한다. 560, 562, 564, 566, 568, 570, 572, 574, 576, 578, 및 580의 각각 상에 나타내어진 연결 모이어티 및 부착 부위는 예시적인 목적을 위해 나타내어지며, 바람직한 연결 또는 부착 부위 배열을 도시하는 것으로 의도되지 않음이 인지되어야 한다.
일부 측면에서, 본 출원은 화학식 (I)의 아미노산 인식 분자를 제공한다:
A-(Y)n-D
(I)
여기서: A는 적어도 1개의 아미노산 인식 분자를 포함하는 아미노산 결합 성분이고; Y의 각각의 경우는 공유 또는 비-공유 연결기를 형성하는 중합체이고; n은 1 내지 10 (경계값 포함)의 정수이고; D는 적어도 1개의 검출가능한 표지를 포함하는 표지 성분이다. 일부 실시양태에서, 본 출원은 화학식 (I)의 가용성 아미노산 인식 분자를 포함하는 조성물을 제공한다.
일부 실시양태에서, A는 복수개의 아미노산 인식 분자를 포함한다. 일부 실시양태에서, 복수개 중 각각의 아미노산 인식 분자는 Y 상의 상이한 부착 부위에 부착된다. 일부 실시양태에서, 복수개 중 적어도 2개의 아미노산 인식 분자는 Y 상의 단일 부착 부위에 부착된다. 일부 실시양태에서, 아미노산 인식 분자는 예를 들어, 본원의 다른 곳에 기재된 바와 같은 인식 단백질 또는 핵산 압타머이다.
일부 실시양태에서, 검출가능한 표지는 발광 표지 또는 전도율 표지이다. 일부 실시양태에서, 발광 표지는 적어도 1개의 형광단 염료 분자를 포함한다. 일부 실시양태에서, D는 20개 이하의 형광단 염료 분자를 포함한다. 일부 실시양태에서, 형광단 염료 분자의 수 대 아미노산 인식 분자의 수의 비는 1:1 내지 20:1이다. 일부 실시양태에서, 발광 표지는 공여자 표지 및 수용자 표지를 포함하는 적어도 1개의 FRET 쌍을 포함한다. 일부 실시양태에서, 공여자 표지 대 수용자 표지의 비는 1:1, 2:1, 3:1, 4:1, 또는 5:1이다. 일부 실시양태에서, 수용자 표지 대 공여자 표지의 비는 1:1, 2:1, 3:1, 4:1, 또는 5:1이다.
일부 실시양태에서, D는 200 Å 미만의 직경이다. 일부 실시양태에서, -(Y)n-은 적어도 2 nm의 길이이다. 일부 실시양태에서, -(Y)n-은 적어도 5 nm의 길이이다. 일부 실시양태에서, -(Y)n-은 적어도 10 nm의 길이이다. 일부 실시양태에서, Y의 각각의 경우는 독립적으로 생체분자, 폴리올, 또는 덴드리머이다. 일부 실시양태에서, 생체분자는 핵산, 폴리펩티드, 또는 폴리사카라이드이다.
일부 실시양태에서, 아미노산 인식 분자는 하기 화학식 중 하나의 것이다:
A-Y1-(Y)m-D 또는 A-(Y)m-Y1-D
여기서: Y1은 핵산 또는 폴리펩티드이고; m은 0 내지 10 (경계값 포함)의 정수이다.
일부 실시양태에서, 핵산은 제1 올리고뉴클레오티드 가닥을 포함한다. 일부 실시양태에서, 핵산은 제1 올리고뉴클레오티드 가닥과 혼성화된 제2 올리고뉴클레오티드 가닥을 포함한다. 일부 실시양태에서, 핵산은 제1 올리고뉴클레오티드 가닥을 통해 공유 연결을 형성한다. 일부 실시양태에서, 핵산은 혼성화된 제1 및 제2 올리고뉴클레오티드 가닥을 통해 비-공유 연결을 형성한다.
일부 실시양태에서, 폴리펩티드는 1가 또는 다가 단백질이다. 일부 실시양태에서, 1가 또는 다가 단백질은 1가 또는 다가 단백질의 리간드-결합 부위에 부착된 리간드 모이어티를 통해 적어도 1개의 비-공유 연결을 형성한다. 일부 실시양태에서, A, Y, 또는 D는 리간드 모이어티를 포함한다.
일부 실시양태에서, 아미노산 인식 분자는 하기 화학식 중 하나의 것이다:
A-(Y)m-Y2-D 또는 A-Y2-(Y)m-D
여기서: Y2는 폴리올 또는 덴드리머이고; m은 0 내지 10 (경계값 포함)의 정수이다. 일부 실시양태에서, 폴리올 또는 덴드리머는 폴리에틸렌 글리콜, 테트라에틸렌 글리콜, 폴리(아미도아민), 폴리(프로필렌이민), 폴리(프로필렌아민), 카르보실란, 폴리(L-리신), 또는 이들 중 하나 이상의 조합을 포함한다.
일부 측면에서, 본 출원은 화학식 (II)의 아미노산 인식 분자를 제공한다:
A-Y1-D
(II)
여기서: A는 적어도 1개의 아미노산 인식 분자를 포함하는 아미노산 결합 성분이고; Y1은 핵산 또는 폴리펩티드이고; D는 적어도 1개의 검출가능한 표지를 포함하는 표지 성분이다. 일부 실시양태에서, Y1이 핵산인 경우, 핵산은 공유 또는 비-공유 연결기를 형성한다. 일부 실시양태에서, Y1이 폴리펩티드인 경우, 폴리펩티드는 50 × 10-9 M 미만의 해리 상수 (KD)를 특징을 하는 비-공유 연결기를 형성한다.
일부 실시양태에서, Y1은 제1 올리고뉴클레오티드 가닥을 포함하는 핵산이다. 일부 실시양태에서, 핵산은 제1 올리고뉴클레오티드 가닥과 혼성화된 제2 올리고뉴클레오티드 가닥을 포함한다. 일부 실시양태에서, A는 제1 올리고뉴클레오티드 가닥에 부착되고, 여기서 D는 제2 올리고뉴클레오티드 가닥에 부착된다. 일부 실시양태에서, A는 제1 올리고뉴클레오티드 가닥 상의 제1 부착 부위에 부착되고, 여기서 D는 제1 올리고뉴클레오티드 가닥 상의 제2 부착 부위에 부착된다. 일부 실시양태에서, 핵산의 각각의 올리고뉴클레오티드 가닥은 150개 미만, 100개 미만, 또는 50개 미만의 뉴클레오티드를 포함한다.
일부 실시양태에서, Y1은 1가 또는 다가 단백질이다. 일부 실시양태에서, 1가 또는 다가 단백질은 1가 또는 다가 단백질의 리간드-결합 부위에 부착된 리간드 모이어티를 통해 적어도 1개의 비-공유 연결을 형성한다. 일부 실시양태에서, A 및 D 중 적어도 하나는 리간드 모이어티를 포함한다. 일부 실시양태에서, 폴리펩티드는 아비딘 단백질 (예를 들어, 아비딘, 스트렙타비딘, 트랍타비딘, 타마비딘, 브라다비딘, 크세나비딘, 또는 그의 동족체 또는 변이체)이다. 일부 실시양태에서, 리간드 모이어티는 비오틴 모이어티이다.
일부 실시양태에서, 아미노산 인식 분자는 하기 화학식 중 하나의 것이다:
A-Y1-(Y)n-D 또는 A-(Y)n-Y1-D
여기서: Y의 각각의 경우는 공유 또는 비-공유 연결기를 형성하는 중합체이고; n은 1 내지 10 (경계값 포함)의 정수이다. 일부 실시양태에서, Y의 각각의 경우는 독립적으로 생체분자, 폴리올, 또는 덴드리머이다.
다른 측면에서, 본 출원은 핵산; 핵산 상의 제1 부착 부위에 부착된 적어도 1개의 아미노산 인식 분자; 및 핵산 상의 제2 부착 부위에 부착된 적어도 1개의 검출가능한 표지를 포함하는 아미노산 인식 분자를 제공한다. 일부 실시양태에서, 핵산은 적어도 1개의 아미노산 인식 분자 및 적어도 1개의 검출가능한 표지 사이에 공유 또는 비-공유 연결기를 형성한다.
일부 실시양태에서, 핵산은 제2 올리고뉴클레오티드 가닥과 혼성화된 제1 올리고뉴클레오티드 가닥을 포함하는 이중-가닥 핵산이다. 일부 실시양태에서, 제1 부착 부위는 제1 올리고뉴클레오티드 가닥 상에 있고, 제2 부착 부위는 제2 올리고뉴클레오티드 가닥 상에 있다. 일부 실시양태에서, 적어도 1개의 아미노산 인식 분자는 적어도 1개의 아미노산 인식 분자 및 핵산 사이에 공유 또는 비-공유 연결기를 형성하는 단백질을 통해 제1 부착 부위에 부착된다. 일부 실시양태에서, 적어도 1개의 검출가능한 표지는 적어도 1개의 검출가능한 표지 및 핵산 사이에 공유 또는 비-공유 연결기를 형성하는 단백질을 통해 제2 부착 부위에 부착된다. 일부 실시양태에서, 제1 및 제2 부착 부위는 핵산 상의 5 내지 100개의 뉴클레오티드 염기 또는 뉴클레오티드 염기 쌍에 의해 분리된다.
추가의 다른 측면에서, 본 출원은 적어도 2개의 리간드-결합 부위를 포함하는 다가 단백질; 단백질 상의 제1 리간드-결합 부위에 결합된 제1 리간드 모이어티를 통해 단백질에 부착된 적어도 1개의 아미노산 인식 분자; 및 단백질 상의 제2 리간드-결합 부위에 결합된 제2 리간드 모이어티를 통해 단백질에 부착된 적어도 1개의 검출가능한 표지를 포함하는 아미노산 인식 분자를 제공한다.
일부 실시양태에서, 다가 단백질은 4개의 리간드-결합 부위를 포함하는 아비딘 단백질이다. 일부 실시양태에서, 리간드-결합 부위는 비오틴 결합 부위이고, 여기서 리간드 모이어티는 비오틴 모이어티이다. 일부 실시양태에서, 비오틴 모이어티 중 적어도 하나는 비스-비오틴 모이어티이고, 여기서 비스-비오틴 모이어티는 아비딘 단백질 상의 2개의 비오틴 결합 부위에 결합된다. 일부 실시양태에서, 적어도 1개의 아미노산 인식 분자는 제1 리간드 모이어티를 포함하는 핵산을 통해 단백질에 부착된다. 일부 실시양태에서, 적어도 1개의 검출가능한 표지는 제2 리간드 모이어티를 포함하는 핵산을 통해 단백질에 부착된다.
본원의 다른 곳에 기재된 바와 같이, 본 출원의 차폐된 인식 분자는 본 출원에 따른 폴리펩티드 시퀀싱 방법, 또는 관련 기술분야에 공지된 임의의 방법에 사용될 수 있다. 예를 들어, 일부 실시양태에서, 본원에서 제공된 차폐된 인식 분자는 폴리펩티드 시퀀싱 반응에서의 다중 반응 혼합물의 반복적인 사이클링을 포함할 수 있는 본원에서 제공된, 또는 관련 기술분야에 통상적으로 공지된 에드만-유형 분해 반응에 사용될 수 있다. 일부 실시양태에서, 본원에서 제공된 차폐된 인식 분자는 단일 반응 혼합물에서의 아미노산 인식 및 분해를 포함하는 본 출원의 동적 시퀀싱 반응에 사용될 수 있다.
표지된 폴리펩티드의 분해에 의한 시퀀싱
일부 측면에서, 본 출원은 공지된 폴리펩티드 서열에 상응하는 아미노산의 고유한 조합을 확인함으로써 폴리펩티드를 시퀀싱하는 방법을 제공한다. 예를 들어, 도 6은 표지된 폴리펩티드 (600)의 선택적으로 표지된 아미노산을 검출하는 것에 의한 시퀀싱의 방법을 나타낸다. 일부 실시양태에서, 표지된 폴리펩티드 (600)는 상이한 아미노산 유형이 상이한 발광 표지를 포함하도록 선택적으로 변형된 아미노산을 포함한다. 본원에 사용된 바와 같이, 달리 지시되지 않는 한, 표지된 폴리펩티드는 1개 이상의 선택적으로 표지된 아미노산 측쇄를 포함하는 폴리펩티드를 지칭한다. 선택적 표지화의 방법 및 표지된 폴리펩티드의 제조 및 분석에 관한 상세사항은 관련 기술분야에 공지되어 있다 (예를 들어, 문헌 [Swaminathan, et al. PLoS Comput Biol. 2015, 11(2):e1004080] 참조).
나타내어진 바와 같이, 일부 실시양태에서, 표지된 폴리펩티드 (600)는 고정화되고, 여기 공급원에 노출된다. 표지된 폴리펩티드 (600)로부터의 합계 발광이 검출되고, 일부 실시양태에서, 시간 경과에 따른 발광에의 노출이 발광 표지 분해 (예를 들어, 광퇴색으로 인한 분해)로 인해 검출된 신호의 소실을 발생시킨다. 일부 실시양태에서, 표지된 폴리펩티드 (600)는 초기 검출된 신호를 발생시키는 선택적으로 표지된 아미노산의 고유한 조합을 포함한다. 일반적으로 예시된 바와 같이, 시간 경과에 따른 발광 표지의 분해는 광퇴색된 표지된 폴리펩티드 (602)에 대한 검출된 신호의 상응하는 감소를 발생시킨다. 일부 실시양태에서, 신호는 하나 이상의 발광 특성의 분석에 의해 디콘볼루션될 수 있다 (예를 들어, 발광 수명 분석에 의한 신호 디콘볼루션). 일부 실시양태에서, 표지된 폴리펩티드 (600)의 선택적으로 표지된 아미노산의 고유한 조합은 컴퓨터로 사전산출되고, 경험적으로 확인되었다- 예를 들어, 프로테옴의 공지된 폴리펩티드 서열에 기반하여. 일부 실시양태에서, 검출된 아미노산 표지의 조합을 유기체의 프로테옴의 공지된 서열의 데이터베이스에 대해 비교하여, 표지된 폴리펩티드 (600)에 상응하는 데이터베이스의 특정한 폴리펩티드를 확인한다.
일부 실시양태에서, 도 6에 예시된 접근법은 거대 병행 분석에서 샘플링을 최소화하는 시퀀싱 반응을 수행하기 위해 최적 샘플 농도를 결정함으로써 변형될 수 있다. 일부 실시양태에서, 농도는 어레이의 샘플 웰의 요망되는 분율 (예를 들어, 30%)이 임의의 주어진 시간에 점유되도록 선택된다. 이론에 구애되기를 원하지는 않지만, 폴리펩티드는 시간의 기간에 걸쳐 퇴색되는 반면, 동일한 웰은 추가의 분석을 위해 이용가능하도록 계속되는 것으로 생각된다. 확산을 통해, 어레이의 샘플 웰의 대략 30%는 3분마다 분석에 사용될 수 있다. 예시적인 예로서, 100만개의 샘플 웰 칩에서, 시간당 6,000,000개의 폴리펩티드, 또는 4시간 기간에 걸쳐 24,000,000개가 샘플링될 수 있다.
일부 측면에서, 본 출원은 말단 아미노산 변형 및 절단의 반복된 사이클로 처리된 표지된 폴리펩티드의 발광을 검출함으로써 폴리펩티드를 시퀀싱하는 방법을 제공한다. 예를 들어, 도 7은 본 출원에 따른 에드만 분해에 의해 표지된 폴리펩티드를 시퀀싱하는 방법을 나타낸다. 일부 실시양태에서, 방법은 일반적으로 에드만 분해에 의한 시퀀싱의 다른 방법에 대해 본원에 기재된 바와 같이 진행된다. 예를 들어, 일부 실시양태에서, 도 7에 나타내어진 단계 (1) 및 (2)는 에드만 분해 반응에서 각각 말단 아미노산 변형 및 말단 아미노산 절단에 대해 본원의 다른 곳에 기재된 바와 같이 수행될 수 있다.
도 7에 도시된 예에 나타내어진 바와 같이, 일부 실시양태에서, 방법은 (1) 표지된 폴리펩티드의 말단 아미노산을 변형시키는 단계를 포함한다. 본원의 다른 곳에 기재된 바와 같이, 일부 실시양태에서, 변형은 말단 아미노산을 이소티오시아네이트 (예를 들어, PITC)와 접촉시켜 이소티오시아네이트-변형된 말단 아미노산을 형성하는 것을 포함한다. 일부 실시양태에서, 이소티오시아네이트 변형 (710)은 말단 아미노산을 절단 시약 (예를 들어, 본원에 기재된 바와 같은 화학적 또는 효소적 절단 시약)에 의한 제거에 보다 감수성인 형태로 전환시킨다. 따라서, 일부 실시양태에서, 방법은 (2) 변형된 말단 아미노산을 에드만 분해에 대해 본원의 다른 곳에 상세화된 화학적 또는 효소적 수단을 사용하여 제거하는 단계를 포함한다.
일부 실시양태에서, 방법은 표지된 폴리펩티드의 발광이 검출되는 동안 단계 (1) 내지 (2)를 복수개의 사이클 동안 반복하는 것을 포함하고, 말단으로부터의 표지된 아미노산의 제거에 상응하는 절단 사건은 검출된 신호의 감소로서 검출될 수 있다. 일부 실시양태에서, 도 7에 나타내어진 바와 같이 단계 (2) 후에 신호의 변화 없음은 미지의 유형의 아미노산을 확인한다. 따라서, 일부 실시양태에서, 부분적 서열 정보는 검출된 신호의 변화에 기반하여 동일성을 결정함으로써 아미노산 유형을 할당하거나, 검출된 신호의 변화 없음에 기반하여 아미노산 유형을 미지인 것으로서 확인함으로써 각각의 순차적인 라운드 동안 단계 (2) 후에 검출된 신호를 평가함으로써 결정될 수 있다.
일부 측면에서, 본 출원에 따른 폴리펩티드를 시퀀싱하는 방법은 도 8a-8c에 일반적으로 예시된 바와 같이, 표지된 폴리펩티드의 진행적인 효소적 절단에 의한 시퀀싱을 포함한다. 나타내어진 바와 같이, 일부 실시양태에서, 표지된 폴리펩티드는 하나의 말단으로부터 또 다른 말단으로 말단 아미노산을 계속적으로 절단하는 변형된 진행적인 엑소펩티다제를 사용한 분해로 처리된다. 엑소펩티다제는 본원의 다른 곳에 상세하게 기재되어 있다. 도 8a는 표지된 폴리펩티드 (800)가 고정화된 진행적인 엑소펩티다제 (810)에 의한 분해로 처리되는 예를 도시한다. 도 8b는 고정화된 표지된 폴리펩티드 (820)가 진행적인 엑소펩티다제 (830)에 의한 분해로 처리되는 예를 도시한다.
도 8c는 도 8b에 도시된 방법에 따라 수행된 실시간 시퀀싱 프로세스의 예를 개략적으로 예시한다. 나타내어진 바와 같이, 패널 (I) 내지 (IV)는 표지된 폴리펩티드 분해의 진행을 나타내며, 시간 경과에 따른 상응하는 신호 트레이스는 각각의 패널 아래에 나타내어진다. 나타내어진 바와 같이, 표지된 아미노산에 상응하는 각각의 절단 사건은 신호의 수반 강하를 발생시킨다. 일부 실시양태에서, 진행적인 엑소펩티다제 (830)의 진행도의 속도는 공지되어 있으므로, 신호의 검출된 감소 사이의 타이밍은 각각의 검출 사건 사이의 비표지된 아미노산의 수를 계산하는데 사용될 수 있다. 예를 들어, 40개의 아미노산의 폴리펩티드가 아미노산이 매초 제거되는 방식으로 절단된 경우, 3개의 신호를 갖는 표지된 폴리펩티드는 모든 3개의 초기 신호 (패널 (I)), 그 후 2개 (패널 (II)), 그 후 1개 (패널 (III)), 및 최종적으로 신호 없음을 나타낼 것이다. 이렇게 하여, 표지된 아미노산의 순서가 결정될 수 있다. 따라서, 이들 방법은 예를 들어, 폴리펩티드 단편 시퀀싱에 기반한 프로테옴 분석을 위해 부분적 서열 정보를 결정하는데 사용될 수 있다.
일부 실시양태에서, 단일 분자 단백질 시퀀싱은 예를 들어 도 9에 예시된 바와 같이, ATP-기반 푀르스터(Foerster) 공명 에너지 전달 (FRET) 스킴을 사용하여 (예를 들어, 1개 이상의 표지된 보조인자로) 달성될 수 있다. 일부 실시양태에서, 보조인자-기반 FRET에 의한 시퀀싱은 폴리펩티드 기질의 고정화된 ATP-의존성 프로테아제, 공여자-표지된 ATP, 및 수용자-표지된 아미노산을 사용하여 수행될 수 있다. 일부 실시양태에서, 아미노산은 수용자로 표지될 수 있고, 1개 이상의 보조인자는 공여자로 표지될 수 있다.
예를 들어, 일부 실시양태에서, 추출된 단백질은 변성되고, 시스테인 및 리신은 형광 염료로 표지된다. 일부 실시양태에서, 단백질 트랜스로카제의 조작된 버전 (예를 들어, 박테리아 ClpX)은 개별적인 기질 단백질에 결합하고, 이들을 언폴딩하고, 이들을 그의 나노-채널을 통해 전위시키는데 사용된다. 일부 실시양태에서, 트랜스로카제는 공여자 염료로 표지되고, FRET는 기질이 나노-채널을 통해 통과할 때 트랜스로카제 상의 공여자 및 기질 상의 2종 이상의 별개의 수용자 염료 사이에 일어난다. 그 후, 표지된 아미노산의 순서는 FRET 신호로부터 결정될 수 있다. 일부 실시양태에서, 표 5에 나타내어진 하기 비-제한적 표지된 ATP 유사체 중 1종 이상이 사용될 수 있다.
표 5. 표지된 ATP 유사체의 비-제한적 예.
Figure pct00014
Figure pct00015
Figure pct00016
시퀀싱을 위한 샘플의 제조
폴리펩티드 샘플은 시퀀싱 전에 변형될 수 있다. 일부 실시양태에서, 폴리펩티드의 N-말단 아미노산 또는 C-말단 아미노산은 변형된다. 도 10a는 단백질 샘플로부터 말단 변형된 폴리펩티드를 제조하기 위한 말단 단부 변형의 비-제한적 예를 예시한다. 단계 (1)에서, 단백질 샘플 (1000)은 단편화되어 폴리펩티드 단편 (1002)을 생성한다. 폴리펩티드는 관심의 폴리펩티드를 절단함 (예를 들어, 화학적으로) 및/또는 소화시킴 (예를 들어, 효소적으로, 예를 들어 펩티다제, 예를 들어 트립신을 사용하여)으로써 단편화될 수 있다. 단편화는 표지화 전에 또는 후에 수행될 수 있다. 일부 실시양태에서, 단편화는 전체 단백질의 표지화 후에 수행된다. 1개 이상의 아미노산은 절단 전에 또는 후에 표지되어 표지된 폴리펩티드를 생성할 수 있다. 일부 실시양태에서, 폴리펩티드는 화학적 또는 효소적 단편화 후에 크기 선택된다. 일부 실시양태에서, 보다 작은 폴리펩티드 (예를 들어, < 2 kDa)는 제거되고, 보다 큰 폴리펩티드는 서열 분석을 위해 보유된다. 크기 선택은 겔 여과, SEC, 투석, PAGE 겔 추출, 미세유체 장력 유동, 또는 임의의 다른 적합한 기법과 같은 기법을 사용하여 달성될 수 있다. 단계 (2)에서, 폴리펩티드 단편 (1002)의 N-말단 또는 C-말단은 변형되어 말단 변형된 폴리펩티드 (1004)를 생성한다. 일부 실시양태에서, 변형은 고정화 모이어티를 첨가하는 것을 포함한다. 일부 실시양태에서, 변형은 커플링 모이어티를 첨가하는 것을 포함한다.
따라서, 단백질 및 폴리펩티드의 말단 단부를 표면 (예를 들어, 단백질 분석에 사용되는 칩 상의 샘플 웰의 표면)에의 고정화를 가능하게 하는 모이어티로 변형시키는 방법이 본원에서 제공된다. 일부 실시양태에서, 이러한 방법은 본 출원에 따라 분석되는 표지된 폴리펩티드의 말단 단부를 변형시키는 것을 포함한다. 추가의 다른 실시양태에서, 이러한 방법은 본 출원에 따라 단백질 또는 폴리펩티드 기질을 분해하거나 전위시키는 단백질 또는 효소의 말단 단부를 변형시키는 것을 포함한다.
일부 실시양태에서, 단백질 또는 폴리펩티드의 카르복시-말단은 (i) 단백질 또는 폴리펩티드의 유리 카르복실레이트 기를 차단하고; (ii) 단백질 또는 폴리펩티드를 변성시키고 (예를 들어, 열 및/또는 화학적 수단에 의해); (iii) 단백질 또는 폴리펩티드의 유리 티올 기를 차단하고; (iv) 단백질 또는 폴리펩티드를 소화시켜 유리 C-말단 카르복실레이트 기를 포함하는 적어도 1개의 폴리펩티드 단편을 생성하고; (v) 관능성 모이어티를 유리 C-말단 카르복실레이트 기에 접합시키는 (예를 들어, 화학적으로) 것을 포함하는 방법으로 변형된다. 일부 실시양태에서, 방법은 (i) 후에 및 (ii) 전에, 단백질 또는 폴리펩티드를 포함하는 샘플을 투석하는 것을 추가로 포함한다.
일부 실시양태에서, 단백질 또는 폴리펩티드의 카르복시-말단은 (i) 단백질 또는 폴리펩티드를 변성시키고 (예를 들어, 열 및/또는 화학적 수단에 의해); (ii) 단백질 또는 폴리펩티드의 유리 티올 기를 차단하고; (iii) 단백질 또는 폴리펩티드를 소화시켜 유리 C-말단 카르복실레이트 기를 포함하는 적어도 1개의 폴리펩티드 단편을 생성하고; (iv) 유리 C-말단 카르복실레이트 기를 차단하여 차단된 C-말단 카르복실레이트 기를 포함하는 적어도 1개의 폴리펩티드 단편을 생성하고; (v) 관능성 모이어티를 차단된 C-말단 카르복실레이트 기에 접합시키는 (예를 들어, 효소적으로) 것을 포함하는 방법으로 변형된다. 일부 실시양태에서, 방법은 (iv) 후에 및 (v) 전에, 단백질 또는 폴리펩티드를 포함하는 샘플을 투석하는 것을 추가로 포함한다.
일부 실시양태에서, 유리 카르복실레이트 기를 차단하는 것은 비변형된 카르복실레이트에 비해 화학적 반응성을 변경시키는 이들 기의 화학적 변형을 지칭한다. 적합한 카르복실레이트 차단 방법은 관련 기술분야에 공지되어 있으며, 관능화되는 폴리펩티드의 카르복시-말단 카르복실레이트 기와는 화학적으로 상이하도록 측쇄 카르복실레이트 기를 변형시켜야 한다. 일부 실시양태에서, 유리 카르복실레이트 기를 차단하는 것은 폴리펩티드의 유리 카르복실레이트 기의 에스테르화 또는 아미드화를 포함한다. 일부 실시양태에서, 유리 카르복실레이트 기를 차단하는 것은 예를 들어, 폴리펩티드를 메탄올성 HCl과 반응시키는 것에 의한 폴리펩티드의 유리 카르복실레이트 기의 메틸 에스테르화를 포함한다. 유리 카르복실레이트 기를 차단하는데 유용한 시약 및 기법의 추가적인 예는 제한 없이, 4-술포-2,3,5,6-테트라플루오로페놀 (STP) 및/또는 카르보디이미드, 예컨대 N-(3-디메틸아미노프로필)-N'-에틸카르보디이미드 히드로클로라이드 (EDAC), 우로늄 시약, 디아조메탄, 피셔 에스테르화를 위한 알콜 및 산, NHS 에스테르를 형성하는 N-히드록실숙신이미드 (NHS) (잠재적으로 후속 에스테르 또는 아민 형성에 대한 중간체로서)의 사용, 또는 카르보닐디이미다졸 (CDI)과의 반응 또는 혼합된 무수물의 형성, 또는 잠재적으로 에스테르 또는 아미드 중 어느 하나의 형성을 통해 카르복실산을 변형시키거나 차단하는 임의의 다른 방법을 포함한다.
일부 실시양태에서, 유리 티올 기를 차단하는 것은 비변형된 티올에 비해 화학적 반응성을 변경시키는 이들 기의 화학적 변형을 지칭한다. 일부 실시양태에서, 유리 티올 기를 차단하는 것은 단백질 또는 폴리펩티드의 유리 티올 기를 환원시키고 알킬화하는 것을 포함한다. 일부 실시양태에서, 환원 및 알킬화는 폴리펩티드를 디티오트레이톨 (DTT) 및 아이오도아세트아미드 및 아이오도아세트산 중 하나 또는 둘 다와 접촉시킴으로써 수행된다. 사용될 수 있는 추가적인 및 대안적인 시스테인-환원 시약의 예는 널리 공지되어 있으며, 제한 없이, 2-메르캅토에탄올, 트리스 (2-카르복시에틸) 포스핀 히드로클로라이드 (TCEP), 트리부틸포스핀, 디티오부틸아민 (DTBA), 또는 티올 기를 환원시킬 수 있는 임의의 시약을 포함한다. 사용될 수 있는 추가적인 및 대안적인 시스테인-차단 (예를 들어, 시스테인-알킬화) 시약의 예는 널리 공지되어 있으며, 제한 없이, 아크릴아미드, 4-비닐피리딘, N-에틸말레미드 (NEM), N-ε-말레이미도카프로산 (EMCA), 또는 디술피드 결합 형성을 방지하도록 시스테인을 변형시키는 임의의 시약을 포함한다.
일부 실시양태에서, 소화는 효소적 소화를 포함한다. 일부 실시양태에서, 소화는 단백질 또는 폴리펩티드를 소화 조건 하에서 엔도펩티다제 (예를 들어, 트립신)와 접촉시킴으로써 수행된다. 일부 실시양태에서, 소화는 화학적 소화를 포함한다. 화학적 및 효소적 소화를 위한 적합한 시약의 예는 관련 기술분야에 공지되어 있으며, 제한 없이, 트립신, 케모트립신, Lys-C, Arg-C, Asp-N, Lys-N, BNPS-스카톨, CNBr, 카스파제, 포름산, 글루타밀 엔도펩티다제, 히드록실아민, 아이오도소벤조산, 호중구 엘라스타제, 펩신, 프롤린-엔도펩티다제, 프로테이나제 K, 스타필로코쿠스 펩티다제 I, 써모리신, 및 트롬빈을 포함한다.
일부 실시양태에서, 관능성 모이어티는 비오틴 분자를 포함한다. 일부 실시양태에서, 관능성 모이어티는 반응성 화학적 모이어티, 예컨대 알키닐을 포함한다. 일부 실시양태에서, 관능성 모이어티를 접합시키는 것은 관련 기술분야에 공지된 바와 같이, 카르복시펩티다제 Y에 의한 카르복시-말단 카르복시-메틸 에스테르 기의 비오티닐화를 포함한다.
일부 실시양태에서, 가용화 모이어티는 폴리펩티드에 첨가된다. 도 10b는 예를 들어 가용화 링커를 폴리펩티드에 접합시키는 프로세스를 사용한 폴리펩티드의 말단 아미노산에 첨가된 가용화 모이어티의 비-제한적 예를 예시한다.
일부 실시양태에서, 링커 접합 모이어티 (1012)를 포함하는 말단 변형된 폴리펩티드 (1010)는 폴리펩티드 접합 모이어티 (1022)를 포함하는 가용화 링커 (1020)에 접합된다. 일부 실시양태에서, 가용화 링커는 가용화 중합체, 예컨대 생체분자 (예를 들어, 반점 형상으로서 나타내어짐)를 포함한다. 일부 실시양태에서, 10121022 사이에 형성된 연결 (1032)을 포함하는 생성된 링커-접합된 폴리펩티드 (1030)는 표면 접합 모이어티 (1034)를 추가로 포함한다. 따라서, 일부 실시양태에서 본원에서 제공된 방법 및 조성물은 폴리펩티드의 말단 단부를 그들의 용해도를 증가시키는 모이어티로 변형시키는데 유용하다. 일부 실시양태에서, 가용화 모이어티는 단편화 (예를 들어, 효소적 단편화, 예를 들어 트립신을 사용함)로부터 발생되고, 상대적으로 불용성인 작은 폴리펩티드에 대해 유용하다. 예를 들어, 일부 실시양태에서, 폴리펩티드 풀 중의 짧은 폴리펩티드는 중합체 (예를 들어, 짧은 올리고, 당, 또는 다른 하전된 중합체)를 폴리펩티드에 접합시킴으로써 가용화될 수 있다.
일부 실시양태에서, 샘플 웰의 1개 이상의 표면 (예를 들어, 샘플 웰의 측벽)은 변형될 수 있다. 샘플 웰 측벽의 부동태화 및/또는 오염방지의 비-제한적 예는 바닥 표면에의 단일 분자 고정화를 촉진시키는데 사용될 수 있는 변형된 표면을 갖는 샘플 웰의 예시 개략도가 예시된 도 10c에 나타내어진다. 일부 실시양태에서, 1040은 SiO2이다. 일부 실시양태에서, 1042는 폴리펩티드 접합 모이어티 (예를 들어, TCO, 테트라진, N3, 알킨, 알데히드, NCO, NHS, 티올, 알켄, DBCO, BCN, TPP, 비오틴, 또는 다른 적합한 접합 모이어티)이다. 일부 실시양태에서, 1050은 TiO2 또는 Al2O3이다. 일부 실시양태에서, 1052는 소수성 C4-18 분자, 폴리테트라플루오로에틸렌 화합물 (예를 들어, (CF2)4-12), 폴리올, 예컨대 폴리에틸렌 글리콜 (예를 들어, PEG3-100), 풀리프로필렌 글리콜, 폴리옥시에틸렌 글리콜, 또는 그의 조합 또는 변이, 또는 쯔비터이온, 예컨대 술포베타인이다. 일부 실시양태에서, 1060은 Si이다. 일부 실시양태에서, 1070은 Al이다. 일부 실시양태에서, 1080은 TiN이다.
발광 표지
본원에 사용된 바와 같이, 발광 표지는 1개 이상의 광자를 흡수하고, 이어서 하나 이상의 시간 지속기간 후에 1개 이상의 광자를 방출할 수 있는 분자이다. 일부 실시양태에서, 상기 용어는 맥락에 따라 "표지" 또는 "발광 분자"와 상호교환가능하게 사용된다. 본원에 기재된 특정 실시양태에 따른 발광 표지는 표지된 친화도 시약의 발광 표지, 표지된 펩티다제 (예를 들어, 표지된 엑소펩티다제, 표지된 비-특이적 엑소펩티다제)의 발광 표지, 표지된 펩티드의 발광 표지, 표지된 보조인자의 발광 표지, 또는 본원에 기재된 또 다른 표지된 조성물을 지칭할 수 있다. 일부 실시양태에서, 본 출원에 따른 발광 표지는 1개 이상의 표지된 아미노산을 포함하는 표지된 폴리펩티드의 표지된 아미노산을 지칭한다.
일부 실시양태에서, 발광 표지는 제1 및 제2 발색단을 포함할 수 있다. 일부 실시양태에서, 제1 발색단의 여기된 상태는 제2 발색단에의 에너지 전달을 통한 완화가 가능하다. 일부 실시양태에서, 에너지 전달은 푀르스터 공명 에너지 전달 (FRET)이다. 이러한 FRET 쌍은 표지를 혼합물 중의 복수개의 발광 표지 중에서로부터 구별하는 것을 보다 용이하게 만드는 특성을 갖는 발광 표지를 제공하는데 유용할 수 있다- 예를 들어, 도 1c의 표지된 압타머 (106)에 대해 본원에 예시되고 기재된 바와 같이. 추가의 다른 실시양태에서, FRET 쌍은 제1 발광 표지의 제1 발색단 및 제2 발광 표지의 제2 발색단을 포함한다- 예를 들어, 표지된 보조인자를 사용한 표지된 펩티드의 시퀀싱에 대해 본원에 예시되고 기재된 바와 같이 (예를 들어, 도 9 참조). 특정 실시양태에서, FRET 쌍은 제1 스펙트럼 범위에서 여기 에너지를 흡수하고, 제2 스펙트럼 범위에서 발광을 방출할 수 있다.
일부 실시양태에서, 발광 표지는 형광단 또는 염료를 지칭한다. 전형적으로, 발광 표지는 방향족 또는 헤테로방향족 화합물을 포함하며, 피렌, 안트라센, 나프탈렌, 나프틸아민, 아크리딘, 스틸벤, 인돌, 벤즈인돌, 옥사졸, 카르바졸, 티아졸, 벤조티아졸, 벤즈옥사졸, 페난트리딘, 페녹사진, 포르피린, 퀴놀린, 에티듐, 벤즈아미드, 시아닌, 카르보시아닌, 살리실레이트, 안트라닐레이트, 쿠마린, 플루오로세인, 로다민, 크산텐, 또는 다른 유사 화합물일 수 있다.
일부 실시양태에서, 발광 표지는 하기 중 1종 이상으로부터 선택되는 염료를 포함한다: 5/6-카르복시로다민 6G, 5-카르복시로다민 6G, 6-카르복시로다민 6G, 6-TAMRA, 아베리어(Abberior)® 스타(STAR) 440SXP, 아베리어® 스타 470SXP, 아베리어® 스타 488, 아베리어® 스타 512, 아베리어® 스타 520SXP, 아베리어® 스타 580, 아베리어® 스타 600, 아베리어® 스타 635, 아베리어® 스타 635P, 아베리어® 스타 레드, 알렉사 플루오르(Alexa Fluor)® 350, 알렉사 플루오르® 405, 알렉사 플루오르® 430, 알렉사 플루오르® 480, 알렉사 플루오르® 488, 알렉사 플루오르® 514, 알렉사 플루오르® 532, 알렉사 플루오르® 546, 알렉사 플루오르® 555, 알렉사 플루오르® 568, 알렉사 플루오르® 594, 알렉사 플루오르® 610-X, 알렉사 플루오르® 633, 알렉사 플루오르® 647, 알렉사 플루오르® 660, 알렉사 플루오르® 680, 알렉사 플루오르® 700, 알렉사 플루오르® 750, 알렉사 플루오르® 790, AMCA, ATTO 390, ATTO 425, ATTO 465, ATTO 488, ATTO 495, ATTO 514, ATTO 520, ATTO 532, ATTO 542, ATTO 550, ATTO 565, ATTO 590, ATTO 610, ATTO 620, ATTO 633, ATTO 647, ATTO 647N, ATTO 655, ATTO 665, ATTO 680, ATTO 700, ATTO 725, ATTO 740, ATTO Oxa12, ATTO Rho101, ATTO Rho11, ATTO Rho12, ATTO Rho13, ATTO Rho14, ATTO Rho3B, ATTO Rho6G, ATTO Thio12, BD 호리즌(Horizon)™ V450, 바디피(BODIPY)® 493/501, 바디피® 530/550, 바디피® 558/568, 바디피® 564/570, 바디피® 576/589, 바디피® 581/591, 바디피® 630/650, 바디피® 650/665, 바디피® FL, 바디피® FL-X, 바디피® R6G, 바디피® TMR, 바디피® TR, CAL 플루오르® 골드 540, CAL 플루오르® 그린 510, CAL 플루오르® 오렌지 560, CAL 플루오르® 레드 590, CAL 플루오르® 레드 610, CAL 플루오르® 레드 615, CAL 플루오르® 레드 635, 캐스케이드(Cascade)® 블루, CF™350, CF™405M, CF™405S, CF™488A, CF™514, CF™532, CF™543, CF™546, CF™555, CF™568, CF™594, CF™620R, CF™633, CF™633-V1, CF™640R, CF™640R-V1, CF™640R-V2, CF™660C, CF™660R, CF™680, CF™680R, CF™680R-V1, CF™750, CF™770, CF™790, 크로메오(Chromeo)™ 642, 크로미스(Chromis) 425N, 크로미스 500N, 크로미스 515N, 크로미스 530N, 크로미스 550A, 크로미스 550C, 크로미스 550Z, 크로미스 560N, 크로미스 570N, 크로미스 577N, 크로미스 600N, 크로미스 630N, 크로미스 645A, 크로미스 645C, 크로미스 645Z, 크로미스 678A, 크로미스 678C, 크로미스 678Z, 크로미스 770A, 크로미스 770C, 크로미스 800A, 크로미스 800C, 크로미스 830A, 크로미스 830C, Cy®3, Cy®3.5, Cy®3B, Cy®5, Cy®5.5, Cy®7, 다이라이트(DyLight)® 350, 다이라이트® 405, 다이라이트® 415-Co1, 다이라이트® 425Q, 다이라이트® 485-LS, 다이라이트® 488, 다이라이트® 504Q, 다이라이트® 510-LS, 다이라이트® 515-LS, 다이라이트® 521-LS, 다이라이트® 530-R2, 다이라이트® 543Q, 다이라이트® 550, 다이라이트® 554-R0, 다이라이트® 554-R1, 다이라이트® 590-R2, 다이라이트® 594, 다이라이트® 610-B1, 다이라이트® 615-B2, 다이라이트® 633, 다이라이트® 633-B1, 다이라이트® 633-B2, 다이라이트® 650, 다이라이트® 655-B1, 다이라이트® 655-B2, 다이라이트® 655-B3, 다이라이트® 655-B4, 다이라이트® 662Q, 다이라이트® 675-B1, 다이라이트® 675-B2, 다이라이트® 675-B3, 다이라이트® 675-B4, 다이라이트® 679-C5, 다이라이트® 680, 다이라이트® 683Q, 다이라이트® 690-B1, 다이라이트® 690-B2, 다이라이트® 696Q, 다이라이트® 700-B1, 다이라이트® 700-B1, 다이라이트® 730-B1, 다이라이트® 730-B2, 다이라이트® 730-B3, 다이라이트® 730-B4, 다이라이트® 747, 다이라이트® 747-B1, 다이라이트® 747-B2, 다이라이트® 747-B3, 다이라이트® 747-B4, 다이라이트® 755, 다이라이트® 766Q, 다이라이트® 775-B2, 다이라이트® 775-B3, 다이라이트® 775-B4, 다이라이트® 780-B1, 다이라이트® 780-B2, 다이라이트® 780-B3, 다이라이트® 800, 다이라이트® 830-B2, 다이오믹스(Dyomics)-350, 다이오믹스-350XL, 다이오믹스-360XL, 다이오믹스-370XL, 다이오믹스-375XL, 다이오믹스-380XL, 다이오믹스-390XL, 다이오믹스-405, 다이오믹스-415, 다이오믹스-430, 다이오믹스-431, 다이오믹스-478, 다이오믹스-480XL, 다이오믹스-481XL, 다이오믹스-485XL, 다이오믹스-490, 다이오믹스-495, 다이오믹스-505, 다이오믹스-510XL, 다이오믹스-511XL, 다이오믹스-520XL, 다이오믹스-521XL, 다이오믹스-530, 다이오믹스-547, 다이오믹스-547P1, 다이오믹스-548, 다이오믹스-549, 다이오믹스-549P1, 다이오믹스-550, 다이오믹스-554, 다이오믹스-555, 다이오믹스-556, 다이오믹스-560, 다이오믹스-590, 다이오믹스-591, 다이오믹스-594, 다이오믹스-601XL, 다이오믹스-605, 다이오믹스-610, 다이오믹스-615, 다이오믹스-630, 다이오믹스-631, 다이오믹스-632, 다이오믹스-633, 다이오믹스-634, 다이오믹스-635, 다이오믹스-636, 다이오믹스-647, 다이오믹스-647P1, 다이오믹스-648, 다이오믹스-648P1, 다이오믹스-649, 다이오믹스-649P1, 다이오믹스-650, 다이오믹스-651, 다이오믹스-652, 다이오믹스-654, 다이오믹스-675, 다이오믹스-676, 다이오믹스-677, 다이오믹스-678, 다이오믹스-679P1, 다이오믹스-680, 다이오믹스-681, 다이오믹스-682, 다이오믹스-700, 다이오믹스-701, 다이오믹스-703, 다이오믹스-704, 다이오믹스-730, 다이오믹스-731, 다이오믹스-732, 다이오믹스-734, 다이오믹스-749, 다이오믹스-749P1, 다이오믹스-750, 다이오믹스-751, 다이오믹스-752, 다이오믹스-754, 다이오믹스-776, 다이오믹스-777, 다이오믹스-778, 다이오믹스-780, 다이오믹스-781, 다이오믹스-782, 다이오믹스-800, 다이오믹스-831, e플루오르(eFluor)® 450, 에오신(Eosin), FITC, 플루오레세인(Fluorescein), 하이라이트(HiLyte)™ 플루오르(Fluor) 405, 하이라이트™ 플루오르 488, 하이라이트™ 플루오르 532, 하이라이트™ 플루오르 555, 하이라이트™ 플루오르 594, 하이라이트™ 플루오르 647, 하이라이트™ 플루오르 680, 하이라이트™ 플루오르 750, IRDye® 680LT, IRDye® 750, IRDye® 800CW, JOE, 라이트사이클러(LightCycler)® 640R, 라이트사이클러® 레드 610, 라이트사이클러® 레드 640, 라이트사이클러® 레드 670, 라이트사이클러® 레드 705, 리사민 로다민 B, 나프토플루오레세인, 오레곤 그린(Oregon Green)® 488, 오레곤 그린® 514, 퍼시픽 블루(Pacific Blue)™, 퍼시픽 그린(Pacific Green)™, 퍼시픽 오렌지(Pacific Orange)™, PET, PF350, PF405, PF415, PF488, PF505, PF532, PF546, PF555P, PF568, PF594, PF610, PF633P, PF647P, 콰사르(Quasar)® 570, 콰사르® 670, 콰사르® 705, 로다민 123, 로다민 6G, 로다민 B, 로다민 그린, 로다민 그린-X, 로다민 레드, ROX, 세타(Seta)™ 375, 세타™ 470, 세타™ 555, 세타™ 632, 세타™ 633, 세타™ 650, 세타™ 660, 세타™ 670, 세타™ 680, 세타™ 700, 세타™ 750, 세타™ 780, 세타™ APC-780, 세타™ PerCP-680, 세타™ R-PE-670, 세타™ 646, 세타우(SeTau) 380, 세타우 425, 세타우 647, 세타우 405, 스퀘어(Square) 635, 스퀘어 650, 스퀘어 660, 스퀘어 672, 스퀘어 680, 술포로다민 101, TAMRA, TET, 텍사스 레드(Texas Red)®, TMR, TRITC, 야키마 옐로우(Yakima Yellow)™, 제논(Zenon)®, Zy3, Zy5, Zy5.5, 및 Zy7.
발광
일부 측면에서, 본 출원은 발광 표지의 하나 이상의 발광 특성에 기반한 폴리펩티드 시퀀싱 및/또는 확인에 관한 것이다. 일부 실시양태에서, 발광 표지는 발광 수명, 발광 강도, 휘도, 흡수 스펙트럼, 방출 스펙트럼, 발광 양자 수율, 또는 그의 2개 이상의 조합에 기반하여 확인된다. 일부 실시양태에서, 발광 표지의 복수개의 유형은 상이한 발광 수명, 발광 강도, 휘도, 흡수 스펙트럼, 방출 스펙트럼, 발광 양자 수율, 또는 그의 2개 이상의 조합에 기반하여 서로로부터 구별될 수 있다. 확인은 발광 표지와 회합된 아미노산의 하나의 유형 (예를 들어, 단일 유형 또는 유형의 하위세트)의 정확한 동일성 및/또는 양을 할당하는 것을 의미할 수 있으며, 또한 아미노산의 다른 유형에 비해 폴리펩티드에서 아미노산 위치를 할당하는 것을 의미할 수 있다.
일부 실시양태에서, 발광은 발광 표지를 일련의 별개의 광 펄스에 노출시키고, 표지로부터 방출된 각각의 광자의 타이밍 또는 다른 특성을 평가함으로써 검출된다. 일부 실시양태에서, 표지로부터 순차적으로 방출된 복수개의 광자에 대한 정보를 합계하고 평가하여 표지를 확인하며, 그에 의해 아미노산의 연관된 유형을 확인한다. 일부 실시양태에서, 표지의 발광 수명을 표지로부터 순차적으로 방출된 복수개의 광자로부터 결정하고, 발광 수명을 사용하여 표지를 확인할 수 있다. 일부 실시양태에서, 표지의 발광 강도를 표지로부터 순차적으로 방출된 복수개의 광자로부터 결정하고, 발광 강도를 사용하여 표지를 확인할 수 있다. 일부 실시양태에서, 표지의 발광 수명 및 발광 강도를 표지로부터 순차적으로 방출된 복수개의 광자로부터 결정하고, 발광 수명 및 발광 강도를 사용하여 표지를 확인할 수 있다.
본 출원의 일부 측면에서, 단일 폴리펩티드 분자는 복수개의 별개의 광 펄스에 노출되고, 일련의 방출된 광자는 검출되고 분석된다. 일부 실시양태에서, 일련의 방출된 광자는 실험의 시간에 걸쳐 반응 샘플에 존재하고 변화하지 않는 단일 폴리펩티드 분자에 관한 정보를 제공한다. 그러나, 일부 실시양태에서, 일련의 방출된 광자는 상이한 시간에서 반응 샘플에 존재하는 (예를 들어, 반응 또는 프로세스가 진행됨에 따라) 일련의 상이한 분자에 관한 정보를 제공한다. 제한으로서가 아니라 예로서, 이러한 정보는 본 출원에 따라 화학적 또는 효소적 분해로 처리된 폴리펩티드를 시퀀싱하고/거나 확인하는데 사용될 수 있다.
특정 실시양태에서, 발광 표지는 시간 지속기간 후에 1개의 광자를 흡수하고, 1개의 광자를 방출한다. 일부 실시양태에서, 표지의 발광 수명은 시간 지속기간을 측정함으로써 결정되거나 추정될 수 있다. 일부 실시양태에서, 표지의 발광 수명은 다중 펄스 사건 및 방출 사건에 대한 복수개의 시간 지속기간을 측정함으로써 결정되거나 추정될 수 있다. 일부 실시양태에서, 표지의 발광 수명은 시간 지속기간을 측정함으로써 표지의 복수개의 유형의 발광 수명 중에서 구별될 수 있다. 일부 실시양태에서, 표지의 발광 수명은 다중 펄스 사건 및 방출 사건에 대한 복수개의 시간 지속기간을 측정함으로써 표지의 복수개의 유형의 발광 수명 중에서 구별될 수 있다. 특정 실시양태에서, 표지는 표지의 발광 수명을 결정하거나 추정함으로써 표지의 복수개의 유형 중에서 확인되거나 구별된다. 특정 실시양태에서, 표지는 표지의 복수개의 유형의 복수개의 발광 수명 중에서 표지의 발광 수명을 구별함으로써 표지의 복수개의 유형 중에서 확인되거나 구별된다.
발광 표지의 발광 수명의 결정은 임의의 적합한 방법을 사용하여 (예를 들어, 적합한 기법을 사용하여 수명을 측정함으로써 또는 방출의 시간-의존성 특징을 결정함으로써) 수행될 수 있다. 일부 실시양태에서, 하나의 표지의 발광 수명을 결정하는 것은 또 다른 표지에 비해 수명을 결정하는 것을 포함한다. 일부 실시양태에서, 표지의 발광 수명을 결정하는 것은 참조물에 비해 수명을 결정하는 것을 포함한다. 일부 실시양태에서, 표지의 발광 수명을 결정하는 것은 수명 (예를 들어, 형광 수명)을 측정하는 것을 포함한다. 일부 실시양태에서, 표지의 발광 수명을 결정하는 것은 수명을 지시하는 하나 이상의 시간적 특징을 결정하는 것을 포함한다. 일부 실시양태에서, 표지의 발광 수명은 여기 펄스에 비해 하나 이상의 시간-게이팅된 창에 걸쳐 발생하는 복수개의 방출 사건 (예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 30, 40, 50, 60, 70, 80, 90, 100개, 또는 그 초과의 방출 사건)의 분포에 기반하여 결정될 수 있다. 예를 들어, 표지의 발광 수명은 여기 펄스에 관하여 측정된 광자 도착 시간의 분포에 기반하여 상이한 발광 수명을 갖는 복수개의 표지로부터 구별될 수 있다.
발광 표지의 발광 수명은 표지가 여기된 상태에 도달한 후에 방출된 광자의 타이밍을 지시하며, 표지는 광자의 타이밍을 지시하는 정보에 의해 구별될 수 있음이 인지되어야 한다. 일부 실시양태는 표지에 의해 방출된 광자와 연관된 시간을 측정함으로써 표지의 발광 수명에 기반하여 표지를 복수개의 표지로부터 구별하는 것을 포함할 수 있다. 시간의 분포는 분포로부터 결정될 수 있는 발광 수명의 지시를 제공할 수 있다. 일부 실시양태에서, 표지는 예컨대 시간의 분포를 공지된 표지에 상응하는 참조 분포와 비교함으로써, 시간의 분포에 기반하여 복수개의 표지로부터 구별가능하다. 일부 실시양태에서, 발광 수명에 대한 값은 시간의 분포로부터 결정된다.
본원에 사용된 바와 같이, 일부 실시양태에서, 발광 강도는 펄싱된 여기 에너지의 전달에 의해 여기되고 있는 발광 표지에 의해 방출된 단위 시간당 방출된 광자의 수를 지칭한다. 일부 실시양태에서, 발광 강도는 펄싱된 여기 에너지의 전달에 의해 여기되고 있는 표지에 의해 방출된 단위 시간당 방출된 광자의 검출된 수를 지칭하며, 특정한 센서 또는 센서의 세트에 의해 검출된다.
본원에 사용된 바와 같이, 일부 실시양태에서, 휘도는 발광 표지당 평균 방출 강도에 대해 보고하는 파라미터를 지칭한다. 따라서, 일부 실시양태에서, "방출 강도"는 일반적으로 1개 이상의 표지를 포함하는 조성물의 휘도를 지칭하는데 사용될 수 있다. 일부 실시양태에서, 표지의 휘도는 그의 양자 수율 및 소광 계수의 결과물과 동등하다.
본원에 사용된 바와 같이, 일부 실시양태에서, 발광 양자 수율은 방출 사건을 발생시키는 주어진 파장에서 또는 주어진 스펙트럼 범위 내에서 여기 사건의 분율을 지칭하며, 전형적으로 1 미만이다. 일부 실시양태에서, 본원에 기재된 발광 표지의 발광 양자 수율은 0 내지 약 0.001, 약 0.001 내지 약 0.01, 약 0.01 내지 약 0.1, 약 0.1 내지 약 0.5, 약 0.5 내지 0.9, 또는 약 0.9 내지 1이다. 일부 실시양태에서, 표지는 발광 양자 수율을 결정하거나 추정함으로써 확인된다.
본원에 사용된 바와 같이, 일부 실시양태에서, 여기 에너지는 광원으로부터의 광의 펄스이다. 일부 실시양태에서, 여기 에너지는 가시 스펙트럼에 있다. 일부 실시양태에서, 여기 에너지는 자외선 스펙트럼에 있다. 일부 실시양태에서, 여기 에너지는 적외선 스펙트럼에 있다. 일부 실시양태에서, 여기 에너지는 복수개의 방출된 광자가 검출되는 발광 표지의 흡수 최대값 또는 그 부근이다. 특정 실시양태에서, 여기 에너지는 약 500 nm 내지 약 700 nm (예를 들어, 약 500 nm 내지 약 600 nm, 약 600 nm 내지 약 700 nm, 약 500 nm 내지 약 550 nm, 약 550 nm 내지 약 600 nm, 약 600 nm 내지 약 650 nm, 또는 약 650 nm 내지 약 700 nm)이다. 특정 실시양태에서, 여기 에너지는 단색성이거나 스펙트럼 범위에 국한될 수 있다. 일부 실시양태에서, 스펙트럼 범위는 약 0.1 nm 내지 약 1 nm, 약 1 nm 내지 약 2 nm, 또는 약 2 nm 내지 약 5 nm의 범위를 갖는다. 일부 실시양태에서, 스펙트럼 범위는 약 5 nm 내지 약 10 nm, 약 10 nm 내지 약 50 nm, 또는 약 50 nm 내지 약 100 nm의 범위를 갖는다.
시퀀싱
본 출원의 측면은 생물학적 중합체, 예컨대 폴리펩티드 및 단백질을 시퀀싱하는 것에 관한 것이다. 본원에 사용된 바와 같이, 폴리펩티드 또는 단백질에 관하여 "시퀀싱", "서열 결정", "서열을 결정하는 것" 및 유사한 용어는 폴리펩티드 또는 단백질의 부분적 서열 정보 뿐만 아니라 완전한 서열 정보의 결정을 포함한다. 즉, 상기 용어는 서열 비교, 핑거프린팅, 확률론적 핑거프린팅, 및 표적 분자에 관한 유사한 수준의 정보, 뿐만 아니라 관심의 영역 내의 표적 분자의 각각의 아미노산의 발현 확인 및 순서결정을 포함한다. 일부 실시양태에서, 상기 용어는 폴리펩티드의 단일 아미노산을 확인하는 것을 포함한다. 추가의 다른 실시양태에서, 폴리펩티드의 1개 초과의 아미노산이 확인된다. 본원에 사용된 바와 같이, 일부 실시양태에서, 아미노산에 관하여 "확인하는 것", "동일성을 결정하는 것" 및 유사한 용어는 아미노산의 발현 동일성의 결정 뿐만 아니라 아미노산의 발현 동일성의 확률의 결정을 포함한다. 예를 들어, 일부 실시양태에서, 아미노산은 아미노산이 특이적 유형의 것일 확률 (예를 들어, 0% 내지 100%)을 결정함으로써, 또는 복수개의 특이적 유형의 각각에 대한 확률을 결정함으로써 확인된다. 따라서, 일부 실시양태에서, 본원에 사용된 바와 같은 용어 "아미노산 서열", "폴리펩티드 서열", 및 "단백질 서열"은 폴리펩티드 또는 단백질 물질 자체를 지칭할 수 있으며, 특이적 폴리펩티드 또는 단백질을 생화학적으로 특징규명하는 특이적 서열 정보 (예를 들어, 하나의 말단으로부터 또 다른 말단으로 아미노산의 순서를 나타내는 문자의 연속)에 제한되지 않는다.
일부 실시양태에서, 폴리펩티드 분자의 시퀀싱은 폴리펩티드 분자에서 적어도 2개 (예를 들어, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 7개, 적어도 8개, 적어도 9개, 적어도 10개, 적어도 11개, 적어도 12개, 적어도 13개, 적어도 14개, 적어도 15개, 적어도 16개, 적어도 17개, 적어도 18개, 적어도 19개, 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 또는 그 초과)의 아미노산을 확인하는 것을 포함한다. 일부 실시양태에서, 적어도 2개의 아미노산은 인접 아미노산이다. 일부 실시양태에서, 적어도 2개의 아미노산은 비-인접 아미노산이다.
일부 실시양태에서, 폴리펩티드 분자의 시퀀싱은 폴리펩티드 분자에서 모든 아미노산의 100% 미만 (예를 들어, 99% 미만, 95% 미만, 90% 미만, 85% 미만, 80% 미만, 75% 미만, 70% 미만, 65% 미만, 60% 미만, 55% 미만, 50% 미만, 45% 미만, 40% 미만, 35% 미만, 30% 미만, 25% 미만, 20% 미만, 15% 미만, 10% 미만, 5% 미만, 1% 미만 또는 그 미만)의 확인을 포함한다. 예를 들어, 일부 실시양태에서, 폴리펩티드 분자의 시퀀싱은 폴리펩티드 분자에서 아미노산의 하나의 유형의 100% 미만의 확인 (예를 들어, 폴리펩티드 분자에서 하나의 유형의 모든 아미노산의 부분의 확인)을 포함한다. 일부 실시양태에서, 폴리펩티드 분자의 시퀀싱은 폴리펩티드 분자에서 아미노산의 각각의 유형의 100% 미만의 확인을 포함한다.
일부 실시양태에서, 폴리펩티드 분자의 시퀀싱은 폴리펩티드에서 아미노산의 적어도 1개, 적어도 5개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 55개, 적어도 60개, 적어도 65개, 적어도 70개, 적어도 75개, 적어도 80개, 적어도 85개, 적어도 90개, 적어도 95개, 적어도 100개 또는 그 초과의 유형의 확인을 포함한다.
일부 실시양태에서, 본 출원은 시간 경과에 따라 폴리펩티드의 말단에 존재하는 일련의 아미노산을 확인함으로써 (예를 들어, 말단에서의 아미노산의 반복적인 검출 및 절단에 의해) 폴리펩티드를 시퀀싱하기 위한 조성물 및 방법을 제공한다. 추가의 다른 실시양태에서, 본 출원은 폴리펩티드의 표지된 아미노 함량을 확인하고, 참조 서열 데이터베이스와 비교함으로써 폴리펩티드를 시퀀싱하기 위한 조성물 및 방법을 제공한다.
일부 실시양태에서, 본 출원은 폴리펩티드의 복수개의 단편을 시퀀싱함으로써 폴리펩티드를 시퀀싱하기 위한 조성물 및 방법을 제공한다. 일부 실시양태에서, 폴리펩티드를 시퀀싱하는 것은 복수개의 폴리펩티드 단편에 대한 서열 정보를 조합하여 폴리펩티드에 대한 서열을 확인하고/거나 결정하는 것을 포함한다. 일부 실시양태에서, 서열 정보를 조합하는 것은 컴퓨터 하드웨어 및 소프트웨어에 의해 수행될 수 있다. 본원에 기재된 방법은 관련된 폴리펩티드의 세트, 예컨대 유기체의 전체 프로테옴이 시퀀싱되는 것을 허용할 수 있다. 일부 실시양태에서, 복수개의 단일 분자 시퀀싱 반응은 본 출원의 측면에 따라 병렬적으로 (예를 들어, 단일 칩 상에서) 수행된다. 예를 들어, 일부 실시양태에서, 복수개의 단일 분자 시퀀싱 반응은 단일 칩 상의 별개의 샘플 웰에서 각각 수행된다.
일부 실시양태에서, 본원에서 제공된 방법은 단백질의 복합체 혼합물을 포함하는 샘플에서의 개별적인 단백질의 시퀀싱 및 확인에 사용될 수 있다. 일부 실시양태에서, 본 출원은 단백질의 복합체 혼합물에서 개별적인 단백질을 고유하게 확인하는 방법을 제공한다. 일부 실시양태에서, 개별적인 단백질은 단백질의 부분적 아미노산 서열을 결정함으로써 혼합된 샘플에서 검출된다. 일부 실시양태에서, 단백질의 부분적 아미노산 서열은 대략 5 내지 50개의 아미노산의 인접 스트레치 내에 있다.
임의의 툭장한 이론에 구애되기를 원하지는 않지만, 대부분의 인간 단백질은 프로테옴 데이터베이스를 참조로 불완전한 서열 정보를 사용하여 확인될 수 있다고 믿어진다. 예를 들어, 인간 프로테옴의 간단한 모델링은 단백질의 대략 98%가 6 내지 40개의 아미노산의 스트레치 내에서 아미노산의 단지 4개의 유형을 검출함으로써 고유하게 확인될 수 있음을 보였다 (예를 들어, 문헌 [Swaminathan, et al. PLoS Comput Biol. 2015, 11(2):e1004080]; 및 [Yao, et al. Phys. Biol. 2015, 12(5):055003] 참조). 따라서, 단백질의 복합체 혼합물은 대략 6 내지 40개의 아미노산의 짧은 폴리펩티드 단편으로 분해될 (예를 들어, 화학적으로 분해될, 효소적으로 분해될) 수 있으며, 이 폴리펩티드 라이브러리의 시퀀싱은 원래 복합체 혼합물에 존재하는 단백질의 각각의 동일성 및 풍부도를 밝힐 것이다. 부분적 서열 정보를 결정하는 것에 의한 선택적 아미노산 표지화 및 폴리펩티드를 확인하기 위한 조성물 및 방법은 그 전문이 참조로 포함되는 발명의 명칭이 "단일 분자 펩티드 시퀀싱"인 2015년 9월 15일에 출원된 미국 특허 출원 번호 15/510,962에 상세하게 기재되어 있다.
실시양태는 높은 정확도, 예컨대 적어도 약 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 99.9%, 99.99%, 99.999%, 또는 99.9999%의 정확도로 단일 폴리펩티드 분자를 시퀀싱할 수 있다. 일부 실시양태에서, 단일 분자 시퀀싱에 사용되는 표적 분자는 고체 지지체의 표면, 예컨대 샘플 웰의 바닥 표면 또는 측벽 표면에 고정화된 폴리펩티드이다. 샘플 웰은 또한 본 출원에 따른 시퀀싱 반응에 필요한 임의의 다른 시약, 예컨대 1개 이상의 적합한 버퍼, 보조-인자, 표지된 친화도 시약, 및 효소 (예를 들어, 발광 표지되거나 비표지될 수 있는 촉매적 활성 또는 불활성 엑소펩티다제 효소)를 함유할 수 있다.
상기 기재된 바와 같이, 일부 실시양태에서, 본 출원에 따른 시퀀싱은 아미노산이 특이적 유형의 것일 확률을 결정함으로써 아미노산을 확인하는 것을 포함한다. 통상적인 단백질 확인 시스템은 폴리펩티드를 확인하기 위해 폴리펩티드에서의 각각의 아미노산의 확인을 요구한다. 그러나, 폴리펩티드에서 각각의 아미노산을 정확하게 확인하는 것은 곤란하다. 예를 들어, 제1 인식 분자가 제1 아미노산과 회합하는 상호작용으로부터 수집된 데이터는 2개의 아미노산 사이에 구별하기 위해 제2 인식 분자가 제2 아미노산과 회합하는 상호작용으로부터 수집된 데이터와는 충분히 상이하지 않을 수 있다. 일부 실시양태에서, 본 출원에 따른 시퀀싱은 통상적인 단백질 확인 시스템과는 달리, 단백질에서의 각각의 아미노산의 확인을 요구하지 않는 (그러나 불가능하게 하지는 않는) 단백질 확인 시스템을 사용함으로써 이 문제를 회피한다.
따라서, 일부 실시양태에서, 본 출원에 따른 시퀀싱은 단백질을 확인하기 위해 기계 학습 기법을 사용하는 단백질 확인 시스템을 사용하여 수행될 수 있다. 일부 실시양태에서, 시스템은 (1) 실시간 단백질 시퀀싱 장치를 사용하여 단백질의 폴리펩티드에 관한 데이터를 수집하고; (2) 기계 학습 모델 및 수집된 데이터를 사용하여 특정 아미노산이 각각의 위치에서의 폴리펩티드의 일부일 확률을 확인하고; (3) 확인된 확률을 "확률론적 핑거프린트"로서 사용하여 단백질을 확인함으로써 작동한다. 일부 실시양태에서, 단백질의 폴리펩티드에 관한 데이터는 아미노산에 선택적으로 결합하는 시약을 사용하여 수득될 수 있다. 예로서, 시약 및/또는 아미노산은 여기 에너지의 인가에 반응하여 광을 방출하는 발광 표지로 표지될 수 있다. 이 예에서, 단백질 시퀀싱 장치는 샘플에서의 시약과 아미노산의 결합 상호작용 동안 단백질 (예를 들어, 폴리펩티드)의 샘플에 여기 에너지를 인가할 수 있다. 일부 실시양태에서, 시퀀싱 장치에서 1개 이상의 센서 (예를 들어, 광검출기, 전기 센서, 및/또는 임의의 다른 적합한 유형의 센서)는 결합 상호작용을 검출할 수 있다. 이번에는, 검출된 광 방출로부터 수집되고/거나 유래된 데이터는 기계 학습 모델에 제공될 수 있다. 기계 학습 모델 및 연관된 시스템 및 방법은 그 전문이 참조로 포함되는 발명의 명칭이 "기계 학습 가능화된 단백질 확인"인 2019년 6월 12일에 출원된 미국 가특허 출원 번호 62/860,750에 상세하게 기재되어 있다.
본 출원에 따른 시퀀싱은 일부 측면에서, 기질의 (예를 들어, 고체 지지체, 예를 들어 칩, 예를 들어 본원에 기재된 바와 같은 통합 장치의) 표면 상에 폴리펩티드를 고정화하는 것을 포함할 수 있다. 일부 실시양태에서, 폴리펩티드는 기질 상의 샘플 웰의 표면 상에 (예를 들어, 샘플 웰의 바닥 표면 상에) 고정화될 수 있다. 일부 실시양태에서, 폴리펩티드의 N-말단 아미노산은 고정화된다 (예를 들어, 표면에 부착된다). 일부 실시양태에서, 폴리펩티드의 C-말단 아미노산은 고정화된다 (예를 들어, 표면에 부착된다). 일부 실시양태에서, 1개 이상의 비-말단 아미노산은 고정화된다 (예를 들어, 표면에 부착된다). 고정화된 아미노산(들)은 예를 들어 본 출원에 기재된 바와 같이 임의의 적합한 공유 또는 비-공유 연결을 사용하여 부착될 수 있다. 일부 실시양태에서, 복수개의 폴리펩티드는 예를 들어 기질 상의 샘플 웰의 어레이에서 복수개의 샘플 웰에 부착된다 (예를 들어, 각각의 샘플 웰의 표면, 예를 들어 바닥 표면에 부착된 1개의 폴리펩티드를 가짐).
본 출원에 따른 시퀀싱은 일부 측면에서, 단일 분자 분석을 허용하는 시스템을 사용하여 수행될 수 있다. 시스템은 통합 장치 및 통합 장치와 접속하도록 구성된 기기를 포함할 수 있다. 통합 장치는 화소의 어레이를 포함할 수 있고, 여기서 개별적인 화소는 샘플 웰 및 적어도 1개의 광검출기를 포함한다. 통합 장치의 샘플 웰은 통합 장치의 표면 상에 또는 이를 통해 형성되고, 통합 장치의 표면 상에 정치된 샘플을 수용하도록 구성될 수 있다. 집합적으로, 샘플 웰은 샘플 웰의 어레이로 간주될 수 있다. 복수개의 샘플 웰은 샘플 웰의 적어도 일부분이 단일 샘플 (예를 들어, 단일 분자, 예컨대 폴리펩티드)을 수용하도록 적합한 크기 및 형상을 가질 수 있다. 일부 실시양태에서, 샘플 웰 내의 샘플의 수는 일부 샘플 웰이 1개의 샘플을 함유하는 반면, 다른 것은 0개, 2개 이상의 샘플을 함유하도록 통합 장치의 샘플 웰 중에서 분포될 수 있다.
여기 광은 통합 장치에 대해 외부의 1개 이상의 광원으로부터 통합 장치에 제공된다. 통합 장치의 광학 성분은 광원으로부터의 여기 광을 수신하고, 통합 장치의 샘플 웰의 어레이를 향해 광을 방향화하고, 샘플 웰 내의 조명 영역을 조광할 수 있다. 일부 실시양태에서, 샘플 웰은 샘플이 샘플 웰의 표면에 근접하게 보유되는 것을 허용하는 배열을 가질 수 있으며, 이는 샘플로의 여기 광의 전달 및 샘플로부터의 방출 광의 검출을 용이하게 할 수 있다. 조명 영역 내에 위치된 샘플은 여기 광에 의해 조광되는 것에 반응하여 방출 광을 방출할 수 있다. 예를 들어, 샘플은 형광 마커로 표지될 수 있으며, 이는 여기 광의 조명을 통해 여기된 상태를 달성하는 것에 반응하여 광을 방출한다. 샘플에 의해 방출된 방출 광은 그 후 분석되는 샘플을 갖는 샘플 웰에 상응하는 화소 내의 1개 이상의 광검출기에 의해 검출될 수 있다. 일부 실시양태에 따라 대략 10,000개의 화소 내지 1,000,000개의 화소의 수의 범위일 수 있는 샘플 웰의 어레이에 걸쳐 수행되는 경우, 다중 샘플은 병렬적으로 분석될 수 있다.
통합 장치는 샘플 웰 어레이 중에서 여기 광을 수신하고, 여기 광을 방향화하기 위한 광학 시스템을 포함할 수 있다. 광학 시스템은 여기 광을 통합 장치에 커플링시키고, 여기 광을 다른 광학 성분에 방향화하도록 구성된 1개 이상의 그레이팅 커플러를 포함할 수 있다. 광학 시스템은 그레이팅 커플러로부터의 여기 광을 샘플 웰 어레이를 향해 방향화하는 광학 성분을 포함할 수 있다. 이러한 광학 성분은 광학 스플리터, 광학 컴바이너, 및 도파관을 포함할 수 있다. 일부 실시양태에서, 1개 이상의 광학 스플리터는 그레이팅 커플러로부터의 여기 광을 커플링시키고, 여기 광을 도파관 중 적어도 하나에 전달할 수 있다. 일부 실시양태에 따르면, 광학 스플리터는 도파관의 각각이 실질적으로 유사한 양의 여기 광을 수신하도록, 여기 광의 전달이 모든 도파관에 걸쳐 실질적으로 균일한 것을 허용하는 배열을 가질 수 있다. 이러한 실시양태는 통합 장치의 샘플 웰에 의해 수신되는 여기 광의 균일성을 개선시킴으로써 통합 장치의 성능을 개선시킬 수 있다. 통합 장치에 포함되는 예를 들어, 여기 광을 샘플 웰에 커플링시키고, 방출 광을 광검출기에 방향화하기 위한 적합한 성분의 예는 둘 다 그 전문이 참조로 포함되는 발명의 명칭이 "분자를 탐지하고, 검출하고, 분석하기 위한 통합 장치"인 2015년 8월 7일에 출원된 미국 특허 출원 번호 14/821,688, 및 발명의 명칭이 "분자를 탐지하고, 검출하고, 분석하기 위한 외부 광원을 갖는 통합 장치"인 2014년 11월 17일에 출원된 미국 특허 출원 번호 14/543,865에 기재되어 있다. 통합 장치에서 실행될 수 있는 적합한 그레이팅 커플러 및 도파관의 예는 그 전문이 참조로 포함되는 발명의 명칭이 "광학 커플러 및 도파관 시스템"인 2017년 12월 15일에 출원된 미국 특허 출원 번호 15/844,403에 기재되어 있다.
추가적인 광자 구조는 샘플 웰 및 광검출기 사이에 위치되고, 여기 광이 광검출기에 도달하는 것을 감소시키거나 방지하도록 구성될 수 있으며, 이는 그렇지 않다면 방출 광을 검출하는데 있어서 신호 잡음에 기여할 수 있다. 일부 실시양태에서, 통합 장치에 대한 회로로서 작용할 수 있는 금속 층은 또한 공간 필터로서 작용할 수 있다. 적합한 광자 구조의 예는 스펙트럼 필터, 편광 필터, 및 공간 필터를 포함할 수 있으며, 그 전문이 참조로 포함되는 발명의 명칭이 "광학 거부 광자 구조"인 2018년 7월 23일에 출원된 미국 특허 출원 번호 16/042,968에 기재되어 있다.
통합 장치의 위치된 성분은 여기 공급원을 통합 장치에 위치시키고 정렬하는데 사용될 수 있다. 이러한 성분은 렌즈, 거울, 프리즘, 윈도우, 애퍼처, 감쇠기, 및/또는 광학 섬유를 비롯한 광학 성분을 포함할 수 있다. 추가적인 기계적 성분은 1개 이상의 정렬 성분의 제어를 허용하기 위해 기기에 포함될 수 있다. 이러한 기계적 성분은 작동기, 스테퍼 모터, 및/또는 놉을 포함할 수 있다. 적합한 여기 공급원 및 정렬 메커니즘의 예는 그 전문이 참조로 포함되는 발명의 명칭이 "펄스화된 레이저 및 시스템"인 2016년 5월 20일에 출원된 미국 특허 출원 번호 15/161,088에 기재되어 있다. 빔-조종 모듈의 또 다른 예는 본원에 참조로 포함되는 발명의 명칭이 "컴팩트 빔 형상화 및 조종 어셈블리"인 2017년 12월 14일에 출원된 미국 특허 출원 번호 15/842,720에 기재되어 있다. 적합한 여기 공급원의 추가적인 예는 그 전문이 참조로 포함되는 발명의 명칭이 "분자를 탐지하고, 검출하고, 분석하기 위한 통합 장치"인 2015년 8월 7일에 출원된 미국 특허 출원 번호 14/821,688에 기재되어 있다.
통합 장치의 개별적인 화소와 함께 위치된 광검출기(들)는 화소의 상응하는 샘플 웰로부터 방출 광을 검출하도록 구성되고 위치될 수 있다. 적합한 광검출기의 예는 그 전문이 참조로 포함되는 발명의 명칭이 "수신된 광자의 시간적 비닝을 위한 통합 장치"인 2015년 8월 7일에 출원된 미국 특허 출원 번호 14/821,656에 기재되어 있다. 일부 실시양태에서, 샘플 웰 및 그의 각각의 광검출기(들)는 공통 축을 따라 정렬될 수 있다. 이 방식으로, 광검출기(들)는 화소 내의 샘플 웰과 중첩될 수 있다.
검출된 방출 광의 특징은 방출 광과 회합된 마커를 확인하기 위한 지시를 제공할 수 있다. 이러한 특징은 광검출기에 의해 검출된 광자의 도착 시간, 광검출기에 의해 시간 경과에 따라 축적된 광자의 양, 및/또는 2개 이상의 광검출기에 걸친 광자의 분포를 비롯한 임의의 적합한 유형의 특징을 포함할 수 있다. 일부 실시양태에서, 광검출기는 샘플의 방출 광과 연관된 하나 이상의 타이밍 특징 (예를 들어, 발광 수명)의 검출을 허용하는 배열을 가질 수 있다. 광검출기는 여기 광의 펄스가 통합 장치를 통해 전파된 후에 광자 도착 시간의 분포를 검출할 수 있으며, 도착 시간의 분포는 샘플의 방출 광의 타이밍 특징 (예를 들어, 발광 수명에 대한 대용물)의 지시를 제공할 수 있다. 일부 실시양태에서, 1개 이상의 광검출기는 마커에 의해 방출된 방출 광의 확률 (예를 들어, 발광 강도)의 지시를 제공한다. 일부 실시양태에서, 복수개의 광검출기는 방출 광의 공간 분포를 포획하도록 사이징되고 배열될 수 있다. 그 후, 1개 이상의 광검출기로부터의 출력 신호는 복수개의 마커 중에서 마커를 구별하는데 사용될 수 있고, 여기서 복수개의 마커는 샘플 내에서 샘플을 확인하는데 사용될 수 있다. 일부 실시양태에서, 샘플은 다중 여기 에너지에 의해 여기될 수 있으며, 방출 광 및/또는 다중 여기 에너지에 반응하여 샘플에 의해 방출된 방출 광의 타이밍 특징은 복수개의 마커로부터 마커를 구별할 수 있다.
작동에서, 샘플 웰 내의 샘플의 병렬 분석은 여기 광을 사용하여 웰 내의 샘플의 일부 또는 전부를 여기시키고, 샘플 방출로부터의 신호를 광검출기로 검출함으로써 수행된다. 샘플로부터의 방출 광은 상응하는 광검출기에 의해 검출되고, 적어도 하나의 전기 신호로 전환될 수 있다. 전기 신호는 통합 장치의 회로에서 전도선을 따라 전송될 수 있으며, 이는 통합 장치와 접속된 기기에 연결될 수 있다. 전기 신호는 이어서 프로세싱되고/거나 분석될 수 있다. 전기 신호의 프로세싱 또는 분석은 기기 상에 또는 외부에 위치한 적합한 컴퓨팅 장치 상에서 일어날 수 있다.
기기는 기기 및/또는 통합 장치의 작동을 제어하기 위한 사용자 인터페이스를 포함할 수 있다. 사용자 인터페이스는 사용자가 기기 내로 정보, 예컨대 기기의 기능화를 제어하는데 사용되는 명령 및/또는 설정을 입력하는 것을 허용하도록 구성될 수 있다. 일부 실시양태에서, 사용자 인터페이스는 버튼, 스위치, 다이알, 및 음성 명령을 위한 마이크를 포함할 수 있다. 사용자 인터페이스는 사용자가 기기 및/또는 통합 장치의 성능에 대한 피드백, 예컨대 통합 장치 상의 광검출기로부터의 판독 신호에 의해 수득된 적절한 정렬 및/또는 정보를 수신하는 것을 허용할 수 있다. 일부 실시양태에서, 사용자 인터페이스는 스피커를 사용하여 피드백을 제공하여 가청적 피드백을 제공할 수 있다. 일부 실시양태에서, 사용자 인터페이스는 사용자에게 가시적 피드백을 제공하기 위한 인디케이터 라이트 및/또는 디스플레이 스크린을 포함할 수 있다.
일부 실시양태에서, 기기는 컴퓨팅 장치와 연결하도록 구성된 컴퓨터 인터페이스를 포함할 수 있다. 컴퓨터 인터페이스는 USB 인터페이스, 파이어와이어(FireWire) 인터페이스, 또는 임의의 다른 적합한 컴퓨터 인터페이스일 수 있다. 컴퓨팅 장치는 임의의 일반용 컴퓨터, 예컨대 랩탑 또는 데스크탑 컴퓨터일 수 있다. 일부 실시양태에서, 컴퓨팅 장치는 적합한 컴퓨터 인터페이스를 통해 무선 네트워크 상에 접근가능한 서버 (예를 들어, 클라우드-기반 서버)일 수 있다. 컴퓨터 인터페이스는 기기 및 컴퓨팅 장치 사이의 정보의 통신을 용이하게 할 수 있다. 기기를 제어하고/거나 구성하기 위한 입력 정보는 컴퓨팅 장치에 제공되고, 컴퓨터 인터페이스를 통해 기기에 전송될 수 있다. 기기에 의해 생성된 출력 정보는 컴퓨터 인터페이스를 통해 컴퓨팅 장치에 의해 수신될 수 있다. 출력 정보는 기기의 성능, 통합 장치의 성능, 및/또는 광검출기의 판독 신호로부터 생성된 데이터에 관한 피드백을 포함할 수 있다.
일부 실시양태에서, 기기는 통합 장치의 1개 이상의 광검출기로부터 수신된 데이터를 분석하고/거나, 제어 신호를 여기 공급원(들)에 전송하도록 구성된 프로세싱 장치를 포함할 수 있다. 일부 실시양태에서, 프로세싱 장치는 일반용 프로세서, 특수-개조된 프로세서 (예를 들어, 중앙 처리 장치 (CPU), 예컨대 1개 이상의 마이크로프로세서 또는 마이크로컨트롤러 코어, 필드-프로그램가능 게이트 어레이 (FPGA), 용도-특이적 집적 회로 (ASIC), 맞춤 집적 회로, 디지털 신호 프로세서 (DSP), 또는 그의 조합)를 포함할 수 있다. 일부 실시양태에서, 1개 이상의 광검출기로부터의 데이터의 프로세싱은 기기의 프로세싱 장치 및 외부 컴퓨팅 장치 둘 다에 의해 수행될 수 있다. 다른 실시양태에서, 외부 컴퓨팅 장치는 생략될 수 있으며, 1개 이상의 광검출기로부터의 데이터의 프로세싱은 단지 통합 장치의 프로세싱 장치에 의해 수행될 수 있다.
일부 실시양태에 따르면, 발광 방출 특징에 기반하여 샘플을 분석하도록 구성된 기기는 상이한 발광 분자 사이의 발광 수명 및/또는 강도의 차이 및/또는 상이한 환경에서의 동일한 발광 분자의 수명 및/또는 강도 사이의 차이를 검출할 수 있다. 본 발명자들은 발광 방출 수명의 차이가 상이한 발광 분자의 존재 또는 부재 사이에 분별하고/거나, 발광 분자가 처리되는 상이한 환경 또는 조건 사이에 분별하는데 사용될 수 있음을 인식하고 인지하였다. 일부의 경우, 수명 (예를 들어 방출 파장이라기 보다는)에 기반하여 발광 분자를 분별하는 것은 시스템의 측면을 단순화할 수 있다. 예로서, 파장-식별 광학장치 (예컨대 파장 필터, 각각의 파장에 대한 전용 검출기, 상이한 파장에서의 전용 펄스화된 광원, 및/또는 회절 광학장치)는 수명에 기반하여 발광 분자를 분별하는 경우에 수가 감소되거나 제거될 수 있다. 일부의 경우, 단일 특징적인 파장에서 작동하는 단일 펄스화된 광원은 광학 스펙트럼의 동일한 파장 영역 내에서 방출하지만, 측정가능하게 상이한 수명을 갖는 상이한 발광 분자를 여기시키는데 사용될 수 있다. 동일한 파장 영역에서 방출하는 상이한 발광 분자를 여기시키고 분별하기 위해, 상이한 파장에서 작동하는 다중 공급원이라기 보다는, 단일 펄스화된 광원을 사용하는 분석 시스템은 작동 및 유지가 덜 복잡하고, 보다 컴팩트할 수 있으며, 보다 적은 비용으로 제조될 수 있다.
발광 수명 분석에 기반한 분석 시스템은 특정 이익을 가질 수 있지만, 분석 시스템에 의해 수득된 정보의 양 및/또는 검출 정확도는 추가적인 검출 기법을 허용함으로써 증가될 수 있다. 예를 들어, 시스템의 일부 실시양태는 추가적으로 발광 파장 및/또는 발광 강도에 기반하여 샘플의 하나 이상의 특성을 분별하도록 구성될 수 있다. 일부 실행에서, 발광 강도는 추가적으로 또는 대안적으로 상이한 발광 표지 사이에 구별하는데 사용될 수 있다. 예를 들어, 일부 발광 표지는 비록 그들의 붕괴 속도가 유사할 수 있더라도, 유의하게 상이한 강도에서 방출되거나, 그들의 여기의 확률의 유의한 차이 (예를 들어, 적어도 약 35%의 차이)를 가질 수 있다. 비닝된 신호를 측정된 여기 광에 참조함으로써, 강도 수준에 기반하여 상이한 발광 표지를 구별하는 것이 가능할 수 있다.
일부 실시양태에 따르면, 상이한 발광 수명은 발광 표지의 여기 후 발광 방출 사건을 시간-비닝하도록 구성된 광검출기로 구별될 수 있다. 시간 비닝은 광검출기에 대한 단일 전하-축적 사이클 동안 일어날 수 있다. 전하-축적 사이클은 광-생성된 운반체가 시간-비닝 검출기의 빈에 축적되는 판독 사건 사이의 간격이다. 시간-비닝 광검출기의 예는 본원에 참조로 포함되는 발명의 명칭이 "수신된 광자의 시간적 비닝을 위한 통합 장치"인 2015년 8월 7일에 출원된 미국 특허 출원 번호 14/821,656에 기재되어 있다. 일부 실시양태에서, 시간-비닝 광검출기는 광자 흡수/운반체 생성 영역에서 전하 운반체를 생성하고, 전하 운반체를 전하 운반체 저장 영역에서 전하 운반체 저장 빈으로 직접적으로 전달할 수 있다. 이러한 실시양태에서, 시간-비닝 광검출기는 운반체 운행/포획 영역을 포함하지 않을 수 있다. 이러한 시간-비닝 광검출기는 "직접 비닝 화소"로 지칭될 수 있다. 직접 비닝 화소를 비롯한 시간-비닝 광검출기의 예는 본원에 참조로 포함되는 발명의 명칭이 "직접 비닝 화소를 갖는 통합 광검출기"인 2017년 12월 22일에 출원된 미국 특허 출원 번호 15/852,571에 기재되어 있다.
일부 실시양태에서, 동일한 유형의 형광단의 상이한 수는, 각각의 시약이 발광 광도에 기반하여 확인될 수 있도록, 샘플 중의 상이한 시약에 연결될 수 있다. 예를 들어, 2개의 형광단은 제1 표지된 친화도 시약에 연결될 수 있고, 4개 이상의 형광단은 제2 표지된 친화도 시약에 연결될 수 있다. 형광단의 상이한 수 때문에, 상이한 친화도 시약과 연관된 상이한 여기 및 형광단 방출 확률이 있을 수 있다. 예를 들어, 빈의 겉보기 강도가 제1 표지된 친화도 시약에 대해서보다 유의하게 더 높도록, 신호 축적 간격 동안 제2 표지된 친화도 시약에 대한 보다 많은 방출 사건이 있을 수 있다.
본 발명자들은 형광단 붕괴 속도 및/또는 형광단 강도에 기반하여 뉴클레오티드 또는 임의의 다른 생물학적 또는 화학적 샘플을 구별하는 것이 광학 여기 및 검출 시스템의 단순화를 가능하게 할 수 있음을 인식하고 인지하였다. 예를 들어, 광학 여기는 단일-파장 공급원 (예를 들어, 다중 공급원이라기 보다는 하나의 특징적인 파장을 생성하는 공급원 또는 다중 상이한 특징적인 파장에서 작동하는 공급원)으로 수행될 수 있다. 추가적으로, 파장 식별 광학장치 및 필터는 검출 시스템에 필요하지 않을 수 있다. 또한, 단일 광검출기는 상이한 형광단으로부터의 방출을 검출하도록 각각의 샘플 웰에 대해 사용될 수 있다. 어구 "특징적인 파장" 또는 "파장"은 방사선의 제한된 밴드폭 내의 중심 또는 우세한 파장 (예를 들어,펄스화된 광원에 의한 20 nm 밴드폭 출력 내의 중심 또는 피크 파장)을 지칭하는데 사용된다. 일부의 경우, "특징적인 파장" 또는 "파장"은 공급원에 의한 방사선 출력의 총 밴드폭 내의 피크 파장을 지칭하는데 사용될 수 있다.
컴퓨터 기법
본 출원의 측면은 본원에 기재된 폴리펩티드 시퀀싱 기법에 의해 생성된 데이터를 분석하기 위한 컴퓨터 기법에 관한 것이다. 상기 논의된 바와 같이, 예를 들어 도 1a 및 1b와 관련하여, 이들 시퀀싱 기법을 사용함으로써 생성된 데이터는 아미노산 인식 분자가 시퀀싱되는 폴리펩티드의 말단에서 노출된 아미노산과 회합되는 경우를 지시하는 일련의 신호 펄스를 포함할 수 있다. 일련의 신호 펄스는 시간 경과에 따라 분해 프로세스가 연속적인 아미노산을 제거하는데 있어서 진행됨에 따라, 현재 말단에서의 아미노산의 유형에 따라, 다양한 하나 이상의 특색 (예를 들어, 펄스 지속기간, 펄스간 지속기간, 규모의 변화)을 가질 수 있다. 생성된 신호 트레이스는 각각의 아미노산과 연관된 다양한 하나 이상의 특색으로부터 발생하는 특징적인 패턴을 포함할 수 있다. 본원에 기재된 컴퓨터 기법은 아미노산 서열을 확인하기 위해 이들 시퀀싱 기법을 사용하여 수득된 이러한 데이터를 분석하는 것의 일부로서 실행될 수 있다.
일부 실시양태는 폴리펩티드의 분해 프로세스 동안 데이터를 수득하고, 데이터를 분석하여 분해 프로세스 동안 폴리펩티드의 말단에서 순차적으로 노출된 아미노산에 상응하는 데이터의 부분을 결정하고, 폴리펩티드를 대표하는 아미노산 서열을 출력하는 것을 포함할 수 있다. 도 11은 본원에 기재된 폴리펩티드 시퀀싱 기법을 사용하여 수득된 데이터를 분석함으로써 아미노산 서열을 확인하기 위한 예시적인 프로세싱 파이프라인 (1100)의 도해이다. 도 11에 나타내어진 바와 같이, 시퀀싱 데이터 (1102)를 분석하는 것은 회합 사건 확인 기법 (1104) 및 아미노산 확인 기법 (1106)을 사용하여 아미노산 서열(들) (1108)을 출력하는 것을 포함할 수 있다.
본원에서 논의된 바와 같이, 시퀀싱 데이터 (1102)는 폴리펩티드의 분해 프로세스 동안 수득될 수 있다. 일부 실시양태에서, 시퀀싱 데이터 (1102)는 분해 프로세스 동안 폴리펩티드의 말단에서의 아미노산 동일성을 지시한다. 일부 실시양태에서, 시퀀싱 데이터 (1102)는 분해 프로세스 동안 말단에서의 말단 아미노산의 상이한 유형에 결합하는 1개 이상의 아미노산 인식 분자에 의해 생성된 신호를 지시한다. 예시적인 시퀀싱 데이터는 상기 논의된 도 1a 및 1b에 나타내어진다.
신호가 어떻게 분해 프로세스 동안 생성되는지에 따라, 시퀀싱 데이터 (1102)는 신호의 1개 이상의 상이한 유형을 지시할 수 있다. 일부 실시양태에서, 시퀀싱 데이터 (1102)는 분해 프로세스 동안 발생된 발광 신호를 지시한다. 예를 들어, 발광 표지는 아미노산 인식 분자를 표지하는데 사용될 수 있고, 발광 표지에 의해 방출된 발광은 아미노산 인식 분자가 특정한 아미노산과 회합하여, 발광 신호를 발생시킬 때 검출될 수 있다. 일부 실시양태에서, 시퀀싱 데이터 (1102)는 분해 프로세스 동안 생성된 전기 신호를 지시한다. 예를 들어, 시퀀싱되는 폴리펩티드 분자는 나노포어에 고정화될 수 있고, 전기 신호 (예를 들어, 전도도의 변화)는 아미노산 인식 분자가 특정한 아미노산과 회합할 때 검출될 수 있다.
일부 실시양태는 시퀀싱 데이터 (1102)를 분석하여 분해 프로세스 동안 폴리펩티드의 말단에서 순차적으로 노출된 아미노산에 상응하는 시퀀싱 데이터 (1102)의 부분을 결정하는 것을 포함한다. 도 11에 나타내어진 바와 같이, 회합 사건 확인 기법 (1104)은 시퀀싱 데이터 (1102)에 접근하고, 시퀀싱 데이터를 분석하여 회합 사건에 상응하는 시퀀싱 데이터 (1102)의 부분을 확인할 수 있다. 회합 사건은 데이터에서 특징적인 패턴, 예컨대 도 1b에 나타내어진 CP1 및 CP2에 상응할 수 있다. 일부 실시양태에서, 회합 사건 확인 기법 (1104)은 일련의 절단 사건을 검출하고, 연속적인 절단 사건 사이의 시퀀싱 데이터 (1102)의 부분을 결정하는 것을 포함할 수 있다. 예로서, 도 1b에 나타내어진 CP1 및 CP2 사이의 절단 사건은 CP1에 상응하는 데이터의 제1 부분이 제1 회합 사건으로서 확인될 수 있고, CP2에 상응하는 데이터의 제2 부분이 제2 회합 사건으로서 확인될 수 있도록 검출될 수 있다.
일부 실시양태는 시퀀싱 데이터 (1102)의 결정된 부분 중 1개 이상에 대한 아미노산의 유형을 확인하는 것을 포함한다. 도 11에 나타내어진 바와 같이, 아미노산 확인 기법 (1106)은 회합 사건 확인 기법 (1104)에 의해 확인된 회합 사건 중 1개 이상에 대한 아미노산의 유형을 결정하는데 사용될 수 있다. 일부 실시양태에서, 회합 사건 확인 기법 (1104)에 의해 확인된 데이터의 개별적인 부분은 펄스 패턴을 포함할 수 있고, 아미노산 확인 기법 (1106)은 그의 각각의 펄스 패턴에 기반하여 부분 중 1개 이상에 대한 아미노산의 유형을 결정할 수 있다. 도 1b에 관하여, 아미노산 확인 기법 (1106)은 CP1에 대한 아미노산의 제1 유형 및 CP2에 대한 아미노산의 제2 유형을 확인할 수 있다. 일부 실시양태에서, 아미노산의 유형을 결정하는 것은 데이터가 역치 값을 초과하는 경우에 데이터의 부분, 예컨대 회합 사건 확인 기법 (1104)을 사용하여 확인된 부분 내의 시간의 양을 확인하고, 시간의 양을 데이터의 부분에 대한 지속기간과 비교하는 것을 포함할 수 있다. 예를 들어, CP1에 대한 아미노산의 유형을 확인하는 것은 신호가 역치 값, 예컨대 시간 기간, pd 초과인 경우, 신호가 ML 초과인 경우, CP1 내의 시간의 양을 결정하고, 이를 CP1에 대한 시간의 총 지속기간과 비교하는 것을 포함할 수 있다. 일부 실시양태에서, 아미노산의 유형을 결정하는 것은 회합 사건 확인 기법 (1102)에 의해 확인된 데이터의 1개 이상의 부분에 대한 하나 이상의 펄스 지속기간을 확인하는 것을 포함할 수 있다. 예를 들어, CP1에 대한 아미노산의 유형을 확인하는 것은 CP1에 대한 펄스 지속기간, 예컨대 시간 기간, pd를 결정하는 것을 포함할 수 있다. 일부 실시양태에서, 아미노산의 유형을 결정하는 것은 회합 사건 확인 기법 (1104)을 사용하여 확인된 데이터의 1개 이상의 부분에 대한 하나 이상의 펄스간 지속기간을 확인하는 것을 포함할 수 있다. 예를 들어, CP1에 대한 아미노산의 유형을 확인하는 것은 펄스간 지속기간, 예컨대 ipd를 확인하는 것을 포함할 수 있다.
시퀀싱 데이터 (1102)의 연속적인 부분에 대한 아미노산의 유형을 확인함으로써, 아미노산 확인 기법 (1106)은 폴리펩티드를 대표하는 아미노산 서열(들) (1108)을 출력할 수 있다. 일부 실시양태에서, 아미노산 서열은 회합 사건 확인 기법 (1104)을 사용하여 확인된 데이터의 부분에 상응하는 일련의 아미노산을 포함한다.
도 12는 본원에 기재된 기술의 일부 실시양태에 따른 폴리펩티드 분자의 아미노산 서열을 결정하기 위한 예시적인 프로세스 (1200)의 흐름도이다. 프로세스 (1200)는 임의의 적합한 컴퓨팅 장치(들) (예를 들어, 단일 컴퓨팅 장치, 단일 물리적 위치에 공동-위치하거나 서로로부터 원격의 다중 물리적 위치에 위치한 다중 컴퓨팅 장치, 클라우드 컴퓨팅 시스템의 1개 이상의 컴퓨터 장치 부분 등) 상에서 수행될 수 있는데, 이는 본원에 기재된 기술의 측면이 이와 관련하여 제한되지 않기 때문이다. 일부 실시양태에서, 회합 사건 확인 기법 (1104) 및 아미노산 확인 기법 (1106)은 프로세스 (1200)의 일부 또는 전부를 수행하여 아미노산 서열(들)을 결정할 수 있다.
프로세스 (1200)는 단일 폴리펩티드 분자를 1개 이상의 말단 아미노산 인식 분자와 접촉시키는 것을 포함하는 작용 (1202)에서 시작한다. 다음으로, 프로세스 (1200)는 1개 이상의 말단 아미노산 인식 분자와 단일 폴리펩티드가 분해되고 있는 동안 단일 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 회합을 지시하는 일련의 신호 펄스를 검출하는 것을 포함하는 작용 (1104)으로 진행한다. 일련의 펄스는 예컨대 회합 사건 확인 기법 (1104) 및 아미노산 확인 기법 (1106)을 사용함으로써 단일 폴리펩티드 분자의 시퀀싱을 허용할 수 있다.
일부 실시양태에서, 프로세스 (1200)는 예컨대 아미노산 확인 기법 (1106)을 사용함으로써, 일련의 신호 펄스에서의 제1 특징적인 패턴에 기반하여 단일 폴리펩티드 분자에서 아미노산의 제1 유형을 확인하는 것을 포함하는 작용 (1206)을 포함할 수 있다.
도 13은 본원에 기재된 기술의 일부 실시양태에 따른 폴리펩티드를 대표하는 아미노산 서열을 결정하기 위한 예시적인 프로세스 (1300)의 흐름도이다. 프로세스 (1300)는 임의의 적합한 컴퓨팅 장치(들) (예를 들어, 단일 컴퓨팅 장치, 단일 물리적 위치에 공동-위치하거나 서로로부터 원격의 다중 물리적 위치에 위치한 다중 컴퓨팅 장치, 클라우드 컴퓨팅 시스템의 1개 이상의 컴퓨터 장치 부분 등) 상에서 수행될 수 있는데, 이는 본원에 기재된 기술의 측면이 이와 관련하여 제한되지 않기 때문이다. 일부 실시양태에서, 회합 사건 확인 기법 (1104) 및 아미노산 확인 기법 (1106)은 프로세스 (1300)의 일부 또는 전부를 수행하여 아미노산 서열(들)을 결정할 수 있다.
프로세스 (1300)는 폴리펩티드의 분해 프로세스 동안 데이터가 수득되는 작용 (1302)에서 시작한다. 일부 실시양태에서, 데이터는 분해 프로세스 동안 폴리펩티드의 말단에서의 아미노산 동일성을 지시한다. 일부 실시양태에서, 데이터는 분해 프로세스 동안 말단에서의 말단 아미노산의 상이한 유형에 결합하는 1개 이상의 아미노산 인식 분자에 의해 생성된 신호를 지시한다. 일부 실시양태에서, 데이터는 분해 프로세스 동안 생성된 발광 신호를 지시한다. 일부 실시양태에서, 데이터는 분해 프로세스 동안 생성된 전기 신호를 지시한다.
다음으로, 프로세스 (1300)는 예컨대 회합 사건 확인 기법 (1104) 및 아미노산 확인 기법 (1106)을 사용함으로써, 데이터를 분석하여 분해 프로세스 동안 폴리펩티드의 말단에서 순차적으로 노출된 아미노산에 상응하는 데이터의 부분을 결정하는 작용 (1304)으로 진행한다. 일부 실시양태에서, 데이터를 분석하는 것은 일련의 절단 사건을 검출하고, 예컨대 회합 사건 확인 기법 (1104)을 사용함으로써 연속적인 절단 사건 사이의 데이터의 부분을 결정하는 것을 추가로 포함한다.
일부 실시양태에서, 데이터를 분석하는 것은 예컨대 아미노산 확인 기법 (1106)을 사용함으로써, 개별적인 부분의 각각에 대한 아미노산의 유형을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 개별적인 부분의 각각은 펄스 패턴을 포함하고, 데이터를 분석하는 것은 그의 각각의 펄스 패턴에 기반하여 부분 중 1개 이상에 대한 아미노산의 유형을 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 아미노산의 유형을 결정하는 것은 데이터가 역치 값 초과인 경우에 부분 내의 시간의 양을 확인하고, 시간의 양을 부분에 대한 시간의 지속기간과 비교하는 것을 추가로 포함한다. 일부 실시양태에서, 아미노산의 유형을 결정하는 것은 1개 이상의 부분의 각각에 대한 적어도 하나의 펄스 지속기간을 확인하는 것을 추가로 포함한다. 일부 실시양태에서, 아미노산의 유형을 결정하는 것은 1개 이상의 부분의 각각에 대한 적어도 하나의 펄스간 지속기간을 확인하는 것을 추가로 포함한다.
다음으로, 프로세스 (1300)는 폴리펩티드를 대표하는 아미노산 서열이 예컨대 사용자 인터페이스를 통해 출력되는 작용 (1306)으로 진행한다. 일부 실시양태에서, 아미노산 서열은 부분에 상응하는 일련의 아미노산을 포함한다.
본원에 기재된 실시양태 중 임의의 것과 관련하여 사용될 수 있는 컴퓨터 시스템 (1400)의 예시적인 실행은 도 14에 나타내어진다. 컴퓨터 시스템 (1400)은 1개 이상의 프로세서 (1410), 및 비-일시적 컴퓨터-판독가능 저장 매체 (예를 들어, 메모리 (1420) 및 1개 이상의 비-휘발성 저장 매체 (1430))를 포함하는 1개 이상의 제조품을 포함한다. 프로세서 (1410)는 메모리 (1420) 및 비-휘발성 저장 장치 (1430)에 대한 기록 데이터 및 그로부터의 판독 데이터를 임의의 적합한 방식으로 제어할 수 있는데, 이는 본원에 기재된 기술의 측면이 이와 관련하여 제한되지 않기 때문이다. 본원에 기재된 기능성 중 임의의 것을 수행하기 위해, 프로세서 (1410)는 프로세서 (1410)에 의한 실행을 위해 프로세서-실행가능 명령을 저장하는 비-일시적 컴퓨터-판독가능 저장 매체로서 기능할 수 있는 1개 이상의 비-일시적 컴퓨터-판독가능 저장 매체 (예를 들어, 메모리 (1420))에 저장된 1개 이상의 프로세서-실행가능 명령을 실행할 수 있다.
컴퓨팅 장치 (1400)는 또한 컴퓨팅 장치가 다른 컴퓨팅 장치와 (예를 들어,네트워크 상에서) 통신할 수 있는 네트워크 입력/출력 (I/O) 인터페이스 (1440)를 포함할 수 있고, 또한 컴퓨팅 장치가 사용자에게 출력을 제공하고, 사용자로부터 입력을 수신할 수 있는 1개 이상의 사용자 I/O 인터페이스 (1450)를 포함할 수 있다. 사용자 I/O 인터페이스는 키보드, 마우스, 마이크, 디스플레이 장치 (예를 들어, 모니터 또는 터치 스크린), 스피커, 카메라, 및/또는 다양한 다른 유형의 I/O 장치와 같은 장치를 포함할 수 있다.
상기-기재된 실시양태는 다수의 방식 중 임의의 것으로 실행될 수 있다. 예를 들어, 실시양태는 하드웨어, 소프트웨어 또는 그의 조합을 사용하여 실행될 수 있다. 소프트웨어에서 실행되는 경우, 소프트웨어 코드는 단일 컴퓨팅 장치에서 제공되든지, 다중 컴퓨팅 장치 중에서 분포되든지, 임의의 적합한 프로세서 (예를 들어, 마이크로프로세서) 또는 프로세서의 집합 상에서 실행될 수 있다. 상기 기재된 기능을 수행하는 임의의 성분 또는 성분의 집합은 상기-논의된 기능을 제어하는 1개 이상의 컨트롤러로서 일반적으로 간주될 수 있음이 인지되어야 한다. 1개 이상의 컨트롤러는 다수의 방식으로, 예컨대 상기 나열된 기능을 수행하도록 마이크로코드 또는 소프트웨어를 사용하여 프로그래밍된 전용 하드웨어로, 또는 일반용 하드웨어 (예를 들어, 1개 이상의 프로세서)로 실행될 수 있다.
이와 관련하여, 본원에 기재된 실시양태의 하나의 실행은 1개 이상의 프로세서 상에서 실행되는 경우, 하나 이상의 실시양태의 상기-논의된 기능을 수행하는, 컴퓨터 프로그램 (즉, 복수개의 실행가능 명령)으로 코딩된 적어도 1개의 컴퓨터-판독가능 저장 매체 (예를 들어, RAM, ROM, EEPROM, 플래쉬 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다목적 디스크 (DVD) 또는 다른 광학 디스크 저장, 자기 카세트, 자기 테이프, 자기 디스크 저장 또는 다른 자기 저장 장치, 또는 다른 실감형, 비-일시적 컴퓨터-판독가능 저장 매체)를 포함함이 인지되어야 한다. 컴퓨터-판독가능 매체는 그에 저장된 프로그램이 본원에서 논의된 기법의 측면을 실행하기 위해 임의의 컴퓨팅 장치 상으로 로딩될 수 있도록 휴대용일 수 있다. 또한, 실행되는 경우, 상기-논의된 기능 중 임의의 것을 수행하는 컴퓨터 프로그램에 대한 언급은 호스트 컴퓨터 상에서 구동하는 응용 프로그램에 제한되지 않음이 인지되어야 한다. 오히려, 용어 컴퓨터 프로그램 및 소프트웨어는 본원에서 논의된 기법의 측면을 실행하기 위한 1개 이상의 프로세서를 프로그래밍하기 위해 채용될 수 있는 컴퓨터 코드의 임의의 유형 (예를 들어 응용 소프트웨어, 펌웨어, 마이크로코드, 또는 컴퓨터 명령의 임의의 다른 형태)을 언급하기 위해 일반적 의미에서 본원에 사용된다.
실시예
실시예 1. 화학적 절단에 의한 에드만 분해
Figure pct00017
대략 3개 내지 대략 30개의 아미노산 (n=3-30)의 표면-부착된 올리고펩티드가 제공되며, 여기서 아미노산 잔기 R1-R3은 통상적인 20가지 아미노산 또는 내인적으로 변형된 아미노산 (예를 들어, 번역후 변형에 의해 변형된) 중 임의의 것일 수 있다. 이소티오시아네이트 N-말단 반응, 단계 1에서, 이소티오시아네이트 X-NCS를 표면-부착된 올리고펩티드를 함유하는 용기에 첨가하며, 여기서 X는 페닐 (Ph), 4-NO2Ph, 4-SO3Ph, 나프틸, 벤질, 알킬, 또는 그의 유도체이다. 단계 1을 하기 조건 하에서 수행하여 X-NCS 유도체화된 N-말단 아미노산을 제공한다: 수성 버퍼 pH 4-10, MeOH 또는 EtOH 또는 IPA 알콜성 공-용매, 유기 용매 (DCM, THF, MeCN, DMF 등) 중 트리알킬아민, 20℃ 내지 50℃. 티오우레아 절단 반응, 단계 2에서, 산 또는 염기를 X-NCS 유도체화된 N-말단 아미노산을 함유하는 용기에 첨가하며, 여기서 산은 순수한 또는 수용액으로서의 아세트산, 포름산, 트리클로로아세트산, 트리플루오로아세트산, 인산, 또는 염산이거나, 염기는 트리알킬아민 또는 완충된 트리알킬아민 (예를 들어, Et3NH+AcO-)이다. 단계 2를 하기 조건 하에서 수행하여 n-1 올리고펩티드 및 티오히단토인 부산물을 제공한다: 순수한 산 또는 임의의 비의 수성/유기 공-용매로, 20℃ 내지 50℃.
실시예 2. 펩티드 표면 고정화를 위한 가용화 링커
수성 버퍼 중의 올리고펩티드 용해도를 개선시키는 것을 추구하여, 펩티드 단편은 올리고뉴클레오티드 링커와 접합되어 수용해도를 개선시키면서 또한 단일 분자 수준에서 펩티드의 표면 고정화를 위한 관능성 모이어티를 제공할 수 있음이 결정되었다. 펩티드-DNA 접합체 및 펩티드-PEG 접합체에 대해 도 15a에 도시된 예시 구조를 갖는 상이한 펩티드-링커 접합체를 합성하였다. 링커 접합은 평가된 상이한 펩티드-링커 접합체의 각각에 대해 수용액 중의 펩티드 용해도를 크게 향상시키는 것으로 관찰되었다.
펩티드-링커 접합체를 N-말단 아미노펩티다제에 의한 펩티드 N-말단에서의 아미노산 절단에 대해 평가하였다 (표 6, 하기).
표 6. 펩티드-링커 접합체의 말단 아미노산 절단.
Figure pct00018
표 6에 나타내어진 펩티드-링커 접합체를 프롤린 이미노펩티다제 ("PIP") 또는 래트 아미노펩티다제 N ("래트 APN") 중 어느 하나와 함께 인큐베이션하고, 펩티드 절단을 LCMS에 의해 모니터링하였다. 표 6으로부터의 항목 5의 절단을 입증하는 LCMS의 예는 도 15b에 나타내어진다. 모든 다른 절단 반응을 유사한 방식으로 측정하였다. 표 6에 나타내어진 바와 같이, 양으로 하전된 펩티드-DNA 접합체 ("올리고" 및 "올리고-PEG" 링커)는 시험된 아미노펩티다제에 의해 절단되지 않은 반면, DNA 올리고뉴클레오티드 링커를 갖는 모든 다른 접합체 부류 (음으로 하전된, 방향족, 소수성)는 절단되었다. 그에 비해, 양으로 하전된 펩티드-PEG 접합체는 아미노펩티다제 중 적어도 1종에 의해 절단되는 것으로 나타났다.
표지된 펩티드-링커 접합체를 사용하여, 상이한 조성의 펩티드는 단일 분자 분석을 위해 개별적인 샘플 웰 표면에 고정화될 수 있는 것으로 나타났다. 이들 실험을 위해, DNA 링커를 염료로 표지하고 (예를 들어, 펩티드-DNA 접합에 대해 도 15a에 도시된 바와 같이), 개별적인 샘플 웰 내로의 상이한 펩티드-DNA 접합체의 로딩을 염료 형광에 의해 측정하였다. 예시 로딩 실험은 도 15c에 나타내어진다. 표지된 펩티드-DNA 접합체 (50 pM)의 형광 방출을 측정함으로써, 칩 상의 샘플 웰의 적어도 18%가 표면-고정화된 접합체로 샘플 웰당 단일 점유도로 로딩되었음이 결정되었다. 이들 실험은 펩티드-링커 접합체가 비-접합된 펩티드 대응물에 비해 향상된 수용해도를 나타내고, 접합된 링커가 상이한 아미노펩티다제에 의한 펩티드의 말단 아미노산 절단을 방지하지 않으며, 상이한 조성의 펩티드-링커 접합체가 단일 분자 수준에서 칩 표면에 고정화될 수 있음을 입증하였다.
실시예 3. 폴리펩티드 기질의 엑소펩티다제 절단
다양한 아미노펩티다제의 절단 능력을 시험하였다. 펩티드 기질의 농도, 효소의 농도, 버퍼 조건, 온도, 및 인큐베이션 시간을 비롯한 절단 검정 실험의 세트를 위한 조건 및 결과는 표 7에 나타내어진다. 지시된 효소에 의한 펩티드 기질의 절단을 고성능 액체 크로마토그래피 (HPLC)를 사용하여 검정하였다. 표 7에서 "HPLC 검정 전환" 값은 절단 생성물로 전환된 펩티드 기질의 백분율을 지시한다. "HPLC 검정 전환" 값을 결정하기 위해, 동일한 출발 농도의 펩티드를 함유하는 2가지 용액을 제조하였다. 하나의 용액은 효소적 소화로 처리한 반면, 다른 용액은 임의의 효소를 함유하지 않았지만, 효소를 저장하는데 사용된 등가의 양의 버퍼로 희석되었다. 반응을 지시된 시간에서 켄칭하였다. 생성물로 전환된 반응물의 양을 효소적 소화 후에 잔류하는 출발 물질의 HPLC에 의해 수득된 피크의 면적을 비소화된 펩티드의 대조군 용액의 피크 면적으로 나눈 후, 이 비에 100을 곱함으로써 결정하였다. 표 7에서, "NH2"는 아민 기를 지시하고, "yPIP"는 와이. 페스티스 프롤린 이미노펩티다제를 지칭하고, "NPEPPS"는 퓨로마이신-민감성 아미노펩티다제를 지칭하고, "VPr"은 비브리오 프로테올리티쿠스 아미노펩티다제를 지칭하고, "EDAPN"은 엘. 뉴모필라 M1 아미노펩티다제를 지칭한다.
표 7. 아미노펩티다제에 의한 펩티드 기질의 절단.
Figure pct00019
Figure pct00020
Figure pct00021
Figure pct00022
Figure pct00023
Figure pct00024
Figure pct00025
Figure pct00026
Figure pct00027
Figure pct00028
Figure pct00029
Figure pct00030
Figure pct00031
표 7의 선택 엑소펩티다제에 대한 아미노산 절단 활성의 요약은 도 16에 나타내어진다. 특이적 절단 활성은 하기 효소에 대해 나타내어진다: "cVPr" (브이. 프로테올리티쿠스 아미노펩티다제), "yPIP" (와이. 페스티스 프롤린 이미노펩티다제), "D/E APN" (엘. 뉴모필라 M1 아미노펩티다제), hTET (피로코쿠스 호리코쉬이 TET 아미노펩티다제), 및 Pfu API (표 7에서 "PfuTET"). 말단 아미노산에 관한 특이적 활성은 나타내어진 바와 같이 분류되며, 아미노산에 대해 단일-문자 약어가 사용된다 ("XP-"는 인접한, 또는 전종단, 프롤린 (P) 잔기를 갖는 임의의 말단 아미노산 (X)을 나타낸다).
실시예 4. 단일 분자 수준에서의 고정화된 펩티드의 말단 아미노산 절단
고정화된 펩티드의 칩상 아미노산 절단을 위한 검정을 표지된 펩티드 접합체를 사용하여 개발하였다. 검정을 동역학 결합 파라미터 및 일반적 결합 친화도의 측정을 허용할 수 있는 고정화된 펩티드에 대한 엑소펩티다제의 효소적 인식 및 절단 활성을 결정하는 방법을 제공하도록 디자인하였다.
펩티드의 N-말단 아미노산 절단을 평가하기 위해, PEG 스페이서에 의해 염료에 부착된 N-말단 아스파르테이트를 함유한 염료 표지된 펩티드를 디자인하고 합성하였다. 이 펩티드는 또한 효소 프롤린 이미노펩티다제 (다른 곳에 공지되어 있고, 본원에서 "yPIP"로 지칭되는 예르시니아 페스티스로부터)에 의해 특이적으로 인식되는 변형된 아스파르테이트에 인접한 프롤린 잔기를 함유하였다. 효소 yPIP는 단지 프롤린 잔기로부터 상류의 N-말단 아미노산을 절단할 것이다.
이 및 다른 표지된 펩티드가 벌크로 yPIP에 의해 효율적으로 절단되었음을 보인 후 (예를 들어, 실시예 2에 기재된 바와 같이), 칩상 염료/펩티드 접합체 검정을 개발하여 N-말단 아미노산 절단을 단일 분자 수준에서 관찰하였다. 도 17a는 염료/펩티드 접합체 검정을 위한 일반적 스킴을 나타낸다 (삽도 패널). 나타내어진 바와 같이, 스페이서를 통해 N-말단 아미노산에 부착된 표지를 갖는 펩티드는 링커에 의해 표면에 고정화된다. 펩티다제에 노출된 후, N-말단 아미노산 절단은 검출가능한 관찰 부피로부터의 표지된 잔기의 제거를 발생시키고, 표지로부터의 신호의 수반 소실에 의해 측정된다. 삽도 패널의 우측으로 효소-펩티드 복합체는 N-말단 절단을 일반적으로 도시한다.
도 17a는 염료/펩티드 접합체 검정에 사용하기 위해 디자인되고 합성된 표지된 펩티드 구축물 (하부에서)을 나타낸다. 이들 실험에서, 로다민 염료 (ATTO Rho6G)는 N-말단에 전종단 프롤린 잔기를 갖는 펩티드의 N-말단 아스파르테이트 잔기에 부착되었다. 나타내어진 바와 같이, 펩티드는 표면 고정화를 위해 비오틴 모이어티를 갖는 가용화 DNA 링커에 추가로 접합되었다.
표지된 펩티드 접합체를 샘플 웰의 어레이를 갖는 유리 칩 상으로 로딩하였다. 칩의 영상을 호딩 전에 및 후에 획득하여 로다민 형광에 의한 단일 점유도에서 샘플 웰의 퍼센트 로딩을 결정하였다. 그 후, 효소 yPIP를 로딩된 칩 상으로 도입하고, 37℃에서 2시간 동안 인큐베이션하였다. yPIP의 도입 후 칩의 영상을 취하고, 소실된 녹색 염료의 백분율을 계산하여 N-말단 아미노산 절단을 평가하였다. 도 17b는 로딩 단계에서 6-7% 로딩 및 yPIP와의 인큐베이션 후에 이전에 로딩된 웰에서 신호의 91% 소실을 나타낸 실험으로부터의 영상화 결과를 나타내며, 이는 N-말단 아미노산 절단을 지시하였다. 도 17c는 이들 실험으로부터의 대표적인 신호 트레이스를 나타내며, 이는 표지된 펩티드의 로딩 시 염료 신호의 검출된 증가 및 yPIP에의 노출 후 염료 신호의 검출된 소실을 입증한다.
단일 분자 수준에서의 N-말단 아미노산 절단의 추가의 확인으로서, 칩상 FRET 검정을 개발하여 엑소펩티다제 인식 및 절단 활성을 평가하였다. 도 18a는 FRET 펩티드 접합체 검정 (패널 A) 및 FRET 효소 접합체 검정 (패널 B)을 일반적으로 도시한다. FRET 펩티드 접합체 검정 (패널 A)에서, 고정화된 펩티드 구축물은 링커에 부착된 FRET 공여자 표지 및 N-말단에서 부착된 FRET 수용자 표지를 포함한다. N-말단 아미노산 절단은 펩티다제에 노출되는 경우에 FRET 수용자 표지로부터의 신호의 소실에 의해 검출된다. 추가적으로, 이 디자인은 FRET 공여자 표지로부터의 방출을 따름으로써 실험 전반에 걸쳐 펩티드 접합체의 로딩을 모니터링하는 것을 허용한다.
FRET 효소 접합체 검정 (패널 B)에서, 고정화된 펩티드 구축물은 링커에 부착된 FRET 쌍의 제1 표지를 포함하고, 펩티다제는 FRET 쌍의 제2 표지로 표지된다. N-말단 아미노산 절단은 펩티드에의 펩티다제의 충분한 근접으로 및 N-말단에서의 충분한 체류 시간으로 발생할 FRET 상호작용에 기인하는 형광의 향상에 의해 검출된다. 추가적으로, 이 검정은 진행적인 절단으로 시간 경과에 따른 증가하는 FRET 신호를 검출함으로써 진행적인 엑소펩티다제에 의한 진행적인 아미노산 절단을 평가하는 것을 허용한다.
도 18a는 또한 패널 A의 FRET 펩티드 접합체 검정에 사용하기 위해 디자인되고 합성된 패널 A 하의 FRET 펩티드 구축물을 나타낸다. 나타내어진 바와 같이, FRET 펩티드 구축물은 N-말단에 전종단 프롤린 잔기를 갖는 펩티드의 N-말단 아스파르테이트 잔기에 부착된 로다민 염료 (ATTO 647N)를 포함하였다. 펩티드는 FRET를 위한 시아닌 염료 (Cy3B) 및 표면 고정화를 위한 비오틴 모이어티에 부착된 가용화 DNA 링커에 추가로 접합되었다.
이 실험에서, FRET 펩티드 구축물을 샘플 웰의 어레이를 갖는 유리 칩 상으로 로딩하고, 수집된 광을 먼저 녹색 필터 및 그 후 적색 필터에 의해 필터링하였다. FRET 펩티드 구축물의 로딩을 녹색 및 적색 필터 둘 다를 통해 통과하는 신호를 측정함으로써 검출하였다. 말단 아미노산 절단을 신호가 단지 녹색 필터에서 측정가능할 때 검출하였으며, 이는 FRET 펩티드 구축물로부터의 적색 염료 접합된 N-말단 아미노산이 yPIP에 의해 절단되었음을 지시하였다. 이 검출 패턴은 패널 C에 예시된다. 나타내어진 바와 같이, 둘 다의 염료가 yPIP의 첨가 전에 검출가능하고, 단지 녹색 염료가 yPIP와의 인큐베이션 후에 가시적인 경우, 이 검출 패턴의 변화는 펩티드의 절단에 기인하고, 광퇴색 또는 전체로서 펩티드의 소실에 기인하지 않다고 합리적으로 결론내릴 수 있다. 추가적으로, 단독의 녹색 염료로부터의 형광의 증가가 예상될 것인데, 이는 그의 방출이 적색 염료에 의해 더 이상 흡수되지 않기 때문이다.
포스폰산 및 실란을 사용한 표면 부동태화에 의해 변형된 칩 상으로의 FRET 펩티드 구축물의 로딩 후, yPIP를 도입하고, 영상을 몇몇 시점에서 수득하였다. 전체 절단 경향을 평가하기 위해, (녹색)/(녹색 + 적색)의 비를 각각의 실험에 대해 산출하였다. 이 비는 발생하는 절단의 정도에 따라 증가한다. 도 18b는 yPIP와의 인큐베이션의 상이한 시점에서 모든 애퍼처에 걸친 FRET 방출 비의 플롯이다. 나타내어진 바와 같이, 형광 방출의 비에 대한 녹색 염료 기여는 yPIP와의 인큐베이션 동안 시간 경과에 따라 증가하며, 이는 보다 많은 N-말단 아스파르테이트 잔기가 커팅되어, 단지 녹색 염료로 말단절단된 펩티드를 남겼음을 지시한다.
그 후, 커팅 효율을 어느 시점에서 염료 형광이 관찰되었는지를 결정함으로써 상이한 시점에서 평가하였다. 이는 간단한 역치화로 수행되었다 - 예를 들어, 평균 염료 방출 신호가 여기 동안 > 2.5인 경우, 염료를 존재하는 것으로 결정하였다 (각각의 상응하는 필터가 적용된 경우). 그 후, 커팅을 나타내는 애퍼처는 실험의 로딩 단계 동안 녹색 및 적색 염료 둘 다, 그러나 yPIP로 노출된 시점에서는 단지 녹색 염료를 나타낼 것이다. 도 18c에 나타내어진 바와 같이, 칩이 yPIP와의 더 긴 인큐베이션 시간에 노출됨에 따라, 점진적으로 보다 많은 커팅이 관찰되었다. 3개의 yPIP-처리된 시점의 각각에서 나타난 커팅을 나타내는 예시 신호 트레이스는 도 18d에 나타내어진다.
추가적인 실험을 yPIP 및 다른 펩티다제로 덱스트란을 사용한 표면 부동태화에 의해 변형된 칩을 사용하여 수행하였으며, 이는 칩 상으로의 펩티다제의 도입 후 시간 경과에 따라 말단 아미노산 절단의 증가를 나타내는 유사한 결과를 생성하였다. 도 18e는 yPIP와의 인큐베이션의 상이한 시점에서의 로딩된 애퍼처에 걸친 FRET 방출 비의 플롯이다. 도 18f는 아미노펩티다제와의 인큐베이션의 상이한 시점에서의 로딩된 애퍼처에 걸친 FRET 방출 비의 플롯이다. 전체적으로, 여기에서의 실험은 N-말단 아미노산 절단이 상이한 엑소펩티다제 및 상이한 표지화 전략을 사용하여 단일 분자 수준에서 실시간으로 검출가능함을 입증한다.
실시예 5. 표지된 친화도 시약에 의한 말단 아미노산 식별
단백질분해 경로에 관여하는 어댑터 단백질은 N-말단 방향족 잔기를 검출하기 위한 표지된 친화도 시약으로서 사용하기 위한 잠재적 후보로서 확인되었다. α-프로테오박테리움 (에이. 투메파시엔스)으로부터의 어댑터 단백질, ClpS2를 발현시키고, 노출된 시스테인 잔기에서 표지하였다. 도 19a는 막대기로서 나타내어진 노출된 시스테인 잔기를 갖는 ClpS2 단백질의 결정 구조를 나타낸다. 노출된 시스테인 잔기를 로다민 염료 (ATTO 532)로 표지하였다.
상이한 N-말단 방향족 잔기를 갖는 펩티드를 제조하여 표지된 ClpS2가 단일 분자 수준에서 N-말단 아미노산 식별이 가능한지 여부를 시험하였다. 이들 실험으로부터의 예시 단일 분자 강도 트레이스는 도 19b에 나타내어진다. 나타내어진 바와 같이, 신호 트레이스는 N-말단 페닐알라닌 잔기 (F, 상부 신호 트레이스), N-말단 티로신 잔기 (Y, 중간 신호 트레이스), 또는 N-말단 트립토판 잔기 (W, 하부 신호 트레이스) 중 어느 하나를 갖는 펩티드의 N-말단에 가역적으로 결합하는 표지된 친화도 시약에 상응하는 잔기-특이적 온-오프 결합 패턴을 입증한다.
단일 분자 궤적의 추가의 분석을 수행하고, 결과를 도 19c-19e에 나타내었다. 도 19c는 표지된 ClpS2에 의해 가역적으로 결합된 경우에 3개의 N-말단 잔기 중에서 식별자 펄스 지속기간 (신호 피크의 시간 지속기간)을 나타내는 플롯이다. 도 19d는 3개의 N-말단 잔기 중에서 식별자 펄스간 지속기간 (신호 펄스 사이의 시간 지속기간)을 나타내는 플롯이다. 도 19e는 펩티드 N-말단에서의 페닐알라닌, 티로신, 및 트립토판 중에서 식별자 펄스 지속기간을 추가로 예시하는 플롯을 나타낸다. 상이한 N-말단 잔기에 대한 평균 펄스 지속기간은 히스토그램 (A)-(B) 및 층상화된 히스토그램 (C)에 의해 가시화된다.
써모시노코쿠스 엘론가투스로부터의 또 다른 어댑터 단백질, ClpS (teClpS)를 류신 인식을 위한 표지된 친화도 시약으로서 사용하기 위해 평가하였다. 도 19f-19h에 나타내어진 체류 시간 분석으로부터 수득된 데이터는 표지된 teClpS 단백질이 0.71초의 평균 펄스 지속기간으로 폴리펩티드의 말단 류신 잔기와의 검출가능한 결합 상호작용을 생성함을 입증하였다. 이들 실험에 사용된 teClpS 단백질의 아미노산 서열은 표 1에 나타내어진다.
유사한 실험을 수행하여 류신 인식을 위한 잠재적 시약으로서 에이. 투메파시엔스 ClpS1 및 에스. 엘론가투스 ClpS2, 및 프롤린 인식을 위한 잠재적 시약으로서 GID4를 평가하였다. 도 19i는 에이. 투메파시엔스 ClpS1에 의한 페닐알라닌, 류신, 트립토판, 및 티로신의 구별가능한 인식을 나타낸 체류 시간 분석으로부터의 예시 결과를 나타낸다. 도 19j는 에스. 엘론가투스 ClpS2에 의한 류신 인식을 입증하는 체류 시간 분석으로부터의 예시 결과를 나타낸다. 도 19k-19l은 GID4에 의한 프롤린 인식을 입증하는 체류 시간 분석의 예시 결과를 나타낸다.
실시예 6. 분해 동안 인식에 의한 폴리펩티드 시퀀싱
진행중인 분해 반응 동안 N-말단 아미노산 인식에 의한 펩티드 시퀀싱을 평가하기 위한 실험을 수행하였다. 이들 실험으로부터의 예시 결과는 도 20a-20d에 나타내어지며, 이는 동일한 반응 혼합물 중의 표지된 ClpS2 단백질 및 아미노펩티다제를 사용하여 실시간으로 수행된 2가지 독립적인 폴리펩티드 시퀀싱 반응에 걸쳐 수득된 단일 분자 강도 트레이스를 나타낸다. 각각의 반응에서, 서열 YAAWAAFADDDWK (서열식별번호: 78)의 폴리펩티드를 20분 동안 칩 상으로 펩티드 조성물 (10 pM)을 로딩함으로써 C-말단 리신 잔기를 통해 칩 표면에 고정화하고, 고정화된 펩티드를 표지된 친화도 시약 (500 nM에서의 ATTO 542-표지된 에이. 투메파시엔스 ClpS2-V1) 및 아미노펩티다제 절단 시약 (8 μM에서의 VPr)의 존재 하에서 모니터랑하였다.
도 20a 및 20c는 2개의 상이한 시퀀싱 실행에 대한 신호 트레이스 데이터를 나타내며, 상부 패널 (도 20a에서 패널 1, 20c에서 패널 2)은 완전한 트레이스를 나타내고, 하부 패널 (Y, W, F)은 완전한 트레이스에서 강조된 영역의 각각에 상응하는 확대된 영역을 나타낸다. 도 20b 및 20d는 각각 도 20a 및 20c에서 표지된 바와 같은 상응하는 패널의 트레이스 데이터에 대한 히스토그램에서의 펄스 지속기간 통계를 나타낸다. 각각의 시퀀싱 실행의 완전한 신호 트레이스 (패널 1, 2)에 나타내어진 바와 같이, 신호 펄스의 3개의 별개의 시간 간격이 반응의 과정에 걸쳐 관찰되었다. 확대된 영역 (패널 Y, W, F)에 의해 강조된 바와 같이, 3개의 간격은 신호 펄스의 패턴의 관찰가능한 차이에 기반하여 서로로부터 시각적으로 구별가능하다.
신호 펄스 데이터를 추가로 분석하기 위해, 펄스 지속기간 통계를 각각의 시간 간격에 대해 결정하였다 (도 20b 및 20d). 펄스 지속기간 분포의 차이는 ClpS2로의 정상-상태 칩상 결합 겸정에서 개별적으로 이들 아미노산에 대해 관찰된 것들에 상응하는 것으로 결정되었으며, 신호 펄스 정보는 시퀀싱 실행 및 개별적인 아미노산 결합 검정으로부터의 간격 사이에 표현형적으로 일치하였다.
신호 펄스 정보의 분석에 의해 확인된 바와 같이, 각각의 시퀀싱 실행의 진행에 걸쳐 관찰된 신호 펄스의 3개의 시간 간격은 각각 Y, W, 및 F의 인식 패턴에 상응한다 (패널 1, 2). 신호 펄스 패턴 사이의 개재 시간 기간은 N-말단 알라닌 잔기에 결합하지 않는 ClpS2-V1의 선택성에 기인한다. 완전한 신호 트레이스에 의해 예시된 바와 같이, 제1 간격은 Y 인식에 상응하고, 이는 VPr 펩티다제가 Y 및 2개의 알라닌 잔기를 절단할 때 휴지에 이어지고, 이어서 W 인식에 상응하는 제2 간격이 이어지고, 이는 VPr 펩티다제가 W 및 2개의 알라닌 잔기를 커팅할 때 또 다른 휴지에 이어지고, 마지막으로 VPr 펩티다제가 F를 커팅하고, 나머지 ADDDWK 펩티드에서 정지하기 전에 F 인식에 상응하는 제3 간격이 이어진다. 이들 결과는 진행중인 분해 반응 동안 말단 아미노산 인식에 의해 수득된 펄스 지속기간 정보가 말단 아미노산의 상이한 유형 사이에 식별하는 특징적인 패턴을 결정하는데 사용될 수 있음을 나타낸다.
실시예 7. 표지된 엑소펩티다제에 의한 말단 아미노산 확인 및 절단
펩티드의 말단 아미노산을 확인하고, 펩티드로부터 말단 아미노산을 절단하는 것 둘 다가 가능한 단일 시약에 대한 잠재성을 조사하기 위한 연구를 수행하였다. 단일 시약으로서, 엑소펩티다제는 말단 잔기에 대한 절단 활성을 보유하면서 펩티드에 결합할 수 있어야 한다. 따라서, 전통적인 표지화 전략을 채용하는 초기 접근법을 상이한 엑소펩티다제의 천연 표면-노출된 아미노산을 표적화함으로써 수행하였다. 이들 실험에서, 표면-노출된 시스테인 (-SH) 또는 리신 (-NH2) 잔기를 형광 염료로 표지하였으며, 이는 엑소펩티다제 표지화를 위한 왕성한 방법론인 것으로 입증되었다. 그러나, 특정한 경우, 이 접근법은 1개 이상의 염료로 표지된 단백질의 이질적 집단을 생성하였다.
표지화가 엑소펩티다제 상에서 일어나는 경우를 보다 정확하게 제어하고, 각각의 엑소펩티다제 분자가 단일 형광 염료로 표지됨 (뿐만 아니라 염료의 오프-타겟 반응성을 제거함)을 보장하기 위해, 새로운 표지화 전략을 조사하였다. 이들 실험에서, 표지된 엑소펩티다제를 반응성 관능기를 함유하는 비천연 아미노산이 엑소펩티다제 내로 도입되는 부위-특이적 표지화 전략을 사용하여 제조하였다 (예를 들어, 문헌 [Chin, J.W., et al. J Am Chem Soc. 2002 Aug 7; 124(31):9026-9027] 참조).
예르시니아 페스티스로부터의 프롤린 이미노펩티다제 (yPIP)를 위치 287에서의 리신 잔기의 파라-아지도페닐알라닌 (pAzF) 측쇄를 갖는 잔기로의 돌연변이에 의해 변형시켰다. 도 21a는 yPIP의 결정 구조를 나타내며, 돌연변이는 막대기로서 나타내어진 K287 측쇄로 나타내어진 pAzF의 화학적 구조에 의해 지시된다. 이 돌연변이 부위를 이 위치에서의 알파 나선에 의해 제공된 안정성에 기반하여 및 새로운 아지도 관능기가 용매 노출됨을 보장하기 위해 선택하였다.
pAzF를 아미노산 쇄 내로 도입하는데 필요한 돌연변이체 아미노 tRNA 신테타제 및 돌연변이체 tRNA를 함유하는 pEVOL 플라스미드를 수득하였다. 그 후, pAzF의 특이적 혼입에 필요한 앰버 정지 코돈 (TAG)을 퀵체인지(QuickChange) II 돌연변이유발 키트를 사용하여 cDNA 내로 도입하였다. 그 후, cDNA를 시퀀싱하고, TAG 코돈 위치를 확인하였다. 이에 이어서 yPIP 앰버 돌연변이체를 함유하는 pET21b+ 플라스미드 및 pAzF를 갖는 앰버 코돈에 대해 tRNA를 충전하는 세포 기구를 함유하는 pEVOL 플라스미드 둘 다를 공동-형질감염시켰다. 그 후, 공동-형질감염된 세포를 0.8 ODU로 성장시키고, 2 L의 LB 중 2 mM pAzF의 존재 하에서 0.02% 아라비노스 및 1 mM IPTG로 유도하고, 화학용해를 사용하여 수확하였다. 정제를 5 mL 친화도 크로마토그래피 칼럼을 사용하여 수행하고, 단백질을 100 mM 이미다졸에서 용리하였다. 그 후, 생성된 단백질을 투석하고, 50 mM HEPES pH 8.0 및 0.5 M KCl 내로 농축시키고, 분취하고, 급속 동결시킨 후, -20℃에서 저장하였다.
정제된 단백질 중의 아지도 기의 존재를 확인하기 위해, DBCO-Cy3 (2 mM)을 pAzF-yPIP 변이체 (220 μM)와 반응시켰다 (반응 조건: 50 mM HEPES pH 8.0, 0.5 mM KCl, 20% DMSO; 37℃에서 10시간, 실온에서 48시간). 단백질 반응 생성물을 크기-배제 크로마토그래피에 의해 정제하였고, 생성된 단백질은 아지드-반응성 DBCO-Cy3 시약으로 100% 표지되었음이 결정되었으며 (도 21b), 이는 비천연 아미노산의 왕성한 혼입을 지시한다.
단백질 표지화 및 최종 생성물의 순도를 비표지된 및 표지된 pAzF 변이체의 SDS-PAGE 분석에 의해 확인하였다. 도 21c는 pAzF-yPIP의 Cy3-표지화를 확인시켜 주는 SDS-PAGE 겔의 사진 (래더를 나타내기 위해 도 21d에 나타내어진 겔의 과노출된 영상)을 나타낸다. 도 21e는 염료 및 단백질 둘 다가 공동-이동하고, 순수함을 확인시켜 주는 쿠마시-염색된 겔의 사진을 나타낸다.
염료-표지된 pAzF-yPIP 변이체를 활성 검정에 사용하여 효소가 표지화 및 정제 후에 여전히 활성임을 확인하였다. 도 21f에 나타내어진 바와 같이, Cy3-pAzF-yPIP는 HPLC에 의해 측정된 바와 같이, 1000배 과량의 기질을 사용하여 1시간에서 펩티드 기질의 100%를 가수분해할 수 있었다. 이들 실험은 천연 단백질 구조/기능의 최소 변화로 엑소펩티다제의 부위-특이적 변형 및 표지화를 허용하는 방법론을 입증한다.
실시예 8. 폴리펩티드 시퀀싱에서 변형된 아미노산의 인식
특이적 번역후 변형을 함유하는 아미노산의 인식을 평가하기 위한 실험을 수행하였다. Fyn, 티로신 키나제로부터의 Src 상동성 2 (SH2) 도메인의 삼중-돌연변이체 변이체 (T8V, S10A, K15L)를 펩티드 시퀀싱에서 인산화된 티로신 잔기에 대한 잠재적 인식 분자로서 시험하였다. 변이체 단백질을 샘플 웰의 바닥에 고정화하고, 단일-분자 신호 트레이스를 N-말단 포스포-티로신을 함유하는 형광-표지된 펩티드의 첨가 시 수집하였다. 고정화된 단백질에 의한 펩티드 결합이 도 22a에서의 대표적인 트레이스에 의해 나타내어진 바와 같이 이들 실험 동안 검출되었다. 이들 실험 동안 수집된 펄스 지속기간 데이터는 도 22b에 나타내어진다 (각각 도 22a의 상부, 중간, 및 하부 트레이스에 상응하는 상부, 중간, 및 하부 플롯). 펄스 지속기간 및 펄스간 지속기간 통계는 도 22c에 나타내어진다 (각각 상부 및 하부 패널).
Fyn 단백질이 인산화된 티로신에 대해 특이적임을 확인하기 위한 대조 실험을 수행하였다. 실험을 3가지 상이한 펩티드의 각각에 대해 반복하였다: N-말단 비변형된 티로신을 함유하는 제1 펩티드 (Y; 도 22d), N-말단 및 전종단 비변형된 티로신을 함유하는 제2 펩티드 (YY; 도 22e), 및 N-말단 포스포-세린을 함유하는 제3 펩티드 (도 22f). 나타내어진 바와 같이, 결합은 음성 대조군 실험에 사용된 펩티드 중 임의의 것으로 검출되지 않았다.
실시예 9. 폴리펩티드 시퀀싱에서 전종단 아미노산의 인식
에이. 투메파시엔스 ClpS2-V1에 대한 펄스 지속기간에 대한 전종단 아미노산의 효과를 결정하기 위한 실험을 수행하였다. N-말단에 고유한 디펩티드 서열을 함유하는 49가지 상이한 형광-표지된 펩티드를 제조하였으며, 여기서 N-말단 아미노산는 F, W, 또는 Y이고, 전종단 위치는 20가지 천연 아미노산 중 하나였다. 각각의 실험을 위해, ClpS2-V1을 샘플 웰의 바닥에서 고정화하고, 단일-분자 신호 트레이스를 형광-표지된 펩티드 중 하나의 첨가 시 10-20분 동안 수집하였다. 펄스 지속기간 데이터를 각각의 펩티드에 대해 최소 50개의 샘플 웰에 대해 수집하였다.
도 23은 50가지 펩티드의 각각에 대한 중위 펄스 지속기간을 나타내며, 전종단 아미노산 (x-축) 및 N-말단 아미노산에 의해 그룹화된 데이터 점은 상이한 기호로 나타내어진다.
실시예 10. 다중 인식 분자로의 동시 아미노산 인식
1개 초과의 표지된 인식 분자에 의한 고정화된 펩티드의 말단 아미노산 인식을 입증하기 위한 단일-분자 펩티드 인식 실험을 수행하였다. N-말단 페닐알라닌을 함유하는 단일 펩티드 분자 (FYPLPWPDDDY (서열식별번호: 79))를 칩의 샘플 웰에서 고정화하였다. atClpS1 (아그로박테리움 투미파시엔스 ClpS1; 표 1에 제공된 서열) 및 atClpS2-V1 (아그로박테리움 투미파시엔스 ClpS2 변이체 1; 표 1에 제공된 서열)의 각각 500 nM을 함유하는 버퍼를 첨가하였으며, 여기서 atClpS1 및 atClpS2-V1은 각각 Cy3 및 Cy3B로 표지되었다. Cy3B의 강도는 Cy3보다 더 높기 때문에, atClpS2-V1 결합 사건은 atClpS1 결합 사건으로부터 용이하게 구별가능하였다.
도 24a-24c는 차등적으로 표지된 인식 분자로의 단일-분자 펩티드 인식을 나타내는 실험의 결과를 나타낸다. 대표적인 트레이스는 도 24a에 제시된다. 펄스 지속기간 분포는 각각의 결합제에 대해 별개이며 (도 24b), 단일-결합제 실험에서 관찰된 바와 같은 그들의 동역학 프로파일에 상응하였다. 평균 펄스 지속기간은 atClpS1에 대해 1.3초 및 atClpS2-V1에 대해 1.0초였다 (도 24c). 펄스 속도는 또한 별개였다: atClpS1에 대해 8.1 펄스/min 및 atClp2-V1에 대해 14.1 펄스/min (도 24c). 따라서, 1개 초과의 인식 분자가 고정화된 펩티드의 동적 인식을 위해 포함되는 경우, 각각의 인식 분자의 결합 특징 (펄스 지속기간, 펄스간 지속기간, 및 펄스 속도를 포함함)은 펩티드 서열에 관한 정보를 동시에 제공할 수 있다.
실시예 11. 인식 분자 링커로의 광안정성의 향상
단일-분자 시퀀싱 동안 고정화된 펩티드의 광안정성을 평가하기 위한 실험을 수행하였다. 실시예 5에 기재된 염료-표지된 atClpS2-V1을 532 nm에서의 여기 광의 존재 하에서 고정화된 펩티드 기질을 함유하는 샘플 웰에 첨가하여 ATTO 532로부터의 방출에 의한 인식을 모니터링하였다. 대표적인 트레이스는 도 25a에 나타내어진다. 상부 패널에 나타내어진 바와 같이, 인식은 실험에서 대략 600초에서 중단되는 것으로 관찰되었다. 하부 패널은 반응에서 대략 180-430초에서의 신호 펄스를 나타내는 확대된 모습이다.
도 25b는 이들 실험에 사용된 ClpS2 단백질의 결정 구조의 가시화를 나타낸다. 나타내어진 바와 같이, 염료 접합 부위로서 기능하는 시스테인 잔기는 말단 아미노산 결합 부위로부터 대략 2 nm이다. 펩티드에 대한 광손상은 결합 동안 펩티드의 N-말단에의 염료의 근접에 의해 유발된 것으로 가설화되었다. 염료 근접의 잠재적 광손상 효과를 완화시키기 위해, ClpS2 단백질을 염료 및 펩티드의 N-말단 사이의 거리를 10 nm 초과 증가시킨 링커를 통해 염료-표지하였다. 링커는 스트렙타비딘 및 이중-가닥 핵산을 포함하였으며; 이중-가닥 핵산은 2개의 Cy3B 염료 분자로 표지되었고, 비스-비오틴 모이어티를 통해 스트렙타비딘에 부착되었고, ClpS2 단백질은 비오틴 모이어티를 통해 스트렙타비딘 상의 나머지 2개의 결합 부위의 각각에 부착되었다. 이 염료-차폐된 ClpS2 분자를 사용한 대표적인 트레이스는 도 25c에 나타내어진다. 상부 패널에 나타내어진 바와 같이, 인식 시간은 실험에서 대략 6,000초로 연장되었다. 하부 패널은 반응에서 대략 750-930초에서의 신호 펄스를 나타내는 확대된 모습이다.
2개의 Cy3B 염료 분자로 표지되고, 비스-비오틴 모이어티를 통해 스트렙타비딘에 부착된 이중-가닥 핵산을 함유하는 링커, 및 비스-비오틴 모이어티를 통해 스트렙타비딘 상의 나머지 2개의 결합 부위에 부착된 단일 ClpS2 단백질을 함유하는 링커를 갖는 DNA-스트렙타비딘 인식 분자를 생성하였다. 이 구축물을 단일-분자 펩티드 시퀀싱 반응에 사용하였으며, 이들 실험으로부터의 대표적인 트레이스는 도 26a-26c에 나타내어진다.
실시예 6에 기재된 시퀀싱 실험을 하기와 같이 변화된 반응 조건으로 반복하였다: DNA-스트렙타비딘 ClpS2 인식 분자를 hTET 아미노산 절단 시약과 조합으로 사용하였다. 대표적인 신호 트레이스는 도 27에 나타내어진다.
실시예 12. 다중 엑소펩티다제에 의한 분해 동안 인식에 의한 시퀀싱
단일-분자 펩티드 시퀀싱 반응 혼합물에서의 차등적인 절단 특이성을 갖는 엑소펩티다제의 다중 유형의 사용을 평가하기 위한 실험을 수행하였다. 단일 펩티드 분자 (YAAWAAFADDDWK (서열식별번호: 78))를 칩의 샘플 웰에서 C-말단 리신 잔기를 통해 고정화하였다. 아미노산 인식을 위해 atClpS2-V1 및 아미노산 절단을 위해 hTET를 함유하는 버퍼를 첨가하였다. 대표적인 트레이스는 도 28a에 제시되며, 펄스 패턴 영역의 확대된 모습은 도 28b에 나타내어진다.
차등적인 특이성을 갖는 2가지 유형의 엑소펩티다제의 존재 하에서 시퀀싱 반응을 평가하기 위한 실험을 수행하였다. 단일 펩티드 분자 (FYPLPWPDDDYK (서열식별번호: 80))를 칩의 샘플 웰에서 C-말단 리신 잔기를 통해 고정화하였다. 아미노산 인식을 위해 atClpS2-V1, 및 아미노산 절단을 위해 hTET 및 yPIP 둘 다를 함유하는 버퍼를 첨가하였다. 대표적인 트레이스는 도 28c에 제시되며, 펄스 패턴 영역의 확대된 모습은 도 28d에 나타내어진다. 이들 반응 조건으로부터의 추가적인 대표적인 트레이스는 도 28e에 나타내어진다.
차등적인 특이성을 갖는 2가지 유형의 엑소펩티다제의 존재 하에서 시퀀싱 반응을 평가하기 위한 추가의 실험을 수행하였다. 단일 펩티드 분자 (YPLPWPDDDYK (서열식별번호: 81))를 칩의 샘플 웰에서 C-말단 리신 잔기를 통해 고정화하였다. 한 실험에서, 아미노산 인식을 위해 atClpS2-V1, 및 아미노산 절단을 위해 hTET 및 yPIP 둘 다를 함유하는 버퍼를 첨가하였다. 대표적인 트레이스는 도 28f에 제시되며, 펄스 패턴 영역의 확대된 모습은 도 28g에 나타내어진다. 이들 반응 조건으로부터의 추가적인 대표적인 트레이스는 도 28h에 나타내어진다. 추가의 실험에서, 아미노산 인식을 위해 atClpS2-V1, 및 아미노산 절단을 위해 PfuTET 및 yPIP 둘 다를 함유하는 버퍼 (50 mM MOPS, 60 mM KOAc, 200 μM Co(OAc)2)를 첨가하였다. 대표적인 트레이스는 도 28i에 제시되며, 펄스 패턴 영역의 확대된 모습은 도 28j에 나타내어진다.
등가물 및 범주
청구항에서, 예컨대 단수형은 반대로 지시되거나 다르게는 맥락으로부터 명백하지 않는 한, 하나 또는 하나 초과를 의미할 수 있다. 군의 하나 이상의 구성원 사이에 "또는"을 포함하는 청구범위 또는 설명은 반대로 지시되거나 다르게는 맥락으로부터 명백하지 않는 한, 군 구성원의 하나, 하나 초과, 또는 전부가 주어진 생성물 또는 프로세스에 존재하거나, 그에 채용되거나, 다르게는 그와 관련되는 경우에 충족되는 것으로 간주된다. 본 발명은 군의 정확하게 하나의 구성원이 주어진 생성물 또는 프로세스에 존재하거나, 그에 채용되거나, 다르게는 그와 관련되는 실시양태를 포함한다. 본 발명은 군 구성원의 하나 초과, 또는 전부가 주어진 생성물 또는 프로세스에 존재하거나, 그에 채용되거나, 다르게는 그와 관련되는 실시양태를 포함한다.
더욱이, 본 발명은 열거된 청구항의 하나 이상으로부터의 하나 이상의 제한, 요소, 조항, 및 기재적 용어가 또 다른 청구항 내로 도입되는 모든 변형, 조합, 및 순열을 포괄한다. 예를 들어, 또 다른 청구항에 종속하는 임의의 청구항은 동일한 기본 청구항에 종속하는 임의의 다른 청구항에서 발견되는 하나 이상의 제한을 포함하도록 변형될 수 있다. 요소가 목록으로서, 예를 들어, 마쿠시 군 형식으로 제시되는 경우, 요소의 각각의 하위군은 또한 개시되며, 임의의 요소(들)는 군으로부터 제거될 수 있다. 일반적으로, 본 발명, 또는 본 발명의 측면이 특정한 요소 및/또는 특색을 포함하는 것으로 언급되는 경우, 본 발명의 특정 실시양태 또는 본 발명의 측면은 이러한 요소 및/또는 특색으로 이루어지거나, 이로 본질적으로 이루어짐이 이해되어야 한다. 단순성의 목적을 위해, 그러한 실시양태는 본원에서 문구 그대로 구체적으로 제시되지는 않았다.
명세서에서 및 청구항에서 본원에 사용된 바와 같은 어구 "및/또는"은 그렇게 결합된 요소, 즉, 일부의 경우에 결합적으로 존재하고, 다른 경우에 분리적으로 존재하는 요소 중 "어느 하나 또는 둘 다"를 의미하는 것으로 이해되어야 한다. "및/또는"과 함께 열거된 다중 요소는 동일한 방식으로, 즉, 그렇게 결합된 요소 중 "하나 이상"으로 해석되어야 한다. "및/또는" 조항에 의해 구체적으로 확인된 요소 이외의 다른 요소는 구체적으로 확인된 그러한 요소와 관련되든 비관련되든 임의로 존재할 수 있다. 따라서, 비-제한적 예로서, 개방-단부 언어, 예컨대 "포함하는"과 함께 사용되는 경우, "A 및/또는 B"에 대한 언급은 한 실시양태에서, A 단독 (B 이외의 요소를 임의로 포함함); 또 다른 실시양태에서, B 단독 (A 이외의 요소를 임의로 포함함); 추가의 또 다른 실시양태에서, A 및 B 둘 다 (다른 요소를 임의로 포함함) 등을 지칭할 수 있다.
명세서에서 및 청구항에서 본원에 사용된 바와 같은 "또는"은 상기 정의된 바와 같은 "및/또는"과 동일한 의미를 갖는 것으로 이해되어야 한다. 예를 들어, 목록에서 항목을 분리하는 경우, "또는" 또는 "및/또는"은 포함적인 것, 즉, 요소의 수 또는 목록 중 적어도 하나의, 그러나 또한 하나 초과를 포함하는, 및 임의로, 추가적인 비열거된 항목의 포함으로서 해석될 것이다. 단지 반대로 명백하게 지시된 용어, 예컨대 "중 단지 하나" 또는 "중 정확하게 하나", 또는 청구항에서 사용되는 경우, "로 이루어진"은 요소의 수 또는 목록 중 정확하게 하나의 요소의 포함을 지칭할 것이다. 일반적으로, 본원에 사용된 바와 같은 용어 "또는"은 배타성의 용어, 예컨대 "어느 하나", "중 하나", "중 단지 하나", 또는 "중 정확하게 하나"에 의해 선행되는 경우, 단지 배타적인 대안 (즉, 하나 또는 다른 것, 그러나 둘 다는 아님")을 지시하는 것으로서 해석될 것이다. 청구항에서 사용되는 경우에 "로 본질적으로 이루어진"은 특허법의 분야에 사용되는 바와 같은 그의 통상적인 의미를 가질 것이다.
명세서에서 및 청구항에서 본원에 사용된 바와 같이, 하나 이상의 요소의 목록에 관하여 어구 "적어도 하나"는 요소의 목록에서 요소 중 임의의 하나 이상으로부터 선택되는 적어도 하나의 요소를 의미하지만, 요소의 목록 내에 구체적으로 열거된 각각의 및 모든 요소 중 적어도 하나를 반드시 포함하지는 않으며, 요소의 목록에서 요소의 임의의 조합을 배제하지는 않음이 이해되어야 한다. 이 정의는 또한 구체적으로 확인된 그러한 요소와 관련되든지 비관련되든지, 어구 "적어도 하나"가 언급하는 요소의 목록 내에 구체적으로 확인된 요소 이외의 요소가 임의로 존재할 수 있음을 허용한다. 따라서, 비-제한적 예로서, "A 및 B 중 적어도 하나" (또는 등가적으로, "A 또는 B 중 적어도 하나", 또는 등가적으로 "A 및/또는 B 중 적어도 하나")는 한 실시양태에서, 하나 초과의 A를 임의로 포함하고, B가 존재하지 않는 적어도 하나 (및 B 이외의 요소를 임의로 포함함); 또 다른 실시양태에서, 하나 초과의 B를 임의로 포함하고, A가 존재하지 않는 적어도 하나 (및 A 이외의 요소를 임의로 포함함); 추가의 또 다른 실시양태에서, 하나 초과의 A를 임의로 포함하는 적어도 하나, 및 하나 초과의 B를 임의로 포함하는 적어도 하나 (및 다른 요소를 임의로 포함함) 등을 지칭할 수 있다.
또한, 반대로 명백하게 지시되지 않는 한, 하나 초과의 단계 또는 작용을 포함하는 본원에서 청구된 임의의 방법에서, 방법의 단계 또는 작용의 순서는 방법의 단계 또는 작용이 나열된 순서에 반드시 제한되지는 않음이 이해되어야 한다.
청구항에서, 뿐만 아니라 상기 명세서에서, 모든 전이적 어구, 예컨대 "포함하는", "포함한", "보유하는", "갖는", "함유하는", "수반하는", "수용하는", "로 구성된" 등은 포함하지만 이에 제한되지는 않음을 의미하는 개방-단부인 것으로 이해되어야 한다. 단지 전이적 어구 "로 이루어진" 및 "로 본질적으로 이루어진"은 미국 특허청 특허 심사 절차 매뉴얼, 섹션 2111.03에 제시된 바와 같이, 각각 폐쇄된 또는 반-폐쇄된 전이적 어구일 것이다. 개방-단부 전이적 어구 (예를 들어, "포함하는"를 사용하여 이 문서에 기재된 실시양태는 또한 대안적인 실시양태에서 개방-단부 전이적 어구에 의해 기재된 특색"으로 이루어진" 및 "으로 본질적으로 이루어진" 것으로서 고려됨이 인지되어야 한다. 예를 들어, 본 출원이 "A 및 B를 포함하는 조성물"을 기재하는 경우, 본 출원은 또한 대안적인 실시양태 "A 및 B로 이루어진 조성물" 및 "A 및 B로 본질적으로 이루어진 조성물"을 고려한다.
범위가 주어지는 경우, 종점이 포함된다. 더욱이, 달리 지시되거나 다르게는 맥락 및 관련 기술분야의 통상의 기술자의 이해로부터 명백하지 않는 한, 범위로서 표현된 값은 맥락이 명백하게 달리 나타내지 않는 한, 본 발명의 상이한 실시양태에서 안급된 범위 내의 임의의 구체적인 값 또는 하위-범위를 범위의 하한의 단위의 1/10까지 가정할 수 있다.
본 출원은 다양한 허여된 특허, 공개된 특허 출원, 저널 논문, 및 다른 간행물을 언급하며, 이들 모두는 본원에 참조로 포함된다. 포함된 참고문헌 중 임의의 것 및 본 명세서 사이에 충돌이 있는 경우, 본 명세서가 지배할 것이다. 또한, 종래 기술 내에 해당하는 본 발명의 임의의 특정한 실시양태는 청구항 중 임의의 하나 이상으로부터 명백하게 배제될 수 있다. 이러한 실시양태는 관련 기술분야의 통상의 기술자에게 공지된 것으로 간주되기 때문에, 이들은 비록 배제가 본원에 명백하게 제시되지 않더라도 배제될 수 있다. 본 발명의 임의의 특정한 실시양태는 종래 기술의 존재에 관련되든 그렇지 않든, 임의의 이유로 임의의 청구항으로부터 배제될 수 있다.
관련 기술분야의 통상의 기술자는 통상적인 실험 이하를 사용하여 본원에 기재된 구체적인 실시양태에 대한 많은 등가물을 인식하거나 확인할 수 있을 것이다. 본원에 기재된 본 실시양태의 범주는 상기 설명에 제한되는 것으로 의도되지 않지만, 오히려 첨부된 청구항에 제시된 바와 같다. 관련 기술분야의 통상의 기술자는 본 설명에 대한 다양한 변화 및 변형이 하기 청구항에서 정의된 바와 같은 본 발명의 취지 또는 범주로부터 벗어나지 않으면서 이루어질 수 있음을 인지할 것이다.
본원의 변수의 임의의 정의에서 화학기의 목록의 나열은 임의의 단일 기 또는 열거된 기의 조합으로서 그 변수의 정의를 포함한다. 본원의 변수에 대한 실시양태의 나열은 임의의 단일 실시양태로서 또는 임의의 다른 실시양태 또는 그의 부분과의 조합으로 그 실시양태를 포함한다. 본원의 실시양태의 나열은 임의의 단일 실시양태로서 또는 임의의 다른 실시양태 또는 그의 부분과의 조합으로 그 실시양태를 포함한다.
SEQUENCE LISTING <110> Quantum-Si Incorporated <120> METHODS AND COMPOSITIONS FOR PROTEIN SEQUENCING <130> R0708.70042WO00 <140> Not Yet Assigned <141> Concurrently Herewith <150> US 62/907,507 <151> 2019-09-27 <150> US 62/768,076 <151> 2018-11-15 <160> 158 <170> PatentIn version 3.5 <210> 1 <211> 103 <212> PRT <213> Agrobacterium tumifaciens <400> 1 Met Ser Asp Ser Pro Val Asp Leu Lys Pro Lys Pro Lys Val Lys Pro 1 5 10 15 Lys Leu Glu Arg Pro Lys Leu Tyr Lys Val Met Leu Leu Asn Asp Asp 20 25 30 Tyr Thr Pro Met Ser Phe Val Thr Val Val Leu Lys Ala Val Phe Arg 35 40 45 Met Ser Glu Asp Thr Gly Arg Arg Val Met Met Thr Ala His Arg Phe 50 55 60 Gly Ser Ala Val Val Val Val Cys Glu Arg Asp Ile Ala Glu Thr Lys 65 70 75 80 Ala Lys Glu Ala Thr Asp Leu Gly Lys Glu Ala Gly Phe Pro Leu Met 85 90 95 Phe Thr Thr Glu Pro Glu Glu 100 <210> 2 <211> 103 <212> PRT <213> Agrobacterium tumifaciens <400> 2 Met Ser Asp Ser Pro Val Asp Leu Lys Pro Lys Pro Lys Val Lys Pro 1 5 10 15 Lys Leu Glu Arg Pro Lys Leu Tyr Lys Val Met Leu Leu Asn Asp Asp 20 25 30 Tyr Thr Pro Arg Glu Phe Val Thr Val Val Leu Lys Ala Val Phe Arg 35 40 45 Met Ser Glu Asp Thr Gly Arg Arg Val Met Met Thr Ala His Arg Phe 50 55 60 Gly Ser Ala Val Val Val Val Cys Glu Arg Asp Ile Ala Glu Thr Lys 65 70 75 80 Ala Lys Glu Ala Thr Asp Leu Gly Lys Glu Ala Gly Phe Pro Leu Met 85 90 95 Phe Thr Thr Glu Pro Glu Glu 100 <210> 3 <211> 103 <212> PRT <213> Agrobacterium tumifaciens <400> 3 Met Ser Asp Ser Pro Val Asp Leu Lys Pro Lys Pro Lys Val Lys Pro 1 5 10 15 Lys Leu Glu Arg Pro Lys Leu Tyr Lys Val Met Leu Leu Asn Asp Asp 20 25 30 Tyr Thr Pro Arg Glu Phe Val Thr Val Val Leu Lys Ala Val Phe Arg 35 40 45 Met Ser Glu Asp Thr Gly Arg Arg Val Met Met Thr Ala His Arg Phe 50 55 60 Gly Ser Ala Val Val Val Val Ser Glu Arg Asp Ile Ala Glu Thr Lys 65 70 75 80 Ala Lys Glu Ala Thr Asp Leu Gly Lys Glu Ala Gly Phe Pro Leu Met 85 90 95 Phe Thr Thr Glu Pro Glu Glu 100 <210> 4 <211> 117 <212> PRT <213> Agrobacterium tumifaciens <400> 4 Met Ile Ala Glu Pro Ile Cys Met Gln Gly Glu Gly Asp Gly Glu Asp 1 5 10 15 Gly Gly Thr Asn Arg Gly Thr Ser Val Ile Thr Arg Val Lys Pro Lys 20 25 30 Thr Lys Arg Pro Asn Leu Tyr Arg Val Leu Leu Leu Asn Asp Asp Tyr 35 40 45 Thr Pro Met Glu Phe Val Ile His Ile Leu Glu Arg Phe Phe Gln Lys 50 55 60 Asp Arg Glu Ala Ala Thr Arg Ile Met Leu His Val His Gln His Gly 65 70 75 80 Val Gly Glu Cys Gly Val Phe Thr Tyr Glu Val Ala Glu Thr Lys Val 85 90 95 Ser Gln Val Met Asp Phe Ala Arg Gln His Gln His Pro Leu Gln Cys 100 105 110 Val Met Glu Lys Lys 115 <210> 5 <211> 103 <212> PRT <213> Agrobacterium tumifaciens <400> 5 Met Ser Asp Ser Pro Val Asp Leu Lys Pro Lys Pro Lys Val Lys Pro 1 5 10 15 Lys Leu Glu Arg Pro Lys Leu Tyr Lys Val Met Leu Leu Asn Asp Asp 20 25 30 Tyr Thr Pro Met Ser Phe Val Thr Val Val Leu Lys Ala Val Phe Arg 35 40 45 Met Ser Glu Asp Thr Gly Arg Arg Val Met Met Thr Ala His Arg Phe 50 55 60 Gly Ser Ala Val Val Val Val Ser Glu Arg Asp Ile Ala Glu Thr Lys 65 70 75 80 Ala Lys Glu Ala Thr Asp Leu Gly Lys Glu Ala Gly Phe Pro Leu Met 85 90 95 Phe Thr Thr Glu Pro Glu Glu 100 <210> 6 <211> 117 <212> PRT <213> Agrobacterium tumifaciens <400> 6 Met Ile Ala Glu Pro Ile Ser Met Gln Gly Glu Gly Asp Gly Glu Asp 1 5 10 15 Gly Gly Thr Asn Arg Gly Thr Ser Val Ile Thr Arg Val Lys Pro Lys 20 25 30 Thr Lys Arg Pro Asn Leu Tyr Arg Val Leu Leu Leu Asn Asp Asp Tyr 35 40 45 Thr Pro Met Glu Phe Val Ile His Ile Leu Glu Arg Phe Phe Gln Lys 50 55 60 Asp Arg Glu Ala Ala Thr Arg Ile Met Leu His Val His Gln His Gly 65 70 75 80 Val Gly Glu Cys Gly Val Phe Thr Tyr Glu Val Ala Glu Thr Lys Val 85 90 95 Ser Gln Val Met Asp Phe Ala Arg Gln His Gln His Pro Leu Gln Cys 100 105 110 Val Met Glu Lys Lys 115 <210> 7 <211> 117 <212> PRT <213> Agrobacterium tumifaciens <400> 7 Met Ile Ala Glu Pro Ile Ser Met Gln Gly Glu Gly Asp Gly Glu Asp 1 5 10 15 Gly Gly Thr Asn Arg Gly Thr Ser Val Ile Thr Arg Val Lys Pro Lys 20 25 30 Thr Lys Arg Pro Asn Leu Tyr Arg Val Leu Leu Leu Asn Asp Asp Tyr 35 40 45 Thr Pro Met Glu Phe Val Ile His Ile Leu Glu Arg Phe Phe Gln Lys 50 55 60 Asp Arg Glu Ala Ala Thr Arg Ile Met Leu His Val His Gln His Gly 65 70 75 80 Val Gly Glu Ser Gly Val Phe Thr Tyr Glu Val Ala Glu Thr Lys Val 85 90 95 Ser Gln Val Met Asp Phe Ala Arg Gln His Gln His Pro Leu Gln Ser 100 105 110 Val Met Glu Lys Lys 115 <210> 8 <211> 103 <212> PRT <213> Agrobacterium tumifaciens <400> 8 Met Ser Asp Ser Pro Val Asp Leu Lys Pro Lys Pro Lys Val Lys Pro 1 5 10 15 Lys Leu Glu Arg Pro Lys Leu Tyr Lys Val Ile Leu Leu Asn Asp Asp 20 25 30 Tyr Thr Pro Met Glu Phe Val Val Glu Val Leu Lys Arg Val Phe Asn 35 40 45 Met Ser Glu Glu Gln Ala Arg Arg Val Met Met Thr Ala His Lys Lys 50 55 60 Gly Lys Ala Val Val Gly Val Cys Pro Arg Asp Ile Ala Glu Thr Lys 65 70 75 80 Ala Lys Gln Ala Thr Asp Leu Ala Arg Glu Ala Gly Phe Pro Leu Met 85 90 95 Phe Thr Thr Glu Pro Glu Glu 100 <210> 9 <211> 103 <212> PRT <213> Agrobacterium tumifaciens <400> 9 Met Ser Asp Ser Pro Val Asp Leu Lys Pro Lys Pro Lys Val Lys Pro 1 5 10 15 Lys Leu Glu Arg Pro Lys Leu Tyr Lys Val Ile Leu Leu Asn Asp Asp 20 25 30 Tyr Thr Pro Met Glu Phe Val Val Glu Val Leu Lys Arg Val Phe Asn 35 40 45 Met Ser Glu Glu Gln Ala Arg Arg Val Met Met Thr Ala His Lys Lys 50 55 60 Gly Lys Ala Val Val Gly Val Ser Pro Arg Asp Ile Ala Glu Thr Lys 65 70 75 80 Ala Lys Gln Ala Thr Asp Leu Ala Arg Glu Ala Gly Phe Pro Leu Met 85 90 95 Phe Thr Thr Glu Pro Glu Glu 100 <210> 10 <211> 95 <212> PRT <213> Synechococcus elongatus <400> 10 Met Ala Val Glu Thr Ile Gln Lys Pro Glu Thr Thr Thr Lys Arg Lys 1 5 10 15 Ile Ala Pro Arg Tyr Arg Val Leu Leu His Asn Asp Asp Phe Asn Pro 20 25 30 Met Glu Tyr Val Val Met Val Leu Met Gln Thr Val Pro Ser Leu Thr 35 40 45 Gln Pro Gln Ala Val Asp Ile Met Met Glu Ala His Thr Asn Gly Thr 50 55 60 Gly Leu Val Ile Thr Cys Asp Ile Glu Pro Ala Glu Phe Tyr Cys Glu 65 70 75 80 Gln Leu Lys Ser His Gly Leu Ser Ser Ser Ile Glu Pro Asp Asp 85 90 95 <210> 11 <211> 136 <212> PRT <213> Synechococcus elongatus <400> 11 Met Ser Pro Gln Pro Asp Glu Ser Val Leu Ser Ile Leu Gly Val Pro 1 5 10 15 Arg Pro Cys Val Lys Lys Arg Ser Arg Asn Asp Ala Phe Val Leu Thr 20 25 30 Val Leu Thr Cys Ser Leu Gln Ala Ile Ala Ala Pro Ala Thr Ala Pro 35 40 45 Gly Thr Thr Thr Thr Arg Val Arg Gln Pro Tyr Pro His Phe Arg Val 50 55 60 Ile Val Leu Asp Asp Asp Val Asn Thr Phe Gln His Val Ala Glu Cys 65 70 75 80 Leu Leu Lys Tyr Ile Pro Gly Met Thr Gly Asp Arg Ala Trp Asp Leu 85 90 95 Thr Asn Gln Val His Tyr Glu Gly Ala Ala Thr Val Trp Ser Gly Pro 100 105 110 Gln Glu Gln Ala Glu Leu Tyr His Glu Gln Leu Arg Arg Glu Gly Leu 115 120 125 Thr Met Ala Pro Leu Glu Ala Ala 130 135 <210> 12 <211> 90 <212> PRT <213> Thermosynechococcus elongatus <400> 12 Met Pro Gln Glu Arg Gln Gln Val Thr Arg Lys His Tyr Pro Asn Tyr 1 5 10 15 Lys Val Ile Val Leu Asn Asp Asp Phe Asn Thr Phe Gln His Val Ala 20 25 30 Ala Cys Leu Met Lys Tyr Ile Pro Asn Met Thr Ser Asp Arg Ala Trp 35 40 45 Glu Leu Thr Asn Gln Val His Tyr Glu Gly Gln Ala Ile Val Trp Val 50 55 60 Gly Pro Gln Glu Gln Ala Glu Leu Tyr His Glu Gln Leu Leu Arg Ala 65 70 75 80 Gly Leu Thr Met Ala Pro Leu Glu Pro Glu 85 90 <210> 13 <211> 106 <212> PRT <213> Escherichia coli <400> 13 Met Gly Lys Thr Asn Asp Trp Leu Asp Phe Asp Gln Leu Ala Glu Glu 1 5 10 15 Lys Val Arg Asp Ala Leu Lys Pro Pro Ser Met Tyr Lys Val Ile Leu 20 25 30 Val Asn Asp Asp Tyr Thr Pro Met Glu Phe Val Ile Asp Val Leu Gln 35 40 45 Lys Phe Phe Ser Tyr Asp Val Glu Arg Ala Thr Gln Leu Met Leu Ala 50 55 60 Val His Tyr Gln Gly Lys Ala Ile Cys Gly Val Phe Thr Ala Glu Val 65 70 75 80 Ala Glu Thr Lys Val Ala Met Val Asn Lys Tyr Ala Arg Glu Asn Glu 85 90 95 His Pro Leu Leu Cys Thr Leu Glu Lys Ala 100 105 <210> 14 <211> 106 <212> PRT <213> Escherichia coli <400> 14 Met Gly Lys Thr Asn Asp Trp Leu Asp Phe Asp Gln Leu Ala Glu Glu 1 5 10 15 Lys Val Arg Asp Ala Leu Lys Pro Pro Ser Met Tyr Lys Val Ile Leu 20 25 30 Val Asn Asp Asp Tyr Thr Pro Ala Glu Phe Val Ile Asp Val Leu Gln 35 40 45 Lys Phe Phe Ser Tyr Asp Val Glu Arg Ala Thr Gln Leu Met Leu Ala 50 55 60 Val His Tyr Gln Gly Lys Ala Ile Cys Gly Val Phe Thr Ala Glu Val 65 70 75 80 Ala Glu Thr Lys Val Ala Met Val Asn Lys Tyr Ala Arg Glu Asn Glu 85 90 95 His Pro Leu Leu Cys Thr Leu Glu Lys Ala 100 105 <210> 15 <211> 192 <212> PRT <213> Plasmodium falciparum <400> 15 Met Phe Lys Asp Leu Lys Pro Phe Phe Leu Cys Ile Ile Leu Leu Leu 1 5 10 15 Leu Leu Ile Tyr Lys Cys Thr His Ser Tyr Asn Ile Lys Asn Lys Asn 20 25 30 Cys Pro Leu Asn Phe Met Asn Ser Cys Val Arg Ile Asn Asn Val Asn 35 40 45 Lys Asn Thr Asn Ile Ser Phe Pro Lys Glu Leu Gln Lys Arg Pro Ser 50 55 60 Leu Val Tyr Ser Gln Lys Asn Phe Asn Leu Glu Lys Ile Lys Lys Leu 65 70 75 80 Arg Asn Val Ile Lys Glu Ile Lys Lys Asp Asn Ile Lys Glu Ala Asp 85 90 95 Glu His Glu Lys Lys Glu Arg Glu Lys Glu Thr Ser Ala Trp Lys Val 100 105 110 Ile Leu Tyr Asn Asp Asp Ile His Asn Phe Thr Tyr Val Thr Asp Val 115 120 125 Ile Val Lys Val Val Gly Gln Ile Ser Lys Ala Lys Ala His Thr Ile 130 135 140 Thr Val Glu Ala His Ser Thr Gly Gln Ala Leu Ile Leu Ser Thr Trp 145 150 155 160 Lys Ser Lys Ala Glu Lys Tyr Cys Gln Glu Leu Gln Gln Asn Gly Leu 165 170 175 Thr Val Ser Ile Ile His Glu Ser Gln Leu Lys Asp Lys Gln Lys Lys 180 185 190 <210> 16 <211> 236 <212> PRT <213> Escherichia coli <400> 16 Met Arg Leu Val Gln Leu Ser Arg His Ser Ile Ala Phe Pro Ser Pro 1 5 10 15 Glu Gly Ala Leu Arg Glu Pro Asn Gly Leu Leu Ala Leu Gly Gly Asp 20 25 30 Leu Ser Pro Ala Arg Leu Leu Met Ala Tyr Gln Arg Gly Ile Phe Pro 35 40 45 Trp Phe Ser Pro Gly Asp Pro Ile Leu Trp Trp Ser Pro Asp Pro Arg 50 55 60 Ala Val Leu Trp Pro Glu Ser Leu His Ile Ser Arg Ser Met Lys Arg 65 70 75 80 Phe His Lys Arg Ser Pro Tyr Arg Val Thr Met Asn Tyr Ala Phe Gly 85 90 95 Gln Val Ile Glu Gly Cys Ala Ser Asp Arg Glu Glu Gly Thr Trp Ile 100 105 110 Thr Arg Gly Val Val Glu Ala Tyr His Arg Leu His Glu Leu Gly His 115 120 125 Ala His Ser Ile Glu Val Trp Arg Glu Asp Glu Leu Val Gly Gly Met 130 135 140 Tyr Gly Val Ala Gln Gly Thr Leu Phe Cys Gly Glu Ser Met Phe Ser 145 150 155 160 Arg Met Glu Asn Ala Ser Lys Thr Ala Leu Leu Val Phe Cys Glu Glu 165 170 175 Phe Ile Gly His Gly Gly Lys Leu Ile Asp Cys Gln Val Leu Asn Asp 180 185 190 His Thr Ala Ser Leu Gly Ala Cys Glu Ile Pro Arg Arg Asp Tyr Leu 195 200 205 Asn Tyr Leu Asn Gln Met Arg Leu Gly Arg Leu Pro Asn Asn Phe Trp 210 215 220 Val Pro Arg Cys Leu Phe Ser Pro Gln Glu Leu Glu 225 230 235 <210> 17 <211> 231 <212> PRT <213> Vibrio vulnificus <400> 17 Met Ser Ser Asp Ile His Gln Ile Lys Ile Gly Leu Thr Asp Asn His 1 5 10 15 Pro Cys Ser Tyr Leu Pro Glu Arg Lys Glu Arg Val Ala Val Ala Leu 20 25 30 Glu Ala Asp Met His Thr Ala Asp Asn Tyr Glu Val Leu Leu Ala Asn 35 40 45 Gly Phe Arg Arg Ser Gly Asn Thr Ile Tyr Lys Pro His Cys Asp Ser 50 55 60 Cys His Ser Cys Gln Pro Ile Arg Ile Ser Val Pro Asp Ile Glu Leu 65 70 75 80 Ser Arg Ser Gln Lys Arg Leu Leu Ala Lys Ala Arg Ser Leu Ser Trp 85 90 95 Ser Met Lys Arg Asn Met Asp Glu Asn Trp Phe Asp Leu Tyr Ser Arg 100 105 110 Tyr Ile Val Ala Arg His Arg Asn Gly Thr Met Tyr Pro Pro Lys Lys 115 120 125 Asp Asp Phe Ala His Phe Ser Arg Asn Gln Trp Leu Thr Thr Gln Phe 130 135 140 Leu His Ile Tyr Glu Gly Gln Arg Leu Ile Ala Val Ala Val Thr Asp 145 150 155 160 Ile Met Asp His Cys Ala Ser Ala Phe Tyr Thr Phe Phe Glu Pro Glu 165 170 175 His Glu Leu Ser Leu Gly Thr Leu Ala Val Leu Phe Gln Leu Glu Phe 180 185 190 Cys Gln Glu Glu Lys Lys Gln Trp Leu Tyr Leu Gly Tyr Gln Ile Asp 195 200 205 Glu Cys Pro Ala Met Asn Tyr Lys Val Arg Phe His Arg His Gln Lys 210 215 220 Leu Val Asn Gln Arg Trp Gln 225 230 <210> 18 <211> 83 <212> PRT <213> Saccharomyces cerevisiae <400> 18 Met Gly Ser Val His Lys His Thr Gly Arg Asn Cys Gly Arg Lys Phe 1 5 10 15 Lys Ile Gly Glu Pro Leu Tyr Arg Cys His Glu Cys Gly Cys Asp Asp 20 25 30 Thr Cys Val Leu Cys Ile His Cys Phe Asn Pro Lys Asp His Val Asn 35 40 45 His His Val Cys Thr Asp Ile Cys Thr Glu Phe Thr Ser Gly Ile Cys 50 55 60 Asp Cys Gly Asp Glu Glu Ala Trp Asn Ser Pro Leu His Cys Lys Ala 65 70 75 80 Glu Glu Gln <210> 19 <211> 167 <212> PRT <213> Homo sapiens <400> 19 Met Ser Gly Ser Lys Phe Arg Gly His Gln Lys Ser Lys Gly Asn Ser 1 5 10 15 Tyr Asp Val Glu Val Val Leu Gln His Val Asp Thr Gly Asn Ser Tyr 20 25 30 Leu Cys Gly Tyr Leu Lys Ile Lys Gly Leu Thr Glu Glu Tyr Pro Thr 35 40 45 Leu Thr Thr Phe Phe Glu Gly Glu Ile Ile Ser Lys Lys His Pro Phe 50 55 60 Leu Thr Arg Lys Trp Asp Ala Asp Glu Asp Val Asp Arg Lys His Trp 65 70 75 80 Gly Lys Phe Leu Ala Phe Tyr Gln Tyr Ala Lys Ser Phe Asn Ser Asp 85 90 95 Asp Phe Asp Tyr Glu Glu Leu Lys Asn Gly Asp Tyr Val Phe Met Arg 100 105 110 Trp Lys Glu Gln Phe Leu Val Pro Asp His Thr Ile Lys Asp Ile Ser 115 120 125 Gly Ala Ser Phe Ala Gly Phe Tyr Tyr Ile Cys Phe Gln Lys Ser Ala 130 135 140 Ala Ser Ile Glu Gly Tyr Tyr Tyr His Arg Ser Ser Glu Trp Tyr Gln 145 150 155 160 Ser Leu Asn Leu Thr His Val 165 <210> 20 <211> 362 <212> PRT <213> Saccharomyces cerevisiae <400> 20 Met Ile Asn Asn Pro Lys Val Asp Ser Val Ala Glu Lys Pro Lys Ala 1 5 10 15 Val Thr Ser Lys Gln Ser Glu Gln Ala Ala Ser Pro Glu Pro Thr Pro 20 25 30 Ala Pro Pro Val Ser Arg Asn Gln Tyr Pro Ile Thr Phe Asn Leu Thr 35 40 45 Ser Thr Ala Pro Phe His Leu His Asp Arg His Arg Tyr Leu Gln Glu 50 55 60 Gln Asp Leu Tyr Lys Cys Ala Ser Arg Asp Ser Leu Ser Ser Leu Gln 65 70 75 80 Gln Leu Ala His Thr Pro Asn Gly Ser Thr Arg Lys Lys Tyr Ile Val 85 90 95 Glu Asp Gln Ser Pro Tyr Ser Ser Glu Asn Pro Val Ile Val Thr Ser 100 105 110 Ser Tyr Asn His Thr Val Cys Thr Asn Tyr Leu Arg Pro Arg Met Gln 115 120 125 Phe Thr Gly Tyr Gln Ile Ser Gly Tyr Lys Arg Tyr Gln Val Thr Val 130 135 140 Asn Leu Lys Thr Val Asp Leu Pro Lys Lys Asp Cys Thr Ser Leu Ser 145 150 155 160 Pro His Leu Ser Gly Phe Leu Ser Ile Arg Gly Leu Thr Asn Gln His 165 170 175 Pro Glu Ile Ser Thr Tyr Phe Glu Ala Tyr Ala Val Asn His Lys Glu 180 185 190 Leu Gly Phe Leu Ser Ser Ser Trp Lys Asp Glu Pro Val Leu Asn Glu 195 200 205 Phe Lys Ala Thr Asp Gln Thr Asp Leu Glu His Trp Ile Asn Phe Pro 210 215 220 Ser Phe Arg Gln Leu Phe Leu Met Ser Gln Lys Asn Gly Leu Asn Ser 225 230 235 240 Thr Asp Asp Asn Gly Thr Thr Asn Ala Ala Lys Lys Leu Pro Pro Gln 245 250 255 Gln Leu Pro Thr Thr Pro Ser Ala Asp Ala Gly Asn Ile Ser Arg Ile 260 265 270 Phe Ser Gln Glu Lys Gln Phe Asp Asn Tyr Leu Asn Glu Arg Phe Ile 275 280 285 Phe Met Lys Trp Lys Glu Lys Phe Leu Val Pro Asp Ala Leu Leu Met 290 295 300 Glu Gly Val Asp Gly Ala Ser Tyr Asp Gly Phe Tyr Tyr Ile Val His 305 310 315 320 Asp Gln Val Thr Gly Asn Ile Gln Gly Phe Tyr Tyr His Gln Asp Ala 325 330 335 Glu Lys Phe Gln Gln Leu Glu Leu Val Pro Ser Leu Lys Asn Lys Val 340 345 350 Glu Ser Ser Asp Cys Ser Phe Glu Phe Ala 355 360 <210> 21 <211> 240 <212> PRT <213> Unknown <220> <223> Single-chain antibody variable fragment (scFv) against phosphotyrosine <400> 21 Met Met Glu Val Gln Leu Gln Gln Ser Gly Pro Glu Leu Val Lys Pro 1 5 10 15 Gly Ala Ser Val Met Ile Ser Cys Arg Thr Ser Ala Tyr Thr Phe Thr 20 25 30 Glu Asn Thr Val His Trp Val Lys Gln Ser His Gly Glu Ser Leu Glu 35 40 45 Trp Ile Gly Gly Ile Asn Pro Tyr Tyr Gly Gly Ser Ile Phe Ser Pro 50 55 60 Lys Phe Lys Gly Lys Ala Thr Leu Thr Val Asp Lys Ser Ser Ser Thr 65 70 75 80 Ala Tyr Met Glu Leu Arg Ser Leu Thr Ser Glu Asp Ser Ala Val Tyr 85 90 95 Tyr Cys Ala Arg Arg Ala Gly Ala Tyr Tyr Phe Asp Tyr Trp Gly Gln 100 105 110 Gly Thr Thr Leu Thr Val Ser Ser Gly Gly Gly Ser Gly Gly Gly Ser 115 120 125 Gly Gly Gly Ser Glu Asn Val Leu Thr Gln Ser Pro Ala Ile Met Ser 130 135 140 Ala Ser Pro Gly Glu Lys Val Thr Met Thr Cys Arg Ala Ser Ser Ser 145 150 155 160 Val Ser Ser Ser Tyr Leu His Trp Tyr Arg Gln Lys Ser Gly Ala Ser 165 170 175 Pro Lys Leu Trp Ile Tyr Ser Thr Ser Asn Leu Ala Ser Gly Val Pro 180 185 190 Ala Arg Phe Ser Gly Ser Gly Ser Gly Thr Ser Tyr Ser Leu Thr Ile 195 200 205 Ser Ser Val Glu Ala Glu Asp Ala Ala Thr Tyr Tyr Cys Gln Gln Tyr 210 215 220 Ser Gly Tyr Arg Thr Phe Gly Gly Gly Thr Lys Leu Glu Ile Lys Arg 225 230 235 240 <210> 22 <211> 111 <212> PRT <213> Homo sapiens <400> 22 Met Gly Ala Met Asp Ser Ile Gln Ala Glu Glu Trp Tyr Phe Gly Lys 1 5 10 15 Leu Gly Arg Lys Asp Ala Glu Arg Gln Leu Leu Ser Phe Gly Asn Pro 20 25 30 Arg Gly Thr Phe Leu Ile Arg Glu Ser Glu Thr Thr Lys Gly Ala Tyr 35 40 45 Ser Leu Ser Ile Arg Asp Trp Asp Asp Met Lys Gly Asp His Val Lys 50 55 60 His Tyr Lys Ile Arg Lys Leu Asp Asn Gly Gly Tyr Tyr Ile Thr Thr 65 70 75 80 Arg Ala Gln Phe Glu Thr Leu Gln Gln Leu Val Gln His Tyr Ser Glu 85 90 95 Arg Ala Ala Gly Leu Ser Ser Arg Leu Val Val Pro Ser His Lys 100 105 110 <210> 23 <211> 111 <212> PRT <213> Homo sapiens <400> 23 Met Gly Ala Met Asp Ser Ile Gln Ala Glu Glu Trp Tyr Phe Gly Lys 1 5 10 15 Leu Gly Arg Lys Asp Ala Glu Arg Gln Leu Leu Ser Phe Gly Asn Pro 20 25 30 Arg Gly Thr Phe Leu Ile Arg Glu Ser Glu Thr Val Lys Gly Ala Tyr 35 40 45 Ala Leu Ser Ile Arg Asp Trp Asp Asp Met Lys Gly Asp His Val Lys 50 55 60 His Tyr Leu Ile Arg Lys Leu Asp Asn Gly Gly Tyr Tyr Ile Thr Thr 65 70 75 80 Arg Ala Gln Phe Glu Thr Leu Gln Gln Leu Val Gln His Tyr Ser Glu 85 90 95 Arg Ala Ala Gly Leu Ser Ser Arg Leu Val Val Pro Ser His Lys 100 105 110 <210> 24 <211> 113 <212> PRT <213> Homo sapiens <400> 24 Met Gly Ala Met Asp Ser Ile Gln Ala Glu Glu Trp Tyr Phe Gly Lys 1 5 10 15 Ile Thr Arg Arg Glu Ser Glu Arg Leu Leu Leu Asn Ala Glu Asn Pro 20 25 30 Arg Gly Thr Phe Leu Val Arg Glu Ser Glu Thr Thr Lys Gly Ala Tyr 35 40 45 Ser Leu Ser Val Ser Asp Phe Asp Asn Ala Lys Gly Leu Asn Val Lys 50 55 60 His Tyr Lys Ile Arg Lys Leu Asp Ser Gly Gly Phe Tyr Ile Thr Ser 65 70 75 80 Arg Thr Gln Phe Asn Ser Leu Gln Gln Leu Val Ala Tyr Tyr Ser Lys 85 90 95 His Ala Asp Gly Leu Cys His Arg Leu Thr Thr Val Cys Pro Thr Ser 100 105 110 Lys <210> 25 <211> 113 <212> PRT <213> Homo sapiens <400> 25 Met Gly Ala Met Asp Ser Ile Gln Ala Glu Glu Trp Tyr Phe Gly Lys 1 5 10 15 Ile Thr Arg Arg Glu Ser Glu Arg Leu Leu Leu Asn Ala Glu Asn Pro 20 25 30 Arg Gly Thr Phe Leu Val Arg Glu Ser Glu Val Thr Lys Gly Ala Tyr 35 40 45 Ala Leu Ser Val Ser Asp Phe Asp Asn Ala Lys Gly Leu Asn Val Lys 50 55 60 His Tyr Leu Ile Arg Lys Leu Asp Ser Gly Gly Phe Tyr Ile Thr Ser 65 70 75 80 Arg Thr Gln Phe Asn Ser Leu Gln Gln Leu Val Ala Tyr Tyr Ser Lys 85 90 95 His Ala Asp Gly Leu Cys His Arg Leu Thr Thr Val Cys Pro Thr Ser 100 105 110 Lys <210> 26 <211> 310 <212> PRT <213> Homo sapiens <400> 26 Met Ala Ser Leu Thr Val Lys Ala Tyr Leu Leu Gly Lys Glu Asp Ala 1 5 10 15 Ala Arg Glu Ile Arg Arg Phe Ser Phe Cys Cys Ser Pro Glu Pro Glu 20 25 30 Ala Glu Ala Glu Ala Ala Ala Gly Pro Gly Pro Cys Glu Arg Leu Leu 35 40 45 Ser Arg Val Ala Ala Leu Phe Pro Ala Leu Arg Pro Gly Gly Phe Gln 50 55 60 Ala His Tyr Arg Asp Glu Asp Gly Asp Leu Val Ala Phe Ser Ser Asp 65 70 75 80 Glu Glu Leu Thr Met Ala Met Ser Tyr Val Lys Asp Asp Ile Phe Arg 85 90 95 Ile Tyr Ile Lys Glu Lys Lys Glu Cys Arg Arg Asp His Arg Pro Pro 100 105 110 Cys Ala Gln Glu Ala Pro Arg Asn Met Val His Pro Asn Val Ile Cys 115 120 125 Asp Gly Cys Asn Gly Pro Val Val Gly Thr Arg Tyr Lys Cys Ser Val 130 135 140 Cys Pro Asp Tyr Asp Leu Cys Ser Val Cys Glu Gly Lys Gly Leu His 145 150 155 160 Arg Gly His Thr Lys Leu Ala Phe Pro Ser Pro Phe Gly His Leu Ser 165 170 175 Glu Gly Phe Ser His Ser Arg Trp Leu Arg Lys Val Lys His Gly His 180 185 190 Phe Gly Trp Pro Gly Trp Glu Met Gly Pro Pro Gly Asn Trp Ser Pro 195 200 205 Arg Pro Pro Arg Ala Gly Glu Ala Arg Pro Gly Pro Thr Ala Glu Ser 210 215 220 Ala Ser Gly Pro Ser Glu Asp Pro Ser Val Asn Phe Leu Lys Asn Val 225 230 235 240 Gly Glu Ser Val Ala Ala Ala Leu Ser Pro Leu Gly Ile Glu Val Asp 245 250 255 Ile Asp Val Glu His Gly Gly Lys Arg Ser Arg Leu Thr Pro Val Ser 260 265 270 Pro Glu Ser Ser Ser Thr Glu Glu Lys Ser Ser Ser Gln Pro Ser Ser 275 280 285 Cys Cys Ser Asp Pro Ser Lys Pro Gly Gly Asn Val Glu Gly Ala Thr 290 295 300 Gln Ser Leu Ala Glu Gln 305 310 <210> 27 <211> 310 <212> PRT <213> Homo sapiens <400> 27 Met Ala Ser Leu Thr Val Lys Ala Tyr Leu Leu Gly Lys Glu Asp Ala 1 5 10 15 Ala Arg Glu Ile Arg Arg Phe Ser Phe Cys Cys Ser Pro Glu Pro Glu 20 25 30 Ala Glu Ala Glu Ala Ala Ala Gly Pro Gly Pro Cys Glu Arg Leu Leu 35 40 45 Ser Arg Val Ala Ala Leu Phe Pro Ala Leu Arg Pro Gly Gly Phe Gln 50 55 60 Ala His Tyr Arg Asp Glu Asp Gly Asp Leu Val Ala Phe Ser Ser Asp 65 70 75 80 Glu Glu Leu Thr Met Ala Met Ser Tyr Val Lys Asp Asp Ile Phe Arg 85 90 95 Ile Tyr Ile Lys Glu Lys Lys Glu Cys Arg Arg Asp His Arg Pro Pro 100 105 110 Cys Ala Gln Glu Ala Pro Arg Asn Met Val His Pro Asn Val Ile Cys 115 120 125 Asp Gly Cys Asn Gly Pro Val Val Gly Thr Arg Tyr Lys Cys Ser Val 130 135 140 Cys Pro Asp Tyr Asp Leu Cys Ser Val Cys Glu Gly Lys Gly Leu His 145 150 155 160 Arg Gly His Thr Lys Leu Ala Phe Pro Ser Pro Phe Gly His Leu Ser 165 170 175 Glu Gly Phe Ser His Ser Arg Trp Leu Arg Lys Val Lys His Gly His 180 185 190 Phe Gly Trp Pro Gly Trp Glu Met Gly Pro Pro Gly Asn Trp Ser Pro 195 200 205 Arg Pro Pro Arg Ala Gly Glu Ala Arg Pro Gly Pro Thr Ala Glu Ser 210 215 220 Ala Ser Gly Pro Ser Glu Asp Pro Ser Val Asn Phe Leu Lys Asn Val 225 230 235 240 Gly Glu Ser Val Ala Ala Ala Leu Ser Pro Leu Gly Ile Glu Val Asp 245 250 255 Ile Asp Val Glu His Gly Gly Lys Arg Ser Arg Leu Thr Pro Val Ser 260 265 270 Pro Glu Ser Ser Ser Thr Glu Glu Lys Ser Ser Ser Gln Pro Ser Ser 275 280 285 Cys Cys Ser Asp Pro Ser Lys Pro Gly Gly Asn Val Glu Gly Ala Thr 290 295 300 Gln Ser Leu Ala Glu Gln 305 310 <210> 28 <211> 310 <212> PRT <213> Homo sapiens <400> 28 Met Ala Ser Leu Thr Val Lys Ala Tyr Leu Leu Gly Lys Glu Asp Ala 1 5 10 15 Ala Arg Glu Ile Arg Arg Phe Ser Phe Cys Cys Ser Pro Glu Pro Glu 20 25 30 Ala Glu Ala Glu Ala Ala Ala Gly Pro Gly Pro Cys Glu Arg Leu Leu 35 40 45 Ser Arg Val Ala Ala Leu Phe Pro Ala Leu Arg Pro Gly Gly Phe Gln 50 55 60 Ala His Tyr Arg Asp Glu Asp Gly Asp Leu Val Ala Phe Ser Ser Asp 65 70 75 80 Glu Glu Leu Thr Met Ala Met Ser Tyr Val Lys Asp Asp Ile Phe Arg 85 90 95 Ile Tyr Ile Lys Glu Lys Lys Glu Cys Arg Arg Asp His Arg Pro Pro 100 105 110 Cys Ala Gln Glu Ala Pro Arg Asn Met Val His Pro Asn Val Ile Cys 115 120 125 Asp Gly Cys Asn Gly Pro Val Val Gly Thr Arg Tyr Lys Cys Ser Val 130 135 140 Cys Pro Asp Tyr Asp Leu Cys Ser Val Cys Glu Gly Lys Gly Leu His 145 150 155 160 Arg Gly His Thr Lys Leu Ala Phe Pro Ser Pro Phe Gly His Leu Ser 165 170 175 Glu Gly Phe Ser His Ser Arg Trp Leu Arg Lys Val Lys His Gly His 180 185 190 Phe Gly Trp Pro Gly Trp Glu Met Gly Pro Pro Gly Asn Trp Ser Pro 195 200 205 Arg Pro Pro Arg Ala Gly Glu Ala Arg Pro Gly Pro Thr Ala Glu Ser 210 215 220 Ala Ser Gly Pro Ser Glu Asp Pro Ser Val Asn Phe Leu Lys Asn Val 225 230 235 240 Gly Glu Ser Val Ala Ala Ala Leu Ser Pro Leu Gly Ile Glu Val Asp 245 250 255 Ile Asp Val Glu His Gly Gly Lys Arg Ser Arg Leu Thr Pro Val Ser 260 265 270 Pro Glu Ser Ser Ser Thr Glu Glu Lys Ser Ser Ser Gln Pro Ser Ser 275 280 285 Cys Cys Ser Asp Pro Ser Lys Pro Gly Gly Asn Val Glu Gly Ala Thr 290 295 300 Gln Ser Leu Ala Glu Gln 305 310 <210> 29 <211> 440 <212> PRT <213> Homo sapiens <400> 29 Met Ala Ser Leu Thr Val Lys Ala Tyr Leu Leu Gly Lys Glu Asp Ala 1 5 10 15 Ala Arg Glu Ile Arg Arg Phe Ser Phe Cys Cys Ser Pro Glu Pro Glu 20 25 30 Ala Glu Ala Glu Ala Ala Ala Gly Pro Gly Pro Cys Glu Arg Leu Leu 35 40 45 Ser Arg Val Ala Ala Leu Phe Pro Ala Leu Arg Pro Gly Gly Phe Gln 50 55 60 Ala His Tyr Arg Asp Glu Asp Gly Asp Leu Val Ala Phe Ser Ser Asp 65 70 75 80 Glu Glu Leu Thr Met Ala Met Ser Tyr Val Lys Asp Asp Ile Phe Arg 85 90 95 Ile Tyr Ile Lys Glu Lys Lys Glu Cys Arg Arg Asp His Arg Pro Pro 100 105 110 Cys Ala Gln Glu Ala Pro Arg Asn Met Val His Pro Asn Val Ile Cys 115 120 125 Asp Gly Cys Asn Gly Pro Val Val Gly Thr Arg Tyr Lys Cys Ser Val 130 135 140 Cys Pro Asp Tyr Asp Leu Cys Ser Val Cys Glu Gly Lys Gly Leu His 145 150 155 160 Arg Gly His Thr Lys Leu Ala Phe Pro Ser Pro Phe Gly His Leu Ser 165 170 175 Glu Gly Phe Ser His Ser Arg Trp Leu Arg Lys Val Lys His Gly His 180 185 190 Phe Gly Trp Pro Gly Trp Glu Met Gly Pro Pro Gly Asn Trp Ser Pro 195 200 205 Arg Pro Pro Arg Ala Gly Glu Ala Arg Pro Gly Pro Thr Ala Glu Ser 210 215 220 Ala Ser Gly Pro Ser Glu Asp Pro Ser Val Asn Phe Leu Lys Asn Val 225 230 235 240 Gly Glu Ser Val Ala Ala Ala Leu Ser Pro Leu Gly Ile Glu Val Asp 245 250 255 Ile Asp Val Glu His Gly Gly Lys Arg Ser Arg Leu Thr Pro Val Ser 260 265 270 Pro Glu Ser Ser Ser Thr Glu Glu Lys Ser Ser Ser Gln Pro Ser Ser 275 280 285 Cys Cys Ser Asp Pro Ser Lys Pro Gly Gly Asn Val Glu Gly Ala Thr 290 295 300 Gln Ser Leu Ala Glu Gln Met Arg Lys Ile Ala Leu Glu Ser Glu Gly 305 310 315 320 Arg Pro Glu Glu Gln Met Glu Ser Asp Asn Cys Ser Gly Gly Asp Asp 325 330 335 Asp Trp Thr His Leu Ser Ser Lys Glu Val Asp Pro Ser Thr Gly Glu 340 345 350 Leu Gln Ser Leu Gln Met Pro Glu Ser Glu Gly Pro Ser Ser Leu Asp 355 360 365 Pro Ser Gln Glu Gly Pro Thr Gly Leu Lys Glu Ala Ala Leu Tyr Pro 370 375 380 His Leu Pro Pro Glu Ala Asp Pro Arg Leu Ile Glu Ser Leu Ser Gln 385 390 395 400 Met Leu Ser Met Gly Phe Ser Asp Glu Gly Gly Trp Leu Thr Arg Leu 405 410 415 Leu Gln Thr Lys Asn Tyr Asp Ile Gly Ala Ala Leu Asp Thr Ile Gln 420 425 430 Tyr Ser Lys His Pro Pro Pro Leu 435 440 <210> 30 <211> 439 <212> PRT <213> Rattus norvegicus <400> 30 Met Ala Ser Leu Thr Val Lys Ala Tyr Leu Leu Gly Lys Glu Glu Ala 1 5 10 15 Ala Arg Glu Ile Arg Arg Phe Ser Phe Cys Phe Ser Pro Glu Pro Glu 20 25 30 Ala Glu Ala Ala Ala Gly Pro Gly Pro Cys Glu Arg Leu Leu Ser Arg 35 40 45 Val Ala Val Leu Phe Pro Ala Leu Arg Pro Gly Gly Phe Gln Ala His 50 55 60 Tyr Arg Asp Glu Asp Gly Asp Leu Val Ala Phe Ser Ser Asp Glu Glu 65 70 75 80 Leu Thr Met Ala Met Ser Tyr Val Lys Asp Asp Ile Phe Arg Ile Tyr 85 90 95 Ile Lys Glu Lys Lys Glu Cys Arg Arg Glu His Arg Pro Pro Cys Ala 100 105 110 Gln Glu Ala Arg Ser Met Val His Pro Asn Val Ile Cys Asp Gly Cys 115 120 125 Asn Gly Pro Val Val Gly Thr Arg Tyr Lys Cys Ser Val Cys Pro Asp 130 135 140 Tyr Asp Leu Cys Ser Val Cys Glu Gly Lys Gly Leu His Arg Glu His 145 150 155 160 Ser Lys Leu Ile Phe Pro Asn Pro Phe Gly His Leu Ser Asp Ser Phe 165 170 175 Ser His Ser Arg Trp Leu Arg Lys Leu Lys His Gly His Phe Gly Trp 180 185 190 Pro Gly Trp Glu Met Gly Pro Pro Gly Asn Trp Ser Pro Arg Pro Pro 195 200 205 Arg Ala Gly Asp Gly Arg Pro Cys Pro Thr Ala Glu Ser Ala Ser Ala 210 215 220 Pro Ser Glu Asp Pro Asn Val Asn Phe Leu Lys Asn Val Gly Glu Ser 225 230 235 240 Val Ala Ala Ala Leu Ser Pro Leu Gly Ile Glu Val Asp Ile Asp Val 245 250 255 Glu His Gly Gly Lys Arg Ser Arg Leu Thr Pro Thr Ser Ala Glu Ser 260 265 270 Ser Ser Thr Gly Thr Glu Asp Lys Ser Gly Thr Gln Pro Ser Ser Cys 275 280 285 Ser Ser Glu Val Ser Lys Pro Asp Gly Ala Gly Glu Gly Pro Ala Gln 290 295 300 Ser Leu Thr Glu Gln Met Lys Lys Ile Ala Leu Glu Ser Val Gly Gln 305 310 315 320 Pro Glu Glu Leu Met Glu Ser Asp Asn Cys Ser Gly Gly Asp Asp Asp 325 330 335 Trp Thr His Leu Ser Ser Lys Glu Val Asp Pro Ser Thr Gly Glu Leu 340 345 350 Gln Ser Leu Gln Met Pro Glu Ser Glu Gly Pro Ser Ser Leu Asp Pro 355 360 365 Ser Gln Glu Gly Pro Thr Gly Leu Lys Glu Ala Ala Leu Tyr Pro His 370 375 380 Leu Pro Pro Glu Ala Asp Pro Arg Leu Ile Glu Ser Leu Ser Gln Met 385 390 395 400 Leu Ser Met Gly Phe Ser Asp Glu Gly Gly Trp Leu Thr Arg Leu Leu 405 410 415 Gln Thr Lys Asn Tyr Asp Ile Gly Ala Ala Leu Asp Thr Ile Gln Tyr 420 425 430 Ser Lys His Pro Pro Pro Leu 435 <210> 31 <211> 292 <212> PRT <213> Saccharomyces cerevisiae <400> 31 Met Thr Ser Leu Asn Ile Met Gly Arg Lys Phe Ile Leu Glu Arg Ala 1 5 10 15 Lys Arg Asn Asp Asn Ile Glu Glu Ile Tyr Thr Ser Ala Tyr Val Ser 20 25 30 Leu Pro Ser Ser Thr Asp Thr Arg Leu Pro His Phe Lys Ala Lys Glu 35 40 45 Glu Asp Cys Asp Val Tyr Glu Glu Gly Thr Asn Leu Val Gly Lys Asn 50 55 60 Ala Lys Tyr Thr Tyr Arg Ser Leu Gly Arg His Leu Asp Phe Leu Arg 65 70 75 80 Pro Gly Leu Arg Phe Gly Gly Ser Gln Ser Ser Lys Tyr Thr Tyr Tyr 85 90 95 Thr Val Glu Val Lys Ile Asp Thr Val Asn Leu Pro Leu Tyr Lys Asp 100 105 110 Ser Arg Ser Leu Asp Pro His Val Thr Gly Thr Phe Thr Ile Lys Asn 115 120 125 Leu Thr Pro Val Leu Asp Lys Val Val Thr Leu Phe Glu Gly Tyr Val 130 135 140 Ile Asn Tyr Asn Gln Phe Pro Leu Cys Ser Leu His Trp Pro Ala Glu 145 150 155 160 Glu Thr Leu Asp Pro Tyr Met Ala Gln Arg Glu Ser Asp Cys Ser His 165 170 175 Trp Lys Arg Phe Gly His Phe Gly Ser Asp Asn Trp Ser Leu Thr Glu 180 185 190 Arg Asn Phe Gly Gln Tyr Asn His Glu Ser Ala Glu Phe Met Asn Gln 195 200 205 Arg Tyr Ile Tyr Leu Lys Trp Lys Glu Arg Phe Leu Leu Asp Asp Glu 210 215 220 Glu Gln Glu Asn Gln Met Leu Asp Asp Asn His His Leu Glu Gly Ala 225 230 235 240 Ser Phe Glu Gly Phe Tyr Tyr Val Cys Leu Asp Gln Leu Thr Gly Ser 245 250 255 Val Glu Gly Tyr Tyr Tyr His Pro Ala Cys Glu Leu Phe Gln Lys Leu 260 265 270 Glu Leu Val Pro Thr Asn Cys Asp Ala Leu Asn Thr Tyr Ser Ser Gly 275 280 285 Phe Glu Ile Ala 290 <210> 32 <211> 77 <212> PRT <213> Homo sapiens <400> 32 Met Gly Pro Leu Gly Ser Leu Cys Gly Arg Val Phe Lys Ser Gly Glu 1 5 10 15 Thr Thr Tyr Ser Cys Arg Asp Cys Ala Ile Asp Pro Thr Cys Val Leu 20 25 30 Cys Met Asp Cys Phe Gln Asp Ser Val His Lys Asn His Arg Tyr Lys 35 40 45 Met His Thr Ser Thr Gly Gly Gly Phe Cys Asp Cys Gly Asp Thr Glu 50 55 60 Ala Trp Lys Thr Gly Pro Phe Cys Val Asn His Glu Pro 65 70 75 <210> 33 <211> 76 <212> PRT <213> Homo sapiens <400> 33 Met Gly Pro Leu Gly Ser Leu Cys Gly Arg Val Phe Lys Val Gly Glu 1 5 10 15 Pro Thr Tyr Ser Cys Arg Asp Cys Ala Val Asp Pro Thr Cys Val Leu 20 25 30 Cys Met Glu Cys Phe Leu Gly Ser Ile His Arg Asp His Arg Tyr Arg 35 40 45 Met Thr Thr Ser Gly Gly Gly Gly Phe Cys Asp Cys Gly Asp Thr Glu 50 55 60 Ala Trp Lys Glu Gly Pro Tyr Cys Gln Lys His Glu 65 70 75 <210> 34 <211> 421 <212> PRT <213> Leishmania major <400> 34 Met Ser Arg Asn Pro Ser Asn Ser Asp Ala Ala His Ala Phe Trp Ser 1 5 10 15 Thr Gln Pro Val Pro Gln Thr Glu Asp Glu Thr Glu Lys Ile Val Phe 20 25 30 Ala Gly Pro Met Asp Glu Pro Lys Thr Val Ala Asp Ile Pro Glu Glu 35 40 45 Pro Tyr Pro Ile Ala Ser Thr Phe Glu Trp Trp Thr Pro Asn Met Glu 50 55 60 Ala Ala Asp Asp Ile His Ala Ile Tyr Glu Leu Leu Arg Asp Asn Tyr 65 70 75 80 Val Glu Asp Asp Asp Ser Met Phe Arg Phe Asn Tyr Ser Glu Glu Phe 85 90 95 Leu Gln Trp Ala Leu Cys Pro Pro Asn Tyr Ile Pro Asp Trp His Val 100 105 110 Ala Val Arg Arg Lys Ala Asp Lys Lys Leu Leu Ala Phe Ile Ala Gly 115 120 125 Val Pro Val Thr Leu Arg Met Gly Thr Pro Lys Tyr Met Lys Val Lys 130 135 140 Ala Gln Glu Lys Gly Glu Gly Glu Glu Ala Ala Lys Tyr Asp Glu Pro 145 150 155 160 Arg His Ile Cys Glu Ile Asn Phe Leu Cys Val His Lys Gln Leu Arg 165 170 175 Glu Lys Arg Leu Ala Pro Ile Leu Ile Lys Glu Ala Thr Arg Arg Val 180 185 190 Asn Arg Thr Asn Val Trp Gln Ala Val Tyr Thr Ala Gly Val Leu Leu 195 200 205 Pro Thr Pro Tyr Ala Ser Gly Gln Tyr Phe His Arg Ser Leu Asn Pro 210 215 220 Glu Lys Leu Val Glu Ile Arg Phe Ser Gly Ile Pro Ala Gln Tyr Gln 225 230 235 240 Lys Phe Gln Asn Pro Met Ala Met Leu Lys Arg Asn Tyr Gln Leu Pro 245 250 255 Ser Ala Pro Lys Asn Ser Gly Leu Arg Glu Met Lys Pro Ser Asp Val 260 265 270 Pro Gln Val Arg Arg Ile Leu Met Asn Tyr Leu Asp Ser Phe Asp Val 275 280 285 Gly Pro Val Phe Ser Asp Ala Glu Ile Ser His Tyr Leu Leu Pro Arg 290 295 300 Asp Gly Val Val Phe Thr Tyr Val Val Glu Asn Asp Lys Lys Val Thr 305 310 315 320 Asp Phe Phe Ser Phe Tyr Arg Ile Pro Ser Thr Val Ile Gly Asn Ser 325 330 335 Asn Tyr Asn Leu Leu Asn Ala Ala Tyr Val His Tyr Tyr Ala Ala Thr 340 345 350 Ser Ile Pro Leu His Gln Leu Ile Leu Asp Leu Leu Ile Val Ala His 355 360 365 Ser Arg Gly Phe Asp Val Cys Asn Met Val Glu Ile Leu Asp Asn Arg 370 375 380 Ser Phe Val Glu Gln Leu Lys Phe Gly Ala Gly Asp Gly His Leu Arg 385 390 395 400 Tyr Tyr Phe Tyr Asn Trp Ala Tyr Pro Lys Ile Lys Pro Ser Gln Val 405 410 415 Ala Leu Val Met Leu 420 <210> 35 <211> 496 <212> PRT <213> Homo sapiens <400> 35 Met Ala Asp Glu Ser Glu Thr Ala Val Lys Pro Pro Ala Pro Pro Leu 1 5 10 15 Pro Gln Met Met Glu Gly Asn Gly Asn Gly His Glu His Cys Ser Asp 20 25 30 Cys Glu Asn Glu Glu Asp Asn Ser Tyr Asn Arg Gly Gly Leu Ser Pro 35 40 45 Ala Asn Asp Thr Gly Ala Lys Lys Lys Lys Lys Lys Gln Lys Lys Lys 50 55 60 Lys Glu Lys Gly Ser Glu Thr Asp Ser Ala Gln Asp Gln Pro Val Lys 65 70 75 80 Met Asn Ser Leu Pro Ala Glu Arg Ile Gln Glu Ile Gln Lys Ala Ile 85 90 95 Glu Leu Phe Ser Val Gly Gln Gly Pro Ala Lys Thr Met Glu Glu Ala 100 105 110 Ser Lys Arg Ser Tyr Gln Phe Trp Asp Thr Gln Pro Val Pro Lys Leu 115 120 125 Gly Glu Val Val Asn Thr His Gly Pro Val Glu Pro Asp Lys Asp Asn 130 135 140 Ile Arg Gln Glu Pro Tyr Thr Leu Pro Gln Gly Phe Thr Trp Asp Ala 145 150 155 160 Leu Asp Leu Gly Asp Arg Gly Val Leu Lys Glu Leu Tyr Thr Leu Leu 165 170 175 Asn Glu Asn Tyr Val Glu Asp Asp Asp Asn Met Phe Arg Phe Asp Tyr 180 185 190 Ser Pro Glu Phe Leu Leu Trp Ala Leu Arg Pro Pro Gly Trp Leu Pro 195 200 205 Gln Trp His Cys Gly Val Arg Val Val Ser Ser Arg Lys Leu Val Gly 210 215 220 Phe Ile Ser Ala Ile Pro Ala Asn Ile His Ile Tyr Asp Thr Glu Lys 225 230 235 240 Lys Met Val Glu Ile Asn Phe Leu Cys Val His Lys Lys Leu Arg Ser 245 250 255 Lys Arg Val Ala Pro Val Leu Ile Arg Glu Ile Thr Arg Arg Val His 260 265 270 Leu Glu Gly Ile Phe Gln Ala Val Tyr Thr Ala Gly Val Val Leu Pro 275 280 285 Lys Pro Val Gly Thr Cys Arg Tyr Trp His Arg Ser Leu Asn Pro Arg 290 295 300 Lys Leu Ile Glu Val Lys Phe Ser His Leu Ser Arg Asn Met Thr Met 305 310 315 320 Gln Arg Thr Met Lys Leu Tyr Arg Leu Pro Glu Thr Pro Lys Thr Ala 325 330 335 Gly Leu Arg Pro Met Glu Thr Lys Asp Ile Pro Val Val His Gln Leu 340 345 350 Leu Thr Arg Tyr Leu Lys Gln Phe His Leu Thr Pro Val Met Ser Gln 355 360 365 Glu Glu Val Glu His Trp Phe Tyr Pro Gln Glu Asn Ile Ile Asp Thr 370 375 380 Phe Val Val Glu Asn Ala Asn Gly Glu Val Thr Asp Phe Leu Ser Phe 385 390 395 400 Tyr Thr Leu Pro Ser Thr Ile Met Asn His Pro Thr His Lys Ser Leu 405 410 415 Lys Ala Ala Tyr Ser Phe Tyr Asn Val His Thr Gln Thr Pro Leu Leu 420 425 430 Asp Leu Met Ser Asp Ala Leu Val Leu Ala Lys Met Lys Gly Phe Asp 435 440 445 Val Phe Asn Ala Leu Asp Leu Met Glu Asn Lys Thr Phe Leu Glu Lys 450 455 460 Leu Lys Phe Gly Ile Gly Asp Gly Asn Leu Gln Tyr Tyr Leu Tyr Asn 465 470 475 480 Trp Lys Cys Pro Ser Met Gly Ala Glu Lys Val Gly Leu Val Leu Gln 485 490 495 <210> 36 <211> 127 <212> PRT <213> Drosophila melanogaster <400> 36 Met Gly Asp Val Gln Pro Glu Thr Cys Arg Pro Ser Ala Ala Ser Gly 1 5 10 15 Asn Tyr Phe Pro Gln Tyr Pro Glu Tyr Ala Ile Glu Thr Ala Arg Leu 20 25 30 Arg Thr Phe Glu Ala Trp Pro Arg Asn Leu Lys Gln Lys Pro His Gln 35 40 45 Leu Ala Glu Ala Gly Phe Phe Tyr Thr Gly Val Gly Asp Arg Val Arg 50 55 60 Cys Phe Ser Cys Gly Gly Gly Leu Met Asp Trp Asn Asp Asn Asp Glu 65 70 75 80 Pro Trp Glu Gln His Ala Leu Trp Leu Ser Gln Cys Arg Phe Val Lys 85 90 95 Leu Met Lys Gly Gln Leu Tyr Ile Asp Thr Val Ala Ala Lys Pro Val 100 105 110 Leu Ala Glu Glu Lys Glu Glu Ser Thr Ser Ile Gly Gly Asp Thr 115 120 125 <210> 37 <211> 27 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 37 Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Leu Asn Asp 1 5 10 15 Phe Phe Glu Ala Gln Lys Ile Glu Trp His Glu 20 25 <210> 38 <211> 54 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 38 Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Leu Asn Asp 1 5 10 15 Phe Phe Glu Ala Gln Lys Ile Glu Trp His Glu Gly Gly Gly Ser Gly 20 25 30 Gly Gly Ser Gly Gly Gly Ser Gly Leu Asn Asp Phe Phe Glu Ala Gln 35 40 45 Lys Ile Glu Trp His Glu 50 <210> 39 <211> 56 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 39 Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Leu 1 5 10 15 Asn Asp Phe Phe Glu Ala Gln Lys Ile Glu Trp His Glu Gly Gly Gly 20 25 30 Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Leu Asn Asp Phe Phe Glu 35 40 45 Ala Gln Lys Ile Glu Trp His Glu 50 55 <210> 40 <211> 38 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 40 Gly His His His His His His His His His His Gly Gly Gly Ser Gly 1 5 10 15 Gly Gly Ser Gly Gly Gly Ser Gly Leu Asn Asp Phe Phe Glu Ala Gln 20 25 30 Lys Ile Glu Trp His Glu 35 <210> 41 <211> 65 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 41 Gly His His His His His His His His His His Gly Gly Gly Ser Gly 1 5 10 15 Gly Gly Ser Gly Gly Gly Ser Gly Leu Asn Asp Phe Phe Glu Ala Gln 20 25 30 Lys Ile Glu Trp His Glu Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly 35 40 45 Gly Ser Gly Leu Asn Asp Phe Phe Glu Ala Gln Lys Ile Glu Trp His 50 55 60 Glu 65 <210> 42 <211> 67 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 42 Gly Gly Ser His His His His His His His His His His Gly Gly Gly 1 5 10 15 Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Leu Asn Asp Phe Phe Glu 20 25 30 Ala Gln Lys Ile Glu Trp His Glu Gly Gly Gly Ser Gly Gly Gly Ser 35 40 45 Gly Gly Gly Ser Gly Leu Asn Asp Phe Phe Glu Ala Gln Lys Ile Glu 50 55 60 Trp His Glu 65 <210> 43 <211> 66 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 43 Gly Ser His His His His His His His His His His Gly Gly Gly Ser 1 5 10 15 Gly Gly Gly Ser Gly Gly Gly Ser Gly Leu Asn Asp Phe Phe Glu Ala 20 25 30 Gln Lys Ile Glu Trp His Glu Gly Gly Gly Ser Gly Gly Gly Ser Gly 35 40 45 Gly Gly Ser Gly Leu Asn Asp Phe Phe Glu Ala Gln Lys Ile Glu Trp 50 55 60 His Glu 65 <210> 44 <211> 61 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 44 Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Leu Asn Asp 1 5 10 15 Phe Phe Glu Ala Gln Lys Ile Glu Trp His Glu Gly Gly Gly Ser Gly 20 25 30 Gly Gly Ser Gly Gly Gly Ser Gly Leu Asn Asp Phe Phe Glu Ala Gln 35 40 45 Lys Ile Glu Trp His Glu Gly His His His His His His 50 55 60 <210> 45 <211> 901 <212> PRT <213> L. pneumophila <400> 45 Met Met Val Lys Gln Gly Val Phe Met Lys Thr Asp Gln Ser Lys Val 1 5 10 15 Lys Lys Leu Ser Asp Tyr Lys Ser Leu Asp Tyr Phe Val Ile His Val 20 25 30 Asp Leu Gln Ile Asp Leu Ser Lys Lys Pro Val Glu Ser Lys Ala Arg 35 40 45 Leu Thr Val Val Pro Asn Leu Asn Val Asp Ser His Ser Asn Asp Leu 50 55 60 Val Leu Asp Gly Glu Asn Met Thr Leu Val Ser Leu Gln Met Asn Asp 65 70 75 80 Asn Leu Leu Lys Glu Asn Glu Tyr Glu Leu Thr Lys Asp Ser Leu Ile 85 90 95 Ile Lys Asn Ile Pro Gln Asn Thr Pro Phe Thr Ile Glu Met Thr Ser 100 105 110 Leu Leu Gly Glu Asn Thr Asp Leu Phe Gly Leu Tyr Glu Thr Glu Gly 115 120 125 Val Ala Leu Val Lys Ala Glu Ser Glu Gly Leu Arg Arg Val Phe Tyr 130 135 140 Leu Pro Asp Arg Pro Asp Asn Leu Ala Thr Tyr Lys Thr Thr Ile Ile 145 150 155 160 Ala Asn Gln Glu Asp Tyr Pro Val Leu Leu Ser Asn Gly Val Leu Ile 165 170 175 Glu Lys Lys Glu Leu Pro Leu Gly Leu His Ser Val Thr Trp Leu Asp 180 185 190 Asp Val Pro Lys Pro Ser Tyr Leu Phe Ala Leu Val Ala Gly Asn Leu 195 200 205 Gln Arg Ser Val Thr Tyr Tyr Gln Thr Lys Ser Gly Arg Glu Leu Pro 210 215 220 Ile Glu Phe Tyr Val Pro Pro Ser Ala Thr Ser Lys Cys Asp Phe Ala 225 230 235 240 Lys Glu Val Leu Lys Glu Ala Met Ala Trp Asp Glu Arg Thr Phe Asn 245 250 255 Leu Glu Cys Ala Leu Arg Gln His Met Val Ala Gly Val Asp Lys Tyr 260 265 270 Ala Ser Gly Ala Ser Glu Pro Thr Gly Leu Asn Leu Phe Asn Thr Glu 275 280 285 Asn Leu Phe Ala Ser Pro Glu Thr Lys Thr Asp Leu Gly Ile Leu Arg 290 295 300 Val Leu Glu Val Val Ala His Glu Phe Phe His Tyr Trp Ser Gly Asp 305 310 315 320 Arg Val Thr Ile Arg Asp Trp Phe Asn Leu Pro Leu Lys Glu Gly Leu 325 330 335 Thr Thr Phe Arg Ala Ala Met Phe Arg Glu Glu Leu Phe Gly Thr Asp 340 345 350 Leu Ile Arg Leu Leu Asp Gly Lys Asn Leu Asp Glu Arg Ala Pro Arg 355 360 365 Gln Ser Ala Tyr Thr Ala Val Arg Ser Leu Tyr Thr Ala Ala Ala Tyr 370 375 380 Glu Lys Ser Ala Asp Ile Phe Arg Met Met Met Leu Phe Ile Gly Lys 385 390 395 400 Glu Pro Phe Ile Glu Ala Val Ala Lys Phe Phe Lys Asp Asn Asp Gly 405 410 415 Gly Ala Val Thr Leu Glu Asp Phe Ile Glu Ser Ile Ser Asn Ser Ser 420 425 430 Gly Lys Asp Leu Arg Ser Phe Leu Ser Trp Phe Thr Glu Ser Gly Ile 435 440 445 Pro Glu Leu Ile Val Thr Asp Glu Leu Asn Pro Asp Thr Lys Gln Tyr 450 455 460 Phe Leu Lys Ile Lys Thr Val Asn Gly Arg Asn Arg Pro Ile Pro Ile 465 470 475 480 Leu Met Gly Leu Leu Asp Ser Ser Gly Ala Glu Ile Val Ala Asp Lys 485 490 495 Leu Leu Ile Val Asp Gln Glu Glu Ile Glu Phe Gln Phe Glu Asn Ile 500 505 510 Gln Thr Arg Pro Ile Pro Ser Leu Leu Arg Ser Phe Ser Ala Pro Val 515 520 525 His Met Lys Tyr Glu Tyr Ser Tyr Gln Asp Leu Leu Leu Leu Met Gln 530 535 540 Phe Asp Thr Asn Leu Tyr Asn Arg Cys Glu Ala Ala Lys Gln Leu Ile 545 550 555 560 Ser Ala Leu Ile Asn Asp Phe Cys Ile Gly Lys Lys Ile Glu Leu Ser 565 570 575 Pro Gln Phe Phe Ala Val Tyr Lys Ala Leu Leu Ser Asp Asn Ser Leu 580 585 590 Asn Glu Trp Met Leu Ala Glu Leu Ile Thr Leu Pro Ser Leu Glu Glu 595 600 605 Leu Ile Glu Asn Gln Asp Lys Pro Asp Phe Glu Lys Leu Asn Glu Gly 610 615 620 Arg Gln Leu Ile Gln Asn Ala Leu Ala Asn Glu Leu Lys Thr Asp Phe 625 630 635 640 Tyr Asn Leu Leu Phe Arg Ile Gln Ile Ser Gly Asp Asp Asp Lys Gln 645 650 655 Lys Leu Lys Gly Phe Asp Leu Lys Gln Ala Gly Leu Arg Arg Leu Lys 660 665 670 Ser Val Cys Phe Ser Tyr Leu Leu Asn Val Asp Phe Glu Lys Thr Lys 675 680 685 Glu Lys Leu Ile Leu Gln Phe Glu Asp Ala Leu Gly Lys Asn Met Thr 690 695 700 Glu Thr Ala Leu Ala Leu Ser Met Leu Cys Glu Ile Asn Cys Glu Glu 705 710 715 720 Ala Asp Val Ala Leu Glu Asp Tyr Tyr His Tyr Trp Lys Asn Asp Pro 725 730 735 Gly Ala Val Asn Asn Trp Phe Ser Ile Gln Ala Leu Ala His Ser Pro 740 745 750 Asp Val Ile Glu Arg Val Lys Lys Leu Met Arg His Gly Asp Phe Asp 755 760 765 Leu Ser Asn Pro Asn Lys Val Tyr Ala Leu Leu Gly Ser Phe Ile Lys 770 775 780 Asn Pro Phe Gly Phe His Ser Val Thr Gly Glu Gly Tyr Gln Leu Val 785 790 795 800 Ala Asp Ala Ile Phe Asp Leu Asp Lys Ile Asn Pro Thr Leu Ala Ala 805 810 815 Asn Leu Thr Glu Lys Phe Thr Tyr Trp Asp Lys Tyr Asp Val Asn Arg 820 825 830 Gln Ala Met Met Ile Ser Thr Leu Lys Ile Ile Tyr Ser Asn Ala Thr 835 840 845 Ser Ser Asp Val Arg Thr Met Ala Lys Lys Gly Leu Asp Lys Val Lys 850 855 860 Glu Asp Leu Pro Leu Pro Ile His Leu Thr Phe His Gly Gly Ser Thr 865 870 875 880 Met Gln Asp Arg Thr Ala Gln Leu Ile Ala Asp Gly Asn Lys Glu Asn 885 890 895 Ala Tyr Gln Leu His 900 <210> 46 <211> 265 <212> PRT <213> E. coli <400> 46 Met Gly Thr Ala Ile Ser Ile Lys Thr Pro Glu Asp Ile Glu Lys Met 1 5 10 15 Arg Val Ala Gly Arg Leu Ala Ala Glu Val Leu Glu Met Ile Glu Pro 20 25 30 Tyr Val Lys Pro Gly Val Ser Thr Gly Glu Leu Asp Arg Ile Cys Asn 35 40 45 Asp Tyr Ile Val Asn Glu Gln His Ala Val Ser Ala Cys Leu Gly Tyr 50 55 60 His Gly Tyr Pro Lys Ser Val Cys Ile Ser Ile Asn Glu Val Val Cys 65 70 75 80 His Gly Ile Pro Asp Asp Ala Lys Leu Leu Lys Asp Gly Asp Ile Val 85 90 95 Asn Ile Asp Val Thr Val Ile Lys Asp Gly Phe His Gly Asp Thr Ser 100 105 110 Lys Met Phe Ile Val Gly Lys Pro Thr Ile Met Gly Glu Arg Leu Cys 115 120 125 Arg Ile Thr Gln Glu Ser Leu Tyr Leu Ala Leu Arg Met Val Lys Pro 130 135 140 Gly Ile Asn Leu Arg Glu Ile Gly Ala Ala Ile Gln Lys Phe Val Glu 145 150 155 160 Ala Glu Gly Phe Ser Val Val Arg Glu Tyr Cys Gly His Gly Ile Gly 165 170 175 Arg Gly Phe His Glu Glu Pro Gln Val Leu His Tyr Asp Ser Arg Glu 180 185 190 Thr Asn Val Val Leu Lys Pro Gly Met Thr Phe Thr Ile Glu Pro Met 195 200 205 Val Asn Ala Gly Lys Lys Glu Ile Arg Thr Met Lys Asp Gly Trp Thr 210 215 220 Val Lys Thr Lys Asp Arg Ser Leu Ser Ala Gln Tyr Glu His Thr Ile 225 230 235 240 Val Val Thr Asp Asn Gly Cys Glu Ile Leu Thr Leu Arg Lys Asp Asp 245 250 255 Thr Ile Pro Ala Ile Ile Ser His Asp 260 265 <210> 47 <211> 322 <212> PRT <213> M. smegmatis <400> 47 Met Gly Thr Leu Glu Ala Asn Thr Asn Gly Pro Gly Ser Met Leu Ser 1 5 10 15 Arg Met Pro Val Ser Ser Arg Thr Val Pro Phe Gly Asp His Glu Thr 20 25 30 Trp Val Gln Val Thr Thr Pro Glu Asn Ala Gln Pro His Ala Leu Pro 35 40 45 Leu Ile Val Leu His Gly Gly Pro Gly Met Ala His Asn Tyr Val Ala 50 55 60 Asn Ile Ala Ala Leu Ala Asp Glu Thr Gly Arg Thr Val Ile His Tyr 65 70 75 80 Asp Gln Val Gly Cys Gly Asn Ser Thr His Leu Pro Asp Ala Pro Ala 85 90 95 Asp Phe Trp Thr Pro Gln Leu Phe Val Asp Glu Phe His Ala Val Cys 100 105 110 Thr Ala Leu Gly Ile Glu Arg Tyr His Val Leu Gly Gln Ser Trp Gly 115 120 125 Gly Met Leu Gly Ala Glu Ile Ala Val Arg Gln Pro Ser Gly Leu Val 130 135 140 Ser Leu Ala Ile Cys Asn Ser Pro Ala Ser Met Arg Leu Trp Ser Glu 145 150 155 160 Ala Ala Gly Asp Leu Arg Ala Gln Leu Pro Ala Glu Thr Arg Ala Ala 165 170 175 Leu Asp Arg His Glu Ala Ala Gly Thr Ile Thr His Pro Asp Tyr Leu 180 185 190 Gln Ala Ala Ala Glu Phe Tyr Arg Arg His Val Cys Arg Val Val Pro 195 200 205 Thr Pro Gln Asp Phe Ala Asp Ser Val Ala Gln Met Glu Ala Glu Pro 210 215 220 Thr Val Tyr His Thr Met Asn Gly Pro Asn Glu Phe His Val Val Gly 225 230 235 240 Thr Leu Gly Asp Trp Ser Val Ile Asp Arg Leu Pro Asp Val Thr Ala 245 250 255 Pro Val Leu Val Ile Ala Gly Glu His Asp Glu Ala Thr Pro Lys Thr 260 265 270 Trp Gln Pro Phe Val Asp His Ile Pro Asp Val Arg Ser His Val Phe 275 280 285 Pro Gly Thr Ser His Cys Thr His Leu Glu Lys Pro Glu Glu Phe Arg 290 295 300 Ala Val Val Ala Gln Phe Leu His Gln His Asp Leu Ala Ala Asp Ala 305 310 315 320 Arg Val <210> 48 <211> 446 <212> PRT <213> Y. pestis <400> 48 Met Thr Gln Gln Glu Tyr Gln Asn Arg Arg Gln Ala Leu Leu Ala Lys 1 5 10 15 Met Ala Pro Gly Ser Ala Ala Ile Ile Phe Ala Ala Pro Glu Ala Thr 20 25 30 Arg Ser Ala Asp Ser Glu Tyr Pro Tyr Arg Gln Asn Ser Asp Phe Ser 35 40 45 Tyr Leu Thr Gly Phe Asn Glu Pro Glu Ala Val Leu Ile Leu Val Lys 50 55 60 Ser Asp Glu Thr His Asn His Ser Val Leu Phe Asn Arg Ile Arg Asp 65 70 75 80 Leu Thr Ala Glu Ile Trp Phe Gly Arg Arg Leu Gly Gln Glu Ala Ala 85 90 95 Pro Thr Lys Leu Ala Val Asp Arg Ala Leu Pro Phe Asp Glu Ile Asn 100 105 110 Glu Gln Leu Tyr Leu Leu Leu Asn Arg Leu Asp Val Ile Tyr His Ala 115 120 125 Gln Gly Gln Tyr Ala Tyr Ala Asp Asn Ile Val Phe Ala Ala Leu Glu 130 135 140 Lys Leu Arg His Gly Phe Arg Lys Asn Leu Arg Ala Pro Ala Thr Leu 145 150 155 160 Thr Asp Trp Arg Pro Trp Leu His Glu Met Arg Leu Phe Lys Ser Ala 165 170 175 Glu Glu Ile Ala Val Leu Arg Arg Ala Gly Glu Ile Ser Ala Leu Ala 180 185 190 His Thr Arg Ala Met Glu Lys Cys Arg Pro Gly Met Phe Glu Tyr Gln 195 200 205 Leu Glu Gly Glu Ile Leu His Glu Phe Thr Arg His Gly Ala Arg Tyr 210 215 220 Pro Ala Tyr Asn Thr Ile Val Gly Gly Gly Glu Asn Gly Cys Ile Leu 225 230 235 240 His Tyr Thr Glu Asn Glu Cys Glu Leu Arg Asp Gly Asp Leu Val Leu 245 250 255 Ile Asp Ala Gly Cys Glu Tyr Arg Gly Tyr Ala Gly Asp Ile Thr Arg 260 265 270 Thr Phe Pro Val Asn Gly Lys Phe Thr Pro Ala Gln Arg Ala Val Tyr 275 280 285 Asp Ile Val Leu Ala Ala Ile Asn Lys Ser Leu Thr Leu Phe Arg Pro 290 295 300 Gly Thr Ser Ile Arg Glu Val Thr Glu Glu Val Val Arg Ile Met Val 305 310 315 320 Val Gly Leu Val Glu Leu Gly Ile Leu Lys Gly Asp Ile Glu Gln Leu 325 330 335 Ile Ala Glu Gln Ala His Arg Pro Phe Phe Met His Gly Leu Ser His 340 345 350 Trp Leu Gly Met Asp Val His Asp Val Gly Asp Tyr Gly Ser Ser Asp 355 360 365 Arg Gly Arg Ile Leu Glu Pro Gly Met Val Leu Thr Val Glu Pro Gly 370 375 380 Leu Tyr Ile Ala Pro Asp Ala Asp Val Pro Pro Gln Tyr Arg Gly Ile 385 390 395 400 Gly Ile Arg Ile Glu Asp Asp Ile Val Ile Thr Ala Thr Gly Asn Glu 405 410 415 Asn Leu Thr Ala Ser Val Val Lys Asp Pro Asp Asp Ile Glu Ala Leu 420 425 430 Met Ala Leu Asn His Ala Gly Glu Asn Leu Tyr Phe Gln Glu 435 440 445 <210> 49 <211> 303 <212> PRT <213> P. furiosus <400> 49 Met Asp Thr Glu Lys Leu Met Lys Ala Gly Glu Ile Ala Lys Lys Val 1 5 10 15 Arg Glu Lys Ala Ile Lys Leu Ala Arg Pro Gly Met Leu Leu Leu Glu 20 25 30 Leu Ala Glu Ser Ile Glu Lys Met Ile Met Glu Leu Gly Gly Lys Pro 35 40 45 Ala Phe Pro Val Asn Leu Ser Ile Asn Glu Ile Ala Ala His Tyr Thr 50 55 60 Pro Tyr Lys Gly Asp Thr Thr Val Leu Lys Glu Gly Asp Tyr Leu Lys 65 70 75 80 Ile Asp Val Gly Val His Ile Asp Gly Phe Ile Ala Asp Thr Ala Val 85 90 95 Thr Val Arg Val Gly Met Glu Glu Asp Glu Leu Met Glu Ala Ala Lys 100 105 110 Glu Ala Leu Asn Ala Ala Ile Ser Val Ala Arg Ala Gly Val Glu Ile 115 120 125 Lys Glu Leu Gly Lys Ala Ile Glu Asn Glu Ile Arg Lys Arg Gly Phe 130 135 140 Lys Pro Ile Val Asn Leu Ser Gly His Lys Ile Glu Arg Tyr Lys Leu 145 150 155 160 His Ala Gly Ile Ser Ile Pro Asn Ile Tyr Arg Pro His Asp Asn Tyr 165 170 175 Val Leu Lys Glu Gly Asp Val Phe Ala Ile Glu Pro Phe Ala Thr Ile 180 185 190 Gly Ala Gly Gln Val Ile Glu Val Pro Pro Thr Leu Ile Tyr Met Tyr 195 200 205 Val Arg Asp Val Pro Val Arg Val Ala Gln Ala Arg Phe Leu Leu Ala 210 215 220 Lys Ile Lys Arg Glu Tyr Gly Thr Leu Pro Phe Ala Tyr Arg Trp Leu 225 230 235 240 Gln Asn Asp Met Pro Glu Gly Gln Leu Lys Leu Ala Leu Lys Thr Leu 245 250 255 Glu Lys Ala Gly Ala Ile Tyr Gly Tyr Pro Val Leu Lys Glu Ile Arg 260 265 270 Asn Gly Ile Val Ala Gln Phe Glu His Thr Ile Ile Val Glu Lys Asp 275 280 285 Ser Val Ile Val Thr Gln Asp Met Ile Asn Lys Ser Thr Leu Glu 290 295 300 <210> 50 <211> 428 <212> PRT <213> Aeromonas sobria <400> 50 His Met Ser Ser Pro Leu His Tyr Val Leu Asp Gly Ile His Cys Glu 1 5 10 15 Pro His Phe Phe Thr Val Pro Leu Asp His Gln Gln Pro Asp Asp Glu 20 25 30 Glu Thr Ile Thr Leu Phe Gly Arg Thr Leu Cys Arg Lys Asp Arg Leu 35 40 45 Asp Asp Glu Leu Pro Trp Leu Leu Tyr Leu Gln Gly Gly Pro Gly Phe 50 55 60 Gly Ala Pro Arg Pro Ser Ala Asn Gly Gly Trp Ile Lys Arg Ala Leu 65 70 75 80 Gln Glu Phe Arg Val Leu Leu Leu Asp Gln Arg Gly Thr Gly His Ser 85 90 95 Thr Pro Ile His Ala Glu Leu Leu Ala His Leu Asn Pro Arg Gln Gln 100 105 110 Ala Asp Tyr Leu Ser His Phe Arg Ala Asp Ser Ile Val Arg Asp Ala 115 120 125 Glu Leu Ile Arg Glu Gln Leu Ser Pro Asp His Pro Trp Ser Leu Leu 130 135 140 Gly Gln Ser Phe Gly Gly Phe Cys Ser Leu Thr Tyr Leu Ser Leu Phe 145 150 155 160 Pro Asp Ser Leu His Glu Val Tyr Leu Thr Gly Gly Val Ala Pro Ile 165 170 175 Gly Arg Ser Ala Asp Glu Val Tyr Arg Ala Thr Tyr Gln Arg Val Ala 180 185 190 Asp Lys Asn Arg Ala Phe Phe Ala Arg Phe Pro His Ala Gln Ala Ile 195 200 205 Ala Asn Arg Leu Ala Thr His Leu Gln Arg His Asp Val Arg Leu Pro 210 215 220 Asn Gly Gln Arg Leu Thr Val Glu Gln Leu Gln Gln Gln Gly Leu Asp 225 230 235 240 Leu Gly Ala Ser Gly Ala Phe Glu Glu Leu Tyr Tyr Leu Leu Glu Asp 245 250 255 Ala Phe Ile Gly Glu Lys Leu Asn Pro Ala Phe Leu Tyr Gln Val Gln 260 265 270 Ala Met Gln Pro Phe Asn Thr Asn Pro Val Phe Ala Ile Leu His Glu 275 280 285 Leu Ile Tyr Cys Glu Gly Ala Ala Ser His Trp Ala Ala Glu Arg Val 290 295 300 Arg Gly Glu Phe Pro Ala Leu Ala Trp Ala Gln Gly Lys Asp Phe Ala 305 310 315 320 Phe Thr Gly Glu Met Ile Phe Pro Trp Met Phe Glu Gln Phe Arg Glu 325 330 335 Leu Ile Pro Leu Lys Glu Ala Ala His Leu Leu Ala Glu Lys Ala Asp 340 345 350 Trp Gly Pro Leu Tyr Asp Pro Val Gln Leu Ala Arg Asn Lys Val Pro 355 360 365 Val Ala Cys Ala Val Tyr Ala Glu Asp Met Tyr Val Glu Phe Asp Tyr 370 375 380 Ser Arg Glu Thr Leu Lys Gly Leu Ser Asn Ser Arg Ala Trp Ile Thr 385 390 395 400 Asn Glu Tyr Glu His Asn Gly Leu Arg Val Asp Gly Glu Gln Ile Leu 405 410 415 Asp Arg Leu Ile Arg Leu Asn Arg Asp Cys Leu Glu 420 425 <210> 51 <211> 348 <212> PRT <213> Pyrococcus furiosus <400> 51 Met Lys Glu Arg Leu Glu Lys Leu Val Lys Phe Met Asp Glu Asn Ser 1 5 10 15 Ile Asp Arg Val Phe Ile Ala Lys Pro Val Asn Val Tyr Tyr Phe Ser 20 25 30 Gly Thr Ser Pro Leu Gly Gly Gly Tyr Ile Ile Val Asp Gly Asp Glu 35 40 45 Ala Thr Leu Tyr Val Pro Glu Leu Glu Tyr Glu Met Ala Lys Glu Glu 50 55 60 Ser Lys Leu Pro Val Val Lys Phe Lys Lys Phe Asp Glu Ile Tyr Glu 65 70 75 80 Ile Leu Lys Asn Thr Glu Thr Leu Gly Ile Glu Gly Thr Leu Ser Tyr 85 90 95 Ser Met Val Glu Asn Phe Lys Glu Lys Ser Asn Val Lys Glu Phe Lys 100 105 110 Lys Ile Asp Asp Val Ile Lys Asp Leu Arg Ile Ile Lys Thr Lys Glu 115 120 125 Glu Ile Glu Ile Ile Glu Lys Ala Cys Glu Ile Ala Asp Lys Ala Val 130 135 140 Met Ala Ala Ile Glu Glu Ile Thr Glu Gly Lys Arg Glu Arg Glu Val 145 150 155 160 Ala Ala Lys Val Glu Tyr Leu Met Lys Met Asn Gly Ala Glu Lys Pro 165 170 175 Ala Phe Asp Thr Ile Ile Ala Ser Gly His Arg Ser Ala Leu Pro His 180 185 190 Gly Val Ala Ser Asp Lys Arg Ile Glu Arg Gly Asp Leu Val Val Ile 195 200 205 Asp Leu Gly Ala Leu Tyr Asn His Tyr Asn Ser Asp Ile Thr Arg Thr 210 215 220 Ile Val Val Gly Ser Pro Asn Glu Lys Gln Arg Glu Ile Tyr Glu Ile 225 230 235 240 Val Leu Glu Ala Gln Lys Arg Ala Val Glu Ala Ala Lys Pro Gly Met 245 250 255 Thr Ala Lys Glu Leu Asp Ser Ile Ala Arg Glu Ile Ile Lys Glu Tyr 260 265 270 Gly Tyr Gly Asp Tyr Phe Ile His Ser Leu Gly His Gly Val Gly Leu 275 280 285 Glu Ile His Glu Trp Pro Arg Ile Ser Gln Tyr Asp Glu Thr Val Leu 290 295 300 Lys Glu Gly Met Val Ile Thr Ile Glu Pro Gly Ile Tyr Ile Pro Lys 305 310 315 320 Leu Gly Gly Val Arg Ile Glu Asp Thr Val Leu Ile Thr Glu Asn Gly 325 330 335 Ala Lys Arg Leu Thr Lys Thr Glu Arg Glu Leu Leu 340 345 <210> 52 <211> 298 <212> PRT <213> Elizabethkingia meningoseptica <400> 52 Met Ile Pro Ile Thr Thr Pro Val Gly Asn Phe Lys Val Trp Thr Lys 1 5 10 15 Arg Phe Gly Thr Asn Pro Lys Ile Lys Val Leu Leu Leu His Gly Gly 20 25 30 Pro Ala Met Thr His Glu Tyr Met Glu Cys Phe Glu Thr Phe Phe Gln 35 40 45 Arg Glu Gly Phe Glu Phe Tyr Glu Tyr Asp Gln Leu Gly Ser Tyr Tyr 50 55 60 Ser Asp Gln Pro Thr Asp Glu Lys Leu Trp Asn Ile Asp Arg Phe Val 65 70 75 80 Asp Glu Val Glu Gln Val Arg Lys Ala Ile His Ala Asp Lys Glu Asn 85 90 95 Phe Tyr Val Leu Gly Asn Ser Trp Gly Gly Ile Leu Ala Met Glu Tyr 100 105 110 Ala Leu Lys Tyr Gln Gln Asn Leu Lys Gly Leu Ile Val Ala Asn Met 115 120 125 Met Ala Ser Ala Pro Glu Tyr Val Lys Tyr Ala Glu Val Leu Ser Lys 130 135 140 Gln Met Lys Pro Glu Val Leu Ala Glu Val Arg Ala Ile Glu Ala Lys 145 150 155 160 Lys Asp Tyr Ala Asn Pro Arg Tyr Thr Glu Leu Leu Phe Pro Asn Tyr 165 170 175 Tyr Ala Gln His Ile Cys Arg Leu Lys Glu Trp Pro Asp Ala Leu Asn 180 185 190 Arg Ser Leu Lys His Val Asn Ser Thr Val Tyr Thr Leu Met Gln Gly 195 200 205 Pro Ser Glu Leu Gly Met Ser Ser Asp Ala Arg Leu Ala Lys Trp Asp 210 215 220 Ile Lys Asn Arg Leu His Glu Ile Ala Thr Pro Thr Leu Met Ile Gly 225 230 235 240 Ala Arg Tyr Asp Thr Met Asp Pro Lys Ala Met Glu Glu Gln Ser Lys 245 250 255 Leu Val Gln Lys Gly Arg Tyr Leu Tyr Cys Pro Asn Gly Ser His Leu 260 265 270 Ala Met Trp Asp Asp Gln Lys Val Phe Met Asp Gly Val Ile Lys Phe 275 280 285 Ile Lys Asp Val Asp Thr Lys Ser Phe Asn 290 295 <210> 53 <211> 310 <212> PRT <213> N. gonorrhoeae <400> 53 Met Tyr Glu Ile Lys Gln Pro Phe His Ser Gly Tyr Leu Gln Val Ser 1 5 10 15 Glu Ile His Gln Ile Tyr Trp Glu Glu Ser Gly Asn Pro Asp Gly Val 20 25 30 Pro Val Ile Phe Leu His Gly Gly Pro Gly Ala Gly Ala Ser Pro Glu 35 40 45 Cys Arg Gly Phe Phe Asn Pro Asp Val Phe Arg Ile Val Ile Ile Asp 50 55 60 Gln Arg Gly Cys Gly Arg Ser His Pro Tyr Ala Cys Ala Glu Asp Asn 65 70 75 80 Thr Thr Trp Asp Leu Val Ala Asp Ile Glu Lys Val Arg Glu Met Leu 85 90 95 Gly Ile Gly Lys Trp Leu Val Phe Gly Gly Ser Trp Gly Ser Thr Leu 100 105 110 Ser Leu Ala Tyr Ala Gln Thr His Pro Glu Arg Val Lys Gly Leu Val 115 120 125 Leu Arg Gly Ile Phe Leu Cys Arg Pro Ser Glu Thr Ala Trp Leu Asn 130 135 140 Glu Ala Gly Gly Val Ser Arg Ile Tyr Pro Glu Gln Trp Gln Lys Phe 145 150 155 160 Val Ala Pro Ile Ala Glu Asn Arg Arg Asn Arg Leu Ile Glu Ala Tyr 165 170 175 His Gly Leu Leu Phe His Gln Asp Glu Glu Val Cys Leu Ser Ala Ala 180 185 190 Lys Ala Trp Ala Asp Trp Glu Ser Tyr Leu Ile Arg Phe Glu Pro Glu 195 200 205 Gly Val Asp Glu Asp Ala Tyr Ala Ser Leu Ala Ile Ala Arg Leu Glu 210 215 220 Asn His Tyr Phe Val Asn Gly Gly Trp Leu Gln Gly Asp Lys Ala Ile 225 230 235 240 Leu Asn Asn Ile Gly Lys Ile Arg His Ile Pro Thr Val Ile Val Gln 245 250 255 Gly Arg Tyr Asp Leu Cys Thr Pro Met Gln Ser Ala Trp Glu Leu Ser 260 265 270 Lys Ala Phe Pro Glu Ala Glu Leu Arg Val Val Gln Ala Gly His Cys 275 280 285 Ala Phe Asp Pro Pro Leu Ala Asp Ala Leu Val Gln Ala Val Glu Asp 290 295 300 Ile Leu Pro Arg Leu Leu 305 310 <210> 54 <211> 870 <212> PRT <213> E. coli <400> 54 Met Thr Gln Gln Pro Gln Ala Lys Tyr Arg His Asp Tyr Arg Ala Pro 1 5 10 15 Asp Tyr Gln Ile Thr Asp Ile Asp Leu Thr Phe Asp Leu Asp Ala Gln 20 25 30 Lys Thr Val Val Thr Ala Val Ser Gln Ala Val Arg His Gly Ala Ser 35 40 45 Asp Ala Pro Leu Arg Leu Asn Gly Glu Asp Leu Lys Leu Val Ser Val 50 55 60 His Ile Asn Asp Glu Pro Trp Thr Ala Trp Lys Glu Glu Glu Gly Ala 65 70 75 80 Leu Val Ile Ser Asn Leu Pro Glu Arg Phe Thr Leu Lys Ile Ile Asn 85 90 95 Glu Ile Ser Pro Ala Ala Asn Thr Ala Leu Glu Gly Leu Tyr Gln Ser 100 105 110 Gly Asp Ala Leu Cys Thr Gln Cys Glu Ala Glu Gly Phe Arg His Ile 115 120 125 Thr Tyr Tyr Leu Asp Arg Pro Asp Val Leu Ala Arg Phe Thr Thr Lys 130 135 140 Ile Ile Ala Asp Lys Ile Lys Tyr Pro Phe Leu Leu Ser Asn Gly Asn 145 150 155 160 Arg Val Ala Gln Gly Glu Leu Glu Asn Gly Arg His Trp Val Gln Trp 165 170 175 Gln Asp Pro Phe Pro Lys Pro Cys Tyr Leu Phe Ala Leu Val Ala Gly 180 185 190 Asp Phe Asp Val Leu Arg Asp Thr Phe Thr Thr Arg Ser Gly Arg Glu 195 200 205 Val Ala Leu Glu Leu Tyr Val Asp Arg Gly Asn Leu Asp Arg Ala Pro 210 215 220 Trp Ala Met Thr Ser Leu Lys Asn Ser Met Lys Trp Asp Glu Glu Arg 225 230 235 240 Phe Gly Leu Glu Tyr Asp Leu Asp Ile Tyr Met Ile Val Ala Val Asp 245 250 255 Phe Phe Asn Met Gly Ala Met Glu Asn Lys Gly Leu Asn Ile Phe Asn 260 265 270 Ser Lys Tyr Val Leu Ala Arg Thr Asp Thr Ala Thr Asp Lys Asp Tyr 275 280 285 Leu Asp Ile Glu Arg Val Ile Gly His Glu Tyr Phe His Asn Trp Thr 290 295 300 Gly Asn Arg Val Thr Cys Arg Asp Trp Phe Gln Leu Ser Leu Lys Glu 305 310 315 320 Gly Leu Thr Val Phe Arg Asp Gln Glu Phe Ser Ser Asp Leu Gly Ser 325 330 335 Arg Ala Val Asn Arg Ile Asn Asn Val Arg Thr Met Arg Gly Leu Gln 340 345 350 Phe Ala Glu Asp Ala Ser Pro Met Ala His Pro Ile Arg Pro Asp Met 355 360 365 Val Ile Glu Met Asn Asn Phe Tyr Thr Leu Thr Val Tyr Glu Lys Gly 370 375 380 Ala Glu Val Ile Arg Met Ile His Thr Leu Leu Gly Glu Glu Asn Phe 385 390 395 400 Gln Lys Gly Met Gln Leu Tyr Phe Glu Arg His Asp Gly Ser Ala Ala 405 410 415 Thr Cys Asp Asp Phe Val Gln Ala Met Glu Asp Ala Ser Asn Val Asp 420 425 430 Leu Ser His Phe Arg Arg Trp Tyr Ser Gln Ser Gly Thr Pro Ile Val 435 440 445 Thr Val Lys Asp Asp Tyr Asn Pro Glu Thr Glu Gln Tyr Thr Leu Thr 450 455 460 Ile Ser Gln Arg Thr Pro Ala Thr Pro Asp Gln Ala Glu Lys Gln Pro 465 470 475 480 Leu His Ile Pro Phe Ala Ile Glu Leu Tyr Asp Asn Glu Gly Lys Val 485 490 495 Ile Pro Leu Gln Lys Gly Gly His Pro Val Asn Ser Val Leu Asn Val 500 505 510 Thr Gln Ala Glu Gln Thr Phe Val Phe Asp Asn Val Tyr Phe Gln Pro 515 520 525 Val Pro Ala Leu Leu Cys Glu Phe Ser Ala Pro Val Lys Leu Glu Tyr 530 535 540 Lys Trp Ser Asp Gln Gln Leu Thr Phe Leu Met Arg His Ala Arg Asn 545 550 555 560 Asp Phe Ser Arg Trp Asp Ala Ala Gln Ser Leu Leu Ala Thr Tyr Ile 565 570 575 Lys Leu Asn Val Ala Arg His Gln Gln Gly Gln Pro Leu Ser Leu Pro 580 585 590 Val His Val Ala Asp Ala Phe Arg Ala Val Leu Leu Asp Glu Lys Ile 595 600 605 Asp Pro Ala Leu Ala Ala Glu Ile Leu Thr Leu Pro Ser Val Asn Glu 610 615 620 Met Ala Glu Leu Phe Asp Ile Ile Asp Pro Ile Ala Ile Ala Glu Val 625 630 635 640 Arg Glu Ala Leu Thr Arg Thr Leu Ala Thr Glu Leu Ala Asp Glu Leu 645 650 655 Leu Ala Ile Tyr Asn Ala Asn Tyr Gln Ser Glu Tyr Arg Val Glu His 660 665 670 Glu Asp Ile Ala Lys Arg Thr Leu Arg Asn Ala Cys Leu Arg Phe Leu 675 680 685 Ala Phe Gly Glu Thr His Leu Ala Asp Val Leu Val Ser Lys Gln Phe 690 695 700 His Glu Ala Asn Asn Met Thr Asp Ala Leu Ala Ala Leu Ser Ala Ala 705 710 715 720 Val Ala Ala Gln Leu Pro Cys Arg Asp Ala Leu Met Gln Glu Tyr Asp 725 730 735 Asp Lys Trp His Gln Asn Gly Leu Val Met Asp Lys Trp Phe Ile Leu 740 745 750 Gln Ala Thr Ser Pro Ala Ala Asn Val Leu Glu Thr Val Arg Gly Leu 755 760 765 Leu Gln His Arg Ser Phe Thr Met Ser Asn Pro Asn Arg Ile Arg Ser 770 775 780 Leu Ile Gly Ala Phe Ala Gly Ser Asn Pro Ala Ala Phe His Ala Glu 785 790 795 800 Asp Gly Ser Gly Tyr Leu Phe Leu Val Glu Met Leu Thr Asp Leu Asn 805 810 815 Ser Arg Asn Pro Gln Val Ala Ser Arg Leu Ile Glu Pro Leu Ile Arg 820 825 830 Leu Lys Arg Tyr Asp Ala Lys Arg Gln Glu Lys Met Arg Ala Ala Leu 835 840 845 Glu Gln Leu Lys Gly Leu Glu Asn Leu Ser Gly Asp Leu Tyr Glu Lys 850 855 860 Ile Thr Lys Ala Leu Ala 865 870 <210> 55 <211> 889 <212> PRT <213> P. falciparum <400> 55 Pro Lys Ile His Tyr Arg Lys Asp Tyr Lys Pro Ser Gly Phe Ile Ile 1 5 10 15 Asn Gln Val Thr Leu Asn Ile Asn Ile His Asp Gln Glu Thr Ile Val 20 25 30 Arg Ser Val Leu Asp Met Asp Ile Ser Lys His Asn Val Gly Glu Asp 35 40 45 Leu Val Phe Asp Gly Val Gly Leu Lys Ile Asn Glu Ile Ser Ile Asn 50 55 60 Asn Lys Lys Leu Val Glu Gly Glu Glu Tyr Thr Tyr Asp Asn Glu Phe 65 70 75 80 Leu Thr Ile Phe Ser Lys Phe Val Pro Lys Ser Lys Phe Ala Phe Ser 85 90 95 Ser Glu Val Ile Ile His Pro Glu Thr Asn Tyr Ala Leu Thr Gly Leu 100 105 110 Tyr Lys Ser Lys Asn Ile Ile Val Ser Gln Cys Glu Ala Thr Gly Phe 115 120 125 Arg Arg Ile Thr Phe Phe Ile Asp Arg Pro Asp Met Met Ala Lys Tyr 130 135 140 Asp Val Thr Val Thr Ala Asp Lys Glu Lys Tyr Pro Val Leu Leu Ser 145 150 155 160 Asn Gly Asp Lys Val Asn Glu Phe Glu Ile Pro Gly Gly Arg His Gly 165 170 175 Ala Arg Phe Asn Asp Pro Pro Leu Lys Pro Cys Tyr Leu Phe Ala Val 180 185 190 Val Ala Gly Asp Leu Lys His Leu Ser Ala Thr Tyr Ile Thr Lys Tyr 195 200 205 Thr Lys Lys Lys Val Glu Leu Tyr Val Phe Ser Glu Glu Lys Tyr Val 210 215 220 Ser Lys Leu Gln Trp Ala Leu Glu Cys Leu Lys Lys Ser Met Ala Phe 225 230 235 240 Asp Glu Asp Tyr Phe Gly Leu Glu Tyr Asp Leu Ser Arg Leu Asn Leu 245 250 255 Val Ala Val Ser Asp Phe Asn Val Gly Ala Met Glu Asn Lys Gly Leu 260 265 270 Asn Ile Phe Asn Ala Asn Ser Leu Leu Ala Ser Lys Lys Asn Ser Ile 275 280 285 Asp Phe Ser Tyr Ala Arg Ile Leu Thr Val Val Gly His Glu Tyr Phe 290 295 300 His Gln Tyr Thr Gly Asn Arg Val Thr Leu Arg Asp Trp Phe Gln Leu 305 310 315 320 Thr Leu Lys Glu Gly Leu Thr Val His Arg Glu Asn Leu Phe Ser Glu 325 330 335 Glu Met Thr Lys Thr Val Thr Thr Arg Leu Ser His Val Asp Leu Leu 340 345 350 Arg Ser Val Gln Phe Leu Glu Asp Ser Ser Pro Leu Ser His Pro Ile 355 360 365 Arg Pro Glu Ser Tyr Val Ser Met Glu Asn Phe Tyr Thr Thr Thr Val 370 375 380 Tyr Asp Lys Gly Ser Glu Val Met Arg Met Tyr Leu Thr Ile Leu Gly 385 390 395 400 Glu Glu Tyr Tyr Lys Lys Gly Phe Asp Ile Tyr Ile Lys Lys Asn Asp 405 410 415 Gly Asn Thr Ala Thr Cys Glu Asp Phe Asn Tyr Ala Met Glu Gln Ala 420 425 430 Tyr Lys Met Lys Lys Ala Asp Asn Ser Ala Asn Leu Asn Gln Tyr Leu 435 440 445 Leu Trp Phe Ser Gln Ser Gly Thr Pro His Val Ser Phe Lys Tyr Asn 450 455 460 Tyr Asp Ala Glu Lys Lys Gln Tyr Ser Ile His Val Asn Gln Tyr Thr 465 470 475 480 Lys Pro Asp Glu Asn Gln Lys Glu Lys Lys Pro Leu Phe Ile Pro Ile 485 490 495 Ser Val Gly Leu Ile Asn Pro Glu Asn Gly Lys Glu Met Ile Ser Gln 500 505 510 Thr Thr Leu Glu Leu Thr Lys Glu Ser Asp Thr Phe Val Phe Asn Asn 515 520 525 Ile Ala Val Lys Pro Ile Pro Ser Leu Phe Arg Gly Phe Ser Ala Pro 530 535 540 Val Tyr Ile Glu Asp Gln Leu Thr Asp Glu Glu Arg Ile Leu Leu Leu 545 550 555 560 Lys Tyr Asp Ser Asp Ala Phe Val Arg Tyr Asn Ser Cys Thr Asn Ile 565 570 575 Tyr Met Lys Gln Ile Leu Met Asn Tyr Asn Glu Phe Leu Lys Ala Lys 580 585 590 Asn Glu Lys Leu Glu Ser Phe Gln Leu Thr Pro Val Asn Ala Gln Phe 595 600 605 Ile Asp Ala Ile Lys Tyr Leu Leu Glu Asp Pro His Ala Asp Ala Gly 610 615 620 Phe Lys Ser Tyr Ile Val Ser Leu Pro Gln Asp Arg Tyr Ile Ile Asn 625 630 635 640 Phe Val Ser Asn Leu Asp Thr Asp Val Leu Ala Asp Thr Lys Glu Tyr 645 650 655 Ile Tyr Lys Gln Ile Gly Asp Lys Leu Asn Asp Val Tyr Tyr Lys Met 660 665 670 Phe Lys Ser Leu Glu Ala Lys Ala Asp Asp Leu Thr Tyr Phe Asn Asp 675 680 685 Glu Ser His Val Asp Phe Asp Gln Met Asn Met Arg Thr Leu Arg Asn 690 695 700 Thr Leu Leu Ser Leu Leu Ser Lys Ala Gln Tyr Pro Asn Ile Leu Asn 705 710 715 720 Glu Ile Ile Glu His Ser Lys Ser Pro Tyr Pro Ser Asn Trp Leu Thr 725 730 735 Ser Leu Ser Val Ser Ala Tyr Phe Asp Lys Tyr Phe Glu Leu Tyr Asp 740 745 750 Lys Thr Tyr Lys Leu Ser Lys Asp Asp Glu Leu Leu Leu Gln Glu Trp 755 760 765 Leu Lys Thr Val Ser Arg Ser Asp Arg Lys Asp Ile Tyr Glu Ile Leu 770 775 780 Lys Lys Leu Glu Asn Glu Val Leu Lys Asp Ser Lys Asn Pro Asn Asp 785 790 795 800 Ile Arg Ala Val Tyr Leu Pro Phe Thr Asn Asn Leu Arg Arg Phe His 805 810 815 Asp Ile Ser Gly Lys Gly Tyr Lys Leu Ile Ala Glu Val Ile Thr Lys 820 825 830 Thr Asp Lys Phe Asn Pro Met Val Ala Thr Gln Leu Cys Glu Pro Phe 835 840 845 Lys Leu Trp Asn Lys Leu Asp Thr Lys Arg Gln Glu Leu Met Leu Asn 850 855 860 Glu Met Asn Thr Met Leu Gln Glu Pro Gln Ile Ser Asn Asn Leu Lys 865 870 875 880 Glu Tyr Leu Leu Arg Leu Thr Asn Lys 885 <210> 56 <211> 919 <212> PRT <213> Unknown <220> <223> Puromycin-sensitive aminopeptidase <400> 56 Met Trp Leu Ala Ala Ala Ala Pro Ser Leu Ala Arg Arg Leu Leu Phe 1 5 10 15 Leu Gly Pro Pro Pro Pro Pro Leu Leu Leu Leu Val Phe Ser Arg Ser 20 25 30 Ser Arg Arg Arg Leu His Ser Leu Gly Leu Ala Ala Met Pro Glu Lys 35 40 45 Arg Pro Phe Glu Arg Leu Pro Ala Asp Val Ser Pro Ile Asn Tyr Ser 50 55 60 Leu Cys Leu Lys Pro Asp Leu Leu Asp Phe Thr Phe Glu Gly Lys Leu 65 70 75 80 Glu Ala Ala Ala Gln Val Arg Gln Ala Thr Asn Gln Ile Val Met Asn 85 90 95 Cys Ala Asp Ile Asp Ile Ile Thr Ala Ser Tyr Ala Pro Glu Gly Asp 100 105 110 Glu Glu Ile His Ala Thr Gly Phe Asn Tyr Gln Asn Glu Asp Glu Lys 115 120 125 Val Thr Leu Ser Phe Pro Ser Thr Leu Gln Thr Gly Thr Gly Thr Leu 130 135 140 Lys Ile Asp Phe Val Gly Glu Leu Asn Asp Lys Met Lys Gly Phe Tyr 145 150 155 160 Arg Ser Lys Tyr Thr Thr Pro Ser Gly Glu Val Arg Tyr Ala Ala Val 165 170 175 Thr Gln Phe Glu Ala Thr Asp Ala Arg Arg Ala Phe Pro Cys Trp Asp 180 185 190 Glu Pro Ala Ile Lys Ala Thr Phe Asp Ile Ser Leu Val Val Pro Lys 195 200 205 Asp Arg Val Ala Leu Ser Asn Met Asn Val Ile Asp Arg Lys Pro Tyr 210 215 220 Pro Asp Asp Glu Asn Leu Val Glu Val Lys Phe Ala Arg Thr Pro Val 225 230 235 240 Met Ser Thr Tyr Leu Val Ala Phe Val Val Gly Glu Tyr Asp Phe Val 245 250 255 Glu Thr Arg Ser Lys Asp Gly Val Cys Val Arg Val Tyr Thr Pro Val 260 265 270 Gly Lys Ala Glu Gln Gly Lys Phe Ala Leu Glu Val Ala Ala Lys Thr 275 280 285 Leu Pro Phe Tyr Lys Asp Tyr Phe Asn Val Pro Tyr Pro Leu Pro Lys 290 295 300 Ile Asp Leu Ile Ala Ile Ala Asp Phe Ala Ala Gly Ala Met Glu Asn 305 310 315 320 Trp Gly Leu Val Thr Tyr Arg Glu Thr Ala Leu Leu Ile Asp Pro Lys 325 330 335 Asn Ser Cys Ser Ser Ser Arg Gln Trp Val Ala Leu Val Val Gly His 340 345 350 Glu Leu Ala His Gln Trp Phe Gly Asn Leu Val Thr Met Glu Trp Trp 355 360 365 Thr His Leu Trp Leu Asn Glu Gly Phe Ala Ser Trp Ile Glu Tyr Leu 370 375 380 Cys Val Asp His Cys Phe Pro Glu Tyr Asp Ile Trp Thr Gln Phe Val 385 390 395 400 Ser Ala Asp Tyr Thr Arg Ala Gln Glu Leu Asp Ala Leu Asp Asn Ser 405 410 415 His Pro Ile Glu Val Ser Val Gly His Pro Ser Glu Val Asp Glu Ile 420 425 430 Phe Asp Ala Ile Ser Tyr Ser Lys Gly Ala Ser Val Ile Arg Met Leu 435 440 445 His Asp Tyr Ile Gly Asp Lys Asp Phe Lys Lys Gly Met Asn Met Tyr 450 455 460 Leu Thr Lys Phe Gln Gln Lys Asn Ala Ala Thr Glu Asp Leu Trp Glu 465 470 475 480 Ser Leu Glu Asn Ala Ser Gly Lys Pro Ile Ala Ala Val Met Asn Thr 485 490 495 Trp Thr Lys Gln Met Gly Phe Pro Leu Ile Tyr Val Glu Ala Glu Gln 500 505 510 Val Glu Asp Asp Arg Leu Leu Arg Leu Ser Gln Lys Lys Phe Cys Ala 515 520 525 Gly Gly Ser Tyr Val Gly Glu Asp Cys Pro Gln Trp Met Val Pro Ile 530 535 540 Thr Ile Ser Thr Ser Glu Asp Pro Asn Gln Ala Lys Leu Lys Ile Leu 545 550 555 560 Met Asp Lys Pro Glu Met Asn Val Val Leu Lys Asn Val Lys Pro Asp 565 570 575 Gln Trp Val Lys Leu Asn Leu Gly Thr Val Gly Phe Tyr Arg Thr Gln 580 585 590 Tyr Ser Ser Ala Met Leu Glu Ser Leu Leu Pro Gly Ile Arg Asp Leu 595 600 605 Ser Leu Pro Pro Val Asp Arg Leu Gly Leu Gln Asn Asp Leu Phe Ser 610 615 620 Leu Ala Arg Ala Gly Ile Ile Ser Thr Val Glu Val Leu Lys Val Met 625 630 635 640 Glu Ala Phe Val Asn Glu Pro Asn Tyr Thr Val Trp Ser Asp Leu Ser 645 650 655 Cys Asn Leu Gly Ile Leu Ser Thr Leu Leu Ser His Thr Asp Phe Tyr 660 665 670 Glu Glu Ile Gln Glu Phe Val Lys Asp Val Phe Ser Pro Ile Gly Glu 675 680 685 Arg Leu Gly Trp Asp Pro Lys Pro Gly Glu Gly His Leu Asp Ala Leu 690 695 700 Leu Arg Gly Leu Val Leu Gly Lys Leu Gly Lys Ala Gly His Lys Ala 705 710 715 720 Thr Leu Glu Glu Ala Arg Arg Arg Phe Lys Asp His Val Glu Gly Lys 725 730 735 Gln Ile Leu Ser Ala Asp Leu Arg Ser Pro Val Tyr Leu Thr Val Leu 740 745 750 Lys His Gly Asp Gly Thr Thr Leu Asp Ile Met Leu Lys Leu His Lys 755 760 765 Gln Ala Asp Met Gln Glu Glu Lys Asn Arg Ile Glu Arg Val Leu Gly 770 775 780 Ala Thr Leu Leu Pro Asp Leu Ile Gln Lys Val Leu Thr Phe Ala Leu 785 790 795 800 Ser Glu Glu Val Arg Pro Gln Asp Thr Val Ser Val Ile Gly Gly Val 805 810 815 Ala Gly Gly Ser Lys His Gly Arg Lys Ala Ala Trp Lys Phe Ile Lys 820 825 830 Asp Asn Trp Glu Glu Leu Tyr Asn Arg Tyr Gln Gly Gly Phe Leu Ile 835 840 845 Ser Arg Leu Ile Lys Leu Ser Val Glu Gly Phe Ala Val Asp Lys Met 850 855 860 Ala Gly Glu Val Lys Ala Phe Phe Glu Ser His Pro Ala Pro Ser Ala 865 870 875 880 Glu Arg Thr Ile Gln Gln Cys Cys Glu Asn Ile Leu Leu Asn Ala Ala 885 890 895 Trp Leu Lys Arg Asp Ala Glu Ser Ile His Gln Tyr Leu Leu Gln Arg 900 905 910 Lys Ala Ser Pro Pro Thr Val 915 <210> 57 <211> 919 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 57 Met Trp Leu Ala Ala Ala Ala Pro Ser Leu Ala Arg Arg Leu Leu Phe 1 5 10 15 Leu Gly Pro Pro Pro Pro Pro Leu Leu Leu Leu Val Phe Ser Arg Ser 20 25 30 Ser Arg Arg Arg Leu His Ser Leu Gly Leu Ala Ala Met Pro Glu Lys 35 40 45 Arg Pro Phe Glu Arg Leu Pro Ala Asp Val Ser Pro Ile Asn Tyr Ser 50 55 60 Leu Cys Leu Lys Pro Asp Leu Leu Asp Phe Thr Phe Glu Gly Lys Leu 65 70 75 80 Glu Ala Ala Ala Gln Val Arg Gln Ala Thr Asn Gln Ile Val Met Asn 85 90 95 Cys Ala Asp Ile Asp Ile Ile Thr Ala Ser Tyr Ala Pro Glu Gly Asp 100 105 110 Glu Glu Ile His Ala Thr Gly Phe Asn Tyr Gln Asn Glu Asp Glu Lys 115 120 125 Val Thr Leu Ser Phe Pro Ser Thr Leu Gln Thr Gly Thr Gly Thr Leu 130 135 140 Lys Ile Asp Phe Val Gly Glu Leu Asn Asp Lys Met Lys Gly Phe Tyr 145 150 155 160 Arg Ser Lys Tyr Thr Thr Pro Ser Gly Glu Val Arg Tyr Ala Ala Val 165 170 175 Thr Gln Phe Glu Ala Thr Asp Ala Arg Arg Ala Phe Pro Cys Trp Asp 180 185 190 Glu Pro Ala Ile Lys Ala Thr Phe Asp Ile Ser Leu Val Val Pro Lys 195 200 205 Asp Arg Val Ala Leu Ser Asn Met Asn Val Ile Asp Arg Lys Pro Tyr 210 215 220 Pro Asp Asp Glu Asn Leu Val Glu Val Lys Phe Ala Arg Thr Pro Val 225 230 235 240 Met Ser Thr Tyr Leu Val Ala Phe Val Val Gly Glu Tyr Asp Phe Val 245 250 255 Glu Thr Arg Ser Lys Asp Gly Val Cys Val Arg Val Tyr Thr Pro Val 260 265 270 Gly Lys Ala Glu Gln Gly Lys Phe Ala Leu Glu Val Ala Ala Lys Thr 275 280 285 Leu Pro Phe Tyr Lys Asp Tyr Phe Asn Val Pro Tyr Pro Leu Pro Lys 290 295 300 Ile Asp Leu Ile Ala Ile Ala Asp Phe Ala Ala Gly Ala Met Glu Asn 305 310 315 320 Trp Gly Leu Val Thr Tyr Arg Glu Thr Ala Leu Leu Ile Asp Pro Lys 325 330 335 Asn Ser Cys Ser Ser Ser Arg Gln Trp Val Ala Leu Val Val Gly His 340 345 350 Val Leu Ala His Gln Trp Phe Gly Asn Leu Val Thr Met Glu Trp Trp 355 360 365 Thr His Leu Trp Leu Asn Glu Gly Phe Ala Ser Trp Ile Glu Tyr Leu 370 375 380 Cys Val Asp His Cys Phe Pro Glu Tyr Asp Ile Trp Thr Gln Phe Val 385 390 395 400 Ser Ala Asp Tyr Thr Arg Ala Gln Glu Leu Asp Ala Leu Asp Asn Ser 405 410 415 His Pro Ile Glu Val Ser Val Gly His Pro Ser Glu Val Asp Glu Ile 420 425 430 Phe Asp Ala Ile Ser Tyr Ser Lys Gly Ala Ser Val Ile Arg Met Leu 435 440 445 His Asp Tyr Ile Gly Asp Lys Asp Phe Lys Lys Gly Met Asn Met Tyr 450 455 460 Leu Thr Lys Phe Gln Gln Lys Asn Ala Ala Thr Glu Asp Leu Trp Glu 465 470 475 480 Ser Leu Glu Asn Ala Ser Gly Lys Pro Ile Ala Ala Val Met Asn Thr 485 490 495 Trp Thr Lys Gln Met Gly Phe Pro Leu Ile Tyr Val Glu Ala Glu Gln 500 505 510 Val Glu Asp Asp Arg Leu Leu Arg Leu Ser Gln Lys Lys Phe Cys Ala 515 520 525 Gly Gly Ser Tyr Val Gly Glu Asp Cys Pro Gln Trp Met Val Pro Ile 530 535 540 Thr Ile Ser Thr Ser Glu Asp Pro Asn Gln Ala Lys Leu Lys Ile Leu 545 550 555 560 Met Asp Lys Pro Glu Met Asn Val Val Leu Lys Asn Val Lys Pro Asp 565 570 575 Gln Trp Val Lys Leu Asn Leu Gly Thr Val Gly Phe Tyr Arg Thr Gln 580 585 590 Tyr Ser Ser Ala Met Leu Glu Ser Leu Leu Pro Gly Ile Arg Asp Leu 595 600 605 Ser Leu Pro Pro Val Asp Arg Leu Gly Leu Gln Asn Asp Leu Phe Ser 610 615 620 Leu Ala Arg Ala Gly Ile Ile Ser Thr Val Glu Val Leu Lys Val Met 625 630 635 640 Glu Ala Phe Val Asn Glu Pro Asn Tyr Thr Val Trp Ser Asp Leu Ser 645 650 655 Cys Asn Leu Gly Ile Leu Ser Thr Leu Leu Ser His Thr Asp Phe Tyr 660 665 670 Glu Glu Ile Gln Glu Phe Val Lys Asp Val Phe Ser Pro Ile Gly Glu 675 680 685 Arg Leu Gly Trp Asp Pro Lys Pro Gly Glu Gly His Leu Asp Ala Leu 690 695 700 Leu Arg Gly Leu Val Leu Gly Lys Leu Gly Lys Ala Gly His Lys Ala 705 710 715 720 Thr Leu Glu Glu Ala Arg Arg Arg Phe Lys Asp His Val Glu Gly Lys 725 730 735 Gln Ile Leu Ser Ala Asp Leu Arg Ser Pro Val Tyr Leu Thr Val Leu 740 745 750 Lys His Gly Asp Gly Thr Thr Leu Asp Ile Met Leu Lys Leu His Lys 755 760 765 Gln Ala Asp Met Gln Glu Glu Lys Asn Arg Ile Glu Arg Val Leu Gly 770 775 780 Ala Thr Leu Leu Pro Asp Leu Ile Gln Lys Val Leu Thr Phe Ala Leu 785 790 795 800 Ser Glu Glu Val Arg Pro Gln Asp Thr Val Ser Val Ile Gly Gly Val 805 810 815 Ala Gly Gly Ser Lys His Gly Arg Lys Ala Ala Trp Lys Phe Ile Lys 820 825 830 Asp Asn Trp Glu Glu Leu Tyr Asn Arg Tyr Gln Gly Gly Phe Leu Ile 835 840 845 Ser Arg Leu Ile Lys Leu Ser Val Glu Gly Phe Ala Val Asp Lys Met 850 855 860 Ala Gly Glu Val Lys Ala Phe Phe Glu Ser His Pro Ala Pro Ser Ala 865 870 875 880 Glu Arg Thr Ile Gln Gln Cys Cys Glu Asn Ile Leu Leu Asn Ala Ala 885 890 895 Trp Leu Lys Arg Asp Ala Glu Ser Ile His Gln Tyr Leu Leu Gln Arg 900 905 910 Lys Ala Ser Pro Pro Thr Val 915 <210> 58 <211> 864 <212> PRT <213> Francisella tularensis <400> 58 Met Ile Tyr Glu Phe Val Met Thr Asp Pro Lys Ile Lys Tyr Leu Lys 1 5 10 15 Asp Tyr Lys Pro Ser Asn Tyr Leu Ile Asp Glu Thr His Leu Ile Phe 20 25 30 Glu Leu Asp Glu Ser Lys Thr Arg Val Thr Ala Asn Leu Tyr Ile Val 35 40 45 Ala Asn Arg Glu Asn Arg Glu Asn Asn Thr Leu Val Leu Asp Gly Val 50 55 60 Glu Leu Lys Leu Leu Ser Ile Lys Leu Asn Asn Lys His Leu Ser Pro 65 70 75 80 Ala Glu Phe Ala Val Asn Glu Asn Gln Leu Ile Ile Asn Asn Val Pro 85 90 95 Glu Lys Phe Val Leu Gln Thr Val Val Glu Ile Asn Pro Ser Ala Asn 100 105 110 Thr Ser Leu Glu Gly Leu Tyr Lys Ser Gly Asp Val Phe Ser Thr Gln 115 120 125 Cys Glu Ala Thr Gly Phe Arg Lys Ile Thr Tyr Tyr Leu Asp Arg Pro 130 135 140 Asp Val Met Ala Ala Phe Thr Val Lys Ile Ile Ala Asp Lys Lys Lys 145 150 155 160 Tyr Pro Ile Ile Leu Ser Asn Gly Asp Lys Ile Asp Ser Gly Asp Ile 165 170 175 Ser Asp Asn Gln His Phe Ala Val Trp Lys Asp Pro Phe Lys Lys Pro 180 185 190 Cys Tyr Leu Phe Ala Leu Val Ala Gly Asp Leu Ala Ser Ile Lys Asp 195 200 205 Thr Tyr Ile Thr Lys Ser Gln Arg Lys Val Ser Leu Glu Ile Tyr Ala 210 215 220 Phe Lys Gln Asp Ile Asp Lys Cys His Tyr Ala Met Gln Ala Val Lys 225 230 235 240 Asp Ser Met Lys Trp Asp Glu Asp Arg Phe Gly Leu Glu Tyr Asp Leu 245 250 255 Asp Thr Phe Met Ile Val Ala Val Pro Asp Phe Asn Ala Gly Ala Met 260 265 270 Glu Asn Lys Gly Leu Asn Ile Phe Asn Thr Lys Tyr Ile Met Ala Ser 275 280 285 Asn Lys Thr Ala Thr Asp Lys Asp Phe Glu Leu Val Gln Ser Val Val 290 295 300 Gly His Glu Tyr Phe His Asn Trp Thr Gly Asp Arg Val Thr Cys Arg 305 310 315 320 Asp Trp Phe Gln Leu Ser Leu Lys Glu Gly Leu Thr Val Phe Arg Asp 325 330 335 Gln Glu Phe Thr Ser Asp Leu Asn Ser Arg Asp Val Lys Arg Ile Asp 340 345 350 Asp Val Arg Ile Ile Arg Ser Ala Gln Phe Ala Glu Asp Ala Ser Pro 355 360 365 Met Ser His Pro Ile Arg Pro Glu Ser Tyr Ile Glu Met Asn Asn Phe 370 375 380 Tyr Thr Val Thr Val Tyr Asn Lys Gly Ala Glu Ile Ile Arg Met Ile 385 390 395 400 His Thr Leu Leu Gly Glu Glu Gly Phe Gln Lys Gly Met Lys Leu Tyr 405 410 415 Phe Glu Arg His Asp Gly Gln Ala Val Thr Cys Asp Asp Phe Val Asn 420 425 430 Ala Met Ala Asp Ala Asn Asn Arg Asp Phe Ser Leu Phe Lys Arg Trp 435 440 445 Tyr Ala Gln Ser Gly Thr Pro Asn Ile Lys Val Ser Glu Asn Tyr Asp 450 455 460 Ala Ser Ser Gln Thr Tyr Ser Leu Thr Leu Glu Gln Thr Thr Leu Pro 465 470 475 480 Thr Ala Asp Gln Lys Glu Lys Gln Ala Leu His Ile Pro Val Lys Met 485 490 495 Gly Leu Ile Asn Pro Glu Gly Lys Asn Ile Ala Glu Gln Val Ile Glu 500 505 510 Leu Lys Glu Gln Lys Gln Thr Tyr Thr Phe Glu Asn Ile Ala Ala Lys 515 520 525 Pro Val Ala Ser Leu Phe Arg Asp Phe Ser Ala Pro Val Lys Val Glu 530 535 540 His Lys Arg Ser Glu Lys Asp Leu Leu His Ile Val Lys Tyr Asp Asn 545 550 555 560 Asn Ala Phe Asn Arg Trp Asp Ser Leu Gln Gln Ile Ala Thr Asn Ile 565 570 575 Ile Leu Asn Asn Ala Asp Leu Asn Asp Glu Phe Leu Asn Ala Phe Lys 580 585 590 Ser Ile Leu His Asp Lys Asp Leu Asp Lys Ala Leu Ile Ser Asn Ala 595 600 605 Leu Leu Ile Pro Ile Glu Ser Thr Ile Ala Glu Ala Met Arg Val Ile 610 615 620 Met Val Asp Asp Ile Val Leu Ser Arg Lys Asn Val Val Asn Gln Leu 625 630 635 640 Ala Asp Lys Leu Lys Asp Asp Trp Leu Ala Val Tyr Gln Gln Cys Asn 645 650 655 Asp Asn Lys Pro Tyr Ser Leu Ser Ala Glu Gln Ile Ala Lys Arg Lys 660 665 670 Leu Lys Gly Val Cys Leu Ser Tyr Leu Met Asn Ala Ser Asp Gln Lys 675 680 685 Val Gly Thr Asp Leu Ala Gln Gln Leu Phe Asp Asn Ala Asp Asn Met 690 695 700 Thr Asp Gln Gln Thr Ala Phe Thr Glu Leu Leu Lys Ser Asn Asp Lys 705 710 715 720 Gln Val Arg Asp Asn Ala Ile Asn Glu Phe Tyr Asn Arg Trp Arg His 725 730 735 Glu Asp Leu Val Val Asn Lys Trp Leu Leu Ser Gln Ala Gln Ile Ser 740 745 750 His Glu Ser Ala Leu Asp Ile Val Lys Gly Leu Val Asn His Pro Ala 755 760 765 Tyr Asn Pro Lys Asn Pro Asn Lys Val Tyr Ser Leu Ile Gly Gly Phe 770 775 780 Gly Ala Asn Phe Leu Gln Tyr His Cys Lys Asp Gly Leu Gly Tyr Ala 785 790 795 800 Phe Met Ala Asp Thr Val Leu Ala Leu Asp Lys Phe Asn His Gln Val 805 810 815 Ala Ala Arg Met Ala Arg Asn Leu Met Ser Trp Lys Arg Tyr Asp Ser 820 825 830 Asp Arg Gln Ala Met Met Lys Asn Ala Leu Glu Lys Ile Lys Ala Ser 835 840 845 Asn Pro Ser Lys Asn Val Phe Glu Ile Val Ser Lys Ser Leu Glu Ser 850 855 860 <210> 59 <211> 353 <212> PRT <213> Pyrococcus horikoshii <400> 59 Met Glu Val Arg Asn Met Val Asp Tyr Glu Leu Leu Lys Lys Val Val 1 5 10 15 Glu Ala Pro Gly Val Ser Gly Tyr Glu Phe Leu Gly Ile Arg Asp Val 20 25 30 Val Ile Glu Glu Ile Lys Asp Tyr Val Asp Glu Val Lys Val Asp Lys 35 40 45 Leu Gly Asn Val Ile Ala His Lys Lys Gly Glu Gly Pro Lys Val Met 50 55 60 Ile Ala Ala His Met Asp Gln Ile Gly Leu Met Val Thr His Ile Glu 65 70 75 80 Lys Asn Gly Phe Leu Arg Val Ala Pro Ile Gly Gly Val Asp Pro Lys 85 90 95 Thr Leu Ile Ala Gln Arg Phe Lys Val Trp Ile Asp Lys Gly Lys Phe 100 105 110 Ile Tyr Gly Val Gly Ala Ser Val Pro Pro His Ile Gln Lys Pro Glu 115 120 125 Asp Arg Lys Lys Ala Pro Asp Trp Asp Gln Ile Phe Ile Asp Ile Gly 130 135 140 Ala Glu Ser Lys Glu Glu Ala Glu Asp Met Gly Val Lys Ile Gly Thr 145 150 155 160 Val Ile Thr Trp Asp Gly Arg Leu Glu Arg Leu Gly Lys His Arg Phe 165 170 175 Val Ser Ile Ala Phe Asp Asp Arg Ile Ala Val Tyr Thr Ile Leu Glu 180 185 190 Val Ala Lys Gln Leu Lys Asp Ala Lys Ala Asp Val Tyr Phe Val Ala 195 200 205 Thr Val Gln Glu Glu Val Gly Leu Arg Gly Ala Arg Thr Ser Ala Phe 210 215 220 Gly Ile Glu Pro Asp Tyr Gly Phe Ala Ile Asp Val Thr Ile Ala Ala 225 230 235 240 Asp Ile Pro Gly Thr Pro Glu His Lys Gln Val Thr His Leu Gly Lys 245 250 255 Gly Thr Ala Ile Lys Ile Met Asp Arg Ser Val Ile Cys His Pro Thr 260 265 270 Ile Val Arg Trp Leu Glu Glu Leu Ala Lys Lys His Glu Ile Pro Tyr 275 280 285 Gln Leu Glu Ile Leu Leu Gly Gly Gly Thr Asp Ala Gly Ala Ile His 290 295 300 Leu Thr Lys Ala Gly Val Pro Thr Gly Ala Leu Ser Val Pro Ala Arg 305 310 315 320 Tyr Ile His Ser Asn Thr Glu Val Val Asp Glu Arg Asp Val Asp Ala 325 330 335 Thr Val Glu Leu Met Thr Lys Ala Leu Glu Asn Ile His Glu Leu Lys 340 345 350 Ile <210> 60 <211> 408 <212> PRT <213> T. aquaticus <400> 60 Met Asp Ala Phe Thr Glu Asn Leu Asn Lys Leu Ala Glu Leu Ala Ile 1 5 10 15 Arg Val Gly Leu Asn Leu Glu Glu Gly Gln Glu Ile Val Ala Thr Ala 20 25 30 Pro Ile Glu Ala Val Asp Phe Val Arg Leu Leu Ala Glu Lys Ala Tyr 35 40 45 Glu Asn Gly Ala Ser Leu Phe Thr Val Leu Tyr Gly Asp Asn Leu Ile 50 55 60 Ala Arg Lys Arg Leu Ala Leu Val Pro Glu Ala His Leu Asp Arg Ala 65 70 75 80 Pro Ala Trp Leu Tyr Glu Gly Met Ala Lys Ala Phe His Glu Gly Ala 85 90 95 Ala Arg Leu Ala Val Ser Gly Asn Asp Pro Lys Ala Leu Glu Gly Leu 100 105 110 Pro Pro Glu Arg Val Gly Arg Ala Gln Gln Ala Gln Ser Arg Ala Tyr 115 120 125 Arg Pro Thr Leu Ser Ala Ile Thr Glu Phe Val Thr Asn Trp Thr Ile 130 135 140 Val Pro Phe Ala His Pro Gly Trp Ala Lys Ala Val Phe Pro Gly Leu 145 150 155 160 Pro Glu Glu Glu Ala Val Gln Arg Leu Trp Gln Ala Ile Phe Gln Ala 165 170 175 Thr Arg Val Asp Gln Glu Asp Pro Val Ala Ala Trp Glu Ala His Asn 180 185 190 Arg Val Leu His Ala Lys Val Ala Phe Leu Asn Glu Lys Arg Phe His 195 200 205 Ala Leu His Phe Gln Gly Pro Gly Thr Asp Leu Thr Val Gly Leu Ala 210 215 220 Glu Gly His Leu Trp Gln Gly Gly Ala Thr Pro Thr Lys Lys Gly Arg 225 230 235 240 Leu Cys Asn Pro Asn Leu Pro Thr Glu Glu Val Phe Thr Ala Pro His 245 250 255 Arg Glu Arg Val Glu Gly Val Val Arg Ala Ser Arg Pro Leu Ala Leu 260 265 270 Ser Gly Gln Leu Val Glu Gly Leu Trp Ala Arg Phe Glu Gly Gly Val 275 280 285 Ala Val Glu Val Gly Ala Glu Lys Gly Glu Glu Val Leu Lys Lys Leu 290 295 300 Leu Asp Thr Asp Glu Gly Ala Arg Arg Leu Gly Glu Val Ala Leu Val 305 310 315 320 Pro Ala Asp Asn Pro Ile Ala Lys Thr Gly Leu Val Phe Phe Asp Thr 325 330 335 Leu Phe Asp Glu Asn Ala Ala Ser His Ile Ala Phe Gly Gln Ala Tyr 340 345 350 Ala Glu Asn Leu Glu Gly Arg Pro Ser Gly Glu Glu Phe Arg Arg Arg 355 360 365 Gly Gly Asn Glu Ser Met Val His Val Asp Trp Met Ile Gly Ser Glu 370 375 380 Glu Val Asp Val Asp Gly Leu Leu Glu Asp Gly Thr Arg Val Pro Leu 385 390 395 400 Met Arg Arg Gly Arg Trp Val Ile 405 <210> 61 <211> 362 <212> PRT <213> Bacillus stearothermophilus <400> 61 Met Ala Lys Leu Asp Glu Thr Leu Thr Met Leu Lys Ala Leu Thr Asp 1 5 10 15 Ala Lys Gly Val Pro Gly Asn Glu Arg Glu Ala Arg Asp Val Met Lys 20 25 30 Thr Tyr Ile Ala Pro Tyr Ala Asp Glu Val Thr Thr Asp Gly Leu Gly 35 40 45 Ser Leu Ile Ala Lys Lys Glu Gly Lys Ser Gly Gly Pro Lys Val Met 50 55 60 Ile Ala Gly His Leu Asp Glu Val Gly Phe Met Val Thr Gln Ile Asp 65 70 75 80 Asp Lys Gly Phe Ile Arg Phe Gln Thr Leu Gly Gly Trp Trp Ser Gln 85 90 95 Val Met Leu Ala Gln Arg Val Thr Ile Val Thr Lys Lys Gly Asp Ile 100 105 110 Thr Gly Val Ile Gly Ser Lys Pro Pro His Ile Leu Pro Ser Glu Ala 115 120 125 Arg Lys Lys Pro Val Glu Ile Lys Asp Met Phe Ile Asp Ile Gly Ala 130 135 140 Thr Ser Arg Glu Glu Ala Met Glu Trp Gly Val Arg Pro Gly Asp Met 145 150 155 160 Ile Val Pro Tyr Phe Glu Phe Thr Val Leu Asn Asn Glu Lys Met Leu 165 170 175 Leu Ala Lys Ala Trp Asp Asn Arg Ile Gly Cys Ala Val Ala Ile Asp 180 185 190 Val Leu Lys Gln Leu Lys Gly Val Asp His Pro Asn Thr Val Tyr Gly 195 200 205 Val Gly Thr Val Gln Glu Glu Val Gly Leu Arg Gly Ala Arg Thr Ala 210 215 220 Ala Gln Phe Ile Gln Pro Asp Ile Ala Phe Ala Val Asp Val Gly Ile 225 230 235 240 Ala Gly Asp Thr Pro Gly Val Ser Glu Lys Glu Ala Met Gly Lys Leu 245 250 255 Gly Ala Gly Pro His Ile Val Leu Tyr Asp Ala Thr Met Val Ser His 260 265 270 Arg Gly Leu Arg Glu Phe Val Ile Glu Val Ala Glu Glu Leu Asn Ile 275 280 285 Pro His His Phe Asp Ala Met Pro Gly Val Gly Thr Asp Ala Gly Ala 290 295 300 Ile His Leu Thr Gly Ile Gly Val Pro Ser Leu Thr Ile Ala Ile Pro 305 310 315 320 Thr Arg Tyr Ile His Ser His Ala Ala Ile Leu His Arg Asp Asp Tyr 325 330 335 Glu Asn Thr Val Lys Leu Leu Val Glu Val Ile Lys Arg Leu Asp Ala 340 345 350 Asp Lys Val Lys Gln Leu Thr Phe Asp Glu 355 360 <210> 62 <211> 484 <212> PRT <213> Vibrio cholera <400> 62 Met Glu Asp Lys Val Trp Ile Ser Met Gly Ala Asp Ala Val Gly Ser 1 5 10 15 Leu Asn Pro Ala Leu Ser Glu Ser Leu Leu Pro His Ser Phe Ala Ser 20 25 30 Gly Ser Gln Val Trp Ile Gly Glu Val Ala Ile Asp Glu Leu Ala Glu 35 40 45 Leu Ser His Thr Met His Glu Gln His Asn Arg Cys Gly Gly Tyr Met 50 55 60 Val His Thr Ser Ala Gln Gly Ala Met Ala Ala Leu Met Met Pro Glu 65 70 75 80 Ser Ile Ala Asn Phe Thr Ile Pro Ala Pro Ser Gln Gln Asp Leu Val 85 90 95 Asn Ala Trp Leu Pro Gln Val Ser Ala Asp Gln Ile Thr Asn Thr Ile 100 105 110 Arg Ala Leu Ser Ser Phe Asn Asn Arg Phe Tyr Thr Thr Thr Ser Gly 115 120 125 Ala Gln Ala Ser Asp Trp Leu Ala Asn Glu Trp Arg Ser Leu Ile Ser 130 135 140 Ser Leu Pro Gly Ser Arg Ile Glu Gln Ile Lys His Ser Gly Tyr Asn 145 150 155 160 Gln Lys Ser Val Val Leu Thr Ile Gln Gly Ser Glu Lys Pro Asp Glu 165 170 175 Trp Val Ile Val Gly Gly His Leu Asp Ser Thr Leu Gly Ser His Thr 180 185 190 Asn Glu Gln Ser Ile Ala Pro Gly Ala Asp Asp Asp Ala Ser Gly Ile 195 200 205 Ala Ser Leu Ser Glu Ile Ile Arg Val Leu Arg Asp Asn Asn Phe Arg 210 215 220 Pro Lys Arg Ser Val Ala Leu Met Ala Tyr Ala Ala Glu Glu Val Gly 225 230 235 240 Leu Arg Gly Ser Gln Asp Leu Ala Asn Gln Tyr Lys Ala Gln Gly Lys 245 250 255 Lys Val Val Ser Val Leu Gln Leu Asp Met Thr Asn Tyr Arg Gly Ser 260 265 270 Ala Glu Asp Ile Val Phe Ile Thr Asp Tyr Thr Asp Ser Asn Leu Thr 275 280 285 Gln Phe Leu Thr Thr Leu Ile Asp Glu Tyr Leu Pro Glu Leu Thr Tyr 290 295 300 Gly Tyr Asp Arg Cys Gly Tyr Ala Cys Ser Asp His Ala Ser Trp His 305 310 315 320 Lys Ala Gly Phe Ser Ala Ala Met Pro Phe Glu Ser Lys Phe Lys Asp 325 330 335 Tyr Asn Pro Lys Ile His Thr Ser Gln Asp Thr Leu Ala Asn Ser Asp 340 345 350 Pro Thr Gly Asn His Ala Val Lys Phe Thr Lys Leu Gly Leu Ala Tyr 355 360 365 Val Ile Glu Met Ala Asn Ala Gly Ser Ser Gln Val Pro Asp Asp Ser 370 375 380 Val Leu Gln Asp Gly Thr Ala Lys Ile Asn Leu Ser Gly Ala Arg Gly 385 390 395 400 Thr Gln Lys Arg Phe Thr Phe Glu Leu Ser Gln Ser Lys Pro Leu Thr 405 410 415 Ile Gln Thr Tyr Gly Gly Ser Gly Asp Val Asp Leu Tyr Val Lys Tyr 420 425 430 Gly Ser Ala Pro Ser Lys Ser Asn Trp Asp Cys Arg Pro Tyr Gln Asn 435 440 445 Gly Asn Arg Glu Thr Cys Ser Phe Asn Asn Ala Gln Pro Gly Ile Tyr 450 455 460 His Val Met Leu Asp Gly Tyr Thr Asn Tyr Asn Asp Val Ala Leu Lys 465 470 475 480 Ala Ser Thr Gln <210> 63 <211> 488 <212> PRT <213> Photobacterium halotolerans <400> 63 Met Glu Asp Lys Val Trp Ile Ser Ile Gly Ser Asp Ala Ser Gln Thr 1 5 10 15 Val Lys Ser Val Met Gln Ser Asn Ala Arg Ser Leu Leu Pro Glu Ser 20 25 30 Leu Ala Ser Asn Gly Pro Val Trp Val Gly Gln Val Asp Tyr Ser Gln 35 40 45 Leu Ala Glu Leu Ser His His Met His Glu Asp His Gln Arg Cys Gly 50 55 60 Gly Tyr Met Val His Ser Ser Pro Glu Ser Ala Ile Ala Ala Ser Asn 65 70 75 80 Met Pro Gln Ser Leu Val Ala Phe Ser Ile Pro Glu Ile Ser Gln Gln 85 90 95 Asp Thr Val Asn Ala Trp Leu Pro Gln Val Asn Ser Gln Ala Ile Thr 100 105 110 Gly Thr Ile Thr Ser Leu Thr Ser Phe Ile Asn Arg Phe Tyr Thr Thr 115 120 125 Thr Ser Gly Ala Gln Ala Ser Asp Trp Leu Ala Asn Glu Trp Arg Ser 130 135 140 Leu Ser Ala Ser Leu Pro Asn Ala Ser Val Arg Gln Val Ser His Phe 145 150 155 160 Gly Tyr Asn Gln Lys Ser Val Val Leu Thr Ile Thr Gly Ser Glu Lys 165 170 175 Pro Asp Glu Trp Ile Val Leu Gly Gly His Leu Asp Ser Thr Ile Gly 180 185 190 Ser His Thr Asn Glu Gln Ser Val Ala Pro Gly Ala Asp Asp Asp Ala 195 200 205 Ser Gly Ile Ala Ser Val Thr Glu Ile Ile Arg Val Leu Ser Glu Asn 210 215 220 Asn Phe Gln Pro Lys Arg Ser Ile Ala Phe Met Ala Tyr Ala Ala Glu 225 230 235 240 Glu Val Gly Leu Arg Gly Ser Gln Asp Leu Ala Asn Gln Tyr Lys Ala 245 250 255 Glu Gly Lys Gln Val Ile Ser Ala Leu Gln Leu Asp Met Thr Asn Tyr 260 265 270 Lys Gly Ser Val Glu Asp Ile Val Phe Ile Thr Asp Tyr Thr Asp Ser 275 280 285 Asn Leu Thr Thr Phe Leu Ser Gln Leu Val Asp Glu Tyr Leu Pro Ser 290 295 300 Leu Thr Tyr Gly Phe Asp Thr Cys Gly Tyr Ala Cys Ser Asp His Ala 305 310 315 320 Ser Trp His Lys Ala Gly Phe Ser Ala Ala Met Pro Phe Glu Ala Lys 325 330 335 Phe Asn Asp Tyr Asn Pro Met Ile His Thr Pro Asn Asp Thr Leu Gln 340 345 350 Asn Ser Asp Pro Thr Ala Ser His Ala Val Lys Phe Thr Lys Leu Gly 355 360 365 Leu Ala Tyr Ala Ile Glu Met Ala Ser Thr Thr Gly Gly Thr Pro Pro 370 375 380 Pro Thr Gly Asn Val Leu Lys Asp Gly Val Pro Val Asn Gly Leu Ser 385 390 395 400 Gly Ala Thr Gly Ser Gln Val His Tyr Ser Phe Glu Leu Pro Ala Gln 405 410 415 Lys Asn Leu Gln Ile Ser Thr Ala Gly Gly Ser Gly Asp Val Asp Leu 420 425 430 Tyr Val Ser Phe Gly Ser Glu Ala Thr Lys Gln Asn Trp Asp Cys Arg 435 440 445 Pro Tyr Arg Asn Gly Asn Asn Glu Val Cys Thr Phe Ala Gly Ala Thr 450 455 460 Pro Gly Thr Tyr Ser Ile Met Leu Asp Gly Tyr Arg Gln Phe Ser Gly 465 470 475 480 Val Thr Leu Lys Ala Ser Thr Gln 485 <210> 64 <211> 871 <212> PRT <213> Yersinia pestis <400> 64 Met Thr Gln Gln Pro Gln Ala Lys Tyr Arg His Asp Tyr Arg Ala Pro 1 5 10 15 Asp Tyr Thr Ile Thr Asp Ile Asp Leu Asp Phe Ala Leu Asp Ala Gln 20 25 30 Lys Thr Thr Val Thr Ala Val Ser Lys Val Lys Arg Gln Gly Thr Asp 35 40 45 Val Thr Pro Leu Ile Leu Asn Gly Glu Asp Leu Thr Leu Ile Ser Val 50 55 60 Ser Val Asp Gly Gln Ala Trp Pro His Tyr Arg Gln Gln Asp Asn Thr 65 70 75 80 Leu Val Ile Glu Gln Leu Pro Ala Asp Phe Thr Leu Thr Ile Val Asn 85 90 95 Asp Ile His Pro Ala Thr Asn Ser Ala Leu Glu Gly Leu Tyr Leu Ser 100 105 110 Gly Glu Ala Leu Cys Thr Gln Cys Glu Ala Glu Gly Phe Arg His Ile 115 120 125 Thr Tyr Tyr Leu Asp Arg Pro Asp Val Leu Ala Arg Phe Thr Thr Arg 130 135 140 Ile Val Ala Asp Lys Ser Arg Tyr Pro Tyr Leu Leu Ser Asn Gly Asn 145 150 155 160 Arg Val Gly Gln Gly Glu Leu Asp Asp Gly Arg His Trp Val Lys Trp 165 170 175 Glu Asp Pro Phe Pro Lys Pro Ser Tyr Leu Phe Ala Leu Val Ala Gly 180 185 190 Asp Phe Asp Val Leu Gln Asp Lys Phe Ile Thr Arg Ser Gly Arg Glu 195 200 205 Val Ala Leu Glu Ile Phe Val Asp Arg Gly Asn Leu Asp Arg Ala Asp 210 215 220 Trp Ala Met Thr Ser Leu Lys Asn Ser Met Lys Trp Asp Glu Thr Arg 225 230 235 240 Phe Gly Leu Glu Tyr Asp Leu Asp Ile Tyr Met Ile Val Ala Val Asp 245 250 255 Phe Phe Asn Met Gly Ala Met Glu Asn Lys Gly Leu Asn Val Phe Asn 260 265 270 Ser Lys Tyr Val Leu Ala Lys Ala Glu Thr Ala Thr Asp Lys Asp Tyr 275 280 285 Leu Asn Ile Glu Ala Val Ile Gly His Glu Tyr Phe His Asn Trp Thr 290 295 300 Gly Asn Arg Val Thr Cys Arg Asp Trp Phe Gln Leu Ser Leu Lys Glu 305 310 315 320 Gly Leu Thr Val Phe Arg Asp Gln Glu Phe Ser Ser Asp Leu Gly Ser 325 330 335 Arg Ser Val Asn Arg Ile Glu Asn Val Arg Val Met Arg Ala Ala Gln 340 345 350 Phe Ala Glu Asp Ala Ser Pro Met Ala His Ala Ile Arg Pro Asp Lys 355 360 365 Val Ile Glu Met Asn Asn Phe Tyr Thr Leu Thr Val Tyr Glu Lys Gly 370 375 380 Ser Glu Val Ile Arg Met Met His Thr Leu Leu Gly Glu Gln Gln Phe 385 390 395 400 Gln Ala Gly Met Arg Leu Tyr Phe Glu Arg His Asp Gly Ser Ala Ala 405 410 415 Thr Cys Asp Asp Phe Val Gln Ala Met Glu Asp Val Ser Asn Val Asp 420 425 430 Leu Ser Leu Phe Arg Arg Trp Tyr Ser Gln Ser Gly Thr Pro Leu Leu 435 440 445 Thr Val His Asp Asp Tyr Asp Val Glu Lys Gln Gln Tyr His Leu Phe 450 455 460 Val Ser Gln Lys Thr Leu Pro Thr Ala Asp Gln Pro Glu Lys Leu Pro 465 470 475 480 Leu His Ile Pro Leu Asp Ile Glu Leu Tyr Asp Ser Lys Gly Asn Val 485 490 495 Ile Pro Leu Gln His Asn Gly Leu Pro Val His His Val Leu Asn Val 500 505 510 Thr Glu Ala Glu Gln Thr Phe Thr Phe Asp Asn Val Ala Gln Lys Pro 515 520 525 Ile Pro Ser Leu Leu Arg Glu Phe Ser Ala Pro Val Lys Leu Asp Tyr 530 535 540 Pro Tyr Ser Asp Gln Gln Leu Thr Phe Leu Met Gln His Ala Arg Asn 545 550 555 560 Glu Phe Ser Arg Trp Asp Ala Ala Gln Ser Leu Leu Ala Thr Tyr Ile 565 570 575 Lys Leu Asn Val Ala Lys Tyr Gln Gln Gln Gln Pro Leu Ser Leu Pro 580 585 590 Ala His Val Ala Asp Ala Phe Arg Ala Ile Leu Leu Asp Glu His Leu 595 600 605 Asp Pro Ala Leu Ala Ala Gln Ile Leu Thr Leu Pro Ser Glu Asn Glu 610 615 620 Met Ala Glu Leu Phe Thr Thr Ile Asp Pro Gln Ala Ile Ser Thr Val 625 630 635 640 His Glu Ala Ile Thr Arg Cys Leu Ala Gln Glu Leu Ser Asp Glu Leu 645 650 655 Leu Ala Val Tyr Val Ala Asn Met Thr Pro Val Tyr Arg Ile Glu His 660 665 670 Gly Asp Ile Ala Lys Arg Ala Leu Arg Asn Thr Cys Leu Asn Tyr Leu 675 680 685 Ala Phe Gly Asp Glu Glu Phe Ala Asn Lys Leu Val Ser Leu Gln Tyr 690 695 700 His Gln Ala Asp Asn Met Thr Asp Ser Leu Ala Ala Leu Ala Ala Ala 705 710 715 720 Val Ala Ala Gln Leu Pro Cys Arg Asp Glu Leu Leu Ala Ala Phe Asp 725 730 735 Val Arg Trp Asn His Asp Gly Leu Val Met Asp Lys Trp Phe Ala Leu 740 745 750 Gln Ala Thr Ser Pro Ala Ala Asn Val Leu Val Gln Val Arg Thr Leu 755 760 765 Leu Lys His Pro Ala Phe Ser Leu Ser Asn Pro Asn Arg Thr Arg Ser 770 775 780 Leu Ile Gly Ser Phe Ala Ser Gly Asn Pro Ala Ala Phe His Ala Ala 785 790 795 800 Asp Gly Ser Gly Tyr Gln Phe Leu Val Glu Ile Leu Ser Asp Leu Asn 805 810 815 Thr Arg Asn Pro Gln Val Ala Ala Arg Leu Ile Glu Pro Leu Ile Arg 820 825 830 Leu Lys Arg Tyr Asp Ala Gly Arg Gln Ala Leu Met Arg Lys Ala Leu 835 840 845 Glu Gln Leu Lys Thr Leu Asp Asn Leu Ser Gly Asp Leu Tyr Glu Lys 850 855 860 Ile Thr Lys Ala Leu Ala Ala 865 870 <210> 65 <211> 483 <212> PRT <213> Vibrio anguillarum <400> 65 Met Glu Glu Lys Val Trp Ile Ser Ile Gly Gly Asp Ala Thr Gln Thr 1 5 10 15 Ala Leu Arg Ser Gly Ala Gln Ser Leu Leu Pro Glu Asn Leu Ile Asn 20 25 30 Gln Thr Ser Val Trp Val Gly Gln Val Pro Val Ser Glu Leu Ala Thr 35 40 45 Leu Ser His Glu Met His Glu Asn His Gln Arg Cys Gly Gly Tyr Met 50 55 60 Val His Pro Ser Ala Gln Ser Ala Met Ser Val Ser Ala Met Pro Leu 65 70 75 80 Asn Leu Asn Ala Phe Ser Ala Pro Glu Ile Thr Gln Gln Thr Thr Val 85 90 95 Asn Ala Trp Leu Pro Ser Val Ser Ala Gln Gln Ile Thr Ser Thr Ile 100 105 110 Thr Thr Leu Thr Gln Phe Lys Asn Arg Phe Tyr Thr Thr Ser Thr Gly 115 120 125 Ala Gln Ala Ser Asn Trp Ile Ala Asp His Trp Arg Ser Leu Ser Ala 130 135 140 Ser Leu Pro Ala Ser Lys Val Glu Gln Ile Thr His Ser Gly Tyr Asn 145 150 155 160 Gln Lys Ser Val Met Leu Thr Ile Thr Gly Ser Glu Lys Pro Asp Glu 165 170 175 Trp Val Val Ile Gly Gly His Leu Asp Ser Thr Leu Gly Ser Arg Thr 180 185 190 Asn Glu Ser Ser Ile Ala Pro Gly Ala Asp Asp Asp Ala Ser Gly Ile 195 200 205 Ala Gly Val Thr Glu Ile Ile Arg Leu Leu Ser Glu Gln Asn Phe Arg 210 215 220 Pro Lys Arg Ser Ile Ala Phe Met Ala Tyr Ala Ala Glu Glu Val Gly 225 230 235 240 Leu Arg Gly Ser Gln Asp Leu Ala Asn Arg Phe Lys Ala Glu Gly Lys 245 250 255 Lys Val Met Ser Val Met Gln Leu Asp Met Thr Asn Tyr Gln Gly Ser 260 265 270 Arg Glu Asp Ile Val Phe Ile Thr Asp Tyr Thr Asp Ser Asn Phe Thr 275 280 285 Gln Tyr Leu Thr Gln Leu Leu Asp Glu Tyr Leu Pro Ser Leu Thr Tyr 290 295 300 Gly Phe Asp Thr Cys Gly Tyr Ala Cys Ser Asp His Ala Ser Trp His 305 310 315 320 Ala Val Gly Tyr Pro Ala Ala Met Pro Phe Glu Ser Lys Phe Asn Asp 325 330 335 Tyr Asn Pro Asn Ile His Ser Pro Gln Asp Thr Leu Gln Asn Ser Asp 340 345 350 Pro Thr Gly Phe His Ala Val Lys Phe Thr Lys Leu Gly Leu Ala Tyr 355 360 365 Val Val Glu Met Gly Asn Ala Ser Thr Pro Pro Thr Pro Ser Asn Gln 370 375 380 Leu Lys Asn Gly Val Pro Val Asn Gly Leu Ser Ala Ser Arg Asn Ser 385 390 395 400 Lys Thr Trp Tyr Gln Phe Glu Leu Gln Glu Ala Gly Asn Leu Ser Ile 405 410 415 Val Leu Ser Gly Gly Ser Gly Asp Ala Asp Leu Tyr Val Lys Tyr Gln 420 425 430 Thr Asp Ala Asp Leu Gln Gln Tyr Asp Cys Arg Pro Tyr Arg Ser Gly 435 440 445 Asn Asn Glu Thr Cys Gln Phe Ser Asn Ala Gln Pro Gly Arg Tyr Ser 450 455 460 Ile Leu Leu His Gly Tyr Asn Asn Tyr Ser Asn Ala Ser Leu Val Ala 465 470 475 480 Asn Ala Gln <210> 66 <211> 482 <212> PRT <213> Unknown <220> <223> Salinivibrio spYCSC6 <400> 66 Met Glu Asp Lys Lys Val Trp Ile Ser Ile Gly Ala Asp Ala Gln Gln 1 5 10 15 Thr Ala Leu Ser Ser Gly Ala Gln Pro Leu Leu Ala Gln Ser Val Ala 20 25 30 His Asn Gly Gln Ala Trp Ile Gly Glu Val Ser Glu Ser Glu Leu Ala 35 40 45 Ala Leu Ser His Glu Met His Glu Asn His His Arg Cys Gly Gly Tyr 50 55 60 Ile Val His Ser Ser Ala Gln Ser Ala Met Ala Ala Ser Asn Met Pro 65 70 75 80 Leu Ser Arg Ala Ser Phe Ile Ala Pro Ala Ile Ser Gln Gln Ala Leu 85 90 95 Val Thr Pro Trp Ile Ser Gln Ile Asp Ser Ala Leu Ile Val Asn Thr 100 105 110 Ile Asp Arg Leu Thr Asp Phe Pro Asn Arg Phe Tyr Thr Thr Thr Ser 115 120 125 Gly Ala Gln Ala Ser Asp Trp Ile Lys Gln Arg Trp Gln Ser Leu Ser 130 135 140 Ala Gly Leu Ala Gly Ala Ser Val Thr Gln Ile Ser His Ser Gly Tyr 145 150 155 160 Asn Gln Ala Ser Val Met Leu Thr Ile Glu Gly Ser Glu Ser Pro Asp 165 170 175 Glu Trp Val Val Val Gly Gly His Leu Asp Ser Thr Ile Gly Ser Arg 180 185 190 Thr Asn Glu Gln Ser Ile Ala Pro Gly Ala Asp Asp Asp Ala Ser Gly 195 200 205 Ile Ala Ala Val Thr Glu Val Ile Arg Val Leu Ala Gln Asn Asn Phe 210 215 220 Gln Pro Lys Arg Ser Ile Ala Phe Val Ala Tyr Ala Ala Glu Glu Val 225 230 235 240 Gly Leu Arg Gly Ser Gln Asp Val Ala Asn Gln Phe Lys Gln Ala Gly 245 250 255 Lys Asp Val Arg Gly Val Leu Gln Leu Asp Met Thr Asn Tyr Gln Gly 260 265 270 Ser Ala Glu Asp Ile Val Phe Ile Thr Asp Tyr Thr Asp Asn Gln Leu 275 280 285 Thr Gln Tyr Leu Thr Gln Leu Leu Asp Glu Tyr Leu Pro Thr Leu Asn 290 295 300 Tyr Gly Phe Asp Thr Cys Gly Tyr Ala Cys Ser Asp His Ala Ser Trp 305 310 315 320 His Gln Val Gly Tyr Pro Ala Ala Met Pro Phe Glu Ala Lys Phe Asn 325 330 335 Asp Tyr Asn Pro Asn Ile His Thr Pro Gln Asp Thr Leu Ala Asn Ser 340 345 350 Asp Ser Glu Gly Ala His Ala Ala Lys Phe Thr Lys Leu Gly Leu Ala 355 360 365 Tyr Thr Val Glu Leu Ala Asn Ala Asp Ser Ser Pro Asn Pro Gly Asn 370 375 380 Glu Leu Lys Leu Gly Glu Pro Ile Asn Gly Leu Ser Gly Ala Arg Gly 385 390 395 400 Asn Glu Lys Tyr Phe Asn Tyr Arg Leu Asp Gln Ser Gly Glu Leu Val 405 410 415 Ile Arg Thr Tyr Gly Gly Ser Gly Asp Val Asp Leu Tyr Val Lys Ala 420 425 430 Asn Gly Asp Val Ser Thr Gly Asn Trp Asp Cys Arg Pro Tyr Arg Ser 435 440 445 Gly Asn Asp Glu Val Cys Arg Phe Asp Asn Ala Thr Pro Gly Asn Tyr 450 455 460 Ala Val Met Leu Arg Gly Tyr Arg Thr Tyr Asp Asn Val Ser Leu Ile 465 470 475 480 Val Glu <210> 67 <211> 301 <212> PRT <213> Vibrio proteolyticus <400> 67 Met Pro Pro Ile Thr Gln Gln Ala Thr Val Thr Ala Trp Leu Pro Gln 1 5 10 15 Val Asp Ala Ser Gln Ile Thr Gly Thr Ile Ser Ser Leu Glu Ser Phe 20 25 30 Thr Asn Arg Phe Tyr Thr Thr Thr Ser Gly Ala Gln Ala Ser Asp Trp 35 40 45 Ile Ala Ser Glu Trp Gln Ala Leu Ser Ala Ser Leu Pro Asn Ala Ser 50 55 60 Val Lys Gln Val Ser His Ser Gly Tyr Asn Gln Lys Ser Val Val Met 65 70 75 80 Thr Ile Thr Gly Ser Glu Ala Pro Asp Glu Trp Ile Val Ile Gly Gly 85 90 95 His Leu Asp Ser Thr Ile Gly Ser His Thr Asn Glu Gln Ser Val Ala 100 105 110 Pro Gly Ala Asp Asp Asp Ala Ser Gly Ile Ala Ala Val Thr Glu Val 115 120 125 Ile Arg Val Leu Ser Glu Asn Asn Phe Gln Pro Lys Arg Ser Ile Ala 130 135 140 Phe Met Ala Tyr Ala Ala Glu Glu Val Gly Leu Arg Gly Ser Gln Asp 145 150 155 160 Leu Ala Asn Gln Tyr Lys Ser Glu Gly Lys Asn Val Val Ser Ala Leu 165 170 175 Gln Leu Asp Met Thr Asn Tyr Lys Gly Ser Ala Gln Asp Val Val Phe 180 185 190 Ile Thr Asp Tyr Thr Asp Ser Asn Phe Thr Gln Tyr Leu Thr Gln Leu 195 200 205 Met Asp Glu Tyr Leu Pro Ser Leu Thr Tyr Gly Phe Asp Thr Cys Gly 210 215 220 Tyr Ala Cys Ser Asp His Ala Ser Trp His Asn Ala Gly Tyr Pro Ala 225 230 235 240 Ala Met Pro Phe Glu Ser Lys Phe Asn Asp Tyr Asn Pro Arg Ile His 245 250 255 Thr Thr Gln Asp Thr Leu Ala Asn Ser Asp Pro Thr Gly Ser His Ala 260 265 270 Lys Lys Phe Thr Gln Leu Gly Leu Ala Tyr Ala Ile Glu Met Gly Ser 275 280 285 Ala Thr Gly Asp Thr Pro Thr Pro Gly Asn Gln Leu Glu 290 295 300 <210> 68 <211> 301 <212> PRT <213> Vibrio proteolyticus <400> 68 Met Pro Pro Ile Thr Gln Gln Ala Thr Val Thr Ala Trp Leu Pro Gln 1 5 10 15 Val Asp Ala Ser Gln Ile Thr Gly Thr Ile Ser Ser Leu Glu Ser Phe 20 25 30 Thr Asn Arg Phe Tyr Thr Thr Thr Ser Gly Ala Gln Ala Ser Asp Trp 35 40 45 Ile Ala Ser Glu Trp Gln Phe Leu Ser Ala Ser Leu Pro Asn Ala Ser 50 55 60 Val Lys Gln Val Ser His Ser Gly Tyr Asn Gln Lys Ser Val Val Met 65 70 75 80 Thr Ile Thr Gly Ser Glu Ala Pro Asp Glu Trp Ile Val Ile Gly Gly 85 90 95 His Leu Asp Ser Thr Ile Gly Ser His Thr Asn Glu Gln Ser Val Ala 100 105 110 Pro Gly Ala Asp Asp Asp Ala Ser Gly Ile Ala Ala Val Thr Glu Val 115 120 125 Ile Arg Val Leu Ser Glu Asn Asn Phe Gln Pro Lys Arg Ser Ile Ala 130 135 140 Phe Met Ala Tyr Ala Ala Glu Glu Val Gly Leu Arg Gly Ser Gln Asp 145 150 155 160 Leu Ala Asn Gln Tyr Lys Ser Glu Gly Lys Asn Val Val Ser Ala Leu 165 170 175 Gln Leu Asp Met Thr Asn Tyr Lys Gly Ser Ala Gln Asp Val Val Phe 180 185 190 Ile Thr Asp Tyr Thr Asp Ser Asn Phe Thr Gln Tyr Leu Thr Gln Leu 195 200 205 Met Asp Glu Tyr Leu Pro Ser Leu Thr Tyr Gly Phe Asp Thr Cys Gly 210 215 220 Tyr Ala Cys Ser Asp His Ala Ser Trp His Asn Ala Gly Tyr Pro Ala 225 230 235 240 Ala Met Pro Phe Glu Ser Lys Phe Asn Asp Tyr Asn Pro Arg Ile His 245 250 255 Thr Thr Gln Asp Thr Leu Ala Asn Ser Asp Pro Thr Gly Ser His Ala 260 265 270 Lys Lys Phe Thr Gln Leu Gly Leu Ala Tyr Ala Ile Glu Met Gly Ser 275 280 285 Ala Thr Gly Asp Thr Pro Thr Pro Gly Asn Gln Leu Glu 290 295 300 <210> 69 <211> 348 <212> PRT <213> P. furiosus <400> 69 Met Val Asp Trp Glu Leu Met Lys Lys Ile Ile Glu Ser Pro Gly Val 1 5 10 15 Ser Gly Tyr Glu His Leu Gly Ile Arg Asp Leu Val Val Asp Ile Leu 20 25 30 Lys Asp Val Ala Asp Glu Val Lys Ile Asp Lys Leu Gly Asn Val Ile 35 40 45 Ala His Phe Lys Gly Ser Ala Pro Lys Val Met Val Ala Ala His Met 50 55 60 Asp Lys Ile Gly Leu Met Val Asn His Ile Asp Lys Asp Gly Tyr Leu 65 70 75 80 Arg Val Val Pro Ile Gly Gly Val Leu Pro Glu Thr Leu Ile Ala Gln 85 90 95 Lys Ile Arg Phe Phe Thr Glu Lys Gly Glu Arg Tyr Gly Val Val Gly 100 105 110 Val Leu Pro Pro His Leu Arg Arg Glu Ala Lys Asp Gln Gly Gly Lys 115 120 125 Ile Asp Trp Asp Ser Ile Ile Val Asp Val Gly Ala Ser Ser Arg Glu 130 135 140 Glu Ala Glu Glu Met Gly Phe Arg Ile Gly Thr Ile Gly Glu Phe Ala 145 150 155 160 Pro Asn Phe Thr Arg Leu Ser Glu His Arg Phe Ala Thr Pro Tyr Leu 165 170 175 Asp Asp Arg Ile Cys Leu Tyr Ala Met Ile Glu Ala Ala Arg Gln Leu 180 185 190 Gly Glu His Glu Ala Asp Ile Tyr Ile Val Ala Ser Val Gln Glu Glu 195 200 205 Ile Gly Leu Arg Gly Ala Arg Val Ala Ser Phe Ala Ile Asp Pro Glu 210 215 220 Val Gly Ile Ala Met Asp Val Thr Phe Ala Lys Gln Pro Asn Asp Lys 225 230 235 240 Gly Lys Ile Val Pro Glu Leu Gly Lys Gly Pro Val Met Asp Val Gly 245 250 255 Pro Asn Ile Asn Pro Lys Leu Arg Gln Phe Ala Asp Glu Val Ala Lys 260 265 270 Lys Tyr Glu Ile Pro Leu Gln Val Glu Pro Ser Pro Arg Pro Thr Gly 275 280 285 Thr Asp Ala Asn Val Met Gln Ile Asn Arg Glu Gly Val Ala Thr Ala 290 295 300 Val Leu Ser Ile Pro Ile Arg Tyr Met His Ser Gln Val Glu Leu Ala 305 310 315 320 Asp Ala Arg Asp Val Asp Asn Thr Ile Lys Leu Ala Lys Ala Leu Leu 325 330 335 Glu Glu Leu Lys Pro Met Asp Phe Thr Pro Leu Glu 340 345 <210> 70 <211> 2 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 70 Lys Phe 1 <210> 71 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 71 Lys Lys Met Lys Lys Met Xaa 1 5 <210> 72 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 72 Asp Asp Met Asp Asp Met Xaa 1 5 <210> 73 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 73 Phe Phe Met Phe Phe Met Xaa 1 5 <210> 74 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 74 Ala Ala Met Ala Ala Met Xaa 1 5 <210> 75 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 75 Phe Pro Phe Pro Phe Pro Xaa 1 5 <210> 76 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 76 Asp Pro Asp Pro Asp Pro Xaa 1 5 <210> 77 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 77 Lys Pro Lys Pro Lys Pro Xaa 1 5 <210> 78 <211> 13 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 78 Tyr Ala Ala Trp Ala Ala Phe Ala Asp Asp Asp Trp Lys 1 5 10 <210> 79 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 79 Phe Tyr Pro Leu Pro Trp Pro Asp Asp Asp Tyr 1 5 10 <210> 80 <211> 12 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 80 Phe Tyr Pro Leu Pro Trp Pro Asp Asp Asp Tyr Lys 1 5 10 <210> 81 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 81 Tyr Pro Leu Pro Trp Pro Asp Asp Asp Tyr Lys 1 5 10 <210> 82 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 82 Tyr Pro Tyr Pro Tyr Pro Lys 1 5 <210> 83 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 83 Pro Tyr Pro Tyr Pro Lys 1 5 <210> 84 <211> 4 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 84 Gly Pro Arg Pro 1 <210> 85 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 85 Asp Asp Pro Asp Asp Pro Xaa 1 5 <210> 86 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 86 Tyr Pro Tyr Pro Tyr Pro Xaa 1 5 <210> 87 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (6)..(6) <223> Xaa is Azidolysine <400> 87 Pro Tyr Pro Tyr Pro Xaa 1 5 <210> 88 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (6)..(6) <223> Xaa is Azidolysine <400> 88 Pro Phe Pro Phe Pro Xaa 1 5 <210> 89 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Lys-Triazole-PEG4 <400> 89 Lys Lys Met Lys Lys Met Xaa 1 5 <210> 90 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 90 Ala Ala Pro Ala Ala Pro Xaa 1 5 <210> 91 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (6)..(6) <223> Xaa is Azidolysine <400> 91 Ala Pro Ala Ala Pro Xaa 1 5 <210> 92 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 92 Tyr Tyr Pro Tyr Tyr Pro Xaa 1 5 <210> 93 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (6)..(6) <223> Xaa is Azidolysine <400> 93 Tyr Pro Tyr Tyr Pro Xaa 1 5 <210> 94 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 94 Phe Phe Pro Phe Phe Pro Xaa 1 5 <210> 95 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (6)..(6) <223> Xaa is Azidolysine <400> 95 Phe Pro Phe Phe Pro Xaa 1 5 <210> 96 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 96 Arg Arg Pro Arg Arg Pro Xaa 1 5 <210> 97 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (6)..(6) <223> Xaa is Azidolysine <400> 97 Arg Pro Arg Arg Pro Xaa 1 5 <210> 98 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 98 Ala Ala Pro Ala Ala Pro Xaa 1 5 <210> 99 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (6)..(6) <223> Xaa is Azidolysine <400> 99 Ala Pro Ala Ala Pro Xaa 1 5 <210> 100 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 100 Lys Lys Pro Lys Lys Pro Xaa 1 5 <210> 101 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (6)..(6) <223> Xaa is Azidolysine <400> 101 Lys Pro Lys Lys Pro Xaa 1 5 <210> 102 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (6)..(6) <223> Xaa is Azidolysine <400> 102 Lys Met Lys Lys Met Xaa 1 5 <210> 103 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (7)..(7) <223> Xaa is Azidolysine <400> 103 Tyr Tyr Met Tyr Tyr Met Xaa 1 5 <210> 104 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (8)..(8) <223> Xaa is Azidolysine <400> 104 Asp Pro Ala Ala Ala Phe Lys Xaa 1 5 <210> 105 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 105 Pro Ala Ala Ala Phe Lys 1 5 <210> 106 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (10)..(10) <223> Xaa is Azidolysine <400> 106 Lys Ala Ala Ala Ala Ala Ala Phe Lys Xaa 1 5 10 <210> 107 <211> 12 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (12)..(12) <223> Xaa is Azidolysine <400> 107 Phe Tyr Pro Leu Pro Trp Pro Asp Asp Asp Tyr Xaa 1 5 10 <210> 108 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (11)..(11) <223> Xaa is Azidolysine <400> 108 Tyr Pro Leu Pro Trp Pro Asp Asp Asp Tyr Xaa 1 5 10 <210> 109 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (10)..(10) <223> Xaa is Azidolysine <400> 109 Pro Leu Pro Trp Pro Asp Asp Asp Tyr Xaa 1 5 10 <210> 110 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <220> <221> misc_feature <222> (9)..(9) <223> Xaa is Azidolysine <400> 110 Leu Pro Trp Pro Asp Asp Asp Tyr Xaa 1 5 <210> 111 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 111 Phe Ala Ala Ala Trp Pro Asp Asp Asp Phe 1 5 10 <210> 112 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 112 Trp Pro Asp Asp Phe 1 5 <210> 113 <211> 10 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 113 Trp Ala Ala Ala Phe Pro Asp Asp Asp Phe 1 5 10 <210> 114 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 114 Phe Pro Asp Asp Phe 1 5 <210> 115 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 115 Tyr Pro Asp Asp Phe 1 5 <210> 116 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 116 Arg Arg Pro Phe Gln Gln 1 5 <210> 117 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 117 Arg Pro Phe Gln Gln 1 5 <210> 118 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 118 Ala Ala Pro Phe Gln Gln 1 5 <210> 119 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 119 Ala Pro Phe Gln Gln 1 5 <210> 120 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 120 Lys Lys Pro Phe Gln Gln 1 5 <210> 121 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 121 Lys Pro Phe Gln Gln 1 5 <210> 122 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 122 Tyr Tyr Pro Phe Gln Gln 1 5 <210> 123 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 123 Tyr Pro Phe Gln Gln 1 5 <210> 124 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 124 Phe Phe Pro Phe Gln Gln 1 5 <210> 125 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 125 Phe Pro Phe Gln Gln 1 5 <210> 126 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 126 Asp Asp Pro Phe Gln Gln 1 5 <210> 127 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 127 Asp Pro Phe Gln Gln 1 5 <210> 128 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 128 Glu Glu Pro Phe Gln Gln 1 5 <210> 129 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 129 Glu Pro Phe Gln Gln 1 5 <210> 130 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 130 Asn Asn Pro Phe Gln Gln 1 5 <210> 131 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 131 Asn Pro Phe Gln Gln 1 5 <210> 132 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 132 Gln Gln Pro Phe Gln Gln 1 5 <210> 133 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 133 Gln Pro Phe Gln Gln 1 5 <210> 134 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 134 Val Val Pro Phe Gln Gln 1 5 <210> 135 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 135 Val Pro Phe Gln Gln 1 5 <210> 136 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 136 Ile Ile Pro Phe Gln Gln 1 5 <210> 137 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 137 Ile Pro Phe Gln Gln 1 5 <210> 138 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 138 Leu Leu Pro Phe Gln Gln 1 5 <210> 139 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 139 Leu Pro Phe Gln Gln 1 5 <210> 140 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 140 Ser Ser Pro Phe Gln Gln 1 5 <210> 141 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 141 Ser Pro Phe Gln Gln 1 5 <210> 142 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 142 Thr Thr Pro Phe Gln Gln 1 5 <210> 143 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 143 Thr Pro Phe Gln Gln 1 5 <210> 144 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 144 Cys Cys Pro Phe Gln Gln 1 5 <210> 145 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 145 Cys Pro Phe Gln Gln 1 5 <210> 146 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 146 Trp Trp Pro Phe Gln Gln 1 5 <210> 147 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 147 Trp Pro Phe Gln Gln 1 5 <210> 148 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 148 Met Met Pro Phe Gln Gln 1 5 <210> 149 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 149 Met Pro Phe Gln Gln 1 5 <210> 150 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 150 Pro Pro Pro Phe Gln Gln 1 5 <210> 151 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 151 Pro Pro Phe Gln Gln 1 5 <210> 152 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 152 Gly Gly Pro Phe Gln Gln 1 5 <210> 153 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 153 Gly Pro Phe Gln Gln 1 5 <210> 154 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 154 His His Pro Phe Gln Gln 1 5 <210> 155 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 155 His Pro Phe Gln Gln 1 5 <210> 156 <211> 12 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 156 Tyr Ala Ala Phe Ala Ala Trp Ala Asp Asp Asp Trp 1 5 10 <210> 157 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 157 Ala Asp Asp Asp Trp Lys 1 5 <210> 158 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> Synthetic Polypeptide <400> 158 Trp Ala Asp Asp Asp Trp Lys 1 5

Claims (283)

  1. 폴리펩티드의 분해 프로세스 동안 데이터를 수득하고;
    데이터를 분석하여 분해 프로세스 동안 폴리펩티드의 말단에서 순차적으로 노출된 아미노산에 상응하는 데이터의 부분을 결정하고;
    폴리펩티드를 대표하는 아미노산 서열을 출력하는 것
    을 포함하는 방법.
  2. 제1항에 있어서, 데이터가 분해 프로세스 동안 폴리펩티드의 말단에서의 아미노산 동일성을 지시하는 것인 방법.
  3. 제2항에 있어서, 데이터가 분해 프로세스 동안 말단에서의 말단 아미노산의 상이한 유형에 결합하는 1개 이상의 아미노산 인식 분자에 의해 생성된 신호를 지시하는 것인 방법.
  4. 제1항에 있어서, 데이터가 분해 프로세스 동안 생성된 발광 신호를 지시하는 것인 방법.
  5. 제1항에 있어서, 데이터가 분해 프로세스 동안 생성된 전기 신호를 지시하는 것인 방법.
  6. 제1항에 있어서, 데이터를 분석하는 것이 일련의 절단 사건을 검출하고, 연속적인 절단 사건 사이의 데이터의 부분을 결정하는 것을 추가로 포함하는 것인 방법.
  7. 제1항에 있어서, 데이터를 분석하는 것이 개별적인 부분의 각각에 대한 아미노산의 유형을 결정하는 것을 추가로 포함하는 것인 방법.
  8. 제1항에 있어서, 개별적인 부분의 각각이 펄스 패턴을 포함하고, 데이터를 분석하는 것이 그의 각각의 펄스 패턴에 기반하여 부분 중 1개 이상에 대한 아미노산의 유형을 결정하는 것을 추가로 포함하는 것인 방법.
  9. 제8항에 있어서, 아미노산의 유형을 결정하는 것이, 데이터가 역치 값 초과인 경우에 부분 내의 시간의 양을 확인하고, 시간의 양을 부분에 대한 시간의 지속기간과 비교하는 것을 추가로 포함하는 것인 방법.
  10. 제8항에 있어서, 아미노산의 유형을 결정하는 것이 1개 이상의 부분의 각각에 대한 적어도 하나의 펄스 지속기간을 확인하는 것을 추가로 포함하는 것인 방법.
  11. 제8항에 있어서, 아미노산의 유형을 결정하는 것이 1개 이상의 부분의 각각에 대한 적어도 하나의 펄스간 지속기간을 확인하는 것을 추가로 포함하는 것인 방법.
  12. 제1항에 있어서, 아미노산 서열이 부분에 상응하는 일련의 아미노산을 포함하는 것인 방법.
  13. 하기를 포함하는 시스템:
    적어도 1개의 하드웨어 프로세서; 및
    적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 제1항 내지 제12항 중 어느 한 항의 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체.
  14. 적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 제1항 내지 제12항 중 어느 한 항의 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체.
  15. 폴리펩티드 시퀀싱의 방법으로서:
    단일 폴리펩티드 분자를 1개 이상의 말단 아미노산 인식 분자와 접촉시키고;
    1개 이상의 말단 아미노산 인식 분자와, 단일 폴리펩티드가 분해되고 있는 동안 단일 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 회합을 지시하는 일련의 신호 펄스를 검출하며, 그에 의해 단일 폴리펩티드 분자를 시퀀싱하는 것
    을 포함하는 방법.
  16. 제15항에 있어서, 1개 이상의 말단 아미노산 인식 분자와 말단에서 노출된 아미노산의 각각의 유형의 회합이 말단에서 노출된 아미노산의 다른 유형과는 상이한 일련의 신호 펄스에서의 특징적인 패턴을 생성하는 것인 방법.
  17. 제16항에 있어서, 특징적인 패턴이 일련의 신호 펄스의 부분을 포함하는 것인 방법.
  18. 제17항에 있어서, 특징적인 패턴의 신호 펄스가 말단 아미노산 인식 분자 및 말단에서 노출된 아미노산 사이의 개별적인 회합 사건에 상응하는 것인 방법.
  19. 제18항에 있어서, 특징적인 패턴의 신호 펄스가 말단 아미노산 인식 분자 및 말단에서 노출된 아미노산 사이의 결합의 해리 속도의 특징인 펄스 지속기간을 포함하는 것인 방법.
  20. 제19항에 있어서, 특징적인 패턴의 각각의 신호 펄스가 말단 아미노산 인식 분자 결합의 회합 속도의 특징인 펄스간 지속기간에 의해 또 다른 것으로부터 분리되는 것인 방법.
  21. 제16항 내지 제20항 중 어느 한 항에 있어서, 특징적인 패턴이 단일 폴리펩티드 분자의 말단에서 노출된 아미노산과의 일련의 가역적인 말단 아미노산 인식 분자 결합 상호작용에 상응하는 것인 방법.
  22. 제21항에 있어서, 일련의 가역적인 말단 아미노산 인식 분자 결합 상호작용이 단일 폴리펩티드 분자의 말단에서의 1개의 2원 복합체 종의 가역적인 형성을 포함하는 것인 방법.
  23. 제21항에 있어서, 일련의 가역적인 말단 아미노산 인식 분자 결합 상호작용이 단일 폴리펩티드 분자의 말단에서의 상이한 2원 복합체 종의 가역적인 형성을 포함하는 것인 방법.
  24. 제16항 내지 제23항 중 어느 한 항에 있어서, 특징적인 패턴이 단일 폴리펩티드 분자의 말단에서 노출된 아미노산 및 인접 위치에서의 아미노산을 지시하는 것인 방법.
  25. 제24항에 있어서, 말단에서 노출된 아미노산 및 인접 위치에서의 아미노산이 상이한 유형의 것인 방법.
  26. 제15항 내지 제25항 중 어느 한 항에 있어서, 시퀀싱이 단일 폴리펩티드가 분해되고 있는 동안 단일 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 각각의 유형을 확인하는 것을 포함하는 것인 방법.
  27. 제15항 내지 제25항 중 어느 한 항에 있어서, 시퀀싱이 단일 폴리펩티드가 분해되고 있는 동안 단일 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 모든 유형의 부분을 확인하는 것을 포함하는 것인 방법.
  28. 제15항 내지 제27항 중 어느 한 항에 있어서, 시퀀싱이 단일 폴리펩티드가 분해되고 있는 동안 단일 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 상대 위치를 결정하는 것을 포함하는 것인 방법.
  29. 제15항 내지 제28항 중 어느 한 항에 있어서, 시퀀싱이 단일 폴리펩티드 분자에서 적어도 2개의 인접 아미노산을 확인하는 것을 포함하는 것인 방법.
  30. 제15항 내지 제29항 중 어느 한 항에 있어서, 시퀀싱이 단일 폴리펩티드 분자에서 적어도 2개의 비-인접 아미노산을 확인하는 것을 포함하는 것인 방법.
  31. 제15항 내지 제30항 중 어느 한 항에 있어서, 시퀀싱이 말단에서 노출된 아미노산을 천연 발생 아미노산, 비천연 아미노산, 또는 그의 변형된 변이체로서 확인하는 것을 포함하는 것인 방법.
  32. 제15항 내지 제31항 중 어느 한 항에 있어서, 시퀀싱이 말단에서 노출된 아미노산을 하전된, 비하전된, 극성, 비-극성, 소수성, 방향족, 또는 그의 조합인 측쇄를 갖는 것으로서 확인하는 것을 포함하는 것인 방법.
  33. 제32항에 있어서, 측쇄가 음으로 하전되거나 또는 양으로 하전된 것인 방법.
  34. 제15항 내지 제33항 중 어느 한 항에 있어서, 시퀀싱이 말단에서 노출된 아미노산을 알라닌, 아르기닌, 아스파라긴, 아스파르트산, 시스테인, 글루타민, 글루탐산, 글리신, 히스티딘, 이소류신, 류신, 리신, 메티오닌, 페닐알라닌, 프롤린, 셀레노시스테인, 세린, 트레오닌, 트립토판, 티로신, 및 발린으로부터 선택되는 하나의 유형으로서 확인하는 것을 포함하는 것인 방법.
  35. 제15항 내지 제34항 중 어느 한 항에 있어서, 시퀀싱이 말단에서 노출된 아미노산을 번역후 변형을 갖는 것으로서 확인하는 것을 포함하는 것인 방법.
  36. 제35항에 있어서, 번역후 변형이 아세틸화, ADP-리보실화, 카스파제 절단, 시트룰린화, 포르밀화, N-연결된 글리코실화, O-연결된 글리코실화, 히드록실화, 메틸화, 미리스토일화, 네딜화, 니트로화, 산화, 팔미토일화, 인산화, 프레닐화, S-니트로실화, 황산화, 수모일화, 및 유비퀴틴화로부터 선택되는 것인 방법.
  37. 제15항 내지 제36항 중 어느 한 항에 있어서, 일련의 신호 펄스가 시간 경과에 따른 광학 신호의 규모의 일련의 변화를 포함하는 것인 방법.
  38. 제37항에 있어서, 일련의 신호 펄스 각각이 복수개의 광자 방출 사건을 포함하는 것인 방법.
  39. 제38항에 있어서, 시퀀싱이 발광 수명, 발광 휘도, 발광 강도, 발광 파장, 발광 편광, 및 발광 양자 수율 중 하나 이상을 결정하는 것을 추가로 포함하는 것인 방법.
  40. 제15항 내지 제39항 중 어느 한 항에 있어서, 일련의 신호 펄스가 시간 경과에 따른 전기 신호의 규모의 일련의 변화를 포함하는 것인 방법.
  41. 제40항에 있어서, 일련의 신호 펄스가 가역적인 단일 분자 결합 상호작용에 상응하는 전도율 전이를 포함하는 것인 방법.
  42. 제15항 내지 제41항 중 어느 한 항에 있어서, 1개 이상의 말단 아미노산 인식 분자의 각각이 인식 단백질 또는 인식 핵산을 포함하는 것인 방법.
  43. 제42항에 있어서, 인식 단백질이 분해 경로 단백질, 펩티다제, 항체, 아미노트랜스퍼라제, tRNA 신테타제, 또는 SH2 도메인-함유 단백질 또는 그의 단편인 방법.
  44. 제43항에 있어서, 분해 경로 단백질이 N-단부 규칙 경로 단백질, 또는 그의 돌연변이체 또는 변이체인 방법.
  45. 제44항에 있어서, N-단부 규칙 경로 단백질이 Arg/N-단부 규칙 경로 단백질, Ac/N-단부 규칙 경로 단백질, 또는 Pro/N-단부 규칙 경로 단백질인 방법.
  46. 제45항에 있어서, N-단부 규칙 경로 단백질이 Gid 단백질, UBR 박스 단백질 또는 그의 UBR 박스 도메인-함유 단편, p62 단백질 또는 그의 ZZ 도메인-함유 단편, 또는 ClpS 단백질인 방법.
  47. 제46항에 있어서, Gid 단백질이 에스. 세레비지아에(S. cerevisiae) 또는 그의 상동성 종으로부터의 Gid4 또는 Gid10인 방법.
  48. 제46항에 있어서, UBR 박스 단백질이 인간, 에스. 세레비지아에, 또는 그의 상동성 종으로부터의 UBR1 또는 UBR2인 방법.
  49. 제46항에 있어서, p62 단백질이 인간, 래트, 또는 그의 상동성 종으로부터의 p62인 방법.
  50. 제46항에 있어서, ClpS 단백질이 에이. 투미파시엔스(A. tumifaciens), 씨. 크레센투스(C. crescentus), 이. 콜라이(E. coli), 에스. 엘론가투스(S. elongatus), 피. 팔시파룸(P. falciparum), 티. 엘론가투스(T. elongatus), 또는 그의 상동성 종으로부터의 ClpS1 또는 ClpS2인 방법.
  51. 제42항 내지 제50항 중 어느 한 항에 있어서, 인식 단백질이 합성 단백질 또는 재조합 단백질인 방법.
  52. 제42항에 있어서, 인식 핵산이 핵산 압타머인 방법.
  53. 제15항 내지 제52항 중 어느 한 항에 있어서, 1개 이상의 말단 아미노산 인식 분자의 각각이 검출가능한 표지를 포함하는 것인 방법.
  54. 제53항에 있어서, 검출가능한 표지가 발광 표지 또는 전도율 표지인 방법.
  55. 제15항 내지 제54항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 표면에 고정화된 것인 방법.
  56. 제55항에 있어서, 단일 폴리펩티드 분자가, 1개 이상의 말단 아미노산 인식 분자가 회합하는 말단에 대해 원위인 말단 단부를 통해 표면에 고정화된 것인 방법.
  57. 제55항에 있어서, 단일 폴리펩티드 분자가 카르복시-말단 단부를 통해 고정화된 것인 방법.
  58. 제55항에 있어서, 단일 폴리펩티드 분자가 아미노-말단 단부를 통해 고정화된 것인 방법.
  59. 제55항 내지 제58항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 링커를 통해 표면에 고정화된 것인 방법.
  60. 제59항에 있어서, 링커가 생체분자를 포함하고, 임의로 생체분자가 올리고뉴클레오티드인 방법.
  61. 제15항 내지 제60항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 단일 폴리펩티드 분자의 말단으로부터 1개 이상의 아미노산을 제거하는 절단 시약에 의해 분해되는 것인 방법.
  62. 제61항에 있어서, 절단 시약과 말단의 회합을 지시하는 신호를 검출하는 것을 추가로 포함하는 방법.
  63. 제61항 또는 제62항에 있어서, 절단 시약이 검출가능한 표지를 포함하는 것인 방법.
  64. 제63항에 있어서, 검출가능한 표지가 발광 표지 또는 전도율 표지인 방법.
  65. 제15항 내지 제64항 중 어느 한 항에 있어서, 일련의 신호 펄스가 일련의 실시간 신호 펄스인 방법.
  66. 하기를 포함하는 시스템:
    적어도 1개의 하드웨어 프로세서; 및
    적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 제15항 내지 제65항 중 어느 한 항의 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체.
  67. 적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 제15항 내지 제65항 중 어느 한 항의 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체.
  68. 폴리펩티드를 시퀀싱하는 방법으로서:
    반응 혼합물 중의 단일 폴리펩티드 분자를 1개 이상의 말단 아미노산 인식 분자 및 절단 시약을 포함하는 조성물과 접촉시키고;
    절단 시약의 존재 하에서 1개 이상의 말단 아미노산 인식 분자와 단일 폴리펩티드 분자의 말단의 회합을 지시하는 일련의 신호 펄스를 검출하는 것을 포함하며, 여기서 일련의 신호 펄스가 절단 시약에 의한 말단 아미노산 절단의 결과로서 시간 경과에 따른 말단에서 노출된 일련의 아미노산을 지시하는 것인
    방법.
  69. 제68항에 있어서, 1개 이상의 말단 아미노산 인식 분자와 말단에서 노출된 아미노산의 각각의 유형의 회합이 말단에서 노출된 아미노산의 다른 유형과는 상이한 일련의 신호 펄스에서의 특징적인 패턴을 생성하는 것인 방법.
  70. 제69항에 있어서, 특징적인 패턴이 일련의 신호 펄스의 부분을 포함하는 것인 방법.
  71. 제70항에 있어서, 특징적인 패턴의 신호 펄스가 말단 아미노산 인식 분자 및 말단에서 노출된 아미노산 사이의 개별적인 회합 사건에 상응하는 것인 방법.
  72. 제71항에 있어서, 특징적인 패턴의 신호 펄스가 말단 아미노산 인식 분자 및 말단에서 노출된 아미노산 사이의 결합의 해리 속도의 특징인 펄스 지속기간을 포함하는 것인 방법.
  73. 제72항에 있어서, 특징적인 패턴의 각각의 신호 펄스가 말단 아미노산 인식 분자 결합의 회합 속도의 특징인 펄스간 지속기간에 의해 또 다른 것으로부터 분리되는 것인 방법.
  74. 제69항 내지 제73항 중 어느 한 항에 있어서, 특징적인 패턴이 단일 폴리펩티드 분자의 말단에서 노출된 아미노산과의 일련의 가역적인 말단 아미노산 인식 분자 결합 상호작용에 상응하는 것인 방법.
  75. 제74항에 있어서, 일련의 가역적인 말단 아미노산 인식 분자 결합 상호작용이 단일 폴리펩티드 분자의 말단에서의 1개의 2원 복합체 종의 가역적인 형성을 포함하는 것인 방법.
  76. 제74항에 있어서, 일련의 가역적인 말단 아미노산 인식 분자 결합 상호작용이 단일 폴리펩티드 분자의 말단에서의 상이한 2원 복합체 종의 가역적인 형성을 포함하는 것인 방법.
  77. 제69항 내지 제76항 중 어느 한 항에 있어서, 특징적인 패턴이 단일 폴리펩티드 분자의 말단에서 노출된 아미노산 및 인접 위치에서의 아미노산을 지시하는 것인 방법.
  78. 제77항에 있어서, 말단에서 노출된 아미노산 및 인접 위치에서의 아미노산이 상이한 유형의 것인 방법.
  79. 제68항 내지 제78항 중 어느 한 항에 있어서, 시퀀싱이 단일 폴리펩티드가 분해되고 있는 동안 단일 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 각각의 유형을 확인하는 것을 포함하는 것인 방법.
  80. 제68항 내지 제78항 중 어느 한 항에 있어서, 시퀀싱이 단일 폴리펩티드가 분해되고 있는 동안 단일 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 모든 유형의 부분을 확인하는 것을 포함하는 것인 방법.
  81. 제68항 내지 제80항 중 어느 한 항에 있어서, 시퀀싱이 단일 폴리펩티드가 분해되고 있는 동안 단일 폴리펩티드의 말단에서 노출된 연속적인 아미노산의 상대 위치를 결정하는 것을 포함하는 것인 방법.
  82. 제68항 내지 제81항 중 어느 한 항에 있어서, 시퀀싱이 단일 폴리펩티드 분자에서 적어도 2개의 인접 아미노산을 확인하는 것을 포함하는 것인 방법.
  83. 제68항 내지 제82항 중 어느 한 항에 있어서, 시퀀싱이 단일 폴리펩티드 분자에서 적어도 2개의 비-인접 아미노산을 확인하는 것을 포함하는 것인 방법.
  84. 제68항 내지 제83항 중 어느 한 항에 있어서, 시퀀싱이 말단에서 노출된 아미노산을 천연 발생 아미노산, 비천연 아미노산, 또는 그의 변형된 변이체로서 확인하는 것을 포함하는 것인 방법.
  85. 제68항 내지 제84항 중 어느 한 항에 있어서, 시퀀싱이 말단에서 노출된 아미노산을 하전된, 비하전된, 극성, 비-극성, 소수성, 방향족, 또는 그의 조합인 측쇄를 갖는 것으로서 확인하는 것을 포함하는 것인 방법.
  86. 제85항에 있어서, 측쇄가 음으로 하전되거나 또는 양으로 하전된 것인 방법.
  87. 제68항 내지 제86항 중 어느 한 항에 있어서, 시퀀싱이 말단에서 노출된 아미노산을 알라닌, 아르기닌, 아스파라긴, 아스파르트산, 시스테인, 글루타민, 글루탐산, 글리신, 히스티딘, 이소류신, 류신, 리신, 메티오닌, 페닐알라닌, 프롤린, 셀레노시스테인, 세린, 트레오닌, 트립토판, 티로신, 및 발린으로부터 선택되는 하나의 유형으로서 확인하는 것을 포함하는 것인 방법.
  88. 제68항 내지 제87항 중 어느 한 항에 있어서, 시퀀싱이 말단에서 노출된 아미노산을 번역후 변형을 갖는 것으로서 확인하는 것을 포함하는 것인 방법.
  89. 제88항에 있어서, 번역후 변형이 아세틸화, ADP-리보실화, 카스파제 절단, 시트룰린화, 포르밀화, N-연결된 글리코실화, O-연결된 글리코실화, 히드록실화, 메틸화, 미리스토일화, 네딜화, 니트로화, 산화, 팔미토일화, 인산화, 프레닐화, S-니트로실화, 황산화, 수모일화, 및 유비퀴틴화로부터 선택되는 것인 방법.
  90. 제68항 내지 제89항 중 어느 한 항에 있어서, 일련의 신호 펄스가 시간 경과에 따른 광학 신호의 규모의 일련의 변화를 포함하는 것인 방법.
  91. 제90항에 있어서, 일련의 신호 펄스 각각이 복수개의 광자 방출 사건을 포함하는 것인 방법.
  92. 제91항에 있어서, 시퀀싱이 발광 수명, 발광 휘도, 발광 강도, 발광 파장, 발광 편광, 및 발광 양자 수율 중 하나 이상을 결정하는 것을 추가로 포함하는 것인 방법.
  93. 제68항 내지 제92항 중 어느 한 항에 있어서, 일련의 신호 펄스가 시간 경과에 따른 전기 신호의 규모의 일련의 변화를 포함하는 것인 방법.
  94. 제93항에 있어서, 일련의 신호 펄스가 가역적인 단일 분자 결합 상호작용에 상응하는 전도율 전이를 포함하는 것인 방법.
  95. 제68항 내지 제94항 중 어느 한 항에 있어서, 1개 이상의 말단 아미노산 인식 분자의 각각이 인식 단백질 또는 인식 핵산을 포함하는 것인 방법.
  96. 제95항에 있어서, 인식 단백질이 분해 경로 단백질, 펩티다제, 항체, 아미노트랜스퍼라제, tRNA 신테타제, 또는 SH2 도메인-함유 단백질 또는 그의 단편인 방법.
  97. 제96항에 있어서, 분해 경로 단백질이 N-단부 규칙 경로 단백질, 또는 그의 돌연변이체 또는 변이체인 방법.
  98. 제97항에 있어서, N-단부 규칙 경로 단백질이 Arg/N-단부 규칙 경로 단백질, Ac/N-단부 규칙 경로 단백질, 또는 Pro/N-단부 규칙 경로 단백질인 방법.
  99. 제98항에 있어서, N-단부 규칙 경로 단백질이 Gid 단백질, UBR 박스 단백질 또는 그의 UBR 박스 도메인-함유 단편, p62 단백질 또는 그의 ZZ 도메인-함유 단편, 또는 ClpS 단백질인 방법.
  100. 제99항에 있어서, Gid 단백질이 에스. 세레비지아에 또는 그의 상동성 종으로부터의 Gid4 또는 Gid10인 방법.
  101. 제99항에 있어서, UBR 박스 단백질이 인간, 에스. 세레비지아에, 또는 그의 상동성 종으로부터의 UBR1 또는 UBR2인 방법.
  102. 제99항에 있어서, p62 단백질이 인간, 래트, 또는 그의 상동성 종으로부터의 p62인 방법.
  103. 제99항에 있어서, ClpS 단백질이 에이. 투미파시엔스, 씨. 크레센투스, 이. 콜라이, 에스. 엘론가투스, 피. 팔시파룸, 티. 엘론가투스, 또는 그의 상동성 종으로부터의 ClpS1 또는 ClpS2인 방법.
  104. 제95항 내지 제103항 중 어느 한 항에 있어서, 인식 단백질이 합성 단백질 또는 재조합 단백질인 방법.
  105. 제95항에 있어서, 인식 핵산이 핵산 압타머인 방법.
  106. 제68항 내지 제105항 중 어느 한 항에 있어서, 1개 이상의 말단 아미노산 인식 분자의 각각이 검출가능한 표지를 포함하는 것인 방법.
  107. 제106항에 있어서, 검출가능한 표지가 발광 표지 또는 전도율 표지인 방법.
  108. 제68항 내지 제107항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 표면에 고정화된 것인 방법.
  109. 제108항에 있어서, 단일 폴리펩티드 분자가, 1개 이상의 말단 아미노산 인식 분자가 회합하는 말단에 대해 원위인 말단 단부를 통해 표면에 고정화된 것인 방법.
  110. 제108항에 있어서, 단일 폴리펩티드 분자가 카르복시-말단 단부를 통해 고정화된 것인 방법.
  111. 제108항에 있어서, 단일 폴리펩티드 분자가 아미노-말단 단부를 통해 고정화된 것인 방법.
  112. 제108항 내지 제111항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 링커를 통해 표면에 고정화된 것인 방법.
  113. 제112항에 있어서, 링커가 생체분자를 포함하고, 임의로 생체분자가 올리고뉴클레오티드인 방법.
  114. 제68항 내지 제113항 중 어느 한 항에 있어서, 절단 시약과 말단의 회합을 지시하는 신호를 검출하는 것을 추가로 포함하는 방법.
  115. 제68항 또는 제114항에 있어서, 절단 시약이 검출가능한 표지를 포함하는 것인 방법.
  116. 제115항에 있어서, 검출가능한 표지가 발광 표지 또는 전도율 표지인 방법.
  117. 제68항 내지 제116항 중 어느 한 항에 있어서, 일련의 신호 펄스가 일련의 실시간 신호 펄스인 방법.
  118. 하기를 포함하는 시스템:
    적어도 1개의 하드웨어 프로세서; 및
    적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 제68항 내지 제117항 중 어느 한 항의 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체.
  119. 적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 제68항 내지 제117항 중 어느 한 항의 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체.
  120. 폴리펩티드 시퀀싱의 방법으로서:
    a) 단일 폴리펩티드 분자의 말단에서 제1 아미노산을 확인하고;
    b) 제1 아미노산을 제거하여 단일 폴리펩티드 분자의 말단에서 제2 아미노산을 노출시키고;
    c) 단일 폴리펩티드 분자의 말단에서 제2 아미노산을 확인하는 것
    을 포함하며,
    여기서 (a)-(c)가 단일 반응 혼합물에서 수행되는 것인
    방법.
  121. 제120항에 있어서, (a)-(c)가 순차적으로 일어나는 것인 방법.
  122. 제120항에 있어서, (c)가 (a) 및 (b) 전에 일어나는 것인 방법.
  123. 제120항 내지 제122항 중 어느 한 항에 있어서, 단일 반응 혼합물이 1개 이상의 말단 아미노산 인식 분자를 포함하는 것인 방법.
  124. 제123항에 있어서, 제1 및 제2 아미노산이 1개 이상의 말단 아미노산 인식 분자와 단일 폴리펩티드 분자의 말단의 회합을 지시하는 일련의 신호 펄스를 검출함으로써 확인되는 것인 방법.
  125. 제124항에 있어서, 1개 이상의 말단 아미노산 인식 분자와 제1 아미노산의 회합이 제2 아미노산과는 상이한 일련의 신호 펄스에서의 특징적인 패턴을 생성하는 것인 방법.
  126. 제120항 내지 제125항 중 어느 한 항에 있어서, 1개 이상의 말단 아미노산 인식 분자의 각각이 인식 단백질 또는 인식 핵산을 포함하는 것인 방법.
  127. 제126항에 있어서, 인식 단백질이 분해 경로 단백질, 펩티다제, 항체, 아미노트랜스퍼라제, tRNA 신테타제, 또는 SH2 도메인-함유 단백질 또는 그의 단편인 방법.
  128. 제127항에 있어서, 분해 경로 단백질이 N-단부 규칙 경로 단백질, 또는 그의 돌연변이체 또는 변이체인 방법.
  129. 제128항에 있어서, N-단부 규칙 경로 단백질이 Arg/N-단부 규칙 경로 단백질, Ac/N-단부 규칙 경로 단백질, 또는 Pro/N-단부 규칙 경로 단백질인 방법.
  130. 제129항에 있어서, N-단부 규칙 경로 단백질이 Gid 단백질, UBR 박스 단백질 또는 그의 UBR 박스 도메인-함유 단편, p62 단백질 또는 그의 ZZ 도메인-함유 단편, 또는 ClpS 단백질인 방법.
  131. 제130항에 있어서, Gid 단백질이 에스. 세레비지아에 또는 그의 상동성 종으로부터의 Gid4 또는 Gid10인 방법.
  132. 제130항에 있어서, UBR 박스 단백질이 인간, 에스. 세레비지아에, 또는 그의 상동성 종으로부터의 UBR1 또는 UBR2인 방법.
  133. 제130항에 있어서, p62 단백질이 인간, 래트, 또는 그의 상동성 종으로부터의 p62인 방법.
  134. 제130항에 있어서, ClpS 단백질이 에이. 투미파시엔스, 씨. 크레센투스, 이. 콜라이, 에스. 엘론가투스, 피. 팔시파룸, 티. 엘론가투스, 또는 그의 상동성 종으로부터의 ClpS1 또는 ClpS2인 방법.
  135. 제126항 내지 제134항 중 어느 한 항에 있어서, 인식 단백질이 합성 단백질 또는 재조합 단백질인 방법.
  136. 제126항에 있어서, 인식 핵산이 핵산 압타머인 방법.
  137. 제120항 내지 제136항 중 어느 한 항에 있어서, 1개 이상의 말단 아미노산 인식 분자의 각각이 검출가능한 표지를 포함하는 것인 방법.
  138. 제137항에 있어서, 검출가능한 표지가 발광 표지 또는 전도율 표지인 방법.
  139. 제120항 내지 제138항 중 어느 한 항에 있어서, 단일 반응 혼합물이 단일 폴리펩티드 분자의 말단으로부터 1개 이상의 아미노산을 제거하는 절단 시약을 포함하는 것인 방법.
  140. 제139항에 있어서, 제1 아미노산이 절단 시약에 의해 제거되는 것인 방법.
  141. 제139항 또는 제140항에 있어서, 절단 시약이 검출가능한 표지를 포함하는 것인 방법.
  142. 제141항에 있어서, 검출가능한 표지가 발광 표지 또는 전도율 표지인 방법.
  143. 제120항 내지 제142항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 표면에 고정화된 것인 방법.
  144. 제143항에 있어서, 단일 폴리펩티드 분자가 제1 아미노산이 제거되는 말단에 대해 원위인 말단 단부를 통해 표면에 고정화된 것인 방법.
  145. 제143항에 있어서, 단일 폴리펩티드 분자가 카르복시-말단 단부를 통해 고정화된 것인 방법.
  146. 제143항에 있어서, 단일 폴리펩티드 분자가 아미노-말단 단부를 통해 고정화된 것인 방법.
  147. 제143항 내지 제146항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 링커를 통해 표면에 고정화된 것인 방법.
  148. 제147항에 있어서, 링커가 생체분자를 포함하고, 임의로 생체분자가 올리고뉴클레오티드인 방법.
  149. 제124항 내지 제148항 중 어느 한 항에 있어서, 일련의 신호 펄스가 일련의 실시간 신호 펄스인 방법.
  150. 하기를 포함하는 시스템:
    적어도 1개의 하드웨어 프로세서; 및
    적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 제120항 내지 제149항 중 어느 한 항의 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체.
  151. 적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 제120항 내지 제149항 중 어느 한 항의 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체.
  152. 폴리펩티드의 아미노산을 확인하는 방법으로서:
    단일 폴리펩티드 분자를 단일 폴리펩티드 분자에 결합하는 1개 이상의 아미노산 인식 분자와 접촉시키고;
    폴리펩티드 분해 조건 하에서 1개 이상의 아미노산 인식 분자와 단일 폴리펩티드 분자의 회합을 지시하는 일련의 신호 펄스를 검출하고;
    일련의 신호 펄스에서의 제1 특징적인 패턴에 기반하여 단일 폴리펩티드 분자에서 아미노산의 제1 유형을 확인하는 것
    을 포함하는 방법.
  153. 제152항에 있어서, 제1 특징적인 패턴이 일련의 신호 펄스의 적어도 일부분을 포함하는 것인 방법.
  154. 제153항에 있어서, 제1 특징적인 패턴의 신호 펄스가 아미노산 인식 분자 및 아미노산의 제1 유형 사이의 개별적인 회합 사건에 상응하는 것인 방법.
  155. 제154항에 있어서, 제1 특징적인 패턴의 신호 펄스가 아미노산 인식 분자 및 아미노산의 제1 유형 사이의 결합의 해리 속도의 특징인 펄스 지속기간을 포함하는 것인 방법.
  156. 제155항에 있어서, 제1 특징적인 패턴의 각각의 신호 펄스가 아미노산 인식 분자 결합의 회합 속도의 특징인 펄스간 지속기간에 의해 또 다른 것으로부터 분리되는 것인 방법.
  157. 제152항 내지 제156항 중 어느 한 항에 있어서, 제1 특징적인 패턴이 단일 폴리펩티드 분자에서의 아미노산의 제1 유형과의 일련의 가역적인 아미노산 인식 분자 결합 상호작용에 상응하는 것인 방법.
  158. 제157항에 있어서, 일련의 가역적인 아미노산 인식 분자 결합 상호작용이 단일 폴리펩티드 분자의 말단에서의 1개의 2원 복합체 종의 가역적인 형성을 포함하는 것인 방법.
  159. 제157항에 있어서, 일련의 가역적인 아미노산 인식 분자 결합 상호작용이 단일 폴리펩티드 분자의 말단에서의 상이한 2원 복합체 종의 가역적인 형성을 포함하는 것인 방법.
  160. 제152항 내지 제159항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 단일 폴리펩티드 분자의 말단 위치에 아미노산의 제1 유형을 포함하는 것인 방법.
  161. 제160항에 있어서, 제1 특징적인 패턴이 말단 위치에서의 아미노산의 제1 유형 및 인접 위치에서의 아미노산 유형을 지시하는 것인 방법.
  162. 제161항에 있어서, 말단 위치 및 인접 위치에서의 아미노산이 상이한 유형의 것인 방법.
  163. 제152항 내지 제162항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 단일 폴리펩티드 분자의 내부 위치에 아미노산의 제1 유형을 포함하는 것인 방법.
  164. 제160항 내지 제163항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 단일 폴리펩티드 분자의 말단 위치에 및 비-인접 내부 위치에 아미노산의 제1 유형을 포함하는 것인 방법.
  165. 제164항에 있어서, 제1 특징적인 패턴이 말단 위치에서의 아미노산의 제1 유형 및 비-인접 내부 위치에서의 아미노산 유형을 지시하는 것인 방법.
  166. 제164항 또는 제165항에 있어서, 제1 특징적인 패턴이 단일 폴리펩티드 분자에서의 아미노산의 제1 유형의 풍부도를 지시하는 것인 방법.
  167. 제152항 내지 제166항 중 어느 한 항에 있어서, 확인이 아미노산의 제1 유형을 천연 발생 아미노산, 비천연 아미노산, 또는 그의 변형된 변이체로서 확인하는 것을 포함하는 것인 방법.
  168. 제152항 내지 제167항 중 어느 한 항에 있어서, 확인이 아미노산의 제1 유형을 하전된, 비하전된, 극성, 비-극성, 소수성, 방향족, 또는 그의 조합인 측쇄를 갖는 것으로서 확인하는 것을 포함하는 것인 방법.
  169. 제168항에 있어서, 측쇄가 음으로 하전되거나 또는 양으로 하전된 것인 방법.
  170. 제152항 내지 제169항 중 어느 한 항에 있어서, 확인이 아미노산의 제1 유형을 알라닌, 아르기닌, 아스파라긴, 아스파르트산, 시스테인, 글루타민, 글루탐산, 글리신, 히스티딘, 이소류신, 류신, 리신, 메티오닌, 페닐알라닌, 프롤린, 셀레노시스테인, 세린, 트레오닌, 트립토판, 티로신, 및 발린으로부터 선택되는 하나의 유형으로서 확인하는 것을 포함하는 것인 방법.
  171. 제152항 내지 제170항 중 어느 한 항에 있어서, 확인이 아미노산의 제1 유형을 번역후 변형을 갖는 것으로서 확인하는 것을 포함하는 것인 방법.
  172. 제171항에 있어서, 번역후 변형이 아세틸화, ADP-리보실화, 카스파제 절단, 시트룰린화, 포르밀화, N-연결된 글리코실화, O-연결된 글리코실화, 히드록실화, 메틸화, 미리스토일화, 네딜화, 니트로화, 산화, 팔미토일화, 인산화, 프레닐화, S-니트로실화, 황산화, 수모일화, 및 유비퀴틴화로부터 선택되는 것인 방법.
  173. 제152항 내지 제172항 중 어느 한 항에 있어서, 일련의 신호 펄스가 시간 경과에 따른 광학 신호의 규모의 일련의 변화를 포함하는 것인 방법.
  174. 제173항에 있어서, 일련의 신호 펄스 각각이 복수개의 광자 방출 사건을 포함하는 것인 방법.
  175. 제174항에 있어서, 아미노산의 제1 유형을 확인하는 것이 발광 수명, 발광 휘도, 발광 강도, 발광 파장, 발광 편광, 및 발광 양자 수율 중 하나 이상을 결정하는 것을 추가로 포함하는 것인 방법.
  176. 제152항 내지 제175항 중 어느 한 항에 있어서, 일련의 신호 펄스가 시간 경과에 따른 전기 신호의 규모의 일련의 변화를 포함하는 것인 방법.
  177. 제176항에 있어서, 제1 특징적인 패턴이 가역적인 단일 분자 결합 상호작용에 상응하는 전도율 전이를 포함하는 것인 방법.
  178. 제152항 내지 제177항 중 어느 한 항에 있어서, 1개 이상의 아미노산 인식 분자의 각각이 인식 단백질 또는 인식 핵산을 포함하는 것인 방법.
  179. 제178항에 있어서, 인식 단백질이 분해 경로 단백질, 펩티다제, 항체, 아미노트랜스퍼라제, tRNA 신테타제, 또는 SH2 도메인-함유 단백질 또는 그의 단편인 방법.
  180. 제179항에 있어서, 분해 경로 단백질이 N-단부 규칙 경로 단백질, 또는 그의 돌연변이체 또는 변이체인 방법.
  181. 제180항에 있어서, N-단부 규칙 경로 단백질이 Arg/N-단부 규칙 경로 단백질, Ac/N-단부 규칙 경로 단백질, 또는 Pro/N-단부 규칙 경로 단백질인 방법.
  182. 제181항에 있어서, N-단부 규칙 경로 단백질이 Gid 단백질, UBR 박스 단백질 또는 그의 UBR 박스 도메인-함유 단편, p62 단백질 또는 그의 ZZ 도메인-함유 단편, 또는 ClpS 단백질인 방법.
  183. 제182항에 있어서, Gid 단백질이 에스. 세레비지아에 또는 그의 상동성 종으로부터의 Gid4 또는 Gid10인 방법.
  184. 제182항에 있어서, UBR 박스 단백질이 인간, 에스. 세레비지아에, 또는 그의 상동성 종으로부터의 UBR1 또는 UBR2인 방법.
  185. 제182항에 있어서, p62 단백질이 인간, 래트, 또는 그의 상동성 종으로부터의 p62인 방법.
  186. 제182항에 있어서, ClpS 단백질이 에이. 투미파시엔스, 씨. 크레센투스, 이. 콜라이, 에스. 엘론가투스, 피. 팔시파룸, 티. 엘론가투스, 또는 그의 상동성 종으로부터의 ClpS1 또는 ClpS2인 방법.
  187. 제178항 내지 제186항 중 어느 한 항에 있어서, 인식 단백질이 합성 단백질 또는 재조합 단백질인 방법.
  188. 제178항에 있어서, 인식 핵산이 핵산 압타머인 방법.
  189. 제152항 내지 제188항 중 어느 한 항에 있어서, 1개 이상의 아미노산 인식 분자의 각각이 검출가능한 표지를 포함하는 것인 방법.
  190. 제189항에 있어서, 검출가능한 표지가 발광 표지 또는 전도율 표지인 방법.
  191. 제152항 내지 제190항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 표면에 고정화된 것인 방법.
  192. 제191항에 있어서, 단일 폴리펩티드 분자가 하나의 말단을 통해 표면에 고정화되고, 1개 이상의 아미노산 인식 분자가 다른 말단에서 단일 폴리펩티드 분자에 결합하는 것인 방법.
  193. 제192항에 있어서, 단일 폴리펩티드 분자가 카르복시-말단을 통해 고정화되고, 1개 이상의 아미노산 인식 분자가 아미노-말단에서 단일 폴리펩티드 분자에 결합하는 것인 방법.
  194. 제192항에 있어서, 단일 폴리펩티드 분자가 아미노-말단을 통해 고정화되고, 1개 이상의 아미노산 인식 분자가 카르복시-말단에서 단일 폴리펩티드 분자에 결합하는 것인 방법.
  195. 제191항 내지 제194항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자가 링커를 통해 표면에 고정화된 것인 방법.
  196. 제195항에 있어서, 링커가 생체분자를 포함하고, 임의로 생체분자가 올리고뉴클레오티드인 방법.
  197. 제152항 내지 제196항 중 어느 한 항에 있어서, 단일 폴리펩티드 분자의 분해를 관찰하는 것을 추가로 포함하는 방법.
  198. 제152항 내지 제197항 중 어느 한 항에 있어서, 분해 조건이 단일 폴리펩티드 분자의 말단으로부터 1개 이상의 말단 아미노산을 제거할 수 있는 절단 시약의 존재 하에서 일련의 신호 펄스를 검출하는 것을 포함하는 것인 방법.
  199. 제198항에 있어서, 절단 시약과 단일 폴리펩티드 분자의 회합을 지시하는 신호 펄스를 검출하는 것을 추가로 포함하는 방법.
  200. 제198항 또는 제199항에 있어서, 절단 시약이 검출가능한 표지를 포함하는 것인 방법.
  201. 제200항에 있어서, 검출가능한 표지가 발광 표지 또는 전도율 표지인 방법.
  202. 제197항 내지 제201항 중 어느 한 항에 있어서, 일련의 신호 펄스에서의 제2 특징적인 패턴에 기반하여 단일 폴리펩티드 분자에서 아미노산의 제2 유형을 확인하는 것을 추가로 포함하는 방법.
  203. 제202항에 있어서, 신호 펄스의 제2 특징적인 패턴이 단일 폴리펩티드 분자로부터의 아미노산의 제1 유형의 제거를 지시하는 것인 방법.
  204. 제152항 내지 제203항 중 어느 한 항에 있어서, 일련의 신호 펄스가 일련의 실시간 신호 펄스인 방법.
  205. 하기를 포함하는 시스템:
    적어도 1개의 하드웨어 프로세서; 및
    적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 제152항 내지 제204항 중 어느 한 항의 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체.
  206. 적어도 1개의 하드웨어 프로세서에 의해 실행되는 경우, 적어도 1개의 하드웨어 프로세서가 제152항 내지 제204항 중 어느 한 항의 방법을 수행하도록 하는 프로세서-실행가능 명령을 저장하는 적어도 1개의 비-일시적 컴퓨터-판독가능 저장 매체.
  207. 화학식 (I)의 가용성 아미노산 인식 분자를 포함하는 조성물:
    A-(Y)n-D
    (I)
    여기서:
    A는 적어도 1개의 아미노산 인식 분자를 포함하는 아미노산 결합 성분이고;
    Y의 각각의 경우는 공유 또는 비-공유 연결기를 형성하는 중합체이고;
    n은 1 내지 10 (경계값 포함)의 정수이고;
    D는 적어도 1개의 검출가능한 표지를 포함하는 표지 성분이고, D는 200 Å 미만의 직경이다.
  208. 제207항에 있어서, -(Y)n-이 적어도 2 nm의 길이인 조성물.
  209. 제207항에 있어서, -(Y)n-이 적어도 5 nm의 길이인 조성물.
  210. 제207항에 있어서, -(Y)n-이 적어도 10 nm의 길이인 조성물.
  211. 제207항 내지 제210항 중 어느 한 항에 있어서, Y의 각각의 경우가 독립적으로 생체분자, 폴리올, 또는 덴드리머인 조성물.
  212. 제211항에 있어서, 생체분자가 핵산, 폴리펩티드, 또는 폴리사카라이드인 조성물.
  213. 제207항 내지 제212항 중 어느 한 항에 있어서, 가용성 아미노산 인식 분자가 하기 화학식 중 하나의 것인 조성물:
    A-Y1-(Y)m-D 또는 A-(Y)m-Y1-D
    여기서:
    Y1은 핵산 또는 폴리펩티드이고;
    m은 0 내지 10 (경계값 포함)의 정수이다.
  214. 제212항 또는 제213항에 있어서, 핵산이 제1 올리고뉴클레오티드 가닥을 포함하는 것인 조성물.
  215. 제214항에 있어서, 핵산이 제1 올리고뉴클레오티드 가닥과 혼성화된 제2 올리고뉴클레오티드 가닥을 포함하는 것인 조성물.
  216. 제214항 또는 제215항에 있어서, 핵산이 제1 올리고뉴클레오티드 가닥을 통해 공유 연결을 형성하는 것인 조성물.
  217. 제215항에 있어서, 핵산이 혼성화된 제1 및 제2 올리고뉴클레오티드 가닥을 통해 비-공유 연결을 형성하는 것인 조성물.
  218. 제212항 내지 제217항 중 어느 한 항에 있어서, 폴리펩티드가 1가 또는 다가 단백질인 조성물.
  219. 제218항에 있어서, 1가 또는 다가 단백질이 1가 또는 다가 단백질의 리간드-결합 부위에 부착된 리간드 모이어티를 통해 적어도 1개의 비-공유 연결을 형성하는 것인 조성물.
  220. 제219항에 있어서, A, Y, 또는 D가 리간드 모이어티를 포함하는 것인 조성물.
  221. 제207항 내지 제212항 중 어느 한 항에 있어서, 가용성 아미노산 인식 분자가 하기 화학식 중 하나의 것인 조성물:
    A-(Y)m-Y2-D 또는 A-Y2-(Y)m-D
    여기서:
    Y2는 폴리올 또는 덴드리머이고;
    m은 0 내지 10 (경계값 포함)의 정수이다.
  222. 제221항에 있어서, 폴리올 또는 덴드리머가 폴리에틸렌 글리콜, 테트라에틸렌 글리콜, 폴리(아미도아민), 폴리(프로필렌이민), 폴리(프로필렌아민), 카르보실란, 폴리(L-리신), 또는 이들 중 하나 이상의 조합을 포함하는 것인 조성물.
  223. 제207항 내지 제222항 중 어느 한 항에 있어서, A가 복수개의 아미노산 인식 분자를 포함하는 것인 조성물.
  224. 제223항에 있어서, 복수개 중 각각의 아미노산 인식 분자가 Y 상의 상이한 부착 부위에 부착되는 것인 조성물.
  225. 제223항에 있어서, 복수개 중 적어도 2개의 아미노산 인식 분자가 Y 상의 단일 부착 부위에 부착되는 것인 조성물.
  226. 제207항 내지 제225항 중 어느 한 항에 있어서, 아미노산 인식 분자가 인식 단백질 또는 핵산 압타머인 조성물.
  227. 제226항에 있어서, 인식 단백질이 분해 경로 단백질, 펩티다제, 항체, 아미노트랜스퍼라제, tRNA 신테타제, 또는 SH2 도메인-함유 단백질 또는 그의 단편인 조성물.
  228. 제227항에 있어서, 분해 경로 단백질이 N-단부 규칙 경로 단백질, 또는 그의 돌연변이체 또는 변이체인 조성물.
  229. 제228항에 있어서, N-단부 규칙 경로 단백질이 Arg/N-단부 규칙 경로 단백질, Ac/N-단부 규칙 경로 단백질, 또는 Pro/N-단부 규칙 경로 단백질인 조성물.
  230. 제229항에 있어서, N-단부 규칙 경로 단백질이 Gid 단백질, UBR 박스 단백질 또는 그의 UBR 박스 도메인-함유 단편, p62 단백질 또는 그의 ZZ 도메인-함유 단편, 또는 ClpS 단백질인 조성물.
  231. 제230항에 있어서, Gid 단백질이 에스. 세레비지아에 또는 그의 상동성 종으로부터의 Gid4 또는 Gid10인 조성물.
  232. 제230항에 있어서, UBR 박스 단백질이 인간, 에스. 세레비지아에, 또는 그의 상동성 종으로부터의 UBR1 또는 UBR2인 조성물.
  233. 제230항에 있어서, p62 단백질이 인간, 래트, 또는 그의 상동성 종으로부터의 p62인 조성물.
  234. 제230항에 있어서, ClpS 단백질이 에이. 투미파시엔스, 씨. 크레센투스, 이. 콜라이, 에스. 엘론가투스, 피. 팔시파룸, 티. 엘론가투스, 또는 그의 상동성 종으로부터의 ClpS1 또는 ClpS2인 조성물.
  235. 제207항 내지 제234항 중 어느 한 항에 있어서, 검출가능한 표지가 발광 표지 또는 전도율 표지인 조성물.
  236. 제235항에 있어서, 발광 표지가 적어도 1개의 형광단 염료 분자를 포함하는 것인 조성물.
  237. 제236항에 있어서, D가 20개 이하의 형광단 염료 분자를 포함하는 것인 조성물.
  238. 제236항 또는 제237항에 있어서, 형광단 염료 분자의 수 대 아미노산 인식 분자의 수의 비가 1:1 내지 20:1인 조성물.
  239. 제235항 내지 제238항 중 어느 한 항에 있어서, 발광 표지가 공여자 표지 및 수용자 표지를 포함하는 적어도 1개의 FRET 쌍을 포함하는 것인 조성물.
  240. 제239항에 있어서, 공여자 표지 대 수용자 표지의 비가 1:1, 2:1, 3:1, 4:1, 또는 5:1인 조성물.
  241. 제239항에 있어서, 수용자 표지 대 공여자 표지의 비가 1:1, 2:1, 3:1, 4:1, 또는 5:1인 조성물.
  242. 화학식 (II)의 아미노산 인식 분자:
    A-Y1-D
    (II)
    여기서:
    A는 적어도 1개의 아미노산 인식 분자를 포함하는 아미노산 결합 성분이고;
    Y1은 핵산 또는 폴리펩티드이고;
    D는 적어도 1개의 검출가능한 표지를 포함하는 표지 성분이며;
    단, Y1이 핵산인 경우, 핵산은 공유 또는 비-공유 연결기를 형성하고;
    단, Y1이 폴리펩티드인 경우, 폴리펩티드는 50 × 10-9 M 미만의 해리 상수 (KD)를 특징으로 하는 비-공유 연결기를 형성한다.
  243. 제242항에 있어서, -Y1-이 적어도 2 nm의 길이인 아미노산 인식 분자.
  244. 제242항에 있어서, -Y1-이 적어도 5 nm의 길이인 아미노산 인식 분자.
  245. 제242항에 있어서, -Y1-이 적어도 10 nm의 길이인 아미노산 인식 분자.
  246. 제242항 내지 제245항 중 어느 한 항에 있어서, 핵산이 제1 올리고뉴클레오티드 가닥을 포함하는 것인 아미노산 인식 분자.
  247. 제246항에 있어서, 핵산이 제1 올리고뉴클레오티드 가닥과 혼성화된 제2 올리고뉴클레오티드 가닥을 포함하는 것인 아미노산 인식 분자.
  248. 제247항에 있어서, A가 제1 올리고뉴클레오티드 가닥에 부착되고, D가 제2 올리고뉴클레오티드 가닥에 부착되는 것인 아미노산 인식 분자.
  249. 제246항 또는 제247항에 있어서, A가 제1 올리고뉴클레오티드 가닥 상의 제1 부착 부위에 부착되고, D가 제1 올리고뉴클레오티드 가닥 상의 제2 부착 부위에 부착되는 것인 아미노산 인식 분자.
  250. 제246항 내지 제249항 중 어느 한 항에 있어서, 핵산의 각각의 올리고뉴클레오티드 가닥이 150개 미만, 100개 미만, 또는 50개 미만의 뉴클레오티드를 포함하는 것인 아미노산 인식 분자.
  251. 제242항 내지 제250항 중 어느 한 항에 있어서, 폴리펩티드가 1가 또는 다가 단백질인 아미노산 인식 분자.
  252. 제251항에 있어서, 1가 또는 다가 단백질이 1가 또는 다가 단백질의 리간드-결합 부위에 부착된 리간드 모이어티를 통해 적어도 1개의 비-공유 연결을 형성하는 것인 아미노산 인식 분자.
  253. 제252항에 있어서, A 및 D 중 적어도 하나가 리간드 모이어티를 포함하는 것인 아미노산 인식 분자.
  254. 제242항 내지 제253항 중 어느 한 항에 있어서, 폴리펩티드가 아비딘 단백질인 아미노산 인식 분자.
  255. 제254항에 있어서, 아비딘 단백질이 아비딘, 스트렙타비딘, 트랍타비딘, 타마비딘, 브라다비딘, 크세나비딘, 또는 그의 동족체 또는 변이체인 아미노산 인식 분자.
  256. 제252항 내지 제255항 중 어느 한 항에 있어서, 리간드 모이어티가 비오틴 모이어티인 아미노산 인식 분자.
  257. 제242항 내지 제256항 중 어느 한 항에 있어서, KD가 1 × 10-9 M 미만, 1 × 10-10 M 미만, 1 × 10-11 M 미만, 또는 1 × 10-12 M 미만인 아미노산 인식 분자.
  258. 제242항 내지 제257항 중 어느 한 항에 있어서, 아미노산 인식 분자가 하기 화학식 중 하나의 것인 아미노산 인식 분자:
    A-Y1-(Y)n-D 또는 A-(Y)n-Y1-D
    여기서:
    Y의 각각의 경우는 공유 또는 비-공유 연결기를 형성하는 중합체이고;
    n은 1 내지 10 (경계값 포함)의 정수이다.
  259. 제258항에 있어서, Y의 각각의 경우가 독립적으로 생체분자, 폴리올, 또는 덴드리머인 아미노산 인식 분자.
  260. 핵산;
    핵산 상의 제1 부착 부위에 부착된 적어도 1개의 아미노산 인식 분자; 및
    핵산 상의 제2 부착 부위에 부착된 적어도 1개의 검출가능한 표지
    를 포함하며,
    여기서 핵산이 적어도 1개의 아미노산 인식 분자 및 적어도 1개의 검출가능한 표지 사이에 공유 또는 비-공유 연결기를 형성하는 것인
    아미노산 인식 분자.
  261. 제260항에 있어서, 핵산이 제2 올리고뉴클레오티드 가닥과 혼성화된 제1 올리고뉴클레오티드 가닥을 포함하는 이중-가닥 핵산인 아미노산 인식 분자.
  262. 제261항에 있어서, 제1 부착 부위가 제1 올리고뉴클레오티드 가닥 상에 있고, 제2 부착 부위가 제2 올리고뉴클레오티드 가닥 상에 있는 것인 아미노산 인식 분자.
  263. 제260항 내지 제262항 중 어느 한 항에 있어서, 적어도 1개의 아미노산 인식 분자가 적어도 1개의 아미노산 인식 분자 및 핵산 사이에 공유 또는 비-공유 연결기를 형성하는 단백질을 통해 제1 부착 부위에 부착되는 것인 아미노산 인식 분자.
  264. 제260항 내지 제263항 중 어느 한 항에 있어서, 적어도 1개의 검출가능한 표지가 적어도 1개의 검출가능한 표지 및 핵산 사이의 공유 또는 비-공유 연결기를 형성하는 단백질을 통해 제2 부착 부위에 부착되는 것인 아미노산 인식 분자.
  265. 제260항 내지 제264항 중 어느 한 항에 있어서, 제1 및 제2 부착 부위가 핵산 상의 5 내지 100개의 뉴클레오티드 염기 또는 뉴클레오티드 염기 쌍에 의해 분리되는 것인 아미노산 인식 분자.
  266. 적어도 2개의 리간드-결합 부위를 포함하는 다가 단백질;
    단백질 상의 제1 리간드-결합 부위에 결합된 제1 리간드 모이어티를 통해 단백질에 부착된 적어도 1개의 아미노산 인식 분자; 및
    단백질 상의 제2 리간드-결합 부위에 결합된 제2 리간드 모이어티를 통해 단백질에 부착된 적어도 1개의 검출가능한 표지
    를 포함하는 아미노산 인식 분자.
  267. 제266항에 있어서, 다가 단백질이 4개의 리간드-결합 부위를 포함하는 아비딘 단백질인 아미노산 인식 분자.
  268. 제266항 또는 제267항에 있어서, 리간드-결합 부위가 비오틴 결합 부위이고, 리간드 모이어티가 비오틴 모이어티인 아미노산 인식 분자.
  269. 제268항에 있어서, 비오틴 모이어티 중 적어도 하나가 비스-비오틴 모이어티이고, 비스-비오틴 모이어티가 아비딘 단백질 상의 2개의 비오틴 결합 부위에 결합되는 것인 아미노산 인식 분자.
  270. 제266항 내지 제269항 중 어느 한 항에 있어서, 적어도 1개의 아미노산 인식 분자가 제1 리간드 모이어티를 포함하는 핵산을 통해 단백질에 부착되는 것인 아미노산 인식 분자.
  271. 제266항 내지 제270항 중 어느 한 항에 있어서, 적어도 1개의 검출가능한 표지가 제2 리간드 모이어티를 포함하는 핵산을 통해 단백질에 부착되는 것인 아미노산 인식 분자.
  272. 폴리펩티드의 말단 아미노산을 확인하는 방법으로서:
    폴리펩티드를 폴리펩티드의 말단에서 말단 아미노산의 1개 이상의 유형에 선택적으로 결합하는 1개 이상의 표지된 친화도 시약과 접촉시키고;
    폴리펩티드와 1개 이상의 표지된 친화도 시약의 상호작용을 검출함으로써 폴리펩티드의 말단에서 말단 아미노산을 확인하는 것
    을 포함하는 방법.
  273. 폴리펩티드의 아미노산 서열을 결정하는 방법으로서:
    i. 폴리펩티드를 폴리펩티드의 말단에서의 말단 아미노산의 1개 이상의 유형에 선택적으로 결합하는 1개 이상의 표지된 친화도 시약과 접촉시키고;
    ii. 폴리펩티드와 1개 이상의 표지된 친화도 시약의 상호작용을 검출함으로써 폴리펩티드의 말단에서 말단 아미노산을 확인하고;
    iii. 말단 아미노산을 제거하고;
    iv. (i) 내지 (iv)를 폴리펩티드의 말단에서 1회 이상 반복하여 폴리펩티드의 아미노산 서열을 결정하는 것
    을 포함하는 방법.
  274. 제273항에 있어서, 방법이
    a. (i) 후에 및 (ii) 전에, 말단 아미노산에 선택적으로 결합하지 않는 1개 이상의 표지된 친화도 시약 중 임의의 것을 제거하는 것; 및/또는
    b. (ii) 후에 및 (iii) 전에, 말단 아미노산에 선택적으로 결합하는 1개 이상의 표지된 친화도 시약 중 임의의 것을 제거하는 것
    을 추가로 포함하는 것인 방법.
  275. 제273항에 있어서, (iii)이 말단 아미노산을 이소티오시아네이트와 접촉시킴으로써 말단 아미노산을 변형시키고;
    a. 변형된 말단 아미노산을 변형된 말단 아미노산에 특이적으로 결합하고 이를 제거하는 프로테아제와 접촉시키는 것; 또는
    b. 변형된 말단 아미노산을 변형된 말단 아미노산을 제거하는데 충분한 산성 또는 염기성 조건으로 처리하는 것
    을 포함하는 것인 방법.
  276. 제273항에 있어서, 말단 아미노산을 확인하는 것이
    a. 말단 아미노산을 1개 이상의 표지된 친화도 시약이 결합하는 말단 아미노산의 1개 이상의 유형 중 하나의 유형인 것으로서 확인하는 것; 또는
    b. 말단 아미노산을 1개 이상의 표지된 친화도 시약이 결합하는 말단 아미노산의 1개 이상의 유형 이외의 유형인 것으로서 확인하는 것
    을 포함하는 것인 방법.
  277. 제273항에 있어서, 1개 이상의 표지된 친화도 시약이 1개 이상의 표지된 압타머, 1개 이상의 표지된 펩티다제, 1개 이상의 표지된 항체, 또는 그의 조합을 포함하는 것인 방법.
  278. 제277항에 있어서, 1개 이상의 표지된 펩티다제가 절단 활성을 불활성화시키도록 변형되었거나, 또는 1개 이상의 표지된 펩티다제가 (iii)의 제거를 위한 절단 활성을 보유하는 것인 방법.
  279. 혼합된 샘플에서 관심의 단백질을 확인하는 방법으로서:
    혼합된 단백질 샘플을 절단하여 복수개의 폴리펩티드 단편을 생성하고;
    제273항 내지 제278항 중 어느 한 항에 따른 방법에서 복수개 중 적어도 1개의 폴리펩티드 단편의 아미노산 서열을 결정하고;
    아미노산 서열이 관심의 단백질에 대해 고유하게 확인가능한 경우, 혼합된 샘플에서 관심의 단백질을 확인하는 것
    을 포함하는 방법.
  280. 혼합된 샘플에서 관심의 단백질을 확인하는 방법으로서:
    혼합된 단백질 샘플을 절단하여 복수개의 폴리펩티드 단편을 생성하고;
    복수개의 폴리펩티드 단편에서 아미노산의 1개 이상의 유형을 1개 이상의 상이한 발광 표지로 표지하고;
    복수개 중 적어도 1개의 표지된 폴리펩티드에 대해 시간 경과에 따라 발광을 측정하고;
    검출된 발광에 기반하여 적어도 1개의 표지된 폴리펩티드의 아미노산 서열을 결정하고;
    아미노산 서열이 관심의 단백질에 대해 고유하게 확인가능한 경우, 혼합된 샘플에서 관심의 단백질을 확인하는 것
    을 포함하는 방법.
  281. 폴리펩티드에서 2개 이상의 아미노산의 상대 위치를 확인하는 방법으로서:
    폴리펩티드의 2개 이상의 아미노산을 제1 FRET 표지의 1개 이상의 유형으로 표지하고;
    제2 FRET 표지로 표지된 보조인자의 존재 하에서 표지된 폴리펩티드의 전위 반응으로부터의 FRET 신호를 검출하고;
    FRET 신호에 기반하여 2개 이상의 아미노산의 상대 위치를 결정하는 것
    을 포함하는 방법.
  282. 분석용 단백질을 제조하는 방법으로서:
    i. 단백질의 유리 카르복실레이트 기를 차단하고;
    ii. 단백질을 변성시키고;
    iii. 단백질의 유리 티올 기를 차단하고;
    iv. 단백질을 소화시켜 유리 C-말단 카르복실레이트 기를 포함하는 적어도 1개의 폴리펩티드 단편을 생성하고;
    v. 관능성 모이어티를 유리 C-말단 카르복실레이트 기에 화학적으로 접합시키는 것
    을 포함하는 방법.
  283. 분석용 단백질을 제조하는 방법으로서:
    i. 단백질을 변성시키고;
    ii. 단백질의 유리 티올 기를 차단하고;
    iii. 단백질을 소화시켜 유리 C-말단 카르복실레이트 기를 포함하는 적어도 1개의 폴리펩티드 단편을 생성하고;
    iv. 유리 C-말단 카르복실레이트 기를 차단하여 차단된 C-말단 카르복실레이트 기를 포함하는 적어도 1개의 폴리펩티드 단편을 생성하고;
    v. 관능성 모이어티를 차단된 C-말단 카르복실레이트 기에 효소적으로 접합시키는 것
    을 포함하는 방법.
KR1020217017806A 2018-11-15 2019-11-15 단백질 시퀀싱을 위한 방법 및 조성물 KR20210091243A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862768076P 2018-11-15 2018-11-15
US62/768,076 2018-11-15
US201962907507P 2019-09-27 2019-09-27
US62/907,507 2019-09-27
PCT/US2019/061831 WO2020102741A1 (en) 2018-11-15 2019-11-15 Methods and compositions for protein sequencing

Publications (1)

Publication Number Publication Date
KR20210091243A true KR20210091243A (ko) 2021-07-21

Family

ID=68841224

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217017806A KR20210091243A (ko) 2018-11-15 2019-11-15 단백질 시퀀싱을 위한 방법 및 조성물

Country Status (11)

Country Link
US (6) US20200219590A1 (ko)
EP (1) EP3881078A1 (ko)
JP (1) JP2022507516A (ko)
KR (1) KR20210091243A (ko)
CN (1) CN113287020A (ko)
AU (1) AU2019380606A1 (ko)
BR (1) BR112021008098A2 (ko)
CA (1) CA3117889A1 (ko)
MX (1) MX2021005757A (ko)
TW (1) TW202032125A (ko)
WO (1) WO2020102741A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423387A (zh) * 2023-12-18 2024-01-19 中国科学院水生生物研究所 基于数字驱动的水生生物群落时空差异的评估方法及系统

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9625469B2 (en) 2011-06-23 2017-04-18 Board Of Regents, The University Of Texas System Identifying peptides at the single molecule level
US11435358B2 (en) 2011-06-23 2022-09-06 Board Of Regents, The University Of Texas System Single molecule peptide sequencing
US10545153B2 (en) 2014-09-15 2020-01-28 Board Of Regents, The University Of Texas System Single molecule peptide sequencing
CN110582576B (zh) 2017-05-05 2024-04-12 宽腾矽公司 在生物学反应中具有改性的表面反应性和抗污性的基板
GB201715684D0 (en) * 2017-09-28 2017-11-15 Univ Gent Means and methods for single molecule peptide sequencing
CA3117889A1 (en) 2018-11-15 2020-05-22 Quantum-Si Incorporated Methods and compositions for protein sequencing
CA3124957A1 (en) 2019-01-08 2020-07-16 Massachusetts Institute Of Technology Single-molecule protein and peptide sequencing
CN115989545A (zh) * 2019-06-12 2023-04-18 宽腾矽公司 使用机器学习和相关系统和方法进行蛋白质识别的技术
US11346842B2 (en) 2019-06-20 2022-05-31 Massachusetts Institute Of Technology Single molecule peptide sequencing methods
WO2021072245A1 (en) 2019-10-11 2021-04-15 Quantum-Si Incorporated Surface modification in the vapor phase
TW202145595A (zh) 2020-01-14 2021-12-01 美商寬騰矽公司 用於壽命及光譜特性分析之感應器
TW202147591A (zh) 2020-03-02 2021-12-16 美商寬騰矽公司 用於多維信號分析之整合感應器
US20210396762A1 (en) * 2020-06-19 2021-12-23 Encodia, Inc. Methods for peptide analysis employing multi-component detection agent and related kits
WO2022061310A1 (en) * 2020-09-21 2022-03-24 Quantum-Si Incorporated Methods to minimize photodamage during nucleic acid and peptide sequencing
WO2022147334A1 (en) * 2020-12-31 2022-07-07 Encodia, Inc. Metalloenzymes for biomolecular recognition of n-terminal modified peptides
WO2022236190A1 (en) * 2021-05-07 2022-11-10 Government Of The United States Of America, As Represented By The Secretary Of Commerce Amino acid-specific binder and selectively identifying an amino acid
WO2022261607A1 (en) * 2021-06-09 2022-12-15 Quantapore, Inc. Polypeptide sequencing and fingerprinting
WO2023091961A2 (en) * 2021-11-17 2023-05-25 Erisyon Inc. Methods and systems for automated sample processing
CN114199848B (zh) * 2021-12-17 2023-01-17 无锡佰翱得生物科学有限公司 一种基于蛋白连接酶的高通量检测蛋白表达的方法
US20230213527A1 (en) * 2021-12-22 2023-07-06 Quantum-Si Incorporated Compositions and methods for polypeptide analysis
US20230221330A1 (en) * 2022-01-12 2023-07-13 Quantum-Si Incorporated Labeled binding reagents and methods of use thereof

Family Cites Families (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4435728A1 (de) 1994-01-19 1995-07-20 Boehringer Mannheim Gmbh Biotinsilan-Verbindungen und diese Verbindungen enthaltende Bindematrix
US5654419A (en) 1994-02-01 1997-08-05 The Regents Of The University Of California Fluorescent labels and their use in separations
DE19782089T1 (de) 1996-10-29 1999-12-23 Univ Nebraska At Lincoln Linco Verfahren zum Nachweisen von Punktmutationen in DNA unter Verwendung von Fluoreszenzenergieübergang
US6153442A (en) 1998-05-20 2000-11-28 Dade Behring Inc. Reagents and methods for specific binding assays
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
EP1141409B2 (en) 1998-12-14 2009-05-27 Pacific Biosciences of California, Inc. A kit and methods for nucleic acid sequencing of single molecules by polymerase synthesis
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
US6936702B2 (en) 2000-06-07 2005-08-30 Li-Cor, Inc. Charge-switch nucleotides
US6869764B2 (en) 2000-06-07 2005-03-22 L--Cor, Inc. Nucleic acid sequencing using charge-switch nucleotides
CA2314398A1 (en) 2000-08-10 2002-02-10 Edward Shipwash Microarrays and microsystems for amino acid analysis and protein sequencing
US20060014212A1 (en) 2002-05-10 2006-01-19 Epitome Biosystems, Inc. Proteome epitope tags and methods of use thereof in protein modification analysis
CN1726394B (zh) * 2002-10-15 2010-10-13 阿伯麦特里科斯公司 针对短表位的数字化抗体组以及其使用方法
US7745116B2 (en) 2003-04-08 2010-06-29 Pacific Biosciences Of California, Inc. Composition and method for nucleic acid sequencing
US20100035254A1 (en) 2003-04-08 2010-02-11 Pacific Biosciences Of California, Inc. Composition and method for nucleic acid sequencing
GB0324456D0 (en) 2003-10-20 2003-11-19 Isis Innovation Parallel DNA sequencing methods
EP1725572B1 (de) 2003-11-05 2017-05-31 AGCT GmbH Makromolekulare nukleotidverbindungen und methoden zu deren anwendung
JP4552023B2 (ja) 2003-11-07 2010-09-29 独立行政法人科学技術振興機構 多環縮環型π共役有機材料、その合成中間体、多環縮環型π共役有機材料の製造方法、および多環縮環型π共役有機材料の合成中間体の製造方法
CA2693280C (en) 2004-04-09 2017-09-12 Monsanto Technology Llc Compositions and methods for control of insect infestations in plants
US7462452B2 (en) 2004-04-30 2008-12-09 Pacific Biosciences Of California, Inc. Field-switch sequencing
CA2496294A1 (en) 2005-02-07 2006-08-07 The University Of British Columbia Apparatus and methods for concentrating and separating particles such as molecules
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
WO2007070542A2 (en) 2005-12-12 2007-06-21 The Government Of The United States Of America As Represented By The Secretary Of The Deptartment Ofhealth And Human Services Nanoprobes for detection or modification of molecules
WO2007123708A2 (en) 2006-03-31 2007-11-01 Epitome Biosystems, Inc. Post translational modification pattern analysis
US8084734B2 (en) 2006-05-26 2011-12-27 The George Washington University Laser desorption ionization and peptide sequencing on laser induced silicon microcolumn arrays
AU2007284651B2 (en) 2006-08-09 2014-03-20 Institute For Systems Biology Organ-specific proteins and methods of their use
US8617811B2 (en) 2008-01-28 2013-12-31 Complete Genomics, Inc. Methods and compositions for efficient base calling in sequencing reactions
DE602008000796D1 (de) 2008-01-15 2010-04-22 Univ Utrecht Holding Bv Verfahren zur Bestimmung der Aminosäurensequenz von Peptiden
US7968702B2 (en) 2008-03-13 2011-06-28 Pacific Biosciences Of California, Inc. Labeled reactants and their uses
EP3170904B1 (en) 2008-03-28 2017-08-16 Pacific Biosciences Of California, Inc. Compositions and methods for nucleic acid sequencing
US8999676B2 (en) 2008-03-31 2015-04-07 Pacific Biosciences Of California, Inc. Recombinant polymerases for improved single molecule sequencing
AU2009251881B2 (en) * 2008-03-31 2015-03-26 Pacific Biosciences Of California, Inc Single molecule loading methods and compositions
EP2271751B1 (en) 2008-03-31 2015-07-22 Pacific Biosciences of California, Inc. Generation of modified polymerases for improved accuracy in single molecule sequencing
US8420366B2 (en) 2008-03-31 2013-04-16 Pacific Biosciences Of California, Inc. Generation of modified polymerases for improved accuracy in single molecule sequencing
WO2010044892A1 (en) 2008-10-17 2010-04-22 President And Fellows Of Harvard College Diagnostic method based on large scale identification of post-translational modification of proteins
US8252910B2 (en) 2008-11-19 2012-08-28 Pacific Biosciences Of California, Inc. Modular nucleotide compositions and uses therefor
CA2745197A1 (en) * 2008-12-01 2010-06-10 Research Triangle Institute Concurrent identification of multitudes of polypeptides
WO2010065531A1 (en) 2008-12-01 2010-06-10 Robi David Mitra Single molecule protein screening
KR101063981B1 (ko) 2009-01-12 2011-09-14 서강대학교산학협력단 자유 라디칼 개시제 및 이를 이용한 펩타이드 서열의 동정방법
DE102009013653B4 (de) 2009-03-18 2014-09-18 Bruker Daltonik Gmbh Protein-Sequenzierung mit MALDI-Massenspektrometrie
US8603792B2 (en) 2009-03-27 2013-12-10 Life Technologies Corporation Conjugates of biomolecules to nanoparticles
WO2010117420A2 (en) 2009-03-30 2010-10-14 Pacific Biosciences Of California, Inc. Fret-labeled compounds and uses therefor
EP3514244B1 (en) 2009-04-03 2021-07-07 Sequenom, Inc. Nucleic acid preparation methods
US9566335B1 (en) * 2009-09-25 2017-02-14 The Governing Council Of The University Of Toronto Protein sequencing method and reagents
EP2566985A4 (en) 2010-05-06 2014-08-06 Ibis Biosciences Inc INTEGRATED SAMPLE PREPARATION SYSTEMS AND MIXTURES OF STABILIZED ENZYMES
WO2012129242A2 (en) 2011-03-23 2012-09-27 Pacific Biosciences Of California, Inc. Isolation of polymerase-nucleic acid complexes and loading onto substrates
WO2013112745A1 (en) 2012-01-24 2013-08-01 The Regents Of The University Of Colorado, A Body Corporate Peptide identification and sequencing by single-molecule detection of peptides undergoing degradation
EP2814953B1 (en) 2012-02-15 2017-06-07 Pacific Biosciences Of California, Inc. Polymerase enzyme substrates with protein shield
EP3406347A3 (en) 2012-02-27 2019-02-13 Amunix Operating Inc. Xten conjugate compositions and methods of making same
SG11201500045RA (en) 2012-07-11 2015-02-27 Amunix Operating Inc Factor viii complex with xten and von willebrand factor protein, and uses thereof
NL2009191C2 (en) 2012-07-16 2014-01-20 Univ Delft Tech Single molecule protein sequencing.
US9435810B2 (en) 2013-03-15 2016-09-06 Washington University Molecules and methods for iterative polypeptide analysis and processing
CN105308073B (zh) 2013-06-14 2019-08-13 加利福尼亚太平洋生物科学股份有限公司 双生物素化标签
US10544449B2 (en) 2013-06-14 2020-01-28 Pacific Biosciences Of California, Inc. Bis-biotinylation tags
DK3011051T3 (en) 2013-06-21 2019-04-23 Sequenom Inc Method for non-invasive evaluation of genetic variations
US9957291B2 (en) 2013-08-05 2018-05-01 Pacific Biosciences Of California, Inc. Protected fluorescent reagent compounds
WO2015074005A1 (en) 2013-11-17 2015-05-21 Quantum-Si Incorporated Active-source-pixel, integrated device for rapid analysis of biological and chemical speciments
CN111710687B (zh) 2014-08-08 2023-11-14 宽腾矽公司 基于入射光子到达时间的识别、成像、测序法及存储介质
JP6930911B2 (ja) 2014-08-08 2021-09-01 クアンタム−エスアイ インコーポレイテッドQuantum−Si Incorporated 分子の探索、検出、および解析のための外部光源を備える集積装置
US10545153B2 (en) 2014-09-15 2020-01-28 Board Of Regents, The University Of Texas System Single molecule peptide sequencing
US10150872B2 (en) 2015-02-04 2018-12-11 Pacific Biosciences Of California, Inc. Multimeric protected fluorescent reagents
WO2016164530A1 (en) 2015-04-07 2016-10-13 University Of Maryland, College Park Compositions and methods for high throughput protein sequencing
US10246742B2 (en) 2015-05-20 2019-04-02 Quantum-Si Incorporated Pulsed laser and bioanalytic system
WO2016193980A1 (en) 2015-06-03 2016-12-08 Bar Ilan University Methods and kits for detection and quantification of large-scale post translational modifications of proteins
US10190158B2 (en) 2015-08-06 2019-01-29 Pacific Biosciences Of California, Inc. Systems and methods for selectively addressing sparsely arranged electronic measurement devices
EP3371194B1 (en) 2015-10-16 2020-12-30 Andrew Emili Protein sequencing method
WO2017087702A1 (en) 2015-11-18 2017-05-26 Pacific Biosciences Of California, Inc. Loading nucleic acids onto substrates
US10676788B2 (en) 2015-11-20 2020-06-09 Pacific Biosciences Of California, Inc. Modified nucleotide reagents
DK3452591T3 (da) * 2016-05-02 2023-09-18 Encodia Inc Makromolekyleanalyse under anvendelse af nukleinsyrekodning
US10309968B2 (en) 2016-05-18 2019-06-04 Bioinformatics Solutions Inc. Methods and systems for assembly of protein sequences
WO2018045186A1 (en) 2016-08-31 2018-03-08 President And Fellows Of Harvard College Methods of combining the detection of biomolecules into a single assay using fluorescent in situ sequencing
MX2019007069A (es) 2016-12-16 2019-08-01 Quantum Si Inc Ensamblaje de conformacion y direccion de haz compacto.
EP4141416A3 (en) 2016-12-16 2023-06-07 Quantum-si Incorporated Integrated device and method of forming the same
BR112019012540A2 (pt) 2016-12-22 2019-11-12 Quantum-Si Incorporated fotodetector integrado com pixel de acondicionamento direto
US11072816B2 (en) 2017-05-03 2021-07-27 The Broad Institute, Inc. Single-cell proteomic assay using aptamers
CN110582576B (zh) 2017-05-05 2024-04-12 宽腾矽公司 在生物学反应中具有改性的表面反应性和抗污性的基板
US11237326B2 (en) 2017-07-24 2022-02-01 Quantum-Si Incorporated Optical rejection photonic structures using two spatial filters
AU2018308098A1 (en) 2017-07-24 2020-01-30 Quantum-Si Incorporated High intensity labeled reactant compositions and methods for sequencing
WO2019040825A1 (en) 2017-08-24 2019-02-28 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services CONFORMATIONAL RESTRICTION OF CYANINE FLUOROPHORES IN A FAR RED RANGE AND CLOSE INFRARED
US10908820B2 (en) 2017-09-14 2021-02-02 Samsung Electronics Co., Ltd. Host-based and client-based command scheduling in large bandwidth memory systems
GB201715684D0 (en) * 2017-09-28 2017-11-15 Univ Gent Means and methods for single molecule peptide sequencing
WO2019089846A1 (en) 2017-10-31 2019-05-09 Encodia, Inc. Methods and compositions for polypeptide analysis
CA3081441C (en) 2017-10-31 2023-08-29 Encodia, Inc. Kits for analysis using nucleic acid encoding and/or label
US11841371B2 (en) 2018-03-13 2023-12-12 The Broad Institute, Inc. Proteomics and spatial patterning using antenna networks
CN112513269A (zh) 2018-07-12 2021-03-16 德克萨斯大学系统董事会 通过寡核苷酸进行分子邻域检测
EP3827093A4 (en) 2018-07-23 2022-10-05 Board of Regents, The University of Texas System IDENTIFICATION BY SINGLE MOLECULE SEQUENCING OF POST-TRANSLATIONAL MODIFICATIONS ON PROTEINS
SG11202100740YA (en) 2018-08-17 2021-02-25 Regeneron Pharma Methods for de novo protein sequencing
GB2593091B (en) 2018-10-05 2023-12-20 Univ Texas Solid-phase N-terminal peptide capture and release
US10836798B2 (en) 2018-11-08 2020-11-17 Government Of The United States Of America, As Represented By The Secretary Of Commerce Amino acid-specific binder and selectively identifying an amino acid
CA3117889A1 (en) 2018-11-15 2020-05-22 Quantum-Si Incorporated Methods and compositions for protein sequencing
CA3124957A1 (en) 2019-01-08 2020-07-16 Massachusetts Institute Of Technology Single-molecule protein and peptide sequencing
WO2020154307A1 (en) 2019-01-22 2020-07-30 Singular Genomics Systems, Inc. Polynucleotide barcodes for multiplexed proteomics
EP3941631A4 (en) 2019-03-22 2022-12-14 Augmenta Bioworks, Inc. ISOLATION OF SINGLE CELLS AND THEIR USES
GB201904697D0 (en) 2019-04-03 2019-05-15 Vib Vzw Means and methods for single molecule peptide sequencing
EP3958727A4 (en) 2019-04-23 2023-05-03 Encodia, Inc. METHODS FOR SPATIAL ANALYSIS OF PROTEINS AND RELATED KITS
WO2020243643A1 (en) 2019-05-31 2020-12-03 President And Fellows Of Harvard College Systems and methods for ms1-based mass identification including super-resolution techniques
CN115989545A (zh) 2019-06-12 2023-04-18 宽腾矽公司 使用机器学习和相关系统和方法进行蛋白质识别的技术
US11346842B2 (en) 2019-06-20 2022-05-31 Massachusetts Institute Of Technology Single molecule peptide sequencing methods
CA3149852A1 (en) 2019-09-13 2021-03-18 Lauren Schiff Methods and compositions for protein and peptide sequencing
CN114929888A (zh) 2019-10-28 2022-08-19 宽腾矽公司 制备用于多重多肽测序的样品的方法、试剂盒和装置
US20210148921A1 (en) 2019-10-28 2021-05-20 Quantum-Si Incorporated Methods of preparing an enriched sample for polypeptide sequencing
US20210139973A1 (en) 2019-10-28 2021-05-13 Quantum-Si Incorporated Methods of single-cell polypeptide sequencing
BR112022007937A2 (pt) 2019-10-28 2022-08-30 Quantum Si Inc Métodos de sequenciamento e reconstrução de um único polipeptídeo
GB201918108D0 (en) 2019-12-10 2020-01-22 Vib Vzw Improved aminopeptiadases for single molecule peptide sequencing
US20210354134A1 (en) 2020-04-22 2021-11-18 Quantum-Si Incorporated Sample preparation for sequencing
JP2023527764A (ja) * 2020-05-20 2023-06-30 クアンタム-エスアイ インコーポレイテッド タンパク質シーケンスのための方法及び組成物
US20210396762A1 (en) 2020-06-19 2021-12-23 Encodia, Inc. Methods for peptide analysis employing multi-component detection agent and related kits

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423387A (zh) * 2023-12-18 2024-01-19 中国科学院水生生物研究所 基于数字驱动的水生生物群落时空差异的评估方法及系统

Also Published As

Publication number Publication date
WO2020102741A8 (en) 2020-06-18
JP2022507516A (ja) 2022-01-18
EP3881078A1 (en) 2021-09-22
WO2020102741A1 (en) 2020-05-22
US20200209256A1 (en) 2020-07-02
BR112021008098A2 (pt) 2021-08-10
US20200209253A1 (en) 2020-07-02
MX2021005757A (es) 2021-08-11
US11959920B2 (en) 2024-04-16
TW202032125A (zh) 2020-09-01
CN113287020A (zh) 2021-08-20
US20200209254A1 (en) 2020-07-02
US20200209255A1 (en) 2020-07-02
US20200219590A1 (en) 2020-07-09
US20200209257A1 (en) 2020-07-02
CA3117889A1 (en) 2020-05-22
US20200209249A1 (en) 2020-07-02
AU2019380606A1 (en) 2021-05-27

Similar Documents

Publication Publication Date Title
KR20210091243A (ko) 단백질 시퀀싱을 위한 방법 및 조성물
US20210364527A1 (en) Methods and compositions for protein sequencing
CN114929887A (zh) 单个多肽测序和重建的方法
CN114929888A (zh) 制备用于多重多肽测序的样品的方法、试剂盒和装置
CN114981448A (zh) 单细胞蛋白质和核酸测序的方法
US12000835B2 (en) Methods and compositions for protein sequencing
US20230221253A1 (en) Techniques for sequencing
US20220186295A1 (en) Molecular Barcode Analysis by Single-Molecule Kinetics
US20230221330A1 (en) Labeled binding reagents and methods of use thereof
US20240151729A1 (en) Luminescently labeled oligonucleotide structures and associated systems and methods

Legal Events

Date Code Title Description
A201 Request for examination