KR20240074839A - 단백질 및 프로테옴의 고도로 다중화 가능한 분석 - Google Patents

단백질 및 프로테옴의 고도로 다중화 가능한 분석 Download PDF

Info

Publication number
KR20240074839A
KR20240074839A KR1020247014701A KR20247014701A KR20240074839A KR 20240074839 A KR20240074839 A KR 20240074839A KR 1020247014701 A KR1020247014701 A KR 1020247014701A KR 20247014701 A KR20247014701 A KR 20247014701A KR 20240074839 A KR20240074839 A KR 20240074839A
Authority
KR
South Korea
Prior art keywords
binding
protein
proteins
probability
candidate
Prior art date
Application number
KR1020247014701A
Other languages
English (en)
Inventor
자렛 디 에게르트슨
제임스 셔먼
바딤 로바노프
파라그 말릭
엘리스 앤더슨
Original Assignee
노틸러스 서브시디어리, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노틸러스 서브시디어리, 인크. filed Critical 노틸러스 서브시디어리, 인크.
Publication of KR20240074839A publication Critical patent/KR20240074839A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B30/00Methods of screening libraries
    • C40B30/04Methods of screening libraries by measuring the ability to specifically bind a target molecule, e.g. antibody-antigen binding, receptor-ligand binding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries

Abstract

현존 단백질을 확인하는 방법으로서, (a) (i) 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하는 결합 프로필로서, 복수의 결합 결과의 개별 결합 결과는 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하는 것인 결합 프로필, (ii) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스, 및 (iii) 결합 모델을 포함하는 입력을 제공하는 단계; (b) 결합 모델에 따른 데이터베이스 내의 각각의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계; 및 (c) 현존 단백질을 현존 단백질에 대한 결합 프로필과 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 선택된 후보 단백질로서 확인하는 단계를 포함하는, 현존 단백질을 확인하는 방법이 본원에 개시된다.

Description

단백질 및 프로테옴의 고도로 다중화 가능한 분석
관련 출원에 대한 상호 참조
본 출원은 2021년 10월 11일에 출원된 미국 가출원 번호 63/254,420에 대한 우선권을 주장하며, 이 출원은 전체가 참조로 본원에 포함된다.
기술분야
일부 실시양태는 단백질 결합 검정을 수행하는 방법에 관한 것이다. 보다 특히, 일부 실시양태는 현존 단백질과 복수의 상이한 친화성 시약의 결합에 관한 복수의 결합 결과를 포함하는 결합 프로필을 사용하여 현존 단백질을 확인하기 위해 단백질 결합 검정을 수행하는 방법에 관한 것이다.
프로테옴은 생물학적 통찰력에 있어 가장 역동적이고 가치 있는 공급원 중 하나이다. 현재의 프로테옴학 기술은 민감도 및 처리량이 제한되어 단일 실험에서 인간 프로테옴의 최대 35%를 다룬다(Blume et al., Nat Commun 11, 3662 (2020) and Clark et al., Cell 180, 207 (2020), 각각은 참조로 본원에 포함됨). 생물의학 연구에서 현재 일상적인 유전체학 및 전사체학 연구를 통해 얻은 풍부한 통찰력에도 불구하고, 게놈/트랜스크립톰과 표현형 사이에는 큰 격차가 남아 있다. 단백질은 세포의 주요한 구조적 및 기능적 성분을 구성하므로 프로테옴학은 이러한 격차를 메우는 데 중요하다. 그러나, 단백질 시퀀싱 기술은 부분적으로 단백질 및 프로테옴의 복잡한 특성 뿐만 아니라 임의의 주어진 시간에 임의의 주어진 세포에 존재하는 상이한 단백질의 양의 높은 동적 범위(~109)로 인해 DNA 시퀀싱 기술보다 뒤떨어진다(Aebersold et al., Nat Chem Biol 14, 206-214 (2018), 참조로 본원에 포함됨). 또한, 인간 프로테옴을 포함하는 것으로 예측되는 단백질의 약 10%는 조금도 자신있게 관찰되지 않았다(Omenn et al., J Proteome Res 19, 4735-4746 (2020) and Adhikari et al., Nat Commun 11, 5301 (2020), 각각은 참조로 본원에 포함됨).
최근에는, 작은 샘플(단일 세포 포함) 및 희귀 단백질을 분석하기 위한 방법으로 단일 분자 확인이 상정되었다(Alfaro et al., Nat Methods 18, 604-617 (2021) and Restrepo-Perez et al., Nat Nanotechnol 13, 786-796 (2018), 각각은 참조로 본원에 포함됨). 질량 분광측정 및 면역검정과 같은 전통적인 벌크 확인 기술이 단일 단백질의 검출에 적응되었다(Keifer & Jarrold, Mass Spectrom Rev 36, 715-733 (2017) and Risin et al., Nat Biotechnol 28, 595-599 (2010), 각각은 참조로 본원에 포함됨). 단일 분자 단백질 시퀀싱을 달성하기 위해 몇 가지 개념이 제안되었다. 이들은 모두 단백질 내의 아미노산의 위치 정보를 결정하기 위해 순차적 공정, 예컨대 에드만(Edman) 유형 분해(Swaminathan, et al. Nat Biotechnol (2018) and Swaminathan, et al., PLoS Comput Biol 11, e1004080 (2015), 각각은 참조로 본원에 포함됨) 또는 나노포어 채널을 통한 지향적 단백질 전위(Kolmogorov, et al., PLoS Comput Biol 13, e1005356 (2017), 각각은 참조로 본원에 포함됨)를 이용한다. 그러나, 현재의 어떠한 방법도 인간 프로테옴의 복잡성에 상응하는 수준에서 단일 분자 민감도 및 높은 처리량 둘 다를 달성하지 못한다. 따라서, 포괄적인 프로테옴 분석이 필요하다. 본 발명은 이러한 요구를 충족시키며 다른 이점도 제공한다.
본 개시내용은 현존 단백질을 확인하는 방법을 제공한다. 방법은 (a) 컴퓨터 프로세서에 입력을 제공하는 단계로서, 입력은 (i) 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 양성 결합 결과 및 음성 결합 결과를 포함하는 결합 프로필로서, 복수의 결합 결과의 개별 결합 결과는 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하는 것인 결합 프로필, (ii) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스, 및 (iii) 각각의 상이한 친화성 시약에 대한 결합 모델을 포함하는 것인 단계; (b) 결합 모델에 따른 데이터베이스 내의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계; 및 (c) 현존 단백질을 선택된 후보 단백질로서 확인하는 단계로서, 선택된 후보 단백질은 현존 단백질에 대한 결합 프로필과 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질인 단계를 포함할 수 있다. 임의적으로, 입력은 (iv) 하나 이상의 상이한 친화성 시약에 대해 발생하는 비-특이적 결합 사건의 확률을 포함하는 비-특이적 결합률을 추가로 포함할 수 있다.
또한, 하기를 포함하는, 현존 단백질을 확인하는 방법이 제공된다: (a) 복수의 상이한 친화성 시약을 샘플 내의 복수의 현존 단백질과 접촉시키는 단계; (b) 단계 (a)로부터 결합 데이터를 획득하는 단계로서, 결합 데이터는 복수의 결합 프로필을 포함하고, 각각의 결합 프로필은 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 복수의 결합 결과의 개별 결합 결과는 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하고, 각각의 결합 프로필은 양성 결합 결과 및 음성 결합 결과를 포함하는 것인 단계; (c) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스를 제공하는 단계; (d) 각각의 상이한 친화성 시약에 대한 결합 모델을 제공하는 단계; (e) 결합 모델에 따른 데이터베이스 내의 각각의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계; 및 (f) 현존 단백질을 선택된 후보 단백질로서 확인하는 단계로서, 선택된 후보 단백질은 현존 단백질에 대한 복수의 결합 결과와 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질인 단계.
본 개시내용은 검출 시스템을 제공한다. 검출 시스템은 (a) 복수의 상이한 친화성 시약과 샘플 내의 복수의 현존 단백질 사이에서 발생하는 복수의 결합 반응으로부터 신호를 획득하도록 구성된 검출기; (b) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스; (c) (i) 데이터베이스와 통신하고, (ii) 신호를 처리하여 복수의 결합 프로필을 생성하고, 각각의 결합 프로필은 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 복수의 결합 결과의 개별 결합 결과는 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하고, 각각의 결합 프로필은 양성 결합 결과 및 음성 결합 결과를 포함하며, (iii) 결합 프로필을 처리하여, 각각의 친화성 시약에 대한 결합 모델에 따른 데이터베이스 내의 각각의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하고; 및 (iv) 선택된 후보 단백질의 확인을 출력하고, 선택된 후보 단백질은 현존 단백질에 대한 복수의 결합 결과와 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질이도록 구성된 컴퓨터 프로세서를 포함할 수 있다.
현존 단백질을 확인하는 방법은 검출 시스템에서 수행될 수 있다. 방법은 (a) 검출 시스템에서 수행되는 복수의 결합 반응으로부터 신호를 획득하는 단계로서, 결합 반응은 복수의 상이한 친화성 시약을 샘플 내의 복수의 현존 단백질과 접촉시키는 것을 포함하는 것인 단계; (b) 검출 시스템에서 신호를 처리하여 복수의 결합 프로필을 생성하는 단계로서, 각각의 결합 프로필은 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 복수의 결합 결과의 개별 결합 결과는 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하며, 각각의 결합 프로필은 양성 결합 결과 및 음성 결합 결과를 포함하는 것인 단계; (c) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스를 검출 시스템에 입력으로서 제공하는 단계; (d) 각각의 상이한 친화성 시약에 대한 결합 모델을 검출 시스템에 입력으로서 제공하는 단계; (e) 검출 시스템에서 복수의 결합 프로필을 처리하여, 결합 모델에 따른 데이터베이스 내의 각각의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계; 및 (f) 선택된 후보 단백질의 확인을 검출 시스템으로부터 출력하는 단계로서, 선택된 후보 단백질은 현존 단백질에 대한 복수의 결합 결과와 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질인 단계를 포함할 수 있다.
참조에 의한 인용
본 명세서에 언급된 모든 공개문, 특허 및 특허 출원은 각각의 개별 공개문, 특허 또는 특허 출원이 참조로 포함되도록 구체적이고 개별적으로 표시된 것과 동일한 정도로 참조로 본원에 포함된다. 참조로 포함된 공개문, 특허 또는 특허 출원이 본 명세서에 함유된 개시내용과 모순되는 경우, 본 명세서는 임의의 이러한 모순되는 자료를 대체하거나 우선하도록 의도된다.
도 1a는 단백질 확인 방법을 위한 샘플 제조부터 데이터 분석까지의 작업 흐름을 나타낸다.
도 1b는 위치 A1의 단백질이 EGFR로 확인되는 단백질 디코딩의 묘사를 나타낸다.
도 1c는 5개의 특유한 결합 패턴 및 1개의 오프-타겟 결합 사건을 나타내는 EGFR에 대한 반복된 순차적 친화성 시약 측정값을 나타낸다.
도 1d는 에피토프 길이의 변화(이량체, 삼량체, 사량체)와 함께 90% 인간 프로테옴 적용 범위에 충분한 친화성 시약의 수 및 각각의 다중 친화성 시약에 의해 결합된 에피토프의 수를 나타낸다(별표는 >2,000 값을 나타냄).
도 1e는 인간 프로테옴에 최적화된 삼량체 에피토프를 표적으로 하는 친화성 시약 또는 삼량체 표적의 20개의 무작위 세트 중 하나를 사용하여 친화성 시약 주기가 측정됨에 따라 달성되는 프로테옴 적용 범위를 나타낸다.
도 1f는 인간 프로테옴 적용 범위에 최적화된 친화성 시약 세트로 측정된 인간, 마우스, 효모 및 이. 콜리(E. coli) 프로테옴에 대한 프로테옴 적용 범위를 나타낸다.
도 2a는 다양한 결합 친화성의 친화성 시약에 대한 인간 프로테옴의 적용 범위를 나타낸다.
도 2b는 어레이 표면에 대한 비-특이적 결합과 함께 다양한 결합 친화성의 친화성 시약에 대한 인간 프로테옴의 적용 범위를 나타낸다. 원 면적은 프로테옴 적용 범위에 비례한다(원에도 표지됨).
도 2c는 미지의 고친화성 에피토프 표적의 다양한 분율에 대해 프로테옴 적용 범위에 대한 친화성 시약 결합의 잘못된 특성화의 영향을 나타낸다. 모든 오차 막대는 5개의 레플리케이트에 걸친 표준 편차이다.
도 2d는 확인된 거짓 고친화성 에피토프 표적의 다양한 분율에 대해 프로테옴 적용 범위에 대한 친화성 시약 결합의 잘못된 특성화의 영향을 나타낸다. 모든 오차 막대는 5개의 레플리케이트에 걸친 표준 편차이다.
도 2e는 결합 확률의 체계적인 측정 오류에 대해 프로테옴 적용 범위에 대한 친화성 시약 결합의 잘못된 특성화의 영향을 나타낸다. 모든 오차 막대는 5개의 레플리케이트에 걸친 표준 편차이다.
도 2f는 결합 확률의 무작위 측정 오류에 대해 프로테옴 적용 범위에 대한 친화성 시약 결합의 잘못된 특성화의 영향을 나타낸다. 모든 오차 막대는 5개의 레플리케이트에 걸친 표준 편차이다.
도 3a는 다양한 단백질 어레이 크기를 갖는 혈장에 대한 단백질 정량화의 동적 범위를 나타낸다. 데이터는 위에서 아래로 감소하는 단백질 풍부도의 순서로 플로팅된다. 동적 범위는 샘플 내 가장 풍부한 단백질로 나눈 단백질 풍부도이다. 윤곽의 외부 너비는 단백질 어레이(하나 이상의 카피)에 침착된 해당 풍부도의 단백질 백분율을 나타낸다. 윤곽의 내부 너비는 디코딩 방법으로 검출된 해당 풍부도의 단백질 백분율을 나타낸다. 백분율은 51개 단백질의 롤링 윈도우에 걸쳐 산출된다. 수평 회색 막대는 100%를 나타낸다.
도 3b는 다양한 단백질 어레이 크기를 갖는 HeLa 세포에 대한 단백질 정량화의 동적 범위를 나타낸다. 데이터는 도 3a에 대해 상기 설명된 바와 같이 제시된다.
도 3c는 한계 히스토그램과 함께 윤곽 플롯(밀도 등비례 윤곽)으로 혈장에 대한 단백질 풍부도와 비교된 정량화의 재현성(5개의 레플리케이트에 걸쳐 산출된 변동 계수)을 나타낸다.
도 3d는 한계 히스토그램과 함께 윤곽 플롯(밀도 등비례 윤곽)으로 HeLa 세포에 대한 단백질 풍부도와 비교된 정량화의 재현성(5개의 레플리케이트에 걸쳐 산출된 변동 계수)을 나타낸다.
도 3e는 혈장의 단일 실험 레플리케이트에 대해 어레이 상의 단백질의 실제 카운트와 디코딩 방법에 의해 측정된 단백질의 양(확인된 카피의 수)의 일치를 나타낸다.
도 3f는 HeLa 세포의 단일 실험 레플리케이트에 대한 어레이 상의 단백질의 실제 카운트와 디코딩 방법에 의해 측정된 단백질의 양(확인된 카피의 수)의 일치를 나타낸다.
도 4a는 미지의 고친화성(1차) 에피토프 표적 및 저친화성-중친화성(2차) 에피토프 표적의 다양한 분율에 대해 프로테옴 적용 범위에 대한 친화성 시약 결합의 잘못된 특성화의 영향을 나타낸다. 모든 적용 범위 측정값은 5개의 레플리케이트에 대한 평균이다.
도 4b는 확인된 거짓 고친화도(1차) 및 저친화성-중친화성(2차) 에피토프 표적의 다양한 분율을 나타낸다. 모든 적용 범위 측정값은 5개의 레플리케이트에 대한 평균이다.
도 4c는 손상에 의해 영향을 받은 총 300개의 친화성 시약의 다양한 분율로 결합 확률의 체계적인 측정 오류를 나타낸다. 모든 적용 범위 측정값은 5개의 레플리케이트에 대한 평균이다.
도 4d는 손상에 의해 영향을 받은 총 300개의 친화성 시약의 다양한 분율로 결합 확률의 무작위 측정 오류를 나타낸다. 모든 적용 범위 측정값은 5개의 레플리케이트에 대한 평균이다.
도 5a는 1010개의 단백질 점유된 주소를 갖는 어레이에서 측정된 혈장에서 단백질 어레이에 침착되고 디코딩 방법에 의해 정량화된 샘플 내 단백질 간의 단백질 풍부도의 분포를 나타낸다. 각각의 그룹에 대한 히스토그램 카운트는 5개의 시뮬레이션된 레플리케이트 실험에 대한 평균이다. 표시된 비-특이적 정량화율은 저조한 정량화를 갖는 임의의 레플리케이트에서 관찰된 단백질의 최대 백분율이다(거짓 확인으로부터 발생하는 >10% 신호). 정량화된 샘플 내 단백질의 백분율은 회색 선으로 표시된다. 평균 프로테옴 범위는 디코딩 방법으로 검출된 샘플에 존재하는 프로테옴의 백분율이다(5개의 레플리케이트에 걸친 평균). 오차 막대는 표준 편차를 나타낸다.
도 5b는 1010개의 단백질 점유된 주소를 갖는 어레이에서 측정된 고갈된 혈장에서 단백질 어레이에 침착되고 디코딩 방법으로 정량화된 샘플 내 단백질 간의 단백질 풍부도의 분포를 나타낸다. 데이터는 도 5a에 대해 처리되고 제시되었다.
도 5c는 1010개의 단백질 점유된 주소를 갖는 어레이에서 측정된 HeLa 세포주에서 단백질 어레이에 침착되고 디코딩 방법으로 정량화된 샘플 내 단백질 간의 단백질 풍부도의 분포를 나타낸다. 데이터는 도 5a에 대해 처리되고 제시되었다.
도 5d는 108개의 단백질 점유된 주소를 갖는 어레이에서 측정된 혈장에서 단백질 어레이에 침착되고 디코딩 방법에 의해 정량화된 샘플 내 단백질 간의 단백질 풍부도의 분포를 나타낸다. 데이터는 도 5a에 대해 처리되고 제시되었다.
도 5e는 108개의 단백질 점유된 주소를 갖는 어레이에서 측정된 고갈된 혈장에서 단백질 어레이에 침착되고 디코딩 방법에 의해 정량화된 샘플 내 단백질 간의 단백질 풍부도의 분포를 나타낸다. 데이터는 도 5a에 대해 처리되고 제시되었다.
도 5f는 108개의 단백질 점유된 주소를 갖는 어레이에서 측정된 HeLa 세포주에서 단백질 어레이에 침착되고 디코딩 방법으로 정량화된 샘플 내 단백질 간의 단백질 풍부도의 분포를 나타낸다. 데이터는 도 5a에 대해 처리되고 제시되었다.
도 6a는 비-결핍된 혈장에 대한 디코딩 방법의 민감도 및 특이성을 나타낸다. 단백질 확인을 위한 확률 임계값은 다양하였다: log(임계값)= 0, -1e-20, -1e-16,-1e-14,-1e-12, -1e-11, -1e-10, -1e-9, -1e-8, -1e-7, -1e-6, -1e-5, -1e-4, -1e-3, -1e-2, -0.1, -0.2, 및 -0.3. 임계값이 낮을수록 민감도(정량된 단백질)가 높아지지만 비-특이적 정량화율도 높아졌다(10% 이상의 확인이 거짓인 신호). 5개의 레플리케이트 샘플 각각에 대해 평가된 각각의 임계값에 대한 이러한 메트릭스를 나타내는 포인트가 표시된다(다양한 모양으로 표시됨). 시뮬레이션은 1010개의 단백질 점유된 주소 및 108개의 단백질 점유된 주소를 포함하는 데이터세트를 사용하여 수행되었다.
도 6b는 고갈된 혈장에 대한 디코딩 방법의 민감도 및 특이성을 나타낸다. 데이터는 도 6a에 대해 처리되고 제시되었다.
도 6c는 HeLa 세포주에 대한 디코딩 방법의 민감도 및 특이성을 나타낸다. 데이터는 도 6a에 대해 처리되고 제시되었다.
도 7a는 비-고갈된 혈장에 대해 다양한 크기의 어레이에 침착된 단백질의 풍부도의 동적 범위를 나타낸다. 데이터는 위에서 아래로 감소하는 단백질 풍부도의 순서로 플로팅된다. 동적 범위는 샘플 내 가장 풍부한 것에 대한 단백질 풍부도의 비율이다. 윤곽의 외부 너비는 100%에 상응하는 각각의 윤곽의 상단의 막대와 함께 어레이(하나 이상의 카피)에 침착된 해당 풍부도의 단백질의 백분율을 나타낸다. 백분율은 51개 단백질의 롤링 윈도우에 걸쳐 산출된다.
도 7b는 고갈된 혈장에 대해 다양한 크기의 어레이에 침착된 단백질의 풍부도의 동적 범위를 나타낸다. 데이터는 도 7a에 대해 처리되고 제시되었다.
도 7c는 HeLa 세포에 대해 다양한 크기의 어레이에 침착된 단백질의 풍부도의 동적 범위를 나타낸다. 데이터는 도 7a에 대해 처리되고 제시되었다.
도 8a는 디코딩 방법을 이용하여 평가된 고갈된 혈액 샘플에 대한 단백질 정량화의 동적 범위를 나타낸다. 단백질 풍부도 데이터는 위에서 아래로 감소하는 풍부도의 순서로 플로팅된다. 동적 범위는 샘플 내 가장 풍부한 것에 대한 단백질 풍부도의 비율이다. 윤곽의 외부 너비는 어레이(하나 이상의 카피)에 침착된 해당 풍부도의 단백질의 백분율을 나타낸다. 윤곽의 내부 너비는 디코딩 방법으로 검출된 해당 풍부도의 단백질의 백분율을 나타낸다. 백분율은 51개 단백질의 롤링 윈도우에 걸쳐 산출된다. 수평 막대는 100%를 나타낸다.
도 8b는 디코딩 방법을 이용하여 평가된 고갈된 혈액 샘플에 대한 한계 히스토그램과 함께 윤곽 플롯(밀도 등비례 윤곽)을 사용하여 단백질 풍부도와 비교된 정량화의 재현성(5개의 레플리케이트 간의 CV%)을 나타낸다.
도 8c는 디코딩 방법을 이용하여 평가된 고갈된 혈액 샘플의 단일 레플리케이트에 대한 어레이 상의 단백질의 실제 카운트와 단백질의 양(검출된 카피의 수)의 일치를 나타낸다.
도 8d는 디코딩 방법에 의해 검출된 단백질 카피의 카운트를 어레이에 침착된 고갈된 혈장 단백질의 카피로 나눈 배수 변화 오류의 분포를 나타낸다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 9a는 108개의 단백질 점유된 주소를 갖는 어레이에서 5개의 레플리케이트로 검정된 비-고갈된 혈장 샘플에 대해 입증된 정량화의 재현성 및 정확성을 나타낸다. 한계 히스토그램과 함께 윤곽 플롯(밀도 등비례 윤곽)을 사용하여 정량화의 재현성(5개의 레플리케이트 간의 CV%)을 단백질 풍부도와 비교한다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 9b는 비-고갈된 혈장의 단일 레플리케이트에 대해 표시된 어레이 상의 단백질의 실제 카운트와 디코딩 방법에 의해 측정된 단백질의 양(확인된 카피의 수)의 일치를 나타낸다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 9c는 비-고갈된 혈장에 대한 어레이에 침착된 단백질의 카피로 나눈 디코딩 방법에 의해 확인된 단백질 카피의 카운트인 배수 변화 오류의 분포를 나타낸다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 9d는 108개의 단백질 점유된 주소를 갖는 어레이에서 5개의 레플리케이트로 검정된 고갈된 혈장에 대해 입증된 정량화의 재현성 및 정확성을 나타낸다. 한계 히스토그램과 함께 윤곽 플롯(밀도 등비례 윤곽)을 사용하여 정량화의 재현성(5개의 레플리케이트 간의 CV%)을 단백질 풍부도와 비교한다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 9e는 고갈된 혈장의 단일 레플리케이트에 대해 표시된 어레이 상의 단백질의 실제 카운트와 디코딩 방법에 의해 측정된 단백질의 양(확인된 카피의 수)의 일치를 나타낸다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 9f는 디코딩 방법에 의해 확인된 단백질 카피를 고갈된 혈장에 대한 어레이에 침착된 단백질의 카피로 나눈 카운트인 변화 배수 오류의 분포를 나타낸다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 9g는 108개의 단백질 점유된 주소를 갖는 어레이에서 5개의 레플리케이트로 검정된 HeLa 세포에 대해 입증된 정량화의 재현성 및 정확성을 나타낸다. 한계 히스토그램과 함께 윤곽 플롯(밀도 등비례 윤곽)을 사용하여 정량화의 재현성(5개의 레플리케이트 간의 CV%)을 단백질 풍부도와 비교한다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 9h는 HeLa 세포의 단일 레플리케이트에 대해 표시된 어레이 상의 단백질의 실제 카운트와 디코딩 방법에 의해 측정된 단백질의 양(확인된 카피의 수)의 일치를 나타낸다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 9i는 HeLa 세포에 대한 어레이에 침착된 단백질의 카피로 나눈 디코딩 방법에 의해 확인된 단백질 카피의 카운트인 배수 변화 오류의 분포를 나타낸다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 10a는 1010개의 단백질 점유된 주소를 갖는 어레이에서 측정된 비-고갈된 혈장에 대한 5개의 레플리케이트에 걸친 단백질 침착 및 단백질 정량화의 재현성을 나타낸다. 침착된 단백질 양은 어레이에 성공적으로 침착된 단백질의 총 카운트이다. 측정된 단백질 양은 디코딩 방법에 의해 단백질이 확인된 횟수이다. 5개의 레플리케이트에 걸쳐 이러한 각각의 양의 CV(%)는 샘플에서 검출된 각각의 특유한 단백질에 대해 산출되고 윤곽 플롯을 사용하여 플로팅되어 측정된 단백질 카운트의 변화와 침착된 단백질 카운트의 변화의 일치를 입증한다.
도 10b는 1010개의 단백질 점유된 주소를 갖는 어레이에서 측정된 HeLa 세포에 대한 5개의 레플리케이트에 걸친 단백질 침착 및 단백질 정량화의 재현성을 나타낸다. 데이터는 도 10a에 설명된 바와 같이 처리되고 제시되었다.
도 11은 1010개의 단백질 점유된 주소에서 측정된 혈장 샘플에서 검출된 단백질에 대한 변화 배수 측정 오류 분포를 나타낸다. 배수 변화 오류는 어레이에 침착된 단백질의 카피로 나눈 디코딩 방법으로 검출된 단백질 카피의 카운트이다. 검출된 카피 및 침착된 카피는 측정된 5개의 레플리케이트에 걸쳐 평균화된다.
도 12는 본원에 제시된 방법을 시행하도록 프로그래밍되거나 달리 구성된 컴퓨터 시스템을 나타낸다.
도 13은 상이한 반검열된 디코드 접근법에 대해 서열 길이에 의한 예측된 비-결합 확률을 나타낸다.
도 14는 상이한 반검열된 디코드 접근법을 이용하여 임의 길이의 서열에 대한 비-결합 확률 예측을 나타낸다.
단백질은 단백질에 대해 알려져 있거나 측정 가능한 결합 친화성을 갖는 하나 이상의 친화성 시약을 사용하여 검출될 수 있다. 예컨대, 친화성 시약은 단백질과 결합하여 복합체를 형성할 수 있으며 복합체에 의해 생성된 신호가 검출될 수 있다. 알려진 친화성 시약에 결합함으로써 검출되는 단백질은 친화성 시약의 알려진 또는 예측된 결합 특징을 기반으로 확인될 수 있다. 예컨대, 샘플 내 다른 단백질과 실질적으로 결합하지 않고 샘플 내에 존재하는 것으로 의심되는 후보 단백질에 선택적으로 결합하는 것으로 알려진 친화성 시약을 사용하여 단지 결합 사건을 관찰함으로써 샘플 내의 후보 단백질을 확인할 수 있다. 후보 단백질에 대한 친화성 시약의 이러한 일대일 상관관계는 하나 이상의 단백질을 확인하는 데 사용될 수 있다. 그러나, 샘플 내의 단백질 복잡성(즉, 다양한 단백질의 수 및 다양성)이 증가함에 따라 단백질에 대해 일대일 특이성을 갖는 상응하는 다양한 친화성 시약을 생성하는 시간 및 자원은 실용성의 한계에 접근한다.
본 개시내용은 이러한 제약을 극복하기 위해 유리하게 사용될 수 있는 방법, 시스템 및 조성물을 제공한다. 특정 구성에서, 확인되는 상이한 단백질의 수는 사용되는 친화성 시약의 수를 초과할 수 있다. 예컨대, 확인되는 단백질의 수는 사용되는 친화성 시약의 수보다 적어도 5x, 10x, 25x, 50x, 100x 또는 그 초과일 수 있다. 본원에 더 자세히 설명된 바와 같이, 하나 이상의 현존 단백질은 (1) 주어진 샘플에 존재하는 것으로 의심되는 다수의 상이한 후보 단백질에 결합하는 뒤섞인 친화성 시약을 사용하여 결합 반응을 수행하고, (2) 하나 이상의 현존 단백질을 전체적으로 볼 때 각각의 현존 단백질에 대한 경험적 결합 프로필을 생성하는 뒤섞인 친화성 시약 세트에 적용하고, (3) 뒤섞인 친화성 시약과 복수의 후보 단백질의 결합에 대한 결합 모델에 따라 경험적 결합 프로필을 평가하는 디코딩 방법을 수행하여 각각의 후보 단백질과의 호환성을 기반으로 개별 현존 단백질을 확인함으로써 확인될 수 있다.
친화성 시약의 뒤섞임은 주어진 단백질 집단과 관련하여 이해될 수 있는 특징이다. 뒤섞임은 인간 프로테옴 샘플과 같은 샘플에 존재하는 것으로 알려져 있거나 의심되는 복수의 상이한 단백질에 존재하는 에피토프를 인식하는 친화성 시약에 기인하여 발생할 수 있다. 예컨대, 뒤섞인 친화성 시약은 이량체, 삼량체, 사량체, 오량체 또는 육량체와 같은 비교적으로 짧은 아미노산 길이를 갖는 에피토프를 인식할 수 있으며, 에피토프는 인간 또는 다른 종의 프로테옴에서 상당한 수의 상이한 단백질에서 발생할 것으로 예상된다. 대안적으로 또는 추가적으로, 뒤섞인 친화성 시약은 상이한 에피토프(즉, 다양한 상이한 구조를 갖는 에피토프)를 인식할 수 있으며, 상이한 에피토프는 프로테옴 샘플 내의 복수의 상이한 단백질에 존재한다. 예컨대, 뒤섞인 친화성 시약은 1차 에피토프 표적에 결합할 확률은 높고 1차 에피토프 표적과 비교하여 상이한 아미노산 서열을 갖는 하나 이상의 2차 에피토프 표적에 결합할 확률은 더 낮을 수 있다. 임의적으로, 2차 에피토프 표적은, 예컨대 BLOSUM62 득점 매트릭스에 따라, 1차 에피토프 표적에 대한 바이오시밀러일 수 있다.
뒤섞인 친화성 시약과 복잡한 단백질 샘플(예컨대, 인간 프로테옴 샘플) 사이에 단일 결합 반응을 수행하면 시약이 결합하는 상이한 단백질의 정체에 대해 모호한 결과가 나올 수 있지만, 모호성은 결과가 본원에 제시된 디코딩 방법으로 평가되는 경우 해결될 수 있다. 복수의 친화성 시약과 하나 이상의 현존 단백질의 결합을 측정함으로써 얻은 복수의 결합 결과는 후보 단백질 세트 중에서 해당 단백질의 가장 가능성 있는 정체를 확인하기 위해 본 개시내용의 디코딩 방법에 입력될 수 있다. 복수의 결합 결과는 복수의 후보 단백질을 특성화하거나 확인하는 정보(예컨대, 후보 단백질의 아미노산 서열) 및 결합 모델과 함께 디코딩 방법에 입력될 수 있다. 가능한 모든 후보 단백질에 각각의 친화성 시약 결합이 결합할 확률은 결합 모델을 사용하여 평가될 수 있으며, 디코딩 방법은 개별 현존 단백질의 정체를 출력할 수 있다. 예컨대, 디코딩 알고리즘은 결합 모델에 따라 현존 단백질에 대해 관찰된 결합 결과와 가장 적합한 후보 단백질로서 개별 현존 단백질에 대해 가장 가능성이 높은 정체를 출력할 수 있다.
본 개시내용의 결합 모델은 샘플 내의 현존 단백질에 결합하는 친화성 시약의 특성이 비록 알려지지 않았더라도 정량화 가능한 무작위 변수로 처리될 수 있고, 결합 특성에 대한 불확실성이 확률 분포로 설명될 수 있다는 가정 하에 구성될 수 있다. 복수의 친화성 시약에 대한 파라미터는, 예컨대 친화성 시약에 대한 선험적 지식(예컨대, 특정 에피토프에 대한 예상된 결합 친화성)을 기반으로 및/또는 친화성 시약을 사용하여 수행된 예비 반응(예컨대, 친화성 시약과 하나 이상의 에피토프 사이의 결합의 측정)을 기반으로 결정될 수 있다. 친화성 시약의 파라미터는 본 개시내용의 디코딩 알고리즘에 입력되는 '프라이어(prior)'로 처리될 수 있다. 경험적으로 결정된 결합 결과와 조합되고 본 개시내용의 디코딩 방법을 이용하여 평가될 때 친화성 시약의 파라미터는 '포스티어리어(posterior)'를 출력할 수 있으며, 이의 계산은 경험적 결정에 사용된 각각의 현존 단백질의 정체에 대한 공산의 분포의 산출을 포함한다. 디코딩 방법에 의해 출력되는 포스티어리어는 디코딩 방법을 이용하는 후속 평가에 대한 입력으로 사용될 프라이어를 업데이트하는 데 사용될 수 있다. 따라서, 추가 경험적 측정값이 만들어지고 결과가 디코딩 방법에 의해 평가됨에 따라 친화성 시약의 초기 평가에서 미지 및 인공물의 영향이 줄어들 수 있다. 이 업데이트 주기는 디코딩 방법에 대한 반복적인 개선을 촉진함으로써 현존 단백질을 확인하거나 특성화하는 정확도를 개선하는 이익을 제공할 수 있다.
본원에 제시된 디코딩 방법의 이점은 단백질이 확인될 수 있는 정확도에 부정적인 영향을 미칠 수 있는 결합 반응의 특성을 고려한다는 점이다. 예컨대, 단일 분자 규모에서 수행되는 결합 반응(예컨대, 단백질 어레이에서 개별적으로 해결되는 단백질에 대한 친화성 시약의 결합 검출)은 확률적 결과를 생성한다. 또한, 예컨대 관찰 중인 단백질이 부착된 어레이의 표면에 대한 친화성 시약의 비-특이적 결합도 잘못된 결과를 생성할 수 있다. 또 다른 예는 본원에 제시된 디코딩 방법에서 분석되는 단백질의 상이한 길이에 기인하여 발생할 수 있는 편향 또는 왜곡이다. 단백질을 확인하거나 특성화할 때 확률성, 비-특이적 결합, 단백질 길이의 차이 또는 정확도 개선을 위한 다른 인자를 설명하도록 디코딩 방법을 구성할 수 있다. 예컨대, 확률성은 디코딩 방법을 이용하여 단백질 공산을 추정함으로써 설명될 수 있다. 마찬가지로, 단백질 길이의 차이는 후보 단백질 길이 및 관찰된 양성 결합 결과의 수에 공동으로 의존하는 정규화 인자를 산출함으로써 설명될 수 있다.
설명의 용이함을 위해, 본 개시내용의 조성물, 시스템 및 방법은 결합 측정값을 사용하여 단백질을 특성화하는 맥락에서 본원에 종종 예시된다. 본원에 제시된 예는 다른 분석물을 특성화하기 위해(예컨대, 단백질에 대한 대안 또는 추가로서), 또는 다른 반응의 수행(예컨대, 결합 반응에 대한 대안 또는 추가로서)으로 쉽게 확장될 수 있다.
본 개시내용은 분석물의 다수의 개별적이고 동일하지 않은 측정값을 얻음으로써 단백질, 핵산, 세포 또는 이의 모이어티와 같은 분석물을 특성화하기 위한 다양한 구성에 유용할 수 있는 조성물, 시스템 및 방법을 제공한다. 특정 구성에서, 개별 측정값은 그 자체로는 특성화를 수행하기에 충분히 정확하거나 구체적이지 않을 수 있지만, 다수의 동일하지 않은 측정값을 집계하면 높은 수준의 정확도, 특이성 및 신뢰도로 특성화가 이루어질 수 있다. 일부 경우에서, 동일한 친화성 시약을 사용하여 다수의 측정값을 집계하면(예컨대, 결합 반응을 트리플리케이트로 반복) 높은 수준의 정확성, 특이성 및 신뢰도로 특성화가 이루어질 수 있다. 임의적으로, 복수의 뒤섞인 시약이 주어진 분석물과 반응할 수 있고, 뒤섞인 시약 각각에 대해 관찰된 반응 결과가 검출될 수 있다. 뒤섞인 시약은 인식된 다양한 상이한 분석물과 관련하여 낮은 특이성 및 이러한 분석물 중 일부 또는 전부에 대한 높은 반응성을 모두 나타낼 수 있다. 결합 반응을 예로 들면, 뒤섞인 친화성 시약은 인식된 다양한 상이한 분석물과 관련하여 낮은 특이성 및 이러한 분석물 중 일부 또는 전부에 대한 높은 친화성을 모두 나타낼 수 있다. 결합 반응을 포함하지만 이에 제한되지 않는 임의의 다양한 반응의 경우, 제1의 뒤섞인 시약을 사용하여 수행된 제1 반응은 서브세트 내의 하나의 분석물을 샘플 내의 또 다른 분석물과 구별하지 않고 샘플 내의 분석물의 제1 서브세트를 인식할 수 있다. 제2의 뒤섞인 시약을 사용하여 수행되는 제2 반응은 다시 제2 서브세트 내의 하나의 분석물을 제2 서브세트 내의 또 다른 분석물과 구별하지 않고 샘플 내의 분석물의 제2 서브세트를 인식할 수 있다. 그러나, 제1 및 제2 반응으로부터 얻은 측정값을 조합하면 하기를 구별할 수 있다: (i) 제1 서브세트에는 독특하게 존재하지만 제2 서브세트에는 존재하지 않는 분석물; (ii) 제2 서브세트에는 독툭하게 존재하지만 제1 서브세트에는 존재하지 않는 분석물; (iii) 제1 및 제2 서브세트 모두에 독특하게 존재하는 분석물; 또는 (iv) 제1 및 제2 서브세트에 독특하게 존재하지 않는 분석물. 사용된 뒤섞인 시약의 수, 획득된 개별 측정값의 수 및 시약 뒤섞임의 정도(예컨대, 시약에 의해 인식되는 성분의 다양성)는 주어진 샘플에 대해 상이한 분석물의 알려진 또는 의심되는 다양성에 맞게 조정될 수 있다.
본원에 제시된 조성물, 시스템 또는 방법은, 예컨대 존재, 부재, 양(예컨대 양 또는 농도), 화학적 반응성, 분자 구조, 구조적 완전성(예컨대, 전체 길이 또는 단편화), 성숙 상태(예컨대, 단백질 내 프리서열 또는 프로서열의 존재 또는 부재), 위치(예컨대, 어레이와 같은 분석 시스템에서, 세포하 구획, 세포 또는 천연 환경), 또 다른 분석물 또는 모이어티와의 회합, 또 다른 분석물 또는 모이어티에 대한 결합 친화성, 생물학적 활성, 화학적 활성 등을 포함하는 다양한 특징 또는 특색과 관련하여 분석물 또는 이의 모이어티를 특성화하는 데 사용될 수 있다. 분석물은 공통된 구조적 특색(예컨대, 단백질에 대한 아미노산 서열 길이, 전체 전하 또는 전체 pKa) 또는 공통 모이어티(예컨대, 단백질에 대한 짧은 1차 서열 모티프 또는 번역 후 변형)의 존재 또는 부재와 같은 상대적으로 일반적인 특징과 관련하여 특성화될 수 있다. 분석물은 특유한 아미노산 서열(예컨대, 단백질 또는 모티프의 전체 길이에 대한 것), 단백질을 코딩하는 RNA 또는 DNA 서열(예컨대, 전체 길이의 단백질 또는 모티프에 대한 것), 또는 단백질을 확인하는 효소적 또는 다른 활성과 같은 상대적으로 특이적인 특징과 관련하여 특성화될 수 있다. 특성화는, 예컨대 당업자에 의해 적절하거나 명백하다고 간주되는 수준에서 분석물을 확인하기에 충분히 특이적일 수 있다. 확실한 확인을 위해 원하는 임계값을 초과하는 확률 또는 점수로 분석물을 확인할 수 있다.
본 개시내용의 방법, 조성물 및 시스템은 단백질이 동일한 1차 구조를 갖고 동일한 세트의 친화성 시약에 적용됨에도 불구하고 상이한 경험적 결합 프로필을 생성하는 상황에서 유리하게 사용될 수 있다. 예컨대, 방법, 조성물 및 시스템은 단일 분자 검출 및 확률적 가변성이 발생하기 쉬운 다른 형식에 매우 적합하다. 본원의 조성물, 시스템 및 방법의 특정 구성은 관찰된 결합 결과의 모호함 및 오류를 극복하여 단백질의 정확한 확인 및 특성화를 제공할 수 있다. 본 방법은 프로테옴 또는 이의 하위분획을 포함하는 복잡한 샘플에 유리하게 사용될 수 있다.
본원에 사용된 용어는 달리 명시되지 않는 한 관련 기술분야에서의 통상적인 의미를 갖는 것으로 이해될 것이다. 본원에 사용된 여러 용어 및 그 의미는 하기에 설명된다.
본원에 사용된 용어 "주소"는 특정 분석물(예컨대, 단백질, 펩티드 또는 특유한 확인자 표지)이 존재하는 어레이 내의 위치를 지칭한다. 주소는 단일 분석물을 함유할 수 있거나, 동일한 종의 여러 분석물의 집단(즉, 분석물의 앙상불)을 함유할 수 있다. 대안적으로, 주소는 상이한 분석물의 집단을 포함할 수 있다. 주소는 일반적으로 개별적이다. 개별 주소는 인접할 수 있거나, 틈새 공간으로 분리될 수 있다. 본원에서 유용한 어레이는, 예컨대 100 마이크론, 10 마이크론, 1 마이크론, 100 nm, 10 nm 미만으로 분리된 주소를 가질 수 있다. 대안적으로 또는 추가적으로, 어레이는 적어도 10 nm, 100 nm, 1 마이크론, 10 마이크론 또는 100 마이크론으로 분리된 주소를 가질 수 있다. 주소는 각각 1 제곱 밀리미터, 500 제곱 마이크론, 100 제곱 마이크론, 10 제곱 마이크론, 1 제곱 마이크론, 100 제곱 nm 또는 그 미만의 미만의 면적을 가질 수 있다. 어레이는 적어도 약 적어도 약 1x104, 1x105, 1x106, 1x107, 1x108, 1x109, 1x1010, 1x1011, 1x1012개, 또는 그 초과의 주소를 포함할 수 있다.
본원에 사용된 용어 "친화성 시약" 또는 "결합 시약"은 분석물(예컨대, 단백질)에 특이적으로 또는 재현적으로 결합할 수 있는 분자 또는 다른 물질을 지칭한다. 친화성 시약은 분석물보다 크거나 작거나 같은 크기일 수 있다. 친화성 시약은 분석물과 가역적 또는 비가역적 결합을 형성할 수 있다. 친화성 시약은 공유 또는 비-공유 방식으로 분석물과 결합할 수 있다. 친화성 시약은 반응성 친화성 시약, 촉매적 친화성 시약(예컨대, 키나제, 프로테아제 등) 또는 비-반응성 친화성 시약(예컨대, 항체 또는 이의 단편)을 포함할 수 있다. 친화성 시약은 비-반응적이고 비-촉매적일 수 있어 결합하는 분석물의 화학 구조를 영구적으로 변경하지 않는다. 단백질 결합에 특히 유용할 수 있는 친화성 시약은 항체 또는 이의 기능적 단편(예컨대, Fab' 단편, F(ab')2 단편, 단일쇄 가변 단편(scFv), 디-scFv, 트리-scFv 또는 마이크로항체), 아피바디, 아필린, 아피머, 아피틴, 알파바디, 안티칼린, 아비머, DARPin, 모노바디, nanoCLAMP, 핵산 압타머, 단백질 압타머, 렉틴 또는 이의 기능적 단편을 포함하지만 이에 제한되지 않는다.
본원에 사용된 용어 "어레이"는 분석물이 서로 구별될 수 있도록 특유한 확인자와 연관된 분석물(예컨대, 단백질)의 집단을 지칭한다. 특유한 확인자는, 예컨대 분석물과 연관되고 어레이 내의 다른 확인자와 구별되는 고체 지지체(예컨대, 입자 또는 비드), 고체 지지체의 공간 주소, 태그, 표지(예컨대, 발광단) 또는 바코드(예컨대, 핵산 바코드)일 수 있다. 분석물은, 예컨대 공유 결합 또는 비-공유 결합(예컨대, 이온 결합, 수소 결합, 반 데르 발스 힘, 정전기 등)을 통한 부착을 통해 특유한 확인자와 연관될 수 있다. 어레이는 각각 상이한 특유한 확인자에 부착된 상이한 분석물을 포함할 수 있다. 어레이는 동일하거나 유사한 분석물에 부착된 상이한 특유한 확인자를 포함할 수 있다. 어레이는 각각 상이한 분석물을 보유하는 별도의 고체 지지체 또는 별도의 주소를 포함할 수 있으며, 상이한 분석물은 고체 지지체 또는 주소의 위치에 따라 확인될 수 있다.
본원에 사용된 용어 "결합 프로필"은 단백질 또는 다른 분석물에 대한 복수의 결합 결과를 지칭한다. 결합 결과는 독립적인 결합 관찰로부터 얻어질 수 있으며, 예컨대 독립적인 결합 결과는 각각 상이한 친화성 시약을 사용하여 얻어질 수 있다. 대안적으로, 결과는 확률, 공산, 불확실성의 측정 또는 변동의 측정과 같은 통계적 측정일 수 있다. 임의적으로, 결합 결과는 인실리코로 생성될 수 있으며, 예컨대 경험적으로 얻은 결합 결과의 변형으로부터 유도될 수 있다. 결합 프로필은 경험적 측정 결과, 후보 측정 결과, 추정 측정 결과, 계산된 측정 결과, 이론적 측정 결과 또는 이들의 조합을 포함할 수 있다. 결합 프로필은 경험적 측정 결과, 후보 측정 결과, 계산된 측정 결과, 이론적 측정 결과 또는 추정적 측정 결과 중 하나 이상을 제외할 수 있다. 결합 프로필은 결합 결과의 벡터를 포함할 수 있다. 벡터의 요소는 디지털 값(예컨대, 각각 양성 및 음성 결합 결과를 나타내는 이진 값) 또는 아날로그 값(예컨대, 0 내지 1 범위의 확률 값)일 수 있다.
본원에 사용된 용어 "포함하는"은 언급된 요소 뿐만 아니라 임의의 추가 요소를 더 포괄하는 개방형으로 의도된다.
본원에 사용된 용어 "각각"은 항목의 모음과 관련하여 사용될 때 모음 내의 개별 항목을 확인하도록 의도되지만 반드시 모음 내의 모든 항목을 지칭하는 것은 아니다. 명시적인 개시내용 또는 문맥이 분명히 달리 지시하는 경우 예외가 발생할 수 있다.
본원에 사용된 용어 "에피토프"는 단백질, 폴리펩티드 또는 다른 분석물 내의 친화성 표적을 지칭한다. 에피토프는 단백질의 1차 구조에서 순차적으로 인접한 아미노산 서열을 포함할 수 있다. 에피토프는 단백질의 1차 서열에서는 인접하지 않음에도 불구하고 단백질의 2차, 3차 또는 4차 구조에서 구조적으로 인접한 아미노산을 포함할 수 있다. 에피토프는 포스페이트, 포스포티로신, 포스포세린, 포스포트레오닌 또는 포스포히스티딘과 같은 번역 후 변형으로 인해 발생하는 단백질의 모이어티일 수 있거나 이를 포함할 수 있다. 에피토프는 임의적으로 항체에 의해 인식되거나 항체에 결합될 수 있다. 그러나, 에피토프는 임의의 항체에 의해 반드시 인식될 필요는 없으며, 예컨대 대신 압타머, 미니 단백질 또는 다른 친화성 시약에 의해 인식된다. 에피토프는 임의적으로 항체와 결합하여 면역 반응을 유도할 수 있다. 그러나, 에피토프는 반드시 면역 반응에 참여할 필요도 없고 유도할 수도 없다.
본원에서 사용된 용어 "측정 결과"는 과정의 관찰, 시뮬레이션 또는 조사로부터 얻은 정보를 지칭한다. 예컨대, 친화성 시약을 분석물과 접촉시키는 측정 결과를 "결합 결과"로 지칭할 수 있다. 측정 결과는 양성 또는 음성일 수 있다. 예컨대, 결합의 관찰은 양성 결합 결과이고 비-결합의 관찰은 음성 결합 결과이다. 주어진 측정으로부터 양성 또는 음성 결과가 명확하지 않은 경우 측정 결과는 널(null) 결과일 수 있다. "경험적" 측정 결과는 분석 기술로부터의 신호의 관찰을 기반으로 한 정보를 포함한다. "추정적" 측정 결과는 분석 기술 또는 분석물의 이론적 또는 선험적 평가를 기반으로 한 정보를 포함한다. "후보" 측정 결과는 샘플 또는 검정에 존재하는 것으로 알려져 있거나 의심되는 후보 분석물(예컨대, 후보 단백질)에 대한 경험적 또는 추정적 측정 결과를 포함할 수 있다. 측정 결과는 음성 결합 결과의 경우 영(0), 양성 결합 결과의 경우 일(1)과 같은 이진항으로 표시될 수 있다. 일부 경우에서, 예컨대 영(0)은 음성 결합 결과를 나타내고, 일(1)은 양성 결합 결과를 나타내고, 이(2)은 널 결과를 나타내는 삼진 표현이 사용될 수 있다. 상이한 측정 결과를 나타내기 위해 정수 또는 이산 값이 아닌 연속 또는 아날로그 값을 사용하는 것도 가능하다.
본원에서 사용되는 바와 같이, 용어 "뒤섞인"은 시약과 관련하여 사용되는 경우 시약이 주어진 샘플 내의 다양한 상이한 분석물과 반응하는 것으로 알려져 있거나 의심되는 것을 의미한다. 예컨대, 다양한 상이한 분석물(예컨대, 상이한 1차 서열을 갖는 다양한 단백질)을 인식하는 것으로 알려져 있거나 의심되는 친화성 시약은 뒤섞인 시약이다. 뒤섞인 시약은 반응하는 상이한 분석물 중 하나 이상과 높은 반응성을 갖는 것으로 알려져 있거나 의심될 수 있다. 예컨대, 뒤섞인 친화성 시약은 인식하는 상이한 분석물 중 하나 이상에 대해 높은 친화성을 가질 수 있다. 뒤섞인 시약은 단일 친화성 시약과 같은 단일 종의 시약으로 구성될 수 있거나, 뒤섞인 시약은 2개 이상의 상이한 친화성 시약 종으로 구성될 수 있다. 예컨대, 뒤섞인 친화성 시약은 샘플 내의 다양한 상이한 단백질을 인식하는 단일 종의 항체로 구성될 수 있거나, 뒤섞인 친화성 시약은 샘플 내의 다양한 상이한 단백질을 집합적으로 인식하는 몇 가지 상이한 항체 종을 함유하는 풀로 구성될 수 있다.
본원에 사용된 용어 "단백질"은 펩티드 결합에 의해 연결된 2개 이상의 아미노산을 포함하는 분자를 지칭한다. 단백질은 또한 폴리펩티드, 올리고펩티드 또는 펩티드로 지칭될 수 있다. 단백질은 자연 발생 분자 또는 합성 분자일 수 있다. 단백질은 하나 이상의 비-천연 아미노산, 변형된 아미노산, 또는 비-아미노산 링커를 포함할 수 있다. 단백질은 D-아미노산 거울상이성질체, L-아미노산 거울상이성질체 또는 둘 다를 함유할 수 있다. 단백질의 아미노산은 자연적으로 또는 번역 후 변형과 같이 합성적으로 변형될 수 있다. 일부 상황에서, 상이한 단백질은 유기체에서 발현되는 상이한 유전자, 상이한 1차 서열 길이 또는 상이한 1차 서열 조성을 기반으로 서로 구별될 수 있다. 그럼에도 불구하고, 동일한 유전자로부터 발현된 단백질은, 예컨대 동일하지 않은 길이, 동일하지 않은 아미노산 서열 또는 동일하지 않은 번역 후 변형에 기초하여 구별되는 상이한 프로테오폼(proteoform)일 수 있다. 상이한 단백질은 기원의 유전자 및 프로테오폼 상태 중 하나 또는 둘 모두에 기초하여 구별될 수 있다.
본원에서 사용되는 바와 같이, 용어 "단일"은 분석물과 같은 물체와 관련하여 사용되는 경우 물체가 개별적으로 조작되거나 다른 물체와 구별된다는 것을 의미한다. 단일 분석물은 단일 분자(예컨대, 단일 단백질), 2개 이상의 분자의 단일 복합체(예컨대, 2개 이상의 분리 가능한 서브유닛을 갖는 다량체 단백질, 구조화된 핵산 입자에 부착된 단일 단백질 또는 친화성 시약에 부착된 단일 단백질), 단일 입자 등일 수 있다. 본원의 조성물, 시스템 또는 방법과 관련하여 본원에서 "단일 분석물"에 대한 참조는 문맥상 또는 명시적으로 반대를 나타내지 않는 한, 개별적으로 조작되거나 구별되는 다수의 단일 분석물에 대한 조성물, 시스템 또는 방법의 적용을 반드시 배제하는 것은 아니다.
본원에 사용된 용어 "단일 분석물 분해"는, 예컨대 어레이에서 가장 가까운 이웃과 구별되는 바와 같이 개별 기준으로 분석물을 검출하거나 검출하는 능력을 지칭한다.
본원에 사용된 용어 "고체 지지체"는 수성 액체에 불용성인 기재를 지칭한다. 임의적으로 기재는 단단할 수 있다. 기재는 비-다공성 또는 다공성일 수 있다. 기재는 임의적으로 (예컨대, 다공성에 기인하여) 액체를 흡수할 수 있지만 일반적으로 반드시 그런 것은 아니지만 기재가 액체를 흡수할 때 실질적으로 팽창하지 않고 액체가 건조에 의해 제거될 때 실질적으로 수축하지 않도록 충분히 강성일 것이다. 비-다공성 고체 지지체는 일반적으로 액체 또는 기체에 대해 비투과성이다. 예시적인 고체 지지체는 유리 및 변형되거나 작용화된 유리, 플라스틱(아크릴, 폴리스티렌, 스티렌과 다른 물질의 공중합체, 폴리프로필렌, 폴리에틸렌, 폴리부틸렌, 폴리우레탄, TeflonTM, 사이클릭 올레핀, 폴리이미드 등 포함), 나일론, 세라믹, 수지, ZeonorTM, 실리콘 및 변형된 실리콘을 포함한 실리카 또는 실리카 기반 물질, 탄소, 금속, 무기 유리, 광섬유 번들, 젤 및 중합체를 포함하지만 이에 제한되지 않는다. 특정 구성에서, 유동 셀은 이에 도입된 유체가 결합 사건 (또는 다른 반응)의 하나 이상의 성분이 부착되는 고체 지지체의 표면과 상호작용할 수 있도록 고체 지지체를 함유한다.
하기에 설명되고 청구범위에 인용된 실시양태는 상기 정의를 고려하여 이해될 수 있다.
본 개시내용은 현존 단백질을 확인하는 방법을 제공한다. 방법은 (a) 컴퓨터 프로세서에 입력을 제공하는 단계로서, 입력은 (i) 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 양성 결합 결과 및 음성 결합 결과를 포함하는 결합 프로필로서, 복수의 결합 결과의 개별 결합 결과는 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하는 것인 결합 프로필, (ii) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스, 및 (iii) 각각의 상이한 친화성 시약에 대한 결합 모델을 포함하는 것인 단계; (b) 결합 모델에 따른 데이터베이스 내의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계; 및 (c) 현존 단백질을 선택된 후보 단백질로서 확인하는 단계로서, 선택된 후보 단백질은 현존 단백질에 대한 결합 프로필과 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질인 단계를 포함할 수 있다. 임의적으로, 입력은 (iv) 하나 이상의 상이한 친화성 시약에 대해 발생하는 비-특이적 결합 사건의 확률을 포함하는 비-특이적 결합률을 추가로 포함할 수 있다.
또한, 하기를 포함하는, 현존 단백질을 확인하는 방법이 제공된다: (a) 복수의 상이한 친화성 시약을 샘플 내의 복수의 현존 단백질과 접촉시키는 단계; (b) 단계 (a)로부터 결합 데이터를 획득하는 단계로서, 결합 데이터는 복수의 결합 프로필을 포함하고, 각각의 결합 프로필은 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 복수의 결합 결과의 개별 결합 결과는 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하고, 각각의 결합 프로필은 양성 결합 결과 및 음성 결합 결과를 포함하는 것인 단계; (c) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스를 제공하는 단계; (d) 각각의 상이한 친화성 시약에 대한 결합 모델을 제공하는 단계; (e) 결합 모델에 따른 데이터베이스 내의 각각의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계; 및 (f) 현존 단백질을 선택된 후보 단백질로서 확인하는 단계로서, 선택된 후보 단백질은 현존 단백질에 대한 복수의 결합 결과와 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질인 단계.
본 개시내용의 방법, 조성물 및 시스템은 단백질과 함께 사용하기에 특히 매우 적합하다. 본 개시내용 전체에 걸쳐 단백질이 예시되어 있지만, 다른 분석물도 유사하게 사용될 수 있다는 것이 이해될 것이다. 예시적인 분석물은 생체분자, 다당류, 핵산, 지질, 대사산물, 호르몬, 비타민, 효소 보조인자, 치료제, 후보 치료제 또는 이들의 조합을 포함하지만 이에 제한되지 않는다. 분석물은 합성 중합체, 금속, 금속 산화물, 세라믹, 반도체, 무기물 또는 이들의 조합과 같은 비-생물학적 원자 또는 분자일 수 있다.
본원에 사용된 하나 이상의 단백질은 천연 또는 합성 공급원으로부터 유래될 수 있다. 예시적인 공급원은 생물학적 조직, 유체, 세포 또는 세포하 구획(예컨대, 소기관)을 포함하지만 이에 제한되지 않는다. 예컨대, 샘플은 조직 생검, 생물학적 유체(예컨대, 혈액, 땀, 눈물, 혈장, 세포외액, 소변, 점액, 타액, 정액, 질액, 윤활액, 림프액, 뇌척수액, 복막액, 흉막액, 양수, 세포내액, 세포외액 등), 대변 샘플, 모발 샘플, 배양 세포, 배양 배지, 고정 조직 샘플(예컨대, 신선 냉동 또는 포르말린 고정 파라핀 포매) 또는 단백질 합성 반응 생성물로부터 유래될 수 있다. 단백질 공급원은 단백질이 천연 또는 예상된 구성성분인 임의의 샘플를 포함할 수 있다. 예컨대, 암 바이오마커 단백질에 대한 1차 공급원은 종양 생검 샘플 또는 체액일 수 있다. 다른 공급원은 환경 샘플 또는 법의학 샘플을 포함한다.
단백질 또는 다른 분석물이 유래될 수 있는 예시적인 유기체는, 예컨대 설치류, 마우스, 래트, 토끼, 기니피그, 유제류, 말, 양, 돼지, 염소, 소, 고양이, 개, 영장류, 비-인간 영장류 또는 인간과 같은 포유동물; 아라비도프시스 탈리아나(Arabidopsis thaliana), 담배, 옥수수, 수수, 귀리, 밀, 쌀, 카놀라 또는 대두와 같은 식물; 클라미도모나스 레인하르드티이(Chlamydomonas reinhardtii)와 같은 조류; 카에노르하브디티스 엘레간스(Caenorhabditis elegans)와 같은 선충류; 드로소필라 멜라노가스테르(Drosophila melanogaster), 모기, 초파리, 꿀벌 또는 거미와 같은 곤충; 제브라피시와 같은 물고기; 파충류; 개구리 또는 제노푸스 라에비스(Xenopus laevis)와 같은 양서류; 딕티오스텔륨 디스코이듐(dictyostelium discoideum); 뉴모시스티스 카리니이(Pneumocystis carinii), 타키푸구 루브리페스(Takifugu rubripes), 효모, 사카라모이세스 세레비지아에(Saccharamoyces cerevisiae) 또는 쉬조사카로마이세스 폼베(Schizosaccharomyces pombe)와 같은 진균; 또는 플라스모듐 팔시파룸(Plasmodium falciparum)을 포함한다. 단백질은 또한 박테리아, 에쉐리키아 콜리(Escherichia coli), 스타필로코시(staphylococci) 또는 미코플라스마 뉴모니아에(Mycoplasma pneumoniae)과 같은 원핵생물; 고세균; C형 간염 바이러스, 인플루엔자 바이러스, 코로나바이러스 또는 인간 면역결핍 바이러스와 같은 바이러스; 또는 비로이드를 포함한다. 단백질은 상기 유기체의 균질한 배양물 또는 집단, 또는 대안적으로 예컨대 군집 또는 생태계에서의 여러 상이한 유기체의 집합으로부터 유래될 수 있다.
일부 경우에서, 단백질 또는 다른 생체분자는 숙주 유기체로부터 수집된 유기체로부터 유래될 수 있다. 예컨대, 단백질은 숙주 유기체로부터 수집된 기생충, 병원성, 공생 또는 잠복 유기체로부터 유래될 수 있다. 단백질은 질환 상태 또는 장애(예컨대, 암)와 연관된 것으로 알려져 있거나 의심되는 유기체, 조직, 세포 또는 생물학적 유체로부터 유래될 수 있다. 대안적으로, 단백질은 특정 질환 상태 또는 장애와 연관되지 않은 것으로 알려져 있거나 의심되는 유기체, 조직, 세포 또는 생물학적 유체로부터 유래될 수 있다. 예컨대, 이러한 공급원으로부터 단리된 단백질은 특정 질환 상태 또는 장애와 연관된 것으로 알려져 있거나 의심되는 공급원으로부터 얻은 결과와 비교하기 위한 대조용으로 사용될 수 있다. 샘플은 마이크로바이옴 또는 마이크로바이옴의 상당 부분을 포함할 수 있다. 일부 경우에서, 본원에 제시된 방법, 조성물 또는 장치에 사용되는 하나 이상의 단백질은 단일 공급원으로부터 얻을 수 있으며 단일 공급원으로부터만 얻을 수 있다. 단일 공급원은, 예컨대 단일 유기체(예컨대, 개별 인간), 단일 조직, 단일 세포, 단일 소기관(예컨대, 소포체, 골지체 또는 핵) 또는 단일 단백질 함유 입자(예컨대, 바이러스 입자. 또는 소포)일 수 있다.
본 개시내용의 방법, 조성물 또는 장치는 프로테옴 또는 이의 분획으로 구성된 복수의 단백질과 같은 다양한 조성물 중 임의의 것을 갖는 복수의 단백질을 사용하거나 포함할 수 있다. 예컨대, 복수의 단백질은 생물학적 샘플 또는 이의 분획 내의 단백질과 같은 용액상 단백질을 포함할 수 있거나, 복수의 단백질은 입자 또는 고체 지지체에 부착된 단백질과 같은 고정된 단백질을 포함할 수 있다. 추가 예로서, 복수의 단백질은 본 개시내용의 방법, 조성물 또는 장치와 관련하여 검출, 분석 또는 확인되는 단백질을 포함할 수 있다. 복수의 단백질의 함량은 하기 또는 본원의 다른 곳에 설명된 것과 같은 다양한 특징 중 임의의 것에 따라 이해될 수 있다.
복수의 단백질은 총 단백질 질량의 측면에서 특성화될 수 있다. 1 리터의 혈장 내의 단백질의 총 질량은 70 g으로 추정되었고, 인간 세포 내의 총 단백질 질량은 세포 유형에 따라 100 내지 500 pg으로 추정되었다(Wisniewski et al. Molecular & Cellular Proteomics 13:10.1074/mcp.M113.037309, 3497-3506 (2014), 참조로 본원에 포함됨). 본원에 제시된 방법, 조성물 또는 시스템에 사용되거나 포함된 복수의 단백질은 질량 기준으로 적어도 1 pg, 10 pg, 100 pg, 1 ng, 10 ng, 100 ng, 1 mg, 10 mg, 100 mg, 1 mg, 10 mg, 100 mg 또는 그 초과의 단백질을 포함할 수 있다. 대안적으로 또는 추가적으로, 복수의 단백질은 질량 기준으로 최대 100 mg, 10 mg, 1 mg, 100 mg, 10 mg, 1 mg, 100 ng, 10 ng, 1 ng, 100 pg, 10 pg, 1 pg 또는 그 미만의 단백질을 함유할 수 있다.
복수의 단백질은 생물학적 공급원(예컨대 세포, 조직 또는 혈액과 같은 생물학적 유체)과 같은 주어진 공급원에 대한 질량 백분율로 특성화될 수 있다. 예컨대, 복수의 단백질은 복수의 단백질이 유래된 공급원에 존재하는 총 단백질 질량의 적어도 60%, 75%, 90%, 95%, 99%, 99.9% 또는 그 초과를 함유할 수 있다. 대안적으로 또는 추가적으로, 복수의 단백질은 복수의 단백질이 유래된 공급원에 존재하는 총 단백질 질량의 최대 99.9%, 99%, 95%, 90%, 75%, 60% 또는 그 미만을 함유할 수 있다.
복수의 단백질은 단백질 분자의 총 수의 측면에서 특성화될 수 있다. 사카로마이세스 세레비지아에(Saccharomyces cerevisiae) 세포 내 단백질 분자의 총 수는 약 4,200만 개의 단백질 분자로 추정되었다(Ho et al., Cell Systems (2018), DOI: 10.1016/j.cels.2017.12.004, 참조로 본원에 포함됨). 본원에 제시된 방법, 조성물 또는 시스템에 사용되거나 포함되는 복수의 단백질은 적어도 1개의 단백질 분자, 10개의 단백질 분자, 100개의 단백질 분자, 1 x 104개의 단백질 분자, 1 x 106개의 단백질 분자, 1 x 108개의 단백질 분자, 1 x 1010개의 단백질 분자, 1몰(6.02214076 Х 1023개의 분자)의 단백질, 10몰의 단백질 분자, 100몰의 단백질 분자 또는 그 초과를 포함할 수 있다. 대안적으로 또는 추가적으로, 복수의 단백질은 최대 100몰의 단백질 분자, 10몰의 단백질 분자, 1몰의 단백질 분자, 1 x 1010개의 단백질 분자, 1 x 108개의 단백질 분자, 1 x 106개의 단백질 분자, 1 x 104개의 단백질 분자, 100개의 단백질 분자, 10개의 단백질 분자, 1개의 단백질 분자 또는 그 미만을 함유할 수 있다.
복수의 단백질은 복수의 전체 길이의 1차 단백질 구조의 다양성 측면에서 특성화될 수 있다. 예컨대, 복수의 단백질 내의 다양한 전체 길이의 1차 단백질 구조는 복수의 단백질에 대한 공급원 내의 상이한 단백질 코딩 유전자의 수와 동일시 될 수 있다. 단백질이 알려진 게놈으로부터 또는 임의의 게놈으로부터 유래하든 상관없이, 다양한 전체 길이의 1차 단백질 구조는 단백질의 번역 후 변형 유무와 관계없이 카운팅될 수 있다. 인간 프로테옴은 인간으로부터 유래된 복수의 단백질이 최대 약 20,000개의 상이한 1차 단백질 구조를 포함할 수 있도록 약 20,000개의 상이한 단백질 코딩 유전자를 갖는 것으로 추정된다(Aebersold et al., Nat. Chem. Biol. 14:206-214 (2018), 참조로 본원에 포함됨). 자연계의 다른 게놈 및 프로테옴은 더 크거나 더 작은 것으로 알려져 있다. 본원에 제시된 방법, 조성물 또는 시스템에 사용되거나 포함된 복수의 단백질은 적어도 적어도 2, 5, 10, 100, 1 x 103, 1 x 104, 2 x 104, 3 x 104개 또는 그 초과의 상이한 전체 길이의 1차 단백질 구조의 복잡성을 가질 수 있다. 대안적으로 또는 추가적으로, 복수의 단백질은 최대 3 x 104, 2 x 104, 1 x 104, 1 x 103, 100, 10, 5, 2개 또는 그 미만의 상이한 전체 길이의 1차 단백질 구조인 복잡성을 가질 수 있다.
상대적인 측면에서, 본원에 제시된 방법, 조성물 또는 시스템에 사용되거나 포함된 복수의 단백질은 샘플이 유래된 공급원의 게놈에 의해 코딩된 단백질의 적어도 60%, 75%, 90%, 95%, 99%, 99.9%에 대한 적어도 하나의 대표를 함유할 수 있다. 대안적으로 또는 추가적으로, 복수의 단백질은 샘플이 유래된 공급원의 게놈에 의해 코딩된 단백질의 최대 99.9%, 99%, 95%, 90%, 75%, 60% 또는 그 미만을 대표하는 것을 함유할 수 있다.
복수의 단백질은 전사된 스플라이스 변이체를 포함하는 복수의 1차 단백질 구조의 다양성 측면에서 특성화될 수 있다. 인간 프로테옴은 스플라이스 변이체를 포함할 때 약 70,000개의 상이한 1차 단백질 구조를 포함하는 것으로 추정된다(Aebersold et al., Nat. Chem. Biol. 14:206-214 (2018), 참조로 본원에 포함됨). 또한, 샘플에서 발생하는 단편화로 인해 부분 길이의 1차 단백질 구조의 수가 증가할 수 있다. 본원에 제시된 방법, 조성물 또는 시스템에 사용되거나 포함되는 복수의 단백질은 적어도 2, 5, 10, 100, 1 x 103, 1 x 104, 1 x 105, 1 x 106, 1 x 108, 1 x 1010개 또는 그 초과의 상이한 1차 단백질 구조의 복잡성을 가질 수 있다. 대안적으로 또는 추가적으로, 복수의 단백질은 최대 1 x 1010, 1 x 108, 1 x 106, 1 x 105, 5 x 104, 1 x 104, 1 x 103, 100, 10, 5, 2개 또는 그 미만의 상이한 1차 단백질 구조의 복잡성을 가질 수 있다.
복수의 단백질은 상이한 1차 구조 및 1차 구조 중의 상이한 프로테오폼을 포함하는 복수의 단백질 구조의 다양성의 측면에서 특성화될 수 있다. 주어진 유전자로부터 발현되는 단백질의 상이한 분자 형태는 상이한 프로테오폼으로 간주된다. 예컨대, 프로테오폼은 1차 구조(예컨대, 더 짧거나 긴 아미노산 서열), 도메인의 다른 배열(예컨대, 전사 스플라이스 변이체) 또는 상이한 번역 후 변형(예컨대, 포스포릴, 글리코실, 아세틸, 또는 유비퀴틴 모이어티의 존재 또는 부재)의 차이로 인해 상이할 수 있다. 인간의 프로테옴은 상이한 1차 구조 및 프로테오폼을 카운팅할 때 수십만 개의 단백질을 포함하는 것으로 추정된다(Aebersold et al., Nat. Chem. Biol. 14:206-214 (2018), 참조로 본원에 포함됨). 본원에 제시된 방법, 조성물 또는 시스템에 사용되거나 포함되는 복수의 단백질은 적어도 2, 5, 10, 100, 1 x 103, 1 x 104, 1 x 105, 1 x 106, 5 x 106, 1 x 107개 또는 그 초과의 상이한 단백질 구조의 복잡성을 가질 수 있다. 대안적으로 또는 추가적으로, 복수의 단백질은 최대 1 x 107, 5 x 106, 1 x 106, 1 x 105, 1 x 104, 1 x 103, 100, 10, 5, 2개 또는 그 미만의 상이한 단백질 구조의 복잡성을 가질 수 있다.
복수의 단백질은 샘플 내의 상이한 단백질 구조에 대한 동적 범위의 측면에서 특성화될 수 있다. 동적 범위는 복수의 단백질 내의 모든 상이한 단백질 구조에 대한 풍부도의 범위, 복수의 단백질 내의 모든 상이한 1차 단백질 구조에 대한 풍부도의 범위, 복수의 단백질 내의 모든 상이한 전체 길이의 1차 단백질 구조에 대한 풍부도의 범위, 복수의 단백질 내의 모든 상이한 전체 길이의 유전자 생성물에 대한 풍부도의 범위, 주어진 유전자로부터 발현되는 모든 상이한 프로테오폼에 대한 풍부도의 범위, 또는 본원에 제시된 상이한 단백질의 임의의 다른 세트의 풍부도의 범위의 척도일 수 있다. 인간 혈장 내의 모든 단백질에 대한 동적 범위는 가장 풍부한 단백질인 알부민부터 임상적으로 측정된 가장 희귀한 단백질까지 1010 초과에 달하는 것으로 추정된다(Anderson and Anderson Mol Cell Proteomics 1:845-67 (2002), 참조로 본원에 포함됨). 본원에 제시된 복수의 단백질에 대한 동적 범위는 적어도 10, 100, 1 x 103, 1 x 104, 1 x 106, 1 x 108, 1 x 1010, 또는 그 초과일 수 있다. 대안적으로 또는 추가적으로, 본원에 제시된 복수의 단백질에 대한 동적 범위는 최대 1 x 1010, 1 x 108, 1 x 106, 1 x 104, 1 x 103, 100, 10 또는 그 미만일 수 있다.
본 개시내용은 하나 이상의 분석물을 검출하는 데 유용한 검정을 제공한다. 예시적인 검정 형식이 도 1a에 도식적으로 나타나 있다. 단백질은 샘플로부터 추출되어 어레이에 부착될 수 있다. 임의적으로, 어레이의 특유한 확인자는 주소일 수 있다. 어레이는 복수의 주소를 갖도록 구성될 수 있으며, 개별 주소는 샘플로부터 개별 단백질에 각각 부착된다. 어레이에 부착된 단백질은 변성 상태 또는 천연 상태일 수 있다. 임의적으로, 구조화된 핵산 입자(SNAP)는 각각의 단백질의 각각의 주소에 대한 부착을 매개할 수 있다. SNAP에 추가로 또는 대안적으로 사용될 수 있는 다른 링커 또는 부착 화학물질은 미국 특허 출원 공개 번호 2021/0101930 A1, WO 2021/087402 A1, 또는 미국 특허 출원 일련 번호 63/159,500(각각은 참조로 본원에 포함됨)에 제시된 것을 포함하지만 이에 제한되지 않는다.
일반적으로, 임의의 주어진 주소에서 단백질의 정체는 미지이다(따라서, 단백질은 '미지의' 단백질로 지칭될 수 있음). 본원에 제시된 방법은 어레이 내의 하나 이상의 주소에서 단백질을 확인하는 데 사용될 수 있다. 따라서, 이 방법은 어레이에서 현존 단백질의 위치를 찾는 데 이용될 수 있다. 도 1a에 도식화된 예를 계속하면, 형광단으로 태그 부착된 복수의 친화성 시약(예컨대 항체, 압타머 또는 작은 단백질)이 어레이와 접촉될 수 있고, 개별 주소로부터 형광이 검출되어 결합 결과를 결정할 수 있다. 친화성 시약은 어레이에 전달되고 표시된 대로 연속적으로 검출될 수 있으므로 각각의 주기는 개별 친화성 시약에 대한 결합 결과를 검출한다. 본원에 제시된 방법의 일부 구성에서, 복수의 상이한 친화성 시약은 한 주기로 전달될 수 있다. 주어진 주기에서 전달되는 상이한 친화성 시약은 구별할 수 없게 표지된 시약의 풀로 구성될 수 있으므로 (또는 표지가 결여될 수 있음), 상이한 시약은 검출 단계에서 구별되지 않는다. 대안적으로, 주어진 주기에 전달되는 2개 이상의 상이한 친화성 시약은 구별되게 표지될 수 있다. 따라서, 친화성 시약은 어레이의 단백질에 결합될 때 구별되게 검출될 수 있다. 형광 표지 및 형광 검출의 사용이 예시적이다. 본원에 제시되거나 당업계에 알려진 것과 같은 다른 표지 및 다른 검출기가 사용될 수 있다.
본 개시내용의 방법, 시스템 또는 조성물에서 단백질을 검출하는 데 사용될 수 있는 시약 및 기술의 추가 예는, 예컨대 미국 특허 번호 10,473,654 또는 미국 특허 출원 공개 번호 2020/0318101 A1 또는 2020/0286584 A1; 또는 문헌(Egertson et al., BioRxiv (2021), DOI: 10.1101/2021.10.11.463967)(각각은 참조로 본원에 포함됨)에 제시되어 있다. 예시적인 방법, 시스템 및 조성물은 하기에 더 자세히 설명되어 있다.
본원에 제시된 조성물, 시스템 또는 방법의 일부 구성은 동일한 1차 구조(즉, 동일한 아미노산 서열)를 갖지만 번역 후 변형의 수, 유형 또는 위치가 상이한 단백질과 같은 상이한 프로테오폼을 구별할 수 있다. 본 개시내용의 방법은 샘플의 하나 이상의 단백질에서 하나 이상의 번역후 변형에 대한 수, 유형 또는 위치를 확인하도록 구성될 수 있다. 예시적인 번역 후 변형은 포스포릴, 글리코실(예컨대, N-아세틸글루코사민 또는 폴리시알산), 유비퀴틴, 아실(예컨대, 미리스토일 또는 팔미토일), 이소프레닐, 프레닐, 파르네실, 게라닐게라닐, 리포일, 아세틸, 알킬(예컨대, 메틸 또는 에틸), 플라빈, 헴, 포스포판테테이닐, C-말단 아미드화, 히드록실, 뉴클레오티딜, 아데닐릴, 우리딜릴, 프로피오닐, S-글루타티오닐, 술페이트, 숙시닐, 카르바밀, 카르보닐, SUMOyl 또는 니트로실 모이어티를 포함하지만 이에 제한되지 않는다.
다양한 친화성 시약 중 임의의 것이 본원에 제시된 조성물, 시스템 또는 방법에 사용될 수 있다. 친화성 시약은, 예컨대 본원에 제시된 방법에 사용하기 전에 결합 특성과 관련하여 특성화될 수 있다. 특성화될 수 있는 예시적인 결합 특성은 특이성, 결합 강도; 평형 결합 상수(예컨대, KA 또는 KD); 회합률 상수(kon) 또는 해리율 상수(koff)와 같은 결합률 상수; 결합 확률 등을 포함하지만 이에 제한되지 않는다. 결합 특성은 에피토프, 에피토프 세트(예컨대, 구조적 유사성을 갖는 단백질 세트), 단백질, 단백질 세트(예컨대, 구조적 유사성을 갖는 단백질 세트) 또는 프로테옴과 관련하여 결정될 수 있다.
친화성 시약은 표지를 포함할 수 있다. 예시적인 표지는 형광단, 발광단, 발색단, 나노입자(예컨대, 금, 은, 탄소 나노튜브), 중원자, 방사성 동위원소, 매쓰 표지, 전하 표지, 스핀 표지, 수용체, 리간드, 핵산 바코드, 폴리펩티드 바코드, 다당류 바코드 등을 포함하지만 이에 제한되지 않는다. 표지는, 예컨대 방사선의 흡광도, 발광(예컨대, 형광 또는 인광) 방출, 발광 수명, 발광 편광 등과 같은 광학 신호; 레일리(Rayleigh) 및/또는 미에(Mie) 산란; 자기적 특성; 전기적 특성; 전하; 매쓰; 방사능 등을 포함한 다양한 검출 가능한 신호 중 임의의 것을 생성할 수 있다. 표지 성분은 특징적인 주파수, 강도, 극성, 지속 기간, 파장, 서열 또는 핑거프린트를 갖는 신호를 생성할 수 있다. 표지는 신호를 직접 생성할 필요가 없다. 예컨대, 표지는 특징적인 신호를 생성하는 모이어티를 갖는 수용체 또는 리간드에 결합할 수 있다. 이러한 표지는, 예컨대 특정 뉴클레오티드 서열, 아비딘, 비오틴, 알려진 수용체의 비-펩티드 리간드 등으로 코딩된 핵산을 포함할 수 있다.
본원에 제시된 방법은 유체상 또는 고체상에서 수행될 수 있다. 유체상 구성의 경우, 하나 이상의 단백질을 함유하는 유체를 하나 이상의 친화성 시약을 함유하는 다른 유체와 혼합할 수 있다. 고체상 구성의 경우, 하나 이상의 단백질 또는 친화성 시약을 고체 지지체에 부착할 수 있다. 결합 사건에 참여할 하나 이상의 성분은 유체에 함유될 수 있고 유체는 고체 지지체로 전달될 수 있으며, 고체 지지체는 결합 사건에 참여할 하나 이상의 다른 성분에 부착된다.
본 개시내용의 방법은 단일 분석물 분해로 수행될 수 있다. 단일 분석물(예컨대, 단일 단백질)은, 예컨대 다른 분석물로부터의 공간적 또는 시간적 분리를 기반으로 다른 분석물로부터 분해될 수 있다. 단일 분석물 분해에 대한 대안은 앙상블 분해 또는 벌크 분해이다. 벌크 분해 구성은 용기 내 또는 표면 상의 복수의 상이한 분석물 또는 친화성 시약으로부터 복합 신호를 획득한다. 예컨대, 웰 또는 큐벳 내 또는 고체 지지체 표면 상의 상이한 단백질 친화성 시약 복합체의 집단으로부터 복합 신호를 획득할 수 있으므로, 개별 복합체가 서로 분해되지 않는다. 앙상블 분해 구성은 샘플 내 단백질 또는 친화성 시약의 제1 수집으로부터 복합 신호를 획득하므로, 복합 신호는 샘플 내 단백질 또는 친화성 시약의 제2 수집에 의해 생성된 신호와 구별될 수 있다. 예컨대, 앙상블은 어레이의 상이한 주소에 위치될 수 있다. 따라서, 각각의 주소로부터 얻은 복합 신호는 앙상블로부터의 신호의 평균이 되지만, 상이한 주소로부터의 신호는 서로 구별될 수 있다.
본원에 제시된 조성물, 시스템 또는 방법은 하나 이상의 단백질(예컨대, 상이한 단백질의 어레이)을 복수의 상이한 친화성 시약과 접촉시키도록 구성될 수 있다. 예컨대, 복수의 친화성 시약(별도로 구성되거나 풀로 구성됨)은 적어도 2, 5, 10, 25, 50, 100, 250, 500, 1000개 또는 그 초과의 유형의 친화성 시약을 포함할 수 있으며, 각각의 유형의 친화성 시약은 인식되는 에피토프(들)와 관련하여 다른 유형과 상이하다. 대안적으로 또는 추가적으로, 복수의 친화성 시약은 최대 1000, 500, 250, 100, 50, 25, 10, 5, 또는 2개 유형의 친화성 시약을 포함할 수 있으며, 각각의 유형의 친화성 시약은 인식되는 에피토프(들)와 관련하여 다른 유형과 상이하다. 풀 내의 상이한 유형의 친화성 시약은 상이한 유형이 서로 구별될 수 있도록 독특하게 표지될 수 있다. 일부 구성에서, 풀 내의 상이한 유형의 친화성 시약 중 적어도 2개 및 최대 전부가 구별 가능하지 않게 표지될 수 있다. 특유한 표지를 사용하는 대신 또는 추가적으로, (예컨대, 어레이 내의) 하나 이상의 단백질을 평가할 때 상이한 유형의 친화성 시약을 연속적으로 전달하고 검출할 수 있다.
본 개시내용의 방법은 단일 분석물(예컨대, 단일 단백질 유전자 생성물)에 대해 또는 멀티플렉스 형식으로 수행될 수 있다. 분석물이 단백질인 멀티플레스 형식에서, 검출될 상이한 단백질은 상이한 특유한 확인자(예컨대, 어레이 내의 주소)에 부착될 수 있으며 단백질을 동시에 조작하고 검출할 수 있다. 예컨대, 하나 이상의 상이한 친화성 시약을 함유하는 유체는 어레이의 단백질이 친화성 시약(들)과 동시에 접촉되도록 어레이에 전달될 수 있다. 또한, 복수의 주소를 동시에 관찰할 수 있어 결합 사건을 신속하게 검출할 수 있다. 복수의 상이한 단백질은 적어도 5, 10, 100, 1 x 103, 1 x 104, 2 x 104, 3 x 104개 또는 그 초과의 상이한 천연 길이의 단백질 1차 서열의 복잡성을 가질 수 있다. 대안적으로 또는 추가적으로, 본원에 제시된 방법으로 분석되는 프로테옴 또는 프로테옴 하위분획은 최대 3 x 104, 2 x 104, 1 x 104, 1 x 103, 100, 10, 5개 또는 그 미만 상이한 천연 길이의 단백질 1차 서열의 복잡성을 가질 수 있다. 복수의 단백질은 프로테옴 또는 프로테옴의 하위분획을 구성할 수 있다. 검출, 특성화 또는 확인되는 샘플의 총 단백질 수는, 예컨대 적어도 일부 단백질 종의 다중 카피의 존재로 인해, 샘플 내의 상이한 1차 서열의 수와 상이할 수 있다. 또한, 검출, 특성화 또는 확인되는 샘플의 총 단백질 수는, 예컨대 적어도 일부 단백질 종의 다중 카피의 존재, 샘플에 대한 공급원 내의 일부 단백질의 부재, 샘플에 대한 공급원 내의 예상치 못한 단백질의 존재, 또는 분석 전 일부 단백질의 손실로 인해 샘플에 있는 것으로 의심되는 후보 단백질의 수와 상이할 수 있다.
특히 유용한 멀티플렉스 형식은 단백질 및/또는 친화성 시약의 어레이를 사용한다. 단백질은 다양한 수단 중 임의의 것을 사용하여 특유한 확인자(예컨대, 어레이의 주소)에 부착될 수 있다. 부착은 공유적이거나 비-공유적일 수 있다. 예시적인 공유 부착은 클릭 화학 또는 당업계에 알려져 있거나 미국 특허 출원 공개 번호 2021/0101930 A1(참조로 본원에 포함됨)에 기재된 다른 연결을 사용하여 달성되는 것과 같은 화학적 링커를 포함한다. 비-공유적 부착은 수용체-리간드 상호작용(예컨대 (스트렙트)아비딘-비오틴, 항체-항원 또는 상보적 핵산 가닥)에 의해 매개될 수 있으며, 예컨대 수용체는 특유한 확인자에 부착되고 리간드는 단백질에 부착되거나 그 반대이다. 특정 구성에서, 단백질은 구조화된 핵산 입자(SNAP)를 통해 고체 지지체(예컨대, 어레이의 주소)에 부착된다. 단백질은 SNAP에 부착될 수 있고, SNAP는, 예컨대 DNA와 지지체의 비-공유적 상호작용 및/또는 지지체에 대한 SNAP의 공유적 연결을 통해 고체 지지체와 상호작용할 수 있다. 핵산 오리가미 또는 핵산 나노볼이 특히 유용하다. 어레이 내의 태그 또는 주소와 같은 특유한 확인자에 단백질을 부착하기 위한 SNAP 및 다른 모이어티의 사용은 미국 특허 출원 공개 번호 2021/0101930 A1, WO 2021/087402 A1, 또는 미국 특허 출원 일련 번호 63/159,500(각각은 참조로 본원에 포함됨)에 제시되어 있다.
본 개시내용의 방법은 측정 결과를 결정하기 위해 단백질과 친화성 시약 사이의 결합을 검정하는 단계를 포함할 수 있다. 예컨대, 친화성 시약과 분석물의 접촉에 대한 측정 결과는 결합 결과로서 관찰될 수 있다. 결합 결과는 양성 또는 음성일 수 있다. 예컨대, 결합의 관찰은 양성 결합 결과이고 비-결합의 관찰은 음성 결합 결과이다. 결합 결과는, 예컨대 양성 결합 결과가 음성 결합 결과와 구별될 수 없는 경우 널 결합 결과일 수 있다.
결합은 사용된 반응 성분에 적합한 다양한 기술 중 임의의 것을 이용하여 검출될 수 있다. 예컨대, 결합은 친화성 시약이 관찰된 단백질에 결합될 때 친화성 시약에 부착된 표지로부터 신호를 획득하거나, 단백질이 관찰된 친화성 시약에 결합될 때 단백질에 부착된 표지로부터의 신호를 획득하거나, 서로 결합될 때 친화성 시약 및 단백질에 부착된 표지로부터의 신호(들)를 획득함으로써 검출될 수 있다. 일부 구성에서, 예컨대 핵산 태그 또는 다른 모이어티가 단백질과 친화성 시약 사이의 결합의 결과로 생성되거나 변형되는 형식에서 단백질-친화성 시약 복합체는 직접적으로 검출될 필요가 없다. 발광 강도 검출, 발광 수명 검출, 발광 편광 검출 또는 표면 플라즈몬 공명 검출과 같은 광학 검출 기술이 유용할 수 있다. 다른 검출 기술은 전계 효과 트랜지스터(FET), 이온 민감성 FET 또는 화학적 민감성 FET를 활용하는 기술과 같은 전자 검출을 포함하지만 이에 제한되지 않는다. 예시적인 방법은 미국 특허 번호 10,473,654 또는 미국 특허 출원 일련 번호 63/112,607 또는 63/132,170(각각은 참조로 본원에 포함됨)에 설명되어 있다.
본 개시내용은 결합 반응의 결과를 평가하는 데 사용될 수 있는 디코딩 방법을, 예컨대 디코딩 알고리즘의 형태로 제공한다. 결과는 단백질을 확인하거나 특성화하는 데 사용될 수 있다. 일부 구성에서, 샘플에서 확인될 단백질의 일부 또는 심지어 상당 부분에 대해 특이하고 재현 가능한 결합 프로필이 관찰될 수 있다. 그러나, 많은 경우에서, 하나 이상의 결합 사건은 결론에 이르지 못하거나 심지어 비정상적인 결과를 생성하며 이로 인해 모호한 결합 프로필이 생성될 수 있다. 예컨대, 단일 분자 분해로 결합 결과를 관찰하는 것은 개별적으로 관찰될 때 단일 분자 거동의 확률성으로 인해 특히 모호해지기 쉽다. 본 개시내용은 단일 분자 형식 또는 다른 상황에서 발생할 수 있는 모호함 및 불완전성에도 불구하고 정확한 단백질 확인을 제공하는 디코딩 방법을 제공한다.
일부 구성에서, 샘플 내의 하나 이상의 현존 단백질을 확인하거나 특성화하는 방법은 샘플 내의 각각의 현존 단백질과 복수의 친화성 시약 사이에서 수행된 복수의 결합 반응에 대해 획득된 경험적 결합 프로필을 분석하는 디코딩 방법을 활용하며, 이어서 복수의 후보 단백질에 대한 친화성 시약의 결합 거동과 관련하여 경험적 결합 프로필을 평가한다. 복수의 후보 단백질은 샘플에 존재하는 것으로 알려져 있거나 의심되는 단백질을 포함할 수 있다. 따라서, 복수의 후보 단백질은 복수의 천연 아미노산 서열을 포함할 수 있다. 디코딩 알고리즘은 경험적 결합 프로필과 가장 적합한 결합 특성을 갖는 후보 단백질로서 현존 단백질의 정체를 출력할 수 있다. 이러한 호환성은 경험적 결합 프로필을 생성하는 데 사용된 각각의 친화성 시약에 대한 각각의 후보 단백질의 친화성을 나타내는 결합 모델을 기반으로 결정될 수 있다. 강력한 후보 단백질은 모델링된 결합 결과가 평가된 다른 후보 단백질과 비교하여 경험적 결합 프로필과 더 일치하는 것으로 확인될 수 있다.
본 개시내용의 디코딩 방법은 양성 결합 결과를 평가하도록 구성될 수 있다. 검열된 디코드 구성에서, 디코딩 방법은 음성 결합 결과를 평가하지 않고 양성 결합 결과를 평가할 수 있다. 무검열된 디코드 구성에서, 강력한 후보 단백질은 평가된 다른 후보 단백질과 비교하여 양성 결합 결과와 음성 결합 결과의 조합이 경험적 결합 프로필과 더 일치하는 것으로 확인될 수 있다. 후보 단백질은 양성 결합 결과 및/또는 음성 결합 결과가 평가되는 경험적 결합 프로필과 일치하지 않는 많은 사례를 갖는 것에 기초하여 약하거나 심지어 부정확한 것으로 확인될 수 있다. 가장 강력한 후보 단백질은 현존 단백질에 대한 가장 유력한 정체로 간주될 수 있으며, 이러한 확인에서의 신뢰도는 다른 모든 후보 단백질과 비교하여 가장 유력한 단백질의 호환성에 대한 상대적 척도로 산출될 수 있다.
컴퓨터 프로세서는 다양한 입력에 기초하여 하나 이상의 현존 단백질에 대한 정체를 출력하는 디코딩 방법을 실행하도록 구성될 수 있다. 특히 유용한 입력은 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 경험적 결합 데이터이다. 결합 데이터는 복수의 결합 결과를 포함하는 경험적 결합 프로필의 형태일 수 있다. 경험적 결합 프로필은 양성 결합 결과 또는 음성 결합 결과를 포함할 수 있다. 후보 결과 프로필의 경우에도 마찬가지이다. 일부 구성에서, 결합 프로필은 양성 결합 결과 및 음성 결합 결과 모두를 포함할 것이다. 예컨대, 디코딩은 '무검열된' 구성으로 수행될 수 있으며, 양성 결합 결과 및 음성 결합 결과가 모두 고려된다. 대안적으로, 디코딩은 '검열된' 구성으로 수행될 수 있으며, 결합 결과의 서브세트 또는 특정 유형의 결합 결과가 고려되지 않는다. 예컨대, 검열된 구성은 양성 결합 결과를 고려하고 음성 결합 결과를 생략할 수 있다. 검열된 접근법은, 예컨대 특정 결합 측정값 또는 결합 결과가 허용할 수 없거나 바람직하지 않은 수준의 오류 또는 인공물이 발생하기 쉽다고 예상되는 상황에서 유용할 수 있다.
무검열된 디코드는 하나 이상의 후보 단백질의 정체를 갖는 주어진 현존 단백질의 공산을 계산할 때 양성 결합 결과 및 음성 결합 결과 모두를 동일하게 활용하도록 구성될 수 있다. 예컨대, 각각의 프로브가 각각의 후보 단백질에 결합할 공산은 경험적 결과로부터 알 수 있고/있거나 선험적 결정으로부터 예측될 수 있다. 각각의 프로브가 각각의 후보 단백질에 결합하지 않을 공산은 1에서 결합 확률을 뺀 값으로 간단히 결정될 수 있다. 본 개시내용은 '반검열된' 디코딩 구성을 제공하며, 양성 및 음성 결합 결과는 서로 독립적으로 평가된다. 반검열된 디코드는 음성 결합 결과를 양성 결합 결과보다 덜 유익한 것으로 처리하도록 구성될 수 있다. 음성 결합 결과를 현존 단백질의 아미노산 서열에 대해 유익한 것으로 처리하는 대신, 음성 결합 결과를 결합되지 않은 기존 단백질의 길이에 대해 유익한 것으로 처리할 수 있다. 본원에 제시된 방법의 일부 구성에서, 반검열된 디코드는 더 짧은 단백질이 더 긴 단백질에 대한 양성 결합 결과의 수와 비교하여 주어진 친화성 시약 세트에 대해 더 적은 양성 결합 결과를 가질 것이라는 가정을 전제로 한다.
반검열된 구성의 경우, 음성 결합 확률은 양성 결합 확률의 산출과 관계없이 산출될 수 있다. 반검열된 구성은 양성 결합 결과에 이용되는 방법과 비교하여 음성 결합 결과로부터 단백질 공산을 업데이트하는 특유의 방법을 이용하는 이점을 제공한다. 반검열된 구성에서, 음성 결합 결과에 비해 양성 결합 결과에 더 큰 가중치가 부여될 수 있다. 대안적으로, 반검열된 구성에서 음성 결합 결과는 양성 결합 결과에 비해 더 큰 가중치가 부여될 수 있다. 하나 이상의 친화성 시약에 의한 높은 비율의 오프-타겟 결합과 같이 평가되는 결합 반응에서 예상되거나 의심되는 편향을 상쇄하기 위해 상이한 가중치가 적용될 수 있다.
경험적 결합 프로필은 본원에 제시된 디코딩 방법에 입력될 수 있다. 예컨대, 경험적 결합 프로필은 디코딩 방법을 수행하는 컴퓨터 프로세서에 입력될 수 있다. 경험적 결합 프로필을 구성하는 일련의 경험적 결합 결과는 본원에 제시되거나 당업계에 알려진 것과 같은 결합 반응을 사용하여 획득될 수 있다. 대안적으로, 결합 프로필은 시뮬레이션으로부터 얻어지고 경험적 결합 프로필과 유사하게 사용될 수 있다. 결합 프로필의 각각의 경험적 결합 결과는 현존 단백질과 복수의 친화성 시약 사이에서 수행되는 복수의 결합 반응 중 하나의 결합 반응으로부터 발생할 수 있다. 경험적 결합 프로필은 주어진 현존 단백질에 대해 모든 결합 결과가 획득된 후에 디코딩될 수 있다. 대안적으로, 예컨대 결합 결과가 연속적으로 획득되는 경우, 일련의 초기 결합 반응으로부터 경험적 결합 결과의 평가가 시작되고 아마도 일련의 후속 결합 반응에 대한 경험적 결합 결과의 획득 전 또는 획득 동안 완료되도록 디코딩이 실시간으로 발생할 수 있다. 복수의 경험적 결합 결과는 반드시 연속적으로 획득될 필요는 없으며, 예컨대 대신에 경험적 결합 프로필의 일부 또는 모든 결합 결과가 동시에 발생하는 결합 반응으로부터 획득되도록 획득된다.
디코딩 방법에 대한 또 다른 유용한 입력은 복수의 후보 단백질에 대한 정보이다. 예컨대, 복수의 후보 단백질에 대한 정보(예컨대, 후보 단백질 정보의 데이터베이스)가 디코딩 방법을 수행하는 컴퓨터 프로세서에 입력될 수 있다. 복수의 후보 단백질은 적어도 10, 25, 50, 75, 100, 500, 1 x 103, 1 x 104, 1 x 106, 1 x 108개 또는 그 초과의 상이한 후보 단백질을 포함할 수 있다. 일부 경우에서, 완전한 프로테옴 또는 이의 상당 분획이 포함될 수 있다. 예컨대, 데이터베이스는 본원에 제시되거나 당업계에 알려진 프로테옴에 존재하는 것으로 알려져 있거나 의심되는 단백질의 적어도 10%, 25%, 50%, 75%, 90%, 95%, 99% 또는 그 초과를 포함할 수 있다. 데이터베이스는 하나 초과의 유기체로부터의 후보 단백질을 포함할 수 있다. 예컨대, 데이터베이스는 마이크로바이옴 또는 환경 샘플과 같은 주어진 생태계로부터의 유기체, 종의 특정 과, 강 또는 속의 유기체; 또는 알려진 모든 종으로부터의 모든 알려진 단백질을 포함할 수 있다.
후보 단백질의 데이터베이스에 포함될 수 있는 정보는 1차 구조(즉, 아미노산 서열), 2차 구조, 3차 구조, 4차 구조, 이름 또는 후보 단백질에 관한 다른 정보을 포함하지만 이에 제한되지 않는다. 임의적으로, 아미노산 서열을 나타내기 위한 텍스트 기반 형식은 본원에 제시된 방법 또는 시스템에서 데이터베이스로 사용될 수 있다. FASTA 형식으로 제공되는 정보가 특히 데이터베이스로 유용하다. 임의적으로 아미노산 서열 이외의 정보도 데이터베이스에 포함될 수 있다. 데이터베이스에 포함될 수 있는 특히 유용한 정보는, 예컨대 하나 초과의 친화성 시약과 단백질의 결합에 대한 결합 특징을 포함한다. 그러나, 이러한 정보는 데이터베이스에 포함될 필요가 없으며 대신 결합 모델에 의해 제공될 수 있다. 예컨대, 정보는 복수의 후보 단백질 각각에 복수의 친화성 시약 각각이 결합할 확률을 포함할 수 있다. 일부 구성에서, 이러한 결합 확률 또는 다른 결합 특징은, 예컨대 하나 이상의 알려진 후보 단백질과 하나 이상의 알려진 친화성 시약(들) 사이에서 수행된 결합 실험으로부터 경험적으로 유도된다. 일부 실시양태에서, 결합 확률 또는 다른 결합 특징은 후보 단백질의 1차 구조(예컨대 아미노산 서열)에 의심되는 에피토프 서열의 존재와 같은 선험적 정보에 기초하여 유도된다. 본원의 실시예 I에 제시된 것과 같이 공개적으로 이용 가능한 다양한 데이터베이스 중 임의의 것이 사용될 수 있다.
데이터베이스는 후보 단백질이 양성 결합 결과를 생성할 확률 또는 공산을 포함할 수 있다. 이러한 정보는, 예컨대 검열된, 무검열된 또는 반검열된 구성을 포함한 여러 디코딩 구성에 유용할 수 있다. 데이터베이스는 후보 단백질 또는 슈도 단백질이 음성 결합 결과를 생성할 확률 또는 공산을 추가로 포함할 수 있다. 이러한 정보는 무검열된 또는 반검열된 디코딩 구성에 유용할 수 있다.
결합 모델은 본원에 제시된 디코딩 방법에 입력될 수 있다. 예컨대, 결합 모델은 디코딩 방법을 수행하는 컴퓨터 프로세서에 입력될 수 있다. 임의적으로, 결합 모델은 단백질과 복수의 친화성 시약 각각 사이에서 발생하는 특이적 결합 사건의 확률을 결정하기 위한 함수를 포함할 수 있다. 일부 구성에서, 결합 모델은 단백질 에피토프와 복수의 친화성 시약 각각 사이에서 발생하는 특이적 결합 사건의 확률을 결정하기 위한 함수를 포함할 수 있다. 모델에 의해 평가된 에피토프는 다양한 관심 특성 중 임의의 것을 가질 수 있다. 예컨대, 에피토프는 정의된 길이(예컨대, 단백질 1차 서열에서 2, 3, 4, 5 또는 6개 이하의 아미노산인 에피토프 길이) 또는 화학적 조성(예컨대, 단백질 1차 서열의 아미노산 서열)을 가질 수 있다. 일부 경우에서, 화학적 조성은 전하, 극성, 소수성, 입체적 크기, 입체적 형태 등과 같은 아미노산 측쇄 (또는 다른 모이어티)의 화학적 특성과 관련하여 비교적 일반적일 수 있다. 예컨대, 에피토프의 화학적 조성은 또 다른 에피토프와의 생물학적 유사성 측면에서 표현될 수 있다.
본원에 제시된 디코딩 방법은 주어진 데이터베이스 내의 복수의 후보 단백질 중 일부 또는 모든 가능한 후보 단백질에 각각의 친화성 시약이 결합할 확률을 계산하는 함수를 포함할 수 있다. 함수는 양성 결합 결과를 고려할 수 있다. 임의적으로, 함수는, 예컨대 함수가 무검열되거나 반검열된 구성에서 사용되는 경우, 음성 결합 결과를 추가로 고려할 수 있다. 임의적으로, 결합 확률을 매트릭스로 구성될 수 있다. 실시예 I에서 입증되는 바와 같이, 양성 결합 결과는 M x N 결합 확률 매트릭스 B에 포함될 수 있다. 무검열된 구성에서, 프로브가 단백질에 결합하지 않을 확률은 하기와 같이 표현될 수 있다: P(친화성 프로브가 결합하지 않음 | 단백질) = 1 - P(친화성 프로브 결합 | 단백질). 결합 확률 매트릭스를 사용하는 경우, 비-결합 확률 매트릭스 U는 U = 1 - B로 계산될 수 있다. 그러나, 무검열된 접근법은 디코딩에 큰 영향을 미치는 하나 이상의 비-결합 사건에 의해 부정적인 영향을 받을 수 있다. 예컨대, 친화성 시약은 예측하기 어려운 여러 가지 이유로 인해 특정 부위에 결합하지 못할 수 있다(예컨대, 단백질 구조, 결합을 방해하는 예상치 못한 번역 후 변형의 존재 등).
일부 경우에서, 디코딩은 짧은 단백질 또는 긴 단백질 쪽으로 지나치게 편향될 수 있다. 정규화 인자는 디코딩 결과가 짧거나 긴 단백질에 대해 과도하게 편향되는 것을 방지하는 데 사용될 수 있으며, 이에 따라 서열 길이 편향을 극복하기 위해 예상 확인을 이동할 수 있다. 일부 경우에서, 결합 확률을 정규화 상수로 나누어 단백질 길이에 대해 결합 확률을 정규화할 수 있다. 또 다른 접근법은 무검열된 디코딩이 누락된 결합 사건에 대해 보다 탄력적으로 적응되는 블라인드 무검열된 접근법을 이용하는 것이다. 이는 음성 결합 결과에 대한 확률을 조정함으로써 수행될 수 있다. 예컨대, 미지의 정체의 삼량체가 결합하지 않을 확률이 각각의 친화성 시약에 대해 산출될 수 있다:
여기서, p_(삼량체_i) = 프로테옴에 삼량체가 나타날 확률 (삼량체_i 빈도)/프로테옴 중 삼량체의 총 #)이고,
bp_(삼량체_i) = 삼량체_i에 대한 프로브의 결합 확률이고,
이 사례에서 b는 상수가 아니다.
길이가 N인 단백질에 대한 비-결합 확률은 하기와 같이 설정될 수 있다.
Q N (미지의 삼량체 조성의 길이 N의 단백질에 대한 비-결합의 확률)
상기 접근법은 각각의 단백질의 특정 삼량체 조성을 고려하지 않고 길이별로 단백질을 정규화하는 데 이용될 수 있다. 상기 접근법은 다른 길이를 갖는 에피토프에 대해 쉽게 조정될 수 있다. 또 다른 구성에서, 훈련 포인트로서 복수의 상이한 단백질을 사용하여 θ에 대한 θ N j = (1 - P(프로브 결합 단백질 j ))를 해결하기 위해 회귀가 사용될 수 있다는 점을 제외하고는, 삼량체에 대해 상기와 같이 블라인드 무검열된 디코딩을 계산할 수 있다(NB "프로브"는 이 문맥에서 "친화성 시약"을 의미함). 예컨대 j = 1 . . . 20,000인 경우 20,000개의 단백질을 훈련 포인트로 사용할 수 있다. 상기 분석은, 예컨대 이량체, 사량체, 오량체 등을 포함하는 삼량체 이외의 크기의 에피토프와 함께 사용하기 위해 변형될 수 있다.
이항 근사가 길이 정규화에 이용될 수 있다. 근사는 가능한 특이적 결합 사건의 총 수 및 가능한 비-특이적 결합 사건의 총 수를 카운팅하고; 가능한 특이적 결합 사건 간의 평균 결합 확률 계산: 를 산출하고; 가능한 비-특이적 결합 사건 간의 평균 결합 확률: 을 산출하고; 관찰된 결합 사건 세트에 대해, 관찰된 특이적 사건(O s ) 및 관찰된 비-특이적 사건(O ns )의 수를 카운팅하고(동일한 분류 메트릭을 사용); Binom(S, ).pmf(O s )*Binom(NS, ).pmf(O ns )로서 후보 단백질에 대한 관찰된 결합 사건 카운트의 확률을 산출함으로써 수행될 수 있다. 일부 경우에서, 관찰된 결합 사건을 갖는 단백질 주소를 디코딩할 때, 관찰된 결합 사건 카운트를 생성할 합리적인 확률을 갖는 단백질만 고려된다. 임의적으로, 이항 근사는 본원에 제시된 것과 같은 반검열된 디코딩 구성에 포함될 수 있다.
길이 정규화는 포아송(Poisson) 이항식(예컨대, 정확한 또는 추정된 포아송 이항식)을 이용할 수 있다. 정규화는 하기와 같이 수행될 수 있다. 결합 확률 p = {p 1 ,p 1 ,p 1 … p 300 }을 갖는 단백질의 경우, p에 의해 파라미터화된 포아송-이항식 분포의 pmf를 사용하여 N 결합 사건을 관찰할 확률을 산출하고; 각각의 후보 단백질에 대해, 관찰된 결합 사건의 공산에 PoiBin(p).pmf(N)을 곱한다. 포아송 이항식 pmf는 "정확한" 산출 방법 또는 리파이닝된 정상 근사(정상 분포 + 왜곡)를 사용하여 계산될 수 있다(Hong et al., Computational Statistics & Data Analysis 59:41-51 (2013), 참조로 본원에 포함됨).
길이 정규화는 또한 본원에 제공된 반검열된 접근법을 통해 수행될 수 있다. 반검열된 구성은 비-결합 사건의 총 수가 관찰된 비-결합 사건의 특정 정체보다 더 많이 고려되게 할 수 있다. 실시예 I은 후보 단백질의 길이 및 특정 아미노산 길이(예컨대, 이량체, 삼량체, 사량체 등)의 가능한 모든 특유한 에피토프의 상대적 빈도와 같은 후보 단백질의 두드러진 특성을 설명하기 위해 비-결합 확률이 조정되는 반검열된 구성을 나타낸다. 친화성 시약에 대한 평균 비-결합 확률의 벡터를 산출할 수 있다. 예컨대, 전체 8000개의 삼량체에 대해 평균화되고 후보 단백질 데이터베이스 내의 각각의 삼량체의 상대적 빈도로 가중치가 부가된, 주어진 친화성 시약이 삼량체 에피토프에 결합하지 않을 확률이 계산될 수 있다.
짧은 또는 긴 단백질에 대해 디코딩 결과가 과도하게 편향되는 것을 방지하는 데 사용될 수 있는 또 다른 접근법은 샘플에 있는 것으로 의심되지만 단백질의 아미노산 서열은 인지 불능인 단백질의 길이를 기반으로 하는 음성 결합 결과의 확률을 예측하기 위해 반검열된 디코딩 방법을 구성하는 것이다. 임의적으로, 예측은 샘플 검정에 사용되는 친화성 시약에 대한 에피토프에 대한 지식과 무관하게 이루어질 수도 있다. 예컨대, 음성 결합 결과의 확률은 에피토프에 대한 서열 길이와 관계없이 예측될 수 있다. 따라서, 디코딩은 이량체, 삼량체, 사량체 또는 다른 길이의 에피토프의 사용에 동등하게 적용 가능한 알고리즘을 기반으로 할 수 있다. 하기에 더 자세히 기재된 바와 같이, 슈도 단백질 세트가 생성될 수 있고 이 세트는 음성 결합 확률을 예측하는 데 사용될 수 있다.
반검열된 디코딩 방법은 주어진 샘플에 존재하는 것으로 알려져 있거나 의심되는 아미노산 서열을 포함하는 복수의 후보 단백질을 사용하도록 구성될 수 있다. 예컨대, 인간으로부터의 단백질을 평가하도록 구성된 디코딩 방법은 인간 고유의 아미노산 서열을 포함하는 복수의 후보 단백질을 활용할 수 있다. 반검열된 디코딩 방법은 후보 단백질 세트와 임의적으로 상이할 수 있는 슈도 단백질 세트를 사용하도록 추가로 구성될 수 있다. 천연 서열을 갖는 복수의 후보 단백질은 친화성 시약과 후보 단백질 사이의 양성 결합 결과에 대한 확률을 결정하는 데 유용할 수 있다. 복수의 슈도 단백질은 친화성 시약과 후보 단백질 사이의 음성 결합 결과에 대한 확률을 결정하는 데 유용할 수 있다.
일부 구성에서, 슈도 단백질 세트는 주어진 샘플에 존재하지 않는 것으로 알려져 있거나 의심되는 전체 길이의 아미노산 서열을 포함할 수 있다. 예컨대, 슈도 단백질 세트의 전체 길이의 아미노산 서열은 후보 단백질 세트에 존재할 필요가 없으며 그 반대도 마찬가지이다. 대안적으로, 단일한 전체 길이의 아미노산 서열 또는 아미노산 서열의 서브세트가 슈도 단백질 세트 및 후보 단백질 세트 모두에 존재할 수 있다. 일부 구성에서, 부분적 아미노산 서열은 슈도 단백질 세트 및 후보 단백질 세트 모두에 존재할 수 있다. 두 세트 모두에 존재하는 부분적 서열은 최대 50, 40, 30, 20, 10, 9, 8, 7, 6, 5, 4 또는 3개의 순차적 아미노산을 포함할 수 있다. 대안적으로 또는 추가적으로, 두 세트 모두에 존재하는 부분적 서열은 적어도 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 또는 50개의 순차적 아미노산을 함유할 수 있다. 또 다른 구성에서, 전체 길이이든 부분적이든 무관하게 동일한 아미노산 서열이 슈도 단백질 세트 및 후보 단백질 세트 모두에 존재할 수 있다.
특정 유기체로부터의 단백질을 평가하도록 구성된 디코딩 방법의 예를 살펴보면, 유기체에 고유하지 않은 아미노산 서열을 포함하는 슈도 단백질 세트가 활용될 수 있다. 예컨대, 슈도 단백질 세트는 평가 중인 유기체가 아닌 하나 이상의 유기체에 고유한 아미노산 서열을 포함할 수 있다. 임의적으로, 복수의 후보 단백질에는 주어진 샘플에 고유하지 않은(예컨대, 특정 유기체에 고유하지 않은) 전체 길이의 아미노산 서열이 결여될 수 있고, 복수의 슈도 단백질에는 주어진 샘플에 고유한(예컨대, 특정 유기체에 고유한) 아미노산 서열이 결여될 수 있다.
반검열된 디코딩 방법을 수행하는 경우, 슈도 단백질의 수는 후보 단백질의 수와 실질적으로 동일할 수 있다. 예컨대, 복수의 후보 단백질은 주어진 샘플에 존재하는 것으로 알려져 있거나 의심되는 단백질에 대한 천연 서열을 포함할 수 있고, 복수의 슈도 단백질은 복수의 후보 단백질의 천연 서열 각각과 관련된 아미노산 서열을 포함할 수 있다. 슈도 아미노산 서열은 후보 단백질 중 천연 아미노산 서열의 전체 길이와 동일한 전체 길이를 갖는 각각의 슈도 아미노산 서열에 의해 각각의 천연 서열과 관련될 수 있다. 그러나, 각각의 슈도 서열은 서열의 아미노산 함량 측면에서 관련된 천연 서열과 임의적으로로 상이할 수 있다.
대안적인 구성에서, 반검열된 디코딩 방법에서 활용되는 슈도 단백질의 수는 활용되는 후보 단백질의 수보다 클 수 있다. 예컨대, 복수의 후보 단백질은 주어진 샘플에 존재하는 것으로 알려져 있거나 의심되는 단백질에 대한 천연 서열을 포함할 수 있고, 복수의 슈도 단백질은 천연 서열 각각과 관련된 다수의 슈도 서열을 포함할 수 있다. 복수의 후보 단백질 내의 개별 천연 서열은 각각 복수의 슈도 단백질의 적어도 2, 3, 4, 5, 10, 25개 또는 그 초과의 슈도 서열과 관련될 수 있다. 다시 말하면, 슈도 서열은 두 서열의 길이 측면에서 각각의 천연 서열과 관련될 수 있다. 그러나, 각각의 슈도 서열은 아미노산 함량 측면에서 관련 천연 서열과 상이할 수 있다.
다양한 방법 중 임의의 것을 이용하여 슈도 단백질 세트를 생성할 수 있다. 예컨대, 슈도 아미노산 서열은 무작위로 선택될 수 있다. 보다 구체적인 예로서, 천연 서열에서 아미노산의 순서를 스크램블링함으로써 개별 천연 서열에 대해 슈도 서열이 생성될 수 있다. 또 다른 옵션은 20개의 천연 아미노산 중 하나를 천연 서열의 길이를 따라 각각의 위치에 무작위로 할당하여 개별 천연 서열에 대한 슈도 서열을 생성하는 것이다.
임의적으로, 슈도 서열 세트는 본원에 제시된 디코딩 방법을 이용하여 평가될 프로테옴 또는 다른 샘플에 존재하는 복수의 천연 아미노산 서열의 특성을 반영하기 위해 슈도 아미노산 서열을 편향하거나 가중치를 부여하는 방식으로 생성될 수 있다. 예컨대, 주어진 샘플에 대한 모든 후보 단백질(예컨대, 프로테옴 내의 모든 단백질)이 아미노산 서열 길이에 따라 빈(bin)으로 집계되는 비닝(binning) 접근법을 이용할 수 있다. 각각의 빈 내에서 무검열된 비-결합 공산이 각각의 단백질에 대해 예측될 수 있으며 중앙값은 전체 빈에 대한 반검열된 비-결합 공산으로 사용될 수 있다. 따라서, 빈 내의 단백질은 샘플의 서열 편향을 나타낸다.
이용될 수 있는 또 다른 접근법은 관심 있는 프로테옴 (또는 다른 샘플)의 서열 편향을 나타내는 슈도 서열 세트를 생성하고 슈도 서열에 대한 비-결합 확률을 예측하는 것이다. 예컨대, 마르코브(Markov) 모델을 사용할 수 있다. 마르코브 모델은 서열 요소의 확률이 요소 이전의 제한된 컨텍스트를 기반으로 하도록 서열을 모델링하는 데 사용될 수 있는 통계 기술이다. 마르코브 모델은 서열 내의 아미노산의 컨텍스트 의존적 확률의 관점에서 아미노산 서열을 관찰할 확률을 인수분해하는 데 사용될 수 있다. 슈도 서열의 수집은 하기 실시예 II에 기재된 바와 같이 복수의 천연 서열 내의 아미노산 서열의 마르코브 체인 몬테 카를로(Markov chain Monte Carlo) 샘플링에 의해 생성될 수 있다.
마르코브 체인은 특정 검정 조건 또는 샘플에 적합하도록 조정될 수 있다. 예컨대, 샘플에서 하나 이상의 단백질이 과도하게 표현되거나 과소하게 표현되는 것을 설명하기 위해 전이 확률을 변형할 수 있다. 이 접근법은, 예컨대 샘플이 하나 이상의 단백질 서열에 대해 실험적으로 농축될 때 유용할 수 있다. 따라서, 단백질 샘플은, 예컨대 면역침전, 크로마토그래피 또는 다른 알려진 분리 기술을 통해 분획화될 수 있고, 분획화된 샘플에 대한 검정 결과는 마르코브 체인에서 적절하게 변형된 전이 확률을 사용하여 유도된 슈도 단백질 세트로 디코딩될 수 있다. 유사하게, 변형된 전이 확률은 특정 질환(예컨대, 암) 또는 유전자 조작으로부터 발생할 수 있는 하나 이상의 단백질의 과다발현 또는 과소발현으로 인한 프로테옴의 변화를 설명하는 데 사용될 수 있다.
사용될 수 있는 또 다른 알고리즘은 생성적 대립 네트워크(GAN)이다. 예컨대, GAN은 슈도 단백질 세트가 후보 단백질 세트와 유사한 아미노산 서열 특징을 갖도록 후보 단백질 세트로부터 슈도 단백질 세트를 생성할 수 있다. 일부 경우에서, GAN은 디코딩 방법에 사용될 후보 단백질 세트가 아닌 단백질 세트에서 슈도 단백질 세트를 생성할 수 있다. 예컨대, GAN은 디코딩에 사용될 후보 단백질 세트 내의 아미노산 서열의 서브세트에 기초하여, 디코딩에 사용될 후보 단백질 세트의 일부 또는 모든 서열을 포함하는 아미노산 서열의 보다 큰 세트에 기초하여, 또는 디코딩에 사용될 후보 단백질에 대한 유기체와 다른 유기체로부터의 아미노산 서열 세트에 기초하여 슈도 단백질 세트를 생성할 수 있다. 기대 최대화 알고리즘을 이용하여 슈도 단백질 세트를 생성할 수도 있다.
복수의 슈도 단백질은 복수의 후보 단백질의 아미노산 조성과 실질적으로 동일한 전체 아미노산 조성을 가질 수 있다. 또 다른 예에서, 복수의 슈도 단백질은 복수의 후보 단백질 내의 아미노산 k-mer의 전체 조성과 실질적으로 동일한 아미노산 k-mer의 전체 조성(예컨대, 이량체, 삼량체, 사량체, 오량체 등)을 가질 수 있다. 복수의 슈도 단백질은 복수의 후보 단백질 내의 서열 편향과 실질적으로 동일한 서열 편향을 가질 수 있다. 예컨대, 서열 컨택스트에 대한 특정 k-mer의 의존성은 복수의 후보 단백질에서와 마찬가지로 복수의 슈도 단백질에서도 동일할 수 있다. 이 예에서, 서열 컨택스트는 k-mer의 업스트림 또는 다운스트림에 있는 단일 아미노산의 유형을 지칭할 수 있다. 일부 경우에서, 서열 컨택스트는 k-mer의 업스트림 또는 다운스트림에 발생하는 2개 이상의 아미노산의 하위서열을 지칭할 수 있다.
따라서, 현존 단백질을 확인하는 방법은 하기 단계를 포함할 수 있다: (a) 컴퓨터 프로세서에 입력을 제공하는 단계로서, 입력은 (i) 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 양성 결합 결과 및 음성 결합 결과를 포함하는 결합 프로필로서, 복수의 결합 결과의 개별 결합 결과는 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하는 것인 결합 프로필, (ii) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스, 및 (iii) 각각의 상이한 친화성 시약에 대한 결합 모델을 포함하는 것인 단계; (b) 결합 모델에 따른 데이터베이스 내의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계로서, 결정은 양성 결합 결과 및 음성 결합 결과에 대한 확률을 산출하는 것을 포함하고, 양성 결합 결과는 음성 결합 결과에 비해 더 큰 가중치가 부여되는 것인 단계; 및 (c) 현존 단백질을 선택된 후보 단백질로서 확인하는 단계로서, 선택된 후보 단백질은 현존 단백질에 대한 결합 프로필과 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질인 단계. 임의적으로, 단계 (b)는 (i) 각각의 후보 단백질과 각각의 친화성 시약 사이에서 발생하는 양성 결합 결과에 대한 확률을 산출하고, (ii) 복수의 슈도 단백질 내의 각각의 슈도 단백질과 각각의 친화성 시약 사이에서 발생하는 음성 결합 결과의 확률을 산출하는 것을 포함할 수 있다.
상기 방법의 임의의 구성에서, 복수의 슈도 단백질 내의 아미노산 서열은 복수의 후보 단백질 내의 아미노산 서열에 대한 전체 길이와 동일한 전체 길이를 갖는다. 추가 옵션으로서, 복수의 슈도 단백질에는 복수의 후보 단백질에 존재하는 일부 또는 모든 전체 길이의 아미노산 서열이 결여될 수 있다. 추가로 임의적으로, 복수의 슈도 단백질 내의 아미노산 서열은 마르코브 체인, 생성적 대립 네트워크 또는 길이 기반 비닝을 사용하여 복수의 후보 단백질 내의 아미노산 서열을 샘플링함으로써 생성될 수 있다.
본원에 제시된 방법에 사용되는 복수의 후보 단백질은 관심 있는 현존 단백질이 유래되는 샘플에 고유한 아미노산 서열을 포함할 수 있는 반면, 복수의 슈도 단백질은 샘플에 고유하지 않은 아미노산 서열을 포함할 수 있다. 임의적으로, 복수의 슈도 단백질의 개별 슈도 단백질은 각각 복수의 후보 단백질 내의 후보 단백질의 전체 길이와 동일한 전체 길이를 가질 수 있다.
본원에 제시된 디코딩 방법은 단백질과 복수의 친화성 시약 사이에서 발생하는 비-특이적 결합 사건의 확률을 결정하기 위한 함수를 포함할 수 있다. 모델은 주어진 후보 단백질 내의 하나 이상의 에피토프의 컨택스트를 설명할 수 있다. 예컨대, 확률을 결정하는 함수는 주어진 후보 단백질의 길이에 대해 정규화될 수 있다. 대안적으로 또는 추가적으로, 본원에 제시된 방법 또는 시스템에 사용되는 결합 모델은 후보 단백질과 각각의 친화성 시약 사이에서 발생하는 특이적 결합 사건의 확률을 결정하기 위한 함수를 포함할 수 있다. 다시 말하지만, 모델은 주어진 후보 단백질 내의 하나 이상의 에피토프의 컨택스트를 설명할 수 있다. 예컨대, 함수는 주어진 후보 단백질의 길이에 대해 정규화될 수 있다.
일부 구성에서, 디코딩 방법은 각각의 친화성 시약과 각각의 친화성 시약에 대한 특정 에피토프에 대해 바이오시밀러인 에피토프 사이에서 발생하는 결합 사건의 확률을 결정하기 위한 함수를 포함할 수 있다. 바이오시밀러 모델에서, 친화성 시약은 특정 확률로 결합하는 특정 에피토프를 표적으로 하는 것으로 간주될 수 있다. 예컨대, 확률은 적어도 0.01, 0.05, 0.1, 0.25 0.5, 0.75, 0.9, 0.99 또는 그 초과일 수 있다. 대안적으로 또는 추가적으로, 확률은 최대 0.99, 0.9, 0.75, 0.5, 0.25, 0.1, 0.05, 0.01 또는 그 미만일 수 있다. 친화성 시약은 또한 상기 범위의 확률로 하나 이상의 추가적인 1차 오프-타겟에 결합하는 것으로 간주될 수 있다. 추가적인 1차 표적의 수는 표적화된 에피토프에 대해 바이오시밀러인 적어도 1, 3, 5, 7, 9, 15, 20개 또는 그 초과의 에피토프일 수 있다. 대안적으로 또는 추가적으로, 추가적인 1차 표적의 수는 표적화된 에피토프에 대해 바이오시밀러인 최대 20, 15, 9, 7, 5, 3 또는 1개의 에피토프일 수 있다. 동일한 길이의 다른 모든 가능한 에피토프에 대한 표적 에피토프의 쌍별 유사성 점수를 산출한 후 높은 유사성 점수를 갖는 하나 이상의 다른 에피토프를 선택함으로써 바이오시밀러 에피토프 표적을 선택할 수 있다. 유사성 점수는, 예컨대 BLOSUM62 또는 생물학적 유사성을 결정하기 위한 다른 함수를 사용하여 각각의 서열 위치의 잔기의 쌍 간의 유사성을 합산하여 산출될 수 있다.
파라미터화된 결합 모델이 본 개시내용의 디코딩 방법에 사용될 수 있다. 예컨대, 친화성 시약에 의해 인식되는 각각의 특유한 표적 에피토프에 결합 확률을 할당함으로써 친화성 시약이 모델링될 수 있다. 임의적으로, 개별 친화성 시약에 비-특이적 결합률이 할당될 수 있다. 비-특이적 결합률은, 예컨대 주어진 친화성 시약이 단백질 내의 임의의 에피토프에 비-특이적으로 결합할 확률을 나타낼 수 있다. 주어진 후보 단백질에 친화성 시약이 결합할 확률은 먼저 특이적 결합 사건이 발생할 확률을 산출함으로써 산출될 수 있다. 모델은 주어진 단백질 서열 내의 각각의 에피토프의 카운트를 고려할 수 있다. 결합 모델 파라미터는 각각의 인식된 에피토프에 주어진 친화성 시약이 결합할 확률의 벡터를 포함할 수 있다. 또한, 모델은 비-특이적 단백질 결합 사건이 발생할 확률을 산출하는 함수를 포함할 수 있다. 임의적으로, 모델은 각각의 후보 단백질 서열의 길이, 친화성 시약에 의해 인식되는 에피토프의 길이 또는 둘 다를 고려할 수 있다. 친화성 시약이 단백질에 결합하여 검출 가능한 신호를 생성할 확률은 하나 이상의 특이적 또는 비-특이적 결합 사건이 발생할 확률로 표시될 수 있다. 예시적인 결합 모델은 본원의 실시예 I에 제공된다.
본원에 제시된 시스템 또는 방법의 일부 구성에서, 비-특이적 결합률은 입력으로서 제공될 수 있다. 입력은 모든 친화성 시약에 대한 하나의 고정된 비-특이적 결합률 또는 각각의 친화성 시약에 대한 특유한 비-특이적 결합률의 형태일 수 있다. 또한, 비-특이적 결합률은 친화성 시약 결합 모델 내의 다른 파라미터와 동일한 방식으로 반복적으로 및/또는 적응적으로 학습될 수 있다. 비-특이적 결합 사건은 단백질 이외의 물질에 대한 친화성 시약의 결합일 수 있다. 물질은 현존 단백질에 부착된 고체 지지체일 수 있다. 예컨대, 비-특이적 결합 사건은 관심 단백질이 존재하는 주소에 또는 그 근처의 위치와 같이 관심 단백질이 존재하지 않는 어레이 영역에서 발생할 수 있다. 일부 경우에서, 단백질이 존재하지 않는 빈 주소 또는 하나의 주소를 또 다른 주소와 분리하는 어레이 상의 틈새 영역에서 비-특이적 결합 사건이 발생할 수 있다. 임의적으로, 본원의 실시예 I에 예시된 바와 같이, 입력은 일련의 결합 반응 중 임의의 주어진 주기에서 표면 비-특이적 결합 사건이 발생할 확률을 설명하는 표면 비-특이적 결합률일 수 있다.
디코딩 알고리즘의 실행은 결합 반응에 사용된 각각의 후보 단백질에 결합하는 개별 친화성 시약에 대한 양성 결합 결과의 확률을 포함하는 확률 매트릭스를 산출하는 것을 포함할 수 있다. 임의적으로, 방법은 결합 반응에 사용된 각각의 후보 단백질에 결합하는 개별 친화성 시약에 대한 음성 결합 결과의 확률을 포함하는 확률 매트릭스를 산출하는 것을 추가로 포함할 수 있다. 예컨대, 조정된 비-결합 확률은 본원의 실시예 I 또는 실시예 II에 기재된 바와 같이 산출될 수 있다. 본원에 제시된 시스템 및 방법의 대안적인 구성에서, 음성 결합 결과의 확률은 1에서 양성 결합 결과의 확률을 차감함으로써 산출될 수 있으며, 확률은 0과 1 사이의 값으로 표시된다. 양성 및 음성 결합 결과는 동일하게 가중치가 부여될 수 있다. 대안적으로, 양성 결합 결과는 음성 결합 결과에 비해 더 크게 가중치가 부여될 수 있다. 다른 경우에서, 음성 결합 결과는 양성 결합 결과에 비해 더 크게 가중치가 부여될 수 있다. 후자의 가중치는 친화성 시약이 비-특이적으로 단백질에 결합할 수 있는 많은 예측하기 어려운 메커니즘을 설명하는 데 특히 바람직할 수 있다.
디코딩은 복수의 후보 단백질에 대한 공산의 벡터를 산출함으로써 수행될 수 있다. 가장 높은 공산의 후보 단백질을 선택할 수 있다. 예컨대, 선택된 후보 단백질은 주어진 현존 단백질에 대해 얻어진 대부분의 결합 결과와 일치하는 친화성 시약과 결합할 확률이 가장 높은 것일 수 있다. 또 다른 예에서, 관찰된 결합 결과의 확률을 곱하여 후보 단백질을 선택할 수 있다. 임의적으로, 상위 단백질에 동점이 있는 경우, 상위 단백질 중 하나를 무작위로 또는 또 다른 원하는 기준에 따라 선택할 수 있다. 확인이 정확할 확률은 다른 모든 후보 단백질이 정확할 공산의 합으로 나눈 상위 단백질이 정확할 공산에 기초할 수 있다. 단백질 정체는 디코딩 시스템 또는 방법으로부터 출력될 수 있다. 임의적으로, 확인이 정확할 확률은 출력될 수 있다. 확률은 선택된 후보 단백질의 공산을 디코딩 알고리즘에 의해 평가된 다른 모든 후보 단백질에 대해 결정된 공산의 합으로 나눈 몫으로 계산될 수 있다.
본원에 제시된 방법 또는 시스템과 조합하여 이용될 수 있는 예시적인 알고리즘 및 단백질을 특성화하는 방법은, 예컨대 미국 특허 출원 공개 번호 2020/0286584 A1 또는 문헌(Egertson et al., BioRxiv (2021), DOI: 10.1101/2021.10.11.463967)(각각은 참조로 본원에 포함됨)에 제시된 것을 포함한다.
디코딩 방법은 하나 이상의 현존 단백질에 대한 정체에 관한 정보를 출력할 수 있다. 주어진 단백질에 대한 정보 출력은 단백질에 대해 결정된 정체의 형태이거나 단백질의 하나 이상의 정체에 대한 확률 또는 공산의 형태일 수 있다. 예컨대, 현존 단백질에 대한 가장 유력한 정체, 특정 정체를 갖는 현존 단백질의 공산 또는 확률, 또는 둘 다는 디코딩 방법에 의해 출력될 수 있다. 디코딩 방법은 주어진 현존 단백질의 정체 또는 특정 정체를 갖는 현존 단백질의 공산에 대한 비-디지털 또는 비-이진 점수를 출력할 수 있다. 예컨대, 확률 또는 공산 점수는 0과 1 사이의 아날로그 값 또는 0%와 100% 사이의 백분율 값 형태로 출력될 수 있다. 일부 구성에서, 2개의 개별 상태 중 하나를 나타내는 디지털 또는 이진 점수는 단백질 또는 적어도 단백질이 속하는 단백질의 서브세트(예컨대, 공통 구조 모티프를 공유하는 단백질 계열)의 정체를 나타내기 위해 출력될 수 있다.
본원에 제시된 방법의 하나 이상의 단계는 검출 시스템에서 수행될 수 있다. 따라서, 검출 시스템은 본원에 제시된 방법의 하나 이상의 단계를 실행하도록 구성될 수 있다. 예컨대, 검출 시스템은 본원에 제시된 디코딩 방법의 하나 이상의 단계를 실행하도록 구성될 수 있다. 본원에 제시된 디코딩 방법은 검출 시스템의 정확도를 개선하도록 구성될 수 있다. 예컨대, 검출 시스템은 하나 이상의 현존 단백질에 대한 초기 정체 또는 특성화를 제공할 수 있고, 본원에 제시된 디코딩 방법은 초기 정체 또는 특성화에 비해 더 정확하거나 달리 개선된 후속 정체 또는 특성화를 출력하는 데 사용될 수 있다.
본 개시내용은 하기를 포함하는 검출 시스템을 제공한다: (a) 복수의 상이한 친화성 시약과 샘플 내의 복수의 현존 단백질 사이에서 발생하는 복수의 결합 반응으로부터 신호를 획득하도록 구성된 검출기; (b) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스; (c) 컴퓨터 프로세서로서, (i) 데이터베이스와 통신하고, (ii) 신호를 처리하여 복수의 결합 프로필을 생성하고, 각각의 결합 프로필은 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 복수의 결합 결과의 개별 결합 결과는 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하고, 각각의 결합 프로필은 양성 결합 결과 및 음성 결합 결과를 포함하며, (iii) 결합 프로필을 처리하여, 각각의 친화성 시약에 대한 결합 모델에 따른 데이터베이스 내의 각각의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하고; 및 (iv) 선택된 후보 단백질의 확인을 출력하고, 선택된 후보 단백질은 현존 단백질에 대한 복수의 결합 결과와 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질이도록 구성된 컴퓨터 프로세서.
현존 단백질을 확인하는 방법은 검출 시스템에서 수행될 수 있다. 방법은 하기를 포함할 수 있다: (a) 검출 시스템에서 수행되는 복수의 결합 반응으로부터 신호를 획득하는 단계로서, 결합 반응은 복수의 상이한 친화성 시약을 샘플 내의 복수의 현존 단백질과 접촉시키는 것을 포함하는 것인 단계; (b) 검출 시스템에서 신호를 처리하여 복수의 결합 프로필을 생성하는 단계로서, 각각의 결합 프로필은 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 복수의 결합 결과의 개별 결합 결과는 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하며, 각각의 결합 프로필은 양성 결합 결과 및 음성 결합 결과를 포함하는 것인 단계; (c) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스를 검출 시스템에 입력으로서 제공하는 단계; (d) 각각의 상이한 친화성 시약에 대한 결합 모델을 검출 시스템에 입력으로서 제공하는 단계; (e) 검출 시스템에서 복수의 결합 프로필을 처리하여, 결합 모델에 따른 데이터베이스 내의 각각의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계; 및 (f) 선택된 후보 단백질의 확인을 검출 시스템으로부터 출력하는 단계로서, 선택된 후보 단백질은 현존 단백질에 대한 복수의 결합 결과와 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질인 단계.
검출 시스템은 본원에 제시된 표지 또는 분석물을 검출하기 위해 당업계에 알려진 것과 같은 검출기를 포함할 수 있다. 검출기는 현존 단백질 또는 다른 분석물을 함유하는 어레이 또는 다른 용기로부터 신호(예컨대, 광학 신호)를 수집하도록 구성될 수 있다. 상보형 금속 산화물 반도체(CMOS) 또는 전하 커플링된 기기(CCD) 카메라와 같은 카메라는, 예컨대 발광단과 같은 광학 표지를 검출하는 데 특히 유용할 수 있다. 검출 시스템은, 예컨대 어레이 또는 다른 용기에서 현존 단백질, 친화성 시약 또는 다른 분석물을 여기시키도록 구성된 여기 공급원을 추가로 포함할 수 있다. 검출 시스템은 검출기와 현존 단백질을 함유하는 어레이 또는 다른 용기 사이에서 상대적 이동을 수행하도록 구성된 스캐닝 메커니즘을 포함할 수 있다. 임의적으로, 시간 지연 통합을 위해 스캐닝 메커니즘이 구성될 수 있다. 예컨대, 단일 분자 분해를 포함하여 어레이 표면 상의 단백질을 분해할 수 있는 검출기가 특히 유용할 수 있다. DNA 시퀀싱 시스템에 사용되는 검출기는 검출 시스템 또는 본원에 제시된 다른 장치에 사용하기 위해 변형될 수 있다. 예시적인 검출기는, 예컨대 미국 특허 번호 7,057,026; 7,329,492; 7,211,414; 7,315,019 또는 7,405,281, 또는 미국 특허 출원 공개 번호 2008/0108082 A1(각각은 참조로 본원에 포함됨)에 기재되어 있다.
검출 시스템은 본원에 제시된 방법의 반응 또는 다른 단계를 위해 반응 성분과 접촉하도록 구성된 유체공학 장치를 추가로 포함할 수 있다. 특정 실시양태에서, 반응은 어레이에서 발생한다. 본원에 제시된 어레이와 같은 다양한 어레이 중 임의의 것이 시스템에 존재할 수 있다. 검출될 단백질, 예컨대 어레이에 부착된 단백질은 다양한 반응 용기 중 임의의 것에 수용될 수 있다. 특히 유용한 반응 용기는 유동 셀이다. 유동 셀 또는 다른 용기는 영구적인 방식으로 또는 제거 가능한 방식으로 시스템에 존재할 수 있으며, 예컨대 손으로 제거하거나 보조 도구를 사용하지 않고 제거할 수 있다. 유동 셀 또는 다른 용기는 검출기가 하나 이상의 단백질(예컨대, 단백질의 어레이) 또는 어레이의 다른 분석물을 관찰하는 검출 윈도우를 가질 수 있다. 예컨대, 광학적으로 투명한 윈도우는 형광 측정기 또는 발광 검출기와 같은 광학 검출기와 함께 사용될 수 있다.
유체 장치는 유동 셀 또는 다른 용기의 입구에 유체적으로 연결된 하나 이상의 저장소를 포함할 수 있다. 저장소는 본원에 제시된 방법에 사용하기 위한 시약을 포함할 수 있다. 시스템은 저장소에서 용기로 시약을 유도하기 위한 펌프, 압력 공급 장치 또는 다른 유체 변위 장치를 추가로 포함할 수 있다. 시스템은 사용된 시약을 제거하기 위해 용기의 출구에 유체적으로 연결된 폐기물 저장소를 포함할 수 있다. 용기가 유동 셀인 실시양태를 예로 들면, 시약은 유동 셀 입구를 통해 유동 셀로 전달될 수 있으며, 그런 다음 시약은 유동 셀을 통해 흐르고 유동 셀 출구를 통해 폐기물 저장소로 나갈 수 있다. 따라서, 유동 셀은 시스템의 하나 이상의 저장소와 유체 연통할 수 있다. 유체 시스템은 저장소로부터 검출이 발생하는 용기로 시약을 보내기 위한 적어도 하나의 매니폴드 및/또는 적어도 하나의 밸브를 포함할 수 있다. 본 개시내용의 시스템에 사용될 수 있는 예시적인 유체 기구는 핵산 시퀀싱 반응에 배치되는 것과 같이 시약의 주기적 전달을 위해 구성된 것을 포함한다. 예시적인 유체 장치는 미국 특허 출원 공개 번호 2009/0026082 A1; 2009/0127589 A1; 2010/0111768 A1; 2010/0137143 A1; 또는 2010/0282617 A1; 또는 미국 특허 번호 7,329,860; 8,951,781 또는 9,193,996(각각은 참조로 본원에 포함됨)에 제시되어 있다.
본 개시내용은 본원에 제시된 방법, 알고리즘 또는 기능을 시행하도록 프로그래밍된 컴퓨터 시스템(예컨대, 컴퓨터 제어 시스템)을 제공한다. 임의적으로, 본원에 제시된 컴퓨터 시스템은 검출 시스템의 구성요소일 수 있다. 컴퓨터 시스템은 (a) 결합 프로필, 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스, 결합 모델 및/또는 친화성 시약에 대한 비-특이적 결합률와 같은 본원에 제시된 입력을 수신하고, (b) 예컨대 결합 모델을 기반으로 후보 단백질에 친화성 시약이 결합할 확률을 결정하고, (c) 선택된 후보 단백질로서 현존 단백질을 확인하도록 프로그래밍되거나 달리 구성될 수 있다.
도 12는 예시적인 컴퓨터 시스템(1001)을 나타낸다. 컴퓨터 시스템(1001)은 검출 시스템의 전자 기기일 수 있고, 전자 기기는 검출 시스템에 통합되거나 검출 시스템에 대해 원격 위치될 수 있다. 예컨대, 전자 기기는 모바일 전자 기기일 수 있다. 컴퓨터 시스템(1001)은 단일 코어 또는 멀티 코어 프로세서, 또는 동시 처리를 위한 복수의 프로세서일 수 있는 컴퓨터 처리 유닛(CPU, 본원에서 또한 "프로세서" 및 "컴퓨터 프로세서")(1005)를 포함한다. 컴퓨터 시스템(1001)은 또한 메모리 또는 메모리 위치(1010)(예컨대, 무작위 액세스 메모리, 읽기 전용 메모리, 플래시 메모리), 전자 저장 유닛(1015)(예컨대, 하드 디스크), 하나 이상의 다른 시스템과의 통신을 위한 통신 인터페이스(1020)(예컨대, 네트워크 어댑터), 및 캐시, 다른 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터와 같은 주변 기기(1025)를 포함한다. 메모리(1010), 저장 유닛(1015), 인터페이스(1020) 및 주변 기기(1025)는 마더보드와 같은 통신 버스(실선)를 통해 CPU(1005)와 통신한다. 저장 유닛(1015)은 데이터를 저장하기 위한 데이터 저장 유닛 (또는 데이터 저장소)일 수 있다. 컴퓨터 시스템(1001)은 통신 인터페이스(1020)의 도움으로 컴퓨터 네트워크("네트워크")(1030)에 작동 가능하게 커플링될 수 있다. 네트워크(1030)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 일부 경우에서, 네트워크(1030)는 원격통신 및/또는 데이터 네트워크이다. 네트워크(1030)는 클라우드 컴퓨팅과 같은 분산된 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 예컨대, 하나 이상의 컴퓨터 서버는 네트워크(1030)("클라우드")를 통한 클라우드 컴퓨팅이, 예컨대 샘플 내 현존 단백질의 경험적 측정값의 정보를 수신하고; 예컨대, 본원에 제시된 결합 모델 또는 함수를 사용하여 후보 단백질에 상응하는 복수의 단백질 서열을 포함하는 데이터베이스에 대한 경험적 측정값의 정보를 처리하고; 경험적 측정값을 생성하는 후보 단백질의 확률을 생성하고/하거나 샘플에서 현존 단백질이 올바르게 확인될 확률을 생성하는 것과 같이 본 개시내용의 분석, 계산 및 생성의 다양한 측면을 수행하는 것을 가능하게 할 수 있다. 이러한 클라우드 컴퓨팅은, 예컨대 아마존 웹 서비시스(Amazon Web Services: AWS), 마이크로소프트 애저(Microsoft Azure), 구글 클라우드 플랫폼(Google Cloud Platform) 및 IBM 클라우드와 같은 클라우드 컴퓨팅 플랫폼에 의해 제공될 수 있다. 네트워크(1030)는, 일부 경우에서 컴퓨터 시스템(1001)의 도움으로 피어투피어(peer-to-peer) 네트워크를 시행할 수 있으며, 이는 컴퓨터 시스템(1001)에 커플링된 기기가 클라이언트 또는 서버로 작용하게 할 수 있다.
CPU(1005)는 프로그램 또는 소프트웨어로 구현될 수 있는 일련의 기계 판독 가능 명령을 실행할 수 있다. 명령은 메모리(1010)와 같은 메모리 위치에 저장될 수 있다. 명령은 CPU(1005)로 전달될 수 있으며, CPU(1005)는 본 개시내용의 방법을 시행하기 위해 CPU(1005)를 후속적으로 프로그래밍하거나 구성할 수 있다. CPU(1005)에 의해 수행되는 동작의 예는 페치(fetch), 디코드(decode), 실행(execute) 및 라이트백(writeback)을 포함할 수 있다.
CPU(1005)는 집적 회로와 같은 회로의 일부일 수 있다. 시스템(1001)의 하나 이상의 다른 구성요소가 회로에 포함될 수 있다. 일부 경우에서, 회로는 주문형 집적 회로(ASIC)이다.
저장 유닛(1015)은 드라이버, 라이브러리, 저장된 프로그램과 같은 파일을 저장할 수 있다. 저장 유닛(1015)은 사용자 데이터, 예컨대 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 일부 경우에서, 컴퓨터 시스템(1001)은 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(1001)과 통신하는 원격 서버에 위치되는 것과 같이 컴퓨터 시스템(1001) 외부에 있는 하나 이상의 추가적인 데이터 저장 유닛을 포함할 수 있다.
컴퓨터 시스템(1001)은 네트워크(1030)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예컨대, 컴퓨터 시스템(1001)은 사용자의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예는 개인용 컴퓨터(예컨대, 휴대용 PC), 슬레이트 또는 태블릿 PC(예컨대, Apple® 아이패드, Samsung® 갤럭시 탭), 전화기, 스마트폰(예컨대, Apple® 아이폰, 안드로이드 지원 기기, Blackberry®), 또는 개인 디지털 보조 장치를 포함한다. 사용자는 네트워크(1030)를 통해 컴퓨터 시스템(1001)에 액세스할 수 있다.
본원에 기재된 방법은, 예컨대 메모리(1010) 또는 전자 저장 유닛(1015)과 같은 컴퓨터 시스템(1001)의 전자 저장 위치에 저장된 기계(예컨대, 컴퓨터 프로세서) 실행 가능한 코드를 통해 시행될 수 있다. 기계 실행 가능 코드 또는 기계 판독 가능 코드는 소프트웨어 형태로 제공될 수 있다. 사용 동안 코드는 프로세서(1005)에 의해 실행될 수 있다. 일부 경우에서, 코드는 저장 유닛(1015)으로부터 검색되어 프로세서(1005)에 의한 즉시 액세스를 위해 메모리(1010)에 저장될 수 있다. 일부 상황에서, 전자 저장 유닛은(1015) 배제될 수 있으며, 기계 실행 가능한 명령는 메모리(1010)에 저장된다.
코드는 코드를 실행하도록 적응된 프로세서를 갖는 기계와 함께 사용하기 위해 미리 컴파일링되고 구성될 수 있거나 런타임 동안 컴파일링될 수 있다. 코드는 미리 컴파일링되거나 컴파일링된 방식으로 코드를 실행할 수 있도록 선택될 수 있는 프로그래밍 언어로 제공될 수 있다.
컴퓨터 시스템(1001)과 같은 본원에 제공된 시스템 및 방법의 측면은 프로그래밍으로 구현될 수 있다. 기술의 다양한 측면은 일반적으로 기계 (또는 프로세서) 실행 가능한 코드 및/또는 기계 판독 가능한 매체 유형에 전달되거나 구현되는 관련 데이터 형태의 "제품" 또는 "제조 물품"으로 간주될 수 있다. 기계 실행 가능한 코드는 메모리(예컨대, 읽기 전용 메모리, 무작위 액세스 메모리, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 유닛에 저장될 수 있다. "저장" 유형의 매체는 컴퓨터, 프로세서 등의 유형 메모리 또는 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등과 같은 이의 관련된 모듈의 일부 또는 전부를 포함할 수 있으며, 이는 소프트웨어 프로그래밍을 위해 언제든지 비-일시적 저장을 제공할 수 있다. 소프트웨어의 전체 또는 일부는 때때로 인터넷 또는 다른 다양한 원격통신 네트워크를 통해 통신될 수 있다. 예컨대, 이러한 통신은 한 컴퓨터 또는 프로세서에서 또 다른 컴퓨터 또는 프로세서로, 예컨대 관리 서버 또는 호스트 컴퓨터에서 애플리케이션 서버의 컴퓨터 플랫폼으로 소프트웨어를 로딩하는 것을 가능하게 할 수 있다. 따라서, 소프트웨어 요소를 포함할 수 있는 또 다른 유형의 매체는 로컬 기기 간의 물리적 인터페이스, 유선 및 광학 지상 통신선 네트워크 및 다양한 무선 링크를 통해 사용되는 것과 같은 광학, 전기 및 전자기파를 포함한다. 유선 또는 무선 링크, 광 링크 등과 같이 이러한 파를 전달하는 물리적 요소도 소프트웨어를 보유하는 매체로 간주될 수 있다. 본원에 사용된 바와 같이, 비-일시적인 유형의 "저장" 매체로 제한되지 않는 한, 컴퓨터 또는 기계의 "판독 가능한 매체"와 같은 용어는 실행을 위해 프로세서에 명령을 제공하는 데 참여하는 임의의 매체를 지칭한다.
따라서, 컴퓨터 실행 가능한 코드와 같은 기계 판독 가능한 매체는 유형의 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하지만 이에 제한되지 않는 다양한 형태를 취할 수 있다. 비-휘발성 저장 매체는, 예컨대 도면에 나타낸 데이터베이스 등을 시행하는 데 사용될 수 있는 임의의 컴퓨터(들) 등 내의 저장 기기 중 임의의 것과 같은 광학 또는 자기 디스크를 포함한다. 휘발성 저장 매체는 이러한 컴퓨터 플랫폼의 메인 메모리와 같은 동적 메모리를 포함한다. 유형의 전송 매체는 동축 케이블; 컴퓨터 시스템 내의 버스를 구성하는 전선을 포함한 구리선 및 광섬유를 포함한다. 반송파 전송 매체는 전기 또는 전자기 신호, 무선 주파수(RF) 및 적외선(IR) 데이터 통신 중에 생성되는 것과 같은 음향 또는 광파의 형태를 취할 수 있다. 따라서, 컴퓨터 판독 가능한 매체의 일반적인 형태는, 예컨대 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드 페이퍼 테이프, 구멍 패턴을 갖는 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령을 전송하는 반송파, 이러한 반송파를 전송하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체를 포함한다. 이러한 형태의 컴퓨터 판독 가능한 매체 중 다수는 실행을 위해 하나 이상의 명령의 하나 이상의 서열을 프로세서에 전달하는 것과 관련될 수 있다.
컴퓨터 시스템(1001)은, 예컨대 알고리즘의 사용자 선택, 결합 측정 데이터, 후보 단백질 및 데이터베이스를 제공하기 위한 사용자 인터페이스(UI)(1040)를 포함하는 전자 디스플레이(1035)를 포함하거나 이와 통신할 수 있다. UI의 예는 그래픽 사용자 인터페이스(GUI) 및 웹 기반 사용자 인터페이스를 포함하지만 이에 제한되지 않는다.
본 개시내용의 방법 및 시스템은 하나 이상의 알고리즘을 통해 시행될 수 있다. 알고리즘은 중앙 처리 유닛(1005)에 의해 실행될 때 소프트웨어를 통해 시행될 수 있다. 알고리즘은, 예컨대 샘플 내의 현존 단백질의 경험적 측정값의 정보를 수신하고/하거나, 경험적 측정값의 정보를 후보 단백질에 상응하는 복수의 단백질을 포함하는 데이터베이스와 비교하고/하거나, 관찰된 측정 결과 세트를 생성하는 후보 단백질의 확률을 생성하고/하거나, 후보 단백질이 샘플에서 올바르게 확인될 확률을 생성할 수 있다.
본 개시내용은, 예컨대 이러한 명령이 전자 컴퓨터에 의해 비-추상적 방식으로 실행되는 경우, 본원에 제시된 방법의 하나 이상의 단계를 실행하기 위한 명령이 인코딩된 비-일시적 정보 기록 매체를 제공한다. 본 개시내용은 본원에 제시된 방법 중 하나 이상을 비-추상적인 방식으로 시행하도록 구성된 컴퓨터 프로세서(즉, 인간의 마음이 아님)를 추가로 제공한다. 본원에 제시된 모든 방법, 조성물, 기기 및 시스템은 물리적, 유형적 및 비-추상적 형태로 시행 가능한 것으로 이해될 것이다. 청구범위는 물리적, 유형적, 비-추상적 주제를 포괄하도록 의도된다. 물리적, 유형적, 비-추상적 주제에 대한 임의의 주장의 명시적 제한은 전체적으로 볼 때 비-추상적 주제만을 다루는 주장을 제한하는 것으로 이해될 것이다. "비-추상적" 주제에 대한 언급은 본 출원의 우선일 현재 미국 대법원 및 미국 연방순회항소법원의 판례에 따라 해석되는 "추상적" 주제를 제외하고 이와 구별된다.
실시예 1
다중 친화성 단백질 친화성 시약을 사용한 단일 분자 단백질 확인
본 실시예는 높은 처리량의 단일 분자 단백질 확인을 위한 기초를 설명한다. 이 접근법은 낮은 특이성으로 짧은 선형 에피토프와 결합하는 다중 친화성 시약 및 단일 분자 결합에 대해 예상되는 확률성을 수용하는 디코딩 알고리즘을 사용한다. 시뮬레이션에서 이 접근법은 광범위한 유기체에서 높은 프로테옴 적용 범위를 달성하였으며 잠재적인 실험 교란변수에 대해 강력하였다. 인간 혈장 프로테옴 실험을 시뮬레이션하는 이 접근법은 적어도 108에 달하는 검출의 동적 범위를 지원하였다. 결과는 실험적으로 실행될 경우 이 접근법이 단일 실험에서 인간 프로테옴의 90% 초과를 정량적으로 디코딩하여 잠재적으로 프로테옴학 연구에 혁명을 일으킬 수 있음을 나타내었다.
결과 및 논의
예비 사항으로서, 본 실시예는 단백질의 1차 구조(즉, 아미노산 서열)를 기준으로 단백질을 확인하고 구별하는 데 이용될 수 있는 방법을 제시한다. 이러한 맥락에서, 암시적이든 명시적이든, 단백질이 상이하다는 언급은 1차 구조의 차이와 관련이 있다. 전술한 내용에도 불구하고, 본원에 예시된 방법은 일부 경우에서 당업자에게 명백할 적응에 의해 번역 후 변형의 존재, 수, 유형 또는 위치과 같은 차이에 기초하여 단백질을 확인하는 데 유용할 수 있다.
도 1a는 단일 분자 분해에서 복수의 단백질을 검출하기 위한 실험 설정을 나타낸다. 샘플로부터 단백질을 추출하고 각각의 단백질을 구조화된 핵산 입자(SNAP)에 변성된 상태로 접합시킨 후 1010개의 주소를 갖는 고체 지지체에 단백질 접합된 SNAP을 침착시킨다. 주소당 1개 이하의 단백질 접합된 SNAP가 결합하여 각각의 주소가 이웃 주소로부터 광학적으로 분해 가능한 단백질을 갖는 초고밀도 단일 분자 어레이를 생성한다. 형광단으로 태그 부착된 일련의 친화성 시약(예컨대, 항체, 압타머 또는 작은 단백질)이 어레이와 접촉된다. 시리즈의 주기당 하나의 친화성 시약이 사용되며, 각각의 주소에서 결합의 존재 또는 부재가 검출되고, 친화성 시약은 다음 주기를 통해 다음 시약이 추가되기 전에 어레이에서 세척된다. 통합된 유체공학 및 기기 상의 이미징으로 친화성 시약의 존재 하에서 주소의 높은 분해 다중 주기 이미징이 가능하다. 따라서, 친화성 시약과 단백질의 결합으로 각각의 단백질에 대한 일련의 결합/비-결합 결과가 생성되며, 이는 단백질의 정체를 추론하는 데 사용될 수 있다. 주소당 단지 하나의 단백질만 있으므로, 주소의 직접적 카운팅을 이용하여 샘플에서 확인된 각각의 단백질을 정량화할 수 있다.
인간 프로테옴 또는 다른 복잡한 프로테옴에서 많은 다양한 단백질을 확인하려면 엄청나게 많은 수의 고도로 특이적인 친화성 시약이 필요하다. 본 방법은 중간 정도의 특이성으로 짧은 선형 에피토프(예컨대, 삼량체)에 결합하는 친화성 시약을 사용하여 이를 극복하므로 각각의 친화성 시약은 많은 상이한 단백질에 결합한다. 단일 친화성 시약의 결합은 이러한 뒤섞인 친화성 시약으로 임의의 특정 단백질을 확인하는 데 충분하지 않지만 일련의 친화성 시약은 많은 상이한 단백질을 디코딩할 수 있다. 증가하는 주기 수에 걸쳐 각각의 주소에 결합된 각각의 새로운 친화성 시약의 검출은 각각의 주소에서 가능한 단백질 정체의 목록을 점차적으로 좁힌다(도 1b).
일반적인 단일 분자 결합 반응 형식에서, 친화성 시약이 이의 에피토프를 함유하는 단백질에 결합하는 것으로 항상 관찰되지는 않을 것이므로 결합은 확률적이다(Chang, et al., J Immunol Methods 378, 102-115 (2012), 참조로 본원에 포함됨). 또한, 각각의 친화성 시약은 오프-타겟 에피토프에 결합하는 것으로 관찰될 수 있다. 따라서, 동일한 일련의 단일 분자 결합 반응을 다수회 반복하면 일반적으로 다수의 상이한 결합 패턴이 관찰될 것이다(도 1c).
이러한 확률성을 고려하여, 각각의 친화성 시약이 한 카피의 표적 에피토프를 함유하는 단백질에 1차 확률로 결합하고 한 카피의 오프-타겟 에피토프를 함유하는 단백질에 동등하거나 낮은 확률로 결합하는 결합 모델이 고안되었다. 친화성 시약이 에피토프에 결합하는 것을 방지할 수 있는 많은 요인, 예컨대 부분적 변성, 번역 후 변형의 존재, 결합 확률성 등에 기인한 잔류 또는 일시적 단백질 구조가 있기 때문에, 0.5의 다소 낮은 확률은 1차 에피토프에 대한 온-타겟 결합을 위해 초기에 선택되고 0.5 확률은 오프-타겟 에피토프에 대한 결합에 대해 선택되었다. 관리 가능한 수의 상이한 친화성 시약으로 인간 프로테옴의 높은 적용 범위를 제공하는 친화성 시약 선택성을 결정하기 위해, 다양한 표적 에피토프 길이(이량체, 삼량체 또는 사량체) 및 다양한 수의 오프-타겟 에피토프를 갖는 친화성 시약을 평가하였다. 도 1d에 나타난 바와 같이, 분석은 각각의 친화성 시약이 단일 삼량체 및 9개의 추가적인 1차 오프-타겟 삼량체에 결합되는 경우 100개의 친화성 시약이 인간 프로테옴의 90%에 대한 특유한 확인을 용이하게 한다는 것을 입증하였다. 이러한 시나리오에서, 각각의 친화성 시약은 인간 프로테옴 내의 단백질의 약 23.7%(각각의 단백질의 발현 수준의 가변성과 관계없이 특유한 단백질 서열의 수를 기반으로 하는 백분율)에 결합하며 평균적으로 약 24개의 결합 사건이 주어진 단백질을 확인하는 데 충분할 것이다(표 1). 사량체 에피토프를 표적화하면 결합 사건의 수는 줄어들지만 유사한 적용 범위를 달성하기에 충분한 친화성 시약의 수는 증가한다. 이량체 에피토프를 표적화하면 유사한 수의 친화성 시약이 허용되지만 이량체 주변 서열의 가변성과 관계없이 이량체를 인식하는 친화성 시약을 생성하는 것은 어려울 수 있다. 따라서, '10개의 에피토프를 갖는 삼량체' 친화성 시약 선택성 모델이 본 분석에 사용되었다.
예컨대, 단일 에피토프 또는 심지어 단일 단백질에 결합하는 보다 특이적인 친화성 시약을 사용하는 것도 가능하다. 일부 경우에서, 다수의 상이한 친화성 시약을 조합하여 명백한 뒤섞임으로 결합하는 친화성 시약의 풀을 생성할 수 있다. 예컨대, 결합 단계에서 서로 구별할 수 없게 검출되는 3가지 상이한 친화성 시약의 풀은 풀에 의해 표적화되는 단백질에 뒤섞이게 결합하는 것으로 보일 것이다. 보다 구체적인 예로서, 3가지의 상이한 친화성 시약의 풀은 명백히 적어도 3가지의 상이한 단백질에 결합할 수 있고, 5가지의 상이한 친화성 시약의 풀은 명백히 적어도 5가지의 상이한 단백질에 결합할 수 있고, 10가지의 상이한 친화성 시약의 풀은 명백히 적어도 10가지의 상이한 단백질에 결합할 수 있다.
친화성 시약은, 1차 결합 에피토프를 갖는 것 외에, 확률은 낮지만 다른 오프-타겟 에피토프에 결합할 가능성이 있다. "바이오시밀러" 친화성 시약 모델(하기 방법 섹션 참조)이 사용되었으며, 이에 따라 각각의 친화성 시약은 최대 20개의 추가적인 2차 오프-타겟 에피토프의 "테일"을 가지며, 결합 확률은 표적 에피토프에 대한 오프-타겟 에피토프의 유사성에 비례한다. 디코딩 알고리즘은, 인간 프로테옴에 존재하는 표적으로부터 무작위로 선택된 표적 에피토프를 갖는 이 모델을 사용하여, 300 주기로 인간 프로테옴 내의 단백질의 약 98%를 독특하게 확인할 수 있었다(한 카피의 각각의 단백질로 샘플 모델링)(도 1e). 가능한 한 적은 친화성 시약 주기로 높은 인간 프로테옴 적용 범위를 달성하는 최적의 300개 삼량체 에피토프 세트를 결정하기 위해 그리디(greedy) 선택 알고리즘(하기 방법 섹션 참조)을 이용할 때 200개 미만의 친화성 시약으로 성능이 향상되었다(도 1e). 이 최적의 에피토프 세트는 후속 분석에 사용되었다.
디코딩 전략이 인간 이외의 종으로부터의 프로테옴에 적용될 수 있는지를 시험하기 위해, 동일한 파라미터를 최적화된 친화성 시약의 동일한 세트와 함께 사용하여 마우스, 에스. 세레비지아에(S. cerevisiae), 및 이. 콜리로부터의 프로테옴의 분석을 시뮬레이션하였다(도 1f). 놀랍게도, 종 간에는 차이가 거의 없었으며, 이는 더 작은 프로테옴이 디코딩하기가 약간 더 쉽지만 디코딩 성능의 주요 동인은 단백질 서열 다양성이라는 것을 나타낸다. 따라서, 단일 분자 결합의 확률적 특성에도 불구하고, 디코딩 전략은 광범위한 유기체에 대한 프로테옴의 90% 초과를 디코딩하는 잠재력을 갖는다.
잠재적인 실험 교란변수를 평가하였다. 예컨대, 저조한 결합 친화성 또는 동역학으로 인해 에피토프 결합에 대한 친화성 시약의 확률이 0.5보다 훨씬 낮은 제1 시나리오가 고려되었다. 0.1의 확률에서도 디코딩 방법은 300 주기(즉, 300개의 상이한 친화성 시약)를 사용하여 85% 초과의 프로테옴 적용 범위를 달성하였지만, 이는 결합 확률이 0.05인 경우 약 55%로 떨어졌다(도 2a). 적용 범위를 늘리는 옵션은, 예컨대 더 많은 친화성 시약 사용, 단일 실행에서 여러 친화성 시약을 멀티플렉싱(예컨대, 멀티플렉싱 세트 내의 각각의 프로브에 대해 상이한 형광 표지 사용); 결합을 관찰할 가능성을 높이기 위해 레플리케이트 주기로 친화성 시약을 실행; 친화성 시약의 농도 증가; 결합 반응 지속기간의 증가; 또는 친화성 시약의 다수 카피를 형광 입자 또는 구조화된 핵산 입자와 같은 스캐폴드에 부착하는 것을 포함한다. 따라서, 디코딩 방법은 소정의 범위의 결합 확률(이 중 일부는 비교적 낮음)에 걸쳐 친화성 시약을 사용하여 실행 가능할 수 있다.
거짓 결합 신호를 생성하기 위해 단백질 주소에 충분히 가까운 위치에서 어레이 표면에 대한 친화성 시약의 비-특이적 결합 효과를 평가하였다. 도 2b에 나타난 바와 같이, 결합 확률을 0.5로 가정할 때, 0.05 이하의 비-특이적 결합률은 약 90%의 검출 민감도를 제공하였다. 후속 분석을 위해, 비-특이적 결합률은 0.001로 가정되었다. 실험적으로 비율이 더 높은 것으로 입증되면, 결합 조건(예컨대, 이온 강도, 온도, 극성, pH, 삼투압, 친화성 시약 농도 또는 표면 장력)을 조정하여 비-특이적 결합을 줄일 수 있다. 각각의 친화성 시약에 대해 동일하거나 상이한 조건이 사용될 수 있다.
친화성 시약 특성화(예컨대, 표적 에피토프 및 오프-타겟 에피토프의 확인, 및 각각의 결합 확률)의 영향도 평가되었다. 이러한 특성화는 전통적인 에피토프 매핑 접근법을 이용하여 간단한 방식으로 수행될 수 있다(Beyer, et al., Science 318, 1888 (2007), 참조로 본원에 포함됨). 삼량체 에피토프는, 예컨대 각각의 친화성 시약이 추론 알고리즘이 알지 못하는 추가적인 수의 에피토프에 결합하는 경우 친화성 시약 특성화 동안 "누락"될 수 있다(도 2c, 도 4a). 그러나, 높은 확률(0.5) 결합 에피토프가 지속적으로 누락되지 않는 한 그 영향은 적었다. 이러한 에피토프의 최대 20%가 누락된 경우에도 프로테옴 적용 범위는 92% 초과로 유지되었다. 삼량체 에피토프는 친화성 시약 특성화 동안 표적으로 잘못 확인될 수도 있다(도 2d, 도 4b). 디코딩 방법은 모든 1차 에피토프의 절반이 정확하지 않은 경우에도 거의 70%의 적용 범위를 달성하였기 때문에 이러한 유형의 오류에 강력한 것으로 나타났다. 디코딩 방법이 친화성 시약 모델에서 '누락된' 에피토프보다 거짓 양성 에피토프를 갖는 데 더 강력한 것으로 나타났다는 점을 감안할 때, 친화성 시약을 특성화하는 데 이용된 기술은 개선된 결과를 달성하기 위해 특이성보다는 민감도 쪽으로 더 조정될 수 있다. 에피토프 결합 확률에 대한 친화성 시약의 일관된 과대 또는 과소 평가의 영향 평가는 결합 확률의 큰(>-0.2) 과소 평가를 제외하고는 이러한 오류의 영향이 적다는 것을 나타내었다(도 2e, 도 4c). 디코딩 방법은 노이지 친화성 시약 특성화에 매우 강력한 것으로 나타났으며, 이는 친화성 시약 특성화가 완벽할 필요는 없으며 이 방법이 온도와 같은 다른 잠재적인 실험 교란변수로부터 발생할 수 있는 친화성 시약 결합 특징의 가변성을 허용할 것임을 나타낸다(도 2f, 도 4d). 요약하면, 디코딩 방법은 친화성 시약 특성화의 오류에 견고한 것으로 나타났다.
혈장 단백질 농도는 1012 초과로 다양할 수 있고 일반적인 질량 분광측정 기반 접근법은 일반적으로 프로테옴의 8%만을 확인하기 때문에, 혈장은 프로테옴학에 대한 주요 과제 중 하나의 좋은 예이다(Anderson & Anderson, Mol Cell Proteomics 1, 845-867 (2002), 참조로 본원에 포함됨). 단백질 디코딩 전략의 이론적 성능을 평가하기 위해, 106, 108 및 1010개의 주소를 갖는 어레이에서 300개의 친화성 시약을 사용하여 비-고갈된 혈장 샘플을 검정하기 위한 시뮬레이션을 실행하였다. 5개의 기술적 레플리케이트에 걸쳐 동일한 샘플을 실행하는 시뮬레이션을 모델링하였다. 삼량체 결합 확률에 대한 친화성 시약의 일부 무작위 노이즈는 레플리케이트에 걸쳐 친화성 시약 결합의 가변성을 시뮬레이션하였다. 평균적으로, 1010개의 주소 어레이로 디코딩 알고리즘을 실행하는 시뮬레이션은 검출된 가장 풍부한 단백질부터 가장 적게 풍부한 단백질까지 >1011.5에 이르는 검출 동적 범위를 나타내었다(도 3a, 도 5a-5f). 디코딩 방법은 모델링된 혈장 샘플에서 20,235개의 단백질 중 59.4%를 정량화할 수 있었다. 거의 모든 단백질이 높은 특이성으로 정량화되었다(도 6a-6c). 측정된 단백질의 99.6% 초과가 >90%의 정량적 특이성을 가졌다(즉, 단백질 확인의 >90%이 진성 양성이었음). 상위 109 동적 범위 내의 단백질은 90% 일관성으로 검출되었다. 단백질 농도와 상관관계가 있는 확인 가능성의 편향은 관찰되지 않았다. 전체적으로, 어레이에 침착된 단백질의 90%가 검출되었으며, 이는 단백질을 디코딩하는 능력보다는 어레이에 저농도 단백질을 침착하는 능력이 동적 범위의 주요 제한자임을 나타낸다. 모델링은 주소의 수를 1011 또는 1012개로 증가시키면 어레이에 침착된 단백질의 확인이 각각 66%에서 79% 및 92%로 증가할 것임을 시사한다(도 7a-7c).
실험적으로, 예컨대 친화성 컬럼을 사용하여 혈장 샘플 내의 가장 풍부한 단백질을 고갈시킴으로써 동적 범위를 압축할 수 있다. 상위 20개 단백질의 99% 고갈로 모델링된 혈장 샘플은 평균 65.7%의 프로테옴 적용 범위를 가졌다(도 8a-8d). 더 낮은 동적 범위를 갖는 HeLa 세포주 샘플을 모델링할 때 적용 범위는 상당히 더 높았다(92.6%)(109.5에 달하는 검출)(도 3b).
모든 샘플에서, 검출 가능성은 풍부도 뿐만 아니라 서열 유사성의 요인이기도 하기 때문에, 풍부도가 비교적 높은 일부 단백질은 검출되지 않았다. 단백질의 서열이 데이터베이스 내의 또 다른 단백질과 매우 유사한 경우, 디코딩 알고리즘이 이러한 단백질에 대한 확실한 확인을 생성하는 것이 어려울 수 있다. 보다 선택적인 친화성 시약을 사용하여 이러한 보다 어려운 표적을 검출할 수 있다.
처리량을 증가시키기 위한 전략은 각각의 프로테옴 샘플에 대해 108개의 단백질 주소의 어레이를 사용하는 것이다(예컨대, 어레이에서 다수의 프로테옴 샘플을 멀티플렉싱하거나 다수의 더 작은 어레이를 동시에 실행). 이러한 상황에서, 풍부도가 낮은 단백질은 검출할 수 없게 되어 혈장에서 107.5(일관되게 검출되는 단백질의 경우)에 달하는 압축된 동적 범위를 갖지만 해당 범위 내에서 높은 적용 범위를 갖는다(도 9a-9i).
측정 재현성은 모델링된 혈장 및 HeLa 샘플의 5개의 기술적 레플리케이트에 걸쳐 평가되었다(도 3c & 3d). 변동 계수(CV)는 중간 내지 높은 풍부도의 단백질에 대해 <10%였다. 혈장 샘플 내 풍부도 측면에서 상위 105 내의 단백질은 일반적으로 CV가 <1%였다. 모델링된 바와 같이, 재현 불가능성에 대한 기여 요인은 친화성 시약 결합 및 단백질 침착의 확률적 변화 뿐 아니라 친화성 시약 결합 특징의 변화였다. 이러한 추정은 샘플 제조 및 생물학적 가변성과 같은 실험적 가변성의 많은 인자를 고려하지 않지만 보다 일반적인 변동 원인에 비해 최소한의 변동에 기여하는 분석 플랫폼 및 디코딩 알고리즘의 잠재력을 나타낸다. 실제로, 측정 카운트에서 관찰된 CV는 실제 카운트의 CV와 크게 다르지 않았으며, 이는 처리량을 증가시킴으로써 측정값의 재현성을 개선할 수 있음을 나타낸다(도 10a & 10b).
검출된 단백질 카운트는 어레이에 모델링된 단백질의 수와 상관관계가 있었다(도 3e & 3f). 혈장 단백질의 76%는 +/- 10% 내에서 어레이에서의 카운트에 비해 검출된 카운트에서 배수 변화 오류를 가졌다(도 11). 일부 경우에서, 칩에 단일 카피만 갖는 단백질이 검출되었다. 일부 단백질은 서열 데이터베이스 내의 다른 단백질과의 서열 유사성으로 인해 실질적으로 과소카운팅되었다. 검출 카운트 대 어레이에서의 카운트의 선형 특성은 어레이를 1011개의 주소로 확장하거나 다수의 어레이에 걸쳐 샘플을 평가함으로써 동적 범위를 더 확장할 수 있음을 나타내었다.
결론적으로, 본 실시예에서 제시된 결과는 프로테옴 불변이고 단일 실험에서 전체 인간 프로테옴을 분석하는 데 이용될 수 있는 단일 분자 단백질 확인 방법에 대한 이론적 기초를 제공한다. 이는 다른 프로테옴 분석 방법에 비해 중요한 이점을 갖는다. 이는 화학적으로 집약적인 또는 절단 기반의 시퀀싱 접근법보다 비-파괴적인 친화성 시약 접근법을 취하는 부상하는 단일 분자 펩티드 시퀀싱 방법 중에서 독특하다. 이는 거짓 음성(즉, 친화성 시약이 이의 에피토프에 결합하지 못함)에 강력하고 비-특이적 친화성 시약에 최적화되어 있다. 따라서, 디코딩 방법은 친화도 기반 프로테옴학 접근법의 일반적인 약점을 강점으로 바꾼다. 디코딩 방법은 전체 프로테옴 정량화까지 확장 가능하며, 질량 분석측정과 달리 넓은 동적 범위에 걸쳐 정량화할 수 있다. 디코딩 방법은 온전한 단백질을 사용함으로써 단백질의 펩티드 단편 검출을 기반으로 하는 접근법을 제한하는 정보(예컨대, 프로테오폼)의 손실을 피하고 샘플 복잡성이 대략 102 정도 감소되므로 동적 범위 문제를 부분적으로 완화한다. 디코딩 방법은 실험적으로 성공적으로 시행되는 경우 단일 세포로부터도 프로테옴을 분석하고 정량화하는 사용자 친화적이고 신속하며 매우 민감하고 재현 가능한 방법을 제공할 것이다. 디코딩 방법은 기초 연구 뿐만 아니라 분자 진단 및 바이오마커 발견을 포함한 임상 연구에서도 과학적 발견에 있어 수많은 새로운 기회의 길을 열어줄 것으로 기대된다.
본 실시예에 제시된 시뮬레이션은 민감하고 빠른 이미징 플랫폼을 시행하는 잠재적인 힘을 나타낸다. 예시된 디코딩 방법의 동적 범위는 측정되는 온전한 단백질 분자의 수와 직접적으로 관련되므로, 특히 유용한 검출 시스템은 빠른 이미징 및 주기 속도를 가질 것이다. 예비 추정은 300개의 친화성 시약 및 대략 10분의 주기 시간을 사용하면 약 하루 내에 100억 개의 단백질 분자의 프로필을 분석하는 것이 가능할 것임을 시사한다. 디코딩 방법의 성공적인 실험적 시행은 단일 세포로부터도 프로테옴을 분석하고 정량화하는 사용자 친화적이고 신속하며 매우 민감하고 재현 가능한 방법을 제공할 것이다. 이는 기초 연구 뿐만 아니라 분자 진단 및 바이오마커 발견을 포함한 임상 연구에서도 과학적 발견에 있어 수많은 새로운 기회의 길을 열어줄 것이다.
방법
단백질 서열 데이터베이스
단백질 서열 데이터베이스는 Uniprot(www.uniprot.org)로부터 다운로딩되었다. 각각의 종에 대해, 프로테옴에 대한 검색 쿼리 문자열에 "reference:yes"를 포함함으로써 "참조" 프로테옴을 선택하였다. 이어서, 검토된(Swiss-prot) 서열(쿼리 문자열 "reviewed:yes")만 포함하도록 참조 프로테옴을 필터링하였다. 이어서, 서열 데이터는 압축되지 않은 .fasta 형식(정규 서열 단독)으로 다운로딩되었다. 사용된 특정 프로테옴 및 필터 문자열은 하기와 같았다:
이. 콜리(균주 K12): reviewed:yes AND organism:"Escherichia coli (strain K12) [83333]" AND proteome:up000000625 (2021.06.30. 다운로딩)
에스. 세레비지아에(s288c): reviewed:yes AND organism:"Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker's yeast) [559292]" AND proteome:up000002311 (2021.06.30. 다운로딩)
엠. 무스쿨루스(M. musculus)(c57bl): reviewed:yes AND organism:"Mus musculus (Mouse) [10090]" AND proteome:up000000589 (2021.06.30. 다운로딩)
에이치. 사피엔스(H. sapiens): reviewed:yes AND organism:"Homo sapiens (Human) [9606]" AND proteome:up000005640 (2021.07.06. 다운로딩)
임의의 중복된 서열 및 20개의 정규 아미노산으로 완전히 구성되지 않은 임의의 서열을 제거하기 위해 프로테옴을 추가로 처리하였다. 또한, 각각의 FASTA로부터 길이가 30 이하인 서열을 제거하였다.
단백질 결합에 대한 친화성 시약 모델링
길이 k의 에피토프(예컨대, 삼량체의 경우 k=3)를 표적으로 하는 친화성 시약은 시약에 의해 인식되는 길이 k의 각각의 특유한 표적 에피토프 j에 결합 확률 θ를 할당하여 모델링되었다. 또한, 단백질 비-특이적 결합률을 친화성 시약이 단백질 내의 임의의 에피토프에 비-특이적으로 결합할 확률을 나타내는 p nsbepitope 로 지정하였다. 길이 M의 단백질에 대한 1차 서열이 주어지면, 친화성 시약이 단백질에 결합할 확률은 하기와 같이 산출되었다:
먼저 특이적 결합 사건이 발생할 확률을 산출하였다:
여기서,
X: 단백질 서열 내의 각각의 에피토프 j의 수
θ: 결합 모델 파라미터. 친화성 시약이 각각의 인식된 에피토프에 결합할 확률의 벡터
이어서, 비-특이적 단백질 결합 사건 발생의 확률을 산출하였다:
여기서,
p nsbepitope : 친화성 시약이 단백질 내의 임의의 에피토프에 비-특이적으로 결합할 확률
M: 단백질 서열의 길이
k: 친화성 시약에 의해 인식되는 선형 에피토프(들)의 길이.
친화성 시약이 단백질에 결합하여 검출 가능한 신호를 생성할 확률은 하나 이상의 특이적 또는 비-특이적 결합 사건 발생의 확률이었다:
언급된 경우, 각각의 단백질에 대한 결합 확률은 추가적인 무작위 표면 비-특이적 결합(NSB)을 처리하기 위해 조정되었다. 즉, 거짓 양성 결합 사건을 생성할 만큼 단백질 주소에 충분히 가까운 어레이에 친화성 시약을 결합하는 것이다. 표면 NSB의 우세도는 어레이의 단일 단백질 위치에서 단일 친화성 시약 측정을 획득하는 동안 발생하는 이러한 표면 NSB 사건의 확률 0 ≤ p surfacensb < 1로 정의된다. 표면 NSB를 고려한 단백질 결합 사건의 조정된 확률은 하기와 같다:
바이오시밀러 친화성 시약 모델
특별히 언급되지 않는 한, 친화성 시약은 "바이오시밀러" 모델을 사용하여 모델링되었다. 이 모델에서 친화성 시약은 확률 0.5로 결합하는 특정 에피토프를 표적으로 한다. 친화성 시약은 또한 표적화된 에피토프에 대해 바이오시밀러인 9개의 추가적인 1차 오프-타겟 에피토프를 확률 0.5로 결합한다. 동일한 길이의 다른 모든 가능한 에피토프에 대한 표적 에피토프의 쌍별 유사성 점수를 산출하여 바이오시밀러 표적을 선택하였다. 유사성 점수는 각각의 서열 위치의 잔기의 쌍 사이의 BLOSUM62 유사성을 합산하여 산출되었다. 예컨대, 삼량체 SLL과 삼량체 YLH의 유사성을 산출하는 경우, 점수는 BLOSUM62(S,Y) + BLOSUM62(L,L) + BLOSUM62(L,H)일 것이다. 모든 쌍별 유사성 점수가 산출되면, 표적과 가장 유사한 상위 9개의 에피토프가 1차 오프-타겟 에피토프로 선택되었다. 다수의 잠재적 오프-타겟 에피토프가 동일한 점수를 갖는 동점인 경우, 무작위 에피토프가 선택되었다. 표적 에피토프 및 4개의 오프-타겟 에피토프 외에, 결합 확률이 더 낮은 최대 20개의 추가적인 2차 바이오시밀러 오프-타겟 에피토프를 친화성 시약에 추가하였다. 20개의 2차 오프-타겟 에피토프는 친화성 시약 모델에 이미 포함된 것 외에 다음 20개의 대부분의 바이오시밀러 에피토프에 결합한다. 이러한 20개의 추가 에피토프는 하기와 같이 산출되는 확률을 갖는다:
여기서,
b = 표적에 대한 친화성 시약의 결합 확률,
ot = 친화성 시약 표적과 이 오프-타겟 에피토프 사이의 BLOSUM62 유사성 점수,
ss = 친화성 시약 표적과 그 자체 사이의 BLOSUM62 유사성 점수.
ㆍ 이러한 추가적인 오프-타겟 에피토프 중 임의의 것이 친화성 시약 에피토프 비-특이적 결합률보다 낮은 결합 확률을 갖는 경우, 이는 포함되지 않았다. 에피토프 비-특이적 결합 확률은 2.45x10-8로 설정되었다.
확률적 친화성 시약 결합의 시뮬레이션
단일 단백질에 대한 일련의 친화성 시약의 결합을 시뮬레이션하기 위해, 단백질에 대한 각각의 친화성 시약 i의 결합 확률 θ i 를 먼저 상기의 단백질 결합에 대한 친화성 시약 모델링 섹션에 기재된 방법을 이용하여 결정하였다. 각각의 친화성 시약에 대한 결합 결과를 시뮬레이션하기 위해, θ i 로 파라미터화된 베르누이(Bernoulli) 분포로부터 단일 무작위 추첨이 이루어졌다. 1의 결과는 결합이고, 0의 결과는 결합이 없음이다.
단백질 디코딩
개요
단백질 디코딩 알고리즘은 현존 단백질에 대해 획득된 일련의 친화성 시약 결합 측정값을 분석하고 후보 세트 중에서 해당 단백질의 가장 가능성 있는 정체를 결정하였다. 가장 가능성이 있는 단백질 정체는 관찰된 결합 측정값과 가장 잘 맞는 것이었다. 이 호환성은 각각의 친화성 시약이 각각의 잠재적인 단백질에 결합할 가능성을 추정하는 데 사용된 실험에서 각각의 친화성 시약에 대한 결합 모델을 기반으로 결정되었다. 강력한 후보 단백질은 관찰된 결합 사건의 대부분이 해당 단백질에 결합할 가능성이 있는 친화성 시약과 일치하는 단백질이었다. 약한 후보 단백질은 후보에 결합할 것으로 예상되지 않는 친화성 시약에 대해 결합이 관찰되는 많은 사례를 가질 것이다. 가장 강력한 후보 단백질은 현존 단백질에 대한 가장 유력한 정체로 간주되었으며, 이러한 확인에서의 신뢰도는 다른 모든 후보와 비교하여 가장 유력한 단백질의 호환성의 상대적인 측정으로 산출되었다.
입력
디코딩 알고리즘에 대한 입력은 하기와 같다:
결합 데이터: . 현존 단백질에 대한 각각의 친화성 시약에 대해 하나씩 결합 측정값의 서열.
ㆍ 샘플에 존재할 수 있는 각각의 잠재적 단백질의 1차 서열 및 명칭을 함유하는 길이 M서열 데이터베이스(예컨대, 상기의 단백질 서열 데이터베이스 섹션에 기재된 인간 단백질 서열 데이터베이스).
ㆍ 실험에 사용된 N 친화성 시약 각각에 대한 파라미터화된 결합 모델(상기의 단백질 결합에 대한 친화성 시약 모델링 섹션 참조).
ㆍ 임의의 주어진 주기의 어느 한 주소에서 발생하는 표면 비-특이적 결합 사건의 확률을 설명하는 임의의 표면 비-특이적 결합률(r).
결합 확률 계산
각각의 친화성 시약이 모든 가능한 후보 단백질에 결합할 확률을 설명하는 M Х N 결합 확률 매트릭스 B가 산출되었으며, 매트릭스 bi,j의 항목은 친화성 시약 j가 후보 단백질 i에 결합할 확률이다. 이러한 확률은 상기의 단백질 결합에 대한 친화성 시약 모델링 섹션에 기재된 방법을 이용하여 산출되었다.
이어서, 각각의 단백질에 대한 각각의 친화성 시약의 비-결합 확률이 조정된 M Х N 매트릭스 U는 하기와 같이 산출되었다:
S = [ s 1 , s 2 , s 3 , ... s M ]을 산출하고, 여기서 s i = 단백질 i 길이 - 2 이다.
모든 후보 단백질 서열 세트 중 가능한 모든 특유한 삼량체의 상대적인 빈도 F = [ f 1 , f 2 , f 3 , ... f 8000 ]를 산출하고, 여기서
이다.
친화성 시약에 대한 평균 삼량체 비-결합 확률의 벡터 를 산출한다. A의 값 a j 는 친화성 시약이 삼량체에 결합하지 않을 확률이며, 전체 8000개의 삼량체에 대해 평균을 낸 것이며, 후보 단백질 데이터베이스 (여기서, tp,j는 친화성 시약 j가 삼량체 p에 결합할 확률이고, c j 는 친화성 시약 j에 대해 비-특이적 단백질 결합 사건이 발생할 확률임)에서 각각의 삼량체의 상대적인 빈도에 의해 가중치가 부여된다.
친화성 시약 j가 단백질 i에 결합하지 않을 조정된 확률 U를 산출하고, 여기서 (r은 표면 NSB 비율임)이다.
조정된 비-결합 확률은 단백질에 큰 영향을 미치는 임의의 단일 비-결합 사건을 피하기 위해 이러한 방식으로(U = 1-B와 반대) 산출되었다. 그 근거는 친화성 시약이 특정 에피토프(예컨대, 단백질 구조, 번역 후 변형)에 결합하지 않는 이유를 예측하기 어려운 여러 가지 이유가 있으므로 비-결합 사건의 총 수는 관찰된 비-결합 사건의 특정 정체보다 더 많이 고려되어야 한다는 것이다.
디코딩
관찰된 각각의 결합 사건의 공산을 곱하여 후보 데이터베이스 내의 각각의 단백질에 대한 공산의 벡터를 산출하였다:
, 여기서
이다.
가장 높은 공산의 단백질이 선택되었다(상위 단백질과 동점인 경우, 상위 단백질 중 하나가 무작위로 선택됨):
ID가 정확할 확률은 상위 단백질의 공산을 다른 모든 단백질의 공산의 합으로 나눈 것이다:
단백질 ID 및 확률은 단일 현존 단백질에서 수행된 디코딩 과정의 출력이다.
프로테옴 적용 범위의 계산
프로테옴 적용 범위를 산출하기 위해, 친화성 시약 세트를 상기의 단백질 결합에 대한 친화성 시약 모델링 섹션에서와 같이 정의하였다. 상기의 단백질 서열 데이터베이스 섹션에 정의된 바와 같이 인간 프로테옴 내의 각각의 단백질에 대해 친화성 시약의 결합을 시뮬레이션하였다(상기의 확률적 친화성 시약 결합의 시뮬레이션 섹션 참조). 결합 데이터는 친화성 시약의 정의 및 FASTA 서열 데이터베이스와 함께 디코딩 알고리즘으로 전달되었다. 디코딩 알고리즘의 출력은 시뮬레이션된 각각의 단백질에 대한 단일 단백질 확인 및 해당 확인이 정확할 추정된 확률이었다. 부분 적용 범위를 산출하기 위해, 1%(하기의 거짓 발견률에 대한 산출 및 임계값 설정 섹션 참조)의 참/거짓 발견률 임계값을 초과하는 것으로 확인된 단백질의 수를 시뮬레이션된 총 단백질의 수로 나누었다. 적용 범위 백분율은 부분 적용 범위에 100을 곱하여 산출되었다. 이 방법은 하기의 정량적 통계 섹션에 기재된 방법을 이용하는 세포, 혈장 및 고갈된 혈장 샘플의 모델링을 제외한 모든 분석에 적용되었다.
거짓 발견율에 대한 산출 및 임계값 설정
디코딩된 단백질 정체의 목록(단백질 정체 및 관련된 확률)이 주어지면, 먼저 시뮬레이션에서 해당 단백질의 실제 정체와의 일치를 기반으로 각각의 단백질 확인을 올바른지 또는 부정확한지 주석을 달아 거짓 발견율을 산출하였다. 목록의 각각의 특유한 확인 확률에 대해, 거짓 발견율(FDR)은 부정확하게 확인된 해당 확률 이하의 단백질 분율로 산출되었다. 거짓 발견율에 대한 임계값을 설정하기 위해 원하는 FDR보다 낮은 FDR로 최저 확률 점수 임계값이 결정되었다. 이 확률 점수 이상의 확인은 FDR 기준을 충족하였으며, 원하는 FDR 임계값에서 "확인된" 것으로 간주되었다.
확률적 결합의 입증
단백질 EGFR에 대한 10개 친화성 시약의 서열의 확률적 결합을 6회 시뮬레이션하였다(도 1c). EGFR에 존재하는 결합 서열을 갖는 친화성 시약은 결합 확률이 0.5이고, EGFR의 결합 서열이 없는 친화성 시약은 결합 확률이 0이다. 상기의 확률적 친화성 시약 결합의 시뮬레이션 섹션에 기재된 바와 같이 결합을 시뮬레이션하였다.
효율적인 디코딩을 위한 친화성 시약 요구 사항의 평가
다양한 수의 1차 오프-타겟 에피토프를 갖는 다양한 표적 에피토프 길이(2, 3 또는 4, 즉 각각 이량체, 삼량체, 사량체)를 갖는 친화성 시약을 모델링하였다. 각각의 경우에서, 표적 결합 확률은 0.5였다. "친화성 시약당 에피토프의 수"=1은 1차 오프-타겟 에피토프 없이 단일 에피토프를 표적으로 하는 친화성 시약을 나타낸다. 다른 시나리오는 일정 수의 1차 바이오시밀러(상기의 바이오시밀러 친화성 시약 모델 섹션 참조) 오프-타겟 에피토프를 갖는 친화성 시약으로 모델링되었다. 예컨대, '5' 에피토프를 표적으로 하는 것으로 표지된 친화성 시약은 표적 및 4개의 1차 오프-표적 부위에 대해 결합 친화성을 갖는다. 친화성 시약은 어떠한 2차 오프-타겟 에피토프도 갖지 않았다(상기의 바이오시밀러 친화성 시약 모델 섹션 참조). 친화성 시약의 표적은 프로테옴에 존재하는 표적으로부터 무작위로 선택되었다. 프로테옴에 존재하는 오프-타겟 결합 에피토프에 대한 요구 사항은 없었다.
프로테옴의 90% 적용 범위를 달성하는 데 필요한 친화성 시약의 수를 결정하기 위해, 과량의 친화성 시약(즉, 90% 적용 범위에 필요한 것보다 많은 것)의 결합을 프로테옴 내의 각각의 단백질에 대해 시뮬레이션하였다. 임의의 수의 친화성 시약 N에 대해, 프로테옴 적용 범위는 세트의 제1 N 친화성 시약을 사용하여 산출되었다. 90% 프로테옴 적용 범위를 달성하는 데 필요한 친화성 시약의 수는 90% 이상의 적용 범위로 가장 낮은 N이었다. 시험된 N 값은 10씩 증가하였다.
90% 적용 범위에 필요한 친화성 시약의 수(N)를 산출하여, 각각의 시뮬레이션된 단백질에 대해 관찰된 결합 사건의 수를 기록하고, 이러한 값의 평균을 "단백질당 결합 사건의 평균 수"로 보고하였다. 추가로, 각각의 친화성 시약에 대해 결합 사건을 생성하는 단백질의 백분율을 기록하고, 이러한 값의 평균을 "친화성 시약당 결합된 단백질의 백분율"로 보고하였다.
최적의 친화성 시약 삼량체 표적의 선택 및 평가
표준 바이오시밀러 친화성 시약 모델(상기의 바이오시밀러 친화성 시약 모델 섹션 참조)이 삼량체 표적화 친화성 시약과 함께 이 분석에 사용되었다. 한 세트의 '최적의' 친화성 시약 표적이 가능한 적은 친화성 시약으로 높은 프로테옴 적용 범위를 달성하도록 최적의 300개 표적 세트를 추정하기 위해 그리디 선택 알고리즘을 사용하여 산출되었다. 또한, 프로테옴에 존재하는 삼량체 중에서 300개 표적의 20개 세트가 무작위로 선택되었다(시스테인을 함유하는 임의의 삼량체 제외). 21개 친화성 시약 세트 각각에 대한 프로테옴 적용 범위는 상기의 프로테옴 적용 범위의 계산 섹션에 기재된 바와 같이 평가되었다. 프로테옴 적용 범위는 또한 사용된 친화성 시약의 수로 프로테옴 적용 범위의 스케일링을 평가하기 위해 각각의 친화성 시약 세트의 다수의 제1 N 시약 서브세트에 대해 평가되었다.
최적의 삼량체 표적 세트는 하기에 제시된 바와 같이 선택되었다:
1. 선택된 친화성 시약(AR)의 빈 목록을 초기화한다.
2. 후보 AR 세트를 초기화한다(예컨대, 각각 시스테인이 없는 특유한 삼량체를 표적으로 하는 6,859개의 AR 수집).
3. 최적화할 단백질 서열 세트를 선택한다(예컨대, UniProt 참조 프로테옴 내의 모든 인간 단백질).
4. 원하는 수의 AR이 선택될 때까지 하기를 반복한다:
a. 각각의 후보 AR에 대해
i. 단백질 세트에 대한 후보 AR의 결합을 시뮬레이션한다.
ii. 후보 AR로부터 시뮬레이션된 결합 측정값 및 이전에 선택된 모든 AR로부터 시뮬레이션된 결합 측정값을 사용하여 각각의 단백질에 대한 디코딩을 수행한다.
iii. 단백질 추론에 의해 결정된 각각의 단백질에 대한 올바른 단백질 확인 확률을 합산하여 후보 AR에 대한 점수를 산출한다.
b. 선택된 AR 세트에 가장 높은 점수를 갖는 AR을 추가하고 후보 AR 목록으로부터 이를 제거한다.
다수의 유기체의 프로테옴 적용 범위 평가
인간 프로테옴에 대해 설계된 최적의 삼량체 세트(상기의 최적의 친화성 시약 삼량체 표적의 선택 및 평가 섹션 참조)를 표적으로 하는 300개의 친화성 시약을 사용하여 4개의 상이한 유기체에 대해 프로테옴 적용 범위를 평가하였다. 각각의 유기체에 대한 서열 데이터베이스는 상기의 단백질 서열 데이터베이스 섹션에 기재되어 있다. 각각의 유기체에 대해, 해당 유기체에 대한 서열 데이터베이스 내의 각각의 단백질에 대한 각각의 친화성 시약에 대해 0.5의 친화성 시약 에피토프 결합 친화성을 사용하여 결합을 시뮬레이션하였다. 이어서, 300개의 친화성 시약 세트의 다양한 제1 N 서브세트를 사용하여 프로테옴 적용 범위의 계산 섹션에서 기재된 바와 같이 유기체 및 프로테옴 적용 범위에 대한 적절한 서열 데이터베이스를 사용하여 결합 데이터를 디코딩하였다. 예컨대, 주어진 유기체에 대해 100개의 친화성 시약에서 적용 범위를 산출하기 위해, 디코딩할 때 총 300개의 친화성 시약 중 처음 100개로부터의 데이터만 고려되었다.
친화성 시약 결합 확률에 노이즈의 적용
친화성 시약 결합 특징의 무작위 동요를 모델링하는 방법이 고안되었다. 이 방법은 확률을 0 내지 1로 유지하면서 삼량체 (또는 다른 짧은 선형 에피토프) 결합 확률에 무작위 "노이즈"를 적용하였다. 주어진 결합 확률 p가 주어지면 동요된 확률은 분포로부터 샘플을 추출함으로써 결정되었다:
여기서,
은 정상 분포이고,
는 동요의 심각도를 조정하는 데 사용되는 파라미터이고,
는 표준 정상 분포의 누적 분포 함수이다.
파라미터 는 분포의 평균 절대 편차(MAD)를 삼량체 확률 p로 나눈 값이 원하는 목표와 동일하도록 설정되었다. 이 조율 파라미터는 "부분 MAD"로 지칭될 것이다. 부분 MAD는 정상 분포 측정값에 대한 측정 노이즈 또는 재현성을 설명하는 데 자주 사용되는 변동 계수(평균으로 나눈 표준 편차)와의 개념적 유사성으로 인해 노이즈를 조율하는 데 사용되었다.
원하는 부분 MAD를 생성하는 확률 p에 대한 값을 찾기 위해 수치 근사 방법이 이용되었다. 먼저, p 및 원하는 부분 MAD가 주어지면 목표 MAD는 부분 MAD*p로 산출되었다. p가 주어지면 목표 MAD 및 제안된 값이 p 및 로 매개변수화된 노이즈 분포로부터 10,000개의 무작위 샘플을 생성하고 10,000개의 무작위 샘플과 목표 MAD 간 차이의 절대값을 반환하는 함수 optim이 정의된다. 사이파이 파이썬(scipy Python) 패키지로부터 미니마이즈_스칼라(minimize_scalar) 함수를 사용하여 이 함수를 최소화하는 의 값을 추정한다. 이 과정을 50회 반복하고 50회의 시행 중 중앙값 최적 σ^2를 적절한 값으로 취하여 원하는 MAD를 갖는 노이즈 분포를 생성한다.
실험적 교란변수의 모델링
저조한 결합 친화성
프로테옴 적용 범위(상기의 프로테옴 적용 범위의 계산 섹션 참조)는 인간 프로테옴 내의 각각의 특유한 단백질에 결합하는 최적의 삼량체 세트(상기의 최적의 친화성 시약 삼량체 표적의 선택 및 평가 섹션 참조)를 표적으로 하는 300개의 친화성 시약을 사용하여 평가되었다(도 2a). 그러나, 친화성 시약은 다양한 친화성 시약 결합 친화성을 시뮬레이션하기 위해 0.01 내지 0.99 범위의 다양한 표적 에피토프 결합률로 모델링되었다. 사용된 친화성 시약의 수와 프로테옴 적용 범위 사이의 관계를 모델링하기 위해 300개 친화성 시약 세트의 다양한 제1 N 서브세트를 사용하여 프로테옴 적용 범위의 계산 섹션에 기재된 바와 같이 프로테옴 적용 범위를 평가하였다. 레플리케이트 분석을 생성하기 위해 결합 시뮬레이션 및 디코딩을 5회 반복하였다.
어레이 표면에 대한 비-특이적 결합
프로테옴 적용 범위는 친화성 시약 결합 친화성과 비-특이적 결합률의 다양한 조합으로 평가되었다. 모든 경우에서, 최적의 삼량체 세트를 표적으로 하는 300개의 친화성 시약(상기의 최적의 친화성 시약 삼량체 표적의 선택 및 평가 섹션 참조)이 사용되었다. 그러나, 친화성 시약은 다양한 친화성 시약 결합 친화도 및 0 내지 0.3 범위의 다양한 표면 비-특이적 결합을 시뮬레이션하기 위해 0.05 내지 0.95 범위의 다양한 표적 에피토프 결합률로 모델링되었다. 표면 NSB로 결합을 모델링한 후, 상기의 프로테옴 적용 범위의 계산 섹션에 기재된 바와 같이 프로테옴 적용 범위를 산출하였다.
친화성 시약 특성화 동안 누락된 삼량체
최적의 친화성 시약 세트(상기의 확률적 친화성 시약 결합의 시뮬레이션 섹션 참조) 각각에 대한 결합 측정값을 인간 FASTA 데이터베이스(상기의 단백질 서열 데이터베이스 섹션 참조) 내의 각각의 단백질에 대해 0.1%의 표면 NSB 비율(상기의 어레이 표면에 대한 비-특이적 결합 섹션 참조)로 생성하였다. 단백질 ID를 생성하기 위해 결합 측정값을 디코딩하기 전, 친화성 시약 모델은 1차 에피토프의 일부를 제거하여 손상되었다. 이러한 손상은, 예컨대 친화성 시약이 결합하는 에피토프를 결정하는 데 이용된 방법이 일부 수의 에피토프를 누락하는 경우의 실험 환경에서 발생할 수 있다. 손상된 친화성 시약 모델은 단백질 ID를 생성하기 위해 결합 측정을 디코딩할 때 사용되었으며 디코딩 성능이 저하될 것으로 예상되었다. 누락된 1차 에피토프의 백분율을 조정하여 손상의 심각도를 조정하였다. 누락된 1차 에피토프의 20%를 모델링하기 위해, (총체적으로 모든 친화성 시약 중에서) 1차 에피토프의 무작위 20%를 제거용으로 선택하였다. 최적의 친화성 시약은 10개의 1차 에피토프를 갖기 때문에, 일부는 하나보다 더 많이 제거되고 다른 일부는 무작위 기회로 인해 제거되지 않을 수도 있지만, 이는 평균적으로 각각의 친화성 시약에서 2개의 1차 에피토프가 누락되었음을 의미한다. 일부 분석에서, 소정의 백분율의 2차 에피토프도 유사한 방식으로 제거되었다.
친화성 시약 특성화 동안 삼량체 에피토프의 거짓 확인
상기의 친화성 시약 특성화 동안 누락된 삼량체 섹션과 유사하게, 프로테옴 내의 단백질에 대한 친화성 시약의 결합은 표면 NSB 0.1%로 시뮬레이션되었으며 친화성 시약 모델은 디코딩 전에 손상되었다. 이 분석을 위해, 디코딩하기 전에 거짓 양성 에피토프를 친화성 시약에 추가하였다. 이는 각각의 친화성 시약에 의해 결합된 에피토프를 특성화하는 데 이용되는 방법이 친화성 시약이 결합하지 않는 일부 수의 삼량체 에피토프를 거짓으로 확인하는 시나리오를 시뮬레이션한다. 전체 세트가 특정 백분율의 거짓 에피토프를 함유하도록 거짓 1차 에피토프를 추가하여 손상의 심각도를 조정하였다. 예컨대, 20% 거짓 에피토프는 친화성 시약 세트 중 1차 에피토프의 20%가 거짓이 될 때까지 거짓 1차 에피토프가 추가되었음을 의미한다. 여분의 에피토프는 친화성 시약들 사이에 무작위로 분포되었다. 여분의 에피토프의 삼량체 정체는 교체를 통해 무작위로 선택되었다. 일부 분석에서, 2차 에피토프도 손상의 영향을 받았다. 임의의 추가된 2차 에피토프는 기존 또는 추가된 1차 에피토프와 일치해서는 안 된다. 예컨대, 1차 에피토프 HNW, HDW 및 HHW 및 2차 에피토프 HRW 및 HGW를 표적으로 하는 친화성 시약은 LWW가 손상되는 1차 또는 2차 에피토프로 추가될 수 있지만 HGW는 손상되는 1차 에피토프로만 추가될 수 있으며, 이 경우 결합 확률은 1차 에피토프의 확률로 업데이트된다.
친화성 시약 삼량체 결합의 일관된 과대 또는 과소 평가
상기의 친화성 시약 특성화 동안 누락된 삼량체 섹션과 유사하게, 프로테옴 내의 단백질에 대한 친화성 시약의 결합은 표면 NSB 0.1%로 시뮬레이션되었으며 친화성 시약 모델은 디코딩 전에 손상되었다. 이 분석에서 에피토프 결합 확률은 실제 값보다 체계적으로 높거나 낮도록 조정되었다. 이는 친화성 시약 특성화 방법이 친화성 시약에 의해 표적화되는 올바른 삼량체 에피토프를 결정하지만 (결합 확률로 모델링되는) 결합 강도를 체계적으로 과대평가하거나 과소평가하는 상황을 모델링한다. 조작은 친화성 시약의 1차 에피토프가 원하는 양만큼 이동되도록 에피토프의 결합 확률에 일부 배수 변화 이동을 적용하는 것을 수반하였다. 예컨대, 0.25의 실제 1차 에피토프 결합 확률을 갖는 친화성 시약에 대해 +0.25의 이동을 모델링하기 위해, 친화성 시약의 모든 에피토프의 결합 확률에 2를 곱하였다. 이 경우에서, 0.25의 실제 결합 확률를 갖는 1차 에피토프는 디코딩을 수행할 때 0.5의 확률로 결합되는 것으로 가정될 것이다. 유사하게, 이러한 동일한 배수적 이동이 2차 결합 에피토프에도 적용될 수 있다. 예컨대, 0.2의 결합 확률을 갖는 2차 에피토프는 0.4의 결합 확률을 가질 것이다. 유사하게, 결합 확률을 더 작게 조정하는 조정이 이루어질 수 있다. 일부 분석에서, 친화성 시약의 일부만 손상시켜 손상의 심각도를 조정하였다. 예컨대, 친화성 시약의 50%가 영향을 받을 수 있으며, 이는 친화성 시약의 절반은 결합 확률에 체계적인 오류를 갖는 반면 나머지는 영향을 받지 않는다는 것을 의미한다.
노이즈 친화성 시약 특성화
상기의 친화성 시약 특성화 동안 누락된 삼량체 섹션과 유사하게, 프로테옴 내의 단백질에 대한 친화성 시약의 결합이 표면 NSB 0.1%로 시뮬레이션되었으며 친화성 시약 모델은 디코딩 전에 손상되었다. 이 분석에서, 특성화된 에피토프 결합 확률에 무작위 노이즈가 적용되었다. 무작위 노이즈는 세트에 있는 친화성 시약의 무작위 부분에 적용되었다. 노이즈의 영향을 받는 임의의 친화성 시약의 경우, 모든 1차 및 2차 에피토프는 어느 정도의 노이즈 뿐만 아니라 친화성 시약의 비-특이적 결합률에 적용되었다. 결합 확률은 상기의 친화성 시약 결합 확률에 노이즈 적용 섹션에 기재된 방법에 따라 부분 MAD 0 내지 0.75 범위의 노이즈 양으로 교란되었다.
세포주 및 혈장 실험의 시뮬레이션
단백질 풍부도 데이터베이스 처리
각각의 샘플의 단백질 조성은 PaxDb v4.1(Wang et. al., Molecular Cellular Proteomics, 8:492-500 (2012). doi: 10.1074/mcp.O111.014704, 참조로 본원에 포함됨)로부터 다운로딩된 단백질 풍부도를 사용하여 모델링되었다. 구체적으로, 혈장 단백질 풍부도는 "H.sapiens - Plasma (Integrated)" 데이터세트(https://pax-db.org/downloads/4.1/datasets/9606/9606-PLASMA-integrated.txt downloaded September, 2021)로부터의 것이었다. 세포주 풍부도는 HeLa 세포의 고분해 질량 분광측정 분석(Nagaraj Molecular Systems Biology, 7:548 (2011). doi:10.1038/msb.2011.81, 참조로 본원에 포함됨)으로부터 구축된 데이터세트 "H.sapiens - Cell line, Hela, SC (Nagaraj,MSB,2011)"(pax-db.org/downloads/4.1/datasets/9606/9606-hela_Nagaraj_2011.txt)로부터의 것이었다. PaxDb 데이터 내의 단백질의 정체는 https://pax-db.org/downloads/4.1/mapping_files/uniprot_mappings/full_uniprot_2_paxdb.04.2015.tsv.zip(2021.09.에 다운로딩됨)에서 사용 가능한 PaxDb 유지 관리자로부터 사용 가능한 PaxDb-Uniprot 매핑을 사용하여 Uniprot 인간 단백질 서열 데이터베이스(상기의 단백질 서열 데이터베이스 섹션 참조) 내의 단백질의 정체에 매핑되었다. UniProt 서열 데이터베이스에 매핑될 수 없는 PaxDb 데이터베이스에 존재하는 모든 단백질은 샘플로부터 제거되었다. 혈장 데이터베이스 내의 4,492개 항목 중 4,342개(97%)가 1% 초과의 샘플을 포함하는 매핑되지 않은 단백질 없이 성공적으로 매핑되었다. 세포 데이터베이스의 8,817개 항목 중 8,554개(97%)가 1% 초과의 샘플을 포함하는 매핑되지 않은 단백질 없이 성공적으로 매핑되었다. 일부 경우에서, PaxDb 데이터베이스 내의 하나 초과의 항목이 서열 데이터베이스 내의 단일 UniProt 확인자에 매핑되었다. 이러한 경우에, 제1 항목만 유지되었다. 혈장 데이터베이스에서, 이 작업의 결과로 99개의 데이터베이스 항목이 삭제되었다(4,243개의 항목이 남음). 세포주 데이터베이스에서, 145개의 항목이 삭제되었다(8,409개의 항목이 남음). 이러한 작업 중 어떠한 것도 1% 초과의 상응하는 샘플을 포함하는 항목을 삭제하지 않았다. 풍부도가 0인 25개 및 97개의 단백질이 각각 혈장 및 세포주 데이터베이스에서 제거되었다. 필터링 후, 풍부도 데이터베이스는 합이 1로 정규화되었다.
단백질 풍부도의 대치(혈장)
모델링된 혈장 샘플에 표시되지 않은 인간 단백질 서열 데이터베이스 내의 단백질에 대해 풍부도가 대치되었다(상기의 단백질 풍부도 데이터베이스 처리 섹션 참조). 이 과정을 통해 풍부도의 동적 범위가 1012인 20,235개의 단백질을 함유하는 '완전한' 혈장 샘플이 생성되었다. 완전한 혈장 샘플의 풍부도 분포는 세미-가우스 분포로 모델링되었다(Eriksson, Nature Biotechnology, 25:651-655 (2007). doi:10.1038/nbt1315, 참조로 본원에 포함됨):
를 x에서 평가된 평균 μ 및 표준 편차 σ를 갖는 정상 분포 확률 밀도 함수로 가정:
하기를 가정:
= 모델링된 혈장 샘플 사전 대치에서 가장 높은 단백질 풍부도
= 1.2
를 풍부도 에서 세미-가우스 분포의 확률 밀도에 비례하는 함수로 가정.
이어서, 대치되어야 하는 단백질의 풍부도에 대한 확률 밀도 함수가 추정되었다. '완전한' 혈장 샘플에 존재하는 log 10(풍부도)>t인 임의의 단백질이 PaxDb에서 정확하게 표시될 것이라는 추론에 따라 '높은 풍부도' 단백질 t = A max - 4에 대한 임계값이 설정되었다(즉, 검출 편향에 의해 영향을 받지 않음). PaxDb 단백질의 확률 밀도는 로그-10 변환 풍부도에 대한 히스토그램(50개의 빈)을 산출하고 히스토그램의 총 면적이 1이 되도록 각각의 빈의 값을 정규화하여 추정되었다.
PaxDb에서 단백질 풍부도 > t의 확률 밀도와 일치하도록 완전한 샘플 풍부도 분포 g(x)의 높은 풍부도 테일을 조정하기 위해 스케일링 계수 α가 산출되었다:
여기서,
: a > t인 log-10 PaxDb 풍부도의 히스토그램의 j 빈 중심, 및
: 해당 빈 중심에 상응하는 밀도.
커널 밀도 추정치 K는 σ = 0.2인 가우스 커널을 사용하여 log10 변환된 혈장 풍부도 값에 피팅되었고, 대치된 단백질에 대한 풍부도에 대한 확률 분포의 밀도에 비례하는 함수를 추정하기 위해 스케일링된 세미-가우스 분포로부터 차감되었다: . 함수 h(x)와 log10 풍부도 사이의 밑수 10 로그공간에 균등하게 분산된 500 풍부도 값에서 평가되었다. h(x)가 0 미만으로 평가된 임의의 포인트는 0으로 설정되었다. 연속 확률 분포를 선형 보간법을 이용하여 이러한 샘플 포인트 격자에 피팅한 다음 분포의 총 확률이 1이 되도록 정규화하였다. 처리된 PaxDb 데이터세트에 표시되지 않은 UniProt 데이터베이스 내의 16,017개 단백질의 풍부도는 전술된 분포로부터의 무작위 샘플로 설정되었다. 생성된 풍부도는 각각의 풍부도를 모든 풍부도의 합으로 나눔으로써 몰 분율 추정치로 변환된다.
단백질 풍부도의 대치(세포주)
모델링된 세포주 샘플에 표시되지 않은 인간 단백질 서열 데이터베이스 내의 단백질에 대해 풍부도가 대치되었다(상기의 단백질 풍부도 데이터베이스 처리 섹션 참조). 이 과정을 통해 풍부도의 동적 범위가 1010인 20,235개의 단백질을 함유하는 '완전한' 세포주 샘플이 생성되었다. "완전한" 세포주 샘플은 log10 변환된 풍부도에 대한 조정된 왜곡된 정상 분포로 모델링되었다:
여기서, skewnorm.pdf는 왜곡된 정상 분포의 확률 밀도 함수이다.
커널 밀도 추정치 K(가우스 커널, σ=0.2)는 세포주 샘플에 대해 처리된 PaxDb 데이터베이스 내의 모든 항목의 log10 변환된 풍부도에 피팅되었다. 함수 h(x)는 log10 풍부도 과 log10 풍부도 사이의 밑수 10 로그공간에 균등하게 분산된 500 풍부도 값에서 평가되었다. h(x)가 0 미만으로 평가된 임의의 포인트는 0으로 설정되었다. 연속 확률 분포를 선형 보간법을 이용하여 이러한 샘플 포인트 격자에 피팅한 다음 분포의 총 확률이 1이 되도록 정규화하였다. 처리된 PaxDb 데이터세트에 표시되지 않은 UniProt 데이터베이스 내의 111,923개 단백질의 풍부도는 전술된 분포로부터의 무작위 샘플로 설정되었다. 생성된 풍부도는 각각의 풍부도를 모든 풍부도의 합으로 나눔으로써 몰 분율 추정치로 변환된다.
고갈된 혈장 샘플
가장 풍부한 단백질이 샘플로부터 고갈된 혈장 샘플을 모델링하기 위해(예컨대, 시판되는 친화성 컬럼 사용), 대치된 혈장 샘플에서 가장 풍부한 상위 20개 단백질의 풍부도(상기의 단백질 풍부도의 대치(혈장) 섹션 참조)는 99% 감소되었으며, 풍부도는 합이 1로 재정규화되어 몰 분율의 추정치로 사용되었다.
단백질 침착 시뮬레이션
어레이에 풍부도 의 n개 단백질을 함유하는 샘플의 침착은 다항 분포로 모델링되었다. 단백질 풍부도는 로 합산되는 확률로 정규화되었다. N 주소를 갖는 어레이에 침착된 각각의 단백질의 수를 결정하기 위해, 확률 N 시도로 파라미터화된 다항 분포로부터 무작위 샘플이 만들어진다.
결합 데이터의 시뮬레이션
각각의 샘플 유형(세포, 혈장, 고갈된 혈장)에 대해, 5개의 기술적 레플리케이트 단백질 어레이에 대한 결합을 시뮬레이션하였다. 결합에 사용된 300개의 친화성 시약은 제1의 300개의 최적 표적을 표적으로 하였고(상기의 최적의 친화성 시약 삼량체 표적의 선택 및 평가 섹션 참조), 상기의 바이오시밀러 친화성 시약 모델 섹션에 기재된 결합 모델을 0.001의 표면 비-특이적 결합률로 사용하였다. 레플레이트 간 결합에서 무작위 변화를 시뮬레이션하기 위해, 상기의 친화성 시약 결합 확률에 노이즈의 적용 섹션에 기재된 방법을 이용하여 각각의 레플리케이트에 대해 친화성 시약의 결합 확률을 0.1의 부분 평균 절대 편차로 교란하였다. 이어서, 상기의 확률적 친화성 시약 결합의 시뮬레이션 섹션에 기재된 바와 같이 각각의 유동 셀에 대한 결합을 시뮬레이션하였다.
결합 데이터의 디코딩
단백질 디코딩은 상기의 단백질 디코딩 섹션에 기재된 바와 같이 각각의 레플리케이트에 대해 개별적으로 수행되었다. 인간 FASTA 서열 데이터베이스(상기의 단백질 서열 데이터베이스 섹션 참조)를 사용하여 단백질 후보 서열을 정의하였다. 모든 레플리케이트의 디코딩에 사용된 친화성 시약 모델은 무작위 노이즈를 적용하기 전에 상기의 결합 데이터의 시뮬레이션 섹션에서 참조된 원래의 친화성 시약 세트였다. 디코딩 방법은 0.001의 표면 비-특이적 결합률을 가정하였다.
단백질 정량화를 위한 확률 임계값의 결정
주어진 확인 확률 임계값 p t 에서, 샘플 내의 단백질은 확률 p > p t t로 디코딩 출력에서 해당 단백질에 대한 확인의 수를 산출하여 정량화될 수 있다. 그러나, 확률 임계값을 너무 낮게 설정하면 거짓 양성 확인이 많이 발생하여 정량적 특이성이 낮아질 수 있다. 확률 임계값을 너무 높게 설정하면 거짓 음성 확인이 발생하여 정량적 민감도가 낮아질 수 있다. 분석된 각각의 레플리케이트 유동 셀에 대해, 디코딩 결과는 확률 임계값: log(p) = 0, -1Х10^(-20), -1Х10^(-16), -1Х10^- 14, -1Х10^- 12, -1Х10^- 11, -1Х10^- 10, -1Х10^- 9, -1Х10^- 8, -1Х10^- 7, -1Х10^- 6, -1Х10^- 5, -1Х10^- 4, -1Х10^- 3, -1Х10^- 2, -0.1, -0.2, 및 -0.3으로 처리되었다.
평가된 각각의 임계값에 대해:
데이터세트에서 적어도 한 번 확인된 모든 특유한 단백질에 대해:
- 참 양성(즉, 올바른 확인) 및 거짓 양성(즉, 단백질로 부정확하게 확인된 스폿)인 단백질에 대해 보고된 확인의 수를 산출한다.
- 이 단백질에 대한 정량화의 특이성을 산출한다:
- 단백질의 특이성이 < 0.9인 경우, 이를 비-특이적 확인으로 표지한다.
'비-특이적 확인률': "비-특이적 확인" 부류에 속하는 단백질의 분율을 산출한다.
분석된 모든 레플리케이트에 대해 비-특이적 확인률 < 0.1%를 초래하는 가장 낮은 임계값을 다운스트림 정량화 분석에 사용하였다.
정량적 통계
확인 확률에 의한 임계값을 설정한 후, 각각의 분석에 대해 하기의 통계가 산출되었다:
단백질 확인의 특이성은 상기의 단백질 정량화를 위한 확률 임계값 결정 섹션에 기재된 바와 같이 산출되었다.
주어진 레플리케이트에서 적어도 한 번의 확인을 갖는 단백질은 해당 레플리케이트에서 '확인'된 것으로 간주되었다.
레플리케이트에 대한 프로테옴 적용 범위는 샘플에 존재하는 모든 단백질 중에서 레플리케이트에서 적어도 한 번 확인된 단백질의 백분율이었다.
레플리케이트에 걸쳐 단백질에 대한 정량화의 재현성(CV%)은 각각의 레플리케이트에서 해당 단백질의 카운트의 수를 사용하여 산출되었다: . 레플리케이트에서 확인되지 않은 단백질은 카운트 0으로 지정되었다.
실시예 II
반검열된 디코딩을 위한 슈도 서열을 생성하기 위해 마르코브 체인 몬테 카를로 방법을 이용
본 실시예는 반검열된 디코딩 방법에 사용하기 위한 비-결합 확률을 예측하는 데 유용한 마르코브 모델을 설명한다. 유리하게도, 마르코브 모델은 주어진 프로테옴에서 단백질의 길이를 설명하지만 해당 단백질에 대한 아미노산 서열의 가변성에 불가지론적인 방식으로 비-결합 확률의 예측을 용이하게 한다. 마르코브 모델은 관심 있는 프로테옴에서 각각의 특유한 단백질 길이 L에 대한 슈도 서열 세트를 생성하는 데 사용된다. 친화성 시약의 비-결합 확률은 각각의 슈도 서열에 대해 예측될 수 있고, 길이 L의 슈도 서열 세트의 평균 또는 중앙값 비-결합 예측은 동일한 길이의 임의의 아미노산 서열을 갖는 후보 단백질에 대한 예측된 반검열된 비-결합 확률로서 사용될 수 있다.
마르코브 모델은 이러한 상태 사이의 전이 확률을 갖는 유한한 상태 세트로 특성화될 수 있다. 이러한 전이 확률은 현재 상태에만 의존한다. 사용된 모델의 예는 하기의 전이 매트릭스에 의해 설명된다. 여기서 주어진 행은 잠재적인 현재 삼량체 상태를 나타내고, 해당 행의 항목은 행의 현재 상태로부터 열 표지로 표시되는 상태로의 전이 확률을 나타낸다.
마르코브 모델의 삼량체 파라미터화를 이용하면, 임의의 유효한 다음 상태의 처음 2개의 아미노산은 현재 상태의 마지막 2개의 아미노산을 유지해야 하므로 많은 상태 전이가 불가능하며 전이 확률은 0이다. 예컨대, 행 1에 표시된 바와 같이 현재 상태 "AAA"가 주어지면, 현재 상태 "AA"의 마지막 2개의 아미노산이 다음 상태의 처음 2개의 아미노산으로 유지되지 않기 때문에, 상태 "CYY"로의 전이가 불가능하다. 훈련 데이터가 이러한 전이를 함유하지 않으면 잠재적으로 유효한 전이의 전환 확률은 0일 수도 있다. 순전히 예로서, "AAA"에서 "AAD"로의 유효한 전이는 0의 전이 확률을 갖는 것으로 표시된다. 먼저 초기 상태 및 이력을 확률적으로 선택하여 마르코브 모델로부터 샘플을 생성할 수 있다. 이어서, 현재 상태의 전이 확률을 기반으로 다음 상태를 확률적으로 선택하여 추가 상태를 결정한다. 이러한 무작위 워크는 미리 결정된 수의 전이 후에 종료될 수 있다.
각각의 상태에 대해, 프로테옴 내에서 관찰된 전이를 기반으로 전이 확률이 학습된다. 이러한 모델로부터 생성된 서열은 실제 프로테옴의 서열 특징(예컨대, 아미노산 조성)을 모방한다. 프로테옴은 프로테옴에 존재할 것으로 예상되는 천연 아미노산 서열을 포함하는 후보 단백질의 제1 세트를 참조하여 디코딩될 수 있다. 슈도 서열은 프로테옴에 고유하지 않은 아미노산 서열이다. 각각의 슈도 서열은 후보 단백질 세트에서 나타내는 천연 서열과 동일한 아미노산 서열 길이를 갖는다. 슈도 단백질이 무검열 디코딩에 사용되는 경우, 평균 예측 비-결합 확률(무검열된 비-결합 확률은 단순히 1 - 예측된 결합 확률)은 관심 있는 프로테옴의 아미노산 조성을 나타내는 "평균" 서열의 예측된 비-결합 확률에 가깝다.
상기 설명으로부터 명백한 바와 같이, 비-결합 확률은 아미노산 서열의 가변성이 계산에 영향을 미치지 않도록 엄격하게 길이 의존적인 방식으로 결정될 수 있다. 동일한 길이의 두 단백질은 이러한 방법을 이용하여 주어진 친화성 시약에 대해 항상 동일한 비-결합 공산을 가질 것이다.
삼량체 이외의 서열 영역을 기반으로 유사한 모델을 구축할 수 있다. 예컨대, 삼량체는 상기 모델에서 단량체, 이량체, 사량체 또는 오량체로 대체될 수 있다. 서열 영역의 길이가 증가함에 따라 적절한 훈련 데이터를 사용할 수 있는 경우 모델의 효율성이 개선될 수 있다. 인간 프로테옴과 크기가 유사하거나 더 작은 프로테옴에는 단량체, 이량체 및 삼량체와 같은 더 짧은 길이가 바람직할 수 있다.
마르코브 모델은 비닝 접근법과 비교되었다. 비닝 접근법은 하기와 같이 수행되었다. 실질적으로 인간 프로테옴 내의 모든 단백질은 유사한 길이의 단백질의 빈으로 집계되었다. 각각의 빈 내에서 각각의 단백질에 대해 무검열된 비-결합 공산이 예측되었다(즉, (1 - P(결합 | 단백질))). 중앙값은 전체 빈에 대한 반검열된 비-결합 공산으로 사용되었다.
도 13은 상이한 반검열된 디코드 접근법에 대한 시퀀스 길이에 따른 예측된 비-결합 확률을 나타낸다. 결과는 마르코브 모델 기반 접근법의 적합성이 삼량체 기반 확률 조정 사용과 비교할 때 R 제곱 값을 줄임으로써 비닝 접근법보다 성능이 우수하다는 것을 나타낸다. 확률 조정은 하기와 같이 결정되었다:
여기서, L은 관심(도 13에서 "정규"로 확인됨) 단백질의 길이이다. 도 14는 상이한 반검열된 디코드 접근법을 이용하는 임의 길이의 서열에 대한 비-결합 확률 예측을 나타낸다. 결과는 슈도 서열을 사용하여 임의 길이의 서열에 대한 비-결합을 예측할 수 있음을 나타낸다.
본 발명의 바람직한 실시양태가 본원에 도시되고 설명되었지만, 이러한 실시양태는 단지 예로서 제공된다는 것이 당업자에게 명백할 것이다. 본 발명은 명세서 내에 제공된 특정 실시예에 의해 제한되도록 의도되지 않는다. 본 발명은 전술한 명세서를 참조하여 설명되었지만, 본원의 실시양태의 설명 및 예시는 제한적인 의미로 해석되는 것을 의미하지 않는다. 본 발명을 벗어나지 않으면서 당업자는 다양한 변형, 변화 및 대체를 할 수 있을 것이다. 본원에 기재된 본 발명의 실시양태에 대한 다양한 대안이 본 발명을 실시하는 데 채용될 수 있다는 것이 이해되어야 한다. 따라서, 본 발명은 또한 임의의 이러한 대안, 수정, 변형 또는 등가물을 포함하는 것으로 고려된다. 하기의 청구범위는 본 발명의 범위를 정의하고 이들 청구범위 및 이의 등가물 범위 내의 방법 및 구조가 이에 의해 포괄되도록 의도된다.

Claims (52)

  1. 현존 단백질을 확인하는 방법으로서,
    (a) 컴퓨터 프로세서에 입력을 제공하는 단계로서, 입력은
    (i) 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 양성 결합 결과 및 음성 결합 결과를 포함하는 결합 프로필로서, 복수의 결합 결과의 개별 결합 결과는 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하는 것인 결합 프로필,
    (ii) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스, 및
    (iii) 각각의 상이한 친화성 시약에 대한 결합 모델
    을 포함하는 것인 단계;
    (b) 결합 모델에 따른 데이터베이스 내의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계로서, 결정은 양성 결합 결과 및 음성 결합 결과에 대한 확률을 산출하는 것을 포함하고, 양성 결합 결과는 음성 결합 결과에 비해 더 큰 가중치가 부여되는 것인 단계; 및
    (c) 현존 단백질을 선택된 후보 단백질로서 확인하는 단계로서, 선택된 후보 단백질은, 현존 단백질에 대한 결합 프로필과 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질인 단계
    를 포함하는, 현존 단백질을 확인하는 방법.
  2. 제1항에 있어서, 입력은 (iv) 하나 이상의 상이한 친화성 시약에 대해 발생하는 비-특이적 결합 사건의 확률을 포함하는 비-특이적 결합률을 추가로 포함하는 것인 방법.
  3. 제2항에 있어서, 비-특이적 결합 사건은 단백질 이외의 물질에 대한 하나 이상의 상이한 친화성 시약의 결합을 포함하는 것인 방법.
  4. 제3항에 있어서, 물질은 현존 단백질에 부착된 고체 지지체인 방법.
  5. 제2항에 있어서, 비-특이적 결합 사건은 단백질 내의 예상치 못한 모이어티에 대한 하나 이상의 상이한 친화성 시약의 결합을 포함하는 것인 방법.
  6. 제5항에 있어서, 예상치 못한 모이어티는 단백질의 번역 후 변형을 포함하는 것인 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 양성 결합 결과에 대한 확률의 산출은, 복수의 후보 단백질 내의 각각의 후보 단백질과 각각의 친화성 시약 사이에서 발생하는 양성 결합 사건의 확률을 결정하는 것을 포함하는 것인 방법.
  8. 제7항에 있어서, 양성 결합 사건의 확률은 후보 단백질의 길이에 대해 정규화되는 것인 방법.
  9. 제8항에 있어서, 양성 결합 사건의 확률은 이항 근사, 정확한 포아송 이항식 또는 추정된 포아송 이항식을 사용하여 정규화되는 것인 방법.
  10. 제7항에 있어서, 음성 결합 결과에 대한 확률의 산출은, 복수의 후보 단백질 내의 각각의 후보 단백질과 각각의 친화성 시약 사이에서 발생하는 음성 결합 사건의 확률을 결정하는 것을 포함하는 것인 방법.
  11. 제10항에 있어서, 음성 결합 사건의 확률은 후보 단백질의 길이에 대해 정규화되는 것인 방법.
  12. 제11항에 있어서, 음성 결합 사건의 확률은 이항 근사, 정확한 포아송 이항식 또는 추정된 포아송 이항식을 사용하여 정규화되는 것인 방법.
  13. 제7항에 있어서, 음성 결합 결과에 대한 확률의 산출은, 복수의 슈도 단백질 내의 각각의 슈도 단백질과 각각의 친화성 시약 사이에서 발생하는 음성 결합 사건의 확률을 결정하는 것을 포함하는 것인 방법.
  14. 제13항에 있어서, 복수의 슈도 단백질 내의 아미노산 서열이, 복수의 후보 단백질 내의 아미노산 서열에 대한 전체 길이와 동일한 전체 길이를 갖는 것인 방법.
  15. 제14항에 있어서, 복수의 슈도 단백질은 복수의 후보 단백질에 존재하는 임의의 전체 길이의 아미노산 서열이 결여되어 있는 것인 방법.
  16. 제14항에 있어서, 복수의 슈도 단백질은 복수의 후보 단백질에 존재하는 전체 길이의 아미노산 서열의 서브세트가 결여되어 있는 것인 방법.
  17. 제13항에 있어서, 복수의 슈도 단백질의 아미노산 서열은, 마르코브 체인, 생성적 대립 네트워크 또는 길이 기반 비닝을 사용하여 복수의 후보 단백질 내의 아미노산 서열을 샘플링함으로써 생성되는 것인 방법.
  18. 제10항에 있어서, 결합 모델은 후보 단백질 내의 에피토프와 각각의 친화성 시약 사이에서 발생하는 양성 결합 사건의 확률을 결정하기 위한 함수를 추가로 포함하는 것인 방법.
  19. 제18항에 있어서, 후보 단백질 내의 에피토프와 각각의 친화성 시약 사이에서 발생하는 음성 결합 사건의 확률을 결정하기 위한 함수는, 후보 단백질 내의 에피토프와 각각의 친화성 시약 사이에서 발생하는 양성 결합 사건의 확률을 결정하기 위한 함수와 독립적인 것인 방법.
  20. 제18항에 있어서, 후보 단백질 내의 에피토프와 각각의 친화성 시약 사이에서 발생하는 음성 결합 사건의 확률은, 후보 단백질 내의 에피토프와 각각의 친화성 시약 사이에서 발생하는 양성 결합 사건의 확률과 독립적으로 결정되는 것인 방법.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서, 단계 (c)에서 확인된 현존 단백질이 선택된 후보 단백질일 확률을 결정하는 단계를 추가로 포함하는 방법.
  22. 제21항에 있어서, 확률은 단계 (b)에서 결정된 선택된 후보 단백질의 확률을, 데이터베이스 내의 다른 모든 후보 단백질에 대한 단계 (b)에서 결정된 확률들의 합으로 나눈 몫인 방법.
  23. 제1항 내지 제22항 중 어느 한 항에 있어서, 선택된 후보 단백질은 결합 프로필 내의 대부분의 결합 결과와 일치하는 친화성 시약과 결합할 확률이 가장 높은 것인 방법.
  24. 제1항 내지 제23항 중 어느 한 항에 있어서, 양성 결합 결과 및 음성 결합 결과가 결합 프로필에서 비-이진 값으로 표시되는 것인 방법.
  25. 제1항 내지 제24항 중 어느 한 항에 있어서, 단계 (a)(ii)의 정보가 후보 단백질에 대한 1차 서열을 포함하는 것인 방법.
  26. 제1항 내지 제25항 중 어느 한 항에 있어서, 결합 모델은 단백질 에피토프와 각각의 친화성 시약 사이에서 발생하는 특이적 결합 사건의 확률을 결정하기 위한 함수를 포함하는 것인 방법.
  27. 제26항에 있어서, 에피토프는 실질적으로 아미노산 삼량체로 이루어지는 것인 방법.
  28. 제1항 내지 제27항 중 어느 한 항에 있어서, 결합 모델은 단백질 에피토프와 각각의 친화성 시약 사이에서 발생하는 비-특이적 결합 사건의 확률을 결정하기 위한 함수를 포함하는 것인 방법.
  29. 제28항에 있어서, 에피토프는 실질적으로 아미노산 삼량체로 이루어지는 것인 방법.
  30. 제1항 내지 제29항 중 어느 한 항에 있어서, 결합 모델은 각각의 친화성 시약과, 각각의 친화성 시약에 대한 특이적 에피토프와 바이오시밀러인 에피토프 사이에서 발생하는 결합 사건의 확률을 결정하기 위한 함수를 포함하는 것인 방법.
  31. 제1항 내지 제30항 중 어느 한 항에 있어서, 단계 (b)는 데이터베이스 내의 각각의 후보 단백질에 결합하는 각각의 친화성 시약에 대한 양성 결합 결과의 확률을 포함하는 확률 매트릭스를 산출하는 것을 포함하는 것인 방법.
  32. 제31항에 있어서, 단계 (b)는 데이터베이스 내의 각각의 후보 단백질에 결합하는 각각의 친화성 시약에 대한 음성 결합 결과의 확률을 포함하는 확률 매트릭스를 산출하는 것을 추가로 포함하는 것인 방법.
  33. 현존 단백질을 확인하는 방법으로서,
    (a) 복수의 상이한 친화성 시약을 샘플 내의 복수의 현존 단백질과 접촉시키는 단계;
    (b) 단계 (a)로부터 결합 데이터를 획득하는 단계로서, 결합 데이터는 복수의 결합 프로필을 포함하고, 각각의 결합 프로필은 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 복수의 결합 결과의 개별 결합 결과는 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하고, 각각의 결합 프로필은 양성 결합 결과 및 음성 결합 결과를 포함하는 것인 단계;
    (c) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스를 제공하는 단계;
    (d) 각각의 상이한 친화성 시약에 대한 결합 모델을 제공하는 단계;
    (e) 결합 모델에 따른 데이터베이스 내의 각각의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계로서, 결정은 양성 결합 결과 및 음성 결합 결과에 대한 확률을 산출하는 것을 포함하고, 양성 결합 결과는 음성 결합 결과에 비해 더 큰 가중치가 부여되는 것인 단계; 및
    (f) 현존 단백질을 선택된 후보 단백질로서 확인하는 단계로서, 선택된 후보 단백질은, 현존 단백질에 대한 복수의 결합 결과와 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질인 단계
    를 포함하는, 현존 단백질을 확인하는 방법.
  34. 제33항에 있어서, 하나 이상의 상이한 친화성 시약에 대해 발생하는 비-특이적 결합 사건의 확률을 포함하는 비-특이적 결합률을 제공하는 단계를 추가로 포함하는 방법.
  35. 제34항에 있어서, 비-특이적 결합 사건은 현존 단백질에 부착된 고체 지지체에 대한 하나 이상의 상이한 친화성 시약의 결합을 포함하는 것인 방법.
  36. 제33항 내지 제35항 중 어느 한 항에 있어서, 양성 결합 결과에 대한 확률의 산출은, 복수의 후보 단백질 내의 각각의 후보 단백질과 각각의 친화성 시약 사이에서 발생하는 양성 결합 사건의 확률을 결정하는 것을 포함하는 것인 방법.
  37. 제36항에 있어서, 양성 결합 사건의 확률은 후보 단백질의 길이에 대해 정규화되는 것인 방법.
  38. 제37항에 있어서, 양성 결합 사건의 확률은 이항 근사, 정확한 포아송 이항식 또는 추정된 포아송 이항식을 사용하여 정규화되는 것인 방법.
  39. 제36항에 있어서, 음성 결합 결과에 대한 확률의 산출은, 복수의 후보 단백질 내의 각각의 후보 단백질과 각각의 친화성 시약 사이에서 발생하는 음성 결합 사건의 확률을 결정하는 것을 포함하는 것인 방법.
  40. 제39항에 있어서, 음성 결합 사건의 확률은 후보 단백질의 길이에 대해 정규화되는 것인 방법.
  41. 제40항에 있어서, 음성 결합 사건의 확률은 이항 근사, 정확한 포아송 이항식 또는 추정된 포아송 이항식을 사용하여 정규화되는 것인 방법.
  42. 제36항에 있어서, 음성 결합 결과에 대한 확률의 산출은, 복수의 슈도 단백질 내의 각각의 슈도 단백질과 각각의 친화성 시약 사이에서 발생하는 음성 결합 사건의 확률을 결정하는 것을 포함하는 것인 방법.
  43. 제42항에 있어서, 복수의 슈도 단백질 내의 아미노산 서열은 복수의 후보 단백질 내의 아미노산 서열에 대한 전체 길이와 동일한 전체 길이를 갖는 것인 방법.
  44. 제43항에 있어서, 복수의 슈도 단백질은 복수의 후보 단백질에 존재하는 임의의 전체 길이의 아미노산 서열이 결여되어 있는 것인 방법.
  45. 제43항에 있어서, 복수의 슈도 단백질은 복수의 후보 단백질에 존재하는 전체 길이의 아미노산 서열의 서브세트가 결여되어 있는 것인 방법.
  46. 제42항에 있어서, 복수의 슈도 단백질 내의 아미노산 서열은 마르코브 체인, 생성적 대립 네트워크 또는 길이 기반 비닝을 사용하여 복수의 후보 단백질 내의 아미노산 서열을 샘플링함으로써 생성되는 것인 방법.
  47. 제33항 내지 제46항 중 어느 한 항에 있어서, 단계 (f)에서 확인된 현존 단백질이 선택된 후보 단백질일 확률을 결정하는 단계를 추가로 포함하는 방법.
  48. 제33항 내지 제47항 중 어느 한 항에 있어서, 양성 결합 결과 및 음성 결합 결과는 결합 프로필에서 비-이진 값으로 표시되는 것인 방법.
  49. 제33항 내지 제48항 중 어느 한 항에 있어서, 단계 (e)는 데이터베이스 내의 각각의 후보 단백질에 결합하는 각각의 친화성 시약에 대한 양성 결합 결과의 확률을 포함하는 확률 매트릭스를 산출하는 것을 포함하는 것인 방법.
  50. 제49항에 있어서, 단계 (e)는 데이터베이스 내의 각각의 후보 단백질에 결합하는 각각의 친화성 시약에 대한 음성 결합 결과의 확률을 포함하는 확률 매트릭스를 산출하는 것을 추가로 포함하는 것인 방법.
  51. 검출 시스템을 사용하여 현존 단백질을 확인하는 방법으로서,
    (a) 검출 시스템에서 수행되는 복수의 결합 반응으로부터 신호를 획득하는 단계로서, 결합 반응은 복수의 상이한 친화성 시약을 샘플 내의 복수의 현존 단백질과 접촉시키는 것을 포함하는 것인 단계;
    (b) 검출 시스템에서 신호를 처리하여 복수의 결합 프로필을 생성하는 단계로서, 각각의 결합 프로필은 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 복수의 결합 결과의 개별 결합 결과는 단계 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하며, 각각의 결합 프로필은 양성 결합 결과 및 음성 결합 결과를 포함하는 것인 단계;
    (c) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스를 검출 시스템에 입력으로서 제공하는 단계;
    (d) 각각의 상이한 친화성 시약에 대한 결합 모델을 검출 시스템에 입력으로서 제공하는 단계;
    (e) 검출 시스템에서 복수의 결합 프로필을 처리하여, 결합 모델에 따른 데이터베이스 내의 각각의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하는 단계; 및
    (f) 선택된 후보 단백질의 확인을 검출 시스템으로부터 출력하는 단계로서, 선택된 후보 단백질은, 현존 단백질에 대한 복수의 결합 결과와 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질인 단계
    를 포함하는, 검출 시스템을 사용하여 현존 단백질을 확인하는 방법.
  52. 검출 시스템으로서,
    (a) 복수의 상이한 친화성 시약과 샘플 내의 복수의 현존 단백질 사이에서 발생하는 복수의 결합 반응으로부터 신호를 획득하도록 구성된 검출기;
    (b) 복수의 후보 단백질을 특성화하거나 확인하는 정보를 포함하는 데이터베이스;
    (c) 컴퓨터 프로세서로서,
    (i) 데이터베이스와 통신하고,
    (ii) 신호를 처리하여 복수의 결합 프로필을 생성하고, 각각의 결합 프로필은 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 결합에 대한 복수의 결합 결과를 포함하고, 복수의 결합 결과의 개별 결합 결과는 (a)의 현존 단백질과 복수의 상이한 친화성 시약의 상이한 친화성 시약 사이의 결합의 측정을 포함하고, 각각의 결합 프로필은 양성 결합 결과 및 음성 결합 결과를 포함하며,
    (iii) 결합 프로필을 처리하여, 각각의 친화성 시약에 대한 결합 모델에 따른 데이터베이스 내의 각각의 후보 단백질에 각각의 친화성 시약이 결합할 확률을 결정하고;
    (iv) 선택된 후보 단백질의 확인을 출력하고, 선택된 후보 단백질은 현존 단백질에 대한 복수의 결합 결과와 가장 적합한 각각의 친화성 시약과 결합할 확률을 갖는 데이터베이스 내의 후보 단백질이도록
    구성된 컴퓨터 프로세서
    를 포함하는 검출 시스템.
KR1020247014701A 2021-10-11 2022-10-07 단백질 및 프로테옴의 고도로 다중화 가능한 분석 KR20240074839A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US63/254,420 2021-10-11

Publications (1)

Publication Number Publication Date
KR20240074839A true KR20240074839A (ko) 2024-05-28

Family

ID=

Similar Documents

Publication Publication Date Title
US11282585B2 (en) Decoding approaches for protein identification
US11721412B2 (en) Methods for identifying a protein in a sample of unknown proteins
AU2018353967B2 (en) Methods and systems for protein identification
US20230114905A1 (en) Highly multiplexable analysis of proteins and proteomes
WO2021003470A1 (en) Decoding approaches for protein and peptide identification
AU2022210423A1 (en) Methods for biomolecule quantitation
KR20240074839A (ko) 단백질 및 프로테옴의 고도로 다중화 가능한 분석
US20240094215A1 (en) Characterizing accessibility of macromolecule structures
US20230360732A1 (en) Systems and methods for assessing and improving the quality of multiplex molecular assays
US20240087679A1 (en) Systems and methods of validating new affinity reagents
US20230070896A1 (en) Characterization and localization of protein modifications
JP2024075638A (ja) タンパク質同定のためのデコーディングアプローチ方法