KR20220039659A - 메소 스케일 펩티드를 조작하기 위한 머신 러닝 기반 장치 및 이를 위한 방법 및 시스템 - Google Patents

메소 스케일 펩티드를 조작하기 위한 머신 러닝 기반 장치 및 이를 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20220039659A
KR20220039659A KR1020217043264A KR20217043264A KR20220039659A KR 20220039659 A KR20220039659 A KR 20220039659A KR 1020217043264 A KR1020217043264 A KR 1020217043264A KR 20217043264 A KR20217043264 A KR 20217043264A KR 20220039659 A KR20220039659 A KR 20220039659A
Authority
KR
South Korea
Prior art keywords
blueprint
records
machine learning
learning model
reference target
Prior art date
Application number
KR1020217043264A
Other languages
English (en)
Inventor
매튜 피. 그레빙
알렉산더 티. 다구치
케빈 에두아드 하우저
Original Assignee
루브릭 테라퓨틱스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 루브릭 테라퓨틱스 인코포레이티드 filed Critical 루브릭 테라퓨틱스 인코포레이티드
Publication of KR20220039659A publication Critical patent/KR20220039659A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/001Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof by chemical synthesis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6845Methods of identifying protein-protein interactions in protein mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • G06N3/0445
    • G06N3/0454
    • G06N5/003
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/30Dynamic-time models
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K1/00General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
    • C07K1/10General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length using coupling agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Organic Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Immunology (AREA)
  • Computational Linguistics (AREA)
  • Genetics & Genomics (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Physiology (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Food Science & Technology (AREA)
  • Cell Biology (AREA)

Abstract

참조 단백질 구조의 미리 결정된 부분, 예를 들어, 항체 에피토프 또는 단백질 결합 부위의 분자 구조 특징을 반복하는 조작된 폴리펩티드의 설계 방법이 본원에 제공된다. 머신 러닝(ML) 모델은, 청사진 레코드에 의해 생성된 폴리펩티드 구조의 컴퓨터 단백질 모델링에 기초하여 계산된 스코어를 갖는 참조 표적 구조로부터 생성된 청사진 레코드에 라벨링하여 트레이닝된다. 방법은 제1 청사진 레코드 세트, 또는 이의 표현, 및 제1 스코어 세트에 기초하여 ML 모델을 트레이닝하는 단계를 포함할 수 있으며, 제1 청사진 레코드 세트로부터의 각각의 청사진 레코드는 제1 스코어 세트로부터의 각각의 스코어와 연관된다. 트레이닝 후에, 머신 러닝 모델이 실행되어 제2 청사진 레코드 세트를 생성할 수 있다. 그런 다음, 제2 청사진 레코드 세트에 기초하여 조작된 폴리펩티드 세트가 생성된다.

Description

메소 스케일 펩티드를 조작하기 위한 머신 러닝 기반 장치 및 이를 위한 방법 및 시스템
관련 출원에 대한 상호 참조
본 출원은 2019년 5월 31일에 출원되고 발명의 명칭이 "Meso-Scale Engineered Peptides and Methods of Selecting"인 미국 특허출원 제62/855,767호의 우선권 및 이익을 주장하며, 이 출원은 그 전체가 참조로서 본원에 통합된다.
기술 분야
본 개시는 일반적으로 인공 지능 / 머신 러닝 분야에 관한 것으로, 특히 펩티드를 조작하기 위한 머신 러닝 모델을 트레이닝하고 사용하기 위한 방법 및 장치에 관한 것이다.
컴퓨터 설계는 미처리 단백질을 모방하는 새로운 치료 단백질의 설계에 사용되거나 병원성 항원으로부터 원하는 에피토프 또는 에피토프들을 표시하는 백신을 설계하는 데 사용될 수 있다. 컴퓨터로 설계된 단백질은 결합제를 생성하거나 선택하는 데 사용될 수도 있다. 예를 들어, 설계된 단백질 미끼에 대해 항체 라이브러리(예를 들어, 파지 디스플레이 라이브러리)를 패닝하여 그 미끼에 결합하는 클론에 대해 선택할 수 있거나, 실험 동물을 설계된 면역원으로 면역화하여 신규한 항체를 생성할 수 있다.
다른 것들도 있지만, 컴퓨터 설계를 위한 선도적인 모델링 플랫폼은 로제타(Rosetta)다 (Das 및 Baker, 2008). 이 플랫폼은 원하는 구조와 일치하는 단백질의 설계에 사용될 수 있다. Correia 등의 Structure 18:1116-26 (2010)은 형태 안정화 및 면역 제시를 위해 연속 구조 에피토프가 스캐폴드 단백질 내로 이식되는 에피토프-스캐폴드를 설계하기 위한 일반적인 연산 방법을 개시하고 있다. Olek 등의 PNAS USA 107:17880-87 (2010)은 HIV-1 gp41 단백질로부터 에피토프를 선택 수용체 스캐폴드 내로 이식하는 것을 개시하고 있다.
종래의 컴퓨터 설계 기술은 일반적으로 표적 단백질 구조의 일부분(예를 들어, 에피토프)을 기존의 스캐폴드 상에 접목시키는 것에 의존한다. Rosetta와 같은 모델링 플랫폼은, 주어진 단백질 구조를 재현하는 단백질의 광대한 위상(topology) 공간과 같은, 큰 위상 공간을 적절하게 탐색하기에는 너무 연산 집약적이다. 따라서, 표적 단백질 구조를 모방하는 단백질의 컴퓨터 설계를 위한 새롭고 개선된 장치 및 방법이 필요하다.
일반적으로, 일부 변형예에서, 장치는 프로세서에 의해 실행될 명령어를 나타내는 코드를 저장하는 비일시적 프로세서 판독가능 매체를 포함할 수 있다. 코드는, 프로세서로 하여금, 제1 청사진 레코드(blueprint record) 세트, 또는 이의 표현, 및 제1 스코어 세트에 기초하여 머신 러닝 모델을 트레이닝하게 하는 코드를 포함할 수 있으며, 상기 제1 청사진 레코드 세트로부터의 각각의 청사진 레코드는 제1 스코어 세트로부터의 각각의 스코어와 연관된다. 매체는, 트레이닝 후에, 상기 머신 러닝 모델을 실행해서 적어도 하나의 원하는 스코어를 갖는 제2 청사진 레코드 세트를 생성하게 하는 코드를 포함할 수 있다. 상기 제2 청사진 레코드 세트는 컴퓨터 단백질 모델링에서 입력으로서 수신되어 상기 제2 청사진 레코드 세트에 기초하여 조작된 폴리펩티드를 생성하도록 구성될 수 있다.
매체는 프로세서로 하여금 참조 표적 구조를 수신하게 하는 코드를 포함할 수 있다. 매체는, 프로세서로 하여금 참조 표적 구조의 소정의 부분으로부터 제1 청사진 레코드 세트를 생성하게 하는 코드를 포함할 수 있으며, 상기 제1 청사진 레코드 세트로부터의 각각의 청사진 레코드는 표적 잔기 위치 및 스캐폴드 잔기 위치를 포함하되, 상기 표적 잔기 위치 세트로부터의 각각의 표적 잔기 위치는 표적 잔기 세트로부터의 하나의 표적 잔기에 대응한다. 일부 변형예에서, 적어도 하나의 청사진 레코드에서, 표적 잔기 위치는 비연속적이다. 일부 변형예에서, 적어도 하나의 청사진 레코드에서, 표적 잔기 위치는 참조 표적 서열 내의 표적 잔기 위치의 순서와 상이한 순서이다.
매체는, 프로세서로 하여금 각각의 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 폴리펩티드 구조를 생성하고, 상기 폴리펩티드 구조에 대한 스코어를 계산하고, 그 스코어를 청사진 레코드와 연관시키는 것에 의해 상기 제1 청사진 레코드 세트를 라벨링하게 하는 코드를 포함할 수 있다. 일부 변형예에서, 컴퓨터 단백질 모델링은 참조 표적 구조에 일치하는 템플릿이 없는 드 노보 설계에 기초할 수 있다. 일부 변형예에서, 각각의 스코어는 에너지 항 및 상기 참조 표적 구조의 표현으로부터 추출된 하나 이상의 구조적 제약조건을 사용하여 결정되는 구조-제약조건 매칭 항을 포함한다.
매체는, 프로세서로 하여금 제2 청사진 레코드 세트에 대한 제2 스코어 세트를 계산함으로써 머신 러닝 모델을 재훈련할지 여부를 결정하게 하는 코드를 포함할 수 있다. 매체는, 결정에 응답하여, (1) 제2 청사진 레코드 세트를 포함하는 재훈련 청사진 레코드 및 (2) 제2 스코어 세트를 포함하는 재훈련 스코어에 기초하여 머신 러닝 모델을 재훈련하기 위한 추가 코드를 포함할 수 있다.
매체는, 프로세서로 하여금, 머신 러닝 모델의 재훈련 후에, 제1 청사진 레코드 세트 및 제2 청사진 레코드 세트를 연결하여, 재훈련 청사진 레코드를 생성하고, 재훈련 스코어를 생성하게 하는 코드를 포함할 수 있으며, 청사진 레코드의 재훈련으로부터의 각각의 청사진 레코드는 재훈련 스코어로부터의 스코어와 연관된다. 일부 변형예에서, 적어도 하나의 원하는 스코어는 미리 설정된 값일 수 있다. 일부 변형예에서, 적어도 하나의 원하는 스코어는 역학적으로 결정될 수 있다.
일부 변형예에서, 머신 러닝 모델은 감독 대상 머신 러닝 모델일 수 있다. 감독 대상 머신 러닝 모델은, 결정 트리 앙상블, 부스팅된 결정 트리 알고리즘, 익스트림 그래디언트 부스팅(XGBoost) 모델, 또는 랜덤 포레스트를 포함할 수 있다. 일부 변형예에서, 감독 대상 머신 러닝 모델은 서포트 벡터 머신(SVM), 피드-포워드(feed-forward) 머신 러닝 모델, 순환 신경망(RNN), 합성곱 신경망(CNN), 그래프 신경망(GNN), 또는 트랜스포머 신경망을 포함할 수 있다.
일부 변형예에서, 머신 러닝 모델은 유도 머신 러닝 모델을 포함할 수 있다. 일부 변형예에서, 머신 러닝 모델은 생성 머신 러닝 모델을 포함할 수 있다.
매체는 프로세서로 하여금 제2 청사진 레코드 세트에 대해 컴퓨터 단백질 모델링을 수행하여 조작된 폴리펩티드를 생성하게 하는 코드를 포함할 수 있다.
매체는 프로세서로 하여금, 참조 표적 구조의 표현과 정적 구조 비교에 의해 조작된 폴리펩티드를 필터링하게 하는 코드를 포함할 수 있다.
매체는 프로세서로 하여금 참조 표적 구조의 표현 및 조작된 폴리펩티드의 각각에 대한 분자 역학(MD) 시뮬레이션을 사용하여, 참조 표적 구조의 표현과 동적 구조 비교에 의해 조작된 폴리펩티드를 필터링하게 하는 코드를 포함할 수 있다. 일부 변형예에서, MD 시뮬레이션은 대칭 다중처리(SMP)를 사용하여 병렬로 수행된다.
도 1은 예시적인 조작된 폴리펩티드 디자인 장치의 개략도이다.
도 2는 조작된 폴리펩티드 디자인을 위한 예시적인 머신 러닝 모델의 개략도이다.
도 3은 조작된 폴리펩티드 디자인의 예시적인 방법의 개략도이다.
도 4는 조작된 폴리펩티드 디자인의 예시적인 방법의 개략도이다.
도 5는 조작된 폴리펩티드 디자인 장치를 위한 데이터를 준비하는 예시적인 방법의 개략도이다.
도 6은 조작된 폴리펩티드 디자인의 예시적인 방법의 개략도이다.
도 7은 조작된 폴리펩티드 디자인을 위한 머신 러닝 모델의 예시적인 성능에 대한 개략도이다.
도 8은 조작된 폴리펩티드 디자인을 위한 머신 러닝 모델을 사용하는 예시적인 방법의 개략도이다.
도 9는 조작된 폴리펩티드 디자인을 위한 머신 러닝 모델의 예시적인 성능에 대한 개략도이다.
도 10a-d는 조작된 폴리펩티드를 검증하기 위한 분자 역학 시뮬레이션을 수행하는 예시적인 방법을 도시한다.
도 11은 조작된 폴리펩티드를 검증하기 위한 분자 역학 시뮬레이션을 수행하는 예시적인 방법을 도시한다.
도 12는 분자 역학 시뮬레이션을 병렬화하는 예시적인 방법의 개략도이다.
도 13은 조작된 폴리펩티드 디자인을 위한 머신 러닝 모델을 검증하는 예시적인 방법의 개략도이다.
본 발명의 다양한 측면 및 변형예의 비제한적인 예가 본원에서 설명되고 첨부 도면에 예시된다.
조작된 폴리펩티드를 설계하는 방법, 및 상기 조작된 펩티드를 포함하는 조성물 및 이를 사용하는 방법이 본원에 제공된다. 예를 들어, 시험관 내 항체 선택에서 조작된 펩티드를 사용하는 방법이 본원에 제공된다. 일부 측면에서, 사용자(또는 프로그램)는 알려진 구조를 갖는 표적 단백질을 선택하고, 조작된 폴리펩티드의 설계를 위한 입력으로서 표적 단백질의 일부분을 식별할 수 있다. 표적 단백질은 병원성 유기체로부터의 항원(또는 추정 항원); 질환과 연관된 세포 기능에 관여하는 단백질; 효소; 신호 전달 분자; 또는 단백질의 일부분을 재현하는 조작된 폴리펩티드가 필요한 임의의 단백질일 수 있다. 조작된 폴리펩티드는 항체 발견, 백신접종, 진단, 치료 방법에서의 사용, 생물제조, 또는 다른 응용을 위해 의도될 수 있다. "표적 단백질"은, 변형예에서, 다량체 단백질 복합체와 같은, 하나 이상의 단백질일 수 있다. 간략화를 위해, 본 개시는 표적 단백질을 지칭하지만, 상기 방법은 다량체 구조에도 적용된다. 변형예에서, 표적 단백질은 둘 이상의 구별되는 단백질 또는 단백질 복합체이다. 예를 들어, 본원에 개시된 방법은 다양한 종으로부터의 단백질의 공통 속성을 모방하는 조작된 펩티드를 설계하여, - 예를 들어, 항체 선택을 위해 보존된 에피토프를 표적화하는 데에 사용될 수 있다.
단백질의 위상에 대한 컴퓨터 레코드가 여기서 "참조 표적 구조"로 지칭된다. 참조 표적 구조는, 예를 들어 단백질 내의 모든 (또는 대부분의) 원자에 대한 3D 좌표 또는 선택 원자에 대한 3D 좌표(예를 들어, 각각의 단백질 잔기의 Cβ 원자의 좌표)에 의해 표현되는, 종래의 단백질 구조 또는 구조 모델일 수 있다. 임의로, 참조 표적 구조는 컴퓨터로(예를 들어, 분자 역학 시뮬레이션으로부터 유래됨) 또는 실험적으로(예를 들어, 분광법, 결정학, 또는 전자 현미경으로부터 유래됨) 유래된 역학적 용어를 포함할 수 있다.
표적 단백질의 소정의 부분은 표적-잔기 위치 및 스캐폴드-잔기 위치를 갖는 청사진으로 변환된다. 각각의 위치에는 고정된 아미노산 잔기 동일성 또는 가변 동일성(예를 들어, 임의의 아미노산, 또는 원하는 물리화학적 특성 - 극성/비극성, 소수성, 크기 등)이 할당될 수 있다. 변형예에서, 표적 단백질의 소정의 부분으로부터의 각각의 아미노산은 하나의 표적 잔기 위치에 맵핑되며, 이는 표적 단백질에서 발견되는 것과 동일한 아미노산 동일성을 갖도록 할당된다. 표적 잔기 위치는 연속적일 수 있고/있거나 순서로 될 수 있다. 그러나, 일부 변형예에서, 장점은 표적-잔기 위치가 불연속적(스캐폴드-잔기 위치에 의해 중단됨)일 수 있고 (표적 단백질과 상이한 순서로) 순서로 되지 않을 수 있다는 것이다. 이식 접근법과는 달리, 일부 변형예에서, 잔기의 순서는 제약되지 않는다. 유사하게, 개시된 방법은 표적 단백질의 불연속 부분(예를 들어, 동일한 단백질의 상이한 부분 또는 심지어 상이한 단백질 사슬이 하나의 에피토프에 기여하는 불연속 에피토프)을 수용할 수 있다.
청사진의 스캐폴드 잔기 위치는 그 위치에서 임의의 아미노산(즉, 임의의 아미노산을 나타내는 X)을 갖도록 할당될 수 있다. 변형예에서, 스캐폴드 잔기 위치는 가능한 천연 또는 비천연 아미노산의 서브세트(예를 들어, 작은 극성 아미노산 잔기, 큰 소수성 아미노산 잔기 등)로부터의 선택에 의해 할당된다. 청사진은 또한 선택적인 표적- 및/또는 스캐폴드-잔기 위치를 수용할 수 있다. 마찬가지로, 청사진은 잔기 위치의 삽입 또는 결실을 견딜 수 있다. 예를 들어, 표적- 또는 스캐폴드-잔기 위치는 존재하거나 존재하지 않도록 할당될 수 있으며; 또는 위치는 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 또는 그 이상의 잔기에 할당될 수 있다.
그런 다음, 예를 들어, 각각의 폴리펩티드 구조에 대해 계산된 스코어로, 참조 표적 구조로부터 유래된 에너지 항(들) 및 위상 제약조건(들)을 사용하여, 연산 모델링을 수행하여 대응하는 폴리펩티드 구조를 생성하기 위해, 청사진의 서브세트가 사용될 수 있다. 머신 러닝(ML) 모델은 스코어 및 청사진, 또는 청사진의 표현(예를 들어, 청사진을 표현하는 벡터)을 사용하여 트레이닝될 수 있고, ML 모델은 추가 청사진을 생성하기 위해 실행될 수 있다. 이러한 방법의 장점은, 많은 청사진의 반복 연산 모델링에 의해 탐색될 수 있는 것보다 ML 모델에 의해 훨씬 더 많은 청사진에 의해 커버되는 위상 공간이 탐색될 수 있다는 것이다.
본 개시는 또한 출력 청사진을 조작된 폴리펩티드의 서열 및/또는 구조로 변환하고, 이들 조작된 폴리펩티드를 - 정적 비교, 동적 비교 또는 둘 다를 사용하여 - 표적 단백질과 비교하고, 이들 비교를 사용하여 폴리펩티드를 필터링하는 방법 및 관련 장치를 제공한다.
본 방법 및 장치는 청사진 레코드 세트, 스코어 세트, 에너지 항 세트, 분자 역학 에너지 세트, 에너지 항 세트, 또는 에너지 기능 세트로부터 데이터를 처리하는 것으로서 본원에서 설명되지만, 일부 경우에는, 상기 청사진 레코드 세트, 스코어 세트, 에너지 항 세트, 분자 역학 에너지 세트, 에너지 항 세트, 또는 에너지 기능 세트를 생성하기 위해, 도 1과 관련하여 도시되고 설명된 조작된 폴리펩티드 디자인 장치(101)가 사용될 수도 있다. 따라서, 조작된 폴리펩티드 디자인 장치(101)는 데이터, 이벤트 및/또는 물체의 임의의 수집 또는 스트림을 생성하거나 처리하기 위해 사용될 수 있다. 예를 들어, 조작된 폴리펩티드 디자인 장치(101)는 임의의 스트링(들), 숫자(들), 명칭(들), 이미지(들), 영상(들), 실행 파일(들), 데이터세트(들), 스프레드시트(들), 데이터 파일(들), 청사진 파일(들) 등을 처리 및/또는 생성할 수 있다. 추가로 예를 들면, 조작된 폴리펩티드 디자인 장치(101)는 임의의 소프트웨어 코드(들), 웹페이지(들), 데이터 파일(들), 모델 파일(들), 소스 파일(들), 스크립트(들) 등을 처리 및/또는 생성할 수 있다. 다른 예로서, 조작된 폴리펩티드 디자인 장치(101)는 데이터 스트림(들), 이미지 데이터 스트림(들), 텍스트 데이터 스트림(들), 수치 데이터 스트림(들), 컴퓨터 보조 설계(CAD) 파일 스트림(들) 등을 처리 및/또는 생성할 수 있다.
도 1은 예시적인 조작된 폴리펩티드 디자인 장치(101)의 개략도이다. 조작된 폴리펩티드 디자인 장치는 조작된 폴리펩티드 디자인의 세트를 생성하는 데 사용될 수 있다. 조작된 폴리펩티드 디자인 장치(101)는 메모리(102), 통신 인터페이스(103), 및 프로세서(104)를 포함한다. 조작된 폴리펩티드 디자인 장치(101)는 네트워크(150)를 경유하여, 백엔드 서비스 플랫폼(160)에 (개입 콤포넌트 없이) 선택적으로 연결되거나 (개입 콤포넌트가 있거나 없이) 커플링될 수 있다. 조작된 폴리펩티드 디자인 장치(101)는, 예를 들어, 데스크톱 컴퓨터, 서버 컴퓨터, 메인프레임 컴퓨터, 퀀텀 연산 장치, 병렬 연산 장치, 데스크톱 컴퓨터, 랩톱 컴퓨터, 스마트폰 디바이스들의 앙상블, 기타 등등과 같은, 하드웨어 기반 연산 장치일 수 있다.
조작된 폴리펩티드 디자인 장치(101)의 메모리(102)는, 예를 들어, 메모리 버퍼, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 가능 프로그램 가능 읽기 전용 메모리(EPROM), 내장 멀티 타임 프로그램 가능(MTP) 메모리, 내장 멀티 미디어 카드(eMMC), 범용 플래시 스토리지(UFS) 장치, 기타 등등을 포함할 수 있다. 메모리(102)는, 예를 들어, 하나 이상의 소프트웨어 모듈 및/또는 조작된 폴리펩티드 디자인 장치(101)의 프로세서(104)로 하여금 하나 이상의 프로세스 또는 기능(예를 들어, 데이터 준비 모듈(105), 컴퓨터 단백질 모델링 모듈(106), 머신 러닝 모델(107), 및/또는 분자 역학 시뮬레이션 모듈(108))을 수행하게 하는 명령을 포함하는 코드를 저장할 수 있다. 메모리(102)는 조작된 폴리펩티드 디자인 장치(101)의 작동 중에 머신 러닝 모델(107)에 의해 생성된 데이터를 포함하여 머신 러닝 모델(107)과 연관된 (예를 들어, 실행에 의해 생성된) 파일 세트를 저장할 수 있다. 일부 경우에, 머신 러닝 모델(107)과 연관된 파일 세트는 조작된 폴리펩티드 디자인 장치(101)의 작동 중에 생성된, 임시 변수, 리턴 메모리 주소, 변수, 머신 러닝 모델(107)의 그래프 (예를 들어, 산술 연산들의 세트 또는 머신 러닝 모델(107)에 의해 사용되는 산술 연산들의 세트의 표현), 그래프의 메타데이터, 자산(예: 외부 파일), 전자 서명(예: 내보내는 머신 러닝 모델(107)의 유형 지정, 및 입력/출력 텐서), 및/또는 기타 등등을 포함할 수 있다.
조작된 폴리펩티드 디자인 장치(101)의 통신 인터페이스(103)는 프로세서(104) 및/또는 메모리(102)에 작동 가능하게 커플링되고 이에 의해 사용되는 조작된 폴리펩티드 디자인 장치(101)의 하드웨어 콤포넌트일 수 있다. 통신 인터페이스(103)는, 예를 들어, 네트워크 인터페이스 카드(NIC), Wi-FiTM 모듈, Bluetooth® 모듈, 광 통신 모듈, 및/또는 임의의 다른 적절한 유선 및/또는 무선 통신 인터페이스를 포함할 수 있다. 통신 인터페이스(103)는 본원에서 더 상세히 설명되는 바와 같이, 조작된 폴리펩티드 디자인 장치(101)를 네트워크(150)에 연결하도록 구성될 수 있다. 일부 경우에, 통신 인터페이스(103)는 네트워크(150)를 경유한 데이터 수신 또는 송신을 용이하게 할 수 있다. 보다 구체적으로, 일부 구현예에서, 통신 인터페이스(103)는 백엔드 서비스 플랫폼(160)으로부터 또는 백엔드 서비스 플랫폼으로 네트워크(150)를 통해, 예를 들어, 청사진 레코드 세트, 스코어 세트, 에너지 항 세트, 분자 역학 에너지 세트, 에너지 항 세트, 또는 에너지 기능 세트와 같은, 데이터를 수신하거나 송신하는 것을 용이하게 할 수 있다. 일부 경우에, 본원에서 더 상세히 설명되는 바와 같이, 통신 인터페이스(103)를 경유하여 수신된 데이터는 프로세서(104)에 의해 처리되거나 메모리(102)에 저장될 수 있다.
프로세서(104)는, 예를 들어 하드웨어 기반 집적 회로(IC) 또는 명령어 또는 코드 세트를 가동 및/또는 실행하도록 구성된 임의의 다른 적절한 처리 장치를 포함할 수 있다. 예를 들어, 프로세서(104)는 범용 프로세서, 중앙 프로세싱 유닛(CPU), 그래픽 프로세싱 유닛(GPU), 텐서 프로세싱 유닛(TPU), 가속 프로세싱 유닛(APU), 애플리케이션 특정 집적 회로(ASIC), 필드 프로그램 가능 게이트 어레이(FPGA), 프로그램 가능 로직 어레이(PLA), 복합 프로그램 가능 로직 장치(CPLD), 프로그램 가능 로직 컨트롤러(PLC) 등일 수 있다. 프로세서(104)는 시스템 버스(예를 들어, 어드레스 버스, 데이터 버스 및/또는 컨트롤 버스)를 통해 메모리(102)에 작동 가능하게 커플링된다.
프로세서(104)는 데이터 준비 모듈(105), 컴퓨터 단백질 모델링 모듈(106), 및 머신 러닝 모델(107)을 포함할 수 있다. 프로세서(104)는 선택적으로 분자 역학 시뮬레이션 모듈(108)을 포함할 수 있다. 데이터 준비 모듈(105), 컴퓨터 단백질 모델링 모듈(106), 머신 러닝 모델(107), 또는 분자 역학 시뮬레이션 모듈(108) 각각은, 메모리(102)에 저장되고 프로세서(104)에 의해 실행되는 소프트웨어일 수 있다. 예를 들어, 머신 러닝 모델(107)로 하여금 청사진 레코드 세트를 생성하게 하는 코드가 메모리(102)에 저장되고 프로세서(104)에 의해 실행될 수 있다. 유사하게, 데이터 준비 모듈(105), 컴퓨터 단백질 모델링 모듈(106), 머신 러닝 모델(107), 또는 분자 역학 시뮬레이션 모듈(108) 각각은 하드웨어 기반 장치일 수 있다. 예를 들어, 머신 러닝 모델(107)로 하여금 청사진 레코드 세트를 생성하게 하는 프로세스가 개별 집적 회로(IC) 칩 상에서 구현될 수 있다.
데이터 준비 모듈(105)은 (예를 들어, 메모리(102) 또는 백엔드 서비스 플랫폼(160)으로부터) 참조 표적에 대한 참조 표적 구조를 수신하는 것을 포함하는 데이터 세트를 수신하도록 구성될 수 있다. 데이터 준비 모듈(105)은 참조 표적 구조의 미리 결정된 부분으로부터 청사진 레코드 세트(예를 들어, 영숫자 데이터 표로 암호화된 청사진 파일)를 생성하도록 추가로 구성될 수 있다. 일부 경우에, 청사진 레코드 세트로부터의 각각의 청사진 레코드는 표적 잔기 위치 및 스캐폴드 잔기 위치를 포함할 수 있으며, 각각의 표적 잔기 위치는 표적 잔기 세트로부터의 하나의 표적 잔기에 대응한다.
일부 경우에, 데이터 준비 모듈(105)은 참조 표적 구조의 청사진을 청사진 레코드로 암호화하도록 추가로 구성될 수 있다. 데이터 준비 모듈(105)은, 또한, 청사진 레코드를 머신 러닝 모델에서 사용하기에 일반적으로 적합한 청사진 레코드의 표현으로 변환할 수 있다. 일부 경우에, 상기 표현은 숫자들의 1차원 벡터, 영숫자 데이터의 2차원 행렬, 정규화된 숫자들의 3차원 텐서일 수 있다. 보다 구체적으로, 일부 경우에, 상기 표현은 개입하는 스캐폴드 잔기 위치들의 수들의 순서화된 목록의 벡터이다. 이러한 표현은 표적 잔기들의 순서가 표적 구조로부터 추론될 수 있기 때문에 사용될 수 있으며, 이에 따라 상기 표현은 표적 잔기 위치의 아미노산 정체를 식별할 필요가 없다. 이러한 표현의 일 례는 도 6에 관하여 추가로 설명된다.
일부 경우에, 데이터 준비 모듈(105)은, 청사진 레코드 세트, 스코어 세트, 에너지 항 세트, 분자 역학 에너지 세트, 에너지 항 세트, 및/또는 에너지 기능 세트를 생성 및/또는 처리할 수 있다. 데이터 준비 모듈(105)은, 청사진 레코드 세트, 스코어 세트, 에너지 항 세트, 분자 역학 에너지 세트, 에너지 항 세트, 또는 에너지 기능 세트로부터 정보를 추출하도록 구성될 수 있다.
일부 경우에, 데이터 준비 모듈(105)은, 예를 들어, ASCII, UTF-8, UTF-16, Guobiao, Big5, Unicode, 또는 임의의 다른 적절한 문자 암호화와 같은 공통 문자 인코딩을 갖도록 청사진 레코드 세트의 암호화를 변환할 수 있다. 또 다른 경우에, 데이터 준비 모듈(105)은, 예를 들어, 폴리펩티드를 조작하기 위해 중요한 청사진 레코드의 일부분 또는 청사진 레코드의 표현을 식별함으로써, 청사진 레코드의 특징 및/또는 청사진 레코드의 표현을 추출하도록 추가로 구성될 수 있다. 일부 경우에, 데이터 준비 모듈(105)은 청사진 레코드 세트, 스코어 세트, 에너지 항 세트, 분자 역학 에너지 세트, 에너지 항 세트, 또는 에너지 기능 세트의 단위를 예를 들어, 마일, 피트, 인치 등과 같은 영어 단위로부터 예를 들어 킬로미터, 미터, 센티미터, 및/또는 기타 등등과 같은 국제 시스템 단위(SI)로 변환할 수도 있다.
컴퓨터 단백질 모델링 모듈(106)은, 참조 표적 구조의 소정의 부분으로부터 본원에 기술된 연산 최적화 프로세스를 위한 시작 템플릿으로서 기능할 수 있는 청사진 레코드의 초기 후보 세트를 생성하도록 구성될 수 있다. 일 예에서, 컴퓨터 단백질 모델링 모듈(106)은 Rosetta 리모델러일 수 있다. 본 방법의 변형은 예로 분자 역학 시뮬레이션, ab initio 단편 조립, 몬테카를로(Monte Carlo) 단편 조립, 머신 러닝 구조 예측, 예컨대 AlphaFold 또는 trRoseta, 구조적 지식기반 단백질 접힘, 신경망 단백질 접힘, 서열 기반 순환 또는 트랜스포머 네트워크 단백질 접힘, 생성적 적대 네트워크(generative adversarial network) 단백질 구조 생성, 마르코프 체인 몬테 카를로(Markov Chain Monte Carlo) 단백질 접힘, 및/또는 기타 등등을 포함하되 이들에 한정되지 않는, 다른 모델링 알고리즘을 사용한다. 로제타 리모델러를 사용하여 생성된 초기 후보 구조는 머신 러닝 모델(107)에 대한 트레이닝 세트로서 사용될 수 있다. 컴퓨터 단백질 모델링 모듈(106)은, 청사진 레코드의 초기 후보로부터 각각의 청사진에 대한 에너지 항을 추가로 연산식으로 결정할 수 있다. 그런 다음, 데이터 준비 모듈(105)은 에너지 항으로부터 스코어를 생성하도록 구성될 수 있다. 일 예에서, 스코어는 에너지 항의 정규화된 값일 수 있다. 정규화된 값은 0 내지 1의 수, -1 내지 -1의 수, 0 내지 100의 정규화된 값, 또는 임의의 다른 수치 범위일 수 있다. 일부 변형예에서, 컴퓨터 단백질 모델링 모듈(106)은 참조 표적 구조에 일치하는 템플릿이 없는 드 노보 설계에 기초하거나, 예를 들어 표적 잔기들 사이의 거리가 표적 구조에서 표적 잔기 거리의 1 옹스트롬 이내로 제약되는, 약한 거리 제한(weak distance restraint)에 기초할 수 있다. 약한 거리 제한은 거리 제한 주변의 가변 노이즈 분포를 허용하는 제한을 포함할 수 있다 (예를 들어, 거리 제한 주변의 특정 평균 및 특정 분산(variance)을 갖는 가우시안 노이즈). 일부 변형예에서, 컴퓨터 단백질 모델링 모듈(106)은 임의의 거리 제약조건에 대해 가변 노이즈를 평활화하거나 추가하고/하거나 컴퓨터 단백질 모델의 목적 함수를 정의함으로써 사용되어, 원거리 제약조건이 충족되지 않을 때 컴퓨터 단백질 모델이 덜 가혹하게 페널티를 받도록 할 수 있다. 또한, 일부 경우에, 컴퓨터 단백질 모델링 모듈(106)은 에너지 항의 평활한 라벨링을 사용할 수 있다. 이러한 방법의 장점은, 에너지 항 라벨을 평활화함으로써, 머신 러닝 모델(107)이 탐색할 청사진에 의해 덮인 위상 공간을 보다 쉽게 최적화할 수 있다는 것이다.
머신 러닝 모델(107)은, 초기 청사진 레코드 후보 세트에 비해 개선된 청사진 레코드를 생성하는 데 사용될 수 있다. 머신 러닝 모델(107)은 컴퓨터 단백질 모델링 모듈(106)에 의해 연산된, 초기 청사진 레코드 후보 세트 및 스코어 세트를 수신하도록 구성된 감독 대상 머신 러닝 모델일 수 있다. 스코어 세트로부터의 각각의 스코어는 청사진 레코드들의 초기 후보들의 청사진 레코드들에 대응한다. 프로세서(104)는 각각의 해당 스코어 및 청사진 레코드를 연관시켜 라벨링된 트레이닝 데이터 세트를 생성하도록 구성될 수 있다.
일부 경우에, 머신 러닝 모델(107)은 유도(inductive) 머신 러닝 모델 및/또는 생성(generative) 머신 러닝 모델을 포함할 수 있다. 머신 러닝 모델은, 부스팅된 결정 트리 알고리즘, 결정 트리의 앙상블, 익스트림 그래디언트 부스팅(XGBoost) 모델, 랜덤 포레스트(random forest), 서포트 벡터 머신(SVM), 피드-포워드(feed-forward) 머신 러닝 모델, 순환 신경망(RNN), 합성곱 신경망(CNN), 그래프 신경망(GNN), 적대 네트워크 모델, 인스턴스 기반 트레이닝 모델, 트랜스포머 신경망, 및/또는 기타 등등을 포함할 수 있다. 머신 러닝 모델(107)은, 가중치 세트, 편향 세트, 및/또는 일단 트레이닝되면, 유도 모드에서 실행되어 청사진 레코드로부터 스코어를 생성할 수 있거나, 스코어로부터 청사진 레코드를 생성하도록 생성 모드에서 실행될 수 있는, 활성화 기능 세트를 포함하는, 모델 파라미터 세트를 포함하도록 구성될 수 있다.
일 실시예에서, 머신 러닝 모델(107)은 입력층, 출력층, 및 다수의 숨겨진 층(예를 들어, 5층, 10층, 20층, 50층, 100층, 200층 등)을 포함하는 딥 러닝 모델일 수 있다. 다수의 숨겨진 층은 정규화 층, 완전히 연결된 층, 활성화 층, 합성곱 층, 순환 층, 및/또는 청사진 레코드 세트와 스코어 세트 사이의 상관 관계를 표현하기에 적합한 임의의 다른 층을 포함할 수 있으며, 각각의 스코어는 에너지 항을 나타낸다.
일 예에서, 머신 러닝 모델(107)은, 예를 들어, XGBoost 모델에서 부스팅 라운드 또는 트리의 수를 정의하는 부스트 라운드 수, XGBoost 모델의 트리의 루트로부터 트리의 리프까지 허용된 노드의 최대 수를 정의하는 최대 깊이와 같은, 하이퍼-파라미터 세트를 포함하는 XGBoost 모델일 수 있다. XGBoost 모델은, 트리 세트, 노드 세트, 가중치 세트, 편향 세트, 및 XGBoost 모델을 설명하는 데 유용한 다른 파라미터를 포함할 수 있다.
일부 구현예에서, 머신 러닝 모델(107)(예를 들어, 딥 러닝 모델, XGBoost 모델 등)은, 각각의 청사진 레코드를 청사진 레코드 세트로부터 반복적으로 수신하고 출력을 생성하도록 구성될 수 있다. 청사진 레코드 세트로부터의 각각의 청사진 레코드는 스코어 세트로부터의 하나의 스코어와 연관된다. 출력 및 스코어는 제1 트레이닝 손실 값을 생성하기 위해 목적 함수('비용 함수'라고도 함)를 사용하여 비교될 수 있다. 목적 함수는, 예를 들어, 평균 제곱 오차, 평균 절대 오차, 평균 절대 백분율 오차, logcosh, 범주형 교차엔트로피(categorical crossentropy) 및/또는 기타 등등을 포함할 수 있다. 모델 파라미터 세트는 다수의 반복에서 수정될 수 있고, 제1 목적 함수는 제1 트레이닝 손실 값이 제1 소정의 트레이닝 임계값(예를 들어, 80%, 85%, 90%, 97% 등)으로 수렴될 때까지 각각의 반복에서 실행될 수 있다.
일부 구현예에서, 머신 러닝 모델(107)은 스코어 세트로부터 각각의 스코어를 반복적으로 수신하고 출력을 생성하도록 구성될 수 있다. 청사진 레코드 세트로부터의 각각의 청사진 레코드는 스코어 세트로부터의 하나의 스코어와 연관된다. 출력 및 청사진 레코드는 제2 트레이닝 손실 값을 생성하기 위해 목적 함수를 사용하여 비교될 수 있다. 모델 파라미터 세트는 다수의 반복에서 수정될 수 있고, 제1 목적 함수는 제2 트레이닝 손실 값이 제2 소정의 트레이닝 임계값으로 수렴될 때까지 다수의 반복의 각각의 반복에서 실행될 수 있다.
일단 트레이닝되면, 머신 러닝 모델(107)은 개선된 청사진 레코드 세트를 생성하도록 실행될 수 있다. 개선된 청사진 레코드 세트는 초기 청사진 레코드 후보보다 더 높은 스코어를 가질 것으로 예상할 수 있다. 일부 경우에, 머신 러닝 모델(107)은, 제1 청사진 레코드 세트와 제1 스코어 세트(예를 들어, 에너지 항에 대응함)의 설계 공간의 상관관계를 표현하기 위해 제1 스코어 세트(예를 들어, 각각의 스코어는 청사진 레코드 세트로부터의 청사진 레코드의 로제타 에너지에 대응하는 에너지 항을 가짐)에 대응하는 제1 청사진 레코드 세트(예를 들어, 로제타 리모델러를 사용하여 생성된)에 대해 훈련되는 생성 머신 러닝 모델일 수 있다. 일단 트레이닝되면, 머신 러닝 모델(107)은 그와 연관된 제2 스코어 세트를 갖는 제2 청사진 레코드 세트를 생성한다. 일부 구현예에서, 컴퓨터 단백질 모델링 모듈(106)은, 제2 청사진 레코드 세트에 대한 에너지 항 세트를 연산함으로써, 제2 청사진 레코드 세트 및 제2 스코어 세트를 검증하는 데 사용될 수 있다. 에너지 항 세트는 제2 청사진 레코드 세트에 대한 실측정(ground-truth) 스코어 세트를 생성하는 데 사용될 수 있다. 청사진 레코드의 서브세트는, 청사진 레코드의 서브세트로부터의 각각의 청사진 레코드가 임계값 위의 실측정 스코어를 갖도록, 제2 청사진 레코드 세트로부터 선택될 수 있다. 일부 경우에, 임계값은, 예를 들어, 조작된 폴리펩티드 디자인 장치(101)의 사용자에 의해 미리 결정된 수일 수 있다. 일부 다른 경우에, 임계값은 실측정 스코어 세트에 기초하여 역학적으로 결정되는 수일 수 있다.
분자 역학 시뮬레이션 모듈(108)은, 머신 러닝 모델(107)이 실행되어 제2 청사진 레코드 세트를 생성한 후, 머신 러닝 모델(107)의 출력을 검증하는 데 선택적으로 사용될 수 있다. 조작된 폴리펩티드 디자인 장치(101)는, 제2 청사진 레코드 세트에 기초하여 조작된 폴리펩티드를 생성하고, 참조 표적 구조의 표현 및 조작된 폴리펩티드의 구조 각각에 대한 분자 역학(MD) 시뮬레이션을 사용하여 참조 표적 구조의 표현과의 동적 구조 비교를 수행함으로써, 제2 청사진 레코드의 서브세트를 필터링할 수 있다. 예를 들어, 분자 역학 시뮬레이션 모듈(108)은 (제2 청사진 레코드 세트에 기초하는) 조작된 폴리펩티드의 몇 개(예를 들어, 10개 미만)를 선택할 수 있다. 일부 경우에, MD 시뮬레이션은 경계 조건(boundary condition), 제한 및/또는 평형화 하에 수행될 수 있다. 일부 경우에, MD 시뮬레이션은 모델 준비, 평형화(예, 100 K 내지 300 K의 온도), 참조 표적 구조 및 조작된 폴리펩티드의 각각의 구조에 대한 표현에 힘 장 파라미터 및/또는 용매 모델 파라미터를 적용하는 단계를 포함하는 용액 조건 하에서 수행될 수 있다. 일부 경우에, MD 시뮬레이션은 제한된 최소화(restrained minimization)(예를 들어, 구조 충돌 완화), 제한된 가열(예를 들어, 100 피코초 동안 제한된 가열 및 주변 온도로 점진적으로 증가), 이완된 제한(예를 들어, 100 피코초 동안 제한을 완화하고, 백본 제한을 점진적으로 제거), 및/또는 기타 등등을 거칠 수 있다.
일부 구현예에서, 머신 러닝 모델(107)은 유도 머신 러닝 모델이다. 일단 트레이닝되면, 이러한 머신 러닝 모델(107)은, 예를 들어, 청사진에 대한 스코어를 계산하기 위한 수치적 방법(예를 들어, 컴퓨터 단백질 모델링 모듈, 밀도 함수 이론 기반 분자 역학 에너지 시뮬레이터 등)에 의해, 일반적으로 걸리는 시간의 일부에서 청사진 레코드에 기초하여 스코어를 예측할 수 있다. 따라서, 머신 러닝 모델(107)은 최적화 알고리즘의 최적화 속도(예를 들어, 50% 더 빠름, 2배 더 빠름, 10배 더 빠름, 100배 더 빠름, 1000배 더 빠름, 1,000,000배 더 빠름, 1,000,000,000배 더 빠름 및/또는 기타 등등)를 실질적으로 개선하기 위해 청사진 레코드 스코어 세트 세트를 신속하게 추정하는 데 사용될 수 있다. 일부 구현예에서, 머신 러닝 모델(107)은 제1 청사진 레코드 세트에 대한 제1 스코어 세트를 생성할 수 있다. 조작된 폴리펩티드 디자인 장치(101)의 프로세서(104)는, (예를 들어, 제1 스코어 세트의 상위 10%를 갖는, 예를 들어, 제1 스코어 세트의 상위 2%를 갖는, 등등) 제1 청사진 레코드 세트의 상위 성과자를 선택하기 위한 명령어 세트를 나타내는 코드를 실행할 수 있다. 프로세서(104)는, 제1 청사진 레코드 세트 중 상위 성과자들의 스코어를 검증하기 위한 코드를 더 포함할 수 있다. 일부 변형예에서, 제1 청사진 레코드 세트 중 상위 성과자는, 그들의 상응하는 검증된 스코어가 제1 스코어 세트 중 어느 하나보다 큰 값을 갖는 경우 출력으로서 생성될 수 있다. 일부 변형예에서, 머신 러닝 모델(107)은, 상위 성과자의 청사진 레코드 및 스코어를 포함하는 제2 청사진 레코드 세트 및 제2 스코어 세트를 포함하는 새로운 데이터 세트에 기초하여 재훈련될 수 있다.
네트워크(150)는 서버 및/또는 연산 장치의 디지털 통신 네트워크일 수 있다. 네트워크 상의 서버 및/또는 연산 장치는, 예를 들어 데이터 스토리지 또는 연산 전력과 같은 자원을 공유하기 위해 하나 이상의 유선 또는 무선 통신 네트워크(미도시)를 경유하여 연결될 수 있다. 네트워크의 서버 및/또는 연산 장치 사이의 유선 또는 무선 통신 네트워크는 하나 이상의 통신 채널, 예를 들어 무선 주파수(RF) 통신 채널(들), 광섬유 통신 채널(들) 등을 포함할 수 있다. 네트워크는, 예를 들어, 인터넷, 인트라넷, 근거리 통신망(LAN), 광역 통신망(WAN), 대도시 통신망(MAN), 와이맥스(worldwide interoperability for microwave access network, WiMAX®), 가상 네트워크, 임의의 다른 적절한 통신 시스템 및/또는 이러한 네트워크들의 조합일 수 있다.
백엔드 서비스 플랫폼(backend service platform, 160)은, 예를 들어 인터넷과 같은, 서버 및/또는 연산 장치의 디지털 통신 네트워크에 및/또는 그 내부에 작동 가능하게 커플링되는 연산 장치(예를 들어, 서버)일 수 있다. 일부 변형예에서, 백엔드 서비스 플랫폼(160)은, 예를 들어, 서비스로서의 소프트웨어(software as a service, SaaS), 서비스로서의 플랫폼(platform as a service, PaaS), 서비스로서의 인프라구조(infrastructure as a service, IaaS) 등과 같은 클라우드 기반 서비스를 포함하고/하거나 실행할 수 있다. 일 예에서, 백엔드 서비스 플랫폼(160)은, 단백질 구조, 청사진 레코드, 로제타 에너지, 분자 역학 에너지 등을 포함하는 다량의 데이터를 저장하기 위한 데이터 스토리지를 제공할 수 있다. 또 다른 예에서, 백엔드 서비스 플랫폼(160)은, 컴퓨터 단백질 모델링, 분자 역학 시뮬레이션, 트레이닝 머신 러닝 모델 등을 실행하기 위해 빠른 연산을 제공할 수 있다.
일부 변형예에서, 본원에 기술된 컴퓨터 단백질 모듈(106)의 절차는 클라우드 연산 서비스를 제공하는 백엔드 서비스 플랫폼(160)에서 실행될 수 있다. 이러한 변형예에서, 조작된 폴리펩티드 디자인 장치(101)는 통신 인터페이스(103)를 사용하여, 신호를 백엔드 서비스 플랫폼(160)으로 전송하여 청사진 레코드 세트를 생성하도록 구성될 수 있다. 백엔드 서비스 플랫폼(160)은 청사진 레코드 세트를 생성하는 컴퓨터 단백질 모델링 프로세스를 실행할 수 있다. 그런 다음, 백엔드 서비스 플랫폼(160)은 네트워크(150)를 경유하여, 조작된 폴리펩티드 디자인 장치(101)에 청사진 레코드 세트를 송신할 수 있다.
일부 변형예에서, 조작된 폴리펩티드 디자인 장치(101)는, 조작된 폴리펩티드 디자인 장치(101)로부터 멀리 떨어진, 사용자 연산 장치(미도시함)에 머신 러닝 모델(107)을 포함하는 파일을 송신할 수 있다. 사용자 연산 장치는 설계 기준을 충족하는(예를 들어, 원하는 스코어를 갖는) 청사진 레코드 세트를 생성하도록 구성될 수 있다. 일부 변형예에서, 사용자 연산 장치는, 조작된 폴리펩티드 디자인 장치(101)로부터, 참조 표적 구조를 수신한다. 사용자 연산 장치는, 각각의 청사진 레코드가 표적 잔기 위치와 스캐폴드 잔기 위치를 포함하도록 참조 표적 구조의 미리 결정된 부분으로부터 제1 청사진 레코드 세트를 생성할 수 있다. 각각의 표적 잔기 위치는 표적 잔기 세트로부터의 하나의 표적 잔기에 대응한다. 사용자 연산 장치는, 제1 청사진 레코드 세트 또는 이의 표현, 및 제1 스코어 세트에 기초하여 머신 러닝 모델을 추가로 트레이닝할 수 있다. 사용자 연산 장치는, 트레이닝 후에, 적어도 하나의 원하는 스코어를 갖는 (예를 들어, 특정 설계 기준을 충족하는) 제2 청사진 레코드 세트를 생성하도록 머신 러닝 모델을 실행할 수 있다. 제2 청사진 레코드 세트는, 제2 청사진 레코드 세트에 기초하여 조작된 펩티드를 생성하기 위한 컴퓨터 단백질 모델링에서 입력으로서 수신될 수 있다.
도 2는 조작된 폴리펩티드 디자인을 위한 예시적인 머신 러닝 모델(202)(도 1과 관련하여 설명되고 도시된 머신 러닝 모델(107)과 유사함)의 개략도이다. 머신 러닝 모델(202)은, 청사진 레코드의 설계 공간을, 이들 청사진 레코드에 기초하여 구성된 폴리펩티드의 에너지 항에 대응하는 스코어와 상관시키는 감독 대상 머신 러닝 모델일 수 있다. 머신 러닝 모델은 생성 작동 모드 및/또는 유도 작동 모드를 가질 수 있다.
생성 작동 모드에서, 머신 러닝 모델(202)은 제1 청사진 레코드 세트(201) 및 제1 스코어 세트(203)에 대해 트레이닝된다. 일단 트레이닝되면, 머신 러닝 모델(202)은 제1 스코어 세트보다 통계적으로 더 높은(예를 들어, 더 높은 평균값을 갖는) 제2 스코어 세트를 갖는 제2 청사진 레코드 세트를 생성한다. 유도 작동 모드에서, 머신 러닝 모델(202)은 또한 제1 청사진 레코드 세트(201) 및 제1 스코어 세트(203)에 대해 트레이닝된다. 일단 트레이닝되면, 머신 러닝 모델(202)은 제2 청사진 레코드 세트에 대한 제2 스코어 세트를 생성한다. 제2 스코어 세트는 과거 트레이닝 데이터(예를 들어, 제1 청사진 레코드 세트 및 제1 스코어 세트)에 기초하여 예측된 스코어 세트이며, 컴퓨터 단백질 모델링(도 1과 관련하여 도시되고 설명된 컴퓨터 단백질 모델링 모듈(106)과 유사) 또는 분자 역학 시뮬레이션(도 1과 관련하여 도시되고 설명된 분자 역학 모듈(108)과 유사)을 사용하는 수치로 계산된 스코어 및/또는 에너지 항보다 실질적으로 더 빠르다(예를 들어, 50% 더 빠름, 2배 더 빠름, 10배 더 빠름, 100배 더 빠름, 1000배 더 빠름, 1,000,000배 더 빠름, 1,000,000,000배 더 빠름 및/또는 기타 등등).
도 3은 조작된 폴리펩티드 디자인(300)의 예시적인 방법의 개략도이다. 조작된 폴리펩티드 디자인(300)의 방법은, 예를 들어, 조작된 폴리펩티드 디자인 장치(도 1과 관련하여 도시되고 설명된 조작된 폴리펩티드 디자인 장치(101)와 유사)에 의해 수행될 수 있다. 조작된 폴리펩티드 디자인(300)의 방법은, 단계 301에서, 참조 표적에 대한 참조 표적 구조를 수신하는 단계를 선택적으로 포함한다. 조작된 폴리펩티드 디자인(300)의 방법은, 단계 302에서, 참조 표적 구조의 미리 결정된 부분으로부터 제1 청사진 레코드 세트를 생성하는 단계를 선택적으로 포함하며, 상기 제1 청사진 레코드 세트로부터의 각각의 청사진 레코드는 표적 잔기 위치 및 스캐폴드 잔기 위치를 포함하며, 각각의 표적 잔기 위치는 표적 잔기 세트로부터의 하나의 표적 잔기에 대응한다. 일부 경우에, 표적 잔기는 비연속적이다. 일부 경우에, 표적 잔기는 순서화되지 않는다. 조작된 폴리펩티드 디자인(300)의 방법은, 단계 303에서, 제1 청사진 레코드 세트 또는 그의 표현, 및 제1 스코어 세트에 기초하여 머신 러닝 모델(도 1에 대해 도시되고 설명된 바와 같은 머신 러닝 모델(107)과 유사)을 트레이닝하는 단계를 포함할 수 있으며, 제1 청사진 레코드로부터의 각각의 청사진 레코드는 제1 스코어 세트로부터의 각각의 스코어에 연관된다. 상기 표현은 데이터 준비 모듈(도 1과 관련하여 도시되고 설명된 데이터 준비 모듈과 유사)을 사용하여 제1 청사진 레코드 세트에 기초하여 생성될 수 있다. 조작된 폴리펩티드 디자인(300)의 방법은, 단계 304에서, 트레이닝 후에, 머신 러닝 모델을 실행하여 적어도 하나의 원하는 스코어(예를 들어, 하나의 스코어 또는 복수의 스코어)를 갖는 제2 청사진 레코드 세트를 생성하는 단계를 추가로 포함한다. 일부 구성에서, 머신 러닝 모델은 생성 머신 러닝 모델을 포함하고, 적어도 하나의 원하는 스코어는 조작된 폴리펩티드 디자인 장치의 사용자에 의해 결정된 미리 설정된 값이다. 일부 구성에서, 머신 러닝 모델은, 제2 청사진 레코드 세트에 대한 예측된 스코어 세트를 예측하는 유도 머신 러닝 모델을 포함한다. 제2 청사진 레코드 세트의 서브세트는, 청사진 레코드의 서브세트로부터의 각각의 청사진 레코드가 적어도 하나의 원하는 스코어보다 큰 스코어를 갖도록 선택될 수 있다. 일부 구성에서, 적어도 하나의 원하는 스코어는 역학적으로 결정될 수 있다. 예를 들어, 적어도 하나의 원하는 스코어는 예측된 스코어 세트의 90번째 백분위수인 것으로 결정될 수 있다.
조작된 폴리펩티드 디자인(300)의 방법은 선택적으로, 305에서, 수치적 방법, 예컨대 Rosetta 리모델러, ab initio 분자 역학 시뮬레이션, 머신 러닝 구조 예측, 예컨대 AlphaFold 또는 trRoseta, 구조적 지식기반 단백질 접힘, 신경망 단백질 접힘, 서열 기반 순환 또는 트랜스포머 네트워크 단백질 접힘, 생성적 적대 네트워크(generative adversarial network) 단백질 구조 생성, 마르코프 체인 몬테 카를로(Markov Chain Monte Carlo) 단백질 접힘 등을 사용하여 제2 스코어 세트(예, 실측정 스코어 세트)를 계산함으로써 머신 러닝 모델을 재훈련할지 여부를 결정하는 단계를 포함한다. 그런 다음, 조작된 폴리펩티드 디자인 장치는 제2 스코어 세트를 예측된 스코어 세트와 비교하고, 제2 스코어 세트로부터의 예측된 스코어 세트의 편차에 기초하여 머신 러닝 모델을 재훈련할지 여부를 결정한다. 조작된 폴리펩티드 디자인(300)의 방법은, 305에서, 상기 결정에 응답하여, (1) 제2 청사진 레코드 세트를 포함하는 재훈련 청사진 레코드 및 (2) 예측된 스코어 세트를 포함하는 재훈련 스코어에 기초하여 머신 러닝 모델을 선택적으로 재훈련하는 단계를 포함한다. 일부 구성에서, 조작된 폴리펩티드 디자인 장치는, 제1 청사진 레코드 세트 및 제2 청사진 레코드 세트를 연결하여, 재훈련된 청사진 레코드를 생성할 수 있다. 조작된 폴리펩티드 디자인 장치는 제1 스코어 세트 및 제2 스코어 세트를 추가로 연결하여 재훈련 스코어를 생성할 수 있다. 일부 구성에서, 청사진 레코드의 재훈련은 제2 청사진 레코드 세트만을 포함하고, 재훈련 스코어는 제2 스코어 세트만을 포함한다.
도 4는 조작된 폴리펩티드 디자인(400)의 예시적인 방법의 개략도이다. 조작된 폴리펩티드 디자인(400)의 방법은, 예를 들어, 조작된 폴리펩티드 디자인 장치(도 1과 관련하여 도시되고 설명된 조작된 폴리펩티드 디자인 장치(101)와 유사)에 의해 수행될 수 있다. 조작된 폴리펩티드 디자인(400)의 방법은, 단계 401에서, 제1 청사진 레코드 세트 또는 그의 표현, 및 제1 스코어 세트에 기초하여 머신 러닝 모델(도 1에 대해 도시되고 설명된 바와 같은 머신 러닝 모델(107)과 유사)을 트레이닝하는 단계를 포함할 수 있으며, 제1 청사진 레코드로부터의 각각의 청사진 레코드는 제1 스코어 세트로부터의 각각의 스코어에 연관된다. 상기 표현은 데이터 준비 모듈(도 1과 관련하여 도시되고 설명된 데이터 준비 모듈과 유사)을 사용하여 제1 청사진 레코드 세트에 기초하여 생성될 수 있다. 조작된 폴리펩티드 디자인(400)의 방법은, 단계 402에서, 트레이닝 후에, 머신 러닝 모델을 실행하여 적어도 하나의 원하는 스코어를 갖는 제2 청사진 레코드 세트를 생성하는 단계를 추가로 포함한다. 조작된 폴리펩티드 디자인(400)의 방법은 선택적으로, 단계 403에서, 제2 청사진 레코드 세트에 대한 컴퓨터 단백질 모델링을 수행하여 조작된 폴리펩티드를 생성하는 단계를 포함한다. 일부 구성에서, 조작된 폴리펩티드 디자인(400)의 방법은 선택적으로, 단계 404에서, 참조 표적 구조의 표현과 정적 구조 비교에 의해 조작된 폴리펩티드를 필터링하는 단계를 포함한다. 일부 구성에서, 조작된 폴리펩티드 디자인(400)의 방법은 선택적으로, 단계 405에서, 참조 표적 구조의 표현 및 조작된 폴리펩티드의 구조 각각에 대한 분자 역학(MD) 시뮬레이션을 사용하여 참조 표적 구조의 표현과의 동적 구조 비교에 의해 조작된 폴리펩티드를 필터링하는 단계를 포함한다.
도 5는 조작된 폴리펩티드 디자인 장치를 위한 데이터를 준비하는 예시적인 방법의 개략도이다. 좌측에는 표적 단백질의 구조에 대한 리본 다이어그램이 도시되어 있다. 소정의 부분은 더 어두운 색상으로 도시되어 있으며 소정의 부분의 아미노산 잔기의 측쇄가 막대 다이어그램으로 나타나 있다. 본 예에서, 상기 소정의 부분은 항체에 대해 원하는 표적 에피토프인 표적 단백질의 일부분이다. 이러한 에피토프를 재현하기 위해 조작된 폴리펩티드를 생성함으로써, 표적 단백질의 이러한 부분에 특이적으로 결합하는 항체가 수득될 수 있을 것으로 예상된다.
도 5의 우측 패널은 청사진 세트의 도면을 보여준다. 각각의 원은 잔기 위치를 나타낸다. 스캐폴드-잔기 위치는 연한 회색이고, 측쇄가 도시되어 있지 않다. 표적-잔기 위치는 어두운 회색이고, 각각의 측쇄가 도시되어 있다. 측쇄는 주지된, 자연 발생하는 아미노산들의 측쇄이다. 일부 경우에, 표적-잔기 및/또는 스캐폴드-잔기는 비천연 아미노산이다. 본 예에서, 각각의 표적-잔기 위치는 표적 단백질의 참조 표적 구조의 소정의 부분의 정확히 하나의 잔기에 대응한다. 보여지는 청사진 세트는 모든 다이어그램에서 표적-잔기 위치가 동일한 순서로 있다는 점에서 "순서화"된다. 표적-잔기의 순서는 표적 단백질 서열의 잔기와 반드시 동일한 순서는 아니다. 첫번째 및 마지막 청사진은 연속하는 표적-잔기 위치를 갖는 반면, 다른 청사진은 불연속적이다. 적어도 하나의 스캐폴드-잔기 위치가 첫번째 및 마지막 표적-잔기 위치 사이에 속한다. 문자 N 및 C는 주어진 청사진과 일치하는 폴리펩티드의 아미노(N) 말단 및 카르복실(C) 말단을 나타낸다.
도 5에 도시된 5개의 청사진은 그림의 선들 사이에 타원으로 표시된, 가능한 청사진의 방대한 세트의 구성원이다. (35-량체 폴리펩티드와 일치하는) 35개 위치를 갖는 청사진의 경우, 표적 잔기가 순서로 된다고 가정하면, 잠재적인 청사진의 총 수는 식 35! χ (11! Х (35-11)!) = 0.42 조(trillion)에 의해 주어진다. 가능한 최대 규모의 슈퍼컴퓨팅 서비스를 활용하더라도, 가능한 모든 35량체에 대한 로제타 리모델러 계산은 수년에서 평생이 걸릴 것이다. 따라서, 각각의 청사진의 직접 컴퓨터 모델링은 개별적으로 현재의 연산 장치 및 방법을 사용하여 컴퓨터로 다루기 어렵다.
도 6은 조작된 폴리펩티드 디자인의 예시적인 방법의 개략도이다. 개략도의 오른손 부분은 스캐폴드 청사진(예를 들어, 입력으로 사용하기에 적합한 청사진 레코드로 변환됨, 미도시함)이 어떻게 (도 1에 대하여 도시되고 설명된 바와 같은 컴퓨터 단백질 모델링 모듈(106)과 유사함; Rosetta 리모델러를 포함하지만 이에 한정되지 않음) 컴퓨터 단백질 모델링 프로그램에 피드되어 라벨로 사용하기 위한 스코어를 생성할 수 있는지를 도시한다. 스코어는 일반적으로 모델링 프로그램에 사용되는 에너지 항을 반영할 것이다. Rosetta 리모델러의 경우, 이 스코어는 청사진으로부터 생성된 설계된 폴리펩티드의 접힘을 반영하는 에너지 항 및 설계된 폴리펩티드의 예측된 구조 및 표적 단백질의 참조 표적 구조의 소정의 부분의 공지된 구조의 구조적 유사성을 반영하는 구조-제약조건 매칭 항을 모두 포함한다. 다른 모델링 프로그램 및 다른 스코어링 기능이 사용될 수 있다.
개략도의 왼손 부분은 청사진을 청사진의 표현으로 변환하는 것을 예시한다. 상기 표현은 (도 1과 관련하여 도시되고 설명된 머신 러닝 모델(107)과 같은) 머신 러닝 모델에서 사용하기에 적합한 임의의 표현일 수 있다. 여기서, 상기 표현은 벡터이다. 보다 구체적으로, 상기 벡터는 표적-잔기 위치들 사이의 개재 스캐폴드 잔기들의 수에 대한 순서로 된 목록이다. 이러한 표현은 표적-잔기 위치의 순서가 이 표현에서 고정되기 때문에 사용될 수 있으며, 따라서 상기 표현은 표적-잔기 위치의 아미노산 정체를 식별할 필요가 없다. 해당 정보는 암시되어 있다. 표적-잔기 위치의 순서는 표적 구조 서열과 반드시 동일한 순서는 아니다. 벡터의 첫번째 요소, 8은 제1 표적-잔기 위치 전에 8개의 스캐폴드-잔기 위치가 있음을 나타낸다. 벡터의 두번째 요소, 1는 제1 표적-잔기 위치 후에 제2 표적-잔기 위치 전에 하나의 스캐폴드-잔기 위치가 있음을 나타낸다. 0, 1, 2, 또는 3인 후속 요소들은 개재하는 스캐폴드-잔기 위치가 없음, 1, 2, 또는 3개의 개입하는 스캐폴드-잔기 위치를 나타낸다. 벡터의 마지막 요소, 4는 청사진 내의 마지막 4개의 위치가 스캐폴드-잔기 위치임을 나타낸다.
청사진 레코드의 표현의 이러한 변형예의 장점은 첫번째 및 마지막 요소 이외에 벡터가 프레임-시프트 불변이라는 것이다. 즉, 머신 러닝 모델은 청사진 내에서 표적 잔기의 위치와 독립적인 표적 잔기의 상대 위치에 관한 이용 가능한 정보를 갖는다. 이는 N-말단 및 C-말단에 가변적인 구조화된/비구조화된 영역을 갖는 유사한 구조의 설계를 가능하게 한다.
도 7은 조작된 폴리펩티드 디자인을 위한 머신 러닝 모델의 예시적인 성능에 대한 개략도이다. 산포도는, (도 1과 관련하여 도시되고 설명된 바와 같은 머신 러닝 모델(107)과 같은) 머신 러닝 모델이 청사진 레코드 세트에 대한 예측된 스코어 세트를 얼마나 정확하게 생성/예측할 수 있는지를 도시한다. 산포도의 각각의 점은 청사진 레코드 세트로부터의 청사진 레코드를 표현한다. 수평 축은, 예를 들어, Rosetta 리모델러, Ab initio 분자 역학 시뮬레이션 등과 같은 수치 방법에 의해 계산될 수 있는 청사진 레코드 세트에 대한 실측정 스코어를 나타낸다. 수직 축은 수치 방법보다 실질적으로 더 빠르게(예를 들어, 50% 더 빠르게, 2배 더 빠르게, 10배 더 빠르게, 100배 더 빠르게, 1000배 더, 1,000,000배 더, 1,000,000,000배 더 빠르게 등) 작동하는 머신 러닝 모델에 의해 생성/예측되는 청사진 레코드 세트에 대한 예측된 스코어를 나타낸다. 이상적으로, 예측된 스코어는 실측정 스코어에 대응한다(예를 들어, 동일하고, 근사함). 예측된 스코어가 실측정 스코어에 대응하지 않는 경우, 새롭게 생성된 청사진 레코드 세트의 새롭게 생성된 예측된 스코어가 새롭게 생성된 청사진 레코드 세트의 실측정 스코어에 대응할 때까지, 머신 러닝 모델은 청사진 레코드 세트 및 실측정 스코어에 의해 재훈련될 수 있다. 일반적으로, 스코어는 예를 들어, Rosetta 에너지 함수 2015 (REF15)와 같은, 에너지 항 및 도 6에 관하여 설명된 구조-제약 매칭 항 둘 다를 포함할 수 있다. 도 7에 도시된 바와 같이, 청사진 레코드의 낮은 스코어가 청사진 레코드의 낮은 분자 역학 에너지 및 더 높은 안정성을 반영하도록 스코어가 정의될 수 있다. 일부 변형예에서, 높은 스코어의 청사진 레코드가 일반적으로 청사진 레코드에 기초하여 구성되는 폴리펩티드의 더 높은 안정성을 반영하도록 스코어가 정의될 수 있다.
도 8은 조작된 폴리펩티드 디자인을 위한 머신 러닝 모델을 사용하는 예시적인 방법의 개략도이다. 도 8에 도시된 바와 같이, (예를 들어, Rosetta 에너지 또는 분자 역학 에너지와 같은 에너지 항을 나타내는) 제1 청사진 레코드 세트 및 제1 스코어 세트를 포함하는 초기 데이터 세트가 생성되고 데이터 준비 모듈(예컨대 도 1과 관련하여 도시되고 설명된 데이터 준비 모듈(105))에 의해 추가로 준비될 수 있다. 머신 러닝 모델(도 1과 관련하여 도시되고 설명된 바와 같은 머신 러닝 모델(107)과 유사)은 초기 데이터 세트에 기초하여 트레이닝될 수 있다. 제2 스코어 세트를 생성하기 위한 입력으로서 머신 제2 청사진 레코드 세트가 러닝 모델에 제공될 수 있다. 미리 결정된 값(예를 들어, 원하는 스코어) 위의 스코어를 갖는 제2 청사진 레코드 세트 또는 제2 청사진 레코드 세트의 일부분은 실측정 스코어에 대해 검증될 수 있다. 제2 스코어 세트가 실측정 스코어에 충분히 정확하게 대응하는 경우(예를 들어, 95%를 초과하는 정확성을 가짐), 제2 청사진 레코드 세트 또는 제2 청사진 레코드 세트의 일부분이 사용자에게 제시될 수 있다. 그렇지 않으면, 제2 청사진 레코드 세트 또는 제2 청사진 레코드 세트의 일부분은 머신 러닝 모델을 재훈련하는데 사용될 수 있다. 일부 경우에, 원하는 스코어를 가진 청사진을 달성하기 위해 제3 청사진 레코드 세트, 제4 청사진 레코드 세트, 또는 더 많은 수의 청사진 레코드 반복이 생성될 수 있다. 일부 경우에, 원하는 스코어를 달성하기 위해 필요한 만큼 많은 청사진 세트가 새로운 청사진 및 스코어 세트에 대한 머신 러닝 모델을 반복적으로 재훈련함으로써 생성된다. 조작된 폴리펩티드 디자인을 생성하기 위한 머신 러닝 모델을 트레이닝하고 사용하기 위한 절차를 도시하는 예시적인 코드 스니펫(code snippet)은 다음과 같다:
training_energies = Rosetta(training_scaffolds) ## Rosetta 에너지는 스캐폴드의 초기 트레이닝 세트에 대해 계산됨
while training_energies has not converged: ## Rosetta 에너지가 개선을 멈출 때까지 반복함
train xgboost to predict training_energies from training_scaffolds ## 스캐폴드의 트레이닝 세트로부터 Rosetta 에너지를 예측하기 위해 XGBoost를 트레이닝시킴
predicted_scaffolds = top predicted scaffolds from xgboost ## XGboost로 최적의 스캐폴드 예측함
new_energies = Rosetta(predicted_scaffolds) ## Rosetta 에너지가 예측된 스캐폴드에 대해 계산됨
add predicted_scaffolds to training_scaffolds ## 예측된 스캐폴드를 트레이닝 세트에 추가시킴
add new_energies to training_energies ## 예측된 스캐폴드 에너지를 트레이닝 세트에 추가시킴
도 9는 조작된 폴리펩티드 디자인을 위한 머신 러닝 모델의 예시적인 성능에 대한 개략도이다. 도 5와 관련하여 기술된 바와 같이, (35-량체 폴리펩티드와 일치하는) 35개의 위치를 갖는 예시적인 청사진 레코드의 경우, 표적 잔기가 순서로 되어 있다고 가정하면, 잠재적인 청사진의 총 수는 식 35! χ (11! Х (35-11)!) = 0.42 조에 의해 주어진다. 따라서, brute force 발견/최적화를 사용하여 각각의 청사진을 개별적으로 직접 컴퓨터로 모델링하는 것은 현재의 연산 장치 및 방법을 사용하여 컴퓨터로 다루기 어려우며, 수년 또는 수십 년이 걸릴 수도 있다. 대조적으로, 본원에 기술된 머신 러닝 모델과 같은 데이터 기반 접근법을 사용하면 이러한 발견/최적화 시간을 (예를 들어, 주, 일, 시간, 분 등으로) 감소시킬 수 있다.
도 10a-d는 조작된 폴리펩티드를 검증하기 위한 분자 역학 시뮬레이션을 수행하는 예시적인 방법을 도시한다. 머신 러닝 모델(예컨대 도 1에 대해 도시되고 설명된 머신 러닝 모델(107))이 트레이닝되고 실행되어, 개선된/최적화된 (예를 들어, 설계 기준을 충족시키고, 원하는 스코어를 갖는 등) 생성된 청사진 레코드 세트를 생성시킨 후에, 조작된 폴리펩티드 디자인 장치(도 1에 대해 설명되고 도시된 바와 같음)가 생성된 청사진 레코드 세트를 검증할 수 있다.
조작된 폴리펩티드 디자인 장치는, 생성된 청사진 레코드 세트 상에서 (예를 들어, 도 1과 관련하여 도시되고 설명된 바와 같은 컴퓨터 디자인 모델링 모듈(106)을 사용하여) 컴퓨터 단백질 모델링을 수행하여 조작된 폴리펩티드를 생성할 수 있다. 일부 구현예에서, 그런 다음, 조작된 폴리펩티드 디자인 장치는 참조 표적 구조의 표현과 정적 구조 비교를 수행하여 조작된 폴리펩티드의 서브세트를 걸러낼 수 있다.
일부 구현예에서, 그런 다음, 조작된 폴리펩티드 디자인 장치는, 참조 표적 구조의 표현 및 조작된 폴리펩티드의 구조 각각에 대한 분자 역학(MD) 시뮬레이션을 사용하여 참조 표적 구조의 표현과 동적 구조 비교에 의해 조작된 폴리펩티드의 서브세트를 걸러낼 수 있다. 예를 들어, 조작된 폴리펩티드 디자인 장치는 조작된 폴리펩티드의 몇 개(예를 들어, 10회 미만 적중)를 선택할 수 있다. 일부 경우에, MD 시뮬레이션은, 모델 준비, 평형화(예를 들어, 100 K 내지 300 K의 온도), 및 제한되지 않은 MD 시뮬레이션의 단계를 포함하는 용액 조건 하에서 참조 표적 구조의 표현 및 조작된 폴리펩티드의 구조 각각의 역학을 결정할 수 있다. 일부 경우에, MD 시뮬레이션은 참조 표적 구조의 표현 및 조작된 폴리펩티드의 구조 각각에 힘 장 파라미터 및 용매 모델 파라미터를 적용하는 것을 포함할 수 있다. 일부 경우에, MD 시뮬레이션은 1000 사이클 동안 제한된 최소화(예를 들어, 구조 충돌 완화), 제한된 가열(예를 들어, 100 피코초 동안 제한된 가열 및 주변 온도로 점진적으로 증가), 이완된 제한(예를 들어, 100 피코초 동안 제한을 완화하고, 백본 제한을 점진적으로 제거), 및/또는 기타 등등을 거칠 수 있다.
도 11은 조작된 폴리펩티드를 검증하기 위한 분자 역학 시뮬레이션을 수행하는 예시적인 방법을 도시한다. 일부 구현예에서, 도 10과 관련하여 설명된 방법에 추가적으로 또는 대안적으로, MD 시뮬레이션은 시간에 의해 제한될 수 있다. 예를 들어, MD 시뮬레이션은 30ns의 제한되지 않은 역학에 대해 실행될 수 있다. 일부 구현예에서, 추가적으로 또는 대안적으로, MD 시뮬레이션은 형태 정보에 의해 제한될 수 있다. 예를 들어, MD 시뮬레이션은 이러한 형태 정보를 달성하는 데 필요한 임의의 시간 프레임에서 관찰된 형태 정보의 80%를 획득하기 위해 실행될 수 있다. 일부 구현예에서, MD 시뮬레이션의 처리량 및 정확성의 균형을 맞추는 시뮬레이션 시간을 결정하기 위한 메트릭은 참조 표적 구조의 표현 및 조작된 폴리펩티드의 각각의 구조에 대한 시뮬레이션의 코사인 유사도 점수에 의해 계산될 수 있다.
도 12는 분자 역학 시뮬레이션을 병렬로 수행하는 예시적인 방법의 개략도이다. 일부 경우에, 조작된 폴리펩티드 디자인은 많은 (예를 들어, 100s, 1000s, 10,000s 등) 분자 역학 시뮬레이션을 수행하는 것에 관여할 수 있다. 이러한 경우에, 조작된 폴리펩티드 디자인 장치의 프로세서(예컨대, 도 1과 관련하여 도시되고 설명된 조작된 폴리펩티드 디자인 장치(101)의 프로세서(104))는 그래픽 처리 유닛(GPU), 가속 처리 유닛, 및/또는 병렬로 연산을 수행할 수 있는 임의의 다른 처리 유닛을 포함할 수 있다. GPU는 대칭 다중처리 유닛(SMP)의 세트를 포함할 수 있다. 따라서, GPU는, 예컨대, SMP 세트를 사용하여 분자 역학 시뮬레이션의 수(예를 들어, 10s, 100s 등)를 병렬로 처리하도록 구성될 수 있다. 일부 변형예에서, 클라우드 컴퓨팅 플랫폼(예컨대, 도 1과 관련하여 도시되고 설명된 백엔드 서비스 플랫폼(160)) 상의 멀티코어 처리 유닛이 분자 역학 시뮬레이션의 수를 병렬로 처리하는 데 사용될 수 있다.
도 13은 조작된 폴리펩티드 디자인을 위한 머신 러닝 모델을 검증하는 예시적인 방법의 개략도이다. 일부 구현예에서, 각각의 조작된 폴리펩티드를 평가하기 위해, 참조 표적 구조의 표현의 분자 역학(MD) 시뮬레이션 결과 및 각각의 조작된 폴리펩티드의 MD 시뮬레이션 결과에 대해 스코어링 방법이 사용될 수 있다. 스코어링 방법은 평균 제곱근 편차(RMSD)를 사용하는 것을 포함할 수 있다:
Figure pct00001
이때
Figure pct00002
는 원자 수이고,
Figure pct00003
는 참조 표적 구조의 참조 위치들의 벡터이고,
Figure pct00004
는 각각의 조작된 폴리펩티드의 위치들의 벡터이다. 대안적으로, MEM 및 에피토프 구조의 동적 일치를 스코어링하는 것은 제곱근 평균 내적(RMSIP)을 사용하여 수행될 수 있다:
Figure pct00005
이때 고유벡터
Figure pct00006
는 각각 N개의 미리 결정된 참조 잔기에 대한 참조 표적 구조의 고유벡터 및 조작된 폴리펩티드의 고유벡터이며, 상응하는 고유값에 따라 정렬된다 - 최고값에서 최저값으로. 각각의 고유벡터
Figure pct00007
는 가장 낮은 빈도의 모션 모드를 나타내며, 이 경우, 상응하는 고유값으로 정렬된, 상위 10개의 고유벡터가 사용된다. 참조 표적 구조의 고유벡터 및 조작된 폴리펩티드의 고유벡터는, 예를 들어, 주요 성분 분석(PCA)을 사용하여 계산될 수 있다.
전술한 설명은, 설명을 위해, 본 발명의 완전한 이해를 제공하기 위해 구체적인 명명법을 사용하였다. 그러나, 본 발명을 실시하기 위해 구체적인 세부사항이 요구되지 않는다는 것은 당업자에게 명백할 것이다. 따라서, 본 발명의 구체적인 실시예에 대한 전술한 설명은 예시 및 설명의 목적으로 제공된다. 이들은 완전한 것이 아니며, 개시된 정확한 형태로 본 발명을 제한하려는 것이 아니며; 명백하게는, 상기 교시의 관점에서 많은 수정 및 변형이 가능하다. 실시예들은 본 발명의 원리 및 실제 적용을 설명하기 위해 선택되고 설명되었으며, 이에 따라 당업자로 하여금 본 발명 및 다양한 변형을 갖는 다양한 실시예를 고려된 특정 용도에 적합한 것으로 활용할 수 있다. 다음의 청구범위 및 이들의 균등물이 본 발명의 범위를 정의하도록 의도된다.
열거된 실시예:
실시예 I-1. 방법으로서,
제1 복수의 청사진 레코드, 또는 이의 표현, 및 제1 복수의 스코어에 기초하여 머신 러닝 모델을 트레이닝하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 상기 제1 복수의 스코어로부터의 각각의 스코어와 연관되는, 단계; 및
상기 트레이닝 후에, 상기 머신 러닝 모델을 실행해서 적어도 하나의 원하는 스코어를 갖는 제2 복수의 청사진 레코드를 생성하는 단계를 포함하며,
상기 제2 복수의 청사진 레코드는 컴퓨터 단백질 모델링에서 입력으로서 수신되어 상기 제2 복수의 청사진 레코드에 기초하여 조작된 폴리펩티드를 생성하도록 구성되는, 방법.
실시예 I-2. 실시예 I-1에 있어서,
참조 표적에 대한 참조 표적 구조의 표현을 수신하는 단계; 및
상기 참조 표적 구조의 소정의 부분으로부터 상기 제1 복수의 청사진 레코드를 생성하는 단계를 포함하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 표적 잔기 위치 및 스캐폴드 잔기 위치를 포함하되, 각각의 표적 잔기 위치는 상기 복수의 표적 잔기로부터의 하나의 표적 잔기에 대응하는, 방법.
실시예 I-3. 실시예 I-1 또는 I-2에 있어서, 적어도 하나의 청사진 레코드에서, 상기 표적 잔기 위치는 비연속적인, 방법.
실시예 I-4. 실시예 I-1 내지 I-3 중 어느 하나에 있어서, 적어도 하나의 청사진 레코드에서, 표적 잔기 위치는 상기 참조 표적 서열 내의 표적 잔기 위치의 순서와 상이한 순서로 되어 있는, 방법.
실시예 I-5. 실시예 I-1 내지 I-4 중 어느 하나에 있어서,
상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드에 대해, 하기에 의해 상기 제1 복수의 청사진 레코드를 라벨링하는 단계를 포함하는 방법:
상기 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 폴리펩티드 구조를 생성하는 단계,
상기 폴리펩티드 구조에 대한 스코어를 계산하는 단계, 및
상기 청사진 레코드와 상기 스코어를 연관시키는 단계.
실시예 I-6. 실시예 I-1 내지 I-5 중 어느 하나에 있어서, 상기 컴퓨터 단백질 모델링은 상기 참조 표적 구조에 일치하는 템플릿이 없는 드 노보 설계를 기반으로 하는, 방법.
실시예 I-7. 실시예 I-1 내지 I-6 중 어느 하나에 있어서, 상기 제1 복수의 스코어로부터의 각각의 스코어는 에너지 항 및 상기 참조 표적 구조의 표현으로부터 추출된 하나 이상의 구조적 제약조건을 사용하여 결정되는 구조-제약조건 매칭 항을 포함하는, 방법.
실시예 I-8. 실시예 I-1 내지 I-7 중 어느 하나에 있어서,
상기 제2 복수의 청사진 레코드에 대한 제2 복수의 스코어를 계산함으로써 상기 머신 러닝 모델을 재훈련할지 여부를 결정하는 단계; 및
상기 결정에 응답하여, (1) 상기 제2 복수의 청사진 레코드를 포함하는 재훈련 청사진 레코드 및 (2) 상기 제2 복수의 스코어를 포함하는 재훈련 스코어에 기초하여 상기 머신 러닝 모델을 재훈련시키는 단계를 포함하는, 방법.
실시예 I-9. 실시예 I-8에 있어서,
상기 머신 러닝 모델을 재훈련시킨 후, 상기 제1 복수의 청사진 레코드 및 상기 제2 복수의 청사진 레코드를 연결하여 상기 재훈련 청사진 레코드를 생성하고 상기 재훈련 스코어를 생성하는 단계를 포함하되, 상기 재훈련 청사진 레코드로부터의 각각의 청사진 레코드는 상기 재훈련 스코어로부터의 스코어와 연관되는, 방법.
실시예 I-10. 실시예 I-1 내지 I-9 중 어느 하나에 있어서, 상기 적어도 하나의 원하는 스코어는 미리 설정된 값인, 방법.
실시예 I-11. 실시예 I-1 내지 I-9 중 어느 하나에 있어서, 적어도 하나의 원하는 스코어는 역학적으로 결정되는, 방법.
실시예 I-12. 실시예 I-1 내지 I-10 중 어느 하나에 있어서, 상기 머신 러닝 모델은 감독 대상 머신 러닝 모델인, 방법.
실시예 I-13. 실시예 I-12에 있어서, 상기 감독 대상 머신 러닝 모델은 결정 트리 앙상블, 부스팅된 결정 트리 알고리즘, 익스트림 그래디언트 부스팅(XGBoost) 모델, 또는 랜덤 포레스트를 포함하는, 방법.
실시예 I-14. 실시예 I-12에 있어서, 상기 감독 대상 머신 러닝 모델은 서포트 벡터 머신(SVM), 피드-포워드(feed-forward) 머신 러닝 모델, 순환 신경망(RNN), 합성곱 신경망(CNN), 그래프 신경망(GNN), 또는 트랜스포머 신경망을 포함하는, 방법.
실시예 I-15. 실시예 I-1 내지 I-14 중 어느 하나에 있어서, 상기 머신 러닝 모델은 유도 머신 러닝 모델인, 방법.
실시예 I-16. 실시예 I-1 내지 I-14 중 어느 하나에 있어서, 상기 머신 러닝 모델은 생성 머신 러닝 모델인, 방법.
실시예 I-17. 실시예 I-1 내지 I-16 중 어느 하나에 있어서, 상기 제2 복수의 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 조작된 폴리펩티드를 생성하는 단계를 포함하는, 방법.
실시예 I-18. 실시예 I-1 내지 I-17 중 어느 하나에 있어서, 상기 참조 표적 구조의 표현과의 정적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하는 단계를 포함하는, 방법.
실시예 I-19. 실시예 I-1 내지 I-18 중 어느 하나에 있어서, 상기 참조 표적 구조의 표현 및 조작된 폴리펩티드의 구조 각각에 대한 분자 역학(MD) 시뮬레이션을 사용하여 상기 참조 표적 구조의 표현과의 동적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하는 단계를 포함하는, 방법.
실시예 I-20. 실시예 I-19에 있어서, 상기 MD 시뮬레이션은 대칭 다중처리(SMP)를 사용하여 병렬로 수행되는, 방법.
실시예 I-21. 실시예 I-1 내지 I-20 중 어느 하나에 있어서, 상기 제2 복수의 청사진 레코드에서의 청사진 레코드의 수는 상기 제1 복수의 청사진 레코드에서의 청사진 레코드의 수보다 적은, 방법.
실시예 I-22. 프로세서에 의해 실행될 명령어를 나타내는 코드를 저장하는 비일시적 프로세서 판독가능 매체로서, 상기 코드는 상기 프로세서로 하여금:
제1 복수의 청사진 레코드, 또는 이의 표현, 및 제1 복수의 스코어에 기초하여 머신 러닝 모델을 트레이닝하게 하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 상기 제1 복수의 스코어로부터의 각각의 스코어와 연관되고; 및
상기 트레이닝 후에, 상기 머신 러닝 모델을 실행해서 적어도 하나의 원하는 스코어를 갖는 제2 복수의 청사진 레코드를 생성하게 하는, 코드를 포함하고,
상기 제2 복수의 청사진 레코드는 컴퓨터 단백질 모델링에서 입력으로서 수신되어 상기 제2 복수의 청사진 레코드에 기초하여 조작된 폴리펩티드를 생성하도록 구성되는, 매체.
실시예 I-23. 실시예 I-22에 있어서, 상기 프로세서로 하여금:
참조 표적 구조의 표현을 수신하게 하고; 및
상기 참조 표적 구조의 소정의 부분으로부터 상기 제1 복수의 청사진 레코드를 생성하게 하는, 코드를 포함하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 표적 잔기 위치 및 스캐폴드 잔기 위치를 포함하되, 상기 복수의 표적 잔기 위치로부터의 각각의 표적 잔기 위치는 상기 복수의 표적 잔기로부터의 하나의 표적 잔기에 대응하는, 매체.
실시예 I-24. 실시예 I-23에 있어서, 적어도 하나의 청사진 레코드에서, 상기 표적 잔기 위치는 비연속적인, 매체.
실시예 I-25. 실시예 I-23 또는 I-24에 있어서, 적어도 하나의 청사진 레코드에서, 표적 잔기 위치는 상기 참조 표적 서열 내의 표적 잔기 위치의 순서와 상이한 순서로 되어 있는, 매체.
실시예 I-26. 실시예 I-23 내지 I-25 중 어느 하나에 있어서, 상기 프로세서로 하여금:
상기 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 폴리펩티드 구조를 생성하고, 상기 폴리펩티드 구조에 대한 스코어를 계산하고, 및 상기 청사진 레코드와 상기 스코어를 연관시키는 것에 의해 상기 제1 복수의 청사진 레코드를 라벨링하게 하는, 코드를 포함하는 매체.
실시예 I-27. 실시예 I-26에 있어서, 상기 컴퓨터 단백질 모델링은 상기 참조 표적 구조에 일치하는 템플릿이 없는 드 노보 설계를 기반으로 하는, 매체.
실시예 I-28. 실시예 I-26 또는 I-27에 있어서, 각각의 스코어는 에너지 항 및 상기 참조 표적 구조의 표현으로부터 추출된 하나 이상의 구조적 제약조건을 사용하여 결정되는 구조-제약조건 매칭 항을 포함하는, 매체.
실시예 I-29. 실시예 I-22 내지 I-28 중 어느 하나에 있어서, 상기 프로세서로 하여금:
상기 제2 복수의 청사진 레코드에 대한 제2 복수의 스코어를 계산함으로써 상기 머신 러닝 모델을 재훈련할지 여부를 결정하게 하고; 및
상기 결정에 응답하여, (1) 상기 제2 복수의 청사진 레코드를 포함하는 재훈련 청사진 레코드 및 (2) 상기 제2 복수의 스코어를 포함하는 재훈련 스코어에 기초하여 상기 머신 러닝 모델을 재훈련시키게 하는, 코드를 포함하는 매체.
실시예 I-30. 실시예 I-29에 있어서, 상기 프로세서로 하여금:
상기 머신 러닝 모델을 재훈련시킨 후, 상기 제1 복수의 청사진 레코드 및 상기 제2 복수의 청사진 레코드를 연결하여 상기 재훈련 청사진 레코드를 생성하고 상기 재훈련 스코어를 생성하게 하는, 코드를 포함하되, 상기 재훈련 청사진 레코드로부터의 각각의 청사진 레코드는 상기 재훈련 스코어로부터의 스코어와 연관되는, 매체.
실시예 I-31. 실시예 I-22 내지 I-30 중 어느 하나에 있어서, 상기 적어도 하나의 원하는 스코어는 미리 설정된 값인, 매체.
실시예 I-32. 실시예 I-22 내지 I-31 중 어느 하나에 있어서, 적어도 하나의 원하는 스코어는 역학적으로 결정되는, 매체.
실시예 I-33. 실시예 I-22 내지 I-32 중 어느 하나에 있어서, 상기 머신 러닝 모델은 감독 대상 머신 러닝 모델인, 매체.
실시예 I-34. 실시예 I-22 내지 I-33 중 어느 하나에 있어서, 상기 감독 대상 머신 러닝 모델은 결정 트리 앙상블, 부스팅된 결정 트리 알고리즘, 익스트림 그래디언트 부스팅(XGBoost) 모델, 또는 랜덤 포레스트를 포함하는, 매체.
실시예 I-35. 실시예 I-33에 있어서, 상기 감독 대상 머신 러닝 모델은 서포트 벡터 머신(SVM), 피드-포워드(feed-forward) 머신 러닝 모델, 순환 신경망(RNN), 합성곱 신경망(CNN), 그래프 신경망(GNN), 또는 트랜스포머 신경망을 포함하는, 매체.
실시예 I-36. 실시예 I-22 내지 I-35 중 어느 하나에 있어서, 상기 머신 러닝 모델은 유도 머신 러닝 모델인, 매체.
실시예 I-37. 실시예 I-22 내지 I-36 중 어느 하나에 있어서, 상기 머신 러닝 모델은 생성 머신 러닝 모델인, 매체.
실시예 I-38. 실시예 I-22 내지 I-37 중 어느 하나에 있어서, 상기 프로세서로 하여금:
상기 제2 복수의 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 조작된 폴리펩티드를 생성하게 하는, 코드를 포함하는, 매체.
실시예 I-39. 실시예 I-38에 있어서, 상기 프로세서로 하여금:
상기 참조 표적 구조의 표현과의 정적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하게 하는, 코드를 포함하는, 매체.
실시예 I-40. 실시예 I-38 또는 I-39에 있어서, 상기 프로세서로 하여금:
상기 참조 표적 구조의 표현 및 조작된 폴리펩티드의 각각에 대한 분자 역학(MD) 시뮬레이션을 사용하여 상기 참조 표적 구조의 표현과의 동적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하게 하는, 코드를 포함하는, 매체.
실시예 I-41. 실시예 I-40에 있어서, 상기 MD 시뮬레이션은 대칭 다중처리(SMP)를 사용하여 병렬로 수행되는, 매체.
실시예 I-42. 실시예 I-22 내지 I-41 중 어느 하나에 있어서, 상기 제2 복수의 청사진 레코드에서의 청사진 레코드의 수는 상기 제1 복수의 청사진 레코드에서의 청사진 레코드의 수보다 적은, 매체.
실시예 I-43. 조작된 폴리펩티드를 선택하는 장치로,
프로세서 및 상기 프로세서에 의해 실행 가능한 명령어를 저장하는 메모리를 갖는 제1 연산 장치를 포함하고, 상기 프로세서는:
상기 제1 연산 장치로부터 멀리 떨어진 제2 연산 장치로부터, 참조 표적 구조를 수신하고;
상기 참조 표적 구조의 소정의 부분으로부터 제1 복수의 청사진 레코드를 생성하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 표적 잔기 위치 및 스캐폴드 잔기 위치를 포함하되, 각각의 표적 잔기 위치는 상기 복수의 표적 잔기로부터의 하나의 표적 잔기에 대응하고,
제1 복수의 청사진 레코드, 또는 이의 표현, 및 제1 복수의 스코어에 기초하여 머신 러닝 모델을 트레이닝하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 상기 제1 복수의 스코어로부터의 각각의 스코어와 연관되고; 및
상기 트레이닝 후에, 상기 머신 러닝 모델을 실행해서 적어도 하나의 원하는 스코어를 갖는 제2 복수의 청사진 레코드를 생성하고,
상기 제2 복수의 청사진 레코드는 컴퓨터 단백질 모델링에서 입력으로서 수신되어 상기 제2 복수의 청사진 레코드에 기초하여 조작된 폴리펩티드를 생성하도록 구성되는, 장치.
실시예 I-44. 실시예 I-43에 있어서, 상기 프로세서로 하여금:
상기 제2 복수의 청사진 레코드에 대한 제2 복수의 스코어를 계산함으로써 상기 머신 러닝 모델을 재훈련할지 여부를 결정하게 하고; 및
상기 결정에 응답하여, (1) 상기 제2 복수의 청사진 레코드를 포함하는 재훈련 청사진 레코드 및 (2) 상기 제2 복수의 스코어를 포함하는 재훈련 스코어에 기초하여 상기 머신 러닝 모델을 재훈련시키게 하는, 코드를 포함하는 장치.
실시예 I-45. 실시예 I-43 또는 I-44에 있어서, 상기 원하는 스코어는 미리 설정된 값인, 장치.
실시예 I-46. 실시예 I-43 내지 I-45 중 어느 하나에 있어서, 상기 원하는 스코어는 역학적으로 결정되는, 장치.
실시예 I-47. 실시예 I-43 내지 I-46 중 어느 하나에 있어서, 상기 머신 러닝 모델은 감독 대상 머신 러닝 모델인, 장치.
실시예 I-48. 실시예 I-47에 있어서, 상기 감독 대상 머신 러닝 모델은 결정 트리 앙상블, 부스팅된 결정 트리 알고리즘, 익스트림 그래디언트 부스팅(XGBoost) 모델, 또는 랜덤 포레스트를 포함하는, 장치.
실시예 I-49. 실시예 I-47 또는 I-48에 있어서, 상기 감독 대상 머신 러닝 모델은 서포트 벡터 머신(SVM), 피드-포워드(feed-forward) 머신 러닝 모델, 순환 신경망(RNN), 합성곱 신경망(CNN), 그래프 신경망(GNN), 또는 트랜스포머 신경망을 포함하는, 장치.
실시예 I-50. 실시예 I-43 내지 I-49 중 어느 하나에 있어서, 상기 머신 러닝 모델은 유도 머신 러닝 모델인, 장치.
실시예 I-51. 실시예 I-43 내지 I-50 중 어느 하나에 있어서, 상기 머신 러닝 모델은 생성 머신 러닝 모델인, 장치.
실시예 I-52. 실시예 I-43 내지 I-51 중 어느 하나에 있어서, 상기 프로세서로 하여금:
상기 제2 복수의 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 조작된 폴리펩티드를 생성하게 하는, 코드를 포함하는, 장치.
실시예 I-53. 실시예 I-52에 있어서, 상기 프로세서로 하여금:
참조 표적 구조의 표현과의 정적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하게 하는, 코드를 포함하는, 장치.
실시예 I-54. 실시예 I-52 또는 I-53에 있어서, 상기 프로세서로 하여금:
상기 참조 표적 구조의 표현 및 상기 조작된 폴리펩티드의 각각에 대한 분자 역학(MD) 시뮬레이션을 사용하여 참조 표적 구조의 표현과의 동적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하게 하는, 코드를 포함하는, 장치.
실시예 I-55. 실시예 I-54에 있어서, 상기 MD 시뮬레이션은 대칭 다중처리(SMP)를 사용하여 병렬로 수행되는, 장치.
실시예 I-56. 실시예 I-1 내지 I-21 중 어느 하나의 방법, 실시예 I-22 내지 I-42 중 어느 하나의 매체, 또는 실시예 I-43 내지 I-55 중 어느 하나의 장치에 의해 생성된 조작된 폴리펩티드 디자인.
실시예 I-57. 조작된 펩티드로서, 상기 조작된 펩티드는 1 kDa 내지 10 kDa의 분자량을 가지고 최대 50개의 아미노산을 포함하고, 상기 조작된 펩티드는:
공간적으로 연관된 위상 제약조건들의 조합을 포함하고, 여기서 상기 제약조건 중 하나 이상은 참조 표적-유래 제약조건이고; 및
여기서 상기 조작된 펩티드의 아미노산의 10% 내지 98%가 상기 하나 이상의 참조 표적-유래 제약조건을 충족시키고,
여기서 상기 하나 이상의 참조 표적-유래 제약조건을 충족시키는 아미노산은 상기 참조 표적과 8.0
Figure pct00008
미만의 골격 평균 제곱근 편차(RSMD) 구조적 상동성을 갖는, 조작된 펩티드.
실시예 I-58. 실시예 I-57에 있어서, 상기 하나 이상의 참조 표적-유래 제약조건을 충족시키는 아미노산은 상기 참조 표적과 10% 내지 90%의 서열 상동성을 갖는, 조작된 펩티드.
실시예 I-59. 실시예 I-57 또는 I-58에 있어서, 상기 조합은 적어도 2개의 참조 표적-유래 제약조건을 포함하는, 조작된 펩티드.
실시예 I-60. 실시예 I-57 내지 I-59 중 어느 하나에 있어서, 상기 조합은 에너지 항 및 상기 참조 표적 구조의 표현으로부터 추출된 하나 이상의 구조적 제약조건을 사용하여 결정되는 구조-제약조건 일치 항을 포함하는, 조작된 펩티드.
실시예 I-61. 실시예 I-57 내지 I-60 중 어느 하나에 있어서, 상기 하나 이상의 비-참조 표적-유래 제약조건은 원하는 구조적 특징, 역학적 특징, 또는 이들의 임의의 조합을 설명하는, 조작된 펩티드.
실시예 I-62. 실시예 I-57 내지 I-61 중 어느 하나에 있어서, 상기 참조 표적은 생물학적 반응 또는 생물학적 기능과 연관된 하나 이상의 원자를 포함하고,
여기서 생물학적 반응 또는 생물학적 기능과 연관된 조작된 펩티드 내의 하나 이상의 원자의 원자 요동은 생물학적 반응 또는 생물학적 기능과 연관된 참조 표적 내의 하나 이상의 원자의 원자 요동과 중첩되는, 조작된 펩티드.
실시예 I-63. 실시예 I-62에 있어서, 상기 중첩은 0.25 초과의 평균 제곱근 내적(RMSIP)인, 조작된 펩티드.
실시예 I-64. 실시예 I-62 또는 I-63 중 어느 하나에 있어서, 상기 중첩은 0.75 초과의 평균 제곱근 내적(RMSIP)을 갖는, 조작된 펩티드.
실시예 I-65. 조작된 펩티드를 선택하는 방법으로서,
참조 표적의 하나 이상의 위상 특징을 식별하는 단계;
각각의 위상 특징에 대해 공간적으로-연관된 제약조건을 설계해서 상기 참조 표적으로부터 유래된 공간적으로-연관된 위상 제약조건들의 조합을 생성하는 단계;
후보 펩티드의 공간적으로-연관된 위상 특징을 상기 참조 표적으로부터 유래된 공간적으로-연관된 위상 제약조건들의 조합과 비교하는 단계; 및
상기 참조 표적으로부터 유래된 공간적으로-연관된 위상 제약조건들의 조합과 중첩되는 공간적으로-연관된 위상 특징을 갖는 후보 펩티드를 선택해서 상기 조작된 펩티드를 생산하는 단계를 포함하는, 방법.
실시예 I-66. 실시예 I-65에 있어서, 하나 이상의 제약조건은 잔기당 에너지 및 잔기당 원자 거리로부터 유래되는, 방법.
실시예 I-67. 실시예 I-65 또는 I-66 중 어느 하나에 있어서, 하나 이상의 후보 펩티드의 특징은 컴퓨터 시뮬레이션에 의해 결정되는, 방법.
실시예 I-68. 실시예 I-67에 있어서, 상기 컴퓨터 시뮬레이션은 분자 역학 시뮬레이션, 몬테 카를로(Monte Carlo) 시뮬레이션, 거친 입자(coarse-grained) 시뮬레이션, 가우시안 네트워크 모델(Gaussian network model), 머신 러닝(machine learning), 또는 이들의 임의의 조합을 포함하는, 방법.
실시예 I-69. 실시예 I-65 내지 I-68 중 어느 하나에 있어서, 상기 하나 이상의 참조 표적-유래 제약조건을 충족시키는 아미노산은 상기 참조 표적과 10% 내지 90%의 서열 상동성을 갖는, 방법.
실시예 I-70. 실시예 I-65 내지 I-69 중 어느 하나에 있어서, 상기 하나 이상의 비-참조 표적-유래 제약조건은 원하는 구조적 특징 및/또는 역학적 특징을 설명하는, 방법.

Claims (71)

  1. 방법으로서,
    제1 복수의 청사진 레코드, 또는 이의 표현, 및 제1 복수의 스코어에 기초하여 머신 러닝 모델을 트레이닝하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 상기 제1 복수의 스코어로부터의 각각의 스코어와 연관되는, 단계; 및
    상기 트레이닝 후에, 상기 머신 러닝 모델을 실행해서 적어도 하나의 원하는 스코어를 갖는 제2 복수의 청사진 레코드를 생성하는 단계를 포함하며,
    상기 제2 복수의 청사진 레코드는 컴퓨터 단백질 모델링에서 입력으로서 수신되어 상기 제2 복수의 청사진 레코드에 기초하여 조작된 폴리펩티드를 생성하도록 구성되는, 방법.
  2. 제1항에 있어서,
    참조 표적에 대한 참조 표적 구조의 표현을 수신하는 단계; 및
    상기 참조 표적 구조의 소정의 부분으로부터 상기 제1 복수의 청사진 레코드를 생성하는 단계를 포함하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 표적 잔기 위치 및 스캐폴드 잔기 위치를 포함하되, 각각의 표적 잔기 위치는 상기 복수의 표적 잔기로부터의 하나의 표적 잔기에 대응하는, 방법.
  3. 제2항에 있어서, 적어도 하나의 청사진 레코드에서, 상기 표적 잔기 위치는 비연속적인, 방법.
  4. 제2항에 있어서, 적어도 하나의 청사진 레코드에서, 표적 잔기 위치는 상기 참조 표적 서열 내의 표적 잔기 위치의 순서와 상이한 순서로 되어 있는, 방법.
  5. 제2항에 있어서,
    상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드에 대해, 하기에 의해 상기 제1 복수의 청사진 레코드를 라벨링하는 단계를 포함하는 방법:
    상기 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 폴리펩티드 구조를 생성하는 단계,
    상기 폴리펩티드 구조에 대한 스코어를 계산하는 단계, 및
    상기 청사진 레코드와 상기 스코어를 연관시키는 단계.
  6. 제5항에 있어서, 상기 컴퓨터 단백질 모델링은 상기 참조 표적 구조에 일치하는 템플릿이 없는 드 노보 설계를 기반으로 하는, 방법.
  7. 제5항에 있어서, 상기 제1 복수의 스코어로부터의 각각의 스코어는 에너지 항 및 상기 참조 표적 구조의 표현으로부터 추출된 하나 이상의 구조적 제약조건을 사용하여 결정되는 구조-제약조건 매칭 항을 포함하는, 방법.
  8. 제1항에 있어서,
    상기 제2 복수의 청사진 레코드에 대한 제2 복수의 스코어를 계산함으로써 상기 머신 러닝 모델을 재훈련할지 여부를 결정하는 단계; 및
    상기 결정에 응답하여, (1) 상기 제2 복수의 청사진 레코드를 포함하는 재훈련 청사진 레코드 및 (2) 상기 제2 복수의 스코어를 포함하는 재훈련 스코어에 기초하여 상기 머신 러닝 모델을 재훈련시키는 단계를 포함하는, 방법.
  9. 제8항에 있어서,
    상기 머신 러닝 모델을 재훈련시킨 후, 상기 제1 복수의 청사진 레코드 및 상기 제2 복수의 청사진 레코드를 연결하여 상기 재훈련 청사진 레코드를 생성하고 상기 재훈련 스코어를 생성하는 단계를 포함하되, 상기 재훈련 청사진 레코드로부터의 각각의 청사진 레코드는 상기 재훈련 스코어로부터의 스코어와 연관되는, 방법.
  10. 제1항에 있어서, 상기 적어도 하나의 원하는 스코어는 미리 설정된 값인, 방법.
  11. 제1항에 있어서, 상기 적어도 하나의 원하는 스코어는 역학적으로 결정되는, 방법.
  12. 제1항에 있어서, 상기 머신 러닝 모델은 감독 대상 머신 러닝 모델인, 방법.
  13. 제12항에 있어서, 상기 감독 대상 머신 러닝 모델은 결정 트리 앙상블, 부스팅된 결정 트리 알고리즘, 익스트림 그래디언트 부스팅(XGBoost) 모델, 또는 랜덤 포레스트를 포함하는, 방법.
  14. 제12항에 있어서, 상기 감독 대상 머신 러닝 모델은 서포트 벡터 머신(SVM), 피드-포워드(feed-forward) 머신 러닝 모델, 순환 신경망(RNN), 합성곱 신경망(CNN), 그래프 신경망(GNN), 또는 트랜스포머 신경망을 포함하는, 방법.
  15. 제1항에 있어서, 상기 머신 러닝 모델은 유도 머신 러닝 모델인, 방법.
  16. 제1항에 있어서, 상기 머신 러닝 모델은 생성 머신 러닝 모델인, 방법.
  17. 제1항에 있어서, 상기 제2 복수의 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 상기 조작된 폴리펩티드를 생성하는 단계를 포함하는, 방법.
  18. 제17항에 있어서, 상기 참조 표적 구조의 표현과의 정적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하는 단계를 포함하는, 방법.
  19. 제17항에 있어서, 상기 참조 표적 구조의 표현 및 조작된 폴리펩티드의 구조 각각에 대한 분자 역학(MD) 시뮬레이션을 사용하여 상기 참조 표적 구조의 표현과의 동적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하는 단계를 포함하는, 방법.
  20. 제19항에 있어서, 상기 MD 시뮬레이션은 대칭 다중처리(SMP)를 사용하여 병렬로 수행되는, 방법.
  21. 제1항에 있어서, 상기 제2 복수의 청사진 레코드에서의 청사진 레코드의 수는 상기 제1 복수의 청사진 레코드에서의 청사진 레코드의 수보다 적은, 방법.
  22. 프로세서에 의해 실행될 명령어를 나타내는 코드를 저장하는 비일시적 프로세서 판독가능 매체로서, 상기 코드는 상기 프로세서로 하여금:
    제1 복수의 청사진 레코드, 또는 이의 표현, 및 제1 복수의 스코어에 기초하여 머신 러닝 모델을 트레이닝하게 하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 상기 제1 복수의 스코어로부터의 각각의 스코어와 연관되고; 및
    상기 트레이닝 후에, 상기 머신 러닝 모델을 실행해서 적어도 하나의 원하는 스코어를 갖는 제2 복수의 청사진 레코드를 생성하게 하는, 코드를 포함하고,
    상기 제2 복수의 청사진 레코드는 컴퓨터 단백질 모델링에서 입력으로서 수신되어 상기 제2 복수의 청사진 레코드에 기초하여 조작된 폴리펩티드를 생성하도록 구성되는, 매체.
  23. 제22항에 있어서, 상기 프로세서로 하여금:
    참조 표적 구조의 표현을 수신하게 하고; 및
    상기 참조 표적 구조의 소정의 부분으로부터 상기 제1 복수의 청사진 레코드를 생성하게 하는, 코드를 포함하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 표적 잔기 위치 및 스캐폴드 잔기 위치를 포함하되, 상기 복수의 표적 잔기 위치로부터의 각각의 표적 잔기 위치는 상기 복수의 표적 잔기로부터의 하나의 표적 잔기에 대응하는, 매체.
  24. 제23항에 있어서, 적어도 하나의 청사진 레코드에서, 상기 표적 잔기 위치는 비연속적인, 방법.
  25. 제23항에 있어서, 적어도 하나의 청사진 레코드에서, 표적 잔기 위치는 상기 참조 표적 서열 내의 표적 잔기 위치의 순서와 상이한 순서로 되어 있는, 방법.
  26. 제23항에 있어서, 상기 프로세서로 하여금:
    각각의 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 폴리펩티드 구조를 생성하고, 상기 폴리펩티드 구조에 대한 스코어를 계산하고, 및 상기 청사진 레코드와 상기 스코어를 연관시키는 것에 의해 상기 제1 복수의 청사진 레코드를 라벨링하게 하는, 코드를 포함하는 매체.
  27. 제26항에 있어서, 상기 컴퓨터 단백질 모델링은 상기 참조 표적 구조에 일치하는 템플릿이 없는 드 노보 설계를 기반으로 하는, 매체.
  28. 제26항에 있어서, 각각의 스코어는 에너지 항 및 상기 참조 표적 구조의 표현으로부터 추출된 하나 이상의 구조적 제약조건을 사용하여 결정되는 구조-제약조건 매칭 항을 포함하는, 매체.
  29. 제22항에 있어서, 상기 프로세서로 하여금:
    상기 제2 복수의 청사진 레코드에 대한 제2 복수의 스코어를 계산함으로써 상기 머신 러닝 모델을 재훈련할지 여부를 결정하게 하고; 및
    상기 결정에 응답하여, (1) 상기 제2 복수의 청사진 레코드를 포함하는 재훈련 청사진 레코드 및 (2) 상기 제2 복수의 스코어를 포함하는 재훈련 스코어에 기초하여 상기 머신 러닝 모델을 재훈련시키게 하는, 코드를 포함하는 매체.
  30. 제29항에 있어서, 상기 프로세서로 하여금:
    상기 머신 러닝 모델을 재훈련시킨 후, 상기 제1 복수의 청사진 레코드 및 상기 제2 복수의 청사진 레코드를 연결하여 상기 재훈련 청사진 레코드를 생성하고 상기 재훈련 스코어를 생성하게 하는, 코드를 포함하되, 상기 재훈련 청사진 레코드로부터의 각각의 청사진 레코드는 상기 재훈련 스코어로부터의 스코어와 연관되는, 매체.
  31. 제22항에 있어서, 상기 적어도 하나의 원하는 스코어는 미리 설정된 값인, 매체.
  32. 제22항에 있어서, 상기 적어도 하나의 원하는 스코어는 역학적으로 결정되는, 매체.
  33. 제22항에 있어서, 상기 머신 러닝 모델은 감독 대상 머신 러닝 모델인, 매체.
  34. 제33항에 있어서, 상기 감독 대상 머신 러닝 모델은 결정 트리 앙상블, 부스팅된 결정 트리 알고리즘, 익스트림 그래디언트 부스팅(XGBoost) 모델, 또는 랜덤 포레스트를 포함하는, 매체.
  35. 제33항에 있어서, 상기 감독 대상 머신 러닝 모델은 서포트 벡터 머신(SVM), 피드-포워드(feed-forward) 머신 러닝 모델, 순환 신경망(RNN), 합성곱 신경망(CNN), 그래프 신경망(GNN), 또는 트랜스포머 신경망을 포함하는, 매체.
  36. 제22항에 있어서, 상기 머신 러닝 모델은 유도 머신 러닝 모델인, 매체.
  37. 제22항에 있어서, 상기 머신 러닝 모델은 생성 머신 러닝 모델인, 매체.
  38. 제22항에 있어서, 상기 프로세서로 하여금:
    상기 제2 복수의 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 조작된 폴리펩티드를 생성하게 하는, 코드를 포함하는, 매체.
  39. 제38항에 있어서, 상기 프로세서로 하여금:
    상기 참조 표적 구조의 표현과의 정적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하게 하는, 코드를 포함하는, 매체.
  40. 제38항에 있어서, 상기 프로세서로 하여금:
    상기 참조 표적 구조의 표현 및 상기 조작된 폴리펩티드의 각각에 대한 분자 역학(MD) 시뮬레이션을 사용하여 상기 참조 표적 구조의 표현과의 동적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하게 하는, 코드를 포함하는, 매체.
  41. 제40항에 있어서, 상기 MD 시뮬레이션은 대칭 다중처리(SMP)를 사용하여 병렬로 수행되는, 매체.
  42. 제22항에 있어서, 상기 제2 복수의 청사진 레코드에서의 청사진 레코드의 수는 상기 제1 복수의 청사진 레코드에서의 청사진 레코드의 수보다 적은, 매체.
  43. 조작된 폴리펩티드를 선택하는 장치로,
    프로세서 및 상기 프로세서에 의해 실행 가능한 명령어를 저장하는 메모리를 갖는 제1 연산 장치를 포함하고, 상기 프로세서는:
    상기 제1 연산 장치로부터 멀리 떨어진 제2 연산 장치로부터, 참조 표적 구조를 수신하고;
    상기 참조 표적 구조의 소정의 부분으로부터 제1 복수의 청사진 레코드를 생성하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 표적 잔기 위치 및 스캐폴드 잔기 위치를 포함하되, 각각의 표적 잔기 위치는 상기 복수의 표적 잔기로부터의 하나의 표적 잔기에 대응하고,
    제1 복수의 청사진 레코드, 또는 이의 표현, 및 제1 복수의 스코어에 기초하여 머신 러닝 모델을 트레이닝하되, 상기 제1 복수의 청사진 레코드로부터의 각각의 청사진 레코드는 상기 제1 복수의 스코어로부터의 각각의 스코어와 연관되고; 및
    상기 트레이닝 후에, 상기 머신 러닝 모델을 실행해서 적어도 하나의 원하는 스코어를 갖는 제2 복수의 청사진 레코드를 생성하고,
    상기 제2 복수의 청사진 레코드는 컴퓨터 단백질 모델링에서 입력으로서 수신되어 상기 제2 복수의 청사진 레코드에 기초하여 조작된 폴리펩티드를 생성하도록 구성되는, 장치.
  44. 제43항에 있어서, 상기 프로세서로 하여금:
    상기 제2 복수의 청사진 레코드에 대한 제2 복수의 스코어를 계산함으로써 상기 머신 러닝 모델을 재훈련할지 여부를 결정하게 하고; 및
    상기 결정에 응답하여, (1) 상기 제2 복수의 청사진 레코드를 포함하는 재훈련 청사진 레코드 및 (2) 상기 제2 복수의 스코어를 포함하는 재훈련 스코어에 기초하여 상기 머신 러닝 모델을 재훈련시키게 하는, 코드를 포함하는 장치.
  45. 제43항에 있어서, 상기 원하는 스코어는 미리 설정된 값인, 장치.
  46. 제43항에 있어서, 상기 원하는 스코어는 역학적으로 결정되는, 장치.
  47. 제43항에 있어서, 상기 머신 러닝 모델은 감독 대상 머신 러닝 모델인, 장치.
  48. 제47항에 있어서, 상기 감독 대상 머신 러닝 모델은 결정 트리 앙상블, 부스팅된 결정 트리 알고리즘, 익스트림 그래디언트 부스팅(XGBoost) 모델, 또는 랜덤 포레스트를 포함하는, 장치.
  49. 제47항에 있어서, 상기 감독 대상 머신 러닝 모델은 서포트 벡터 머신(SVM), 피드-포워드(feed-forward) 머신 러닝 모델, 순환 신경망(RNN), 합성곱 신경망(CNN), 그래프 신경망(GNN), 또는 트랜스포머 신경망을 포함하는, 장치.
  50. 제43항에 있어서, 상기 머신 러닝 모델은 유도 머신 러닝 모델인, 장치.
  51. 제43항에 있어서, 상기 머신 러닝 모델은 생성 머신 러닝 모델인, 장치.
  52. 제43항에 있어서, 상기 프로세서로 하여금:
    상기 제2 복수의 청사진 레코드에 대한 컴퓨터 단백질 모델링을 수행하여 조작된 폴리펩티드를 생성하게 하는, 코드를 포함하는, 장치.
  53. 제52항에 있어서, 상기 프로세서로 하여금:
    참조 표적 구조의 표현과의 정적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하게 하는, 코드를 포함하는, 장치.
  54. 제52항에 있어서, 상기 프로세서로 하여금:
    상기 참조 표적 구조의 표현 및 상기 조작된 폴리펩티드의 각각에 대한 분자 역학(MD) 시뮬레이션을 사용하여 참조 표적 구조의 표현과의 동적 구조 비교에 의해 상기 조작된 폴리펩티드를 필터링하게 하는, 코드를 포함하는, 장치.
  55. 제54항에 있어서, 상기 MD 시뮬레이션은 대칭 다중처리(SMP)를 사용하여 병렬로 수행되는, 장치.
  56. 제1항 내지 제21항 중 어느 한 항의 방법, 제22항 내지 제42항 중 어느 한 항의 매체, 또는 제43항 내지 제55항 중 어느 한 항의 장치에 의해 생성된 조작된 폴리펩티드.
  57. 조작된 펩티드로서, 상기 조작된 펩티드는 1 kDa 내지 10 kDa의 분자량을 가지고 최대 50개의 아미노산을 포함하고, 상기 조작된 펩티드는:
    공간적으로 연관된 위상 제약조건들의 조합을 포함하고, 여기서 상기 제약조건 중 하나 이상은 참조 표적-유래 제약조건이고; 및
    여기서 상기 조작된 펩티드의 아미노산의 10% 내지 98%가 상기 하나 이상의 참조 표적-유래 제약조건을 충족시키고,
    여기서 상기 하나 이상의 참조 표적-유래 제약조건을 충족시키는 아미노산은 상기 참조 표적과 8.0
    Figure pct00009
    미만의 골격 평균 제곱근 편차(RSMD) 구조적 상동성을 갖는, 조작된 펩티드.
  58. 제57항에 있어서, 상기 하나 이상의 참조 표적-유래 제약조건을 충족시키는 아미노산은 상기 참조 표적과 10% 내지 90%의 서열 상동성을 갖는, 조작된 펩티드.
  59. 제57항 또는 제58항에 있어서, 상기 조합은 적어도 2개의 참조 표적-유래 제약조건을 포함하는, 조작된 펩티드.
  60. 제57항 또는 제59항에 있어서, 상기 조합은 적어도 2개의 참조 표적-유래 제약조건을 포함하는, 조작된 펩티드.
  61. 제57항 내지 제60항 중 어느 한 항에 있어서, 상기 조합은 에너지 항 및 상기 참조 표적 구조의 표현으로부터 추출된 하나 이상의 구조적 제약조건을 사용하여 결정되는 구조-제약조건 일치 항을 포함하는, 조작된 펩티드.
  62. 제57항 내지 제61항 중 어느 한 항에 있어서, 상기 하나 이상의 비-참조 표적-유래 제약조건은 원하는 구조적 특징, 역학적 특징, 또는 이들의 임의의 조합을 설명하는, 조작된 펩티드.
  63. 제57항 내지 제62항 중 어느 한 항에 있어서, 상기 참조 표적은 생물학적 반응 또는 생물학적 기능과 연관된 하나 이상의 원자를 포함하고,
    여기서 생물학적 반응 또는 생물학적 기능과 연관된 조작된 펩티드 내의 하나 이상의 원자의 원자 요동은 생물학적 반응 또는 생물학적 기능과 연관된 참조 표적 내의 하나 이상의 원자의 원자 요동과 중첩되는, 조작된 펩티드.
  64. 제63항에 있어서, 상기 중첩은 0.25 초과의 평균 제곱근 내적(RMSIP)인, 조작된 펩티드.
  65. 제63항에 있어서, 상기 중첩은 0.75 초과의 평균 제곱근 내적(RMSIP)을 갖는, 조작된 펩티드.
  66. 조작된 펩티드를 선택하는 방법으로서,
    참조 표적의 하나 이상의 위상 특징을 식별하는 단계;
    각각의 위상 특징에 대해 공간적으로-연관된 제약조건을 설계해서 상기 참조 표적으로부터 유래된 공간적으로-연관된 위상 제약조건들의 조합을 생성하는 단계;
    후보 펩티드의 공간적으로-연관된 위상 특징을 상기 참조 표적으로부터 유래된 공간적으로-연관된 위상 제약조건들의 조합과 비교하는 단계; 및
    상기 참조 표적으로부터 유래된 공간적으로-연관된 위상 제약조건들의 조합과 중첩되는 공간적으로-연관된 위상 특징을 갖는 후보 펩티드를 선택해서 상기 조작된 펩티드를 생산하는 단계를 포함하는, 방법.
  67. 제66항에 있어서, 하나 이상의 제약조건은 잔기당 에너지 및 잔기당 원자 거리로부터 유래되는, 방법.
  68. 제66항 또는 제69항에 있어서, 하나 이상의 후보 펩티드의 특징은 컴퓨터 시뮬레이션에 의해 결정되는, 방법.
  69. 제68항에 있어서, 상기 컴퓨터 시뮬레이션은 분자 역학 시뮬레이션, 몬테 카를로(Monte Carlo) 시뮬레이션, 거친 입자(coarse-grained) 시뮬레이션, 가우시안 네트워크 모델(Gaussian network model), 머신 러닝(machine learning), 또는 이들의 임의의 조합을 포함하는, 방법.
  70. 제66항 내지 제69항 중 어느 한 항에 있어서, 상기 하나 이상의 참조 표적-유래 제약조건을 충족시키는 아미노산은 상기 참조 표적과 10% 내지 90%의 서열 상동성을 갖는, 방법.
  71. 제66항 내지 제70항 중 어느 한 항에 있어서, 상기 하나 이상의 비-참조 표적-유래 제약조건은 원하는 구조적 특징 및/또는 역학적 특징을 설명하는, 방법.
KR1020217043264A 2019-05-31 2020-05-13 메소 스케일 펩티드를 조작하기 위한 머신 러닝 기반 장치 및 이를 위한 방법 및 시스템 KR20220039659A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962855767P 2019-05-31 2019-05-31
US62/855,767 2019-05-31
PCT/US2020/032724 WO2020242766A1 (en) 2019-05-31 2020-05-13 Machine learning-based apparatus for engineering meso-scale peptides and methods and system for the same

Publications (1)

Publication Number Publication Date
KR20220039659A true KR20220039659A (ko) 2022-03-29

Family

ID=73553528

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020217043265A KR20220041784A (ko) 2019-05-31 2020-05-13 메소 스케일 조작된 펩티드 및 선택 방법
KR1020217043264A KR20220039659A (ko) 2019-05-31 2020-05-13 메소 스케일 펩티드를 조작하기 위한 머신 러닝 기반 장치 및 이를 위한 방법 및 시스템

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020217043265A KR20220041784A (ko) 2019-05-31 2020-05-13 메소 스케일 조작된 펩티드 및 선택 방법

Country Status (7)

Country Link
US (3) US11545238B2 (ko)
EP (2) EP3976083A4 (ko)
JP (2) JP2022535511A (ko)
KR (2) KR20220041784A (ko)
CN (2) CN114585918A (ko)
CA (2) CA3142339A1 (ko)
WO (2) WO2020242765A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024521100A (ja) * 2021-05-21 2024-05-28 ペプトーン, リミテッド ポリペプチド構造の時空間的決定
CN114065620B (zh) * 2021-11-11 2022-06-03 四川大学 基于像素图表征和cnn的可解释性分子动力学轨迹分析方法
WO2023215887A1 (en) * 2022-05-06 2023-11-09 Dyno Therapeutics, Inc. System and methods for predicting features of biological sequences
CN115512763B (zh) * 2022-09-06 2023-10-24 北京百度网讯科技有限公司 多肽序列的生成方法、多肽生成模型的训练方法和装置
CN115881220B (zh) * 2023-02-15 2023-06-06 北京深势科技有限公司 一种抗体结构预测的处理方法和装置
CN116913395B (zh) * 2023-09-13 2023-11-28 青岛虹竹生物科技有限公司 一种构建小分子肽数据库的数字化方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPP660698A0 (en) * 1998-10-21 1998-11-12 University Of Queensland, The A method of protein engineering
CA2377244A1 (en) * 1999-08-02 2001-02-08 Synt:Em S.A. Computational design methods for making molecular mimetics
WO2002064734A2 (en) * 2000-12-19 2002-08-22 Palatin Technologies, Inc. Identification of target-specific folding sites in peptides and proteins
EP1510959A3 (en) * 2001-08-10 2006-07-26 Xencor, Inc. Protein design automation for protein libraries
US20060020396A1 (en) * 2002-09-09 2006-01-26 Rene Gantier Rational directed protein evolution using two-dimensional rational mutagenesis scanning
US20070192033A1 (en) 2006-02-16 2007-08-16 Microsoft Corporation Molecular interaction predictors
US8050870B2 (en) 2007-01-12 2011-11-01 Microsoft Corporation Identifying associations using graphical models
US8374828B1 (en) * 2007-12-24 2013-02-12 The University Of North Carolina At Charlotte Computer implemented system for protein and drug target design utilizing quantified stability and flexibility relationships to control function
EP2640405A4 (en) * 2010-09-21 2015-04-15 Massachusetts Inst Technology TREATMENT AND / OR CHARACTERIZATION OF INFLUENZA; POLYPEPTIDES HA ADAPTED TO MAN
US20130090265A1 (en) * 2011-10-11 2013-04-11 Biolauncher Ltd. Systems and methods for generation of context-specific, molecular field-based amino acid substitution matrices
US10431325B2 (en) 2012-08-03 2019-10-01 Novartis Ag Methods to identify amino acid residues involved in macromolecular binding and uses therefor
WO2014082729A1 (en) * 2012-11-28 2014-06-05 Biontech Ag Individualized vaccines for cancer
CA2989383A1 (en) * 2014-07-07 2016-01-14 Yeda Research And Development Co. Ltd. Method of computational protein design
CN107708720A (zh) 2015-04-06 2018-02-16 苏伯多曼有限责任公司 含有从头结合结构域的多肽及其用途
US20180068054A1 (en) * 2016-09-06 2018-03-08 University Of Washington Hyperstable Constrained Peptides and Their Design
EP3568782A1 (en) 2017-01-13 2019-11-20 Massachusetts Institute Of Technology Machine learning based antibody design
WO2018201020A1 (en) * 2017-04-28 2018-11-01 University Of Washington Folded and protease-resistant polypeptides
WO2020102603A1 (en) * 2018-11-14 2020-05-22 Rubryc Therapeutics, Inc. Engineered cd25 polypeptides and uses thereof
EP3899954A4 (en) 2018-12-21 2022-09-14 BioNTech US Inc. METHODS AND SYSTEMS FOR PREDICTING HLA CLASS II SPECIFIC EPITOPES AND CHARACTERIZING CD4+ T CELLS

Also Published As

Publication number Publication date
CN114585918A (zh) 2022-06-03
JP2022535511A (ja) 2022-08-09
US20210166788A1 (en) 2021-06-03
WO2020242766A1 (en) 2020-12-03
JP2022535769A (ja) 2022-08-10
EP3976083A4 (en) 2023-07-12
CA3142227A1 (en) 2020-12-03
EP3977117A1 (en) 2022-04-06
KR20220041784A (ko) 2022-04-01
US20230095685A1 (en) 2023-03-30
CN114401734A (zh) 2022-04-26
EP3977117A4 (en) 2023-08-16
US11545238B2 (en) 2023-01-03
EP3976083A1 (en) 2022-04-06
CA3142339A1 (en) 2020-12-03
WO2020242765A1 (en) 2020-12-03
US20220081472A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
KR20220039659A (ko) 메소 스케일 펩티드를 조작하기 위한 머신 러닝 기반 장치 및 이를 위한 방법 및 시스템
Alshehri et al. Deep learning and knowledge-based methods for computer-aided molecular design—toward a unified approach: State-of-the-art and future directions
Jia et al. Caffe: Convolutional architecture for fast feature embedding
EP3168765A1 (en) Method and device for searching new material
JP2021514086A (ja) Mhcペプチド結合予測のためのgan−cnn
AU2020403134B2 (en) Generating protein sequences using machine learning techniques based on template protein sequences
Hu et al. DeepMHC: deep convolutional neural networks for high-performance peptide-MHC binding affinity prediction
CN112001488A (zh) 训练生成型对抗性网络
CN113762417B (zh) 基于深度迁移的对hla抗原呈递预测系统的增强方法
US20220130490A1 (en) Peptide-based vaccine generation
Marchisio et al. FasTrCaps: An integrated framework for fast yet accurate training of capsule networks
CA3206593A1 (en) Predicting protein amino acid sequences using generative models conditioned on protein structure embeddings
US20240096443A1 (en) Generalized Scaffolds for Polypeptide Display and Uses Thereof
KR102389175B1 (ko) 항원데이터예측장치 및 그 동작 방법
Zhang Designing High Binding Affinity Peptides for MHC Class I Using MAM: An In Silico Approach
Nallbani et al. Representation learning using graph autoencoders with residual connections
Singh et al. A Analysis of Artificial Neural Networks use in Predicting Secondary Structures
US20220319635A1 (en) Generating minority-class examples for training data
Bayat et al. Fast inverse mapping of face gans
Kaushik et al. Statistics of unrelated sequence properties to improve prediction of B-cell based linear epitopes
Briffoteaux et al. Hybrid Acquisition Processes in Surrogate-Based Optimization. Application to Covid-19 Contact Reduction
Pfaendner et al. ART-SM: Boosting Fragment-based Backmapping by Machine Learning
WO2024032909A1 (en) Methods and systems for cancer-enriched motif discovery from splicing variations in tumours
KR20240054581A (ko) 화학 재료 간 유사도를 반영한 레시피 물성 예측 방법 및 장치
CN117393047A (zh) 基于语言模型的抗病毒多肽序列设计方法