KR20220002978A - 합성 단백질 안정성을 증가시키기 위한 시스템 및 방법 - Google Patents

합성 단백질 안정성을 증가시키기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20220002978A
KR20220002978A KR1020217037656A KR20217037656A KR20220002978A KR 20220002978 A KR20220002978 A KR 20220002978A KR 1020217037656 A KR1020217037656 A KR 1020217037656A KR 20217037656 A KR20217037656 A KR 20217037656A KR 20220002978 A KR20220002978 A KR 20220002978A
Authority
KR
South Korea
Prior art keywords
protein
gly
thr
leu
amino acid
Prior art date
Application number
KR1020217037656A
Other languages
English (en)
Other versions
KR102642718B1 (ko
Inventor
앤드류 엘링턴
오스틴 콜
라그하브 슈로프
로스 테이어
Original Assignee
더 보드 오브 리젠츠 오브 더 유니버시티 오브 텍사스 시스템
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 보드 오브 리젠츠 오브 더 유니버시티 오브 텍사스 시스템 filed Critical 더 보드 오브 리젠츠 오브 더 유니버시티 오브 텍사스 시스템
Priority to KR1020247006380A priority Critical patent/KR20240033101A/ko
Publication of KR20220002978A publication Critical patent/KR20220002978A/ko
Application granted granted Critical
Publication of KR102642718B1 publication Critical patent/KR102642718B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/43504Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates
    • C07K14/43595Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from coelenteratae, e.g. medusae
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Toxicology (AREA)
  • Zoology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)

Abstract

신경망을 학습시켜 단백질의 특징을 개선하는 컴퓨터 구현 방법은, 데이터베이스로부터 아미노산 서열 세트를 수집하는 단계, 각각의 아미노산 서열을 접힌 단백질의 3차원 결정 구조로 컴파일링하는 단계, 3차원 결정 구조의 서브세트로 신경망을 학습시키는 단계, 표적 단백질에서 돌연변이시키기 위한 후보 잔기를 신경망으로 식별하는 단계, 돌연변이된 단백질을 생성하기 위해, 후보 잔기를 치환하기 위한 예측된 아미노산 잔기를 신경망으로 식별하는 단계를 포함하며, 여기에서 돌연변이된 단백질은 표적 단백질에 비해 특성의 개선을 나타낸다. 단백질의 특성을 개선하기 위한 시스템이 또한 기술된다. 시스템을 사용하여 생성된 개선된 청색 형광 단백질이 또한 기술된다.

Description

합성 단백질 안정성을 증가시키기 위한 시스템 및 방법
관련 출원
본 출원은 2019년 5월 2일에 출원된 "합성 단백질 안정성을 증가시키기 위한 시스템 및 방법(System and Method for Increasing Synthesized Protein Stability)"으로 명명된 미국 가출원 제62/841,906호의 이익 및 우선권을 주장하며, 그 전체는 본원에 참조로서 통합된다.
연방 후원 연구 또는 개발에 관한 진술
본 발명은 미국 국립보건원(National Institutes of Health)에서 수여한 지원(Grant) 번호 R43 NS105463, 및 미국 공군 과학연구국(Air Force Office of Scientific Research)에서 수여한 지원 번호 FA9550-14-1-0089에 따른 정부 지원으로 이루어졌다. 미국 정부는 본 발명에 대한 특정 권리를 갖는다.
단백질 공학은 기존 단백질에 새로운 기능을 부여하거나 비천연 환경에서 단백질을 더 오래 지속하게 하는 것을 목표로 하는 생명공학 및 생물의학에서의 혁신적인 접근법이다. 두 가지 방식의 공학에 영향을 미치는 설계 고려 사항은 단백질의 전반적인 안정성이다. 전자의 경우, 종종 열역학적 비용으로 합리적인 설계 또는 유도된 진화를 통해 단백질의 역할을 확장시키는 기능 획득 돌연변이가 도입된다. 대부분의 천연 단백질은 미미하게만 안정적이기 때문에, 선택되기 전에 안정성을 증가시키는 것이 단백질의 진화성을 촉진한다는 것으로 나타났으나, 단백질이 전개되는 지점까지 단백질을 불안정하게 하는 기능적 돌연변이를 놓칠 수 있다.
유용한 자연 발생 생물촉매로부터 산업적 용도까지 변환에 있어서의 높은 장벽은, 근본적으로 상이한 환경 조건, 온도, 및 용매에 대한 단백질의 적응이다. 단백질의 안정성을 증가시키는 것은 많은 이러한 장벽을 완화시켜 더 높은 수율 및 더 낮은 비용으로 많은 양의 발현을 가능하게 할 수 있다. 따라서, 안정화는 많은 단백질 조작 시도의 성공에 있어서 중요하다.
단백질을 조작하기 위한 수많은 방법이 존재하며, 모든 방법은 일반적으로 단백질 변이체가 얼마나 빠르고 정확하게 측정될 수 있는지, 그리고 단백질 변이체의 조경이 얼마나 효율적으로 샘플링될 수 있는지 간의 타협을 나타낸다. 돌연변이 유발성 중합효소 연쇄 반응(Polymerase Chain Reaction, PCR)과 같은 기술은 서열과 기능 간의 관계에 대한 최소한의 지식을 필요로 하지만, 단백질 변이체의 방대한 라이브러리를 분리하기 위해서는 고 처리량 스크린닝 또는 선택에 의존한다. 구조 데이터 및 연산 접근법은 검색 공간을 축소시키고, 부수적으로 하류 특성화의 양을 감소시키는 데 사용될 수 있다. 이들 도구는 원하는 특성을 측정하기 어려운 단백질, 특히 규모에 대해 점점 더욱 중요해진다. 그러나, 단백질 서열/구조/기능 관계에 대한 우리의 불완전한 이해로 인해, 단백질 조작을 위한 상이한 연산 도구는 종종 완전히 다르거나 심지어 충돌하는 해결책을 제공할 것이다. 이는 안정성 및 접힘과 같은 특성에 특히 그러하며, 이는 종종 전체 단백질 서열에 걸쳐 분포된 많은 작은 상호작용의 결과이다.
일반적으로, 연산 방법은 연산 집약적 접힘 시뮬레이션을 수행하여 단백질을 불안정하게 하는 잔기를 식별할 것이다. 이러한 시뮬레이션에 관련된 세부 수준은 다양하다. 일부는 분자 상호 작용을 설명하기 위해 양자 역학을 호출하는 데(MOE)까지 이르고, 다른 일부는 보다 거친 입자화 방법(Rosetta)을 사용한다. 제1 근사치에 대해, 거친 입자화 접근법은 단백질 구조에서 갭을 찾거나(RosettaVIP), 신속한 국소 자유 에너지 계산을 수행하거나(foldX), 진화적 이상치인 잔기를 발견함(PROSS)으로써 문제가 있는 잔기를 식별한다. 이어서, 소수성 패킹 또는 진화성 컨센서스로의 복귀에 의해 더 양호한 피팅 잔기가 제안된다. 그런 다음, 돌연변이체의 에너지 시뮬레이션을 통해 단백질의 안정성에 대한 이들 치환의 효과를 추정한다. 전체적으로, 이러한 프로세스(잔기 식별, 치환 제안, 재접힘 및 자유 에너지 계산)는 몇 시간에서 며칠까지 걸릴 수 있다.
머신 러닝은 특정 단백질 특징에 대한 사전 지식 또는 개별 구조적 특징의 수동 검사 및 할당에 대한 시간의 소모를 필요로 하지 않기 때문에 매력적인 대안이다. 최근, Torng 및 Altman(Torng 등, "3D deep convolutional neural networks for amino acid environment similarity analysis," BMC Bioinformatics, 18:302, 2017, 이는 참조로서 본원에 통합됨)은 주변 단백질 미세환경에 대해 주어진 아미노산의 동일성을 예측함으로써 3D 컨볼루션 신경망(3DCNN)을 단백질 구조 분석에 적용하는 일반적인 프레임워크를 기술하였다. 이러한 신경망은 야생형 서열에 대해 아미노산을 할당하는 데 있어서 42%의 예측 정확도를 달성하였고, 미리 할당된 구조 기반 특징을 식별하는 데 의존하는 다른 연산 방법을 능가하였다. 또한, 모델 단백질인 T4 리소자임에 대한 구조적 데이터가 주어졌을 때, 3D CNN은 일반적으로 돌연변이가 불안정한 것으로 알려진 위치에서 야생형 잔기를 예측하였고, 이러한 알려진 불안정화 돌연변이체의 구조가 주어질 경우 야생형 잔기에 대한 강한 선호도를 나타냈다.
단백질체가 접히는 기하학적 구조, 안정성, 촉매 작용, 및 결합 특이성과 같은 여러 가지의 관련이 없거나 심지어 상충하는 표현형을 동시에 나타내야 한다는 점을 고려할 때, 활성 부위로부터 먼 위치에서의 구조적 이상치인 아미노산은 접힘 및 안정성에 영향을 미칠 수 있지만, 기능에는 영향을 미치지 않을 수 있다는 것은 타당하다. 따라서, 당업계에는 상이한 아미노산에 대한 컨센서스 미세환경을 학습하고 구조적 컨센서스로부터 벗어나는 잔기를 식별하기 위해 전체 구조를 스캔하는 인공 지능을 활용하는 개선된 단백질 조작 기술에 대한 필요성이 존재한다. 낮은 확률의 야생형을 갖는 것으로 간주되는 이들 잔기는 불안정성의 유전자좌인 것으로 여겨지며, 이와 같이 돌연변이 유발 및 안정성 조작을 위한 양호한 후보이다. 본원에서 논의된 시스템 및 방법의 구현은 이러한 개선된 단백질 조작 기술을 제공한다.
일 양태에서, 신경망을 학습시켜 단백질의 특징을 개선하는 컴퓨터 구현 방법은, 데이터베이스로부터 아미노산 서열 세트를 수집하는 단계, 아미노산 세트에 대한 화학적 환경을 갖는 일련의 3차원 결정 구조를 컴파일링하는 단계, 화학적 환경을 복셀화된 매트릭스로 번역하는 단계, 복셀화된 매트릭스의 서브세트로 신경망을 학습시키는 단계, 표적 단백질에서 돌연변이시키기 위한 후보 잔기를 신경망으로 식별하는 단계, 돌연변이된 단백질을 생성하기 위해, 후보 잔기를 치환하기 위한 예측된 아미노산 잔기를 신경망으로 식별하는 단계를 포함하며, 여기에서 돌연변이된 단백질은 표적 단백질에 비해 특성의 개선을 나타낸다. 일 구현예에서, 방법은 수소 위치, 부분 전하, 베타 인자, 이차 구조, 방향족성, 전자 밀도, 극성 및 이들의 조합으로 이루어진 군으로부터 선택된 특징부의 공간적 배열을 3차원 결정 구조 중 적어도 하나에 추가하는 단계를 추가로 포함한다.
일 구현예에서, 방법은 아미노산 서열 세트를 조정하여 이들의 고유 빈도를 반영하는 단계를 추가로 포함한다. 일 구현예에서, 방법은 서열 내의 무작위 위치로부터 아미노산 서열 세트 내의 아미노산의 적어도 50%를 샘플링하는 단계를 추가로 포함한다. 일 구현예에서, 방법은 3차원 결정 구조 또는 복셀화된 매트릭스의 제2 서브세트로 제2 독립적인 신경망을 학습시키는 단계, 및 두 신경망 모두의 결과에 기초하여 후보 및 예측된 잔기를 식별하는 단계를 추가로 포함한다. 일 구현예에서, 특성은 안정성, 성숙도, 접힘, 또는 이들의 조합이다.
또 다른 양태에서, 단백질의 특성을 개선하기 위한 시스템은, 프로세서 및 그에 대한 명령어가 저장된 비일시적 컴퓨터 판독가능 매체를 포함하고, 이는 프로세서에 의해 실행될 때, 잔기의 서열을 포함하는 표적 단백질을 제공하는 단계, 아미노산을 둘러싸는 일련의 3차원 모델 및 각 3차원 모델에 대한 일련의 단백질 특성 값을 제공하는 단계, 각 3차원 모델에서의 다양한 지점에서 일련의 파라미터를 추정하는 단계, 3차원 모델, 파라미터, 및 단백질 특성 값을 사용하여 신경망을 학습시키는 단계, 표적 단백질에서 돌연변이시키기 위한 후보 잔기를 신경망으로 식별하는 단계, 후보 잔기를 치환하기 위한 예측된 아미노산 잔기를 신경망으로 식별하는 단계를 포함하는 단계들을 수행하며, 여기에서 돌연변이된 단백질은 표적 단백질에 비해 특성의 개선을 나타낸다.
일 구현예에서, 단백질 특성은 안정성이다. 일 구현예에서, 단계는 업데이트된 3차원 모델을 생성하기 위해 접힌 아미노산 서열의 적어도 하나의 아미노산 서열을 재컴파일링하는 단계를 포함한다. 일 구현예에서, 단계는 재컴파일링 전에 접힌 아미노산 서열의 적어도 하나의 아미노산 서열에 특징부의 공간적 배열을 추가하는 단계를 포함한다.
또 다른 양태에서, 본 발명은 다음으로부터 선택된 하나 이상의 잔기에서 하나 이상의 돌연변이를 갖는 secBFP2 변이체를 포함하는 단백질에 관한 것이다: 전장 야생형 secBFP2와 관련하여, T18, S28, Y96, S114, V124, T127, D151, N173, 및 R198. 일 구현예에서, 단백질은 서열번호 2 내지 서열번호 28 중 하나의 아미노산 서열을 포함하는 secBFP2 변이체를 포함한다. 일 구현예에서, secBFP2 변이체는 서열번호 2 내지 서열번호 28 중 하나의 아미노산 서열의 변이체를 포함한다. 일 구현예에서, secBFP2 변이체는 서열번호 2 내지 서열번호 28 중 하나의 아미노산 서열을 포함하는 융합 단백질을 포함한다. 일 구현예에서, BFP는 서열번호 2 내지 서열번호 28 중 하나의 아미노산 서열의 단편을 포함한다.
또 다른 양태에서, 본 발명은 secBFP2 변이체를 포함하는 단백질을 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자에 관한 것이다. 일 구현예에서, 뉴클레오티드 서열은 서열번호 2 내지 서열번호 28에 제시된 것과 같은 아미노산 서열, 이의 변이체, 이의 융합 단백질 또는 이의 단편을 암호화한다. 일 구현예에서, 분자는 플라스미드이다. 일 구현예에서, 분자는 발현 벡터이다. 일 구현예에서, 핵산 분자는 이종 단백질 암호화 서열의 삽입을 위한 다중 클로닝 부위를 추가로 포함한다. 또 다른 양태에서, 본 발명은 전술한 바와 같은 단백질을 포함하는 조성물, 전술한 바와 같은 핵산 분자를 포함하는 조성물, 전술한 바와 같은 단백질 또는 전술한 바와 같은 핵산 분자를 포함하는 키트를 포함한다.
특허 또는 출원 파일은 컬러로 작성된 적어도 하나의 도면을 포함한다. 본 특허 또는 컬러 도면(들)이 있는 특허 출원 공개문헌의 사본은 요청 시 및 필요한 수수료의 지불 시 사무국에 의해 제공될 것이다.
전술한 목적 및 특징뿐만 아니라 다른 목적 및 특징들은, 본 발명의 이해를 제공하고 본 명세서의 일부를 구성하기 위해 포함되는 아래의 설명 및 첨부 도면을 참조하여 명백해질 것이며, 여기에서 유사한 번호는 유사한 요소를 나타내며, 여기에서:
도 1a는 합성된 단백질 특성을 증가시키기 위한 컴퓨터 구현 신경망의 구현의 다이어그램이고;
도 1b는 미세환경의 중심에서 아미노산 잔기를 결정하기 위한 방법의 구현의 흐름도이고;
도 1c는 시험 중 합성된 단백질 특성을 증가시키기 위한 방법의 구현의 흐름도이고;
도 1d는 학습 중 합성된 단백질 특성을 증가시키기 위한 신경망의 구현의 블록 다이어그램이고;
도 1e는 합성된 단백질 특성을 증가시키기 위한 컨볼루션 신경망의 구현의 블록 다이어그램이고;
도 2a는 합성된 단백질 특성을 증가시키기 위한 방법 및 시스템의 구현의 실험 결과의 그래프이고;
도 2b는 합성된 단백질 특성을 증가시키기 위한 방법 및 시스템의 구현의 실험 결과의 또 다른 그래프이고;
도 3a는 합성된 단백질 특성을 증가시키기 위한 방법 및 시스템의 구현의 실험 결과의 또 다른 그래프이고;
도 3b는 합성된 단백질 특성을 증가시키기 위한 시스템의 구현에 의해 제안된 변형을 사용하여 합성된 단백질의 사진이고;
도 4a는 합성된 단백질 특성을 증가시키기 위한 방법 및 시스템의 구현의 실험 결과의 또 다른 그래프이고;
도 4b는 합성된 단백질 특성을 증가시키기 위한 시스템의 구현에 의해 제안된 제안된 단백질 변형의 다이어그램이고;
도 5는 합성된 단백질 특성을 증가시키기 위한 시스템의 구현의 실험 결과의 일련의 사진이고;
도 6 및 도 7은 합성된 단백질 특성을 증가시키기 위한 시스템의 구현의 실험 결과의 그래프이고;
도 8은 야생형 단백질에 대한 17개의 청색 형광 단백질 변이체의 형광의 배수 변화를 나타내는 그래프이고;
도 9는 야생형 단백질에 대한 청색 형광 단백질 변이체의 형광의 배수 변화를 나타내는 그래프이고;
도 10은 모 단백질 및 다른 청색 형광 단백질과 비교하여, S28A, S114T, N173H 및 T127L 돌연변이를 포함하는 청색 형광 단백질 변이체 "블루본넷(bluebonnet)"의 형광의 예시적인 이미지를 제공하고;
도 11a 및 도 11b는 합성된 단백질 특성을 증가시키기 위한 시스템의 구현을 도시하는 블록 다이어그램이다.
본 발명의 도면 및 설명은, 명확성을 위해, 관련 시스템 및 방법에서 발견되는 많은 다른 요소들을 생략하며, 본 발명의 명확한 이해와 관련된 요소들을 설명하기 위해 단순화되었음을 이해해야 한다. 당업자는 다른 요소 및/또는 단계가 본 발명을 구현하는 데 바람직하고/바람직하거나 요구된다는 것을 인식할 수 있다. 그러나, 이러한 요소 및 단계는 당업계에 공지되어 있고, 이들이 본 발명의 더 나은 이해를 용이하게 하지 않기 때문에, 이러한 요소 및 단계에 대한 논의는 본원에서 제공되지 않는다. 본원의 개시는 당업자에게 공지된 이러한 요소 및 방법에 대한 모든 이러한 변형 및 변환에 관한 것이다.
달리 정의되지 않는 한, 본원에서 사용되는 모든 기술적 및 과학적 용어는 본 발명이 속하는 기술분야의 통상의 기술을 가진 자에 의해 통상적으로 이해되는 것과 동일한 의미를 갖는다. 본원에 기술된 것과 유사하거나 동등한 임의의 방법 및 물질이 본 발명의 실시 또는 시험에 사용될 수 있지만, 예시적인 방법 및 물질이 기술된다.
본원에서 사용되는 바와 같이, 다음의 용어 각각은 본 섹션에서 다음과 같은 관련된 의미를 갖는다.
관사 "하나" 및 "한"은 관사의 문법적 물체의 하나 또는 하나 이상(즉, 적어도 하나)을 지칭하기 위해 본원에서 사용된다. 예로서, "하나의 요소"는 하나 이상의 요소를 의미한다.
양, 시간 지속 시간 등과 같은 측정 가능한 값을 지칭할 때 본원에서 사용되는 "약"은, 특정 값으로부터 ±20%, ±10%, ±5%, ±1%, 및 ±0.1%의 변동을 포함하는 것을 의미하며, 이러한 변동은 적절하다.
용어 "핵산 분자" 또는 "폴리뉴클레오티드"는 단일-가닥 또는 이중-가닥 형태의 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 중합체를 지칭하며, 달리 명시되지 않는 한, 자연 발생 뉴클레오티드와 유사한 방식으로 기능할 수 있는 자연 발생 뉴클레오티드의 알려진 유사체를 함유하는 폴리뉴클레오티드를 포함한다. 핵산 분자가 DNA 서열로 표시되는 경우, 이는 또한 "U"(우리딘)가 "T"(티미딘)를 치환하는 상응하는 RNA 서열을 갖는 RNA 분자를 포함한다는 것을 이해할 것이다.
용어 "재조합 핵산 분자"는 2개 이상의 연결된 폴리뉴클레오티드 서열을 함유하는 비-자연 발생 핵산 분자를 지칭한다. 재조합 핵산 분자는 재조합 방법, 특히 유전자 조작 기술에 의해 생산될 수 있거나, 화학적 합성 방법에 의해 생산될 수 있다. 재조합 핵산 분자는 융합 단백질, 예를 들어, 관심 폴리펩티드에 연결된, 본원에서 논의된 시스템 및 방법에 의해 제안된 형광 단백질 변이체를 암호화할 수 있다. 용어 "재조합 숙주 세포"는 재조합 핵산 분자를 함유하는 세포를 지칭한다. 이와 같이, 재조합 숙주 세포는 세포의 천연(비재조합) 형태 내에서 발견되지 않은 "유전자"로부터 폴리펩티드를 발현할 수 있다.
폴리펩티드를 "암호화"하는 폴리뉴클레오티드에 대한 의미는, 폴리뉴클레오티드의 전사 및 이로부터 생산된 mRNA의 번역 시, 폴리펩티드가 생성된다는 것을 의미한다. 암호화 폴리뉴클레오티드는, 그의 뉴클레오티드 서열이 mRNA와 동일한 코딩 가닥뿐만 아니라 그의 상보적 가닥을 포함하는 것으로 간주된다. 이러한 암호화 폴리뉴클레오티드는 동일한 아미노산 잔기를 암호화하는 축퇴 뉴클레오티드 서열을 포함하는 것으로 간주된다는 것이 인식될 것이다. 폴리펩티드를 암호화하는 뉴클레오티드 서열은 인트론뿐만 아니라 암호화 엑손을 함유하는 폴리뉴클레오티드를 포함할 수 있다.
용어 "발현 조절 서열"은 폴리뉴클레오티드의 전사 또는 번역 또는 폴리뉴클레오티드가 작동 가능하게 연결된 폴리펩티드의 국소화를 조절하는 뉴클레오티드 서열을 지칭한다. 발현 조절 서열은, 발현 조절 서열이 뉴클레오티드 서열의 전사 및 적절한 경우, 번역(즉, 각각, 전사 또는 번역 조절 요소) 또는 암호화된 폴리펩티드의 세포의 특정 구획으로의 국소화를 제어하거나 조절할 경우 "작동 가능하게 연결"된다. 따라서, 발현 조절 서열은 프로모터, 인핸서, 전사 종결자, 시작 코돈(ATG), 인트론 절제 및 정확한 판독 프레임의 유지를 위한 스플라이싱 신호, 정지 코돈, 리보솜 결합 부위, 또는 폴리펩티드를 특정 위치로 표적화하는 서열을 포함하되, 예를 들어, 세포 구획화 신호, 상기 세포액에 폴리펩티드를 표적화할 수 있고, 핵, 플라즈마 멤브레인, 소포체, 미토콘드리아 막 또는 매트릭스, 엽록체 막 또는 내강, 중앙 트랜스-골지 시스테르나에, 또는 리소좀 또는 엔도솜. 세포 구획화 도메인은, 예를 들어, 인간 II형 막-고정 단백질 갈락토실트랜스퍼라아제의 아미노산 잔기 1 내지 81, 또는 시토크롬 c 옥시다아제의 서브유닛 IV의 전서열의 아미노산 잔기 1 내지 12를 함유하는 펩티드를 포함한다(또한, Hancock 등, EMBO J. 10:4033-4039, 1991; Buss 등, Mol. Cell. Biol. 8:3960-3963, 1988; 미국 특허 제5,776,689호를 참조하며, 이들 각각은 본원에 참조로서 통합됨).
용어 "작동 가능하게 연결된" 또는 "작동하게 연결된" 또는 "작동 가능하게 결합된" 등은 키메라 단백질을 설명하는 데 사용될 경우, 서로 물리적 및 기능적 관계로 배치되는 폴리펩티드 서열을 지칭한다. 가장 바람직한 구현예에서, 키메라 분자의 폴리펩티드 성분의 기능은 단리된 부분의 기능적 활성과 비교하여 변하지 않는다. 예를 들어, 본원에서 논의된 시스템 및 방법에 의해 제안된 형광 단백질은 관심 폴리펩티드에 융합될 수 있다. 이러한 경우, 융합 분자는 그의 형광을 유지하고, 관심 폴리펩티드는 그의 본래의 생물학적 활성을 보유하는 것이 바람직하다. 본원에서 논의된 시스템 및 방법의 일부 구현예에서, 형광 단백질 또는 관심 단백질의 활성은 이들의 단리된 활성에 비해 감소될 수 있다. 이러한 융합은 또한 본원에서 논의된 시스템 및 방법에 대한 용도를 찾을 수 있다.
용어 "라벨"은, 예를 들어, 육안 검사, 분광법, 또는 광화학적, 생화학적, 면역화학적 또는 화학 반응에 의해, 기기화 여부에 상관없이 검출 가능한 조성물을 지칭한다. 유용한 라벨은, 예를 들어, 인-32, 형광 염료, 형광 단백질, 전자 밀도 시약, 효소(예컨대, ELISA에 일반적으로 사용됨), 비오틴, 디곡시게닌, 또는 다른 합텐, 또는 항혈청이거나 항체로서 단클론 항체일 수 있는 펩티드와 같은 소분자를 포함한다. 검출 가능한 단백질인, 본원에서 논의된 시스템 및 방법의 구현에 의해 제안된 형광 단백질 변이체는, 그럼에도 불구하고, 예를 들어 발현된 단백질의 발현 및 단리 중에 단백질이 각각 식별되는 것을 용이하게 하기 위해, 예를 들어 방사성 핵종 라벨 또는 펩티드 태그를 단백질에 혼입함으로써, 그 자체의 형광 이외의 수단에 의해 검출 가능하도록 레벨링될 수 있다는 것이 인식될 것이다. 본원에서 논의된 시스템 및 방법의 구현의 목적에 유용한 라벨은 일반적으로 방사성 신호, 형광 광, 효소 활성 등과 같은 측정 가능한 신호를 생성하며, 이들 중 어느 하나는 예를 들어 샘플 내의 형광 단백질 변이체의 양을 정량화하는 데 사용될 수 있다.
용어 "폴리펩티드" 또는 "단백질"은 둘 이상의 아미노산 잔기의 중합체를 지칭한다. 전술한 용어는 하나 이상의 아미노산 잔기가 상응하는 자연 발생 아미노산의 인공 화학 유사체인 아미노산 중합체뿐만 아니라 자연 발생 아미노산 중합체에도 적용된다. 용어 "재조합 단백질"은 재조합 DNA 분자로부터 단백질의 아미노산 서열을 암호화하는 뉴클레오티드 서열의 발현에 의해 생성되는 단백질을 지칭한다.
용어 "단리된" 또는 "정제된"은 자연 상태에서 천연 상태의 물질에 일반적으로 수반하는 성분이 실질적으로 또는 본질적으로 없는 물질을 지칭한다. 순도 또는 균질성은 일반적으로 폴리아크릴아미드 겔 전기영동, 고성능 액상 크로마토그래피 등과 같은 분석 화학 기술을 사용하여 결정된다. 폴리뉴클레오티드 또는 폴리펩티드가 제조 중에 존재하는 주된 종인 경우, 폴리뉴클레오티드 또는 폴리펩티드는 단리되는 것으로 간주된다. 일반적으로, 단리된 단백질 또는 핵산 분자는 제제에 존재하는 거대분자 종의 80%를 초과하는 것을 나타내며, 종종 존재하는 모든 거대분자 종의 90%를 초과하는 것을 나타내고, 통상적으로 거대분자 종의 95%를 초과하는 것을 나타내며, 특히, 이러한 분자의 순도를 결정하기 위한 종래의 방법을 사용하여 조사할 경우 유일한 종이 검출되도록 필수 균질성으로 정제된 폴리펩티드 또는 폴리뉴클레오티드이다.
용어 "자연적으로 발생하는"은 자연에서 발생하는 단백질, 핵산 분자, 세포, 또는 다른 물질을 지칭하기 위해 사용된다. 예를 들어, 바이러스를 포함하는 유기체에 존재하는 폴리펩티드 또는 폴리뉴클레오티드 서열. 자연적으로 발생하는 물질은 자연에서 존재하는 형태일 수 있고, 예를 들어 단리된 형태가 되도록 사람의 손에 의해 변형될 수 있다.
용어 "항체"는 분석물(항원)에 특이적으로 결합하고 이를 인식하는, 면역글로불린 유전자 또는 면역글로불린 유전자들, 또는 이의 항원 결합 단편에 의해 실질적으로 암호화된 폴리펩티드를 지칭한다. 인식된 면역글로불린 유전자는 카파, 람다, 알파, 감마, 델타, 엡실론 및 뮤 불변 영역 유전자뿐만 아니라 무수한 면역글로불린 가변 영역 유전자를 포함한다. 항체는 온전한 면역글로불린으로서 존재할 뿐만 아니라, 펩티다아제에 의한 소화에 의해 생성될 수 있거나, 재조합 DNA 방법을 사용할 수 있는 항체의 특징적인 항원 결합 단편으로서 존재한다. 항체의 이러한 항원 결합 단편은, 예를 들어, Fv, Fab' 및 F(ab)' 단편을 포함한다. 본원에서 사용되는 용어 "항체"는 전체 항체의 변형에 의해 생성된 항체 단편 또는 재조합 DNA 방법론을 사용하여 합성된 항체 단편을 포함한다. 용어 "면역분석"은 분석물에 특이적으로 결합하기 위해 항체를 이용하는 분석을 지칭한다. 면역분석은 분석물을 단리, 표적화 및/또는 정량화하기 위해 특정 항체의 특이적 결합 특성을 사용하는 것을 특징으로 한다.
용어 "동일한"은 2개 이상의 폴리뉴클레오티드 서열 또는 2개 이상의 폴리펩티드 서열을 참조하여 사용될 경우, 최대 상응성에 대해 정렬될 때 동일한 서열 내의 잔기를 지칭한다. 서열 동일성의 백분율이 폴리펩티드를 참조하여 사용될 경우, 달리 동일하지 않은 하나 이상의 잔기 위치는 보존적 아미노산 치환에 의해 상이할 수 있으며, 여기에서 제1 아미노산 잔기는 유사한 전하 또는 소수성 또는 친수성 특성과 같은 유사한 화학적 특성을 갖는 다른 아미노산 잔기로 치환되므로, 폴리펩티드의 기능적 특성은 변하지 않는다는 것으로 인식된다. 폴리펩티드 서열이 보존적 치환에서 상이한 경우, 서열 동일성 백분율은 치환의 보존적 성질에 대한 보정을 위해 상향 조정될 수 있다. 이러한 조정은, 예를 들어, 보존적 치환을 전체 불일치보다는 부분적 불일치로서 스코어링함으로써, 서열 동일성 백분율을 증가시킴으로써 이루어질 수 있다. 따라서, 예를 들어, 동일한 아미노산이 1의 점수로 주어지고 비보존적 치환이 0의 점수로 주어지는 경우, 보존적 치환은 0과 1 사이의 점수로 주어진다. 보존적 치환의 점수 부여는, 예를 들어, Meyers 및 Miller, Comp. Appl. Biol. Sci. 4:11-17, 1988; Smith 및 Waterman, Adv. Appl. Math. 2:482, 1981; Needleman 및 Wunsch, J. Mol. Biol. 48:443, 1970; Pearson 및 Lipman, Proc. Natl. Acad. Sci., USA 85:2444 (1988); Higgins 및 Sharp, Gene 73:237-244, 1988; Higgins 및 Sharp, CABIOS 5:151-153; 1989; Corpet 등, Nucl. Acids Res. 16:10881-10890, 1988; Huang 등, Comp. Appl. Biol. Sci. 8:155-165, 1992; Pearson 등, Meth. Mol. Biol., 24:307-331, 1994에서 논의된 알고리즘을 사용하여 계산할 수 있으며, 이들 각각은 본원에 참조로서 통합된다. 정렬은 또한 간단한 육안 검사 및 서열의 수동 정렬에 의해 수행될 수 있다.
용어 "보존적으로 변형된 변이"는 특정 폴리뉴클레오티드 서열과 관련하여 사용될 경우, 동일하거나 본질적으로 동일한 아미노산 서열을 암호화하는 상이한 폴리뉴클레오티드 서열을 지칭하거나, 폴리뉴클레오티드가 아미노산 서열을 암호화하지 않는 경우, 본질적으로 동일한 서열을 지칭한다. 유전자 코드의 축퇴로 인해, 다수의 기능적으로 동일한 폴리뉴클레오티드가 임의의 주어진 폴리펩티드를 암호화한다. 예를 들어, 코돈 CGU, CGC, CGA, CGG, AGA, 및 AGG 모두는 아미노산 아르기닌을 암호화한다. 따라서, 아르기닌이 코돈에 의해 특정되는 모든 위치에서, 코돈은 암호화된 폴리펩티드를 변경시키지 않고 기술된 상응하는 코돈 중 어느 하나로 변경될 수 있다. 이러한 뉴클레오티드 서열 변이는 "침묵 변이"이며, 이는 "보존적으로 변형된 변이"의 종으로 간주될 수 있다. 이와 같이, 형광 단백질 변이체를 암호화하는 것으로서 본원에 개시된 각각의 폴리뉴클레오티드 서열은 또한 모든 가능한 침묵 변이를 기술한다는 것을 인식할 것이다. 또한, 일반적으로 메티오닌에 대한 유일한 코돈인 AUG, 및 일반적으로 트립토판에 대한 유일한 코돈인 UUG를 제외한, 폴리뉴클레오티드 중의 각각의 코돈은 표준 기술에 의해 기능적으로 동일한 분자를 생성하도록 변형될 수 있음을 인식할 것이다. 따라서, 암호화된 폴리펩티드의 서열을 변화시키지 않는 폴리뉴클레오티드의 각각의 침묵 변이는 본원에서 암시적으로 기술된다. 또한, 암호화된 서열에서의 단일 아미노산 또는 작은 백분율의 아미노산(통상적으로 5% 미만, 및 일반적으로 1% 미만)을 변경, 첨가 또는 결실시키는 개별 치환, 결실 또는 첨가는, 변형으로 인해 아미노산이 화학적으로 유사한 아미노산으로 치환된다면, 보존적으로 변형된 변이로 간주될 수 있다는 것을 인식할 것이다. 기능적으로 유사한 아미노산을 제공하는 보존적 아미노산 치환은 다음의 6개의 기를 포함할 수 있으며, 이들 각각은 서로에 대한 보존적 치환으로 간주되는 아미노산을 함유한다:
1) 알라닌(Ala, A), 세린(Ser, S), 트레오닌(Thr, T);
2) 아스파르트산(Asp, D), 글루탐산(Glu, E);
3) 아스파라긴(Asn, N), 글루타민(Gln, Q);
4) 아르기닌(Arg, R), 리신(Lys, K);
5) 이소류신(Ile, I), 류신(Leu, L), 메티오닌(Met, M), 발린(Val, V); 및
6) 페닐알라닌(Phe, F), 티로신(Tyr, Y), 트립토판(Trp, W).
2개 이상의 아미노산 서열 또는 2개 이상의 뉴클레오티드 서열은, 아미노산 서열 또는 뉴클레오티드 서열이 서로에 대해, 또는 주어진 비교 윈도우에 대해 기준 서열과 적어도 80%의 서열 동일성을 공유할 경우, "실질적으로 동일하거나" "실질적으로 유사한" 것으로 간주된다. 따라서, 실질적으로 유사한 서열은, 예를 들어, 적어도 85%의 서열 동일성, 적어도 90%의 서열 동일성, 적어도 95%의 서열 동일성, 또는 적어도 99%의 서열 동일성을 갖는 서열을 포함한다.
대상 뉴클레오티드 서열의 보체가 기준 뉴클레오티드 서열과 실질적으로 동일한 경우, 대상 뉴클레오티드 서열은 기준 뉴클레오티드 서열에 대해 "실질적으로 상보적인" 것으로 간주된다.
형광 분자는 공여자 분자 및 수용자 분자와 관계되는 형광 공명 에너지 전달, FRET에 유용하다. 공여자와 수용자 분자 간의 FRET의 효율 및 검출 가능성을 최적화하기 위해, 몇몇 인자가 균형을 이룰 필요가 있다. 공여자의 방출 스펙트럼은 중첩 적분을 최대화하기 위해 수용자의 여기 스펙트럼과 가능한 한 많이 중첩되어야 한다. 또한, 공여자 모이어티의 양자 수율 및 수용자의 소광 계수는 에너지 전달 효율이 50%인 거리를 나타내는 RO를 최대화하기 위해 가능한 한 높아야 한다. 그러나, 수용자의 직접 여기로부터 발생하는 형광은 FRET로부터 발생하는 형광과 구별하기 어려울 수 있기 때문에, 공여자 및 수용자의 여기 스펙트럼은 공여자가 수용자를 직접적으로 여기시키지 않고도 효율적으로 여기될 수 있는 파장 영역을 찾을 수 있도록, 가능한 한 적게 중첩되어야 한다. 유사하게, 공여자와 수용자의 방출 스펙트럼은 두 방출이 명확하게 구별될 수 있도록 가능한 한 적게 중첩되어야 한다. 수용자로부터의 방출이 단독 판독으로서 또는 방출 비율의 일부로서 측정되어야 하는 경우, 수용자 모이어티의 높은 형광 양자 수율이 바람직하다. 공여자 및 수용자 쌍을 선택할 때 고려해야 할 하나의 인자는 이들 사이의 형광 공명 에너지 전달의 효율이다. 바람직하게는, 공여자와 수용자 사이의 FRET의 효율은 적어도 10%, 보다 바람직하게는 적어도 50%, 보다 더 바람직하게는 적어도 80%이다.
용어 "형광 특성"은 적절한 여기 파장에서의 몰 흡광 계수, 형광 양자 효율, 여기 스펙트럼 또는 방출 스펙트럼의 형상, 여기 파장 최대 및 방출 파장 최대, 2개의 상이한 파장에서의 여기 진폭의 비율, 2개의 상이한 파장에서의 방출 진폭의 비율, 여기 상태 수명, 또는 형광 비등방성이다. 야생형 또는 부모 형광 단백질과 스펙트럼 변이체 또는 이의 돌연변이체 간의 이들 특성 중 임의의 하나의 측정 가능한 차이가 유용하다. 측정 가능한 차이는 임의의 정량적 형광 성질의 양, 예를 들어 특정 파장에서의 형광의 양, 또는 방출 스펙트럼에 걸친 형광의 적분에 의해 결정될 수 있다. 2개의 상이한 파장에서 여기 진폭 또는 방출 진폭의 비율(각각 "여기 진폭 비율" 및 "방출 진폭 비율")을 결정하는 것은 특히 유리하며, 그 이유는 비례 프로세스가 내부 기준을 제공하고, 여기 소스의 절대 밝기, 검출기의 감도, 및 샘플에 의한 광 산란 또는 ??칭의 변화를 상쇄하기 때문이다.
본원에서 사용되는 용어 "형광 단백질"은 적절한 전자기 방사선으로 여기될 경우 형광을 낼 수 있는 임의의 단백질을 지칭하되, 형광이 화학적 태그로 인한 것인 화학적으로 태그된 단백질은 제외되고, 자외선 파장(즉, 약 400 nm 미만)에서의 발출 피크를 갖는 트립토판 또는 티로신과 같은 특정 아미노산의 존재로 인해서만 형광을 발하는 폴리펩티드는 본원에서 논의된 시스템 및 방법의 구현을 위한 형광 단백질로 간주되지 않는다. 일반적으로, 본원에서 논의된 시스템의 구현예의 조성물을 제조하는 데 유용하거나 본원에서 논의된 방법의 구현예에서 사용하기에 유용한 형광 단백질은 발색단을 자가촉매적으로 형성함으로써 그의 형광을 유도하는 단백질이다. 형광 단백질은 자연적으로 발생되거나 조작된(즉, 변이체 또는 돌연변이체) 아미노산 서열을 함유할 수 있다. 형광 단백질이 언급되어 사용될 경우, 용어 "돌연변이체" 또는 "변이체"는 기준 단백질과 상이한 단백질을 지칭한다.
용어 "청색 형광 단백질"은 청색광을 형광하는 단백질을 지칭하기 위해 본원에서 광범위하게 사용된다. 용어 "청색 형광 단백질" 또는 "BFP"는 가장 넓은 의미로 사용되며, 구체적으로 임의의 종으로부터의 mTagBFP, secBFP2, 및 청색 형광 단백질뿐만 아니라 청색광을 형광하는 능력을 보유하는 한, 이들의 변이체 또한 포함한다.
용어 "돌연변이체" 또는 "변이체"는 상응하는 야생형 또는 부모 형광 단백질에 대한 돌연변이를 함유하는 형광 단백질을 참조하여 본원에서 사용된다. 또한, 상응하는 야생형 형광 단백질에 대하여 상이한 형광 특성을 갖는 돌연변이체 형광 단백질을 나타내기 위한 형광 단백질의 "스펙트럼 변이체" 또는 "스펙트럼 돌연변이체"를 본원에서 참조한다.
본 개시 전체에 걸쳐, 본원에서 논의된 시스템 및 방법의 구현의 다양한 양태는 범위 형식으로 제시될 수 있다. 범위 형식에서의 설명은 단지 편의성와 간결성을 위한 것이며, 본 발명의 범위에 대한 융통성 없는 제한으로서 해석되어서는 안 된다는 것을 이해해야 한다. 따라서, 범위의 설명은 가능한 모든 하위범위뿐만 아니라 그 범위 내의 개별 수치 값을 구체적으로 개시한 것으로 간주되어야 한다. 예를 들어, 1 내지 6과 같은 범위의 설명은 구체적으로 개시된 하위범위, 예컨대 1 내지 3, 1 내지 4, 1 내지 5, 2 내지 4, 2 내지 6, 3 내지 6 등과 같은 하위범위뿐만 아니라, 그 범위 내의 개별 숫자, 예를 들어, 1, 2, 2.7, 3, 4, 5, 5.3, 6 및 이들 사이의 임의의 전체 및 부분 증분을 갖는 것으로 간주되어야 한다. 이는 범위의 폭에 관계없이 적용된다.
본원에서 논의된 시스템 및 방법의 일부 양태에서, 본원에 제공된 명령어를 실행하는 소프트웨어는 비일시적 컴퓨터 판독가능 매체 상에 저장될 수 있으며, 여기에서 소프트웨어는 프로세서 상에서 실행될 경우 본원에서 논의된 방법의 구현 단계 중 일부 또는 전부를 수행한다.
본원에서 논의된 시스템 및 방법의 양태는 컴퓨터 소프트웨어에서 실행되는 알고리즘에 관한 것이다. 특정 구현예가 특정 프로그래밍 언어에서 작성된 것으로 설명되거나 특정 운영 체제 또는 컴퓨팅 플랫폼에서 실행될 수 있지만, 본원에서 논의된 시스템 및 방법의 구현은 임의의 특정 컴퓨팅 언어, 플랫폼, 또는 이들의 조합에 한정되지 않는 것으로 이해된다. 본원에 기술된 알고리즘을 실행하는 소프트웨어는 C, C++, C#, Objective-C, Java, JavaScript, Python, PHP, Perl, Ruby, 또는 Visual Basic을 포함하지만 이에 한정되지 않는 임의의 프로그래밍 언어로 작성되고, 컴파일링되거나 해석될 수 있다. 또한, 본원에서 논의된 시스템 및 방법의 요소는 서버, 클라우드 인스턴스, 워크스테이션, 씬 클라이언트, 모바일 장치, 내장된 마이크로컨트롤러, 텔레비전, 또는 임의의 다른 적절한 컴퓨팅 장치를 포함하지만 이에 한정되지 않는 임의의 허용 가능한 컴퓨팅 플랫폼에서 실행될 수 있음을 이해할 것이다.
본원에서 논의된 시스템의 구현예의 일부는 컴퓨팅 장치에서 실행되는 소프트웨어로서 기술된다. 본원에서 기술된 소프트웨어는 하나의 특정 컴퓨팅 장치(예를 들어, 전용 서버 또는 워크스테이션)에서 작동하는 것으로서 개시될 수 있고, 소프트웨어는 본질적으로 휴대용일 수 있고, 전용 서버에서 실행되는 소프트웨어는, 데스크탑 또는 모바일 장치, 랩톱, 태블릿, 스마트폰, 시계, 웨어러블 전자 장치 또는 다른 무선 디지털/셀룰러 폰, 텔레비전, 클라우드 인스턴스, 내장형 마이크로컨트롤러, 씬 클라이언트 장치, 또는 임의의 다른 적절한 컴퓨팅 장치 포함하는 광범위한 장치 중 어느 하나에서 본원에서 논의된 시스템 및 방법의 구현을 목적으로 실행될 수도 있다.
유사하게, 본원에서 논의된 시스템의 구현예의 일부는 다양한 무선 또는 유선 컴퓨터 네트워크를 통해 통신하는 것으로 설명된다. 본원에서 논의된 시스템 및 방법의 구현을 위해, 용어 "네트워크", "네트워크된" 및 "네트워크화"는 유선 이더넷, 광섬유 연결, 다양한 802.11 표준 중 어느 하나를 포함하는 무선 연결, 3G, 4G/LTE, 또는 5G 네트워크와 같은 셀룰러 WAN 인프라, Bluetooth®, Bluetooth® Low Energy(BLE) 또는 Zigbee® 통신 링크, 또는 다른 하나의 전자 통신 가능 장치와 통신할 수 있는 하나의 전자 장치에 의한 임의의 다른 방법을 포함하는 것으로 이해된다. 일부 구현예에서, 본원에서 논의된 시스템의 구현의 네트워크화된 부분의 요소는 가상 사설 네트워크(Virtual Private Network, VPN)를 통해 구현될 수 있다.
본원에서 논의된 시스템 및 방법의 구현의 양태는 머신 러닝 알고리즘, 머신 러닝 엔진, 또는 신경망에 관한 것이다. 신경망은 단백질의 다양한 속성, 예를 들어 알려진 단백질 내의 아미노산의 원자 환경에 기초하여 학습될 수 있고, 속성에 기초하여 단백질 내의 하나 이상의 아미노산에 대해 제시된 변경을 출력할 수 있다. 일부 구현예에서, 속성은 원자 유형, 정전기, 베타 인자, 용매 접근성, 이차 구조, 방향족성, 또는 극성을 포함할 수 있다. 이어서, 생성된 아미노산은 하나 이상의 품질 메트릭에 따라 판단될 수 있고, 속성의 가중치는 품질 메트릭을 최대화하도록 최적화될 수 있다. 이러한 방식으로, 신경망은 실험적으로 측정될 수 있는 임의의 품질 메트릭을 예측하고 최적화하도록 학습될 수 있다. 신경망이 학습될 수 있는 품질 메트릭의 예는 야생형 아미노산 정확도, 공지된 안정화/비안정화 위치, 아미노산 기의 정확도, 및 측정될 수 있는 임의의 다른 적절한 유형의 품질 메트릭을 포함한다. 일부 구현예에서, 신경망은 멀티-태스크 기능을 가질 수 있고, 다중 품질 메트릭의 동시 예측 및 최적화가 가능하다.
이러한 신경망을 구현하는 구현예에서, 쿼리는 다양한 방식으로 수행될 수 있다. 쿼리는 주어진 단백질 내의 아미노산을 식별하여, 예를 들어, 용융 곡선을 통해 열적으로 또는 구아니딘 또는 우레아 변성으로 화학적으로 구현될 수 있는 단백질 안정성을 증가시키도록 신경망에 요청할 수 있다. 본원에서 논의된 시스템 및 방법의 구현예의 신경망은 (신경망에 의해 평가되는 바와 같이) 예측된 동일성이 그의 고유 동일성과 상이한 단백질의 하나 이상의 아미노산 잔기를 식별할 수 있고, 이에 따라 개선된 단백질이 예측된 아미노산 잔기에 대한 고유 아미노산 잔기를 돌연변이시킴으로써 생성될 수 있음을 나타낼 수 있다. 본원에서 고려되는 바와 같이, 예측된 아미노산 잔기는 임의의 천연 또는 비천연(예를 들어, 인공 또는 합성) 아미노산일 수 있다.
일부 구현예에서, 신경망은 입력 아미노산 서열 또는 잔기와 연관된 바람직한 파라미터의 값을 사용하여 신경망을 학습시킴으로써 업데이트될 수 있다. 이러한 방식으로 신경망을 업데이트하면 최적의 아미노산 잔기를 제안함에 있어서의 신경망의 능력을 개선할 수 있다. 일부 구현예에서, 신경망을 학습시키는 단계는 예측된 아미노산 잔기에서 돌연변이된 단백질과 연관된 바람직한 파라미터의 값을 사용하는 단계를 포함할 수 있다. 예를 들어, 일부 구현예에서, 신경망을 훈련시키는 단계는 제안된 아미노산에 대한 바람직한 파라미터의 값을 예측하는 단계, 예측된 값을 공지된 아미노산과 연관된 파라미터의 상응하는 값과 비교하는 단계, 및 비교 결과에 기초하여 신경망을 학습시키는 단계를 포함할 수 있다. 예측된 값이 공지된 값과 동일하거나 실질적으로 유사한 경우, 신경망은 최소로 업데이트되거나 전혀 업데이트되지 않을 수 있다. 예측된 값이 공지된 아미노산의 값과 상이한 경우, 신경망은 이러한 불일치를 더 잘 보정하도록 실질적으로 업데이트될 수 있다. 신경망이 재학습되는 방법과 상관없이, 재학습된 신경망은 추가 아미노산을 제안하기 위해 사용될 수 있다.
본 출원의 기술은 단백질 안정성을 증가시킨다는 맥락에서 이루어지지만, 이는 다른 유형의 단백질 파라미터 또는 속성, 예를 들어 반감기, 활성도, 분해 저항성, 용해도, 열안정성, 번역 후 변형, 확장된 pH 내성, 성숙 시간 감소, 핵산 결합, 단백질-단백질 상호작용, 소수성, 또는 이들의 조합에 적용될 수 있기 때문에, 이러한 기술의 비제한적인 적용이라는 것을 이해해야 한다. 신경망을 학습시키는 데 사용되는 데이터의 유형에 따라, 신경망은 상이한 유형의 단백질, 단백질-단백질 상호작용, 및/또는 단백질의 속성에 대해 최적화될 수 있다. 이러한 방식으로, 신경망은 단백질에 대해, 펩티드로도 지칭될 수 있는 아미노산 서열의 식별을 개선하도록 학습될 수 있다. 신경망을 쿼리하는 단계는 단백질에 대한 초기 아미노산 서열을 입력하는 단계를 포함할 수 있다. 신경망은 상이한 아미노산 서열을 사용하여 이전에 학습되었을 수 있다. 신경망에 대한 쿼리는, 초기 아미노산 서열보다 높은 안정성을 갖는 단백질에 대해 제안된 아미노산 서열에 대한 쿼리일 수 있다. 제안된 아미노산 서열의 각각의 잔기에 대해 특정 아미노산을 나타내는 제안된 아미노산 서열이 신경망으로부터 수신될 수 있다.
이산 표현을 갖는 서열을 입력하고, 연속 표현을 갖는 신경망으로부터의 출력을 수신하고, 신경망에 입력을 연속적으로 제공하기 전에 출력을 구별함으로써, 신경망을 반복적으로 쿼리하는 단계와 연관된 기술들은 다른 머신 러닝 어플리케이션에 적용될 수 있다. 이러한 기술은 이산 표현을 갖는 최종 출력이 요구되는 응용예에서 특히 유용할 수 있다. 이러한 기술은, 이산 속성의 시리즈의 특성에 이산 속성을 관련시키는 데이터를 사용하여 학습된 신경망에 의해 생성된 모델을 적용하여 이산 속성의 시리즈를 식별하기 위해 일반화될 수 있다. 서열 내의 아미노산을 식별한다는 맥락에서, 이산 속성은 상이한 아미노산을 포함할 수 있다.
일부 구현예에서, 모델은, 분자 시뮬레이션으로부터 생성된 데이터를 포함하지만 이에 한정되지 않는, 시리즈의 각각의 위치에 위치하는 이산 속성을 갖는 초기 시리즈를 입력으로서 수신할 수 있다. 초기 시리즈 내의 각각의 개별 속성은 복수의 개별 속성 중 하나이다. 신경망을 쿼리하는 단계는, 이산 속성의 초기 시리즈를 입력하는 단계 및 초기 시리즈에 대한 특성의 레벨과 상이한 특성의 레벨을 갖는 이산 속성의 출력 시리즈를 생성하는 단계를 포함할 수 있다. 신경망을 쿼리하는 것에 응답하여, 출력 시리즈 및 출력 시리즈의 각 위치에 대한 상이한 이산 속성과 연관된 값이 신경망으로부터 수신될 수 있다. 시리즈의 각각의 위치에 대해, 각각의 이산 속성에 대한 값은, 이산 속성이 위치에 대해 선택되고 연속 값 데이터 세트를 형성하는 경우, 특성의 레벨에 관한 신경망의 예측에 상응할 수 있다. 값은 위치에 대한 이산 속성에 걸친 범위일 수 있고, 출력 시리즈의 이산 버전을 식별하는 데 사용될 수 있다. 일부 구현예에서, 출력 시리즈의 이산 버전을 식별하는 단계는, 시리즈의 각각의 위치에 대해, 위치에 대한 상이한 이산 속성에 대한 값들 중 가장 높은 값을 갖는 이산 속성을 선택하는 단계를 포함할 수 있다. 제안된 이산 속성의 시리즈는 이산 버전을 식별하는 단계의 출력으로서 수신될 수 있다.
일부 구현예에서, 반복 프로세스는 출력 시리즈에 대한 신경망을 쿼리하는 단계, 출력 시리즈를 수신하는 단계, 출력 시리즈의 이산 버전을 식별하는 단계로 형성된다. 반복 프로세스의 추가 반복은, 바로 이전의 반복으로부터의 출력 시리즈의 이산 버전을 입력하는 단계를 포함할 수 있다. 전류 출력 시리즈가 바로 이전 반복으로부터의 이전 출력 시리즈와 일치하는 경우, 반복 프로세스는 정지할 수 있다.
일부 구현예에서, 다중 품질 메트릭으로 아미노산 서열을 식별하도록 신경망을 학습시키는 것을 포함하여, 단일 품질 메트릭에 대한 원하는 값보다는 다중 품질 메트릭에 대한 원하는 값(예를 들어, 또 다른 서열에 대한 값보다 더 높은 값)을 갖는 제안된 아미노산 서열이 식별된다. 이러한 기술은 상이한 특성을 갖는 단백질에 대해 제안된 아미노산 서열의 식별이 요구되는 응용예에서 특히 유용할 수 있다. 이러한 기술의 구현에서, 학습 데이터는 신경망을 학습시키는 데 사용되는 아미노산 서열 각각에 대한 상이한 특성과 연관된 데이터를 포함할 수 있다. 신경망을 학습시킴으로써 생성된 모델은 특성들의 상이한 조합에 상응하는 하나 이상의 파라미터를 가질 수 있다. 일부 구현예에서, 파라미터는 제1 특성과 제2 특성 사이의 가중치를 나타낼 수 있으며, 이는 제안된 아미노산 서열이 제2 특성과 비교하여 제1 특성을 가질 가능성의 균형을 잡는 데 사용될 수 있다. 일부 구현예에서, 신경망을 학습시키는 단계는 상이한 특성에 대한 점수를 할당하는 단계를 포함하고, 점수는 제안된 아미노산 서열을 예측하는 데 사용되는 모델의 파라미터에 대한 값을 추정하는 데 사용될 수 있다. 일부 이러한 구현예에서의 학습 데이터는, 신경망을 학습시키는 데 사용될 경우 제안된 아미노산 서열을 예측하는 데 사용되는 모델을 생성하는, 원자 미세환경과 연관된 아미노산 서열을 포함할 수 있다. 신경망을 학습시키는 단계는 점수를 할당하는 단계를 포함할 수 있고, 파라미터에 대한 값은 점수를 사용하여 추정될 수 있다.
컨볼루션 신경망에 대한 생물학적 적용은 비교적 희소하다. 단백질은, 아미노산 서열로서 분석되기 보다는, 3차원 구조를 풀기 위한 결정화된 형태로 점차 더욱 평가되고 있다. 본원에서 논의된 방법의 구현의 일 양태는 20개의 아미노산 각각에 대해 고유한 화학 환경을 특성화하는 3D 컨볼루션 신경망을 학습시키는 단계를 포함한다. 이어서, 동일한 신경망은 주어진 환경에 가장 적합한 아미노산을 예측할 수 있다. 본원에 기술된 신경망은 19,000개의 계통적으로 먼 단백질 구조에 걸쳐 160만 개의 아미노산 환경에 대해 학습되었다. 학습 후, 신경망의 샘플내 정확도는 80.0%이고, 샘플외 정확도는 72.5%로서, 최첨단 기술(샘플외 정확도 40%)로부터 대략 20 내지 30% 개선된다.
예상되는 아미노산과 관찰된 아미노산 사이에 큰 불일치를 갖는 부위는 안정성 및 접힘 성숙과 같은 단백질 특징을 조작하기 위한 표적을 제시한다. 본원에 기술된 시스템 및 방법은, 신경망으로부터의 예측이 생체 내 단백질 기능 및 안정성을 증가시키는 3가지 생물학적 사례, 즉 베타-락타마제 항생제 마커, 산호 유래 청색 형광 단백질, 및 효모 칼비라 알비칸스(Candida albicans) 유래 포스포만노오스 이소머라제를 실험적으로 특성화하였다. 이러한 결과는 AI와 분자 생물학의 교차점에서의 새로운 생물학적 도구를 예측한다.
일 구현예에서, 본원에서 논의된 방법의 구현은 신경망, 예를 들어 전술한 Torng 및 Altman에 의해 공개된 신경망의 구현을 이용한다. 본원에서 논의된 시스템 및 방법의 구현은, 아래에서 논의된 실험 결과가 보여주는 바와 같이, 공개된 신경망 설계를 실질적으로 개선한다. 원래의 Torng 및 Altman 세트는 3,696개의 학습 및 194개의 시험 단백질 패밀리를 함유하여, 32,760개의 학습 및 1,601개의 시험 구조를 생성하였다.
본원에서 논의된 시스템 및 방법의 구현은 단백질 안정화의 문제를 해결하기 위한 Torng 및 Altman 프레임워크를 기반으로 한다. 기본적인 예에서, 단백질의 결정 구조는 3D 이미지와 같이 처리된다. 임의의 주어진 이미지에는 개별 아미노산 및 이들의 원자 환경에 대한 많은 관찰이 존재한다. 일부 방법은 이들 아미노산 중 하나를 중심으로 일관된 참조 프레임을 만든다. 이러한 관점에서, 산소, 질소, 황, 및 탄소 원자는 20 x 20 x 20 옹스트롬 박스 내에서 분리되고, 중앙 아미노산과 관련된 모든 원자가 제거된다. 그런 다음, 이러한 환경 세트 및 환경 내 아미노산 피팅은 3D 컨볼루션 신경망에 대한 주석이 달린 학습 세트로서 사용될 수 있다. 이러한 훈련된 신경망으로, 실험적으로 도입된 불안정화 돌연변이가 검출될 수 있다.
본원에서 논의된 시스템 및 방법의 구현은 신규 안정화 돌연변이를 식별하기 위해 기본 모델을 개선한다. 본원에서 기술된 개선은 알려진 불안정화 돌연변이를 정당화할 뿐만 아니라, 알려지지 않은 불안정화 잔기를 식별하고 안정화 돌연변이를 제안하기에 충분한 예측 품질을 제공한다.
일부 구현예에서, 본원에서 논의된 시스템 및 방법은 입력 단백질 상의 유리한 환경에 위치한 야생형 아미노산의 식별을 가능하게 한다. 이러한 구현예는 매우 낮은 야생형 확률을 갖는 잔기의 서열 공간을 좁힐 수 있다. 당 기술분야에 걸쳐 본원에서 논의된 시스템 및 방법의 구현에 의해 제공되는 개선은, 조합될 때, 전체적으로 개선된 유용성을 위해 후보 단백질 잔기를 식별하기 위한 상당히 개선된 모델을 형성하는 여러 이산된 개선으로서 설명될 수 있다.
도 1a는 합성된 단백질 특성을 증가시키기 위한 컴퓨터 구현 신경망의 구현의 다이어그램이다. 엔지니어가 변경하고자 하는 단백질의 일부 특성은 성숙 동역학, 열 안정성, Km, Kcat, 적절한 접힘을 위한 양이온 또는 음이온에 대한 의존성, 및 pH 내성이다. (101)에서, 단백질은 단백질 내 각 잔기에 대한 미세환경으로 번역될 수 있고, 단백질 및 이의 미세환경의 3차원 모델이 생성된다. 3차원 모델을 생성하기 위한 몇몇 방법은, 알려지지 않은 단백질 모델이 알려진 단백질 구조에서 가져온 후보 단편 풀로부터 구축될 경우, 단편 어셈블리; 알려진 단백질 분절이 아미노산 서열과 일치하는 경우, 분절 일치; 또는 알려진 단백질 모델이 선택되는 경우, 공간적 구속의 만족도에 기초한 비교 단백질 모델링을 포함하고("템플릿"), 아미노산 서열의 잔기는 템플릿 서열("정렬") 내의 잔기에 대해 맵핑되고("정렬"), 서열 내 다양한 거리, 각도 및 이면각 각도에 대한 제한은 템플릿 구조와의 정렬로부터 유도되며, 제한의 위반은 다른 방법들 중에서 최소화된다. 단백질 결정 구조의 3차원 모델이 생성될 때, 구조와 연관된 이에 상응하는 미세환경이 생성된다.
일부 구현예에서, 3차원 모델은 미세환경 없이 단백질을 단순히 예시하거나 나타낼 수 있다. 3차원 모델은 일부 구현예에서 3차원 어레이에 맵핑될 수 있다. 일 실시예에서, 3차원 모델의 좌표는 3차원 어레이에 저장된다. 일부 구현예에서, 3차원 이미지는 3차원 모델로부터 생성될 수 있고, 3차원 이미지는 3차원 어레이 내로 맵핑될 수 있다. 어레이 내의 이미지 데이터는 복셀화된 매트릭스로서 지칭될 수 있다. 픽셀은 2차원 공간에서 이미지의 어드레스할 수 있는 요소를 나타낼 수 있으므로, 복셀은 3차원 공간에서 어드레스할 수 있는 요소를 나타낸다.
일부 구현예에서, 이미지의 특징부는 3차원 컨볼루션 및 최대 풀링 레이어를 통해 추출될 수 있다. 3차원 컨볼루션 레이어의 3차원 필터는 20개의 아미노산 미세환경을 분리하도록 국소 생화학적 특징을 가장 잘 포착하는 재발성 공간 패턴을 검색한다. 최대 풀링 레이어는 입력에 대한 다운 샘플링을 수행하여 네트워크의 번역 불변성을 증가시킨다. 컨볼루션 신경망 아키텍처는 아래에서 더 논의된다.
제1 컨볼루션 레이어(121)는 필터를 통해 저 레벨 특징부를 검출한다. 컨볼루션 신경망은 컨볼루션을 사용하여 데이터 세트의 특징을 강조 표시한다. 컨볼루션 신경망의 컨볼루션 레이어에서, 필터는 3차원 어레이에 적용되어 특징부 맵을 생성한다. 컨볼루션 레이어에서, 필터는 입력 및 필터의 요소별 내적 위로 슬라이딩하고, 입력은 특징부 맵으로서 저장된다. 일부 구현예에서, 3 x 3 x 3 필터가 3차원 이미지에 적용될 수 있다.
컨볼루션 필터 및 이미지로부터의 특징부 맵은 (102)로 도시된다. 일부 구현예에서, 기준 프레임은 이미지 내의 중앙 아미노산 주위에 생성될 수 있고, 특징부는 그 중앙 아미노산 주위에 추출될 수 있다. 이미지 및 필터의 컨볼루션으로부터 생성된 특징부 맵은 이미지 내의 필터-특이적 특징부의 존재를 요약한다. 이미지에 적용되는 필터의 수를 증가시키면 추적할 수 있는 특징부의 수가 증가한다. (102)에서, 100개의 필터를 적용하여 18 x 18 x 18의 특징부 맵을 생성하였다. 다른 구현예에서, 다른 수의 필터가 사용될 수 있다. 생성된 특징부 맵은 후속하여 특징부 내의 비선형 패턴을 설명하기 위해 활성화 기능을 거칠 수 있다.
일부 구현예에서, 식 f(x) = max(0,x)를 갖는 정류기 선형 함수가 활성화 함수로서 특징부 맵에 적용될 수 있다. 정류기 선형 활성화 함수는 양의 값에 대해 선형으로 동작하여, 이 함수를 최적화하기 용이하게 하고, 이어서 신경망이 높은 예측 정확도를 달성할 수 있게 한다. 정류기 선형 활성화 함수는 또한 모든 음의 입력에 대해 0을 출력하며, 이는 진(true) 선형 함수가 아님을 의미한다. 따라서, 컨볼루션 신경망 내의 컨볼루션 레이어의 출력은 특징부 맵이며, 여기에서 특징부 맵 내의 값들은 정류기 선형 활성화 함수를 거칠 수 있다.
제2 컨볼루션 레이어가 (122)로 예시되어 있다. 컨볼루션 레이어의 수를 증가시키는 것은 추적될 수 있는 특징부의 복잡도를 증가시킬 수 있다. (122)에서의 컨볼루션 레이어는 특징부를 추적하도록 또 다른 100개의 필터를 포함한다. 일부 구현예에서, 필터는 추적된 특징부의 정확성을 보장하도록 제1 컨볼루션 레이어에서와 동일하다. 대안적인 구현예에서, 상이한 필터가 제2 컨볼루션 레이어에 포함될 수 있다. 일부 구현예에서, 중앙 아미노산과 연관된 원자는 필터를 통해 제거될 수 있다.
일부 구현예에서, (다른 구현예에서는 다른 치수가 사용될 수 있거나, 더 크거나 더 적은 수의 필터가 적용될 수 있지만) 치수 16 x 16 x 16의 더 작은 데이터 세트가 (103)으로 표시된다. 제2 컨볼루션 레이어의 컨볼루션 내의 내적은 데이터 세트의 크기를 감소시킨다. 데이터 세트(103)는 원래의 단백질 이미지(101)로부터의 복잡한 특징을 추적한 특징부 맵을 포함한다.
일부 구현예에서, 치수 2 x 2 x 2를 갖는 제1 풀링 레이어가 (123)에서 구현될 수 있다. 풀링 레이어는 데이터를 다운-샘플링하기 위해 구현될 수 있다. 풀링 윈도우가 특징부 맵에 적용될 수 있다. 일부 구현예에서, 풀링 레이어는 윈도우에서 데이터의 최대값을 출력하고, 윈도우에서 데이터를 다운-샘플링한다. 최대 풀링은 풀링 윈도우에서 가장 두드러진 특징을 강조한다. 다른 구현예에서, 풀링 레이어는 윈도우에서 데이터의 평균 값을 출력한다.
(104)에서 다운-샘플링된 데이터는 200개의 독립적인 8 x 8 x 8 어레이를 나타낸다. 다운-샘플링 데이터는 신경망이 관련 정보를 보유할 수 있게 한다. 풍부한 양의 데이터를 갖는 것이 유리할 수 있는데, 그 이유는 네트워크가 그 가중치의 정확성을 미세 조정할 수 있게 하기 때문이지만, 다음에서 더 논의되는 바와 같이, 많은 양의 데이터는 신경망을 프로세싱하는데 상당한 시간을 소모하게 할 수 있다. 다운-샘플링 데이터는 네트워크에 필요한 연산을 감소시키기 위해 신경망에서 중요할 수 있다. 치수 2 x 2 x 2를 갖는 풀링 레이어(123) 및 치수 8 x 8 x 8을 갖는 다운-샘플링된 데이터로 도시되었지만, 다른 구현예에서는, 다른 크기의 풀링 윈도우 및 다운-샘플링된 데이터가 사용될 수 있다.
일부 구현예에서, 후속하는 컨볼루션 레이어(124)는 200개의 독립적인 2 x 2 x 2 필터를 사용하여 다운-샘플링된 데이터를 재처리하고 새로운 특징부 맵 내에서의 특징부를 강조 표시한다. 3 x 3 x 3과 대조적으로 2 x 2 x 2인 더 작은 필터가 다운-샘플링된 데이터를 해석하도록 (124)의 컨볼루션 레이어 내에 구현된다. 컨볼루션 필터의 뎁스(depth)는 내적 매트릭스 곱셈을 성공적으로 수행하도록 데이터의 뎁스와 동일해야 한다. 다른 구현예에서, 전술한 바와 같이, 다른 크기 또는 치수의 필터가 사용될 수 있다.
컨볼루션 레이어(124) 및 이미지로부터의 특징부 맵은 (105)로 도시된다. 다운-샘플링 데이터 및 필터의 컨볼루션으로부터 생성된 특징부 맵은 이미지 내의 필터-특이적 특징부의 존재를 요약한다. (105)에 예시된 구현예에서는, 200개의 독립적인 7 x 7 x 7 어레이가 존재한다. 컨볼루션의 내적은 데이터의 크기를 더욱 감소시킨다.
컨볼루션 레이어(125)는, 도시된 바와 같이, 예를 들어 저 해상도 데이터 세트(105)로부터의 400개의 독립적인 2 x 2 x 2 필터를 사용함으로써, 추가 필터를 사용하여 보다 복잡한 특징부를 추출할 수 있다. 이미지에 적용되는 필터의 수를 증가시키면 추적할 수 있는 특징부의 수가 증가한다. 이러한 데이터가 풀링 레이어(123)로부터 다운-샘플링되고 크기가 실질적으로 감소됨에 따라, 지나친 프로세싱 또는 메모리 조건을 요구하지 않고 단백질(101)의 이미지의 특징부를 추출하고 강조하도록, 이러한 컨볼루션 레이어에 더 많은 필터가 적용될 수 있다.
컨볼루션 레이어(125)로부터의 특징부 맵은 (106)으로 도시된다. 다운-샘플링 데이터 및 필터의 컨볼루션으로부터 생성된 특징부 맵은 이미지 내의 필터-특이적 특징부의 존재를 요약한다. (106)에 예시된 구현예에서는, 400개의 독립적인 6 x 6 x 6개의 어레이가 존재하지만, 다른 개수 또는 크기의 어레이가 다양한 구현예에서 이용될 수 있다. 컨볼루션의 내적은 데이터의 크기를 더욱 감소시킨다.
일부 구현예에서, 치수 2 x 2 x 2(또는 임의의 다른 적절한 치수 크기)를 갖는 제2 풀링 레이어가 (126)에서 구현되어 데이터를 추가로 다운-샘플링한다. 일부 구현예에서, 제1 풀링 레이어에서 구현된 것과 동일한 유형의 풀링 레이어가 제2 풀링 레이어에서 구현될 수 있다. 풀링 레이어의 유형에 따라 데이터 다운-샘플링에 사용되는 풀링 윈도우가 결정된다. 예를 들어, 최대 풀링 레이어는 (123) 및 (126)에서 구현될 수 있다. 다른 구현예에서, 상이한 풀링 레이어가 컨볼루션 신경망에서 구현될 수 있다. 예를 들어, 최대 풀링 레이어는 (123)에서 구현될 수 있는 반면, 평균 풀링 레이어는 (126)에서 구현될 수 있다. 최대 풀링 레이어는 풀링 윈도우에서의 가장 두드러진 특징을 강조 표시하고, 평균 풀링 레이어는 윈도우에서의 데이터의 평균 값을 출력한다.
도시된 구현예에서, 다운-샘플링된 데이터는 (107)에서 400개의 독립적인 3 x 3 x 3 어레이를 나타내지만, 다른 개수 또는 치수의 어레이가 이용될 수 있다. 많은 양의 데이터를 갖는 것이 유리할 수 있는데, 그 이유는 네트워크가 그 가중치의 정확성을 미세 조정할 수 있게 하기 때문이지만, 다음에서 더 논의되는 바와 같이, 많은 양의 데이터는 신경망을 프로세싱하는데 상당한 시간을 소모하게 할 수 있다. 다운-샘플링 데이터는 네트워크에 필요한 연산을 감소시키기 위해 신경망에서 유용할 수 있다.
데이터의 크기를 감소시킬 경우, 일부 구현예에서 데이터가 더 평탄화될 수 있는데, 이는 데이터가 1차원 벡터 내에 배열될 수 있음을 의미한다. 데이터는 완전 연결 레이어에서 발생하는 매트릭스 곱셈의 목적을 위해 평탄화된다. 따라서, 완전 연결 레이어(127)는 (예를 들어, 벡터는 다른 구현예에서 상이한 길이를 가질 수 있지만, 단계(107)의 400 x 3 x 3 x 3 어레이로부터) 길이 10,800의 평탄화된 1차원 벡터를 수용할 수 있다. 컨볼루션 신경망의 완전 연결 레이어에서, 1차원 벡터 내의 각각의 수는 뉴런에 적용된다. 뉴런은 입력을 합하고 활성화 기능을 적용한다. 일부 구현예에서, 활성화 함수는 정류기 선형 함수이다. 대안적인 구현예에서, 활성화 함수는 하이퍼볼릭 접선 또는 시그모이드 함수일 수 있다.
도시된 구현예에서, 제1 완전 연결 레이어(127)는 (전술한 바와 같이, 다른 길이가 사용될 수 있지만) 길이 10,800의 (108)에서 1차원 벡터를 출력한다. 완전 연결 레이어에 의한 벡터 출력은 실제 수의 벡터를 나타낸다. 일부 구현예에서, 실제 수는 출력되고 분류될 수 있다. 다른 구현예에서, 컨볼루션 신경망의 정확도를 개선하도록, 후속하는 완전 연결 레이어에 실제 수를 추가로 입력할 수 있다.
본 구현예에서, 제1 완전 연결 레이어(108)의 출력은 (128)로 표시된 제2 완전 연결 층으로 입력된다. 제1 완전 연결 레이어(108)의 출력은 이미 1차원 벡터이므로, 후속하는 완전 연결 레이어로 입력되기 전에 평탄화될 필요가 없다. 일부 구현예에서, 신경망의 정확도를 향상시키도록 추가의 완전 연결 레이어가 구현된다. 추가의 완전 연결 레이어의 개수는 신경망을 실행하는 컴퓨터의 프로세싱 능력에 의해 제한될 수 있다. 대안적으로, 완전 연결 레이어의 추가는, 추가적인 완전 연결 레이어를 프로세싱하기 위한 연산 시간의 증가에 비한 정확도의 미미한 증가로 인해 제한될 수 있다.
도시된 구현예에서, 제2 완전 연결 레이어(128)는 (전술한 바와 같이, 다른 길이가 사용될 수 있지만) (109)에서 길이 1,000의 1차원 벡터를 출력한다. 완전 연결 레이어에 의한 벡터 출력은 실제 수의 벡터를 나타낸다. 일부 구현예에서, 실제 수는 출력되고 분류될 수 있다. 다른 구현예에서, 컨볼루션 신경망의 정확도를 개선하도록, 후속하는 완전 연결 레이어에 실제 수를 추가로 입력할 수 있다.
일부 구현예에서는, (129)에서, 완전 연결 레이어(109)의 출력은 softmax 분류기로 입력된다. softmax 분류기는 softmax 함수 또는 정규화된 지수 함수를 사용하여, 실제 숫자의 입력을 예측된 출력 클래스보다 정규화된 확률 분포로 변환한다. 대안적인 구현예에서, 시그모이드 함수를 사용해 컨볼루션 신경망의 출력을 분류할 수 있다. 하나의 클래스가 있는 경우, 시그모이드 기능이 사용될 수 있다. Softmax 함수는 다중 클래스 시그모이드 함수이다.
(110)에서, softmax 레이어의 출력은, (다른 구현예에서 더 많거나 더 적은 수의 아미노산이 이용될 수 있지만) 표적 단백질의 특성을 개선하기 위한 20개의 식별된 아미노산 각각의 확률이다. 이러한 출력은 추가적인 컨볼루션 신경망이 예측된 아미노산 서열이 주어진 상이한 쿼리를 수행할 수 있도록 추가적인 컨볼루션 신경망에 입력될 수 있거나, 출력(110)은 표적 단백질의 특성을 개선하는 예측된 아미노산으로서 직접 사용될 수 있다.
도 1b는 미세환경의 중심에서 아미노산 잔기를 결정하기 위한 방법의 구현의 흐름도이다. 신경망은, 특정 입력이 주어진 출력을 어떻게 분류하는지를 학습할 수 있도록, 알려진 입력/출력 쌍에 대해 학습될 수 있다. 일단 신경망이 알려진 입력/출력 쌍을 분류하는 방법을 학습하면, 신경망은 알려지지 않은 입력에 대해 작동하여 분류된 출력이 무엇인지 예측할 수 있다. 본 구현예에서, 신경망은 미세환경의 중앙에 있는 아미노산을 예측하도록 학습된다. 시험 동안, 신경망에는 아미노산 서열이 제공될 수 있고, 신경망은 아미노산을 둘러싸는 미세환경을 분석하고, 천연 아미노산 잔기와 상이한 아미노산 잔기를 예측할 수 있다. 신경망의 예측 아미노산은 천연 아미노산 잔기를 예측된 아미노산 잔기로 돌연변이시킴으로써 개선된 단백질이 생성될 수 있음을 나타낸다.
일부 구현예에서, 단계(130)에서, 신경망을 훈련하는 데 사용될 다양한 단백질 샘플 세트가 컴파일링되거나 제작될 수 있다. 샘플 세트가 더 다양할수록, 신경망은 그의 분류에 대해 더욱 강력해질 수 있다. 예를 들어, 신경망은 학습의 제1 반복 동안 입력/출력 쌍을 분류하려고 시도할 것이다. 다음 번 학습의 반복 동안, 입력/출력 쌍이 제1 반복의 학습된 입력/출력 쌍과 유사한 경우, 신경망은, 신경망이 강력하기 때문이 아니라, 단순히 데이터가 유사하기 때문에 수행해야 하는 것보다 인위적으로 더 높은 성능을 보일 수 있다. 다른 종류의 입력/출력 쌍이 후속하여 제3 반복을 위해 네트워크에 입력되는 경우, 분류 오차는 처음 2회의 입력/출력 쌍이 다른 경우의 오차보다 훨씬 높을 것이다. 처음 2회의 입력/출력 쌍의 유사성은 신경망이 처음 2회 반복의 유사한 입력/출력 쌍을 학습하도록 자체적으로 미세 조정하게 할 수 있다. 이를 네트워크 "과다 학습"이라고 할 수 있다.
대안적으로, 학습의 제2 반복이 제1 반복의 입력/출력 쌍과 비교하여 구별되는 입력/출력 쌍을 사용한 경우, 신경망은 더 넓은 범위의 입력/출력 쌍을 분류하도록 강제될 것이다. 테스트 동안, 출력을 알 수 없으므로, 네트워크가 광범위한 입력/출력 쌍을 분류할 수 있는 것이 이상적이다.
따라서, 단계(130)의 일부 구현예에서, 신경망에 대한 학습 데이터 세트는 특정 임계값에 걸쳐 모두 계통발생적으로 발산되는 단백질로부터 구축된다. 다양한 구현예에서, 데이터 세트는 적어도 20%, 30%, 40%, 또는 50%의 계통발생적으로 발산되는 단백질로부터 구축된다. 이러한 필터링은 학습 세트에서 여러 번 발생할 수 있는 매우 유사한/중복적인 단백질을 제거함으로써 효율을 증가시킨다. 이러한 개선은 과잉 샘플링된 단백질에 대한 현 당업계에 존재하는 편향을 감소시킬 수 있다.
일부 구현예에서, 학습 데이터세트 내의 개별 단백질은 주석이 결여된 단백질 데이터베이스(Protein DataBase, PDB) 구조에 수소 원자를 첨가함으로써 변형되었다. 일 구현예에서, 수소 원자의 첨가는 소프트웨어 변환기, 예를 들어 pdb2pqr을 사용하여 달성된다. 또 다른 구현예에서, 원자는 각각의 원자의 결합 능력 및 DNA 골격 중 인과 같은 다른 원자의 포함에 의해 추가로 분리된다.
일부 구현예에서, 학습 세트 내의 개별 단백질은, 부분 전하, 베타 인자, 이차 구조, 방향족성, 및 극성을 포함하지만 이에 한정되지 않는, 단백질의 추가 특성을 고려하여, 단백질 모델에 생물물리학적 채널을 첨가함으로써 변형되었다.
일부 구현예에서, 동일한 단백질에 대한 고해상도 및 저해상도 모델이 단백질 데이터베이스에서 공존할 수 있는 경우, 학습 데이터가 제거될 수 있다. 본원에서 논의된 방법의 일부 구현예에 따르면, 임계값 미만의 해상도로 관련 구조를 갖는 모든 유전자는 특정 백분율 임계값 초과의 서열 유사성을 갖는 그룹으로 함께 그룹화될 수 있다. 본원에서 사용되는 바와 같이, "해상도"는 일반적으로 옹스트롬(Å)으로 측정되는 분자의 전자 밀도 맵의 분해능을 지칭한다. 전자 밀도 맵이 지점들 사이의 더 작은 거리로 분해될 수 있기 때문에, "낮은" 해상도를 갖는 분자 모델은 "높은" 해상도를 갖는 분자 모델보다 더 높은 품질을 가지며, 이는 분자 구조의 더 많은 특징부를 볼 수 있음을 의미한다. 일 실시예에서, 관련 구조 및 2.5 Å 미만의 해상도, 그리고 적어도 50%의 서열 유사성을 갖는 모든 유전자가 함께 그룹화되고, 고 해상도(저품질) 분자 모델은 제거된 최저 해상도를 갖는 이용 가능한 구조가 학습 모델에 사용하기 위해 선택된다.
일부 구현예에서, 아미노산 샘플링은 모든 20개 아미노산의 동일한 표현과 대조적으로, PDB에서 시스테인에 비해 풍부하게 정규화되었다. 일 구현예에서, 아미노산 샘플링은 자연 발생에 대해 정규화될 수 있다. 일 구현예에서, 아미노산 샘플링은 주어진 종 내에서의 자연 발생에 대해 정규화될 수 있다. 시스테인은 임의의 주어진 위치에서 높은 확률로 인공적으로 할당될 수 있기 때문에, 시스테인 아미노산은 데이터 샘플에서 변형되었다. 시스테인은 PDB에서 관찰된 가장 희귀한 아미노산이므로, 더 풍부한 아미노산이 덜 샘플링되고, 점유할 수 있는 단백질 미세환경의 다양성이 불완전하게 표현될 가능성이 있다. 데이터 샘플에서의 시스테인 아미노산의 변형은 야생형 정확도를 상당히 증가시켰다. 아미노산 당 기준으로, 정확도는 96.7% 내지 32.8% 범위이다(도 2a 참조).
단계(131)에서, 단백질 내의 아미노산은 아미노산 서열로부터 무작위로 샘플링될 수 있다. 일 구현예에서, 단백질이 크지 않는 한, 단백질 중 아미노산의 최대 50%가 샘플링되었고, 이 경우 100개 이하의 아미노산이 개별 단백질로부터 샘플링되었다. 또 다른 구현예에서, 상한은 개별 단백질당 200개의 아미노산이었다. 개시된 샘플링 방법은 단백질의 외부에 있는 잔기에 대한 데이터 세트에서의 편향을 제거한다.
단계(132)에서, 단백질 결정 구조의 3차원 모델이, 그 구조를 포함하는 각각의 아미노산과 관련된 미세환경과 함께 생성될 수 있다. 예를 들어, 3차원 모델을 생성하기 위한 일부 방법은, 알려지지 않은 단백질 모델이 알려진 단백질 구조에서 가져온 후보 단편 풀로부터 구축될 경우, 단편 어셈블리; 알려진 단백질 분절이 아미노산 서열과 일치하는 경우, 분절 일치; 또는 알려진 단백질 모델이 선택되는 경우, 공간적 구속의 만족도에 기초한 비교 단백질 모델링을 포함하고("템플릿"), 아미노산 서열의 잔기는 템플릿 서열("정렬") 내의 잔기에 대해 맵핑되고("정렬"), 서열 내 다양한 거리, 각도 및 이면각 각도에 대한 제한은 템플릿 구조와의 정렬로부터 유도되며, 제한의 위반은 다른 방법들 중에서 최소화된다. 단백질 결정 구조의 3차원 모델이 생성될 때, 그 구조를 포함하는 각각의 아미노산 연관된 미세환경이 또한 생성된다. 기존 단백질 구조 데이터베이스의 한 가지 어려움은, 새로운 단백질이 첨가될 때, 결정학적 구조를 생성하기 위해 상이한 방법이 사용된다는 것이다. 3차원 구조를 생성하는 상이한 방법은 모델의 정확성에 영향을 미칠 수 있는 상이한 편향 또는 인공물을 추가할 수 있다. 동일한 방법의 최신의 동일한 버전을 사용하여 구조를 재구축하는 것은, 학습 구조가 이전 버전에 존재하는 인공물이나 오류가 아닌 화학적 조성에 있어서 달라지게 한다.
단계(133)에서, 단계(132)로부터 생성된 3차원 모델은 3차원 어레이로 맵핑될 수 있다. 일 실시예에서, 3차원 모델의 좌표는 3차원 어레이에 저장된다. 일부 구현예에서, 3차원 이미지는 3차원 모델로부터 생성될 수 있고, 3차원 이미지는 3차원 어레이 내로 맵핑될 수 있다. 어레이 내의 이미지 데이터는 복셀화된 매트릭스로 지칭될 수 있다. 픽셀은 2차원 공간에서 이미지의 어드레스할 수 있는 요소를 나타내므로, 복셀은 3차원 공간에서 어드레스할 수 있는 요소를 나타낸다.
단계(134)에서, 이미지는 컨볼루션 신경망 내의 컨볼루션 레이어 내로 입력된다. 컨볼루션 레이어는 필터를 통해 이미지 내의 특징부를 검출한다. 필터는 이미지 내의 특정 특징부의 존재를 검출하도록 설계된다. 단순화된 실시예에서, 하이-패스 필터는 고주파 신호의 존재를 검출한다. 하이-패스 필터의 출력은 고주파수를 갖는 신호의 일부이다. 유사하게, 이미지 필터는 이미지 내의 특정 특징부를 추적하도록 설계될 수 있다. 이미지에 더 많은 필터가 적용될수록 더 많은 특징부를 추적할 수 있다.
단계(135)에서, 이미지는 컨볼루션 레이어 내의 필터와 컨볼루션되어 이미지 내의 필터-특이적 특징부를 추출한다. 컨볼루션 레이어에서, 필터는 입력 및 필터의 요소별 내적 위로 슬라이딩하고, 입력은 특징부 맵으로서 저장된다.
(136)의 결정은 더 많은 필터가 있는지의 여부에 따라 달라진다. 전술한 바와 같이, 더 많은 필터가 구현되는다는 것은 이미지에서 더 많은 특징부를 추척할 수 있다는 것을 의미할 수 있다. 각각의 필터는 독립적인 특징부 맵을 생성하도록 이미지와 독립적으로 컨볼루션된다. 더 많은 필터가 이미지와 컨볼루션될 경우, 단계(134) 및 단계(135)가 반복될 수 있다. 모든 필터가 이미지와 컨볼루션되었다면, 프로세스는 단계(137)로 진행한다. 일부 구현예에서, 특징부 맵은 이미지에 적용된 필터의 수만큼 깊은 특징부 맵을 생성하도록 함께 연결될 수 있다. 다른 구현예에서, 특징부 맵은 한 번에 하나씩 프로세싱될 수 있다.
단계(137)에서, 활성화 함수는 컨볼루션 신경망의 컨볼루션 레이어 내의 특징부 맵에 적용된다. 활성화 함수는 신경망이 추출된 특징부 맵 내의 비선형 패턴을 검출할 수 있게 한다. 식 f(x) = max(0,x)를 갖는 정류기 선형 함수가 특징부 맵에 적용될 수 있다. 정류기 선형 활성화 함수는 양의 값에 대해 선형으로 동작하여, 이 함수를 최적화하기 용이하게 하고, 이어서 신경망이 더 높은 정확도를 달성할 수 있게 한다. 정류기 선형 활성화 함수는 또한 모든 음의 입력에 대해 0을 출력하며, 이는 진(true) 선형 함수가 아님을 의미한다. 따라서, 컨볼루션 신경망 내의 컨볼루션 레이어의 출력은 특징부 맵이며, 여기에서 특징부 맵 내의 값들은 정류기 선형 활성화 함수를 거친다.
(138)의 결정은 더 많은 컨볼루션 레이어가 있는지의 여부에 따라 달라진다. 컨볼루션 레이어의 수를 증가시키는 것은 추적될 수 있는 특징부의 복잡도를 증가시킬 수 있다. 추가적인 컨볼루션 레이어가 있는 경우, 새로운 필터가 이미지에 적용될 수 있고, 프로세스는 단계(134) 내지 단계(138)을 반복할 수 있다. 일부 구현예에서, 필터는 추적된 특징부의 정확성을 보장하도록 제1 컨볼루션 레이어에서와 동일할 수 있다. 대안적인 구현예에서, 상이한 필터가 제2 컨볼루션 레이어에 포함될 수 있다. 더 이상 컨볼루션 레이어가 없는 경우, 프로세스는 단계(139)로 진행한다.
단계(139)에서, 풀링 레이어는 데이터를 다운-샘플링한다. 풀링 윈도우가 특징부 맵에 적용될 수 있다. 일부 구현예에서, 풀링 레이어는 윈도우에서 데이터의 최대값을 출력하고, 윈도우에서 데이터를 다운-샘플링한다. 최대 풀링은 풀링 윈도우에서 가장 두드러진 특징을 강조한다. 다른 구현예에서, 풀링 레이어는 윈도우에서 데이터의 평균 값을 출력한다.
(140)의 결정은 더 많은 컨볼루션 레이어가 있는지의 여부에 따라 달라진다. 컨볼루션 레이어의 수를 증가시키는 것은 추적될 수 있는 특징부의 복잡도를 증가시킬 수 있다. 추가적인 컨볼루션 레이어가 있는 경우, 새로운 필터가 이미지에 적용될 수 있고, 프로세스는 단계(134) 내지 단계(140)을 반복할 수 있다. 일부 구현예에서, 필터는 추적된 특징부의 정확성을 보장하도록 제1 컨볼루션 레이어에서와 동일하다. 대안적인 구현예에서, 상이한 필터가 제2 컨볼루션 레이어에 포함될 수 있다. 따라서, 단계(134) 내지 단계(136), 단계(134) 내지 단계(138) 및 단계(134) 내지 단계(140)의 반복된 반복은 추적된 특징부의 유연성 및 증가된 복잡성을 제공한다. 더 이상 컨볼루션 레이어가 없는 경우, 프로세스는 단계(141)로 진행한다.
일부 구현예에서는, 단계(141)에서, 다운-샘플링된 데이터가 평탄화된다. 이는 데이터가 1차원 벡터로 배열된다는 것을 의미한다. 데이터는 완전 연결 레이어에서 발생하는 매트릭스 곱셈의 목적을 위해 평탄화된다.
일부 구현예에서는, 단계(142)에서, 평탄화된 1차원 벡터는 신경망의 완전 연결 레이어 내로 입력된다. 컨볼루션 신경망의 완전 연결 레이어에서, 1차원 벡터 내의 각각의 수는 입력한 바와 같은 뉴런에 적용된다. 뉴런은 입력을 합하고 활성화 기능을 적용한다. 일부 구현예에서, 활성화 함수는 정류기 선형 함수이다. 대안적인 구현예에서, 활성화 함수는 하이퍼볼릭 접선 또는 시그모이드 함수일 수 있다.
일부 구현예에서, 완전 연결 레이어 내의 제1 뉴런 세트의 출력은 가중치를 통해 또 다른 뉴런 세트에 입력될 수 있다. 각각의 후속하는 뉴런 세트는 뉴런의 "히든 레이어"로 지칭될 수 있다. 완전 연결 내의 히든 레이어의 수는 추려질 수 있다. 즉, 신경망 내의 히든 레이어의 수는 신경망이 출력을 분류하는 방법을 학습함에 따라 순응적으로 변경될 수 있다.
일부 구현예에서는, 단계(143)에서, 완전 연결 네트워크를 포함하는 뉴런은 가중치에 의해 다른 뉴런에 연결된다. 일부 뉴런의 효과를 강화하고 다른 뉴런의 효과를 약화시키도록 가중치는 조정된다. 각 뉴런의 강도를 조정하면 신경망이 출력을 더 잘 분류할 수 있다. 신경망이 입력 또는 "학습"을 분류하는 방법을 학습하는 동안 뉴런을 연결하는 가중치가 조정된다. 일부 구현예에서, 신경망 내의 뉴런의 수는 추려질 수 있다. 즉, 신경망 내에서 활성인 뉴런의 수는 신경망이 출력을 분류하는 방법을 학습함에 따라 순응적으로 변경될 수 있다.
(144)의 결정은 추가의 완전 연결 레이어가 있는지의 여부에 따라 달라진다. 일부 구현예에서, 하나의 완전 연결 레이어의 출력은 제2 완전 연결 레이어에 대한 입력이 될 수 있다. 일부 구현예에서, 신경망의 정확도를 향상시키도록 추가의 완전 연결 레이어가 구현된다. 추가의 완전 연결 레이어의 개수는 신경망을 실행하는 컴퓨터의 프로세싱 능력에 의해 제한될 수 있다. 대안적으로, 완전 연결 레이어의 추가는, 추가적인 완전 연결 레이어를 프로세싱하기 위한 연산 시간의 증가에 비한 정확도의 미미한 증가로 인해 제한될 수 있다. 대안적인 구현예에서, 하나의 완전 연결 레이어의 출력은 이미지를 분류하기에 충분할 수 있다. 추가적인 완전 연결 레이어가 있는 경우, 입력 벡터가 가중치을 통해 서로 연결된 뉴런에 공급되도록 단계(142) 및 단계(143)이 반복된다. 추가적인 완전 연결 레이어가 없는 경우, 프로세스는 단계(145)로 진행한다.
일부 구현예에서는, 단계(145)에서, 완전 연결 레이어는 실제 수의 벡터를 출력한다. 일부 구현예에서, 실제 수는 출력되고 분류될 수 있다. 대안적인 구현예에서, 완전 연결 레이어의 출력은 softmax 분류기로 입력된다. softmax 분류기는 softmax 함수 또는 정규화된 지수 함수를 사용하여, 실제 숫자의 입력을 예측된 출력 클래스보다 정규화된 확률 분포로 변환한다. 다른 구현예에서, 시그모이드 함수를 사용해 컨볼루션 신경망의 출력을 분류할 수 있다. 하나의 클래스가 있는 경우, 시그모이드 기능이 사용될 수 있다. Softmax 함수는 다중 클래스 시그모이드 함수이다. 일부 구현예에서, 신경망의 출력은 화학적 미세환경의 중앙에 예측된 아미노산 잔기를 나타낸다.
예를 들어, 신경망은 20개의 실제 수를 포함하는 20개의 길이를 갖는 벡터를 출력할 수 있다. 벡터는 미세환경의 중앙에 존재할 수 있는 20개의 가능한 아미노산으로 인해 20개의 길이를 갖는다. 벡터 내의 실제 수는 softmax 분류기를 통과하여, 벡터 내의 값이 미세환경의 중앙에 존재하는 아미노산의 가능성을 나타낸다.
일부 구현예에서는, 단계(146)에서, 예측된 아미노산 잔기는 화학적 환경 중앙의 천연 아미노산과 비교된다. 예를 들어, 진(true) 아미노산 벡터는 20개 길이의 벡터일 수 있으며, 여기에서 단일 '1'은 화학적 환경 중앙의 천연 아미노산을 나타내고 벡터 내의 다른 값은 '0'을 유지한다.
신경망에서 학습하는 이러한 유형, 즉 학습 중의 알려진 입력/출력 쌍을 비교하는 학습을, 감독 학습이라고 한다. 예측된 값과 알려진 값 사이의 차이가 결정될 수 있고, 그 정보는 신경망을 통해 역 전파된다. 가중치는 오차 신호에 의해 후속하여 수정될 수 있다. 신경망을 학습시키는 이러한 방법을 후방 전파 방법이라고 한다.
일부 구현예에서는, 단계(147)에서, 가중치는 최급강하법(the steepest descent method)을 통해 업데이트된다. 아래의 방정식 (1)은 각각의 반복 n에서 가중치가 어떻게 조정되는지를 예시한다.
Figure pct00001
위의 식 (1)에서,
Figure pct00002
는 뉴런 i를 뉴런 j에 연결하는 가중치를 나타낸다.
최급강하법은 목적 함수를 최소화하는 최적화 기술이다. 즉, 최급강하법은 가장 가파른 하강 방향으로 알려지지 않는 파라미터를 조정할 수 있다. 학습하는 동안, 신경망의 분류 정확성을 최적화하는 가중치의 값을 알 수 없다. 따라서, 가중치는 가장 가파른 하강 방향으로 조정되는 알려지지 않은 파라미터이다.
일부 구현예에서, 목적 함수는 교차 엔트로피 오차 함수일 수 있다. 교차 엔트로피 오차 함수를 최소화하는 것은 예측된 아미노산 벡터의 확률 분포와 천연 아미노산 벡터의 확률 분포 사이의 차이를 최소화하는 것을 나타낸다. 다른 구현예에서, 목적 함수는 자승 오차 함수일 수 있다. 자승 오차 목적 함수를 최소화하는 것은 각 뉴런의 순간 오차를 최소화하는 것을 나타낸다.
각각의 학습 반복 동안, 가중치는 그의 최적값에 더 가까워지도록 조정된다. 네트워크 내의 뉴런의 위치에 따라, 상이한 공식을 사용하여 목적 함수에 대한 가중치를 조정하는 방법을 결정한다. 다음의 식 (2)는 뉴런 i와 뉴런 j 사이의 가중치가 교차 엔트로피 오차 함수에 대해 어떻게 조정되는지를 나타낸다.
Figure pct00003
가중치가 너무 적은 경우, 즉 뉴런의 출력이 분류에 대해 유의한 영향을 갖지 않을 수 있음을 의미하는 경우, 적은 가충치가 최적 가중치와 비교될 경우의 가중치의 음의 기울기 및 방정식의 음의 부호로 인해 가중치에는 양의 변화가 있을 것이다. 가중치가 너무 큰 경우, 큰 가충치가 최적 가중치와 비교될 경우의 가중치의 양의 기울기 및 방정식의 음의 부호로 인해 가중치에는 음의 변화가 있을 것이다. 따라서, 가중치가 최적의 값에 더 가까워지도록 스스로 학습한다. 가중치의 변경은 일시적으로 저장될 수 있으며, 단계(147)로 표시된다.
일부 구현예에서, 가중치의 변경이 결정될 때마다, 가중치는 조정될 수 있다. 이러한 유형의 학습을 온라인 또는 증분 학습이라고 할 수 있다. 증분 학습의 한 가지 장점은 입력의 작은 변화를 추적하는 신경망의 능력을 포함한다. 일부 구현예에서, 가중치는 신경망이 입력/출력 쌍의 배치(batch)를 수신한 후에 변경될 수 있다. 이러한 유형의 학습을 배치 학습이라고 부를 수 있다. 배치 학습의 한 가지 장점은 최적화된 가중치 값에 대한 신경망의 더 빠른 수렴을 포함한다. 본 구현예에서, 신경망은 160만 개의 아미노산 및 미세환경 페어링에 대해 학습되었다. 본 구현예에서, 20개의 배치 크기를 사용하였다. 단계(148)에서, 카운터가 증분된다. 신경망은 카운터가 20에 도달할 때 1회의 배치 학습을 완료한다. 즉, 신경망이 20개의 입력/출력 쌍에 기초하여 그 자체를 평가할 때, 1회의 학습이 완료된다.
(149)에서의 결정은 현재의 학습 샘플 배치가 완료되었는지의 여부에 따라 달라진다. 하나의 배치를 만족시키는 데 필요한 학습 샘플의 수가 달성되면, 네트워크는 단계(150)으로 진행된다. 전술한 바와 같이, 하나의 학습 배치에는 20개의 입력/출력 쌍이 요구된다. 하나의 배치를 만족시키는 데 필요한 샘플의 수가 달성되지 않은 경우, 신경망은 단계(134) 내지 단계(149)를 반복한다.
단계(150)에서는, 단계(147)에서 일시적으로 보관된 가중치 변경을 합산한다. 가중치의 값은, 20개의 입력/출력 쌍의 새로운 배치가 새로 변경된 가중치 값을 사용하여 평가되도록, 합산된 변경에 따라 수정된다.
(151)에서의 결정은 최대 학습 반복 횟수에 도달했는지의 여부에 따라 달라진다. 1회의 배치 학습이 완료되면 1회의 학습 반복이 완료된다. 일부 상황에서, 가중치가 그의 최적 값을 중심으로 계속 진동하기 때문에, 가중치는 그의 최적 값에 도달하지 않을 수 있다. 따라서, 일부 구현예에서, 신경망이 네트워크를 무한정으로 학습하는 것을 방지하기 위해 최대 반복 횟수를 설정할 수 있다.
최대 반복 횟수에 도달하지 않은 경우, 단계(130)에서 생성된 데이터 샘플로부터의 다른 입력/출력 쌍을 사용하여 신경망이 네트워크를 다시 훈련하도록 할 수 있다. 신경망이 하나의 배치 학습을 완료한 후, 반복 카운터는 단계(153)에서 증가한다.
최대 반복 횟수에 도달한 경우, 신경망은 가중치의 값을 저장할 수 있다. 단계(152)는 가중치의 값을 저장하는 단계를 도시한다. 이들을 네트워크에 의해 학습된 가중치이고 후속하여 신경망을 시험할 때 사용될 것이기 때문에, 이들 가중치는 메모리에 저장될 것이다.
반복 횟수에 도달하지 않은 경우, 예측된 아미노산 잔기와 알려진 천연 아미노산 잔기 사이의 오차가 평가될 수 있다. 이러한 평가는 단계(154)에서 수행된다. 일부 상황에서, 예측 값과 알려진 천연 값 사이의 오차가 너무 적어 그 오차가 허용 가능한 것으로 간주될 수 있고, 신경망은 학습을 계속할 필요가 없다. 이러한 상황에서, 이러한 적은 오차율을 산출한 가중치의 값이 저장되고 후속적으로 시험에 사용될 수 있다. 일부 구현예에서, 신경망은, 신경망이 하나의 출력을 매우 양호하게 예측하는 방법을 학습하지 않았거나, 우발적으로 매우 양호하게 예측하는 방법을 학습하지 않았음을 보장하기 위해, 여러 번 반복하는 동안 적은 오차율을 유지해야 한다. 여러 번 반복하는 동안 네트워크가 적은 오차를 유지하도록 요구하면, 네트워크가 다양한 범위의 입력을 적절히 분류할 가능성이 증가한다. 예측된 값과 알려진 값 사이의 오차가 여전히 너무 큰 경우, 신경망은 그 자체를 계속 학습하고 단계(131) 내지 단계(154)를 반복할 수 있다. 많은 구현예에서, 단계(131) 내지 단계(154)가 반복되는 동안, 신경망은 새로운 데이터 세트를 사용하여 신경망을 학습시킬 것이다.
도 1c는 시험 중 합성된 단백질 특성을 증가시키기 위한 방법의 구현의 흐름도이다. 단계(160)에서, 학습 시나리오로부터 저장된 가중치는 단계(172)의 완전 연결 레이어의 가중치로서 설정된다. 이들 가중치는, 가중치가 알려지지 않은 입력을 정확하게 분류할 수 있게 할 수 있도록 가중치가 광범위하고 다양한 입력 세트를 통해 학습되었기 때문에, 알려지지 않은 입력이 분류될 필요가 있을 경우 사용된다.
일부 구현예에서는, 단계(161)에서, 알려지지 않은 단백질이 무작위로 샘플링된다. 일 구현예에서, 단백질이 크지 않는 한, 단백질 중 아미노산의 최대 50%가 샘플링되고, 이 경우 100개 이하의 아미노산이 개별 단백질로부터 샘플링되었다. 또 다른 구현예에서, 상한은 개별 단백질당 200개의 아미노산이다. 개시된 샘플링 방법은 단백질의 외부에 있는 잔기에 대한 데이터 세트에서의 편향을 제거한다.
단계(162)에서, 단백질 결정 구조의 3차원 모델이, 그 구조를 포함하는 각각의 아미노산과 관련된 미세환경과 함께 생성될 수 있다. 3차원 모델을 생성하기 위한 일부 방법은, 알려지지 않은 단백질 모델이 알려진 단백질 구조에서 가져온 후보 단편 풀로부터 구축될 경우, 단편 어셈블리; 알려진 단백질 분절이 아미노산 서열과 일치하는 경우, 분절 일치; 또는 알려진 단백질 모델이 선택되는 경우, 공간적 구속의 만족도에 기초한 비교 단백질 모델링을 포함하고("템플릿"), 아미노산 서열의 잔기는 템플릿 서열 내의 잔기에 대해 맵핑되고("정렬"), 서열 내 다양한 거리, 각도 및 이면각 각도에 대한 제한은 템플릿 구조와의 정렬로부터 유도되며, 제한의 위반은 다른 방법들 중에서 최소화된다. 단백질 결정 구조의 3차원 모델이 생성될 때, 그 구조를 포함하는 각각의 아미노산 연관된 미세환경이 또한 생성된다. 기존 단백질 구조 데이터베이스의 한 가지 어려움은, 새로운 단백질이 첨가될 때, 결정학적 구조를 생성하기 위해 상이한 방법이 사용된다는 것이다. 3차원 구조를 생성하는 상이한 방법은 모델의 정확성에 영향을 미칠 수 있는 상이한 편향 또는 인공물을 추가할 수 있다. 동일한 방법의 최신의 동일한 버전을 사용하여 구조를 재구축하는 것은, 학습 구조가 이전 버전에 존재하는 인공물이나 오류가 아닌 화학적 조성에 있어서 달라지게 한다.
단계(163)에서, 단계(162)로부터 생성된 3차원 모델은 3차원 어레이로 맵핑될 수 있다. 일 실시예에서, 3차원 모델의 좌표는 3차원 어레이에 저장된다. 일부 구현예에서, 3차원 이미지는 3차원 모델로부터 생성될 수 있고, 3차원 이미지는 3차원 어레이 내로 맵핑될 수 있다. 어레이 내의 이미지 데이터는 복셀화된 매트릭스로 지칭될 수 있다. 픽셀은 2차원 공간에서 이미지의 어드레스할 수 있는 요소를 나타내므로, 복셀은 3차원 공간에서 어드레스할 수 있는 요소를 나타낸다.
단계(164)에서, 이미지는 컨볼루션 신경망 내의 컨볼루션 레이어 내로 입력될 수 있다. 컨볼루션 레이어는 필터를 통해 이미지 내의 특징부를 검출한다. 필터는 이미지 내의 특정 특징부의 존재를 검출하도록 설계된다. 단순화된 실시예에서, 하이-패스 필터는 고주파 신호의 존재를 검출한다. 하이-패스 필터의 출력은 고주파수를 갖는 신호의 일부이다. 유사하게, 이미지 필터는 이미지 내의 특정 특징부를 추적하도록 설계될 수 있다. 이미지에 더 많은 필터가 적용될수록 더 많은 특징부를 추적할 수 있다.
단계(165)에서, 이미지는 컨볼루션 레이어 내의 필터와 컨볼루션되어 이미지 내의 필터-특이적 특징부를 추출한다. 컨볼루션 레이어에서, 필터는 입력 및 필터의 요소별 내적 위로 슬라이딩하고, 입력은 특징부 맵으로서 저장된다.
(166)의 결정은 더 많은 필터가 있는지의 여부에 따라 달라진다. 전술한 바와 같이, 더 많은 필터가 구현되는다는 것은 이미지에서 더 많은 특징부를 추척할 수 있다는 것을 의미한다. 각각의 필터는 독립적인 특징부 맵을 생성하도록 이미지와 독립적으로 컨볼루션된다. 더 많은 필터가 이미지와 컨볼루션될 경우, 단계(164) 및 단계(165)가 반복될 수 있다. 모든 필터가 이미지와 컨볼루션되었다면, 프로세스는 단계(167)로 진행한다. 일부 구현예에서, 특징부 맵은 이미지에 적용된 필터의 수만큼 깊은 특징부 맵을 생성하도록 함께 연결될 수 있다. 다른 구현예에서, 특징부 맵은 한 번에 하나씩 프로세싱될 수 있다.
일부 구현예에서는, 단계(167)에서, 활성화 함수는 컨볼루션 신경망의 컨볼루션 레이어 내의 특징부 맵에 적용된다. 활성화 함수는 신경망이 추출된 특징부 맵 내의 비선형 패턴을 검출할 수 있게 한다. 식 f(x) = max(0,x)를 갖는 정류기 선형 함수가 활성화 함수로서 특징부 맵에 적용될 수 있다. 정류기 선형 활성화 함수는 양의 값에 대해 선형으로 동작하여, 이 함수를 최적화하기 용이하게 하고, 이어서 신경망이 높은 예측 정확도를 달성할 수 있게 한다. 정류기 선형 활성화 함수는 또한 모든 음의 입력에 대해 0을 출력하며, 이는 진(true) 선형 함수가 아님을 의미한다. 따라서, 컨볼루션 신경망 내의 컨볼루션 레이어의 출력은 특징부 맵이며, 여기에서 특징부 맵 내의 값들은 정류기 선형 활성화 함수를 거칠 수 있다.
(168)의 결정은 더 많은 컨볼루션 레이어가 있는지의 여부에 따라 달라진다. 컨볼루션 레이어의 수를 증가시키는 것은 추적될 수 있는 특징부의 복잡도를 증가시킬 수 있다. 추가적인 컨볼루션 레이어가 있는 경우, 새로운 필터가 이미지에 적용될 수 있고, 단계(164) 내지 단계(168)이 반복될 수 있다. 일부 구현예에서, 필터는 추적된 특징부의 정확성을 보장하도록 제1 컨볼루션 레이어에서와 동일하다. 대안적인 구현예에서, 상이한 필터가 제2 컨볼루션 레이어에 포함될 수 있다. 더 이상 컨볼루션 레이어가 없는 경우, 프로세스는 단계(169)로 진행한다.
단계(169)에서, 풀링 레이어는 데이터를 다운-샘플링한다. 풀링 윈도우가 특징부 맵에 적용될 수 있다. 일부 구현예에서, 풀링 레이어는 윈도우에서 데이터의 최대값을 출력하고, 윈도우에서 데이터를 다운-샘플링한다. 최대 풀링은 풀링 윈도우에서 가장 두드러진 특징을 강조한다. 다른 구현예에서, 풀링 레이어는 윈도우에서 데이터의 평균 값을 출력한다.
(170)의 결정은 더 많은 컨볼루션 레이어가 있는지의 여부에 따라 달라진다. 컨볼루션 레이어의 수를 증가시키는 것은 추적될 수 있는 특징부의 복잡도를 증가시킬 수 있다. 추가적인 컨볼루션 레이어가 있는 경우, 새로운 필터가 이미지에 적용될 수 있고, 단계(164) 내지 단계(170)이 반복될 수 있다. 일부 구현예에서, 필터는 추적된 특징부의 정확성을 보장하도록 제1 컨볼루션 레이어에서와 동일하다. 대안적인 구현예에서, 상이한 필터가 제2 컨볼루션 레이어에 포함될 수 있다. 더 이상 컨볼루션 레이어가 없는 경우, 프로세스는 단계(171)로 진행한다.
일부 구현예에서는, 단계(171)에서, 다운-샘플링된 데이터가 평탄화된다. 이는 데이터가 1차원 벡터로 배열된다는 것을 의미한다. 데이터는 완전 연결 레이어에서 발생하는 매트릭스 곱셈의 목적을 위해 평탄화된다.
일부 구현예에서는, 단계(172)에서, 평탄화된 1차원 벡터는 신경망의 완전 연결 레이어 내로 입력된다. 컨볼루션 신경망의 완전 연결 레이어에서, 1차원 벡터 내의 각각의 수는 뉴런에 적용된다. 뉴런은 입력을 합하고 활성화 기능을 적용한다. 일부 구현예에서, 활성화 함수는 정류기 선형 함수이다. 대안적인 구현예에서, 활성화 함수는 하이퍼볼릭 접선 또는 시그모이드 함수일 수 있다.
일부 구현예에서는, 단계(173)에서, 완전 연결 네트워크를 포함하는 뉴런은 가중치로 곱해진다. 완전 연결 네트워크에서의 가중치는 단계(160)에서 초기화된 가중치이다. 이들 가중치는, 가중치가 알려지지 않은 입력을 정확하게 분류할 수 있게 할 수 있도록 가중치가 광범위하고 다양한 입력 세트를 통해 학습되었기 때문에, 알려지지 않은 입력이 평가될 경우 사용된다.
(174)의 결정은 추가의 완전 연결 레이어가 있는지의 여부에 따라 달라진다. 일부 구현예에서, 하나의 완전 연결 레이어의 출력은 제2 완전 연결 레이어에 대한 입력이 될 수 있다. 일부 구현예에서, 신경망의 정확도를 향상시키도록 추가의 완전 연결 레이어가 구현된다. 추가의 완전 연결 레이어의 개수는 신경망을 실행하는 컴퓨터의 프로세싱 능력에 의해 제한될 수 있다. 대안적으로, 완전 연결 레이어의 추가는, 추가적인 완전 연결 레이어를 프로세싱하기 위한 연산 시간의 증가에 비한 정확도의 미미한 증가로 인해 제한될 수 있다. 대안적인 구현예에서, 하나의 완전 연결 레이어의 출력은 이미지를 분류하기에 충분할 수 있다. 추가적인 완전 연결 레이어가 있는 경우, 입력 벡터가 가중치를 통해 서로 연결된 뉴런에 공급되도록 단계(172) 및 단계(173)이 반복된다. 추가적인 완전 연결 레이어가 없는 경우, 프로세스는 단계(175)로 진행한다.
단계(175)에서, 완전 연결 레이어는 실제 수의 벡터를 출력한다. 일부 구현예에서, 실제 수는 출력되고 분류될 수 있다. 대안적인 구현예에서, 완전 연결 레이어의 출력은 softmax 분류기로 입력된다. softmax 분류기는 softmax 함수 또는 정규화된 지수 함수를 사용하여, 실제 숫자의 입력을 예측된 출력 클래스보다 정규화된 확률 분포로 변환한다. 다른 구현예에서, 시그모이드 함수를 사용해 컨볼루션 신경망의 출력을 분류할 수 있다. 하나의 클래스가 있는 경우, 시그모이드 기능이 사용될 수 있다. Softmax 함수는 다중 클래스 시그모이드 함수이다. 일부 구현예에서, 신경망의 출력은 단백질의 품질 메트릭을 개선하기 위한 예측된 후보 잔기 및 아미노산 잔기를 나타낸다.
단계(176)에서, 합성된 단백질은 신경망의 출력에 따라 생성될 수 있다. 합성된 단백질은, 신경망을 실행하는 연산 장치에 의해, 신경망을 실행하는 연산 장치와 통신하는 다른 연산 장치에 의해, 제3자 제조업체 또는 실험실에 의해, 또는 신경망에 의해 식별된 후보 및 예측된 아미노산 잔기에 따라 치환을 만드는 다른 엔티티에 의해 생성될 수 있다. 예를 들어, 일부 구현예에서, 합성된 단백질은, 신경망에 의해 식별된 예측된 아미노산 잔기 및 후보 잔기에 따라/따르거나 신경망 또는 신경망을 실행하는 연산 장치의 유도로 하나 이상의 치환을 만드는 엔티티에 의해 수득될 수 있다. 일부 구현예에서, 신경망은 천연 아미노산 잔기와 동일한 아미노산 잔기를 예측할 수 있다. 다른 구현예에서, 신경망은 천연 아미노산 잔기와 상이한 아미노산 잔기를 예측할 수 있다. 신경망의 예측 아미노산은 천연 아미노산 잔기를 예측된 아미노산 잔기로 돌연변이시킴으로써 개선된 단백질이 생성될 수 있음을 나타낸다. 따라서, 합성된 단백질은 신경망의 출력에 따라 생성될 수 있다.
도 1d는 일부 구현예에 따른, 학습 동안의 신경망의 블록 다이어그램이다. 입력은 (180)에서 신경망에 공급된다. 전술한 바와 같이, 신경망은 다양한 입력을 수신할 수 있다. 일부 구현예에서, 신경망은 아미노산 서열 또는 잔기를 수신한다. 다른 구현예에서, 신경망은 아미노산의 시리즈를 수신할 수 있고, 아미노산은 시리즈의 각각의 위치에 위치하는 이산 속성을 갖는다.
블록 다이어그램에서, (181)은 시간에 따라 변하는 신경망을 나타낸다. 전술한 바와 같이, 학습 동안, 신경망은 새로운 입력/출력의 각각의 반복을 순응적으로 업데이트한다. 가중치가 예측된 출력과 알려진 출력 사이의 차이에 의해 계산된 에러 신호에 따라 업데이트되기 때문에, 신경망은 순응적으로 업데이트된다.
블록 다이어그램에서, (182)는 신경망이 예측하는 출력이 쿼리를 만족시킬 것임을 나타낸다. 예를 들어, 신경망은 변형될 수 있는 특정 아미노산 잔기를 식별하도록 쿼리되고 학습될 수 있다. 이러한 상황에서, 신경망의 출력은 아미노산 잔기일 수 있으며, 여기에서 아미노산 잔기는 개선된 특성을 갖는 새로운 단백질을 합성하는 데 사용될 수 있다. 다른 구현예에서, 신경망의 출력은 대체물로서 사용될 수 있는 아미노산 잔기일 수 있으며, 여기에서 대체물은 개선된 특성을 갖는 새로운 단백질을 합성하는 데 사용될 수 있다. 다른 구현예에서, 신경망은 초기 아미노산 서열과 상이한 파라미터의 단백질에 대해 제안된 아미노산 서열에 대해 쿼리될 수 있다. 이러한 상황에서, 신경망의 출력은 아미노산 서열의 각각의 잔기에 대한 특이적 아미노산을 나타내는 아미노산 서열일 수 있다.
블록 다이어그램에서, (186)은 원하는 값을 나타낸다. 신경망을 학습시키기 위해서는 출력에 상응하는 입력이 알려져 있어야 하기 때문에, 이러한 유형의 훈련을 감독 학습이라고 한다. 학습하는 동안, 신경망은 원하는 값에 가능한 한 가까운 결과를 출력하도록 요청된다.
원하는 값(186) 및 신경망(182)으로부터의 출력 값은 (185)에서 비교된다. 출력 값과 원하는 값 사이의 차이가 결정되고, 이 차이는 신경망이 이 오차로부터 학습할 수 있도록 신경망을 통해 다시 전파되는 오차 신호(183)가 된다. 전술한 식 (1) 및 (2)에 예시된 바와 같이, 가중치는 오차 신호에 기초하여 업데이트된다.
도 1e는 일부 구현예에 따른, 컨볼루션 신경망의 블록 다이어그램이다. 블록 다이어그램에서, (190)은 컨볼루션 레이어를 나타낸다. 컨볼루션 레이어는 필터를 통해 이미지 내의 특징부를 검출할 수 있다. 필터는 이미지 내의 특정 특징부의 존재를 검출하도록 설계된다. 단순화된 실시예에서, 하이-패스 필터는 고주파 신호의 존재를 검출한다. 하이-패스 필터의 출력은 고주파수를 갖는 신호의 일부이다. 유사하게, 이미지 필터는 이미지 내의 특정 특징부를 추적하도록 설계될 수 있다. 이미지에 더 많은 필터가 적용될수록 더 많은 특징부를 추적할 수 있다.
일부 구현예에서, 이미지는 컨볼루션 레이어 내의 필터와 컨볼루션되어 이미지 내의 필터-특이적 특징부를 추출한다. 컨볼루션 레이어에서, 필터는 입력 및 필터의 요소별 내적 위로 슬라이딩하고, 입력은 특징부 맵으로서 저장된다. 활성화 함수는 컨볼루션 신경망의 컨볼루션 레이어 내의 특징부 맵에 적용된다. 활성화 함수는 신경망이 추출된 특징부 맵 내의 비선형 패턴을 검출할 수 있게 한다. 식 f(x) = max(0,x)를 갖는 정류기 선형 함수가 특징부 맵에 적용될 수 있다. 정류기 선형 활성화 함수는 양의 값에 대해 선형으로 동작하여, 이 함수를 최적화하기 용이하게 하고, 이어서 신경망이 높은 예측 정확도를 달성할 수 있게 한다. 정류기 선형 활성화 함수는 또한 모든 음의 입력에 대해 0을 출력하며, 이는 진(true) 선형 함수가 아님을 의미한다. 따라서, 컨볼루션 신경망 내의 컨볼루션 레이어의 출력은 특징부 맵이며, 여기에서 특징부 맵 내의 값들은 정류기 선형 활성화 함수를 거친다. 다른 구현예에서, 시그모이드 함수 또는 하이퍼볼릭 접선 함수가 활성화 함수에 적용될 수 있다.
활성화 함수에 의해 작용된 추출된 특징부 맵은, (191)로 표시된 바와 같이, 풀링 레이어 내로 후속하여 입력될 수 있다. 풀링 레이어는 데이터를 다운-샘플링한다. 풀링 윈도우가 특징부 맵에 적용될 수 있다. 일부 구현예에서, 풀링 레이어는 윈도우에서 데이터의 최대값을 출력하고, 윈도우에서 데이터를 다운-샘플링한다. 최대 풀링은 풀링 윈도우에서 가장 두드러진 특징을 강조한다.
다운-샘플링된 풀링 데이터는, 일부 구현예에서, 후속하여 컨볼루션 신경망의 완전 연결 레이어(192)로 입력되기 전에 평탄화될 수 있다.
일부 구현예에서, 완전 연결 레이어는 하나의 뉴런 세트만을 가질 수 있다. 대안적인 구현예에서, 완전 연결 레이어는 제1 레이어(193) 내의 뉴런 세트, 및 후속하는 히든 레이어(194) 내의 뉴런 세트를 가질 수 있다. 완전 연결 내의 히든 레이어의 수는 추려질 수 있다. 즉, 신경망 내의 히든 레이어의 수는 신경망이 출력을 분류하는 방법을 학습함에 따라 순응적으로 변경될 수 있다.
완전 연결 레이어에서, 각각의 레이어(193 및 194) 내의 뉴런은 서로 연결된다. 뉴런은 가중치에 의해 연결된다. 학습 동안, 일부 뉴런의 효과를 강화하고 다른 뉴런의 효과를 약화시키도록 가중치는 조정된다. 각 뉴런의 강도를 조정하면 신경망이 출력을 더 잘 분류할 수 있다. 일부 구현예에서, 신경망 내의 뉴런의 수는 추려질 수 있다. 즉, 신경망 내에서 활성인 뉴런의 수는 신경망이 출력을 분류하는 방법을 학습함에 따라 순응적으로 변경될 수 있다.
학습 후, 예측 값과 알려진 값 사이의 오차가 너무 적어 그 오차가 허용 가능한 것으로 간주될 수 있고, 신경망은 학습을 계속할 필요가 없다. 이러한 상황에서, 이러한 적은 오차율을 산출한 가중치의 값이 저장되고 후속적으로 시험에 사용될 수 있다. 일부 구현예에서, 신경망은, 신경망이 하나의 출력을 매우 양호하게 예측하는 방법을 학습하지 않았거나, 우발적으로 매우 양호하게 예측하는 방법을 학습하지 않았음을 보장하기 위해, 여러 번 반복하는 동안 적은 오차율을 만족시켜야 한다. 여러 번 반복하는 동안 네트워크가 적은 오차를 유지하도록 요구하면, 네트워크가 다양한 범위의 입력을 적절히 분류할 가능성이 증가한다.
블록 다이어그램에서, (195)는 신경망의 출력을 나타낸다. 완전 연결 레이어의 출력은 실제 수의 벡터이다. 일부 구현예에서, 실제 수는 출력되고 분류될 수 있다. 대안적인 구현예에서, 완전 연결 레이어의 출력은 softmax 분류기로 입력된다.
블록 다이어그램에서, (196)은 softmax 분류기 레이어를 나타낸다. softmax 분류기는 softmax 함수 또는 정규화된 지수 함수를 사용하여, 실제 숫자의 입력을 예측된 출력 클래스보다 정규화된 확률 분포로 변환한다. 다른 구현예에서, 시그모이드 함수를 사용해 컨볼루션 신경망의 출력을 분류할 수 있다. 하나의 클래스가 있는 경우, 시그모이드 기능이 사용될 수 있다. Softmax 함수는 다중 클래스 시그모이드 함수이다. 일부 구현예에서, 신경망의 출력은 단백질의 품질 메트릭을 개선하기 위한 예측된 후보 잔기 및 아미노산 잔기를 나타낸다. 다른 구현예에서, 신경망의 출력은 아미노산 서열의 각각의 잔기에 대한 특이적 아미노산을 나타내는 아미노산 서열일 수 있다.
일부 구현예에서, 다수의 독립적으로 학습된 신경망으로부터의 예측을 조합함으로써, 문제가 있는 잔기가 식별되고, 새로운 잔기에 대한 제안이 이루어진다. 독립적으로 학습된 신경망에 기초하여 잔기를 식별함으로써, 신경망이 학습되는 동안 발생하고 임의의 개별 신경망에 대해 고유한 특이성으로 인한 편향이 제거될 수 있다. 많은 독립적인 신경망의 평균은 임의의 개별 네트워크와 관련된 오류를 제거한다.
기존 알고리즘에 대한 다양한 개선은 누적적으로 정확성을 개선하였다. 도 2b에 도시된 바와 같이, 일 구현예에서, 다양한 개선이 합쳐져, 모든 아미노산에 걸쳐 야생형 아미노산 예측의 모델 정확성을 약 40% 내지 70% 초과로 증가시켰다.
조작된 단백질
본원에서 논의된 시스템 및 방법의 구현은, 천연 단백질 또는 부모 단백질의 형질 또는 특성과 비교하여 단백질의 원하는 형질 또는 특성을 변형시키는 하나 이상의 돌연변이를 포함하는 조작된 단백질을 포함하는 조성물을 추가로 제공하거나 식별한다. 일 구현예에서, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 변형된 단백질은, 원하는 형질 또는 특성을 단백질에 부여하도록, 본원에서 논의된 시스템 및 방법의 구현에 대한 3D 컨볼루션 신경망(3DCNN) 예측 파이프라인에 의해 예측된 하나 이상의 아미노산 잔기 내의 하나 이상의 돌연변이를 포함한다. 3DCNN 예측 파이프라인에 의한 분석으로부터 예측된 잔기에서의 돌연변이를 포함하도록 생성된 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 조작된 단백질은 본원에서 3DCNN-조작 단백질로서 지칭된다.
본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 3DCNN-조작 단백질에서 변형될 수 있는 예시적인 형질 또는 특성은 안정성, 친화도, 활성, 반감기, 형광 특성, 및 광표백에 대한 민감도를 포함하지만, 이에 한정되지 않는다.
본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 3DCNN-조작 단백질은 화학적 방법을 사용하여 제조될 수 있다. 예를 들어, 3DCNN-조작 단백질은 고상 기술(Roberge J Y 외, (1995) Science 269:202-204)에 의해 합성되고, 수지로부터 절단되고, 분취 고성능 액상 크로마토그래피에 의해 정제될 수 있다. 자동화된 합성은, 예를 들어, 제조사가 제공한 지침에 따라 ABI 431 A Peptide Synthesizer(Perkin Elmer)를 사용하여 달성될 수 있다.
3DCNN-조작 단백질은, 암호화 핵산 서열의 번역, 재조합 수단 또는 더 긴 단백질 서열로부터의 절단에 의해 대안적으로 제조될 수 있다. 3DCNN-조작 단백질의 조성물은 아미노산 분석 또는 시퀀싱에 의해 확인될 수 있다.
본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 3DCNN-조작 단백질의 변이체는, (i) 하나 이상의 아미노산 잔기가 보존된 또는 보존되지 않은 아미노산 잔기(바람직하게는 보존된 아미노산 잔기)로 치환되는 것(이러한 치환된 아미노산 잔기는 유전자 코드에 의해 암호화되거나 암호화되지 않을 수 있음), (ii) 하나 이상의 변형된 아미노산 잔기(예를 들어, 치환기의 부착에 의해 변형된 잔기)가 있는 것, (iii) 3DCNN-조작 단백질의 단편 및/또는 (iv) 3DCNN-조작 단백질이 또 다른 단백질 또는 폴리펩티드와 융합된 단편일 수 있다. 단편은 원래의 3DCNN-조작 단백질 서열의 단백질 분해 절단(다중 부위 단백질 분해 포함)을 통해 생성된 폴리펩티드를 포함한다. 변이체는 번역 후 또는 화학적으로 변형될 수 있다. 이러한 변이체는 본원의 교시로부터 당업자의 범주 내에 있는 것으로 간주된다.
당업계에 공지된 바와 같이, 2개의 폴리펩티드 사이의 "유사성"은 아미노산 서열과 이의 하나의 폴리펩티드의 보존된 아미노산 치환물을 제2 폴리펩티드의 서열과 비교함으로써 결정된다. 변이체는 원래의 서열과 상이한 폴리펩티드 서열을 포함하는 것으로 정의되고, 관심 분절 당 잔기의 40% 미만이 원래의 서열과 상이하고, 관심 분절 당 잔기의 25% 미만이 원래의 서열과 상이하고, 관심 분절 당 잔기의 10% 미만이 원래의 서열과 상이하거나, 관심 분절 당 단지 몇 개의 잔기가 원래의 서열과 상이하고, 동시에 원래의 서열의 기능성 및/또는 유비퀴틴 또는 유비퀴틸화 단백질에 결합하는 능력을 보존하도록 원래의 서열과 충분히 상동인 것으로 정의된다. 본원에서 논의된 시스템 및 방법의 구현은 원래의 아미노산 서열과 적어도 60%, 65%, 70%, 72%, 74%, 76%, 78%, 80%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 유사하거나 동일한 아미노산 서열을 생성하거나 식별하는 데 사용될 수 있다. 2개의 아미노산 서열 사이의 동일성은, 바람직하게는 BLASTP 알고리즘[BLAST Manual, Altschul, S. 등, NCBI NLM NIH Bethesda, Md. 20894, Altschul, S. 등, J. Mol. Biol. 215: 403-410 (1990)]을 사용함으로써 결정된다.
본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 3DCNN-조작 단백질은 번역 후 변형될 수 있다. 예를 들어, 본원에서 논의된 시스템 및 방법의 구현 범위에 속하는 번역 후 변형은, 신호 펩티드 절단, 당질화, 아세틸화, 이소프레닐화, 단백질 분해, 미리스토일화, 단백질 접힘 및 단백질 분해 프로세싱 등을 포함한다. 일부 변형 또는 프로세싱 이벤트는 추가적인 생물학적 기구의 도입을 필요로 한다. 예를 들어, 신호 펩티드 절단 및 코어 당질화와 같은 프로세싱 이벤트는, 개과 마이크로솜 막 또는 제노푸스(Xenopus) 달걀 추출물(미국 특허 제6,103,489호)을 표준 번역 반응에 첨가함으로써 실시한다.
본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 3DCNN-조작 단백질은 번역 후 변형에 의해 또는 번역 중 비천연 아미노산을 도입함으로써 형성된 비천연 아미노산을 포함할 수 있다. 단백질 번역 동안의 비천연 아미노산 도입을 위한 다양한 접근법이 이용 가능하다. 예로서, 억제자 특성을 갖는 tRNA, 즉 억제자 tRNA와 같은 특별한 tRNA가 부위-지시 비천연 아미노산 치환(Site-directed Non-native Amino Acid Replacement, SNAAR)의 프로세스에 사용되었다. SNAAR에서, 고유 코돈이 mRNA 및 억제자 tRNA에 필요하며, 이는 단백질 합성 동안 고유한 부위에 비천연 아미노산을 표적화하도록 작용한다(WO90/05785에 기술됨). 그러나, 억제자 tRNA는 단백질 번역 시스템에 존재하는 아미노아실 tRNA 합성효소에 의해 인식될 수 없어야 한다. 특정 경우, 비천연 아미노산은 천연 아미노산을 특이적으로 변형시키고 아미노아실화된 tRNA의 기능적 활성을 유의하게 변화시키지 않는 화학 반응을 사용하여 tRNA 분자가 아미노아실화된 후에 형성될 수 있다. 이들 반응은 아미노아실화 후 변형으로서 지칭된다. 예를 들어, 그의 동족 tRNA(tRNALYS)에 연결된 리신의 엡실론-아미노기는 아민 특이적 광친화도 표지로 변형될 수 있다.
본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 3DCNN-조작 단백질은 융합 단백질을 제조하도록 단백질과 같은 다른 분자와 접합될 수 있다. 이는, 예를 들어, 생성된 융합 단백질이 3DCNN-조작 단백질의 기능성을 보유하는 경우, N-말단 또는 C-말단 융합 단백질의 합성에 의해 달성될 수 있다.
3DCNN-조작 단백질 모방체
일부 구현예에서, 대상체 조성물은 3DCNN-조작 단백질의 펩티드모방체이다. 펩티드모방체는 펩티드 및 단백질에 기초하거나 이로부터 유래된 화합물이다. 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 펩티드모방체는 일반적으로, 비천연 아미노산, 배좌 억제, 등배체 대체 등을 사용하여, 알려진 3DCNN-조작 단백질 서열의 구조적 변형에 의해 수득될 수 있다. 대상체 펩티드모방체는 펩티드와 비-펩티드 합성 구조 사이의 구조적 공간의 연속체를 구성하며; 따라서, 펩티드모방체는, 약물특이분자단(pharmacophore)을 기술하고, 펩티드를 부모 3DCNN-조작 단백질의 활성을 갖는 비-펩티드 화합물로 번역하는 것을 돕는 데 유용하다.
또한, 본 개시로부터 명백해지는 바와 같이, 대상체 3DCNN-조작 단백질의 모방체가 제공될 수 있다. 이러한 펩티드모방체는 비가수분해성(예를 들어, 해당 펩티드를 분해하는 프로테아제 또는 다른 생리학적 조건에 대한 증가된 안정성), 증가된 특이성 및/또는 효능, 및 펩티드모방체의 세포내 국소화를 위한 증가된 세포 투과성과 같은 속성을 가질 수 있다. 예시를 위해, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 펩티드 유사체는, 예를 들어, 벤조디아제핀(예를 들어, Freidinger 등, in Peptides: Chemistry and Biology, G. R. Marshall 편, ESCOM Publisher: Leiden, Netherlands, 1988), 치환된 감마 락탐 고리(Garvey 외, in Peptides: Chemistry and Biology, G. R. Marshall 편, ESCOM Publisher: Leiden, Netherlands, 1988, p123), C-7 모방체(Huffman 외, in Peptides: Chemistry and Biology, G. R. Marshall 편, ESCOM Publisher: Leiden, Netherlands, 1988, p. 105), 케토-메틸렌 유사펩티드(Ewenson 외, (1986) J Med Chem 29:295; 및 Ewenson 외, in Peptides: Structure and Function (Proceedings of the 9th American Peptide Symposium) Pierce Chemical Co. Rockland, Ill., 1985), β-턴 디펩티드 코어(Nagai 외, (1985) Tetrahedron Lett 26:647; 및 Sato 외, (1986) J Chem Soc Perkin Trans 1:1231), β-아미노알콜(Gordon 외, (1985) Biochem Biophys Res Commun 126:419; 및 Dann 외, (1986) Biochem Biophys Res Commun 134:71), 디아미노케톤(Natarajan 외, (1984) Biochem Biophys Res Commun 124:141), 및 메틸렌아미노-변형체(Roark 외, in Peptides: Chemistry and Biology, G. R. Marshall 편, ESCOM Publisher: Leiden, Netherlands, 1988, p134)를 사용하여 생성될 수 있다. (또한, Session III: Analytic and synthetic methods, in Peptides: Chemistry and Biology, G. R. Marshall 편, ESCOM Publisher: Leiden, Netherlands, 1988를 참조한다.)
3DCNN-조작 단백질 펩티드모방체를 생성하기 위해 수행될 수 있는 다양한 측쇄 치환에 더하여, 본원에서 논의된 시스템 및 방법의 구현은, 특히 펩티드 2차 구조의 배좌 억제된 모방체의 사용을 고려한다. 펩티드의 아미드 결합을 위한 다수의 대리물질이 개발되었다. 아미드 결합에 대해 빈번하게 이용되는 대리물질은 (i) 트랜스-올레핀, (ii) 플루오로알켄, (iii) 메틸렌아미노, (iv) 포스폰아미드, 및 (v) 술폰아미드를 포함한다.
핵산
일 구현예에서, 본원에서 논의된 시스템 및 방법의 구현예는 3DCNN-조작 단백질을 암호화하는 뉴클레오티드 서열을 포함하는 단리된 핵산을 생성하거나 식별하는 데 사용될 수 있다.
3DCNN-조작 단백질을 암호화하는 뉴클레오티드 서열은, 대안적으로 원래의 뉴클레오티드 서열에 대한 서열 변이, 예를 들어 하나 이상의 뉴클레오티드의 치환, 삽입 및/또는 결실을 포함할 수 있으며, 이때 생성된 폴리뉴클레오티드는 본원에서 논의된 시스템 및 방법의 구현에 따라 폴리펩티드를 암호화한다. 따라서, 본원에서 논의된 시스템 및 방법의 구현은 본원에서 인용된 뉴클레오티드 서열과 실질적으로 동일하고 3DCNN-조작 단백질을 암호화하는 뉴클레오티드 서열을 생성하거나 식별하는 데 사용될 수 있다.
본 명세서에서 사용된 의미에서, 뉴클레오티드 서열은 이의 뉴클레오티드 서열이 본원에 기술된 어느 하나의 뉴클레오티드 서열에 대해 적어도 60%, 적어도 70%, 적어도 85%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98% 또는 적어도 99%의 동일성을 가질 때, 그 뉴클레오티드 서열과 "실질적으로 동일하다". 3DCNN-조작 단백질을 암호화하는 뉴클레오티드 서열과 실질적으로 상동인 뉴클레오티드 서열은, 예를 들어, 보존적 또는 비보존적 치환을 도입함으로써 뉴클레오티드 서열에 포함된 정보에 기초하여 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 폴리펩티드의 생산자 유기체로부터 일반적으로 단리될 수 있다. 가능한 변형의 다른 예는, 서열 내 하나 이상의 뉴클레오티드의 삽입, 서열 내 임의의 단부에 하나 이상의 뉴클레오티드의 첨가, 또는 서열 내 임의의 단부 또는 그 내부에 하나 이상의 뉴클레오티드의 결실을 포함한다. 2개의 뉴클레오티드 서열 사이의 동일성은, 바람직하게는 BLASTN 알고리즘[BLAST Manual, Altschul, S. 등, NCBI NLM NIH Bethesda, Md. 20894, Altschul, S. 등, J. Mol. Biol. 215: 403-410 (1990)]을 사용함으로써 결정된다.
다른 양태에서, 본원에서 논의된 시스템 및 방법의 구현예는 3DCNN-조작 단백질 또는 이의 유도체를 암호화하는 뉴클레오티드 서열을 포함하는 작제물을 생성하거나 식별하는 데 사용될 수 있다. 특정 구현예에서, 작제물은 전사 및 선택적인 번역, 제어 요소에 작동 가능하게 결합된다. 작제물은 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 뉴클레오티드 서열의 발현에 작동 가능하게 결합된 조절 서열을 포함할 수 있으며, 이는 발현 카세트를 형성한다.
3DCNN-조작 단백질 또는 키메라 3DCNN-조작 단백질은 재조합 DNA 방법을 사용하여 제조될 수 있다. 따라서, 3DCNN-조작 단백질 또는 키메라 3DCNN-조작 단백질을 암호화하는 핵산 분자는 3DCNN-조작 단백질 또는 키메라 3DCNN-조작 단백질의 양호한 발현을 보장하는 적절한 발현 벡터 내에 통합될 수 있다.
따라서, 또 다른 양태에서, 본원에서 논의된 시스템 및 방법의 구현은, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 뉴클레오티드 서열 또는 작제물을 포함하는 벡터를 생성하거나 식별하는 데 사용될 수 있다. 벡터의 선택은 벡터가 후속하여 도입될 숙주 세포에 따라 달라질 것이다. 특정 구현예에서, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 벡터는 발현 벡터이다. 적절한 숙주 세포는 매우 다양한 원핵 및 진핵 숙주 세포를 포함한다. 특정 구현예에서, 발현 벡터는 바이러스 벡터, 박테리아 벡터 및 포유류 세포 벡터로 이루어진 군으로부터 선택된다. 폴리뉴클레오티드, 또는 이들의 동족 폴리펩티드를 생성하기 위해, 원핵- 및/또는 진핵-기반 시스템이 본원에서 논의된 시스템 및 방법의 구현과 함께 사용될 수 있다. 많은 이러한 시스템은 상업적으로 그리고 광범위하게 이용 가능하다.
또한, 발현 벡터는 바이러스 벡터의 형태로 세포에 제공될 수 있다. 벡터로서 유용한 바이러스는 레트로바이러스, 아데노바이러스, 아데노-연관 바이러스, 헤르페스 바이러스, 및 렌티바이러스를 포함하지만, 이에 한정되지 않는다. 일반적으로, 적절한 벡터는 적어도 하나의 유기체 내의 기능적 복제 기점, 프로모터 서열, 용이한 제한 엔도뉴클레아제 부위, 및 하나 이상의 선택 가능한 마커를 함유한다. (예를 들어, WO 01/96584; WO 01/29058; 및 미국 특허 제6,326,193호 참조)
폴리뉴클레오티드의 삽입에 적합한 벡터는, pUC18, pUC19, Bluescript 및 이의 유도체와 같은 원핵생물의 발현 벡터로부터 유래된 벡터, pSA3 및 pAT28과 같은 mp18, mp19, pBR322, pMB9, ColE1, pCR1, RP4, 파지(phage) 및 "셔틀" 벡터, 2형 마이크론 플라스미드, 통합 플라스미드, YEP 벡터, 중심체 플라스미드 등과 같은 효모의 발현 벡터, pAC 시리즈 및 pVL의 벡터와 같은 곤충 세포의 발현 벡터, pIBI, pEarleyGate, pAVA, pCAMBIA, pGSA, pGWB, pMDC, pMY, pORE 시리즈 등과 같은 식물에서의 발현 벡터, 및 바이러스 벡터(아데노바이러스, 레트로바이러스 및 특히 렌티바이러스와 같은 아데노바이러스 연관 바이러스)뿐만 아니라 pSilencer 4.1-CMV(Ambion), pcDNA3, pcDNA3.1/hyg, pHMCV/Zeo, pCR3.1, pEFI/His, pIND/GS, pRc/HCMV2, pSV40/Zeo2, pTRACER-HCMV, pUB6/V5-His, pVAX1, pZeoSV2, pCI, pSVL and PKSV-10, pBPV-1, pML2d 및 pTDT1과 같은 비바이러스 벡터에 기초하는 진핵 세포의 발현 벡터이다.
예시로서, 핵산 서열이 도입되는 벡터는 숙주 세포가 세포 내에 도입될 때 숙주 세포의 게놈에 통합되거나 통합되지 않는 플라스미드일 수 있다. 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 뉴클레오티드 서열 또는 유전자 작제물이 삽입될 수 있는 벡터의 예시적이고 비제한적인 예는 진핵 세포에서의 발현을 위한 tet-on 유도성 벡터를 포함한다.
특정 구현예에서, 벡터는 동물 세포를 형질전환시키는 데 유용한 벡터이다.
재조합 발현 벡터는 또한 3DCNN-조작 단백질 또는 키메라 3DCNN-조작 단백질의 증가된 발현; 3DCNN-조작 단백질 또는 키메라 3DCNN-조작 단백질의 증가된 용해도; 및/또는 친화성 정제에서 리간드로서 작용하여 3DCNN-조작 단백질 또는 키메라 3DCNN-조작 단백질의 정제에 대한 도움을 제공하는 부분을 암호화하는 핵산 분자를 함유할 수 있다. 예를 들어, 단백질 분해 절단 부위가 3DCNN-조작 단백질에 삽입되어 융합 단백질의 정제 후 융합 부분으로부터의 3DCNN-조작 단백질 또는 키메라 3DCNN-조작 단백질의 분리를 가능하게 할 수 있다. 융합 발현 벡터의 예는, 글루타티온 S-트랜스퍼라제(GST), 말토오스 E 결합 단백질, 또는 단백질 A를 재조합 단백질에 각각 융합하는, pGEX(Amrad Corp., Melbourne, Australia), pMAL(New England Biolabs, Beverly, Mass.) 및 pRIT5(Pharmacia, Piscataway, N.J.)를 포함한다.
추가 프로모터 요소, 즉 인핸서가 전사 개시의 빈도를 조절한다. 통상적으로, 이들은 시작 부위의 상류의 30 내지 110 bp 영역에 위치하지만, 최근에는 다수의 프로모터가 시작 부위의 하류의 기능적 요소를 또한 함유하는 것으로 밝혀졌다. 프로모터 요소 사이의 간격은 요소가 서로에 대해 반전되거나 이동될 때 프로모터 기능이 보존되도록, 주로 가요성이다. 티미딘 키나아제(tk) 프로모터에서, 활성 감소가 시작하기 전에 프로모터 요소 사이의 간격이 50 bp로 증가될 수 있다. 프로모터에 따라, 개별 요소는 전사를 활성화하도록 협력적으로 또는 독립적으로 기능할 수 있는 것으로 보인다.
프로모터는 코딩 분절 및/또는 엑손의 상류에 위치한 5' 비암호화 서열을 단리함으로써 수득될 수 있는 바와 같이, 유전자 또는 폴리뉴클레오티드 서열과 자연적으로 연관될 수 있다. 이러한 프로모터는 "내인성"으로 지칭될 수 있다. 유사하게, 인핸서는 그 서열의 하류 또는 상류에 위치한 폴리뉴클레오티드 서열과 자연적으로 연관될 수 있다. 대안적으로, 특정 장점은 재조합 또는 이종 프로모터의 조절 하에 코딩 폴리뉴클레오티드 분절을 위치시킴으로써 획득될 것이며, 이는 그의 자연 환경에서의 폴리뉴클레오티드 서열과 정상적으로 연관되지 않는 프로모터를 지칭한다. 재조합 또는 이종 인핸서는 또한 그의 자연 환경에서의 폴리뉴클레오티드 서열과 정상적으로 연관되지 않은 인핸서를 지칭한다. 이러한 프로모터 또는 인핸서는 다른 유전자의 프로모터 또는 인핸서, 및 임의의 다른 원핵 세포, 바이러스 세포 또는 진핵 세포로부터 단리된 프로모터 또는 인핸서, 그리고 상이한 전사 조절 영역의 상이한 요소를 함유하는 "자연 발생"이 아닌 프로모터 또는 인핸서, 및/또는 발현을 변경시키는 돌연변이를 포함할 수 있다. 프로모터 및 인핸서의 핵산 서열을 합성적으로 생산하는 것 이외에, 본원에 개시된 조성물과 관련하여, PCRTM을 포함하는 재조합 클로닝 및/또는 핵산 증폭 기술을 사용하여 서열이 생산될 수 있다(미국 특허 제4,683,202호, 미국 특허 제5,928,906호). 또한, 미토콘드리아, 엽록체 등과 같은 비핵 소기관 내에서 서열의 전사 및/또는 발현을 유도하는 조절 서열 또한 사용될 수 있는 것으로 고려된다.
당연히, 발현을 위해 선택된 세포 유형, 소기관 및 유기체 내의 DNA 분절의 발현을 효과적으로 유도하는 프로모터 및/또는 인핸서를 사용하는 것이 중요할 것이다. 사용된 프로모터는, 도입된 DNA 분절의 높은 수준의 발현을 유도하기 위해 적절한 조건 하에서 구성적이고, 조직 특이적이고, 유도성이고/이거나 유용할 수 있으며, 이는 재조합 단백질 및/또는 펩티드의 대규모 생산에 유리하다. 프로모터는 이종 또는 내인성일 수 있다.
본원에서 제시된 실험 예에서 예시된 프로모터 서열은 즉각적인 초기 거대세포바이러스(CMV) 프로모터 서열이다. 이러한 프로모터 서열은 이에 작동 가능하게 연결된 임의의 폴리뉴클레오티드 서열의 높은 수준의 발현을 유도할 수 있는 강력한 구성적 프로모터 서열이다. 그러나, 다른 구성적 프로모터 서열이 사용될 수도 있고, 이는, 시미안 바이러스 40(SV40) 조기 프로모터, 마우스 유방 종양 바이러스(MMTV), 인간 면역결핍 바이러스(HIV) 장말단 반복(LTR) 프로모터, 몰로니(Moloney) 바이러스 프로모터, 조류 백혈병 바이러스 프로모터, 엡스타인-바(Epstein-Barr) 바이러스 즉각 조기 프로모터, 루스(Rous) 육종 바이러스 프로모터, 및 액틴 프로모터, 미오신 프로모터, 헤모글로빈 프로모터, 근육 크레아틴 프로모터와 같으나 이에 한정되지 않는 인간 유전자 프로모터를 포함하나, 이에 한정되지 않는다. 또한, 본원에서 논의된 시스템 및 방법의 구현은 구성적 프로모터의 사용에 한정되지 않는다. 유도성 프로모터는 또한 본원에서 논의된 시스템 및 방법의 구현을 통해 생성되거나 식별될 수 있다. 이러한 시스템 또는 방법을 통해 생성되거나 식별된 유도성 프로모터의 사용은, 이러한 발현이 필요할 때 작동 가능하게 연결된 폴리뉴클레오티드 서열의 발현을 켜거나, 발현이 바람직하지 않을 때 발현을 끌 수 있는 분자 스위치를 제공한다. 유도성 프로모터의 예는 메탈로티오닌 프로모터, 글루코코르티코이드 프로모터, 프로게스테론 프로모터, 및 테트라시클린 프로모터를 포함하지만, 이에 한정되지 않는다. 또한, 본원에서 논의된 시스템 및 방법의 구현은 원하는 조직에서만 활성인 조직 특이적 프로모터의 사용을 허용할 수 있다. 조직 특이적 프로모터는 HER-2 프로모터 및 PSA 관련 프로모터 서열을 포함하지만, 이에 한정되지 않는다.
일 구현예에서, 핵산의 발현은 외부에서 제어된다. 예를 들어, 일 구현예에서, 발현은 독시시클린 Tet-On 시스템 또는 다른 유도성 또는 억제성 발현 시스템을 사용하여 외부에서 제어된다.
재조합 발현 벡터는 또한 형질전환되거나 형질감염된 숙주 세포의 선택을 용이하게 하는 선택성 마커 유전자를 함유할 수 있다. 적절한 선택성 마커 유전자는 특정 약물, β-갈락토시다아제, 클로람페니콜 아세틸트랜스퍼라아제, 반딧불 루시퍼라아제, 또는 면역글로불린 또는 면역글로불린의 Fc 부분, 바람직하게는 IgG과 같은 이의 일부에 대한 내성을 부여하는 G418 및 히그로마이신과 같은 단백질을 암호화하는 유전자이다. 선택성 마커는 관심 핵산과는 별도의 벡터 상에 도입될 수 있다.
리포터 유전자는 잠재적으로 형질감염된 세포를 식별하고 조절 서열의 기능성을 평가하기 위해 사용된다. 일반적으로, 리포터 유전자는 수용자 유기체 또는 조직에 존재하지 않거나 이에 의해 발현되지 않으며, 효소 활성과 같은 용이하게 검출 가능한 일부 특성에 의해 발현되는 단백질을 암호화하는 유전자이다. 리포터 유전자의 발현은 DNA가 수용자 세포 내로 도입된 후의 적절한 시간에 분석된다.
예시적인 리포터 유전자는 루시페라아제, 베타-갈락토시다아제, 클로람페니콜 아세틸 트랜스퍼라아제, 분비된 알칼리 인산분해효소, 또는 녹색 형광 단백질 유전자를 포함하지만 이에 한정되지 않는 형광 단백질을 암호화하는 유전자를 포함할 수 있다(예를 들어, Ui-Tei 외, 2000 FEBS Lett. 479:79-82 참조).
일 구현예에서, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 3DCNN-조작 단백질은 리포터 유전자이며 적절한 발현 시스템에 포함된다. 예를 들어, 일 구현예에서, 이러한 시스템 또는 방법에 의해 생성되거나 식별된 3DCNN-조작 단백질은 증가된 형광 활성을 갖는 청색 형광 단백질이다. 이러한 구현예에서, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 3DCNN-조작 단백질을 암호화하는 뉴클레오티드 서열은 이종 단백질 서열의 검출을 허용하도록 발현 시스템에 통합될 수 있다.
재조합 발현 벡터를 숙주 세포 내로 도입하여 재조합 세포를 생산할 수 있다. 세포는 원핵 또는 진핵 세포일 수 있다. 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 벡터는 효모 세포, 사카로미세스 세레비시아, 또는 포유동물 세포, 예를 들어, 상피 신장 293 세포 또는 U2OS 세포, 또는 예를 들어 박테리아, 대장균 또는 바실루스 서브틸리스와 같은 원핵 세포를 형질전환시키는 데 사용될 수 있다. 핵산은 인산칼슘 또는 염화칼슘 공동침전, DEAE-덱스트란-매개 형질감염, 리포펙틴, 전기천공 또는 미세주입과 같은 종래의 기술을 사용하여 세포 내로 도입될 수 있다. 숙주 세포를 형질전환하고 형질감염시키기 위한 적절한 방법은, Sambrook 외 (Molecular Cloning: A Laboratory Manual, 제2판, Cold Spring Harbor Laboratory press (1989)), 및 기타 실험실 텍스트북에서 찾을 수 있다.
예를 들어, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 3DCNN-조작 단백질 또는 키메라 3DCNN-조작 단백질은 대장균, 곤충 세포(바큘로바이러스 사용), 효모 세포 또는 포유류 세포와 같은 박테리아 세포에서 발현될 수 있다. 다른 적절한 숙주 세포는 Goeddel, Gene Expression Technology: Methods in Enzymology 185, Academic Press, San Diego, Calif. (1991)에서 찾을 수 있다.
변형된 청색 형광 단백질
일 구현예에서, 본원에서 논의된 시스템 및 방법의 구현은 secBFP2 변이체 단백질을 식별하거나 생성하는 데 사용될 수 있다. 특정 양태에서, 조성물은 안정성을 향상시키는 하나 이상의 돌연변이를 포함하는 secBFP2 변이체 단백질에 관한 것이다. 특정 양태에서, secBFP2 변이체 단백질은 야생형 secBFP2에 비해 향상된 안정성, 향상된 형광성, 향상된 반감기, 및 보다 느린 광표백 중 하나 이상을 나타낸다.
일부 구현예에서, secBFP2 변이체 단백질은 하나 이상의 돌연변이를 포함하는 secBFP2를 포함한다. 예를 들어, 일부 구현예에서, secBFP2 변이체 단백질은 다음으로부터 선택된 하나 이상의 잔기에서 하나 이상의 돌연변이를 포함하는 secBFP2를 포함한다: 전장 야생형 secBFP2와 관련하여, T18, S28, Y96, S114, V124, T127, D151, N173, 및 R198. 일 구현예에서, 전장 야생형 secBFP2는 다음의 아미노산 서열을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN* (서열번호 1)
소정의 구현예에서, 본원에 기술된 secBFP2 변이체 단백질 내의 돌연변이의 표기는 서열번호 1에 관한 것이다. 예를 들어, T18에서 돌연변이를 포함하는 secBFP2 변이체 단백질은 secBFP2를 지칭하지만, 전장 야생형 secBFP2(서열번호 1)의 위치 18에서 트레오닌과 관련되는 잔기에서 돌연변이를 갖는다.
일부 구현예에서, secBFP2 변이체 단백질은 다음으로부터 선택된 하나 이상의 돌연변이를 포함하는 secBFP2를 포함한다: 전장 야생형 secBFP2와 관련하여, T18X, S28X, Y96X, S114X, V124X, T127X, D151X, N173X, 및 R198X(여기에서, X는 아미노산임). 일부 구현예에서, secBFP2 변이체 단백질은 다음으로부터 선택된 하나 이상의 돌연변이를 포함하는 secBFP2를 포함한다: 전장 야생형 secBFP2와 관련하여, T18W, T18V, T18E, S28A, Y96F, S114V, S114T, V124T, V124Y, V124W, T127P, T127L, T127R, T127D, D151G, N173T, N173H, N173R, N173S, R198V 및 R198L.
일 구현예에서, secBFP2 변이체 단백질은 T18X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, T18W 돌연변이, T18V 돌연변이, 또는 T18E 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEG W VDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 2), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEG V VDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 3), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEG E VDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 4), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 S28X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28A 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCT A EGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 5), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 Y96X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, Y96F 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTT F EDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 6), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 S114X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S114V 돌연변이 또는 S114T 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDG V LIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 7), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDG T LIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 8), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 V124X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, V124T 돌연변이, V124Y 돌연변이, 또는 V124W 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRG T DFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 9), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRG Y DFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 10), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRG W DFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 11), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 T127X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, T127P 돌연변이, T127L 돌연변이, T127R 돌연변이, 또는 T127D 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDF P SNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 12), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDF L SNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 13), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDF R SNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 14), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDF D SNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 15), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 D151X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, D151G 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPA G GGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 16), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 N173X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, N173T 돌연변이, N173H 돌연변이, N173R 돌연변이, 또는 N173S 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIA T AKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 17), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIA H AKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 18), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIA R AKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 19), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIA S AKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 20), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 R198X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, R198V 돌연변이 또는 R198L 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDY V LERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 21), 또는 이의 변이체 또는 단편.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCTSEGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDGSLIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDY L LERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 22), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, T18X, S28X, Y96X, S114X, V124X, T127X, D151X, N173X, 및 R198X 돌연변이 중 하나 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 또는 9개 모두를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, T18W, T18V, T18E, S28A, Y96F, S114V, S114T, V124T, V124Y, V124W, T127P, T127L, T127R, T127D, D151G, N173T, N173H, N173R, N173S, R198V 및 R198L 돌연변이 중 하나 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 또는 9개 이상을 포함하는 secBFP2를 포함한다.
일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, T18X, S28X, S114X, V124X, T127X, D151X, N173X, 및 R198X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, T18W, S28A, S114V, V124T, T127P, D151G, N173T, 및 R198L 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEG W VDNHHFKCT A EGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDG V LIYNVKIRG T DF P SNGPVMQKKTLGWEAFTETLYPA G GGLEGRNDMALKLVGGSHLIA T AKTTYRSKKPAKNLKMPGVYYVDY L LERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 23), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28X, S114X, T127X, 및 N173X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28A, S114T, T127L, 및 N173H 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCT A EGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDG T LIYNVKIRGVDF L SNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIA H AKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 24), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28X, 및 S114X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28A, 및 S114T 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCT A EGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDG T LIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIANAKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 25), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28X, S114X, 및 N173X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28A, S114T, 및 N173H 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCT A EGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTTYEDGGVLTATQDTSLQDG T LIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIA H AKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 26), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28X, Y96X, S114X, 및 N173X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28A, Y96F, S114T, 및 N173H 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCT A EGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTT F EDGGVLTATQDTSLQDG T LIYNVKIRGVDFTSNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIA H AKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 27), 또는 이의 변이체 또는 단편.
일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28X, Y96X, S114X, T127X, 및 N173X 돌연변이를 포함하는 secBFP2를 포함하며, 여기에서 X는 임의의 아미노산이다. 일 구현예에서, secBFP2 변이체 단백질은 전장 야생형 secBFP2와 관련하여, S28A, Y96F, S114T, T127L, 및 N173H 돌연변이를 포함하는 secBFP2를 포함한다.
예를 들어, 일 구현예에서, secBFP2 변이체 단백질은 다음을 포함한다:
SEELIKENMHMKLYMEGTVDNHHFKCT A EGEGKPYEGTQTMRIKVVEGGPLPFAFDILATSFLYGSKTFIDHTQGIPDFFKQSFPEGFTWERVTT F EDGGVLTATQDTSLQDG T LIYNVKIRGVDF L SNGPVMQKKTLGWEAFTETLYPADGGLEGRNDMALKLVGGSHLIA H AKTTYRSKKPAKNLKMPGVYYVDYRLERIKEANDETYVEQHEVAVARYSDLPSKLGHKLN (서열번호 28), 또는 이의 변이체 또는 단편.
일 구현예에서, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 조성물은 secBFP2 변이체 단백질을 암호화하는 뉴클레오티드 서열을 포함하는 단리된 핵산을 포함한다. 다양한 구현예에서, 핵산 분자는 서열번호 2 내지 서열번호 28에 제시된 바와 같은 적어도 하나의 아미노산 서열, 또는 이의 변이체 또는 단편을 암호화하는 서열을 포함한다.
하나 이상의 관심 폴리펩티드에 작동 가능하게 연결된 형광 단백질 변이체를 포함하는 융합 단백질 또한 제공된다. 융합 단백질의 폴리펩티드는 펩티드 결합을 통해 연결될 수 있거나, 형광 단백질 변이체는 링커 분자를 통해 관심 폴리펩티드에 연결될 수 있다. 일 구현예에서, 융합 단백질은 하나 이상의 관심 폴리펩티드를 암호화하는 하나 이상의 폴리뉴클레오티드에 작동 가능하게 연결된 형광 단백질 변이체를 암호화하는 폴리뉴클레오티드를 함유하는 재조합 핵산 분자로부터 발현된다.
관심 폴리펩티드는, 예를 들어, 폴리히스티딘 펩티드와 같은 펩티드 태그, 또는 효소, G-단백질, 성장 인자 수용자, 또는 전사 인자와 같은 세포 폴리펩티드를 포함하는 임의의 폴리펩티드일 수 있고; 복합체를 형성하기 위해 결합할 수 있는 둘 이상의 단백질 중 하나일 수 있다. 일 구현예에서, 융합 단백질은 탠덤 형광 단백질 변이체 작제물이고, 이는 공여자 형광 단백질 변이체, 수용자 형광 단백질 변이체, 및 전술한 공여자와 전술한 수용자를 결합하는 펩티드 링커 모이어티를 포함하되, 공여자의 고리화된 아미노산은 전술한 공여자의 광 특성을 방출하고, 여기에서 공여자와 수용자는 공여자가 여기될 때, 형광 공명 에너지 전달을 나타내고, 링커 모이어티는 공여자를 여기시키는 광을 실질적으로 방출하지 않는다. 이와 같이, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 융합 단백질은 직접적으로 또는 간접적으로 연결될 수 있는 둘 이상의 작동 가능하게 연결된 형광 단백질 변이체를 포함할 수 있고, 하나 이상의 관심 폴리펩티드를 추가로 포함할 수 있다.
키트
일부 구현예에서, 키트는 본원에서 논의된 시스템 및 방법의 구현에 의해 제공되거나 식별된 조성물의 사용을 용이하게 하고/하거나 표준화할 뿐만 아니라 본원에서 논의된 방법을 용이하게 하기 위해 제공될 수 있다. 이러한 다양한 방법을 수행하기 위한 재료 및 시약은 방법의 실행을 용이하게 하는 키트로 제공될 수 있다. 본원에서 사용되는 용어 "키트"는 프로세싱, 검정, 분석 또는 조작을 용이하게 하는 물품의 조합을 참조하여 사용된다.
키트는 화학 시약(예를 들어, 폴리펩티드 또는 폴리뉴클레오티드)뿐만 아니라 다른 성분을 함유할 수 있다. 이에 더하여, 본원에서 논의된 키트는 또한, 예를 들어, 샘플 수집 및/또는 정제를 위한 장치 및 시약, 생성물 수집 및/또는 정제를 위한 장치 및 시약, 박테리아 세포 형질전환용 시약, 진핵 세포 형질감염용 시약, 이전에 형질전환되거나 형질감염된 숙주 세포, 샘플 튜브, 홀더, 트레이, 랙, 접시, 플레이트, 키트 사용자를 위한 지침서, 용액, 완충액 또는 기타 화학 시약, 표준화용 적절한 샘플, 정규화, 및/또는 대조군 샘플을 포함할 수 있으나, 이에 한정되지 않는다. 키트는 또한, 편리한 보관 및 안전한 운송을 위해, 예를 들어 뚜껑을 갖는 박스 내에 포장될 수 있다.
일부 구현예에서, 예를 들어, 본원에서 논의된 키트는 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 형광 단백질, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 형광 단백질을 암호화하는 폴리뉴클레오티드 벡터(예를 들어, 플라스미드), 벡터를 전파하기에 적합한 박테리아 세포 균주, 및 발현된 융합 단백질의 정제를 위한 시약을 제공할 수 있다. 일부 구현예에서, 본원에서 논의된 바와 같은 키트는 올리고머화 경향이 감소된 단백질 변이체를 생성하기 위해 안토조안(Anthozoan) 형광 단백질의 돌연변이 유발을 수행하는 데 필요한 시약을 제공할 수 있다.
키트는 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 하나 이상의 조성물, 예를 들어 융합 단백질의 일부일 수 있는 하나 또는 복수의 형광 단백질 변이체, 또는 폴리펩티드를 암호화하는 하나 또는 복수의 폴리뉴클레오티드를 함유할 수 있다. 형광 단백질 변이체는 올리고머화 경향이 감소된, 예컨대 비-올리고머화 단량체를 갖는 돌연변이된 형광 단백질일 수 있거나, 키트가 복수의 형광 단백질 변이체를 포함하는 경우, 탠덤 이량체 형광 단백질일 수 있고, 이들은 복수의 형광 단백질 변이체, 또는 탠덤 이량체 형광 단백질, 또는 이들의 조합일 수 있다.
본원에서 논의된 바와 같은 키트는 또한, 동일하거나 상이할 수 있는, 부분적으로 형광 단백질 변이체를 암호화하는, 하나 또는 복수의 재조합 핵산 분자를 함유할 수 있고, 예를 들어, 제한 엔도뉴클레아제 인식 부위 또는 재조합효소 인식 부위, 또는 임의의 관심 폴리펩티드를 함유하거나 암호화하는 작동 가능하게 연결된 제2 폴리뉴클레오티드를 추가로 포함할 수 있다. 또한, 키트는 키트의 구성 요소, 특히 키트에 포함된 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 조성물을 사용하기 위한 지침서을 포함할 수 있다.
이러한 키트는, 당업자가 특정 응용을 위해 원하는 형광 특성을 갖는 하나 이상의 단백질을 편리하게 선택할 수 있기 때문에, 복수의 상이한 형광 단백질 변이체를 제공하는 경우 특히 유용할 수 있다. 유사하게, 상이한 형광 단백질 변이체를 암호화하는 복수의 폴리뉴클레오티드를 함유하는 키트는 많은 이점을 제공한다. 예를 들어, 폴리뉴클레오티드는 편리한 제한 엔도뉴클레아제 또는 재조합효소 인식 부위를 함유하도록 조작될 수 있으며, 따라서, 원하는 경우, 형광 단백질 변이체를 암호화하는 2개 이상의 폴리뉴클레오티드를 서로에게 작동 가능하게 연결시키기 위해, 조절 요소 또는 관심 폴리펩티드를 암호화하는 폴리뉴클레오티드에 대한 폴리펩티드의 작동 가능한 연결을 촉진할 수 있다.
형광 단백질 변이체의 용도
본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 형광 단백질 변이체는 형광 단백질을 사용하는 임의의 방법에 유용하다. 따라서, 단량체, 이량체 및 탠덤 이량체 형광 단백질을 포함하는 형광 단백질 변이체는, 예를 들어, 면역 분석 또는 혼성화 분석과 같은 검출 분석, 또는 세포 내 단백질의 이동을 추적을 위해, 항체, 폴리뉴클레오티드 또는 다른 수용자에 형광 단백질 변이체를 커플링하는 것을 포함하는, 이미 형광 마커가 사용되는 여러 방식에서 형광 마커로서 유용하다. 세포내 추적 연구를 위해, 형광 단백질 변이체를 암호화하는 제1 (또는 다른) 폴리뉴클레오티드를 관심 단백질을 암호화하는 제2 (또는 다른) 폴리뉴클레오티드에 융합하고, 원하는 경우, 작제물을 발현 벡터에 삽입할 수 있다. 세포 내 발현 시, 관심 단백질은, 단백질의 국소화가 융합 단백질의 형광 단백질 성분의 올리고머화에 의해 야기되는 인공물이라는 우려 없이 형광에 기초하여 국소화될 수 있다. 이 방법의 일 구현예에서, 2개의 관심 단백질은 상이한 형광 특성을 갖는 2개의 형광 단백질 변이체와 독립적으로 융합된다.
본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 형광 단백질 변이체는 전사의 유도를 검출하는 시스템에 유용하다. 예를 들어, 비-올리고머화 단량체, 이량체 또는 탠덤 이량체 형광 단백질을 암호화하는 뉴클레오티드 서열은, 관심 프로모터 또는 발현 벡터에 함유될 수 있는 다른 관심 발현 조절 서열에 융합될 수 있고, 작제물은 세포 내로 형질감염될 수 있고, 및 프로모터(또는 다른 조절 요소)의 유도는 형광의 존재 또는 양을 검출함으로써 측정될 수 있으며, 이에 의해 수용자로부터 프로모터로의 신호 전달 경로의 반응성을 관찰할 수 있는 수단을 허용한다.
본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 형광 단백질 변이체는 또한, 서로를 향하거나 서로로부터 멀어지는 형광 공여자 및 수용자의 이동의 함수로서 이벤트를 검출할 수 있는 FRET을 포함하는 응용에서 유용하다. 공여자/수용자 쌍 중 하나 또는 둘 모두는 형광 단백질 변이체일 수 있다. 이러한 공여자/수용자 쌍은 공여자의 여기 피크와 방출 피크 사이에 넓은 분리를 제공하고, 공여자 방출 스펙트럼과 수용자 여기 스펙트럼 사이에 양호한 중첩을 제공한다.
FRET는 절단 부위의 대향 측면 상에서 기질에 결합된 공여자 및 수용자를 갖는 기질의 절단을 검출하는 데 사용될 수 있다. 기질의 절단 시, 공여자/수용자는 물리적으로 분리되어 FRET를 제거한다. 이러한 분석은, 예를 들어, 기질을 샘플과 접촉시키는 단계, FRET에서의 정성적 또는 정량적 변화를 결정하는 단계에 의해 수행될 수 있다(예를 들어, 미국 특허 제5,741,657호를 참조하며, 이는 본원에 참조로서 통합됨). 형광 단백질 변이체 공여자/수용자 쌍은 또한 단백질분해 절단 부위를 갖는 펩티드에 의해 결합된 융합 단백질의 일부일 수 있다(예를 들어, 미국 특허 제5,981,200호를 참조하며, 이는 본원에 참조로서 통합됨). 또한, FRET는 막에 걸친 전위의 변화를 검출하는 데 사용될 수 있다. 예를 들어, 공여자 및 수용자는, 전압 변화에 반응하여 막을 가로질러 병진하도록 막의 반대쪽에 배치될 수 있으며, 이에 의해 측정 가능한 FRET를 생성할 수 있다(예를 들어, 미국 특허 제5,661,035호를 참조하며, 이는 본원에 참조로서 통합됨).
다른 구현예에서, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 형광 단백질은 단백질 키나제 및 포스파타아제 활성에 대한 형광 센서 또는 Ca2+, Zn2+, 고리형 3',5'-아데노신 일인산, 및 고리형 3',5'-구아노신 일인산과 같은 작은 이온 및 분자에 대한 인디케이터를 제조하는 데 유용하다.
샘플에서의 형광은 일반적으로 형광계를 사용하여 측정되며, 여기에서 제1 파장을 갖는 여기원으로부터의 여기 방사선은 여기 광학장치를 통과하고, 이는 샘플을 여기시킨다. 반응 시, 샘플 내의 형광 단백질 변이체는 여기 파장과 상이한 파장을 갖는 방사선을 방출한다. 이어서, 수집 광학장치는 샘플로부터의 방출을 수집한다. 장치는, 샘플을 스캔하는 동안 특정 온도에서 샘플을 유지하기 위한 온도 컨트롤러를 포함할 수 있고, 노출될 상이한 웰을 위치시키기 위해 복수의 샘플을 보유하는 마이크로역가 플레이트를 이동시키는 다중-축 병진 스테이지를 가질 수 있다. 다중-축 병진 스테이지, 온도 제어기, 자동 초점 특징부, 및 이미징과 데이터 수집과 연관된 전자 장치는 적절하게 프로그래밍된 디지털 컴퓨터에 의해 관리될 수 있으며, 이는 또한 분석 중에 수집된 데이터를 프리젠테이션을 위한 다른 포맷으로 변환할 수 있다. 이 프로세스는 소형화되고 자동화되어 수천 개의 화합물을 높은 처리량 포맷으로 스크리닝할 수 있다. 형광 물질에 대한 분석을 수행하는 일부 방법은, Lakowicz, "Principles of Fluorescence Spectroscopy" (Plenum Press 1983); Herman, "Resonance energy transfer microscopy", "Fluorescence Microscopy of Living Cells in Culture" Part B, Meth. Cell Biol. 30:219-243 (Taylor 및 Wang 편; Academic Press 1989); Turro, "Modern Molecular Photochemistry" (Benjamin/Cummings Publ. Co., Inc. 1978), pp. 296-361을 포함하고, 이들 각각은 본원에 참조로서 통합된다.
따라서, 본 개시는 또한 샘플 내의 분자의 존재를 식별하기 위한 방법의 구현예를 제공한다. 이러한 방법은, 예를 들어, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 형광 단백질 변이체를 분자에 연결하고, 분자를 함유하는 것으로 의심되는 샘플에서의 형광 단백질 변이체로 인한 형광을 검출함으로써 수행될 수 있다. 검출될 분자는 폴리펩티드, 폴리뉴클레오티드, 또는 예를 들어, 항체, 효소, 또는 수용자를 포함하는 임의의 다른 분자일 수 있고, 형광 단백질 변이체는 탠덤 이량체 형광 단백질일 수 있다.
검사될 샘플은 생물학적 샘플, 환경 샘플, 또는 특정 분자가 그 내부에 존재하는지의 여부를 결정하는 데 필요한 임의의 다른 샘플을 포함하는 임의의 샘플일 수 있다. 바람직하게는, 샘플은 세포 또는 이의 추출물을 포함한다. 세포는 인간과 같은 포유동물을 포함하는 척추동물로부터 수득될 수 있거나, 무척추동물로부터 수득될 수 있고, 식물 또는 동물 유래의 세포일 수 있다. 세포는 이러한 세포의 배양물, 예를 들어 세포주로부터 수득될 수 있거나, 유기체로부터 단리될 수 있다. 이와 같이, 세포는 조직 샘플 내에 함유될 수 있으며, 이는 예를 들어, 인간 생검에 의해 조직 샘플을 수득하는 데 통상적으로 사용되는 임의의 수단에 의해 유기체로부터 수득될 수 있다. 방법이 온전한 살아있는 세포 또는 새로 단리된 조직 또는 기관 샘플을 사용하여 수행되는 경우, 살아있는 세포 내의 관심 분자의 존재가 식별될 수 있으므로, 예를 들어, 분자의 세포내 구획화를 결정하는 수단을 제공한다. 이러한 목적을 위해 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 형광 단백질 변이체의 사용은, 올리고머화 형광 단백질로 인한 비정상적인 식별 또는 국소화의 가능성을 크게 최소화한다는 점에서 실질적인 이점을 제공한다.
형광 단백질 변이체는 단백질-분자 복합체가 노출될 조건 하에서 안정적인 임의의 연결을 사용하여 분자에 직접 또는 간접적으로 연결될 수 있다. 따라서, 형광 단백질과 분자는 단백질 및 분자 상에 존재하는 반응성 기 사이의 화학 반응을 통해 연결될 수 있거나, 결합은 형광 단백질 및 분자에 특이적인 반응성 기를 함유하는 링커 모이어티에 의해 매개될 수 있다. 형광 단백질 변이체와 분자를 연결하기 위한 적절한 조건은, 예를 들어, 분자의 화학적 성질 및 원하는 결합 유형에 따라 선택된다는 것이 인식될 것이다. 관심 분자가 폴리펩티드인 경우, 형광 단백질 변이체와 분자를 연결하기 위한 편리한 수단은, 예를 들어 폴리펩티드 분자를 암호화하는 폴리뉴클레오티드에 작동 가능하게 연결된 탠덤 이량체 형광 단백질을 암호화하는 폴리뉴클레오티드를 포함하는 재조합 핵산 분자로부터의 융합 단백질로서 이들을 발현시키는 것에 의한 것이다.
발현 조절 서열의 활성을 조절하는 제제 또는 조건을 식별하는 방법이 또한 제공된다. 이러한 방법은, 예를 들어, 발현 조절 서열에 작동 가능하게 연결된 형광 단백질 변이체를 암호화하는 폴리뉴클레오티드를 포함하는 재조합 핵산 분자를 발현 조절 서열로부터의 폴리뉴클레오티드의 발현을 조절할 수 있는 것으로 의심되는 제제 또는 조건에 노출시키는 단계, 및 이러한 노출로 인한 형광 단백질 변이체의 형광을 검출하는 단계에 의해 수행될 수 있다. 이러한 방법은, 예를 들어, 조절 요소로부터의 조직 특이적 발현에 관여하는 세포 인자를 포함하는, 발현 조절 서열로부터의 발현을 조절할 수 있는 세포 단백질을 포함하는 화학적 또는 생물학적 제제를 식별하는 데 유용하다. 이와 같이, 발현 조절 서열은 프로모터, 인핸서, 사일렌서, 인트론 스플라이싱 인식 부위, 폴리아데닐화 부위 등과 같은 전사 조절 요소; 또는 리보솜 결합 부위와 같은 번역 조절 요소일 수 있다.
본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 형광 단백질 변이체는 또한 제1 분자 및 제2 분자의 특이적 상호작용을 식별하는 방법에도 유용하다. 이러한 방법은, 예를 들어, 제1 분자와 제2 분자의 특이적 상호작용을 허용하는 조건 하에 공여자 제1 형광 단백질 변이체에 연결된 제1 분자와 수용자 제2 형광 단백질 변이체에 연결된 제2 분자를 접촉시키는 단계; 공여자를 여기시키는 단계; 및 공여자부터 수용자로의 형광 또는 발광 공명 에너지 전달을 검출함으로써, 제1 분자와 제2 분자의 특이적 상호작용을 식별하는 단계에 의해 수행될 수 있다. 이러한 상호 작용을 위한 조건은 분자가 특이적으로 상호 작용할 수 있는 것으로 예상되거나 의심되는 임의의 조건일 수 있다. 특히, 조사할 분자가 세포 분자인 경우, 조건은 대체로 생리학적 조건이다. 이와 같이, 방법은 생리학적 조건을 모방하는 완충액, pH, 이온 강도 등의 조건을 사용하여 시험관 내에서 수행될 수 있거나, 방법은 세포에서 수행되거나 세포 추출물을 사용하여 수행될 수 있다.
발광 공명 에너지 전달은 화학발광, 생물발광, 란탄화물, 또는 전이 금속 공여자로부터 적색 형광 단백질 모이어티로의 에너지 전달을 수반한다. 적색 형광 단백질의 더 긴 파장의 여기는 녹색 형광 단백질 변이체의 경우보다 더 다양한 공여자로부터 가능한 더 큰 거리에 걸쳐 에너지 전달을 허용한다. 또한, 더 긴 방출 파장은 고상 광검출기에 의해 더 효율적으로 검출되고, 적색 광이 더 짧은 파장보다 훨씬 더 양호하게 조직을 투과하는 생체 내 응용에 특히 유용하다. 화학발광 공여자는 루미놀 유도체 및 퍼옥시옥살레이트 시스템을 포함하나 이에 한정되지 않는다. 생물발광 공여자는 에쿠오린, 오벨린, 반딧불 루시페라아제, 레닐라 루시페라아제, 박테리아 루시페라아제, 및 이들의 변이체를 포함하나 이에 한정되지 않는다. 란탄화물 공여자는 용매 물로부터 금속 이온을 차폐하기 위해 다수의 리간드화 기에 연결된 자외선-흡수성 증감제 발색단을 함유하는 테르븀 킬레이트를 포함하나 이에 한정되지 않는다. 전이 금속 공여자는 올리고피리딘 리간드의 루테늄 및 오스뮴 킬레이트를 포함하나 이에 한정되지 않는다. 화학발광 및 생물발광 공여자는 여기 광을 필요로 하지 않지만, 기질의 첨가에 의해 활성화되는 반면, 금속 기반 시스템은 여기 광을 필요로 하지만, 더 긴 여기 상태 수명을 제공하여, 원치 않는 배경 형광 및 산란을 구별하기 위한 시간 동기 검출을 용이하게 한다.
제1 및 제2 분자는 단백질이 특이적으로 상호 작용하는지의 여부를 결정하거나 이러한 상호 작용을 확인하기 위해 조사 중인 세포 단백질일 수 있다. 이러한 제1 및 제2 세포 단백질은, 예를 들어, 올리고머화 능력에 대해 검사되는 경우에 동일할 수 있거나, 단백질이 예를 들어, 세포내 경로에 관여하는 특이적 결합 파트너로서 검사되는 경우에 상이할 수 있다. 제1 및 제2 분자는 또한 폴리뉴클레오티드 및 폴리펩티드, 예를 들어, 전사 조절 요소 활성에 대해 알려지거나 검사될 폴리뉴클레오티드 및 전사 인자 활성에 대해 알려지거나 시험될 폴리펩티드일 수 있다. 예를 들어, 제1 분자는, 전사 조절 요소 활성에 대해 시험될, 무작위 또는 알려진 서열의 변이체일 수 있는 복수의 뉴클레오티드 서열을 포함할 수 있고, 제2 분자는 전사 인자일 수 있으며, 이러한 방법은 바람직한 활성을 갖는 신규 전사 조절 요소를 식별하는 데 유용한 방법일 수 있다.
본 개시는 또한 샘플이 효소를 함유하는지의 여부를 결정하기 위한 방법의 구현예를 제공한다. 이러한 방법은, 예를 들어, 본원에서 논의된 시스템 및 방법의 구현에 의해 생성되거나 식별된 탠덤 형광 단백질 변이체와 샘플을 접촉시키는 단계; 공여자를 여기시키는 단계; 및 샘플 내의 형광 특성을 결정하는 단계에 의해 수행될 수 있으며, 여기에서 샘플 내의 효소의 존재는 형광 공명 에너지 전달 정도의 변화를 초래한다. 유사하게, 본 개시는 세포 내의 효소의 활성을 결정하기 위한 방법의 구현예를 제공한다. 이러한 방법은, 예를 들어, 탠덤 형광 단백질 변이체 작제물을 발현하는 세포를 제공하는 단계(여기에서, 펩티드 링커 모이어티는 공여자와 수용자를 커플링시키는 효소에 대해 특이적인 절단 인식 아미노산 서열을 포함함); 전술한 공여자를 여기시키는 단계; 및 세포 내의 형광 공명 에너지 전달 정도를 결정하는 단계에 의해 수행될 수 있으며, 여기에서 세포 내의 효소 활성의 존재는 형광 공명 에너지 전달 정도의 변화를 초래한다.
실험 실시예
본원에서 논의된 시스템 및 방법의 구현은 다음의 실험 실시예를 참조하여 더 상세히 설명된다. 이들 실시예는 단지 예시의 목적으로 제공되며, 달리 명시되지 않는 한 제한하려는 것이 아니다. 따라서, 본원에서 논의된 시스템 및 방법은 결코 다음의 실시예에 한정되는 것으로 해석되어서는 안되며, 오히려 본원에 제공된 교시의 결과로서 명백해지는 임의의 그리고 모든 변형을 포함하는 것으로 해석되어야 한다.
추가의 설명 없이, 당업자는 전술한 설명 및 다음의 예시적인 실시예를 사용하여, 본원에서 논의된 시스템 및 방법의 구현예를 만들고 이용할 수 있는 것으로 여겨진다. 따라서, 다음의 작업 실시예는, 구체적으로 본원에서 논의된 시스템 및 방법의 예시적인 구현예를 언급하며, 어떠한 방식으로도 본 개시의 나머지를 제한하는 것으로 해석되어서는 안 된다.
실시예 1: 신경망을 이용한 단백질 조작
신경망을 경험적으로 검증하기 위해, 3개의 상이한 모델 단백질을 선택하였으며, 각각은 고유한 단백질 조작 챌린지를 나타낸다. 첫번째 검증 모델 단백질은 대부분 tem-1 베타 락타마제이고, 이는 1) 항생제에 대한 감수성이 단백질의 전체 안정성과 직접적으로 관련이 있고, 2) 안정화 및 불안정화 돌연변이 둘 모두를 조명하는 데 단백질이 양호하게 특성화되었기 때문이다. 다음으로, 비정규 아미노산인 L-DOPA의 혼입을 위해 리포터 내로 금속단백질 포스포만노오스 이소머라아제를 용도 변경하도록 안정성이 개선되었다. 그러나, 효소의 불량한 안정성으로 인해 리포터로서 작용하는 데 사용되지 않는다. 최종 단백질 사례는 청색 형광 단백질 변이체인 secBFP2를 개선한 것이다. 청색 형광 단백질이 양호하게 특성화되었지만, 신속한 광표백, 느린 성숙 및 접힘, 및 비교적 희미한 형광은 보다 광범위한 사용을 제한한다.
첫째로, 야생형 아미노산이 그 위치에서 최상의 잔기로서 실험적으로 검증된 잔기에 대한 분석을 분리하여 신경망의 진음성 비율을 평가하였다. 이는 tem-1 β-락타마제에서 이전에 공개된 돌연변이 스캔을 사용하여 시험하였으며, 여기에서 각각의 개별적인 아미노산 변화의 효과는 유기체 적합성으로 정량화되었다. tem-1에서 시험된 263개의 위치 중, 136개의 부위는 0 미만의 상대적 적합성 값(즉, 유기체 적합성에 대한 희생 없이 야생형 잔기로부터 돌연변이를 견딜 수 없는 부위)을 가졌다. 136개의 부위로 이루어진 이러한 집합체는 tem-1 베타 락타마제에서 완전한 진음성의 집합체를 구성하였고, 신경망에 이루어진 각각의 개별 변화에 대해 진음성 민감도를 벤치마킹하였다. 최종 버전은 136개의 진음성 중 92.6%를 정확하게 식별하였으며, 이는 초기 모델에 비해 거의 30% 증가한 것이다. 따라서, 개발된 모델은 돌연변이에 순응하지 않는 단백질 내의 부위를 식별하는 개선된 능력을 갖는다.
실험 결과는 도 3a 및 도 3b에 도시되어 있다. 도 3a는 BFP 형광을 개선하도록 신경망에 의해 예측된 부위의 막대 그래프 및 그 양을 도시한다. 최우측 막대(301)는 야생형 단백질에 대한 아미노산 치환의 특정 조합을 구현함으로써 관찰된 형광의 개선을 나타내며, 각각은 신경망에 의해 개별적으로 제안된다. 개선의 시각적 표현이 도 3b에 도시되어 있다. 변형된 청색 형광 단백질(302)은 야생형 청색 형광 단백질(303)보다 훨씬 더 밝게 빛난다.
추가적인 결과는 도 4a 및 도 4b에 도시되어 있다. 도 4b의 막대 그래프는 신경망이 포스포만노오스 이소머라아제(PMI)에 대해 개선을 제시한다는 것을 나타낸다. 개별적인 안정화 돌연변이는 야생형에 비해 각각 15% 내지 50%의 증가를 제공하지만, 조합(막대 401)으로 사용될 경우, 개선은 부가적이고, 이는 거의 600%의 안정성의 상당한 개선을 초래한다.
도 4b의 벤 다이어그램(411)(청색 형광 단백질, pdb: 3m24) 및 (412)(포스포만노오스 이소머라아제, pdb: 1pmi)는 신경망이 다른 연산 단백질 안정화 기술(Foldx PositionScan 및 Rosetta pmut scan)에 의해 식별되지 않은 고유한 후보 잔기를 예측함을 도시한다.
도 5는 신경망에 의해 식별된 TEM-1 β-락타마제 변이체가 조상 단백질보다 더 높은 암피실린 농도에서 대장균 성장을 가능하게 했음을 도시한다. 단독으로 돌연변이된 β-락타마제 돌연변이체 N52K, F60Y, M182T, E197D 또는 A249V를 발현하는 대장균은 각각 125 ug/mL 이상의 암피실린 농도에서 성장할 수 있었고, 'WT'로 표지된 조상 효소를 발현하는 대장균이 성장할 수 없는 농도에서는 성장할 수 없었다. 이들 돌연변이 중 5개(N52K, F60Y, M182T, E197D 및 A249V, 'All'로 표지됨) 모두를 함유하는 단일 효소 변이체를 발현하는 대장균은 3,000 ug/mL 암피실린 농도에서 성장할 수 있었다. 즉, 신경망은 촉매와 관련된 표현형을 개선하였고, 본 구현예에서, 항생제인 암피실린에 대해 대장균이 더 큰 내성을 나타낼 수 있게 하는 표현형을 개선하였다.
도 6은 신경망이 청색 형광 단백질의 열 안정성을 개선하였음을 나타낸다. 일 실시예에서, 10분의 열 챌린지 후의 잔류 형광은, 유래된 단백질인 블루본넷에 비해, 조상 단백질인 SecBFP2.1에 대해 더 적었다. 정제된 청색 형광 단백질을 PBS pH 7.4에서 0.01 mg/mL로 희석하고, 100 uL의 분취물을 열 순환기를 사용하여, 열 구배 상의 PCR 스트립에서 10분 동안 열 처리하였다. 실온에서 인큐베이션된 열 챌린지된 변이체 및 대조군의 형광을 각각 402 nm 및 457 nm의 여기 및 방출 파장을 사용하여 분석하였다. 형광 판독 값을 실온에서 인큐베이션된 용액의 평균으로 정규화하였다(예를 들어, 0.8의 측정은 열 처리된 단백질이 그의 미처리 형광의 80%를 유지하였음을 나타냄). 도 6에 도시된 바와 같이, 블루본넷은 약 84℃ 내지 약 100℃의 전체 온도 범위에 걸쳐, SecBFP2.1에 비해 더 큰 열 안정성을 나타냈다. 예를 들어, 100℃에서의 10분 열 챌린지 후, 조상 단백질에 의한 형광이 유지되지 않을 경우 그의 미처리 형광의 20%를 초과하는 형광을 유지했다.
도 7은 신경망이 청색 형광 단백질의 화학적 안정성을 개선하였음을 나타낸다. 또 다른 실시예에서, 구아니디늄 용융물에서의 형광 반감기는 유도된 단백질인 블루본넷에 비해, 조상 단백질인 SecBFP2.1에 대해 더 적었다. 정제된 청색 형광 단백질을 6 M 구아니디늄 염화물에서 0.01 mg/mL로 희석하였다. 3개의 100 uL의 분취물을 96-웰 투명 바닥의 흑색 벽 플레이트의 웰에 첨가하고 25℃에서 23시간 동안 인큐베이션하였다. 이들 정제된 형광 단백질을 각각 402 nm 및 457 nm의 여기 및 방출 파장을 사용하여 30분 간격으로 분석하였다. 각각의 측정 전에 플레이트를 교반하였다. 0의 시간에서 측정된 형광 값을 사용하여 분석의 나머지에 걸친 형광을 정규화하였다(예를 들어, 0.8의 측정은 단백질이 그의 초기 형광의 80%를 유지하였음을 나타냄). 도 7에 도시된 바와 같이, 블루본넷은 SecBFP2.1보다 시간 = 0 내지에서 시간 = 약 24시간까지의 모든 시점에 걸쳐 보다 큰 화학적 안정성을 나타냈다.
실시예 2: 블루본넷, 더 밝은 청색 형광 단백질
단백질이 세포를 통해 이동하는 방법과 위치를 살펴볼 때, 과학자들은 전문적인 유전적 도구를 필요로 한다. 이들 도구 중 하나는 UV 광 하에서 형광을 내는 단백질 계열, 즉 형광 단백질이다. 청색 형광 단백질(BFP, pdb: 3m24)은 훨씬 더 흔히 사용되는 적색 형광 단백질의 유도체이지만, 열위한 생체 내 활성을 갖는다. 3D 컨볼루션 신경망 파이프라인을 사용하여 대장균 세포 내에서 발현될 경우 형광을 증가시킬 BFP의 변이체를 예측하였다. 도 8은 17개의 신경망 예측이 (야생형으로 정규화된 것으로 도시된) 형광을 증가시키는 능력에 대해 시험되었음을 나타내는 데이터를 제공한다. 도 9는 유익한 돌연변이를 조합했을 경우, 야생형에 비해 > 8배의 형광 증가가 관찰되었음을 입증하는 데이터를 제공한다. 도 10은 S28A, S114T, T127L, 및 N173H 돌연변이의 조합을 포함하는 블루본넷 청색 형광 단백질의 형광 증가가 부모 계통뿐만 아니라 다른 청색 형광 단백질과 비교했을 때 가시적임을 나타낸다.
컴퓨터의 시스템 다이어그램
도 11a 및 도 11b는 본원에서 논의된 시스템 및 방법의 구현과 관련하여 유용한 컴퓨터의 구현예를 도시하는 블록 다이어그램이다. 도 11a 및 도 11b는 전형적인 컴퓨터(1100)의 블록 다이어그램을 도시한다. 도 11a 및 도 11b에 도시된 바와 같이, 컴퓨터(1100)는 중앙 프로세싱 유닛(1102) 및 메인 메모리 유닛(1104)을 포함한다. 컴퓨터(1100) 은 또한 하나 이상의 입력/출력 장치(130a 내지 130n)(일반적으로 참조 번호 (1130)을 사용하여 지칭함), 보조 프로세서(1106), 및 중앙 프로세싱 유닛(1102) 및 보조 프로세서(1106)와 통신하는 캐시 메모리(1140)와 같은 다른 선택적인 요소를 포함할 수 있다.
중앙 프로세싱 유닛(1102)은 메인 메모리 유닛(1104)에 응답하고 이로부터 인출된 명령어를 프로세싱하는 임의의 논리 회로이다. 많은 구현예에서, 중앙 프로세싱 유닛은, Mountain View, California 소재 Intel Corporation에 의해 제조된 것; Schaumburg, Illinois 소재 Motorola Corporation에 의해 제조된 것; White Plains, New York 소재 International Business Machines에 의해 제조된 것; 또는 Sunnyvale, California 소재 Advanced Micro Devices에 의해 제조된 것과 같은 마이크로프로세서 유닛에 의해 제공된다.
유사하게, 보조 프로세서(1106)는 메인 메모리 유닛(1104)에 응답하고 이로부터 인출된 명령어를 프로세싱하는 임의의 논리 회로이다. 일부 구현예에서, 보조 프로세서(1106)는 Mountain View, California 소재 Google에 의해 제조된 것과 같은 인공 지능 애플리케이션-특이적 집적 회로인 텐서 프로세싱 유닛("TPU")을 포함할 수 있다.
메인 메모리 유닛(1104)은, 정적 랜덤 액세스 메모리(SRAM), Burst SRAM 또는 SynchBurst SRAM(BSRAM), 동적 랜덤 액세스 메모리(DRAM), 고속 페이지 모드 DRAM(FPM DRAM), 인핸스드 DRAM(EDRAM), 확장 데이터 출력 RAM(EDO RAM), 확장 데이터 출력 DRAM(EDO DRAM), Burst 확장 데이터 출력 DRAM(BEDO DRAM), 인핸스드 DRAM(EDRAM), 동기화 DRAM(SDRAM), JEDEC SRAM, PC100 SDRAM, Double Data Rate SDRAM(DDR SDRAM), 인핸스드 SDRAM(ESDRAM), SyncLink DRAM(SLDRAM), Direct Rambus DRAM(DRDRAM), 또는 강유전체 RAM(FRAM)과 같은, 데이터를 저장할 수 있고 메인 프로세서(1102) 또는 보조 프로세서(1106)의 마이크로프로세서에 의해 임의의 저장 위치가 직접적으로 액세스되도록 할 수 있는 하나 이상의 메모리 칩일 수 있다.
도 11a에 도시된 구현예에서, 프로세서(1102)는 시스템 버스(1120)를 통해 메인 메모리(1104)와 통신한다(아래에서 더 상세히 설명됨). 유사하게, 보조 프로세서(1106)는 시스템 버스(1120)를 통해 메인 메모리(1104)와 통신한다. 도 11b는 프로세서(1102)가 메모리 포트를 통해 메인 메모리(1104)와 직접 통신하는 컴퓨터 시스템(1100)의 구현예를 도시한다. 예를 들어, 도 11b에서, 메인 메모리(1104)는 DRDRAM일 수 있다. 일부 구현예에서, 신경망 엔진은 메인 메모리가 학습된 가중치의 값을 저장하는 역할을 할 수 있기 때문에 메인 메모리 내에 위치할 수 있다.
도 11a 및 도 11b는 종종 "백사이드" 버스로 지칭되는 보조 버스를 통해 메인 프로세서(1102)가 캐시 메모리(1140)와 직접 통신하는 구현예를 도시한다. 일부 구현예에서, 보조 프로세서(1106)는 보조 버스를 통해 캐시 메모리(1140)와 직접 통신할 수 있다. 다른 구현예에서, 메인 프로세서(1102)는 시스템 버스(1120)를 사용하여 캐시 메모리(1140)와 통신한다. 다른 구현예에서, 보조 프로세서(1106)는 시스템 버스(1120)를 사용하여 캐시 메모리(1140)와 통신할 수 있다. 캐시 메모리(1140)는 일반적으로 메인 메모리(1104)보다 더 빠른 응답 시간을 가지며, 일반적으로 SRAM, BSRAM 또는 EDRAM에 의해 제공된다. 일부 구현예에서, 보조 프로세서는 (메인 프로세서(1102) 상에서 이러한 계산을 수행하는 것보다 더 빠르거나 더 효율적일 수 있는) 신경망에 관한 계산을 수행하기 위한 텐서 프로세싱 유닛(TPU) 또는 애플리케이션-특이적 집적 회로(ASIC)와 같은 다른 보조 프로세서를 포함할 수 있다.
도 11a에 도시된 구현예에서, 프로세서(1102) 및 보조 프로세서(1106)는 로컬 시스템 버스(1120)를 통해 다양한 I/O 장치(1130)와 통신한다. VESA VL 버스, ISA 버스, EISA 버스, MicroChannel Architecture(MCA) 버스, PCI 버스, PCI-X 버스, PCI-Express 버스, 또는 NuBus를 포함하는, 다양한 버스가 중앙 프로세싱 유닛(1102) 및 보조 프로세서(1106)를 I/O 장치(1130)에 연결하는 데 사용될 수 있다. I/O 장치가 비디오 디스플레이인 구현예의 경우, 프로세서(1102) 및/또는 보조 프로세서(1106)는 디스플레이와 통신하도록 Advanced Graphics Port(AGP)를 사용할 수 있다. 도 11b는 메인 프로세서(1102)가 HyperTransport, Rapid I/O, 또는 InfiniBand를 통해 I/O 장치(1130b)와 직접 통신하는 컴퓨터 시스템(1100)의 구현예를 도시한다. 도 11b는 또한 로컬 버스 및 직접 통신이 혼합된 구현예를 도시한다: 프로세서(1102)는, I/O 장치(1130b)와 직접 통신하면서 로컬 상호 연결 버스를 사용하여 I/O 장치(1130a)와 통신한다.
광범위한 I/O 장치(1130)가 컴퓨터 시스템(1100) 내에 존재할 수 있다. 입력 장치는 키보드, 마우스, 트랙패드, 트랙볼, 마이크 및 드로잉 태블릿을 포함한다. 출력 장치는 비디오 디스플레이, 스피커, 잉크젯 프린터, 레이저 프린터 및 염료 승화 프린터를 포함한다. I/O 장치는 또한 하드 디스크 드라이브, 3.5인치, 5.25인치 디스크 또는 ZIP 디스크와 같은 플로피 디스크를 수용하기 위한 플로피 디스크 드라이브, CD-ROM 드라이브, CD-R/RW 드라이브, DVD-ROM 드라이브, 다양한 형식의 테이프 드라이브, 및 Los Alamitos, California 소재 Twintech Industry, Inc.에 의해 제조된 USB 플래시 드라이브 라인의 장치 및 Cupertino, California 소재 Apple Computer, Inc.에 의해 제조된 iPod Shuffle 라인의 장치와 같은 USB 저장 장치와 같은 컴퓨터 시스템(1100)에 대한 대용량 저장 장치를 제공할 수 있다.
추가의 구현예에서, I/O 장치(1130)는, USB 버스, Apple Desktop Bus, RS-232 직렬 연결, SCSI 버스, FireWire 버스, FireWire 800 버스, 이더넷 버스, AppleTalk 버스, Gigabit 이더넷 버스, Asynchronous Transfer Mode 버스, HIPPI 버스, Super HIPPI 버스, SerialPlus 버스, SCI/LAMP 버스, FibreChannel 버스, 또는 직렬 연결 소형 컴퓨터 시스템 인터페이스 버스와 같은 외부 통신 버스와 시스템 버스(1120) 간의 브릿지일 수 있다.
도 11a 및 도 11b에 도시된 종류의 범용 데스크톱 컴퓨터는 일반적으로 작업 일정 및 시스템 리소스에 대한 액세스를 제어하는 운영 체제의 제어 하에 작동한다. 일반적인 운영 체제는 다음과 같다: Redmond, Washington 소재 Microsoft Corp.에 의해 제조된 MICROSOFT WINDOWS; Cupertino, California 소재 Apple Computer에 의해 제조된 MacOS; Armonk, New York 소재 International Business Machines에 의해 제조된 OS/2; 및 다른 것들 중에서도 Salt Lake City, Utah 소재 Caldera Corp.에 의해 배포된 자유롭게 이용 가능한 운영 체제인 Linux.
본원에 인용된 각각의 모든 특허, 특허 출원 및 개시물은 그 전체가 참조로서 본원에 통합된다. 본 발명은 특정 구현예를 참조하여 개시되었지만, 본 발명의 다른 구현예 및 변형예가 본 발명의 진정한 사상 및 범주로부터 벗어나지 않고 당업자에 의해 고안될 수 있음이 명백하다. 첨부된 청구범위는 이러한 모든 구현예 및 동등한 변형을 포함하는 것으로 해석되도록 의도된다.
SEQUENCE LISTING <110> Board of Regents, The University of Texas System Ellington, Andrew Cole, Austin Shroff, Raghav Thyer, Ross <120> SYSTEM AND METHOD FOR INCREASING SYNTHESIZED PROTEIN STABILITY <130> 206161-0018-00WO <150> 62/841,906 <151> 2019-05-02 <160> 28 <170> PatentIn version 3.5 <210> 1 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> Wild-type secBFP2 <400> 1 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 2 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a T18W mutation <400> 2 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Trp Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 3 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a T18V mutation <400> 3 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Val Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 4 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a T18E mutation <400> 4 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Glu Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 5 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a S28A mutation <400> 5 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ala Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 6 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a Y96F mutation <400> 6 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Phe 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 7 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a S114V mutation <400> 7 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Val Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 8 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a S114T mutation <400> 8 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Thr Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 9 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a V124T mutation <400> 9 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Thr Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 10 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a V124Y mutation <400> 10 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Tyr Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 11 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a V124W mutation <400> 11 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Trp Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 12 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a T127P mutation <400> 12 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Pro Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 13 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a T127L mutation <400> 13 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Leu Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 14 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a T127R mutation <400> 14 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Arg Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 15 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a T127D mutation <400> 15 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Asp Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 16 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a D151G mutation <400> 16 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Gly Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 17 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a N173T mutation <400> 17 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Thr Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 18 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a N173H mutation <400> 18 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala His Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 19 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a N173R mutation <400> 19 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Arg Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 20 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a N173S mutation <400> 20 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Ser Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 21 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a R198V mutation <400> 21 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Val Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 22 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising a R198L mutation <400> 22 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Ser Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Leu Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 23 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising the mutations of T18W, S28A, S114V, V124T, T127P, D151G, N173T, and R198L <400> 23 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Trp Val Asp Asn His His Phe Lys Cys Thr Ala Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Val Leu Ile Tyr Asn Val Lys Ile Arg Gly Thr Asp Phe Pro Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Gly Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Thr Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Leu Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 24 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising the mutations of S28A, S114T, T127L, and N173H <400> 24 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ala Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Thr Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Leu Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala His Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 25 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> comprises secBFP2 comprising the mutations of S28A and S114T <400> 25 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ala Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Thr Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 26 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising the mutations of S28A, S114T, and N173H <400> 26 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ala Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Thr Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala His Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 27 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising the mutations of S28A, Y96F, S114T, and N173H <400> 27 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ala Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Phe 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Thr Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala His Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 28 <211> 233 <212> PRT <213> Artificial Sequence <220> <223> secBFP2 comprising the mutations of S28A, Y96F, S114T, T127L, and N173H <400> 28 Ser Glu Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ala Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asp His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Phe 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Thr Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asp Phe Leu Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala His Ala Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asp Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Ser Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230

Claims (30)

  1. 신경망을 학습시켜 단백질의 특성을 개선하는 컴퓨터 구현 방법으로서,
    데이터베이스로부터 아미노산 서열 세트를 수집하는 단계;
    상기 아미노산 세트에 대한 화학적 환경을 갖는 3차원 결정학 구조 세트를 컴파일링하는 단계;
    상기 화학적 환경을 복셀화된 매트릭스로 번역하는 단계;
    상기 복셀화된 매트릭스의 서브세트로 신경망을 학습시키는 단계;
    상기 신경망을 사용하여, 표적 단백질 내에서 돌연변이시킬 후보 잔기를 식별하는 단계; 및
    상기 신경망을 사용하여, 돌연변이된 단백질을 생성하도록 상기 후보 잔기를 치환하기 위한 예측 아미노산 잔기를 식별하는 단계를 포함하되,
    여기에서, 상기 돌연변이된 단백질은 상기 표적 단백질에 비해 특성에 있어서의 개선을 나타내는,
    컴퓨터 구현 방법.
  2. 제1항에 있어서, 수소 위치, 부분 전하, 베타 인자, 이차 구조, 방향족성, 전자 밀도 및 극성으로 이루어진 군으로부터 선택된 특징부의 공간 배열을 상기 3차원 결정 구조 중 적어도 하나에 추가하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.
  3. 제1항에 있어서, 상기 아미노산 서열 세트를 조정하여 이들의 고유 빈도를 반영하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.
  4. 제1항에 있어서, 상기 서열 내의 무작위 위치로부터 상기 아미노산 서열 세트 내의 아미노산의 적어도 50%를 샘플링하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.
  5. 제1항에 있어서, 제2 독립적인 신경망을 3차원 결정 구조의 제2 서브세트로 학습시키는 단계, 및 두 신경망 모두의 결과에 기초하여 후보 및 예측 잔기를 식별하는 단계를 추가로 포함하는, 컴퓨터 구현 방법.
  6. 제1항에 있어서, 상기 특성은 안정성, 성숙도, 또는 접힘인, 방법.
  7. 프로세서 및 명령어가 저장된 비일시적 컴퓨터 판독가능 매체를 포함하는, 단백질의 특성을 개선하기 위한 시스템으로서, 상기 프로세서에 의해 실행될 경우,
    잔기의 서열을 포함하는 표적 단백질을 제공하는 단계;
    아미노산을 둘러싸는 3차원 모델 세트 및 각각의 3차원 모델에 대한 단백질 특성 값 세트를 제공하는 단계;
    상기 각각의 3차원 모델의 다양한 지점에서 파라미터 세트를 추정하는 단계;
    상기 3차원 모델, 상기 파라미터, 및 상기 단백질 특성 값으로 신경망을 학습시키는 단계;
    상기 신경망을 사용하여, 상기 표적 단백질 내에서 돌연변이시킬 후보 잔기를 식별하는 단계; 및
    상기 신경망을 사용하여, 상기 후보 잔기를 치환하기 위한 예측 아미노산 잔기를 식별하여 돌연변이된 단백질을 생성하는 단계를 포함하되,
    여기에서, 상기 돌연변이된 단백질은 상기 표적 단백질에 비해 상기 특성에 있어서의 개선을 나타내는,
    시스템.
  8. 제7항에 있어서, 상기 단백질 특성은 안정성인, 시스템.
  9. 제7항에 있어서, 상기 단계는 업데이트된 3차원 모델을 생성하기 위해 상기 접힌 아미노산 서열의 적어도 하나의 아미노산 서열을 재컴파일링하는 단계를 포함하는, 시스템.
  10. 제9항에 있어서, 상기 단계는 재컴파일링 전에 상기 접힌 아미노산 서열의 적어도 하나의 아미노산 서열에 특징부의 공간적 배열을 추가하는 단계를 포함하는, 시스템.
  11. 전장 야생형 secBFP2와 관련하여, T18, S28, Y96, S114, V124, T127, D151, N173, 및 R198로부터 선택된 하나 이상의 잔기에 하나 이상의 돌연변이를 갖는 secBFP2 변이체를 포함하는, 단백질.
  12. 제11항에 있어서, 상기 단백질은, 서열번호 2 내지 서열번호 28로 이루어진 군으로부터 선택된 아미노산 서열을 포함하는 단백질, 서열번호 2 내지 서열번호 28로 이루어진 군으로부터 선택된 아미노산 서열을 포함하는 단백질의 변이체, 서열번호 2 내지 서열번호 28로 이루어진 군으로부터 선택된 아미노산 서열을 포함하는 융합 단백질, 및 서열번호 2 내지 서열번호 28로 이루어진 군으로부터 선택된 아미노산 서열을 포함하는 단백질의 단편으로 이루어진 군으로부터 선택되는, 단백질.
  13. 제11항의 단백질을 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자.
  14. 제13항에 있어서, 상기 분자는 플라스미드인, 핵산 분자.
  15. 제13항에 있어서, 상기 분자는 발현 벡터인, 핵산 분자.
  16. 제13항에 있어서, 상기 핵산 분자는 이종 단백질 암호화 서열의 삽입을 위한 다중 클로닝 부위를 추가로 포함하는, 핵산 분자.
  17. 제11항의 단백질을 포함하는, 조성물.
  18. 제13항의 핵산 분자를 포함하는, 조성물.
  19. 제13항의 핵산 분자를 포함하는, 키트.
  20. 표적 단백질의 하나 이상의 특성을 개선하는 방법으로서,
    상기 아미노산 서열의 특정 위치에서, 돌연변이에 대한 후보 잔기로서 하나 이상의 아미노산 잔기를 식별하도록 학습된 신경망을 사용하여 표적 단백질의 아미노산 서열을 분석하는 단계; 및
    상기 신경망을 사용하여, 상기 후보 잔기 중 적어도 하나에 대한 치환기로서 사용하기 위한 하나 이상의 예측 아미노산 잔기를 식별하는 단계를 포함하는,
    방법.
  21. 제20항에 있어서, 상기 신경망을 사용하여, 상기 후보 잔기 중 적어도 다른 하나에 대한 치환기로서 사용하기 위한 하나 이상의 예측 아미노산 잔기를 식별하는 단계를 추가로 포함하는, 방법.
  22. 제20항에 있어서, 상기 신경망을 사용하여, 상기 후보 잔기 각각에 대한 치환기로서 사용하기 위한 하나 이상의 예측 아미노산 잔기를 식별하는 단계를 추가로 포함하는, 방법.
  23. 제20항에 있어서, 하나 이상의 치환을 통해 돌연변이 단백질을 합성하는 단계를 추가로 포함하되, 상기 돌연변이 단백질은 상기 표적 단백질의 돌연변이 단백질에 비해 하나 이상의 개선된 특성을 나타내는, 방법.
  24. 제20항에 있어서, 상기 신경망은,
    (a) 아미노산 잔기의 주어진 서열을 갖고, 각각의 아미노산 잔기의 미세환경과 연관된 하나 이상의 속성을 나타내는 접힌 단백질을 나타내는 다차원 어레이를 생성하는 단계;
    (b) 상기 다차원 어레이를 벡터로 사전 프로세싱하는 단계;
    (c) 상기 사전 프로세싱된 벡터로부터 상기 신경망을 통해, 상기 접힌 단백질과 연관된 미세환경의 중앙에서 예측 아미노산 잔기를 계산하는 단계;
    (d) 상기 예측 아미노산 잔기와 상기 미세환경과 연관된 아미노산 잔기 사이의 차이를 결정하는 단계; 및
    (e) 임계값을 초과하는 결정된 차이에 반응하여, 상이한 접힌 단백질에 대해 단계 (a) 내지 단계 (d)를 반복적으로 반복하는 단계에 의해 학습되는,
    방법.
  25. 제24항에 있어서, 상기 표적 단백질의 아미노산 서열로부터의 하나 이상의 아미노산의 샘플로부터 상기 다차원 어레이를 생성하는 단계를 추가로 포함하는, 방법.
  26. 제24항에 있어서, 상기 다차원 어레이를 생성하는 단계는 상기 접힌 단백질의 3차원 모델을 복셀화된 매트릭스에 맵핑하는 단계를 추가로 포함하는, 방법.
  27. 제24항에 있어서, 상기 다차원 어레이를 사전 프로세싱하는 단계는,
    상기 신경망의 하나 이상의 컨볼루션 레이어 각각에 대해, 상기 다차원 어레이의 서브세트로부터 특징부를 추출하는 단계, 상기 추출된 특징부를 특징부-특이적 맵을 생성하도록 다운샘플링하는 단계; 및
    상기 특징부-특이적 맵을 1차원 벡터로 조합하는 단계를 추가로 포함하는,
    방법.
  28. 제24항에 있어서, 상기 단계 (e)는 상기 예측 후보 잔기와 아미노산 잔기 및 상기 측정된 잔기와 아미노산 잔기 사이의 차이에 반응하여, 상기 신경망의 하나 이상의 뉴런 가중치를 수정하는 단계를 추가로 포함하는, 방법.
  29. 아미노산 서열을 합성하는 방법으로서,
    컴퓨팅 장치에 의해 실행된 학습된 신경망에 의한 단백질의 아미노산 시리즈로부터, 상기 아미노산 서열의 특정 위치에서 하나 이상의 아미노산 잔기를 돌연변이에 대한 후보 잔기로서 식별하는 단계;
    상기 제1 후보 잔기를 상기 제1 치환 잔기로 치환하면 상기 단백질이 적어도 하나의 개선된 특성을 나타낼 것이라는 상기 신경망에 의한 예측에 반응하여, 하나 이상의 제2 산 잔기로부터, 제1 후보 잔기의 치환을 위한 제1 치환 잔기를 상기 신경망에 의해 선택하는 단계; 및
    상기 선택에 반응하여, 상기 제1 후보 잔기를 대신하여 상기 제1 치환 잔기를 상기 단백질과 합성하는 단계를 포함하는,
    방법.
  30. 제29항에 있어서, 상기 합성하는 단계는 재조합 방법을 사용하는 컴퓨팅 장치, 단백질 합성, 또는 단백질 발현에 의해 수행되는, 방법.
KR1020217037656A 2019-05-02 2020-05-01 합성 단백질 안정성을 증가시키기 위한 시스템 및 방법 KR102642718B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020247006380A KR20240033101A (ko) 2019-05-02 2020-05-01 합성 단백질 안정성을 증가시키기 위한 시스템 및 방법

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962841906P 2019-05-02 2019-05-02
US62/841,906 2019-05-02
PCT/US2020/031084 WO2020247126A2 (en) 2019-05-02 2020-05-01 System and method for increasing synthesized protein stability

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020247006380A Division KR20240033101A (ko) 2019-05-02 2020-05-01 합성 단백질 안정성을 증가시키기 위한 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220002978A true KR20220002978A (ko) 2022-01-07
KR102642718B1 KR102642718B1 (ko) 2024-02-29

Family

ID=73652871

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020247006380A KR20240033101A (ko) 2019-05-02 2020-05-01 합성 단백질 안정성을 증가시키기 위한 시스템 및 방법
KR1020217037656A KR102642718B1 (ko) 2019-05-02 2020-05-01 합성 단백질 안정성을 증가시키기 위한 시스템 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020247006380A KR20240033101A (ko) 2019-05-02 2020-05-01 합성 단백질 안정성을 증가시키기 위한 시스템 및 방법

Country Status (7)

Country Link
US (2) US11551786B2 (ko)
EP (1) EP3962932A4 (ko)
JP (2) JP7387760B2 (ko)
KR (2) KR20240033101A (ko)
CN (1) CN113727994A (ko)
CA (1) CA3138861A1 (ko)
WO (1) WO2020247126A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023132519A1 (ko) 2022-01-07 2023-07-13 주식회사 엘지에너지솔루션 화염차단부재가 부가된 버스바를 포함하는 전지셀 어셈블리 및 이를 포함하는 전지셀 어셈블리 구조체

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022260171A1 (ja) * 2021-06-11 2022-12-15 株式会社 Preferred Networks 推定装置及びモデル生成方法
WO2023034205A2 (en) * 2021-08-30 2023-03-09 Intellisafe Llc Real-time virus and damaging agent detection
WO2023115550A1 (en) * 2021-12-24 2023-06-29 GeneSense Technology Inc. Deep learning based methods and systems for nucleic acid sequencing
CN114550824B (zh) * 2022-01-29 2022-11-22 河南大学 基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法及系统
CN115171787A (zh) * 2022-07-08 2022-10-11 腾讯科技(深圳)有限公司 抗原预测方法、装置、设备以及存储介质
WO2024122449A1 (ja) * 2022-12-06 2024-06-13 株式会社レボルカ 機械学習による抗体設計法
CN116486906B (zh) * 2023-04-17 2024-03-19 深圳新锐基因科技有限公司 基于氨基酸残基突变提高蛋白质分子稳定性的方法及装置
CN116486903B (zh) * 2023-04-17 2023-12-29 深圳新锐基因科技有限公司 基于同源蛋白序列进化方向结合自由能变提高蛋白稳定性的方法及装置
CN117831625A (zh) * 2023-12-19 2024-04-05 苏州沃时数字科技有限公司 基于图神经网络的酶定向突变序列预测方法、系统及介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0589074A (ja) * 1991-09-30 1993-04-09 Fujitsu Ltd 二次構造予測装置
JP2551297B2 (ja) * 1992-05-18 1996-11-06 日本電気株式会社 タンパク質立体構造予測方法
EP0851874B1 (en) 1995-09-22 1999-09-15 Novo Nordisk A/S Novel variants of green fluorescent protein, gfp
JP2000229994A (ja) 1999-02-15 2000-08-22 Nec Corp 蛋白質立体構造予測方法及び装置
US20030165988A1 (en) * 2002-02-08 2003-09-04 Shaobing Hua High throughput generation of human monoclonal antibody against peptide fragments derived from membrane proteins
GB0109858D0 (en) 2001-04-23 2001-06-13 Amersham Pharm Biotech Uk Ltd Fluorscent proteins
US20080014646A1 (en) 2001-10-05 2008-01-17 Riken Method of presuming domain linker region of protein
ES2564570T3 (es) 2002-03-01 2016-03-23 Codexis Mayflower Holdings, Llc Métodos, sistemas y software para la identificación de biomoléculas funcionales
US20050251872A1 (en) * 2002-09-06 2005-11-10 Bear James E Lentiviral vectors, related reagents, and methods of use thereof
NZ591252A (en) * 2006-03-17 2012-06-29 Biogen Idec Inc Methods of designing antibody or antigen binding fragments thereof with substituted non-covarying amino acids
US20080215301A1 (en) * 2006-05-22 2008-09-04 Yeda Research And Development Co. Ltd. Method and apparatus for predicting protein structure
BR122019026330B1 (pt) * 2006-10-10 2020-12-01 The Australian National University proteína rubisco, microrganismo transgênico,microrganismo fotossintético, bem como métodos para aumentar a eficiência fotossintética de um organismo e para aumentar o rendimento da colheita ou a resistência à seca ou a adaptação ao calor ou ao frio em uma planta
JP5584752B2 (ja) * 2009-04-15 2014-09-03 ポステク アカデミー−インダストリー ファウンデイション 標的特異的非抗体タンパク質及びこの製造方法
JP6006722B2 (ja) * 2010-08-24 2016-10-12 セーフホワイト インコーポレイテッド 歯に白い外観を与えるための方法および材料
LT2951579T (lt) * 2013-01-31 2024-05-27 Codexis, Inc. Biomolekulių identifikavimo naudojant multiplikacinės formos modelius būdai, sistemos ir programinė įranga
GB201310859D0 (en) * 2013-06-18 2013-07-31 Cambridge Entpr Ltd Rational method for solubilising proteins
US9354175B2 (en) 2014-01-10 2016-05-31 Lucigen Corporation Lucigen yellow (LucY), a yellow fluorescent protein
US9920102B2 (en) * 2015-05-15 2018-03-20 Albert Einstein College Of Medicine, Inc. Fusion tags for protein expression
WO2017062382A1 (en) * 2015-10-04 2017-04-13 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
JP7048065B2 (ja) 2017-08-02 2022-04-05 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法
CN108460742A (zh) * 2018-03-14 2018-08-28 日照职业技术学院 一种基于bp神经网络的图像复原方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023132519A1 (ko) 2022-01-07 2023-07-13 주식회사 엘지에너지솔루션 화염차단부재가 부가된 버스바를 포함하는 전지셀 어셈블리 및 이를 포함하는 전지셀 어셈블리 구조체

Also Published As

Publication number Publication date
JP2022531295A (ja) 2022-07-06
WO2020247126A3 (en) 2021-03-11
US20220076787A1 (en) 2022-03-10
US11551786B2 (en) 2023-01-10
KR20240033101A (ko) 2024-03-12
JP2024016257A (ja) 2024-02-06
WO2020247126A2 (en) 2020-12-10
US20230162816A1 (en) 2023-05-25
WO2020247126A9 (en) 2021-01-21
CN113727994A (zh) 2021-11-30
EP3962932A4 (en) 2023-05-10
JP7387760B2 (ja) 2023-11-28
CA3138861A1 (en) 2020-12-10
EP3962932A2 (en) 2022-03-09
KR102642718B1 (ko) 2024-02-29

Similar Documents

Publication Publication Date Title
KR102642718B1 (ko) 합성 단백질 안정성을 증가시키기 위한 시스템 및 방법
Tian et al. Labeling and single-molecule methods to monitor G protein-coupled receptor dynamics
Kerppola Visualization of molecular interactions using bimolecular fluorescence complementation analysis: characteristics of protein fragment complementation
Alberts et al. Analyzing protein structure and function
Kaushansky et al. Quantifying protein–protein interactions in high throughput using protein domain microarrays
Andrews et al. Hysteresis as a marker for complex, overlapping landscapes in proteins
JP4505439B2 (ja) 糖濃度に対するシグナル強度の向上した蛍光標識蛋白質及びその用途
Hamers et al. Development of FRET biosensors for mammalian and plant systems
Duart et al. Methodological approaches for the analysis of transmembrane domain interactions: A systematic review
US20240177805A1 (en) System and methods for increasing synthesized protein stability
McBride et al. Slowest-first protein translation scheme: Structural asymmetry and co-translational folding
CA2949355A1 (en) Genetically encoded sensors for imaging proteins and their complexes
Meiresonne et al. Detection of protein interactions in the cytoplasm and periplasm of Escherichia coli by Förster resonance energy transfer
US7670787B2 (en) Protein forming complex with c-Fos protein, nucleic acid encoding the same and method of using the same
Aubel et al. High-throughput Selection of Human de novo-emerged sORFs with High Folding Potential
Mal et al. Functional silencing of TATA-binding protein (TBP) by a covalent linkage of the N-terminal domain of TBP-associated factor 1
Baucom Single Molecule Fluorescence Studies of protein structure and dynamics underlying the chloroplast signal recognition particle targeting pathway
Meiresonne et al. Detection of in vivo protein interactions in all bacterial compartments by förster resonance energy transfer with the superfolder mTurquoise2 ox-mNeongreen FRET pair
Gebhardt et al. Labelizer: systematic selection of protein residues for covalent fluorophore labeling
JPWO2005050518A1 (ja) 遺伝子および/又は蛋白質のデータベースを用いた相互作用マップの作成方法、ならびに、それを実現するためのソフトウエアおよび装置
Bui et al. An unusual disulfide-linked dimerization in the fluorescent protein rsCherryRev1. 4
Son et al. Analysis of Fluorescent Proteins for Observing Single Gene Locus in a Live and Fixed Escherichia coli Cell
Macapagal Characterization of the folding and assembly of single-chain antibodies
Kumar W here do all the proteins go?

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant